WordPiece:一种常用于自然语言处理(NLP)的子词切分/分词方法,把单词拆成更小的“子词单元”(subword units),以便模型处理生僻词、词形变化和未登录词(OOV)。常见于现代语言模型的分词器中。(也可泛指“单词的一部分/词片段”,但最常见用法是指该算法与其生成的子词。)
/ˈwɝːd.piːs/
由 word(词、单词)+ piece(片、块)构成的复合词,字面意思是“单词的片段”。在计算语言学语境中,它被用作专有名词,指一种把词拆成“更小片段”的子词建模思路与实现。
WordPiece breaks rare words into smaller units so the model can still understand them.
WordPiece 会把罕见词拆成更小的单元,这样模型仍然能理解它们。
In our pipeline, we train a WordPiece vocabulary and tokenize all texts before feeding them into the transformer.
在我们的流程中,我们先训练一个 WordPiece 词表,并在送入 Transformer 之前对所有文本进行 WordPiece 分词。