sentencepiece 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】29|Tokenization:为什么不是字,也不是词

从“模型到底在预测什么最小单位”这个问题出发,把 tokenization 讲清楚:按词为什么 OOV 爆炸,按字节或字符为什么序列太长,BPE、WordPiece、SentencePiece 分别怎么切、各自优化目标是什么,为什么现代大模型最后大多落在“子词 + 字节兜底”这条折中路线上。