sentencepiece 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】29｜Tokenization：为什么不是字，也不是词

从“模型到底在预测什么最小单位”这个问题出发，把 tokenization 讲清楚：按词为什么 OOV 爆炸，按字节或字符为什么序列太长，BPE、WordPiece、SentencePiece 分别怎么切、各自优化目标是什么，为什么现代大模型最后大多落在“子词 + 字节兜底”这条折中路线上。