word2vec 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】08 嵌入：从 one-hot 到分布式表示

embedding 是把离散的词变成稠密向量的桥梁。从 one-hot 的痛苦出发，经过 Firth 的分布假设、word2vec、GloVe、ELMo、BERT，一路走到现代 LLM 的 embedding 矩阵，本文把这条 70 年的演化讲清楚。