masked-language-model 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】37｜BERT：双向编码器为什么适合理解任务

2026-04-15 | transformer | #transformer #bert #encoder-only #masked-language-model #nlp

BERT 不是“早期大模型”的历史遗物，而是 Encoder-only Transformer 路线的代表。本文解释为什么 BERT 选择双向编码器，Masked Language Modeling 到底在学什么，Next Sentence Prediction 为什么后来被质疑，以及为什么 BERT 天然适合分类、匹配、抽取这类理解任务，却不是自回归生成模型。