nlp 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】37|BERT:双向编码器为什么适合理解任务

BERT 不是“早期大模型”的历史遗物,而是 Encoder-only Transformer 路线的代表。本文解释为什么 BERT 选择双向编码器,Masked Language Modeling 到底在学什么,Next Sentence Prediction 为什么后来被质疑,以及为什么 BERT 天然适合分类、匹配、抽取这类理解任务,却不是自回归生成模型。