bert 标签归档

共 4 篇文章 · 返回首页

【Transformer 与注意力机制】30|预训练目标:BERT、GPT、T5 其实在学三种不同的事

这篇文章只比较文本模型里最重要的三类预训练目标:GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义,而是看清它们各自优化什么接口、为什么迁移方式不同,以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。

【Transformer 与注意力机制】37|BERT:双向编码器为什么适合理解任务

BERT 不是“早期大模型”的历史遗物,而是 Encoder-only Transformer 路线的代表。本文解释为什么 BERT 选择双向编码器,Masked Language Modeling 到底在学什么,Next Sentence Prediction 为什么后来被质疑,以及为什么 BERT 天然适合分类、匹配、抽取这类理解任务,却不是自回归生成模型。

【Transformer 与注意力机制】22|Encoder 详解:6 层堆叠到底在做什么

把 Transformer encoder 从“左半边”这个模糊概念拆成可操作的结构:单层里 self-attention、FFN、残差、LayerNorm 各做什么;6 层堆叠为什么不是重复劳动;encoder 输出为什么适合理解任务而不直接擅长生成;以及它和 decoder-only、encoder-decoder 两条路线到底差在哪。