bert 标签归档

共 4 篇文章 · 返回首页

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

2026-04-15 | transformer | #transformer #pretraining #gpt #bert #t5

这篇文章只比较文本模型里最重要的三类预训练目标：GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义，而是看清它们各自优化什么接口、为什么迁移方式不同，以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。

【Transformer 与注意力机制】37｜BERT：双向编码器为什么适合理解任务

2026-04-15 | transformer | #transformer #bert #encoder-only #masked-language-model #nlp

BERT 不是“早期大模型”的历史遗物，而是 Encoder-only Transformer 路线的代表。本文解释为什么 BERT 选择双向编码器，Masked Language Modeling 到底在学什么，Next Sentence Prediction 为什么后来被质疑，以及为什么 BERT 天然适合分类、匹配、抽取这类理解任务，却不是自回归生成模型。

【Transformer 与注意力机制】22｜Encoder 详解：6 层堆叠到底在做什么

2026-04-15 | transformer | #transformer #encoder #self-attention #bert #architecture

把 Transformer encoder 从“左半边”这个模糊概念拆成可操作的结构：单层里 self-attention、FFN、残差、LayerNorm 各做什么；6 层堆叠为什么不是重复劳动；encoder 输出为什么适合理解任务而不直接擅长生成；以及它和 decoder-only、encoder-decoder 两条路线到底差在哪。

【Transformer 与注意力机制】08 嵌入：从 one-hot 到分布式表示

2026-04-15 | transformer | #embedding #word2vec #glove #distributional hypothesis #bert #transformer

embedding 是把离散的词变成稠密向量的桥梁。从 one-hot 的痛苦出发，经过 Firth 的分布假设、word2vec、GloVe、ELMo、BERT，一路走到现代 LLM 的 embedding 矩阵，本文把这条 70 年的演化讲清楚。