gpt 标签归档

共 3 篇文章 · 返回首页

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

2026-04-15 | transformer | #transformer #pretraining #gpt #bert #t5

这篇文章只比较文本模型里最重要的三类预训练目标：GPT 的自回归语言建模、BERT 的掩码语言建模、T5/BART 的去噪式序列到序列。重点不是背定义，而是看清它们各自优化什么接口、为什么迁移方式不同，以及为什么通用 LLM 最后大多落到 decoder-only 的 next-token prediction。

【Transformer 与注意力机制】38｜GPT 系列：从 GPT-1 到 GPT-4 的路线演进

2026-04-15 | transformer | #transformer #gpt #decoder-only #autoregressive #llm

GPT 路线的关键不是某个模型名字，而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4，只使用公开可确认信息，解释为什么自回归语言模型最终成为大语言模型时代的主线。

【Transformer 与注意力机制】23｜Decoder 详解：为什么它天生适合生成

2026-04-15 | transformer | #transformer #decoder #causal-mask #autoregressive #gpt

把 Transformer decoder 拆开讲透：masked self-attention、cross-attention、FFN 三块子层如何串起来；训练时为什么能并行、推理时为什么必须串行；以及 decoder-only 为什么会成为 GPT 时代的主流路线。