encoder 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】22｜Encoder 详解：6 层堆叠到底在做什么

2026-04-15 | transformer | #transformer #encoder #self-attention #bert #architecture

把 Transformer encoder 从“左半边”这个模糊概念拆成可操作的结构：单层里 self-attention、FFN、残差、LayerNorm 各做什么；6 层堆叠为什么不是重复劳动；encoder 输出为什么适合理解任务而不直接擅长生成；以及它和 decoder-only、encoder-decoder 两条路线到底差在哪。

【Transformer 与注意力机制】20｜Transformer 整体架构：一张图看懂

2026-04-15 | transformer | #transformer #architecture #encoder #decoder #overview #summary

把 18 篇文章里讲过的所有零件——QKV、多头注意力、causal mask、位置编码、FFN、残差、归一化——拼成一张完整的 Transformer 图。跟随一个 token 走完从输入到输出的全部旅程，建立对架构的「身体记忆」。