【Transformer 与注意力机制】20|Transformer 整体架构:一张图看懂
把 18 篇文章里讲过的所有零件——QKV、多头注意力、causal mask、位置编码、FFN、残差、归一化——拼成一张完整的 Transformer 图。跟随一个 token 走完从输入到输出的全部旅程,建立对架构的「身体记忆」。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 3 篇文章 · 返回首页
把 18 篇文章里讲过的所有零件——QKV、多头注意力、causal mask、位置编码、FFN、残差、归一化——拼成一张完整的 Transformer 图。跟随一个 token 走完从输入到输出的全部旅程,建立对架构的「身体记忆」。
回顾 AI-Native、向量检索、HTAP 云原生、新硬件、隐私、新范式、方法论七条主线,给出面向负载的开发者选型决策矩阵,并列出 12 个仍未解决的开放问题与待观察方向。
USE 方法论适用于资源,RED 方法论适用于请求,Golden Signals 适用于服务——三套方法论各有其适用对象。本文从 Brendan Gregg、Tom Wilkie、Google SRE 的原始定义出发,构建覆盖资源→服务→业务的完整指标体系,并给出 Prometheus 命名规范、基数治理策略与可抄的指标清单。