long-context 标签归档

共 6 篇文章 · 返回首页

【大模型基础设施工程】16：长上下文工程

2026-04-22 | architecture · ai-infra | #llm #infra #long-context #rope #yarn #ring-attention #mamba #mla #nsa #streamingllm #ulysses

从 4K 到 1M+ 上下文的训练与推理工程——位置编码扩展、稀疏 attention、Ring Attention、KV 压缩与长上下文评测

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

2026-05-27 | architecture · ai-infra | #llm #infra #deepseek #moe #long-context #kv-cache #fp4 #muon #agent

从 MoE 激活比、CSA/HCA 混合注意力、mHC、Muon，到磁盘级 KV cache、FP4 QAT 和专家蒸馏，系统拆解 DeepSeek-V4 为什么能把 1M 上下文和强 Agent 能力做得又强又便宜。

【Transformer 与注意力机制】41｜位置编码演进：Sinusoidal → Learned → RoPE → ALiBi

2026-04-15 | transformer | #transformer #positional-encoding #rope #alibi #long-context

Transformer 本身没有递归和卷积，如果不注入位置信息，它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi，解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”，以及长上下文为什么让位置外推变成核心问题。

【Transformer 与注意力机制】43｜稀疏与局部注意力：Longformer、BigBird、Sparse Transformer

2026-04-15 | transformer | #transformer #sparse-attention #longformer #bigbird #long-context

FlashAttention 优化的是 full attention 的实现路径，稀疏注意力则直接改变 token 之间的连接图。本文解释局部窗口、全局 token、随机连接和结构化稀疏为什么能降低长序列成本，以及 Longformer、BigBird、Sparse Transformer 各自代表什么取舍。

【Transformer 与注意力机制】55｜Transformer 的根本局限：为什么 O(n²) 是终极瓶颈

2026-04-15 | transformer | #transformer #long-context #attention-complexity #architecture #limitations

Transformer 的成功没有消除它的结构性代价。本文区分工程瓶颈和架构瓶颈，解释 O(n²) attention、KV Cache 线性增长、自回归串行性、长上下文与长期记忆的差异、位置外推和数据效率问题，并说明为什么 Mamba、RWKV、RetNet、线性注意力等路线都在试图绕开同一组限制。

【Transformer 与注意力机制】18｜注意力的复杂度问题

2026-04-15 | transformer | #transformer #attention #complexity #efficiency #flashattention #sparse #long-context

为什么 attention 是 O(n²)，O(n²) 到底贵在哪里，5 类降复杂度方案的优劣，FlashAttention 不是 O(n) 这件事，长上下文是怎么把架构师逼疯的。