mamba 标签归档

共 3 篇文章 · 返回首页

【大模型基础设施工程】16：长上下文工程

2026-04-22 | architecture · ai-infra | #llm #infra #long-context #rope #yarn #ring-attention #mamba #mla #nsa #streamingllm #ulysses

从 4K 到 1M+ 上下文的训练与推理工程——位置编码扩展、稀疏 attention、Ring Attention、KV 压缩与长上下文评测

【大模型基础设施工程】25：大模型基础设施未来

2026-04-22 | architecture · ai-infra | #llm #infra #outlook #world-model #agentic-os #rubin #mamba #diffusion-llm #edge-llm #chip #career #ai-act

系列收官：从 2022 到 2026 的四年拐点出发，梳理推理时 Scaling、世界模型、Agentic OS、专用芯片、架构创新、端侧、成本腰斩、合规八大趋势，并给出工程师成长路径与 25 篇索引。

【Transformer 与注意力机制】56｜状态空间模型：Mamba、S4 的线性复杂度路径

2026-04-15 | transformer | #transformer #state-space-model #mamba #s4 #long-sequence

Transformer 的 full attention 在长序列上代价高昂，状态空间模型试图用可学习状态在线性时间里携带历史。本文从最小状态空间直觉讲到 S4 和 Mamba，解释 selective state space、parallel scan 为什么重要，以及 SSM 为什么有吸引力但还不能简单宣布取代 Transformer。