architecture 标签归档

共 8 篇文章 · 返回首页

【Transformer 与注意力机制】55|Transformer 的根本局限:为什么 O(n²) 是终极瓶颈

Transformer 的成功没有消除它的结构性代价。本文区分工程瓶颈和架构瓶颈,解释 O(n²) attention、KV Cache 线性增长、自回归串行性、长上下文与长期记忆的差异、位置外推和数据效率问题,并说明为什么 Mamba、RWKV、RetNet、线性注意力等路线都在试图绕开同一组限制。

【Transformer 与注意力机制】58|后 Transformer 时代:架构会消失还是会进化

后 Transformer 时代不太可能是某个新架构一夜之间消灭 Transformer,更可能是 attention、SSM、MoE、检索、外部记忆、工具调用和多模态模块逐渐混合。本文回顾本系列主线,解释为什么 Transformer 很难突然消失,也为什么它不可能原样解决所有问题。

【Transformer 与注意力机制】22|Encoder 详解:6 层堆叠到底在做什么

把 Transformer encoder 从“左半边”这个模糊概念拆成可操作的结构:单层里 self-attention、FFN、残差、LayerNorm 各做什么;6 层堆叠为什么不是重复劳动;encoder 输出为什么适合理解任务而不直接擅长生成;以及它和 decoder-only、encoder-decoder 两条路线到底差在哪。

【量化交易】量化交易系统架构:研究、回测、模拟、实盘四套环境

量化策略从一个 notebook 想法走到生产,必须穿过研究、回测、模拟、实盘四套环境。如果四套环境各写一份代码,几乎一定在上线第一周就因为「回测里有但实盘里没有的字段」或「模拟里能成交但实盘里被拒绝」翻车。本文给出一套以接口驱动的统一架构:DataSource、FeaturePipeline、SignalGenerator、PortfolioConstructor、OrderRouter、RiskManager 六层抽象;同一份 Strategy 代码在四个环境里通过依赖注入切换实现;研究环境绑定 MLflow 与 PIT 数据访问层;回测环境对接前一篇引擎;模拟交易跑生产路径但不真实成交;实盘加上订单状态机、对账、灰度发布。文末给出可直接运行的 Python 参考实现。