【Transformer 与注意力机制】20|Transformer 整体架构:一张图看懂
把 18 篇文章里讲过的所有零件——QKV、多头注意力、causal mask、位置编码、FFN、残差、归一化——拼成一张完整的 Transformer 图。跟随一个 token 走完从输入到输出的全部旅程,建立对架构的「身体记忆」。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 5 篇文章 · 返回首页
把 18 篇文章里讲过的所有零件——QKV、多头注意力、causal mask、位置编码、FFN、残差、归一化——拼成一张完整的 Transformer 图。跟随一个 token 走完从输入到输出的全部旅程,建立对架构的「身体记忆」。
中文互联网上最系统、最深入的系统架构设计技术博客系列。不做面试八股文搬运,不做最佳实践清单——每一篇文章都回答真实的工程问题、呈现关键的 trade-off、拆解生产环境中的真实案例。
量化策略从一个 notebook 想法走到生产,必须穿过研究、回测、模拟、实盘四套环境。如果四套环境各写一份代码,几乎一定在上线第一周就因为「回测里有但实盘里没有的字段」或「模拟里能成交但实盘里被拒绝」翻车。本文给出一套以接口驱动的统一架构:DataSource、FeaturePipeline、SignalGenerator、PortfolioConstructor、OrderRouter、RiskManager 六层抽象;同一份 Strategy 代码在四个环境里通过依赖注入切换实现;研究环境绑定 MLflow 与 PIT 数据访问层;回测环境对接前一篇引擎;模拟交易跑生产路径但不真实成交;实盘加上订单状态机、对账、灰度发布。文末给出可直接运行的 Python 参考实现。
从延迟、吞吐、开发效率、生态成熟度四个维度对比 REST、gRPC、GraphQL、WebSocket,给出微服务内部与面向客户端的选型决策树,讨论混合架构模式与迁移路径。
服务架构演化实践:从单体到微服务,系统扩展性设计与优化历程