【量化交易】量化交易全景:从信号到订单的工程链路
量化交易不是策略写得好就能赚钱,更难的是把数据、特征、因子、信号、组合、执行、风控、复盘这八段链路在工程上连成一条不漏数据、不串时间、不丢订单的流水线。本文是【量化交易】系列的总目录与读图,给出八段链路的输入输出、失败模式、不变量清单,并用研究流程图把从一个想法到一笔实盘订单之间所有该过的卡点串起来。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 29 篇文章 · 返回首页
量化交易不是策略写得好就能赚钱,更难的是把数据、特征、因子、信号、组合、执行、风控、复盘这八段链路在工程上连成一条不漏数据、不串时间、不丢订单的流水线。本文是【量化交易】系列的总目录与读图,给出八段链路的输入输出、失败模式、不变量清单,并用研究流程图把从一个想法到一笔实盘订单之间所有该过的卡点串起来。
系统梳理全球市场结构(Market Structure)的工程图景:从证券交易所、衍生品交易所、加密交易所,到做市商、暗池、ECN/ATS,再到 Maker-Taker 收费、PFOF、Reg NMS 与 MiFID II 的监管影响;给出量化策略选择交易场所的判断框架与基于 ccxt 的多交易所行情聚合代码。
系统讲解市场微结构的核心概念与可计算工具:限价订单簿的数据模型、报价/有效/已实现价差、Roll 模型、四维流动性度量、Kyle's lambda、订单流不平衡(OFI)、Almgren-Chriss 框架下的临时与永久冲击、PIN 与 VPIN、Hawkes 过程,并给出基于 polars 的 L2 增量处理与系数估计代码。
把 Limit、Market、IOC、FOK、Iceberg、Stop、MOO/MOC 这些常被混为一谈的订单类型还原为价格、数量、时效、可见性、触发五个独立维度,并对照 A 股、港股、美股、CME、Binance 五个市场的实际语义差异,给出量化系统中的订单工厂、状态机与风控前置校验的工程实现。
把量化系统里最容易藏雷的数据层从 tick 写到因子库走一遍:行情源接入与质量评估、tick 到 dollar bar 的 de Prado 式重采样、Parquet/Arrow/DuckDB/ClickHouse 列存选型、增量回填与断点续传、公司行动与前后复权、PIT 因子库与版本化查询、缺失监控与漂移检测;附 polars + pyarrow + duckdb 的可运行实现。
系统拆解量化回测里最常见的几类数据陷阱:幸存者偏差、前视偏差、未来函数、数据窥视、复权陷阱、停牌与流动性陷阱、时区与日历对齐。给出 Point-In-Time 财报库的最小可运行实现,演示前视回测与 PIT 回测之间的真实差距,并整理一份回测前自检清单。
把"特征仓库"从一般 ML Feature Store 的语义中拉回到量化的语境:所有问题最终归到一个时间正确性约束。本文给出 bitemporal 的特征模型、Polars / DuckDB 上的 as_of_join 实现、版本化与血缘策略、以及离线和在线一致性的工程做法,并附一份从研究落到生产的检查表。
系统拆解量化研究里"另类数据"这条战线:从新闻文本、社交舆情、卫星与物联网信号,到链上交易和支付流水。每一类都讲清数据来源、采购或采集方式、合规边界、可落地的工程化处理流程,并给出基于 transformers 的中文新闻情感打分与基于 web3.py 的链上指标抓取代码。
从 Fama-French 三因子到当代 400+ 个发表因子,把价值、动量、质量、低波、规模五个最经得起检验的因子拆开、对照 A 股与美股的实证差异,给出可直接复用的 Python 因子构造、中性化、IC 评估与 Fama-MacBeth 回归流水线。
从均值回归的统计学根源出发,把配对交易、协整与误差修正模型、Ornstein-Uhlenbeck 过程、Avellaneda-Lee 的 PCA 残差套利、加密资产中的跨所与基差套利串成一个完整的工程链路,并给出协整检验、OU 参数估计、残差套利回测的可运行代码与协整破裂、LTCM 类失败模式的复盘。
把事件驱动(event-driven)从一个含糊的「炒题材」标签,还原为带有明确触发条件、可交易窗口与统计可检验性的策略族。本文把财报后漂移(PEAD)、并购套利(merger arbitrage)、指数调整(index rebalance)、回购、解禁、宏观日历等事件,按信息传播链统一拆成「事件触发—信息扩散—价格反应—套利窗口—收敛」五个阶段,给出 SUE 计算、事件研究 AAR/CAR 的 Python 实现,以及用 vectorbt 模拟 PEAD 多空组合的端到端流水线。
把机器学习选股从「跑一个 LightGBM 看 AUC」还原为标签构造、特征中性化、训练协议、模型解释、上线监控五个独立工程问题。重点讨论 Triple-Barrier 标签、Purged K-Fold 与 Embargo、SHAP 归因,给出可直接套用的 Python 代码骨架。
把时序深度学习放回量化系统里讨论:TCN 的因果卷积/扩张/残差三件套、Transformer 在金融上的位置编码与稀疏注意力改造、IC loss 与分位数损失、训练-推理偏移与多种子集成、与传统因子的残差融合、ONNX/TorchScript 部署与延迟监控。给出可直接套用的 PyTorch 代码与 vectorbt 评估骨架。
把加密资产量化策略拆成资金费率套利、跨所搬砖、三角与跨链套利、DeFi 收益、MEV、稳定币结算六个独立工程问题,给出 ccxt 与 web3.py 可运行骨架,覆盖 funding-basis 数学、AMM 滑点、Impermanent Loss 与黑天鹅失败模式。
把信号变成头寸,是组合构建(portfolio construction)的核心工程。本文从 Markowitz 的均值方差出发,串到 Ledoit-Wolf 收缩、风险平价、HRP、Black-Litterman、Kelly 与凸优化求解,给出 cvxpy 可运行实现,并讨论稳健性、上线漂移与风险预算。
把投资组合的风险从「一个数字」拆成因子、行业、特异三层结构,给出 Barra 横截面回归的可运行 Python 骨架、风险归因、历史模拟法 VaR 与压力测试情景的全流程实现。
信号有了、组合权重也求出来了,最后一公里是头寸管理:到底下多大、用多少杠杆、回撤多深时降仓。本文从 Kelly 公式、波动率目标、风险预算、回撤管理、资金与杠杆约束、心理偏差、再平衡工程七个方向展开,给出可运行的 Python 实现与上线 checklist。
把交易成本从「报表上的一行手续费」拆成显性成本、滑点、冲击、机会成本四层结构,给出 Almgren-Chriss 最优执行、平方根律拟合、Implementation Shortfall 归因与 TCA 报表的可运行 Python 骨架,以及 A 股、美股、CME、币安四个市场的成本口径差异。
把回测引擎当成一套工程系统讲清楚:事件驱动架构、撮合保真度、滑点嵌入、多频率多账户、并行加速、回放对账。给出可运行的最小事件驱动回测器与 vectorbt 向量化对照实现。
回测引擎只能保证「语法对」,但真正杀死策略的是「逻辑错、数据脏、推断不严」三件事。本文系统拆解前视偏差(lookahead bias)、过拟合(overfitting)、数据窥视(data snooping)三大陷阱,介绍 Bonferroni、BH-FDR、Family-Wise Error 的多重检验修正,给出 Deflated Sharpe 与概率 Sharpe(PSR)的可运行 Python 实现,配一份 30 条上线前自检清单。
把「时间序列怎么做交叉验证」这件事拆到工程能落地的颗粒度:为什么 K-Fold 在金融数据上必然泄漏,Walk-Forward 的三种形态怎么选,Purged K-Fold 的 purge 规则与 embargo 长度怎么定,Combinatorial Purged CV 如何同时给出多条独立净值路径,外层选模型内层调参的嵌套 CV 怎么写,回测过拟合概率(PBO)怎么算。给出可直接接入 sklearn 的 PurgedKFold/CombinatorialPurgedCV/WalkForward 实现。
策略好不好,不能只看一条净值曲线。本文系统梳理绩效指标的工程口径:年化收益与几何均值、Sharpe / Sortino / Calmar / Omega、最大回撤与水下曲线(underwater curve)、信息比率与跟踪误差、稳健 Sharpe(Newey-West、bootstrap、Deflated SR、PSR)、绩效归因与 GIPS 报表口径。给出一份可直接运行的 Python 工具箱。
把执行算法从「VWAP 跑得过 benchmark 就行」拆到工程能落地的颗粒度:TWAP 的等时切片与抗操纵改造,VWAP 历史量曲线如何拟合、如何在线纠偏,POV 的目标占比与跟随机制,Implementation Shortfall 算法基于 Almgren-Chriss 求最优轨迹,再到自适应执行的 ML-driven 方向、A 股 / 美股 / 加密三市场口径差异、子单状态机与回报对账的工程结构。给出可直接运行的 TWAP/VWAP/POV/IS 切片器,以及在历史 bar 上模拟执行成本对比。
把「智能订单路由(SOR)」这件事拆到工程能落地的颗粒度:市场碎片化的监管根源(Reg NMS、MiFID II),SOR 的目标函数(成交概率、价差、冲击、延迟、费率、信息泄漏),Lit market 的队列与 reserve 单选择,暗池的最低成交量门槛、对手方筛选与毒性度量,pinging 与反 pinging 的对抗博弈,跨市场套利与 latency arbitrage 的 SOR 视角,加密资产 SOR(CEX 间路由与 DEX 聚合器),以及连接管理、撮合状态聚合、Failover 等工程要点。提供可直接接入的多场所订单簿模拟、SOR 决策器、CCXT 加密 SOR 骨架。
做市不是猜方向,而是为流动性定价。本文从买卖价差与库存成本的经济学起步,沿 Glosten-Milgrom 走到 Avellaneda-Stoikov,讲清 reservation price、optimal spread、HJB 推导、库存惩罚、对抗逆选择(VPIN、订单流毒性)、加密做市的资金费率与跨所对冲、监管红线(操纵 vs 流动性供给),最后给出可运行的 AS 仿真、双边报价器与 VPIN 触发撤单的 Python 实现。
高频交易(HFT)的工程难点不在策略,而在「让一行代码以纳秒为单位稳定运行」。本文从延迟预算分解开始,依次走过 colocation 与微波链路、内核旁路(DPDK / Solarflare Onload / AF_XDP)、NUMA 与缓存调优、FPGA tick-to-trade、lock-free SPSC 队列、以及 Python 在这种系统中的合理边界。给出可运行的 numba 版 SPSC ring buffer 与 timeit 基准,用于演示热路径的设计思想。
量化策略从一个 notebook 想法走到生产,必须穿过研究、回测、模拟、实盘四套环境。如果四套环境各写一份代码,几乎一定在上线第一周就因为「回测里有但实盘里没有的字段」或「模拟里能成交但实盘里被拒绝」翻车。本文给出一套以接口驱动的统一架构:DataSource、FeaturePipeline、SignalGenerator、PortfolioConstructor、OrderRouter、RiskManager 六层抽象;同一份 Strategy 代码在四个环境里通过依赖注入切换实现;研究环境绑定 MLflow 与 PIT 数据访问层;回测环境对接前一篇引擎;模拟交易跑生产路径但不真实成交;实盘加上订单状态机、对账、灰度发布。文末给出可直接运行的 Python 参考实现。
量化交易系统的运维不像普通互联网服务:故障窗口以毫秒计,每一次错误直接对应金钱损失。本文从监控分层、告警值班、熔断降级、风控前置、监管报送、事故复盘到制度文化,串起一个把「能跑」升级到「能托管真金白银」所需要的全部基础设施。给出一份可运行的实时风控守护进程,演示订单速率限制、PnL drawdown 监控与熔断触发;并给出 SLO 与 error budget 的量化计算示例。
从因子研究到生产执行的量化交易全栈工程。覆盖市场微结构、数据管线、因子构造、组合优化、回测方法论、执行算法、做市策略、高频架构到生产运维。面向策略研究员与工程师。