【量化交易】机器学习选股:标签构造、防过拟合、SHAP 归因
把机器学习选股从「跑一个 LightGBM 看 AUC」还原为标签构造、特征中性化、训练协议、模型解释、上线监控五个独立工程问题。重点讨论 Triple-Barrier 标签、Purged K-Fold 与 Embargo、SHAP 归因,给出可直接套用的 Python 代码骨架。
发布来自土法炼钢兴趣小组的知识、笔记、进展和应用。主题包括数据结构和算法、编程语言、网络安全、密码学等。
共 2 篇文章 · 返回首页
把机器学习选股从「跑一个 LightGBM 看 AUC」还原为标签构造、特征中性化、训练协议、模型解释、上线监控五个独立工程问题。重点讨论 Triple-Barrier 标签、Purged K-Fold 与 Embargo、SHAP 归因,给出可直接套用的 Python 代码骨架。
回测引擎只能保证「语法对」,但真正杀死策略的是「逻辑错、数据脏、推断不严」三件事。本文系统拆解前视偏差(lookahead bias)、过拟合(overfitting)、数据窥视(data snooping)三大陷阱,介绍 Bonferroni、BH-FDR、Family-Wise Error 的多重检验修正,给出 Deflated Sharpe 与概率 Sharpe(PSR)的可运行 Python 实现,配一份 30 条上线前自检清单。