【强化学习与大模型后训练】18|训练稳定性:KL、熵、长度偏置与崩溃诊断 2026-05-29 | rl-posttraining | #rlhf #ppo #kl #entropy #reward-hacking #stability #diagnostics #rlhf-implementation 把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘,定位后训练崩溃与奖励黑客。