kl 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】18｜训练稳定性：KL、熵、长度偏置与崩溃诊断

把 KL、奖励、熵、长度、梯度和 PPO 比率组织成训练仪表盘，定位后训练崩溃与奖励黑客。