self-play 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】20｜前沿与展望：自我对弈、宪法 AI、Agentic RL、合成数据飞轮

从 RLAIF、宪法 AI、自奖励、自我对弈、Agentic RL 到可验证环境，总结后训练前沿与稳定原则。