【强化学习与大模型后训练】20|前沿与展望:自我对弈、宪法 AI、Agentic RL、合成数据飞轮 2026-05-29 | rl-posttraining | #rlhf #rlaif #constitutional-ai #self-play #self-reward #agentic-rl #synthetic-data #rlvr #deepseek-r1 从 RLAIF、宪法 AI、自奖励、自我对弈、Agentic RL 到可验证环境,总结后训练前沿与稳定原则。