【强化学习与大模型后训练】14|推理模型训练:o1/R1 范式与长思维链 2026-05-29 | rl-posttraining | #reasoning models #o1 #DeepSeek-R1 #chain-of-thought #CoT #reinforcement learning #test-time compute #scaling #distillation #RLVR 推理模型通过强化学习训练长思维链(long CoT),在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。