o1 标签归档 | 土法炼钢兴趣小组的算法知识备份

o1 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】14｜推理模型训练：o1/R1 范式与长思维链

2026-05-29 | rl-posttraining | #reasoning models #o1 #DeepSeek-R1 #chain-of-thought #CoT #reinforcement learning #test-time compute #scaling #distillation #RLVR

推理模型通过强化学习训练长思维链（long CoT），在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。