reasoning models 标签归档 | 土法炼钢兴趣小组的算法知识备份

reasoning models 标签归档

共 2 篇文章 · 返回首页

【强化学习与大模型后训练】13｜RLVR：可验证奖励如何训练推理能力

2026-05-29 | rl-posttraining | #RLVR #verifiable rewards #reward hacking #DeepSeek-R1 #rule-based reward #reinforcement learning #reasoning models #reward model #alignment #safety

RLVR用规则或形式化验证器替代学习的奖励模型，以减少reward hacking、提高透明度，适用于数学、代码等具备ground truth的任务。

【强化学习与大模型后训练】14｜推理模型训练：o1/R1 范式与长思维链

2026-05-29 | rl-posttraining | #reasoning models #o1 #DeepSeek-R1 #chain-of-thought #CoT #reinforcement learning #test-time compute #scaling #distillation #RLVR

推理模型通过强化学习训练长思维链（long CoT），在测试时执行多步推理以提升复杂任务性能。o1与R1展示了不同的训练策略与能力边界。