mt-bench 标签归档

共 1 篇文章 · 返回首页

【强化学习与大模型后训练】19｜后训练评测：对齐、推理、安全与回归

从偏好胜率、LLM-as-judge、推理基准、安全红队到能力回归，组织后训练模型的评测闭环。