【强化学习与大模型后训练】19|后训练评测:对齐、推理、安全与回归 2026-05-29 | rl-posttraining | #rlhf #evaluation #llm-as-judge #mt-bench #alpacaeval #gsm8k #math #safety #regression 从偏好胜率、LLM-as-judge、推理基准、安全红队到能力回归,组织后训练模型的评测闭环。