safety 标签归档

共 5 篇文章 · 返回首页

【分布式系统百科】大鹅也能看懂的 Raft 算法解读：选举 · 日志 · 不变量 · 研究前沿

2026-07-14 | distributed | #raft #consensus #leader-election #log-replication #safety #flexible-paxos #multi-raft #distributed-systems

用故障场景与多图讲清 Raft 选举、日志复制与安全不变量；含 Figure 8 手填日志表、柔性 quorum 交集推演，以及对照 raft.github.io 的五步练习。研究章覆盖 Flexible Paxos、FlexiRaft、Multi-Raft；工程细节链到 raft-deep。

【强化学习与大模型后训练】13｜RLVR：可验证奖励如何训练推理能力

2026-05-29 | rl-posttraining | #RLVR #verifiable rewards #reward hacking #DeepSeek-R1 #rule-based reward #reinforcement learning #reasoning models #reward model #alignment #safety

RLVR用规则或形式化验证器替代学习的奖励模型，以减少reward hacking、提高透明度，适用于数学、代码等具备ground truth的任务。

【强化学习与大模型后训练】16｜奖励黑客与对齐税：失效模式与缓解

2026-05-29 | rl-posttraining | #reward hacking #reward gaming #overoptimization #RM exploitation #length bias #sycophancy #KL penalty #RLVR #alignment tax #safety

奖励欺骗指policy模型利用奖励模型的缺陷获得高分但不符合真实目标。常见形式包括长度偏差、阿谀奉承、格式游戏等，需通过KL惩罚、RLVR等手段缓解。

【强化学习与大模型后训练】19｜后训练评测：对齐、推理、安全与回归

2026-05-29 | rl-posttraining | #rlhf #evaluation #llm-as-judge #mt-bench #alpacaeval #gsm8k #math #safety #regression

从偏好胜率、LLM-as-judge、推理基准、安全红队到能力回归，组织后训练模型的评测闭环。

【分布式系统百科】共识问题的精确定义：Agreement、Validity、Termination

2026-04-13 | distributed | #consensus #agreement #validity #termination #safety #liveness #flp #atomic-broadcast #state-machine-replication #paxos #raft #distributed-systems

共识到底在解决什么问题？Agreement、Validity、Termination 三个性质的精确含义是什么？Safety 和 Liveness 的区分为什么如此关键？FLP 不可能定理对工程实践意味着什么？本文从形式化定义出发，逐步展开共识的变体、原子广播的等价性，以及状态机复制这个最重要的应用。