目前的强化学习(如 GRPO)通常只能拿到一个二值反馈,这在长程推理中会导致严重的「信用分配」问题。此外,在 GRPO 等算法中,如果模型在某组尝试中全军覆没(奖励均为 0),学习信号就会消失,导致模型进化停滞。 核心机制: SDPO 引入了 富反馈 ...
LLMs tend to lose prior skills when fine-tuned for new tasks. A new self-distillation approach aims to reduce regression and ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果