Self Distillation - 搜索 News

13 天

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

目前的强化学习（如 GRPO）通常只能拿到一个二值反馈，这在长程推理中会导致严重的「信用分配」问题。此外，在 GRPO 等算法中，如果模型在某组尝试中全军覆没（奖励均为 0），学习信号就会消失，导致模型进化停滞。核心机制： SDPO 引入了富反馈 ...

10 天

LLMs tend to lose prior skills when fine-tuned for new tasks. A new self-distillation approach aims to reduce regression and ...

一些您可能无法访问的结果已被隐去。