年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。GRPO ...
在实验中,研究主要关注的是现实应用中难以微调且成本高昂的大型高性能LLM,例如DeepSeek-V3.1-Terminus。 实验结果显示,Training-Free GRPO在数学推理任务中取得了显著提升,无论是否使用工具,均表现出明显优势。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果