Free IT Courses - 搜索 News

X上63万人围观的Training-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。GRPO ...

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

在实验中，研究主要关注的是现实应用中难以微调且成本高昂的大型高性能LLM，例如DeepSeek-V3.1-Terminus。实验结果显示，Training-Free GRPO在数学推理任务中取得了显著提升，无论是否使用工具，均表现出明显优势。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果