他们提出AgentFlow框架采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略。