ToolCUA 的核心价值在于指出了 CUA 训练中的一个关键转折:当 Agent 从 GUI-only 进入 hybrid action space 后,能力瓶颈从“能否看懂界面”进一步变成“能否编排多种动作路径”。 这个问题看起来答案应该是肯定的 ...