本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。项目 leader 任帅,研究方向为多模态大模型、Agent 及具身智能,指导教师是香港中文 ...
markdown 通义实验室近日重磅开源 Mobile-Agent-v3,一款针对图形用户界面(GUI)操作的智能体框架,并在多项GUI基准测试中刷新了SOTA(State-of-the-Art)记录。此次开源不仅包含模型本身,还提供了深度优化的多智能体框架,为GUI Agent的广泛应用带来了新的可能性。
这是一个基于云环境的全链路开源解决方案 —— 它既是当前最强的开源单体 GUI Agent 模型,也包含为其深度优化的多智能体框架。 覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。 一眼 ...
覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。 一眼看到实力:关键成绩速览。 GUI 智能体,就像你的跨平台虚拟操作员,能看懂屏幕、点鼠标、敲键盘、滑手机,在办公、测试、RPA 等 ...
近日,阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3和 GUI-Owl,这些工具旨在解决图形用户界面(GUI)自动化中的一系列挑战。 现代计算设备普遍采用图形用户界面,然而,以往的自动化方法往往依赖于复杂的脚本和手工规则,效果并不理想。
今日,X-PLUG 团队在 GitHub 上正式发布了其最新项目 Mobile-Agent-v3,这是一款基于 GUI-Owl 的跨平台多代理框架。Mobile-Agent-v3具备强大的规划、进度管理、反思和记忆能力,旨在提升用户的 GUI 自动化体验。 GUI-Owl 作为 Mobile-Agent-v3的基础模型,融合了感知、基础、推理 ...
近日,X-PLUG团队在GitHub平台上震撼发布了他们的最新力作——Mobile-Agent-v3,这是一款以GUI-Owl为核心构建的跨平台多代理框架。Mobile-Agent-v3集规划、进度追踪、自我反思及记忆功能于一身,旨在为用户带来前所未有的GUI自动化操作体验。 作为Mobile-Agent-v3的基石 ...