跟着东谈主工智能和大言语模子(LLMs)的不停冲破金晨 ai换脸,何如将其上风赋能于履行宇宙中可骨子部署的高效器具,成为了业界存眷的焦点。
近期,由微软亚洲商讨院、南洋理工大学、清华大学、香港科技大学等多家机构汇注推出转移图形用户界面(GUI)任务自动化智能体——V-Droid。
凭借其全新"考据器驱动"架构,V-Droid 不仅在职务成功率上刷新纪录,同期在决策反应速率上兑现了接近实时的发挥,为转移端自动化放胆开拓了全新时势。
演示视频 1:
"请从 Broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治",V-Droid 约使用 20 步操作完成此任务。视频无加快管制。
演示视频 2:
"发送短信息",V-Droid 约使用 8 步操作完成此任务。视频无加快管制。
V-Droid 与其他转移 GUI 智能体在 AndroidWorld 上的任务成功率与决策反适时辰对比如下:
关于 V-Droid 以偏激他 7B,8B 基准模子,决策时辰在双卡 4090 上测试得出;关于 72B 基准模子,决策时辰在四卡 A100 上测试得出。
恒久以来,转移建设上的任务自动化一直面对两浩劫题:一是如安在复杂、多变的 GUI 环境中准确识别和操作界面元素 , 并以多设施成功完成任务;二是如安在保证任务成功率的前提下落低决策延伸。
以往依靠 LLM 平直生成操作指示的步伐,由于生成过程频频需要连气儿输出渊博信息,导致在骨子应用中既不够高效,又容易出现决策偏差。
在决策过程中,将 LLM 用作生成器与用作考据器的智能体架构的要害区别在于:考据器驱动的智能体不会平直凭据任务情状平直生成动作,而是在作出最终决策之前,明确地对每个候选齐动作进行评估。
V-Droid 改进性地提议"考据器驱动"的念念路。该步伐不再平直依赖大言语模子生成最终操作,而是率先通过对 UI 界面的长远解析构建出平缓的动作鸠合,再诓骗经过详细西席的基于大言语模子的考据器对每个候选动作进行评估,最终选出得分最高的动作扩充。
这种作念法将操作生成与决策判断灵验解耦:一方面,与从零启航点平直生成所需操作比较,该决议使智能体约略在一个翻脸且有限的动作空间内高效地进行考据,从而大大责难了决策的复杂度;同期,由于每次考据仅输出极简的信息(仅一个 Token),而况不错对多个候选动作兑现并行考据,从而显赫镌汰了每一步决策所需的时辰。
V-Droid 在多个内行转移任务自动化基准上均得到了显赫陶冶,举例在 AndroidWorld 基准上任务成功率达 59.5%,比现存智能体提高了近 10 个百分点,而决策延伸在破钞级硬件上(如 4090)则降至仅 0.7 秒傍边。
村上里沙兽皇△V-Droid 的责任历程:① 从用户界面中提真金不怕火动作并补充默许动作;② 针对每个候选动作使用模板构建考据领导;③ 诓骗前缀缓存对候选动作进行批量打分;④ 完成并扩充所选动作;⑤ 更新责任顾虑。
V-Droid 的中枢冲破主要体目下以下几个方面:
动作空间翻脸化与构建
由于转移建设屏幕尺寸有限,每个界面上可交互的元素数目本就较少,V-Droid 充分诓骗这一特质,从现时界面的 XML 刻画中提真金不怕火总共可点击、长按、振荡、文本输入等基本操作,将它们映射到一个有限的动作空间中。
同期,为了搪塞界面上未平直呈现的操作(举例复返首页或模拟系统操作),系统还预置了一系列默许动作。通过这种方式,正本无穷的操作可能性被详细辞别为一个可成列的鸠合,在这个鸠合上进行考据,大大责难了决策难度。
考据器驱动的决策机制与历程
不同于传统依赖生成式模子平直输出操作指示的决议,V-Droid 将 LLM 的变装重新定位为考据器。系统辖先凭据现时任务情状构造出候选操作列表,并为每个候选动作生成一个预界说步地的考据领导(Prompt),其中包含任务指标、现时界面情状、历史操作纪录以及具体的考据问题。
经过事先微调的考据器(基于 Llama-3.1-8B 等小言语模子)会对每个候选动作进行评分,最终系统选择评分最高的动作扩充。由于考据过程只需要生成" Yes "或" No "这类轻便修起。更进犯是的,多组候选考据可被高效并行,且此过程中只波及 Prefilling 阶段,从而极地面减少了计较时辰,兑现了近实时的决策反应。
对比式过程偏好(P3)西席
为了陶冶 LLM 当作考据器的决策能力,V-Droid 提议 P3 西席计谋:对比式过程偏好西席计谋(Pairwise Process Preference)。在每个任务设施中,通过构建正负操作对(即符号正确操当作正样本,其他操当作负样本),系统约略诓骗渊博细粒度的西席数据对考据器进行优化,使其更准确地区分正确与失实的操作。这种步伐不仅提高了模子对同样界面元素的阔别能力,也在一定进程上增强了系统的容错与自我修正能力。
东谈主机汇注标注的数据聚集计谋
由于针对转移 GUI 任务的细粒度标注数据极为稀缺,V-Droid 绸缪了一套东谈主机汇注标注决议。系统运转阶段由东谈主责任业完成标注,随后诓骗经过初步西席的考据器自动生成操作标注,再由东谈主工审核与修正。跟着迭代西席的进行,考据器的准确性不停陶冶,东谈主工介入比例迟缓下落,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大限制西席提供了坚实基础。
△V-Droid 的任务成功率与单步决策反适时辰
V-Droid 在多个转移任务自动化基准测试中均发挥出色。
举例,在 AndroidWorld 基准上,V-Droid 的任务成功率达到 59.5%,比较传统代理有昭着上风;在 AndroidLab 和 MobileAgentBench 上,其任务成功率分别为 38.3% 和 49%,均卓越先前系统约 2% 至 9% 的完满陶冶。此外,决策反适时辰仅为 0.7 秒,使得该系统在实时性条目较高的转移场景中具有显赫应用后劲。
V-Droid 所接收的考据器驱动架构为转移端自动化任务带来全新念念路。
通过将智能体的动作生成过程解耦为动作空间构建与考据,该系统不仅在职务成功率上得到了显赫陶冶,还在决策延伸方面兑现冲破。将来,这一时刻有望扩充至更多骨子应用中,如自动化测试等范围。跟着大言语模子时刻的不停卓越,以及高效西席与数据聚集计谋的锻真金不怕火,考据器驱动的转移 GUI 智能体或将成为智能交互范围的冲破口。
论文标题:Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment
论文作家:Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu
延续:https://arxiv.org/abs/2503.15937
一键三连「点赞」「转发」「注重心」
迎接在研讨区留住你的见识!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 样式主页延续,以及关系方式哦
咱们会(尽量)实时修起你
� � 点亮星标 � �
科技前沿进展逐日见金晨 ai换脸