2026世界杯

2026世界杯

米兰体育 南京大学、商汤科技等多机构连合出品:手机AI助手的“开源更动”来了

发布日期:2026-05-10 00:54 来源:未知 作者:admin 浏览次数:

这项由南京大学、商汤科技、南洋理工大学、上海东说念主工智能实验室、香港大学、西安交通大学连合开展的酌量,以预印本方式发布于2026年4月,论文编号为arXiv:2604.15093,有有趣潜入了解的读者可通过该编号在arXiv平台查阅完整原文。

手机屏幕上那些繁琐的操作,有莫得可能交给AI来作念?掀开某个App、找到某个建树、按照你的条款完成一系列关节——这类"手机助手"的主张并不崭新,但确切能用的系统,昔日简直是各大科技巨头的专属领地。这篇论文要讲的,就是一群酌量者怎样冲突这说念壁垒,用开源的面容为无边酌量者和开导者铺平说念路。

酌量者们给我方的后果起名叫"OpenMobile"。这个名字里的"Open"不是噱头,而是一种宣言:他们把教师AI手机助手所需的数据合成方法、代码和数据集全部公开,让任何东说念主都可以用来教师我方的AI助手。在这之前,行业里最顶尖的AI手机助手——比如Step-GUI、MAI-UI、UI-Venus-1.5、MobileAgent-v3.5——在一个叫作念"AndroidWorld"的圭表测试上,凯旋率也曾接近70%。这个数字听起来不算惊东说念主,但要知说念,这些任务波及真实的手机操作,每一步都需要AI确切"看懂"屏幕、"想清楚"该何如作念。然则,这些顶尖系统背后的教师数据全部藏匿,外界统统不知说念它们是何如练出来的。与此同期,依赖公开数据集教师的开源模子,在相通的测试上只可达到30%左右,差距悬殊。

OpenMobile的盘算推算,就是填平这说念规模。

一、手机AI助手究竟在作念什么

在潜入了解OpenMobile的具体作念法之前,有必要先搞清楚这类AI助手到底是何如责任的。

把AI手机助手比作一位新来的实习生省略更好阐明。你把一部生疏的手机交给这位实习生,告诉他"帮我在日期App里创建一个来日上昼十点的会议"。这位实习生需要先看清楚屏幕上的内容(十分于AI"读取"截图),然后判断该点那处(十分于AI决定践诺什么操作),一步步完成任务。更纰谬的是,要是某一步走错了,他还得能相识到出错了,并想方针改动。

这类AI系统在学术上叫作念"视觉话语模子驱动的移动端智能体",说白了就是:能看懂手机屏幕图像、又能阐明东说念主类教导的AI,在手机上帮你干活。教师这样的AI,需要多半的"脚本"——也就是每个任务对应的操作轨迹:从第一步点了那处,到临了任务完成,每一步都有纪录。有了这些脚本,AI材干通过师法学习,迟缓掌捏怎样操作手机。

问题在于,高质地的脚本很难得到。东说念主工一条一条地标注老本极高,而且东说念主工标注时时存在噪声和古怪。更劳苦的是,即便有了脚本,要是脚本里只好"一切凯旋"的情况,AI在现实中碰到我方犯错的情况时就会兄弟无措——它从来没见过出错之后该何如办。

OpenMobile针对这两浩劫题,鉴别想象了两个中枢科罚决策。

二、给AI建一张"App功能舆图"

科罚第一个难题——怎样自动生成多半高质地任务教导——OpenMobile摄取了一种颇具新意的方法。

现存的主流作念法,频繁是让AI在App里当场点来点去,然后字据它走过的这条旅途来编一个任务。这就像一个东说念主在城市里倨傲走了一条街,然后字据这条街的见闻编一个旅游攻略。问题是,一条街的见闻太局限了,你压根不知说念这座城市还有若干旯旮、若干情理的方位。

OpenMobile的作念法统统不同。酌量团队把这个经由拆成了两个阶段。

第一阶段,先让AI在App里等闲探索,把碰到的总共不同页面都纪录下来,就像绘图一张舆图。在这个经由中,AI每走一步,都会把面前页面的截图和它能到达的相邻页面记下来。由于不同的探索旅途会经过疏通的页面,酌量者用一种叫"感知哈希"的时候来识别"这两张截图其实是合并个页面",幸免重复纪录。最终,总共探索旅途被整合成一个和解的结构,酌量者称之为"全局环境操心"。可以把它阐明为一张完整的App功能舆图,标注了每个页面有哪些功能,以及页面之间怎样跳转。

第二阶段,才是生成任务教导。关于舆图上的每一个页面,酌量者不仅给AI看这个页面本人的内容,还额外提供两类信息:一是"短期操心",也就是这个页面相邻的几个页面(你从这里能平直到那处、从那处能来到这里);二是"历久操心",也就是总共App里和这个页面功能关系但可能相距很远的其他页面的功能描摹。这种"历久操心"是通过语义相似度检索获取的,类似于你在藏书楼找书时,系统会保举主题关系的其他书目。

有了这三层信息,一个纷乱的视觉话语模子就能生成既各样又有字据的复合型任务教导——不是浅近的"掀开建树",而是"在音频录制App里,把灌音方式改成WAV、采样率设为48kHz、声说念设为立体声,然后录一段短音频保存"这种复杂教导。生成的教导还要经过质地过滤(评分过低的删掉)和去重(语义太相似的只保留最佳的一条),最终得到一批高质地的任务教导集。

这种把"探索"和"生成"分开的想象,带来了实质性的刚正。酌量者作念了东说念主工评估:让有陶冶的评测者把OpenMobile生成的教导和两种基线方法作念对比,终结发现OpenMobile的教导在"难度和复杂性"方面明显更胜一筹,而"合感性和可践诺性"相通莫得着落。在本质教师效果上,用疏通数目(1500条)的轨迹数据教师,OpenMobile的方法让AI在AndroidWorld测试中达到48.3%的凯旋率,而另外两种基线方法鉴别只好34.1%和45.3%。

三、教AI怎样从古怪中爬起来

有了任务教导,接下来就要让AI本质践诺这些任务,把践诺经由录制成"脚本",再用来教师AI。这就引出了第二个中枢挑战:怎样汇集既高质地又包含"犯错与纠错"陶冶的脚本。

最常见的作念法叫"行家蒸馏",也就是让一个也曾很横蛮的AI(行家模子)去践诺任务,把它的操作经由录下来,让待教师的AI(学习者模子)去师法。这个方法的优点是脚实质地高,污点是脚本里全是"教科书式"的完竣操作,学习者从来看不到犯错之后该何如办。到了真实使用场景中,学习者一朝犯错,就会兄弟无措,不知说念怎样改动。

另一种作念法叫"自我进化",让学习者我方去践诺任务,凯旋的才留住来,然后从头教师,盛极必衰。这种方法的刚正是学习者见过我方犯错的情况,污点是跳动相当慢,而且学习者的才略上限就是它我方面前的水平,很容易堕入瓶颈。

OpenMobile建议了一种交融两者优点的"战术切换轮转"方法。中枢念念路是:让学习者去践诺任务,但左右有一个"监考敦厚"(由纷乱的视觉话语模子担任)及时盯着学习者的每一步。一朝监考敦厚发现学习者偏离了正确轨说念——比如流通点错、堕入轮回、统统莫得向盘算推算围聚——就坐窝让行家模子摄取,帮学习者改动轨迹,把任务推回正轨。行家介入至少践诺三步后,再把适度权还给学习者。

这个经由中,监考敦厚还会把检测到的"偏差分析"奉告行家模子,匡助行家更好地阐明面前的失败模式,米兰体育MILAN从而给出更有针对性的改动操作。总共纠错经由在一次任务践诺中最多触发两次。

酌量者特地指出,他们测试了多种切换战术:统统靠行家、统统靠学习者自我进化、当场切换(两个模子不一致时当场决定用谁)、以及上述的"古怪介入切换"。终结浮现,古怪介入切换战术在每条轨迹中平均包含1.56个"古怪与纠错"片断,远高于行家蒸馏的0.42个和自我进化的0.10个。当场切换固然包含了0.64个,但由于切换时机繁芜,脚实质地繁芜不都,最终教师效果(45.1%)并莫得比行家蒸馏(44.8%)好若干,而古怪介入切换则达到了48.3%。

教师之后,酌量者还挑升测试了模子在本质践诺中"发现古怪、分析古怪、改动古怪"三个维度的才略。终结标明,用OpenMobile数据教师后的模子,在这三个维度上都明显优于基础模子,尤其是改动古怪的才略莳植最为显耀——莳植幅度达到了66%。

四、数据集长什么样,效果何如样

按照上述两大方法,酌量团队在AndroidWorld提供的安卓模拟器环境上,针对20个安卓App,生成了约2800条任务教导,对应34000个操作关节。每条践诺轨迹平均包含12.2个关节,每步附带平均129个词的"念念维链推理"——也就是AI在作念每一步操作之前,先用翰墨诠释我方为什么这样作念。这部分念念维链由行家模子从头撰写,以保证质地。

酌量者用这批数据鉴别微调了两个基础模子:Qwen2.5-VL-7B(70亿参数)和Qwen3-VL-8B(80亿参数)。前者莫得经过挑升针对图形界面的大规模预教师,用来检修数据本人的价值;后者本人也曾是更强的基础模子,用来探索性能上限。

在AndroidWorld测试上,Qwen2.5-VL基础版块的凯旋率是25.5%,经过OpenMobile数据微调后跃升到51.7%,莳植了卓越25个百分点。Qwen3-VL基础版块蓝本也曾有47.6%,微调后达到64.7%,与Step-GUI-8B(67.7%)、MAI-UI-8B(70.7%)等行业顶尖闭源系统比拟也曾十分接近。

更能阐明问题的是泛化才略。OpenMobile的数据是在AndroidWorld的环境里汇集的,但酌量者还在另外两个统统不同的测试平台上评估了模子。AndroidLab包含9个App的138个任务,Qwen3-VL版块达到51.5%,而同类开源数据方法的最佳得益(ScaleCUA)只好30%。MobileWorld是一个更难的测试,挑升查考需要跨越多个App、长达数十步的复杂任务,Qwen2.5-VL版块从7.7%莳植到14.8%,Qwen3-VL版块从9.4%莳植到17.7%,相对莳植幅度卓越50%。这阐明OpenMobile的教师方法让AI得到的不仅仅"背题",而是确切的通用操作才略。

酌量者还测试了用更大模子(720亿参数的Qwen2.5-VL-72B)微调的效果,AndroidWorld凯旋率达到59.3%,进一步考证了"数据质地好、模子越大效果越强"的步调。此外,他们也尝试了强化学习方法——包括单步奖励的强化学习和完整轨迹级别的强化学习——但发现这些方法在动态测试环境下的莳植并顽抗稳,最终阐扬未能超越圭表的监督微调。酌量者觉得,这可能与面前环境的各样性截止和强化学习框架的安靖性关联,留待将来酌量科罚。

五、这是真身手如故"背了谜底"

每当一个开源模子在某个测试集上取得好得益,总会有东说念主问:它是确实变强了,如故仅仅暗暗"背了谜底"?这个疑虑在OpenMobile这里尤其合理,因为教师数据就是在AndroidWorld同款环境里生成的。

酌量者对此作念了相当透明的分析。他们用一个专科的语义相似度模子,推测了每一条合成教师教导和AndroidWorld测试集里每一条测试教导之间的相似度,然后和两个公开数据集(AndroidControl和AMEX)作念了对比。终结是:OpenMobile的合成教导确乎比公开数据集更接近测试教导,这是适当预期的,毕竟都是在合并个App环境里生成的。但是,相似度卓越0.7的教导只占全部合成教导的3.5%,大多数教导仅仅在功能层面有些肖似,而不是字面上的重复或改写。

更有劝服力的是底下这个实验:要是把最相似的那部分教师数据删掉,望望模子得益会何如变化,再对比当场删除同等数目数据的情况。删掉10%最相似的数据,得益仅仅眇小着落,阐明性能并不是脆弱地依赖于少数几条"近似题目"。但当删除比例加多到40%以上时,性能启动明显下滑,而且比当场删除下滑得更快。酌量者对此给出了合阐明释:删掉相似教导,同期也删掉了阴事某些中枢App功能的教师样本,十分于把某项技巧的训练材料全删了,天然会影响阐扬。

这引出了酌量者对"为什么OpenMobile数据灵验"的中枢诠释:功能阴事率。他们用一个话语模子把每个测试任务阐明成所需的原子功能(比如"在日期App里创建活动"阐明为"掀开日期"、"创建新事件"、"设定日期"、"设定标题"等),然后统计教师数据中阴事了若干比例的这些原子功能。跟着合成教导数目加多,功能阴事率稳步高潮,而且OpenMobile长久高于同等数目的耦合基线方法。进一步的分析还发现,任务需要的功能越多(任务越复杂),凯旋率越低;而教师数据阴事了越多关系功能,凯旋率越高。这阐明OpenMobile的教师价值不在于"见过类似的题目",而在于"阴事了奢靡多的操作技巧"。

说到底,OpenMobile的孝敬是多档次的。在时候层面,它提供了一套可以被任何东说念主复现和使用的数据合成框架,把"全局环境操心"和"战术切换轮转"这两个创新想象系统地团结在总共。在实验层面,它在三个零丁的动态基准测试上全面考证了方法的灵验性,而且对数据欺侮风险作念了难过一见的透明分析,这在总共领域都属于有数的严谨魄力。在社区价值层面,它公开了数据和代码,让路源社区有了一个可以连接迭代的坚实开端。

天然,OpenMobile也有它坦承的局限。当今的教师数据只阴事20个App,环境各样性有限。强化学习标的的尝试尚未取得一致性突破,原因可能和模拟器环境的广度不够关联。此外,即等于64.7%这个得益,和最顶尖的73.7%比拟仍有差距,阐明数据质地和基础模子才略两者统筹兼顾,仅凭洞开数据合成还不及以统统追平顶尖闭源系统。

手机里那位确切懂你、帮你干活的AI助手,距离无边东说念主的日常糊口正在变得越来越近。而让这一切变得愈加公正、愈加透明的奋力,省略恰是总共领域长期跳动的底气所在。

Q&A

Q1:OpenMobile和其他手机AI助手比拟,上风在那处?

A:OpenMobile最大的上风在于它是统统开源的——数据、代码和合成方法全部公开。以前阐扬好的手机AI助手,比如Step-GUI和MAI-UI,教师数据全部藏匿,外界无法复现或改进。OpenMobile让任何酌量者都能用相通的方法教师我方的模子,同期在AndroidWorld测试上,它教师出的模子凯旋率从约30%跃升到64.7%,也曾相当接近顶尖闭源系统,而且在其他两个测试平台上也展示出了可以的泛化才略。

Q2:OpenMobile的教师数据会不会是靠"背谜底"得高分的?

A:酌量者对此作念了挑升的考证。他们推测了教师数据和测试题目之间的语义相似度,发现只好3.5%的教师教导与测试教导相似度卓越0.7,不存在大规模照搬测试题的情况。而且当把最相似的一小部分教师数据删掉时,模子得益仅仅小幅着落,阐明性能靠的是等闲的功能阴事而非少数几条近似题目。

Q3:无边用户什么时刻能用上OpenMobile教师出来的手机助手?

A:OpenMobile当今是一个酌量框架米兰体育,教师出的模子需要在安卓模拟器或真实开导上部署,还不是一个开箱即用的消耗级居品。不外由于代码和数据全部公开,开导者社区可以在此基础上连接开导,将来集成进真实手机助手诳骗的可能性是存在的。当今距离无边用户平直使用还需要更多工程化责任。

博亚体育中国官网在线入口