作者:OpenBMB开源社区
近日,字节跳动宣布的豆包手机助手在业内激起了广泛评论辩论。这不仅是一款新智能硬件的表态,更标记住大年夜模型应用范式的一次重要跃迁——从“Chat(对话)”真正迈向“Action(行动)”。作为经久深耕大年夜模型范畴的研究者,我们将豆包手机助手定义为行业首款体系级 GUI Agent。它不再是一个孤立的智能应用,而是深度耦合于操作体系底层、具备跨应用感知与操作才能的“超等中枢”。
若何对待豆包手机助手的当下与将来?藉此机会,我们欲望与大年夜家分享我们眼中的手机助手,以及端侧智能的演进愿景与路线图。
豆包手机助手关键技巧解析与研判
GUI Agent 无疑是豆包手机助手的核心技巧。为透视豆包手机助手的技巧本质,我们有须要先回想 GUI Agent 技巧从实验室走向家当界的演进脉络。2023 年至 2025 年间,GUI Agent 技巧经历了从“外挂式框架”到“模型原生智能体”的根本性范式改变:
GUI Agent 成长的最早期阶段(2023‑2024)采取外挂式框架,其核心思路是不改变大年夜模型本身,而是经由过程提示工程将界面转化为模型可读的文本和函数接口(如 HTML/DOM 树,代表工作有 OSU 的 Mind2Web、腾讯的 AppAgent)或带数字标记的截图(Set‑of‑Mark,如阿里的 Mobile‑Agent‑v1)。这一阶段的智能体才能上限受限于提示词设计与外部对象(OCR、检测模型)的精度,模型并未真正“看见”GUI 情况,更多是在进行文本逻辑推理。
后来,模仿进修驱动的视觉说话模型筹划代替出现(2024)。跟着视觉说话模型才能晋升,技巧路径转向模型内生。智谱的 CogAgent、我们的 GUICourse [1]、上交&MIT 的 OS‑Atlas 等工作摒弃了对 XML/DOM 等底层数据的依附,直接基于像素输入懂得界面,并输出坐标。这一阶段实现了感知层面的“原生化”,模型开端像人类一样经由过程“看”屏幕来懂得界面构造,明显晋升了对非构造化 GUI 的适应才能。
今朝,强化进修驱动的视觉说话模型成为主流(2024‑2025)。其核心冲破在于引入强化进修以解决复杂决定计划问题。伯克利的 DigiRL 初次验证了应用强化进修构建 GUI Agent 的可行性。在此基本上,智谱的 AutoGLM 和我们的 AgentCPM‑GUI [2] 进一步在大年夜范围 GUI 义务中验证了强化进修的有效性。字节的 UI‑TARS 工作则引入大年夜范围在线强化进修,使得智能体能在与 OS 情况的持续交互中优化策略,学会缺点修改、长程筹划与泛化应对。至此,GUI Agent 真正具备了在动态情况中自立履行义务的才能,而豆包手机助手恰是这一技巧路线的集大年夜成者。

GUI Agent 的成长过程
而为何之前的 GUI Agent 多逗留于 Demo 阶段,而豆包手机助手却接近了实用临界点?经由过程技巧复盘,我们认为其在工程侧与模型侧完成了关键冲破:
在工程侧,以往的 GUI Agent 筹划多依附 Android 无障碍办事或 ADB 调试,存在权限易樊篱、高延迟以及“抢占前台核心”干扰用户等致命缺点。豆包手机助手凭借定制 OS 的优势,实现了“非侵入式”的体系级接收。据我们研判,其工程实现包含两大年夜核心要素:
-
本文转载自:https://mp.weixin.qq.com/s/s13YBYD9R8y-PK7FO3Suyw
GPU Buffer 直读:绕过传统截图接口,在体系底层直接读取屏幕衬着缓冲区的数据,大年夜幅降低了视觉旌旗灯号获取的延迟。
-
虚拟屏幕后台过程:这是一个奇妙的工程技能。为避免智能体操作抢占用户核心,体系内部构建了第二块虚拟屏幕,AI 在后台弗成见的虚拟屏幕上履行点击与滑动,而前台用户仍可正常应用。
而在模型侧,综合现有应用体验与技巧特点断定,豆包手机助手采取端云协同的模型架构:
-
[7] Xiao, C., Cai, J., Zhao, W. et al. Densing law of LLMs. Nat Mach Intell7, 1823–1833 (2025).
端侧模型:重要负责意图辨认与义务路由。对于调节音量、亮度等简单义务,直接经由过程端侧模型调用本地体系 API 完成,实现毫秒级响应。
-
云侧模型:处理多步调、跨应用的复杂义务(如跨 APP 订票)。该模型内部区分“思虑”与“非思虑”两种模式:非思虑模式下以低时延直接履行;思虑模式下会先辈行义务拆解、流程筹划与需求澄清,再进入履行阶段,以均衡响应速度与义务成功率。
-
RL 数据飞轮:其核心护城河在于建立了基于强化进修的数据闭环。经由过程高保真 OS 沙盒情况,模型经历了数百万次轨迹的摸索与优化,高质量数据用于下一轮 SFT 练习,低质量数据收受接收至持续预练习阶段。这种工业级数据范围使其泛化才能明显优于学术界开源模型。
豆包手机助手的出现,标记住 GUI Agent 终于走出实验室的“玩具”阶段,开端具备实用价值。它揭示了一个事实:大年夜模型不仅是大年夜脑,更能接收屏幕、模仿触控,成为连接数字世界的“全能接口”。当然,若我们将眼光投向更长远的将来,GUI 操控或许并非端侧智能的终局。 今朝的 GUI Agent 本质上是一种“兼容旧生态”的过渡筹划——它不得不经由过程模仿人类的视觉和触控,去适应那些并非为 AI 设计的图形界面。这种方法固然通用,但链路过长、依附屏幕衬着。 我们认为,跟着端侧生态的成熟,手机助手的操控方法可能进一步兼容“APP/体系对象调用”与“生态级智能协同”:
-
APP/体系接口调用:比拟于模仿点击,直接调用 APP 或体系的接口(API)具备更高的精确率和更短的履行链路。事实上,豆包手机助手在调节音量、亮度等体系级义务上,恰是经由过程直接调用体系接话柄现了毫秒级的零掉误响应。固然今朝第三方 APP 厂商开放接口的意愿受限于贸易博弈,但跟着 AI 手机渗入渗出率的晋升,高频功能(如付出、打车、预订)必将从“视觉组件”封装为“语义接口”,供智能体高效调剂。
-
豆包手机助手的技巧局限性分析与瞻望
豆包手机助手让大年夜众看到了端侧智能的潜力。但从机能评测与应用生态来看,以它为代表的端侧智能体要想真正办事数十亿用户的智能化生活,仍需霸占三大年夜偏向难题:
起首,终端调用云侧模型存在安然风险。豆包手机虽采取端云协同架构,但绝大年夜多半屏幕懂得与操作义务仍严重依附云侧 GUI 模型,这相当于将用户的数字生活周全映射至云端。“云侧接收一切”的模式在隐私安然、收集依附和算力成本上均面对可持续性挑衅,也触及了应用厂商将用户行动数据视为核心资产的红线。其直接后果是,豆包手机助手在市场博弈中已陆续暂停对微信、淘宝等核心应用的智能操作支撑。我们断定,将来的 AI 手机生态不该是“云侧通吃”,而应遵守端云结合原则:云侧模型处理通用逻辑与专业需求;涉及用户隐私、及时交互的私稀有据必须在端侧闭环。当前“端侧过轻”的架构缺点,亟需经由过程构建本地“安然屋”来化解。
其次,智能体自立完成义务才能不足。我们在豆包手机助手宣布后第一时光进行了高难度测评,并同时开展智谱 AutoGLM 的测评作为参照。成果显示,豆包手机助手在 59.86% 的复杂义务上取获成功,AutoGLM 等开源筹划则成功率更低。掉败案例复盘显示,核心问题集中在四方面:
-
生态覆盖有限:面对小红书、美团、淘宝等高频应用,智能体常因无法精准调起原生应用,被迫降级为网页搜刮或通用问答,“办事直达”退化为“内容检索”。
-
复杂指令解析精度不足:模型对含多参数(时光、地点、价格)、多对象(私聊 vs 群聊)的复合指令懂得存在缺点,难以精准提取关键槽位信息。
-
动态情况履行鲁棒性缺掉:面对收集波动、权限弹窗及风控校验时,模型缺乏中断恢复与替代筹划筹划才能,易因单点受阻陷入逝世轮回。
-
第一,从“被动指令履行”到“主动意图猜测” 。当前助手多逗留在字面解析阶段,依附用户给出完全、明白的提示词。真正的个性化助手需具备“读心”才能,即基于端侧积聚的汗青行动、偏好演变及当前情况状况(时光、地位、屏幕内容),构建高精度用户画像。智能体不再被动等待唤醒,而是持续在后台进行情况感知与推理。例如,当用户周五晚上搜刮“周边游”时,模型应结合汗青数据主动辨认“爱好安静、预算中等、带宠物”的隐式束缚,直接过滤嘈杂的热点景点。这种从“只听你说什么”到“懂你没说什么”的跨越,是智能体建立用户信赖的基石。
APP 即智能体:今朝的架构中,手机助手作为“大年夜脑”须要承担极其沉重的认知负荷,它必须懂得成千上万个 App 内部的微不雅逻辑。将来的 APP 或许不再仅仅是等待被操作的“对象”,而是演变为具备自力才能的“子智能体”。对于“筹划差旅”这种超长程义务,主智能体仅需向下分发子义务,而具体的比价、选座、风控核验等繁琐步调由 App 内部的子智能体在应用内自立闭环。这种分层协作模式将极大年夜降低主智能体的认知负荷,经由过程生态级的智能分工,明显晋升复杂义务的履行泛化性与鲁棒性。
长程交互高低文治理纷乱:在多轮交互中,模型易受汗青信息干扰,导致“比来”“邻近”等时空束缚被缺点覆盖。
-
最后,个性化与主动办事才能不足。今朝的豆包手机助抄本质仍是“用户命令‑智能体履行”的被动对象。大年夜模型拥有全人类通用常识,却唯独缺乏对“你”的深度懂得。它不知道你下班的习惯路线、点咖啡的糖度偏好,也无法在开会时主动拦截骚扰德律风。真正的小我助理必须是“千人千面”的,这请求智能体可以或许应用端侧数据进行持续进修,形成专属用户的个性化记忆。当前的豆包手机助手仍偏向傻瓜式义务主动化,远未达到个性化主动办事的阶段。
综上所述,为应对隐私安然、情况感知、复杂义务决定计划与个性化办事四大年夜挑衅,将来的 AI 手机技巧体系必须向 端侧智能(隐私安然)、全模态智能(情况感知)、自立智能(复杂决定计划)与 主动智能(个性化办事)四个偏向持续演进。
端侧智能:以端侧模型实现安然可控的智能应用
现代移动操作体系的安然基石是“沙盒机制”,即应用间数据隔离、互不干扰。然而,体系级 GUI Agent的出现,本质是付与了一个超等过程一把打开所有沙盒的“全能钥匙”。豆包手机助手的实践揭示了一个根本性抵触:体系级智能体为实现“全能操作”所必须的全局视野,与用户对隐私和数据主权的根本诉求之间,存在着天然张力。而解决这一抵触,是端侧智能走向普及的前提。
尽管厂商采取了“端云协同”架构,并传播鼓吹对暗码输入等极端敏感场景进行本地处理,但在绝大年夜多半日常场景下,海量用户行动数据的流向与控制权依然是一个不透明的“黑盒”。这导致了便利性与数据主权之间的根本博弈:假如每一次点击、每一屏浏览都须要经由云端核阅,用户实际上是在向办事商让渡本身的“数字主权”。一旦这个超等智能体被攻破,后果将不堪假想。
恰是基于对上述抵触的深刻熟悉,我们认为,将来的AI手机生态毫不克不及是“云侧通吃”,而必须确立 “端侧原生、端云协同” 的根来源基本则,建立清楚的分工体系。端侧是 隐私的“守门人”与体验的“基石”:涉及用户隐私、及时交互、小我习惯的所有“私有域”数据与操作,必须在端侧形成闭环。用户是数据的独一持有者,端侧模型充当隐私的“守门人”。这不仅是保护数据主权,也是实现毫秒级极致响应、供给“类人”交互体验的物理基本。云侧是专业的“智库”与广域的“连接器”,涉及海量常识、复杂逻辑推理或需要广泛互联的“专业域”义务,则可路由至云侧专家模型处理。云侧凭借其参数范围、常识广度与互联网连接,充当专业的智库。这一分工的改进是 将数据主权和安然闭环果断地锚定在端侧。当智能真正在用户设备内部运行时,人机之间更轻易建立起坚实的信赖契约,这也是我们团队保持“端侧原生”路线的根来源基本因。
将大年夜模型才能装入边沿设备,面对功耗、存储和算力的多重束缚。我们团队并未盲目追逐参数范围,而是环绕 “端侧、高效” 构建全栈技巧壁垒,核心是晋升模型的“才能密度”——即单位参数内蕴含的智能程度。是以,我们提出 “才能密度轨则” :大年夜模型才能密度每 3.5 个月翻倍。这意味着,技巧立异的目标是以更小的模型实现更强的机能,这一规律反应了大年夜模型成长从"标准驱动"向"能效驱动"的必定改变。环绕这一轨则,我们构建了“模型架构-数据治理-进修办法”的高才能密度制备技巧体系,个中以模型架构技巧为例,w在 稀少模型架构 和 软硬协同的极限紧缩与加快 两方面的工作,验证了这一技巧成长偏向的可行性:
-
稀少模型架构:我们研发了如 BlockFFN [3] 和 InfLLM-V2 [4] 等技巧,摒弃传统 Transformer 的全参数激活模式,实现计算资本的“按需分派”。在推理时仅激活极少部分相干神经元,尤其在处理长文本时,能将计算复杂度从二次方降低至线性,实现超高稀少度,让端侧设备“跑得动、不发烫”。
-
泛化性指的是智能体在没有见过的义务上的胜任程度。当前 GUI Agent(如 UI‑TARS)的才能很大年夜程度上依附于云侧大年夜模型见过的海量 APP 界面截图与操作轨迹,本质是“基于经验的泛化”。然而,真实移动互联网情况高度碎片化且动态变更:APP 每日更新,界面构造可能进行 A/B 测试,同一 APP 在不合机型上的衬着也不合。若仅依附云侧模型“背题库”式练习,一旦碰到小众 APP 或新版本界面,智能体便会瘫痪。将来的自立智能需具备 零样本泛化才能。这意味着智能体应像人类一样,经由过程懂得 GUI 设计的通用说话(如放大年夜镜代表搜刮)与营业逻辑,在从未见过的全新 APP 中经由过程自立摸索学会应用对象。这请求模型不再简单记忆像素地位,而是构建对数字世界的“世界模型”,懂得操作与情况反馈间的因果关系,从而以更小参数范围实现对陌生情况的适应。
软硬协同加快:针对“内存墙”瓶颈,我们融合投契采样与极低比特量化技巧。经由过程“小模型草拟、大年夜模型验证”的协同解码,以及将参数紧缩至 4 比特甚至更低,大年夜幅降低内存带宽占用。我们开源的轻量端侧模型 MiniCPM 系列,累计下载超 1700 万次,并已落地浩瀚主流终端设备。
大年夜模型的才能密度在赓续加强[7]
端侧智能不仅仅是技巧路径的选择,更是价值取向的锚定。它经由过程将隐私闭环于设备、将响应提速至毫秒、将算力包袱优化至可持续,从根本上解决了智能普及中的信赖、体验与成本问题,是构建将来小我化、可托赖数字伴侣的必由之路。
全模态智能:能听会看的全模态感知才能
包含豆包手机助手在内的当前 GUI Agent,在感知层面仍重要依附“截图+上传”的静态处理模式。要实现真正的“类人”助手体验,智能体必须冲破传统视觉说话模型的模态壁垒,具备在端侧深度处理文本、图像、视频、音频等多模态信息的才能。我们认为,下一代端侧智能感知将环绕 “同一架构下的全模态融合” 与 “及时流式的动态交互” 两个维度演进。
第一,架构演进须要从“多模态”走向“全模态”。当前主流多模态模型本质仍是“拼接式”架构,即经由过程连接器浅层对齐视觉/音频编码器与说话模型。这种范式限制了对跨模态细微接洽关系(如语音语调与面部神情的同步性)的捕获才能。跟着 GPT‑4o 及 Gemini 系列模型的宣布,全模态(Omni)正成为新前沿。这类模型旨在底层打通不合模态的表征空间,实现原生的懂得与生成。在端侧算力受限的挑衅下,我们的 MiniCPM‑o 系列模型验证了这一路径的可行性:我们摒弃痴肥的外部组件堆叠,经由过程同一建模将语音懂得生成、视觉懂得与文本处理集成到高效端侧基座中。这种架构同一不仅明显降低推理开销,更使智能体能像人类一样综合处理并行旌旗灯号,为将来覆盖触觉、温度等更广泛物理旌旗灯号奠定基本。我们信赖,全模态感知才能是大年夜模型走出屏幕、走进物理世界,支撑具身智能、主动驾驶等关键应用的重要基本。
第二,交互演进须要从“静态采样”走向“动态流式”。真实世界的多模态信息流是动态持续的,而非静态截图。当前大年夜部分端侧智能体仅能处理离线采样数据,相当于对真实世界进行“切片”。这种“回合制”交互导致明显延迟,无法知足及时翻译、视频通话帮助等即时需求。为打破瓶颈,端侧感知必须向流式演进。我们研发的 MiniCPM‑o 2.6 经由过程多路时分复用的流式编码技巧,在端侧设备上实现了对动态信息流的及时响应。模型无需等待语音说完或视频录完,而是在接收信息的同时进行增量式懂得与决定计划。这种流式架构不仅大年夜幅降低首 token 延迟,更实现“全双工”交互——用户可随时打断模型,模型也能灵敏捕获插话机会。此外,针对流式处理可能损掉细节的问题,我们在底层融合了 LLaVA‑UHD [5] 的高分辨率处理技巧,经由过程自适应切片策略,实现对随便率性长宽比图像的低功耗、低延迟高清编码。“流式传输+高清编码”的组合,让端侧智能体既能流畅“看”视频,也能精准捕获一闪而过的文字细节(如屏幕报错代码),真正将片子《Her》中全天候、及时响应的智能伴侣带入实际。

大年夜模型多模态才能的成长汗青可视化
自立智能:大年夜模型智能体的下一个技巧冲破
豆包手机助手的宣布向行业展示,昔时夜模型拥有足够数据与参数时,其在 GUI 上的拟人化表示可令人赞叹。然而,现阶段的端侧智能体(包含豆包、AutoGLM 等)在面对未见过的复杂场景时,成功率仍会明显降低。要让 AI 手机从“尝鲜”走向“常用”,除了堆叠数据,我们必须在智能体的 泛化性、自立性与长程性 这三个维度上实现机制级冲破。

智能体的三大年夜挑衅
长程性指的是人类应用手机完成义务往往是跨越多个 APP、持续数分钟甚至数小时的长程交互。例如,“帮我基于这周邮件往来筹划差旅日程并预订机酒”。这不仅须要跨应用操作,更请求智能体在漫长操作链中始终保持对核心目标的专注,不因中心弹窗或无关信息而“迷路”。今朝的大年夜模型受限于高低文窗口,往往“健忘”。跟着交互步调增长,关键信息(如出发日期、预算上限)易损掉或被稀释。真正的长程性需冲破高低文窗口限制,引入类人的记忆架构:智能体应能自立决定将哪些关键信息写入经久记忆,哪些保存在工作记忆,并主动遗忘干扰决定计划的噪音数据,确保在长链操作中始终保持目标聚焦。
自立性指的是智能体应对动态情况的鲁棒性与自我修改的才能。真实端侧情况远比沙盒模仿器复杂。收集延迟、营销弹窗、体系权限拦截、页面加载掉败皆是常态。今朝的 Agent 多采取线性“不雅察‑思虑‑行动”链路,一旦某步履行掉败(如收集卡顿弹出重试窗口、优惠券领取掉败、告白遮挡),智能体常因情况状况与预期不符而直接报错中断。真正拥有自立性的将来自立智能体应具备“反思”机制:
(2)缺点恢复:碰到非预期状况(如误触告白进入第三方页面)时,具备“回退”与“从新筹划”才能,甚至能经由过程摸索性操作找到新路径,而非机械请求人类接收。只有具备这种才能,用户才敢真正宁神地将手机交给智能体处理充斥不肯定性的复杂义务。
上述三大年夜才能的实现,本质上都依附于同一个底层逻辑——智能体必须在与动态情况的交互中赓续进修和优化。纯真的监督微调(SFT)只能模仿人类已有的轨迹,而无法应对未知的变更。是以,自立强化进修 是下一代智能体的核心引擎。在这方面,我们团队的PRIME工作 [8] 将强化进修与过程嘉奖模型相结合,让智能体不仅存眷最终成果,更能获得每一步推理过程的细粒度反馈,大年夜幅晋升了复杂逻辑义务的练习效力。在此基本上,团队的 AgentCPM-GUI、字节的 UI-TARS及智谱的 AutoGLM 均验证了应用强化进修在 GUI 场景下进行大年夜范围摸索进修对GUI Agent 泛化性、自立性晋升的有效性。

总的来说,假如豆包手机助手当前的才能来自“读万卷书”(海量数据练习),那么下一阶段的自立智能则须要智能体学会“行万里路”(在动态情况中自立摸索与适应)。只有霸占泛化性、自立性和长程性三大年夜难题,AI 手机才能从“听话的履行者”进化为真正“可托赖的智能助手”。
主动智能:个性化助手的必备才能
从人机交互视角看,小我助手是否真正具备“帮助价值”,不取决于其功能数量或技巧复杂度,而取决于一个核心标准:用户为指导智能体完成义务所付出的精力,必须明显小于用户亲自完成该义务所需的精力。一旦前提不成立,智能体便会从“助手”退化为“包袱”。
豆包手机助手固然今朝重要依附 GUI 技巧,但其在体系层面的深度整合,实际上也为将来向 API 调用和多智能体协同演进展示了可能性。
第二,从“分步指导交互”到“预先填充确认” 。为解决“教 AI 干事太累”的痛点,交互必须从辛苦的“填空题”改变为轻松的“选择题”。主动智能体基于意图预判,能主动生成含关键参数的预填充指令。例如,在用户打开打车软件的刹时,智能体根据日程与当前时光,直接弹出“打车去公司,估计 30 元”的建议卡片。用户只需点击“确认”,无需手动输入目标地。这种机制将用户认知包袱从高强度“指导”降至低强度“核阅”。同时,主动性必须严守“克制”原则:仅当猜测置信度极高或对用户价值明显时才主动介入,确保智能体是“默契的伴侣”而非“打搅的弹窗”。
在端侧实现这种高程度的主动智能并非遥弗成及。我们的研究团队在 Proactive Agent [6]工作中验证了其技巧可行性。针对主动办事缺乏练习数据的难题,我们立异构建情况模仿器,经由过程模仿用户在代码编写、文章写作、智能家居等场景下的交互序列,生成大年夜范围“用户‑情况”交互数据集。实验证实,基于此数据练习的端侧模型能灵敏捕获用户隐式意图。这注解我们完全有才能在端侧打造出具备深度洞察力的下一代小我助手。
综上所述,主动智能不是个性化助手的“加分项”,而是其走向实用与可托的 基本才能。只有当智能体可以或许以更低交互成本承担更多决定计划前与履行中的工作,小我助手才能真正从“会对话的对象”进化为“值得依附的协作者”。

[6] Lu, Yaxi, et al. "Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance." The Thirteenth International Conference>.
主动智能:从被动响应到主动办事(由 Gemini 生成)
今朝的豆包手机助手等端侧智能体仍遵守“用户命令‑智能体履行”的被动范式。这导致用户在履行复杂义务(如“帮我筹划周末去全球影城的行程”)时面对巨大年夜认知负荷——需像填表一样依次确认出发时光、交通偏好、酒店预算和必玩项目。一旦交互成本跨越直接操作 APP 的成本,智能体便成为“包袱”。是以,合格的个性化助手必须具备在 最罕用户输入 前提下完成义务的才能。我们认为,下一代端侧智能必须完成从 “被动响应”到“主动智能” 的范式跃迁。所谓主动智能,并非简单“多干事”,而是指智能体能在不频繁打搅用户的前提下,持续感知情况、积聚汗青经验,并基于这些信息对用户的潜在需求进行猜测和预备。
将来瞻望:手机助手与端侧智能体
基于技巧成熟度与市场动态,我们对将来短期、中期及经久的行业格局做出如下研判:
在短期(1年内),我们断定更多手机助手将上市,应用与 OS 的博弈加剧。今朝,字节(UI‑TARS)、智谱(AutoGLM)、面壁(AgentCPM‑GUI)等团队已证实 GUI Agent 具备贸易化落地基本。将来几个月,我们将看到更多手机助手上市,“软硬对抗”将周全爆发:互联网大年夜厂试图经由过程“应用层 OS 化”保住流量进口;手机厂商则必会逝世守 OS 底层权限,推出自研体系级智能体以保卫主场。这种好处冲突将激发激烈对抗:应用厂商可能经由过程加密传输、动态 UI 衬着等技巧手段,对抗 GUI Agent 的视觉读取与模仿点击。传统 Web 端的“爬虫与反爬虫”对抗将在移动终端 GUI 层面重演。此阶段竞争将极其激烈,但也会反向推动技巧才能爆发式增长。
而到中期(2~3年),自立进修才能将走向成熟,持续成长的“小我专属助手”形态会逐渐确立。在基本功能需求知足后,智能助手真正的差别化壁垒在于 “个性化”。云侧大年夜模型虽强,倒是“千人一面”的通用专家;唯有端侧模型能近距离接触用户全量数据。我们断定,跟着端侧模型测试时进修技巧的成熟,智能助手将从“静态对象”进化为“持续成长的小我专属助手”。它能基于用户汗青行动数据持续自我迭代——知道你点咖啡的糖度偏好,熟悉你打车时的常用路线。这种“越用越聪慧、越用越懂你”的特点只能由端侧模型实现,并将成为用户无法迁徙的体验壁垒。

大年夜模型高效成长门路:才能跃迁,能效晋升
放眼经久(3‑5 年),端云协同架构走向终局,AGI 时代的新型端侧硬件形态出现。高隐私操作(聊天、付出、相册)与高频轻量义务(定闹钟、调亮度)完全由端侧模型履行,形成本地闭环,确保数据主权与毫秒级响应。端侧算力无法解决的超复杂推理,或需连接广泛互联网办事的需求(如“全网比价并下单”),则在用户显式授权与脱敏后路由至云侧专家模型处理。跟着端侧智能与云侧智能深度融合,用户对终端的交互将不再局限于屏幕,更天然的语音、手势交互将催生 AGI 时代的新硬件形态。手机可能不再是独一载体,以智能座舱、AI 眼镜为代表的新型端侧硬件将出现,承载 AGI 时代的小我助理功能。

AGI 时代必将出现新型智能硬件
结语
豆包手机助手的出现,如同一面镜子,既映照出 GUI Agent 从实验室走向实用的技巧跨越,也折射出端侧智能在隐私、泛化与交互范式上的实际挑衅。它告诉我们:大年夜模型若想真正融入每小我的数字生活,就不克不及只逗留在“对话”,而必须学会“行动”;不克不及只依附“云端”,而必须扎根“端侧”。而在互联网应用市场资本高度整合、手机等硬件巨擘格局森然的当下,立异的出现必定不会一蹴而就,新玩家的入局也必定举步维艰。我们看到在以前半个月中,一个个 APP 被字节跳动官方宣布不再被豆包手机助手所支撑,用户们最开端的高兴感也慢慢消退。然而,如今这并不是停止,甚至不是停止的开端。但,这或许是开端的停止。
OpenBMB 社区经久存眷大年夜模型的普惠化成长,MiniCPM 系列端侧大年夜模型恰是在端侧智能的思路牵引下应运而生。今朝,MiniCPM 系列端侧大年夜模型已经在最具落地前提的智能座舱等范畴扎根成长。智能座舱不仅须要毫秒级的响应速度来处理导航、安然预警和娱乐体系,更须要深度学惯用户习惯,实现无缝的个性化办事,并对数据隐私和安然性有极高的请求。而在将来,跟着芯片算力的赓续演进、大年夜模型才能密度的赓续加强,AIPC、手机助手甚至具身机械人的智能应用处景都将陆续成熟,端侧智能将会成为驱动智能硬件成长的越来越重要的动力,豆包手机助手的下一个形态也将会不再受到如今的质疑和困扰,迎来新生。
将来已来,路仍漫长。从被动履行到主动办事,从单一模态到全息感知,从固定规矩到自立进化——端侧智能的每一次冲破,都将使我们离那个“懂你、护你、助你”的小我超等助手更近一步。这不仅是技巧的比赛,更是对信赖、隐私与人本价值的回归。我们信赖,当智能最终在每小我掌心安然、高效且体谅地运行时,那才是人工智能真正闪烁的时刻。
➤ 参考文献
[1] Chen, Wentong, et al. "GUICourse: From General Vision Language Model to Versatile GUI Agent." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025.
[2] Zhang, Zhong, et al. "AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning." Proceedings of the 2025 Conference>[3] Song, Chenyang, et al. "BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity." Second Conference>.
[4] Zhao, Weilin, et al. "Infllm-v2: Dense-sparse switchable attention for seamless short-to-long adaptation." arXiv preprint arXiv:2509.24663 (2025).
(1)履行验证:每履行一步后,自立验证情况反馈是否相符预期;
[5] Guo, Zonghao, et al. "Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images." European Conference>. Cham: Springer Nature Switzerland, 2024.
[8] Cui, Ganqu, et al. "Process reinforcement through implicit rewards." arXiv preprint arXiv:2502.01456 (2025).

发表评论 取消回复