AI手机技术路线之争：豆包与苹果的不同路径

AI手机的技术路线已形成鲜明分野。12月19日，字节跳动在联合中兴努比亚推出“豆包手机”nubia M153后，再度传出扩围动作，正与vivo、联想、传音等厂商推进AI手机合作。以“豆包手机”为代表的阵营，凭借读屏、模拟点击等GUI（图形用户界面）技术，试图让AI助手突破应用壁垒完成复杂任务，却引发主流App集体“自卫”。

反观海外，苹果、谷歌主导的阵营则坚持API（应用程序接口）标准化路线，虽稳健却进展迟缓。这两种技术路线的博弈，象征着移动互联网十余年商业逻辑与利益格局的剧烈碰撞。流量入口迁移的序幕已然拉开，手机厂商、应用开发者与用户的关系正被深度改写。

GUI接管屏幕：豆包撕开系统级权限口子

这场路线之争的导火索，是12月初字节跳动联合中兴努比亚发布的“豆包手机”nubia M153。这款手机凭借跨应用AI操作能力搅动行业：用户只需发出语音指令，AI便能完成订外卖、发微信、比价购物等一系列跨App任务，其技术核心是GUI多模态大模型与系统级权限的深度绑定。

前小米OS AI产品专家、现出海AI应用公司ExcelMaster.ai创始人张和表示，通过与手机厂商（如中兴）达成操作系统层面的深度合作，让AI助手获得凌驾于所有App之上的系统级操作权限。其技术逻辑是模拟人类的点击、滑动等操作，贯通全手机应用，实现跨App的任务执行。

然而，AI助手直接“接管”屏幕，迅速引发主流App的“自卫反击”：微信提示环境异常甚至封号，淘宝频繁弹出人机验证，各大银行App则直接拒绝在录屏状态下运行。

12月9日，智谱AI宣布开源自主任务模型AutoGLM，为GUI路线提供了另一种可能性。AutoGLM同样基于GUI范式，通过视觉大模型实现手机自动化操作，但此前因未获厂商系统级权限支持，只能依赖安卓无障碍模式运行。

张和指出，无障碍模式存在明显短板：“AI操作时会完全占据前台窗口，比如操作淘宝一分钟内，用户无法刷微博、聊天。”

他强调，豆包与智谱AutoGLM本质同源，都是大模型厂商视角的探索，差异仅在于开源与否。获得中兴努比亚手机的系统级权限，是豆包率先做出AI手机的核心原因之一。

苹果、谷歌的API路线：保守但稳定

豆包手机的出现，引发了全球范围内关于AI手机两条技术路线——GUI范式与API范式——的对比和讨论。豆包和智谱的GUI，如同一个“AI保姆”，它像人一样看着手机屏幕，帮用户操作手机。苹果和谷歌的API路线，则像给App们发了一套“手册”，让它们自己把功能开放出来给系统调用。

两者的优劣对比十分鲜明：GUI不依赖App开发者配合，通过视觉大模型“读取”屏幕、模拟人类点击实现操作，优点是通用性强，理论上人能使用的App它都能驾驭；但缺点同样突出，一是隐私保护压力大，二是效率较低，需逐步骤操作且易出错。

以苹果Apple Intelligence为代表的API范式，不是通过模拟，而是构建底层框架与标准化接口，让AI通过规范“调用能力”完成任务。这种模式的优点是稳定、保障隐私且效率高，缺点则是需要App开发者主动配合，生态构建周期更长。

张和评价苹果是“最保守的大玩家”。2022年，苹果推出Apps Intent框架，鼓励开发者向系统声明功能供Siri调用，但坚决不开放读屏绕开应用的能力。

谷歌则走端云协同路线，且优先布局电脑端。旗下Gemini大模型具备强大端云协同能力，但手机端未采用GUI多模态操作；推出的AppFunctions API，旨在解决生态内的碎片化问题，实现系统对应用能力的统一发现与索引。

AI生态洗牌：手机厂商与应用开发者的利益重构

市场调查机构Canalys报告显示，得益于芯片技术的快速发展和消费者对AI功能日益增长的需求，全球AI手机出货占比将从2024年的16%升至2028年的54%。该机构预计，2023年至2028年的年复合增长率将达到63%，三星和苹果等主要玩家将推动这一增长。

技术路线的抉择，最终将指向移动互联网利益格局的深度重构。“靠AI助手去购物，相当于直接介入交易，互联网大厂自然担心商业模式受影响。”张和点出了超级App集体“自卫”的核心焦虑。

API类似手机厂商向各家互联网大厂商议，让后者开发接入手机智能助手的API接口，在限定范围内向AI开放部分功能。这一模式下，主动权掌握在互联网大厂手中，是否开放API接口、对谁开放、开放多少功能，都是未来提供议价权的筹码。

而GUI Agent可以通过“看屏幕、点按钮”的方式来操作App，相当于绕过了App对AI许可授权的过程。更关键的是，GUI Agent将用户操作截留在了手机系统层面：用户无需打开App，就能使用其核心功能。这意味着，App上的广告投放将失去核心价值——而广告收入正是互联网行业的重要营收来源。

张和认为，未来AI手机的生态将呈现“分层治理”格局，不同体量玩家命运迥异。

对于微信、淘宝等超级App而言，短期可以通过技术手段抵制外部AI读屏，保护商业数据与用户隐私。长期最优解是自研AI Agent，形成Agent to Agent（A2A）协作模式：系统级AI将用户意图传递给应用Agent，后者在权限内完成操作。这种模式既保护超级App“领地”，又能融入AI手机生态。

对于数以百万计的中长尾App来说，处境则将完全不同。张和认为，长尾App因缺乏自研Agent的技术与商业话语权，大概率将“被系统级AI直接控制”。对它们而言，与其投入资源拉新获客，不如接受系统级AI操作，换取新生态的流量分发。手机厂商或会制定标准化利益分配条款，让长尾应用“搭上生态红利”。

“这就像自动驾驶，是不可逆转的历史趋势。”张和总结道。以用户需求为核心的变革，将推动生态从“流量争夺”走向“价值共创”，最终形成手机厂商主导，超级App、长尾应用和大模型厂商各司其职的全新格局。

推荐阅读著名专家警告：投资人形机器人初创企业或为资金浪费

Tags: API, vivo, 中兴, 传音, 努比亚, 字节跳动, 联想, 苹果, 谷歌, 豆包手机

AI手机技术路线之争：豆包与苹果的不同路径

GUI接管屏幕：豆包撕开系统级权限口子

苹果、谷歌的API路线：保守但稳定

AI生态洗牌：手机厂商与应用开发者的利益重构

小鹏 MONA M03 推出欧阳娜娜语音彩蛋，丰富驾驶体验

上海发布“仿生眼”：机器人视觉技术迎来新突破

奇瑞瑞虎 7 L 和全新瑞虎 7 全球发布，限时优惠引关注

旧金山联储主席戴利：美国经济稳健，伊朗局势影响有限

3M在第110届中国劳保会展示综合防护计划，推动职业健康安全

20世纪《庄子》在英语世界传播的文化启示

中国央行开展5亿元逆回购操作以稳定市场流动性

北京宣布新环保政策应对空气污染

2025全球最佳大学排名揭晓：美国13所高校跻身前20

美光2000亿美元投资推动芯片回流政策

旧金山联储主席戴利：美国经济稳健，伊朗局势影响有限

美国制裁中国公司及个人涉网络攻击基础设施

人权观察揭露全球汽车制造商铝供应链中的强迫劳动问题

旧金山联储主席戴利：美国经济稳健，伊朗局势影响有限

3M在第110届中国劳保会展示综合防护计划，推动职业健康安全

20世纪《庄子》在英语世界传播的文化启示

中国央行开展5亿元逆回购操作以稳定市场流动性

北京宣布新环保政策应对空气污染

旧金山联储主席戴利：美国经济稳健，伊朗局势影响有限

3M在第110届中国劳保会展示综合防护计划，推动职业健康安全

20世纪《庄子》在英语世界传播的文化启示

中国央行开展5亿元逆回购操作以稳定市场流动性

北京宣布新环保政策应对空气污染

GUI接管屏幕：豆包撕开系统级权限口子

苹果、谷歌的API路线：保守但稳定

AI生态洗牌：手机厂商与应用开发者的利益重构

More Stories

You may have missed