字节跳动与智谱的AI手机助手之争:AutoGLM开源的影响
《科创板日报》12月10日讯(记者 李明明)12月初,字节跳动推出的“豆包手机助手”随联名机型亮相,引发了关于未来手机形态与AI生态的广泛讨论。与此同时,该产品因涉及微信、淘宝等应用的适配问题而备受关注。仅一周后,AI大模型独角兽智谱于12月9日宣布其核心AI Agent模型——AutoGLM全面开源。这一举动不仅深化了手机AI入口的行业探索,还将操作手机的核心能力向全行业开放,推动行业焦点从具体终端产品落地延伸到未来生态格局的核心技术能力共建。
智谱此举被外界解读为在“豆包”点燃AI手机热潮后,以截然不同的“开源”策略,强势竞逐下一代人机交互入口控制权的关键举措。那么,手握“操作系统级”Agent能力的智谱,能否在这场决定未来格局的战役中成功?
AutoGLM的实测与能力
据悉,本次开源的是一套“拿来就用”的完整能力包,包括训练好的核心AI Agent模型、Phone Use能力框架与工具链。目前,AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景,其自动化操作能力与“豆包手机”演示相似。AutoGLM通过一整套Phone Use能力框架,能在真机上稳定完成一系列操作,如发送微信红包、外卖点单、机票预订等。
《科创板日报》记者对AutoGLM进行了实测。下达“帮我在美团点一杯冰豆花”指令后,系统通过云端虚拟手机自主完成打开App、搜索店铺、筛选商品、关闭广告弹窗等操作,最终跳转至结账界面,按指南在支付前停止操作,全程耗时约一分半钟。
这一效率较真人手动操作提升显著,普通用户手动完成同款饮料点单,平均耗时3-5分钟,AutoGLM通过流程自动化将耗时压缩70%以上。
然而,AutoGLM在复杂任务执行中仍有一定短板。记者在实测中发现,遇到设计特殊的APP界面时,可能出现操作适配不顺畅的情况。智谱AutoGLM部门负责人刘潇表示,AutoGLM的核心关注点集中于操作准确性、复杂任务执行能力和数据安全问题,目前正针对这些核心诉求持续优化。
从“豆包”到AutoGLM:两种路径的较量
智谱的开源策略与“豆包”此前引发的市场教育和生态冲突密不可分。12月1日,字节跳动推出的“豆包手机”工程样机,以其系统级权限和跨应用自动化能力,让市场首次直观感受到“AI Agent手机”的颠覆性潜力。然而,“豆包”的迅速走红也瞬间遇到了现有互联网生态的挑战。
周鸿祎此前坦言,这种能绕过App直接完成任务、让服务直达用户的AI助手,会直接冲垮互联网大厂的护城河。
豆包与AutoGLM代表着AI手机发展的两条不同路径。豆包手机是系统级集成,依赖Android系统权限,而AutoGLM是视觉大模型加ADB指令的开源框架。豆包手机为封闭生态,字节跳动亲自下场整合硬件;AutoGLM则为开放生态,赋能全行业开发者。
AI手机入口争夺战进入新阶段
智谱AutoGLM的开源,标志着AI手机入口之争进入了下半场:从争夺“硬件终端”或“单一入口App”,升级为争夺生态的“核心灵魂”——即那个能真正理解并操作手机的系统级AI能力。业内热议本次开源是“掀桌子”,核心在于智谱选择了一条让巨头难以防御的技术路径。
技术方面,AutoGLM在底层调用了ADB指令,并结合视觉大模型(AutoGLM-Phone-9B)。其运行逻辑是“看屏幕截图 -> 大模型分析 -> 模拟手指点击”。这种基于视觉的“类人操作”,让APP厂商通过简单的代码检测进行防御变得极其困难。
智谱方面介绍,AI手机卡在模型、手机厂商、系统、APP间的生态话语权战,AutoGLM的开源可以大幅降低AI手机技术门槛,推动AI手机生态从封闭走向开放共创。
刘潇认为,手机的发展为移动互联网注入了Agent自主执行带来的新增流量,但新生态与协同关系的构建,仍需依托AI手机普及及与各App生态的深度磨合。Agent发展中,可控性与隐私保护是首要前提,需在算法及技术工程开发初期,融入敏感操作防控与安全栅栏设计。
张有鱼判断,未来的AI手机市场不会只有一个“豆包”。更可能出现的格局是:手机巨头们拥有自研助手,二三线品牌和新兴设备商采用AutoGLM等开源方案快速跟进,形成多层次、多形态的竞争局面。在这场混战中,智谱通过开源AutoGLM,已经为自己赢得了扮演关键“赋能者”角色的入场券。它或许无法独占入口,但极有可能成为塑造整个入口生态的重要基石之一。
这场关于“灵魂”的争夺,才刚刚开始。