
移动端 Agent 的井喷或许近在眼前:以 ColorOS 抛砖引玉 Enc3lMag1k 少数派作者
筚路蓝缕,以启山林。UESTC-SE/NUS-CE
Enc3lMag1k Enc3lMag1k 少数派作者
筚路蓝缕,以启山林。UESTC-SE/NUS-CE
联合作者Matrix 首页推荐
Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。
文章代表作者个人观点,少数派仅对标题和排版略作修改。
契机也是上一期具透中有关 Android 17 的功能更新上,克莱德和我都提到了一些谷歌官方下场为了拥抱 AI 做出的改变——新的 API,新的权限整合,似乎都是在为 Universal Agent 在移动端的落地做准备。而另一个角度之下,Gemma 4 和 Xiaomi MiMo V2.5 这样的针对低功耗、移动端、算力敏感设备推出的小模型也不断在 Agent 的具体场景下开疆拓土,性能提升明显。这里就拿目前我认为国产 UI 中 Agent 功能做的比较好的厂商:ColorOS,总结一下我认为目前可用性已经很强的一些 Agent 功能,并展望也许几个月后会初具雏形的系统级多功能 Agent 会是什么样子。

本短文所有内容基于一加 15T,系统版本 ColorOS 16.0.5.703(CN01B60P01),限于篇幅将不会涵盖 OPPO AI 的全部功能。由于新一代 ColorOS16 除旅游攻略 AI Agent 并没有大幅更新其它功能,本文大部分内容仍具有时效性。
好用但并不统一——现阶段移动端 Agent 的通病
首先我个人用的最多的肯定是小布记忆,作为 AI 专业的学生,无论是看到好的文章/视频,还是在帖子里看到不错的 idea 或者论文创新点,都可以很方便的按一下 AI 键记下来。记账经过多次更新之后支持了快捷导入微信/支付宝账单,支持动手记,也支持针对账单内容的 AI 对话,还支持自动识别屏幕内的转账、收款等内容进行记账。不过我依然希望可以添加一个将账单按照资金来源分类的功能(比如余额宝 银行卡等等),这样就与主流记账软件几乎没有功能性差别,还少了一大堆广告。

信息类 App 的记忆中做的最好的是小红书,小红书上的视频不仅能直接获取到链接跳转,还会根据视频进度条分段进行内容总结。针对微信 QQ 这类消息上下文很长且屏幕内信息密度不高的聊天类应用,非常希望后续可以让小布记忆调用长截图的 API,这样就能采集尽可能多的信息进行记忆与总结,目前的截图生成的记忆参考价值有限。

小布助手经过几个月的更新,目前我个人使用下来体感是更加聪明了,面对之前比较火的脑筋急转弯问题能答得出来,在调用 web search 和深度思考时的结果也比较连贯。另外大部分效率类的系统软件,比如时钟、日历也和小布助手打通,令我感到惊喜的是 AndesGPT 可以比较好的识别指令与问答在自然语言上的边界。不过目前自动操作也仍然存在提升空间,诸如小红书就能解析指令,但淘宝则只能打开应用,甚至没法输入搜索框。我个人推测目前仍然是基于软件厂商的开放接口进行操作,后续希望可以加强基于识屏的自动化操作。不过对于普通用户,侧边栏的 AI 技能提供了比较好的讲解与功能排列,更直观。另外小布还支持通过读取历史对话对用户进行偏好画像,也支持用户自行添加,也是个不错的小功能。



小布在 AI 生产力上的功能是相当全的,深度研究的流程应该常用 Gemini 的用户很熟悉——没错,很像 Deep Research。但小布的深度研究可以直接生成 PPT,在便签 聊天软件等文字输入的地方也可以直接唤醒小布帮写,也一样支持生成 PPT 和脑图,不过受限于国内搜索引擎的质量,生成的文档不包含太多专业性知识。AI 语音摘记不仅支持同声传译,还能静默录音,只能说 OPPO 的工程师真的很懂牛马生活。不过作为计算机专业学生,我也许个愿希望后续能添加 Markdown 或者 Latex 的形式化生成,就更专业了。



小布识屏也是我目前觉得各家在交互上做的最好的。首先 OCR 识别很精准,且默认支持所有文字内容的自由复制,这相当于默认完成了圈选功能最高频的操作,在此基础上二级菜单里的圈选进一步支持截图,图片识别和批注,补充了识屏的基础功能,整个交互逻辑很直观,界面的模糊 UI 做的也很美观,并且进入圈选的二级功能菜单后还支持原路返回识屏结果页面,避免了多次识屏的复杂操作。

当然有优点就一定有缺点,首先是 AI 搜索。AI 搜索目前从结果上看打通了相册的 AI 智能分类,小布记忆,便签记忆。但是 AI 搜索本身的准确性和意图识别并不尽如人意,比如搜索夕阳的时候按照人的想法应该是直接选取相关图片,但此时仍然是文字检索优先,搜索时效性强的内容时也不会优先使用 web search。

小布助手也并非打通了所有第一方应用,或者准确的说是没有细分到具体的功能垂域。在相册页面调用小布助手对话,却并不能借由小布助手直接调用 OPPO 相册的 AI 功能。这次更新的新一代 ColorOS16 支持了自动识别大师模式自定义滤镜,但这个场景适配显然还是不够。作为数码发烧友,我们可以理解这种细分内容从技术上并不容易适配,但对于普通消费者,这却容易导致使用体验和宣传的落差——OPPO AI 吹的天花乱坠,但实际用起来好像笨笨的,还不如豆包呢。

移动端 Agent 的未来或许是……?
那么一个显而易见的问题是:厂商的第一方 AI 助手,相比豆包千问这样的软件产品,上限在哪,优势又在哪?
优势其实很好得出结论——作为系统底层的组成部分,可以获取更多权限,也可以接入更多内容,这一部分是我认为小布记忆作为拳头功能的正当性之所在。上限也是由此实现的,因为和系统本身的耦合程度更深,因此可以真正做到理解与陪伴,提升效率,提升生产力,并最终达成提升用户幸福感的终极目标。

但现阶段各家 AI 无论是宣传还是实际功能垂域,给人的感觉都是类似的——多且散,我不否认诸如相册 AI 编辑和 AI 翻译的功能确实是系统 AI 的能力组成部分,但需要思考的问题是,它可以有机的融入用户的日常操作吗?它可以借由真正的 AI 中枢无缝的调用吗?如果不能,那只能说明这还是功能堆砌。也正因此,我们距离 System is AI 的时代还仍然有距离。
从这个问题发散开去,有两个值得思考的工程性难题。其一是隐私边界。前段时间爆火的 OpenClaw 一度被奉为圭臬,但实际上不低的工具化门槛和不明确的权限边界导致的安全隐患使得绝大部分互联网上的使用案例仍然停留在玩具阶段。我们看到有终端厂商开始追这个热点,但似乎在将这样的 Agent Toolchain 引入系统之前,不仅需要反复打磨 agent 代码,还需要考虑我们究竟应该使用 API 调用,还是本地的大模型原生能力。

目前 AndesGPT 的端侧大模型能力域还停留在轻量化的多模态识别上,不过好消息是目前的旗舰芯片已经足够运行专门为多模态而生的模型了。8Elite Gen 5 GPU 纯端侧运行 Gemma 4(Gemini Nano) 4B 量化模型的输出速度已经比 api query 还要快了。

但另一方面,如果要推进端侧大模型的功能覆盖,不仅要考虑功耗、结果生成一致性与内容生成效率,其与调用 LLM API 的效果差距也不能太大。但诸如自动化操作、自动化获取系统信息进行处理的操作,如果不交给本地大模型处理,且不论会不会有隐私泄露的风险,普通消费者的心理承受能力也要打上问号,正如我在去年的一篇文章中所言:
“在移动设备这样如此下沉的消费电子领域,引入 AI 最大的困难绝不是技术层面,而是观念。移动设备的下沉特性注定了使用它的大部分用户并不懂 AI,也不懂隐私保护,他们只会担心他们的电话号码、家庭住址或是银行卡密码会不会被窃取。这也是终端厂商在人机交互上强调隐私并不断试图降低 AI 助手「看起来」没那么冷酷的最终目的,他们希望所有用户都可以以很低的技术与心理成本接纳这一新技术。这事实上是交互史上一次最大的冒险,因为在历史上以前所有的交互变革——鼠标横空出世,小红点与触摸板的竞争,触屏取代键盘,本质上都是用一种或多种更好的选择强势侵入用户的思维定势,「更好用」是促使所有人接受创新霸权的最简单粗暴的方法。
但这一手段这次可不好使了。因为涉及到隐私,用户的逆反与抵触心理会被无限放大,想让他们接受这一新的技术背后的交互方式只能低声下气地去「求」用户,更何况这一技术不仅是难以向所有人推广其人畜无害,而是它本身的安全性有待商榷。诚然 AI 可以提高效率帮助思考,但是用 prompt 工程或是 Agent 工具链规训一个黑箱并非安全无虞,黑箱的发展速度超越了全世界的想象,而我们并没有把握吃下伊甸园里的苹果。”

另一方面就是 Agent 本身的实现方式,OpenClaw 仍需要用户去构建 Agent 的功能和实现逻辑,但这一方法在目前的手机系统上不现实,面向的大部分用户也没有能力从 0 到 1 构建。但并非没有办法,事实上,目前的 ColorOS 里就有一个完美的承接土壤——小布指令。目前的小布指令能实现的功能其实并不少,也接入了小布助手,但小布助手只有一个提示词嵌入显然有些简陋。为了规避 OpenClaw 类似产品由于代码质量导致的安全性问题,完全可以让厂商将不涉及隐私的各类功能封装成自动指令(例如 Hook 应用或定时监听),再承接 OpenClaw 的实现方式,比如利用 context 注入系统级的 AI 提示词,生成 json 格式的形式化任务执行逻辑。因为快捷指令支持信息传输(无论是给端侧 LLM 读取还是 HTTP POST),因此可以将整个任务执行都形式化成 JSON 格式。如果中枢的基模是端侧运行,那么接入系统的自动化接口并静默执行就不用担心隐私泄露,同时还可以调用无障碍和模拟点击实现更多功能。

回到刚才的问题,解决 AI 功能多且散的最终方式,应当是一个 AI 核心有机的串联各类系统功能,端侧大模型的发展和安卓在权限与功能上的不断丰富让我看到了未来的可能。就在撰写这篇文章的当下,谷歌推出了基于模型自主思考的 GUI Agent 并搭载在三星 S26 系列上,通过对云端模型连续传递页面 Layout(结构化文本)和 OCR 识别结果辅助自动化操作。相比于豆包手机直接获取了 INJECT_EVENTS 这类敏感权限,这次谷歌官方下场,新增了 ACCESS_COMPUTER_CONTROL 的特殊权限,包含了页面理解,模拟点击等操作,更加适配了 GUI Agent 自动操作的流程。其他 OEM 厂商也可以使用这个权限增强自己的 AI。从应用侧,A16 新增的 AppFunctions 也允许软件厂商打包部分功能开放给第三方 AI。


写到这里我其实觉得手机 AI 再次爆发式发展的时间节点已经不远了,应用与安卓的底层权限开放像是 MCP,而基于自动操作的积木像是 Skills,配合不断增强的端侧模型,或许能让 GUI Agent 更进一步。大模型的下游业态日新月异,而我们既作为用户体验到不断进化的新功能,又作为从业者探索技术实现的边界。把眼下的事处理好,是为未来做准备的最好方式,而这个未来我想不会太远。
- 如果有读者感兴趣,后续作者可能会更新 A2UI、Mobile-Agent 等项目的上手体验与技术解析。
- 头图基于拍摄原图,通过 GPT-Image 2 二次处理。
> 关注 少数派小红书,感受精彩数字生活 🍃
> 实用、好用的 正版软件,少数派为你呈现 🚀
30扫码分享