如何看待三星谷歌合作首款AI手机上线,但未像豆包手机一样触及安卓权限,主要依靠Gemin大模型能力?
这款手机目前还没在国内发售,当然了,我的小吞金兽我还没养明白了,而且它“主打”的Gemini肯定是用不了的,所以即使等它发售了,我应该暂时也不会买……
不过这倒不耽误我去看看别人的详细测评,地址就不贴了,不过测评得挺详细的,尤其展示了一下那个硬件主动防窥的功能,从视频效果上来看,还是相当不错的,再也不用贴防窥膜了。
看到后面唤出Gemini,动动嘴让它帮忙打车点外卖,这个和之前的豆包手机看起来就很像了,不过再仔细看看测评视频里展示的系统级性能监控数据面板,结合近期业内关于智能体底层架构的技术拆解文档,就会发现这两台设备在处理跨应用自动化任务时,底层的软件工程逻辑其实是截然不同的两套体系。
先复盘一下豆包手机当初为什么会遭遇大面积的应用生态拦截。
豆包手机的自动化代办能力,建立在图形用户界面智能体(GUI Agent)技术之上。为了让内置的多模态大语言模型能够跨越不同应用程序的进程安全隔离区,豆包手机在安卓操作系统的权限控制框架中,直接申请调用了一个名为“INJECT_EVENTS”(注入事件)的底层极高危权限。
于是,整套逻辑的执行方式变得非常简单粗暴:当你下达指令后,手机内置的大模型立刻强行独占设备的前台显示层,随后以极高的频率截取当前的屏幕画面。依靠计算机视觉算法,系统会计算出目标应用程序界面内特定按钮和输入框的绝对像素坐标,紧接着向安卓操作系统的输入子系统直接写入这些坐标数据,以此来合成虚拟的屏幕触摸和滑动动作。
这种基于前端视觉解析和坐标强制注入的方案,通用性确实很强,毕竟只要是屏幕上能显示出来的像素,模型就能强行点击。
但它在实际运行中却存在一个很大的缺陷:输入数据的物理特征完全丢失。
现在主流的通讯软件和金融支付应用,底层都部署了安全风控组件,专门用来校验屏幕输入事件的物理真实性。
啥意思呢?
就是人类真实的手指在按压电容屏幕时,接触面积的微观形变、电容变化的梯度,以及从按下到抬起之间几十毫秒的时间抖动,会产生大量不规则的物理噪声数据,让软件确认,“按它的是人”。
但豆包手机通过系统高权限注入的点击指令,就没有这些物理真实特征了,大模型的“点击”在物理属性字段上呈现出的是绝对精准、毫秒不差且毫无波动的纯粹数学坐标。
这种机械的输入信号会被某信、某宝等应用的安全模型瞬间识别为恶意的自动化脚本攻击。
这就是为啥豆包手机发售初期,很多用户只是想让AI代发一条消息,就立刻触发了账号风控甚至被直接封禁的原因。
再来看测评视频中展示的Galaxy S26运行监控数据。
为了支撑Gemini端侧大模型的极速响应,S26配备了16GB的LPDDR5X高频内存,并且在操作系统的内核层面划定了一块物理锁定的专属内存区域。
这块被锁定的空间专门用于让端侧人工智能模型“常驻”,目的是要消除模型在接收指令时由闪存读写带来的冷启动延迟。
测评数据显示,当测试人员要求手机“提取群聊聚餐地址并打车”时,处理器的神经网络处理单元负载会在瞬间拉满,整个多模态语义解析与意图生成的响应时间被压制在1.5秒左右,整机功耗曲线也没有出现异常飙升。
监控面板信息还显示,在Gemini跨越多个软件执行复杂任务的全生命周期里,系统底层的权限调用日志中记录的数据为零,全程没有任何触碰“INJECT_EVENTS”这类模拟物理触摸的高危权限的操作。
明明没有模拟点击,Gemini是怎么完成任务的呢?
毕竟安卓是谷歌的,所以谷歌对安卓系统内核“做了点手脚”,引入了功能接口协议(AppFunctions)以及安全虚拟窗口机制。
当你在S26上下达打车的自然语言指令时,安卓系统不会在主屏幕上直接去点击网约车软件的图形界面。操作系统会在内存中分配出一个独立的后台隔离运行环境,目标应用程序会在这块用户不可见的后台区块里进行静默加载。
Gemini在这个安全的后台容器里,不需要截取屏幕像素,而是直接读取应用程序标准的无障碍界面渲染树结构,或者直接调用应用开发者预先配置好的结构化数据接口。大模型其实只是扮演一个“意图转换处理器”的角色,它负责把你的非结构化语音指令转化为标准的功能调用参数,比如目的地坐标、车型偏好等,然后通过安卓原生的进程间通信机制,把这些数据包直接传输给后台的第三方应用服务进程。
这样的好处其实还是挺多的,Gemini全程在后台的独立环境中处理数据,手机主屏幕的显示输出和物理触控权限始终保留在用户手中。用户可以继续刷短视频或者回信息,人工智能的执行状态只通过屏幕顶部状态栏的动态卡片进行异步更新。
只有当流程推进到支付确认这种需要人类进行最终决策的环节时,系统才会弹出一个前端验证面板。
此外还解决了第三方应用的风控拦截问题。
因为所有的交互指令都严格遵循安卓系统的标准数据传输协议,不涉及外部坐标的强行注入,所以第三方应用们的安全监测算法就会把大模型的行为判定为合规的系统级请求,也就不会去封禁用户的账号了。
不过我对于S26的本土化还是不太看好的……
国内的移动互联网应用程序具有非常强的封闭特性,各大头部应用为了把流量、数据以及用户使用时长死死攥在自己手里,几乎全都排斥向手机操作系统开放类似AppFunctions这种深层操作的标准化数据接口。
如果各大软件拒绝提供原生接口作为数据传输的通路,那么谷歌设计的那套安全虚拟窗口和后台静默加载机制,也就完全失去了发挥作用的环境。目前国内的智能体技术路线,受制于这种封闭的生态,其实理论上仍然只能沿用类似豆包手机那样的高频截屏与系统级模拟点击的方案。
不过谁知道呢,也许有什么契机能让这些“巨头APP”们向新的AppFunctions妥协呢,其实到了那个时候,到底是用Gemini还是用豆包,真的也不需要那么矫情,打车、点外卖啥的,谁还能做不到呢……