如何看待很多不懂编程的普通人,用AI给自己写个「Agent」进手机,手机是不是能帮助我们干活了?
最近关于 Vibe Coding 和 AI Agent 进手机的讨论,基本都绕着一个事情车轱辘话说来说去:不懂编程的普通人许个愿AI 帮你生成一个 Agent 塞进手机里,手机突然就能替你干活了。
我觉得前半句没问题,Claude、GPT、DeepSeek,现在的 AI 编程工具能让你用自然语言描述需求,它给你完整项目结构、模块拆解、打包成 APK。一个完全不会写 Java 的人靠说话就攒出一个能跑的应用,在两年前不可想象。
但是后半句被绕过去了,「手机帮你干活」这个事情非常跳跃,一个 Agent 要在手机上帮你干活,技术层面需要的东西非常多。比如至少需要它能一直保活,而且不是它在前台的时候保活,你在微信里聊了很久刷了很久知乎之后它还在跑。因为Agent 要处理的很多任务不是秒回的。比如让它定时抓某个数据源、做一轮分析、归档到你的笔记里,这需要它作为后台进程持续运行。
同时它得能让你看见,你在任何时候都要知道它跑到哪一步了、刚才干了什么、下一步要干什么、有没有卡在某个需要你判断的地方。它还需要能跟你互动。不是说 Agent 替你干完了所有事,你就拿结果。很多情况是 Agent 跑到一半遇到一个人需要拍板的节点需要人立刻看到、快速判断、让它继续。
单看每一项都不难,放到手机这个载体上,问题巨大。因为手机操作系统原本就不是为 Agent 设计的。2007 年 iPhone 发布以后,整个移动 OS 的设计就是「一屏、一 App、一焦点」。iOS 和 Android 的进程管理、前台调度、内存分配,全部围绕「用户当前在和哪个 App 交互」这个前提搭的。
你切走一个 App,系统要么挂起要么杀掉,普通 App,切走了挂起,等你回来接着用,这没毛病。但 Agent 切走了挂起之后工作流程就断了。如果系统把它杀了,下次打开从零开始,之前跑了半小时的活全白干。苹果和安卓现在都在往更智能的后台管理方向做,比如iOS 的后台任务调度、安卓的前台服务。
但这些机制的原始设计全是为了维护单一任务、确定时长的轻量场景,比如音乐 App 后台播放、导航 App 后台定位,没有任何一个移动系统是围绕「一个 AI Agent 持续运行、需要随时被用户看见、需要跟用户双向交互」这种复杂工作来设计的。
所以你会看到一种分裂:很多人在电脑上用 Vibe Coding 就跑得很舒服,往手机上什么都做不了。折叠屏目前先有了突破,接下来要发布的vivo X Fold6 的原子工作台,支持四窗口同时活跃,四个应用进程同时运行,同时接收输入,同时渲染界面,从底层重构了多窗口的并发机制,让交互容器的形态变了。最近原子工作台的讨论已经很多了,但有一个东西被忽略了,就是AI 跨窗拖放。在 X Fold6 的原子工作台里,你从 A 窗口拖出一段文字,悬停在 B 窗口的输入框上,系统弹出一个意图轮盘,你松手直接落在输入框里。拖出一张表格图片,悬停在笔记窗口,「插入表格」,图片里的数据变成可编辑表格。拖出一张证件照片,悬停在某个填表应用里,「智能填表」,姓名、身份证号、有效期全自动提取到位。
这个明显就是接下来服务AI Agent的,因为Agent 干的活,本质上就是跨 App 的信息流转,从 A 取数据→在 B 处理→输出到 C。跨窗拖放是把这个信息流转的最后一环也就是「人需要参与的决策和操作」压到了最短路径。Agent 在前面跑流程,跑到人需要介入的地方,不用切窗口、不用复制粘贴、不用另存再导入,手指一拖,信息就过去了。
直板机上你永远做不到这一点,因为你很难同时看到多个窗口。
我觉得这些年Vibe Coding 改变的不是「谁写代码」。是「代码为谁写」。以前代码是大厂产品经理在 PRD 里定义的需求,是写给千万用户的标准化功能,你的那些具体的、特殊的、只有你自己在乎的问题,永远不会被人当回事,因为 ROI 算不过来。
Vibe Coding现在可以让你解决你一个人的问题,它不管别人用不用得到、不管市场够不够大、不管能不能规模化,这才是真的关键的东西。所以Vibe Coding本身的代码质量什么的不算重要,能不能真的在手机上跑通,不在 AI,在手机 OS和这个容器的物理形态。Vibe Coding 让 AI 学会了听普通人说话,但手机要先学会跟 AI Agent 一起工作。