如何看待很多不懂编程的普通人,用AI给自己写个「Agent」进手机,手机是不是能帮助我们干活了?
这几年,有一句话对我的影响特别大:
如果AI是一切的答案,那么问题是什么。
我说一下我最近Vibe Coding的两个产品,想必你对手机帮你干活这件事情也会有不同的理解。(文末我也放出了APK,大家可以下载玩一玩)
第一个。
Fold Creator。
我们现在用手机上的AI,很多时候就是在问一个问题,某某某是谁?旅行攻略怎么做?某个概念又是什么意思?然后AI回答你,你再复制进行下一步操作。
这个模式我们称为Chat,而现在大家关注的是Agent,能够自主规划,并且执行一些操作。
尤其是在当下,人人都能玩coding,但是我们都coding出来一些什么东西呢?你去看,还是老掉牙的 Todo list、番茄时钟,记账工具,要么就写一个贪吃蛇的小游戏。
无聊。
干活或者是解决生活中的一个小问题,有一个根本性的前提就是,你得知道自己需要什么。
一提到干活,肯定很多人想到的是写个文案呀,或者做个PPT。这个需求任何一个现在的AI软件都能做,但是问题是,不是所有人的干活交付物都是文案或者PPT。
换句话说,在当下这个谁都能写代码的情况下,实现已经不是什么难的事情。难的事情在于你得有一个好点子,或者你能明确的表达你的需求。
需求来自于哪里,需求藏在场景里。
所以我做了一个Fold Creator产品,第一个设计决策就是,扔掉对话框,使用摄像头。
所以手机做这件事情是更为流畅的。因为手机有摄像头,因为手机几乎时时刻刻的都在你的身边,至于为什么一定要是fold,看到下面你就能明白了

不过为了兜底起见,我现在还是保留了输入的。
你拍一张照片,AI自己去理解场景,告诉你「你可以做一个什么东西来解决你现在的问题」,拍发票,建议做报销管理,拍一堆相机和存储卡,建议做摄影师素材管理,比如拍摄了一个化妆品的照片,就会自动提炼出记录化妆品信息,还有到期提醒,以及分类管理,以及效果追踪等四个功能点。

因为照片提供了大量上下文——你的身边有什么东西、这些东西是什么关系、你大概在什么场景下,AI从这些信息里提炼需求,比从一句模糊的文字描述里提炼要靠谱得多。
举一个很简单的例子来解释下,比如我拍摄这个水杯。

如果是一个空白的背景。它会识别到是一个提醒喝水软件。

如果我拍这个水杯和笔记本结合起来。

它会生它会联想到是一个办公族健康管理,而不只是喝水这个单点功能了。

当然,有时候它的意图识别不准,你还可以通过换一换来切换到不同的思路。
这里其实更多的是一个启发性的思考,当你看到了这个场景,AI给你一定的建议之后,这时候你的需求有可能从刚才的模糊已经变成了明确。
需求有了,谁来实现呢?
其实最早只有一个系统级Agent什么都能干,也就是你需求输入之后,它就算,然后给你吐出一结果。
但在使用中,遇到两个问题。
一个是上下文的问题,用一个Agent做需求分析、设计风格把控以及代码生成,它有可能写到后边把前面的就忘掉了,导致结果十分不可控;
第二个就是作为产品创始人的我,没有任何参与感。一个Agent干所有事,你说了一句话,他思考了5分钟,给你吐出一个成品,中间发生了什么不知道,就算你能看到是思维链,你也无法介入,为什么做这个功能?没有做另一个功能?不知道你对结果不满意,想调整也不知道从哪改。
所以我把它拆成了四个AI角色,也就是四个Agent,产品经理、UI设计师、开发工程师、运营负责人,就像一个真实的产研开发团队一样。

每个Agent只负责自己的部分,职责边界清晰。产品经理出了PRD,设计师基于PRD 给出设计原则,工程师基于原型写代码,运营基于产品定位起名字和写文案。上下文在Agent之间传递的时候是结构化的,不是一坨文字。
这里必须要强调一下,为什么这个产品更适合在 vivo X Fold6 上使用,如果是直板机,你要查看不同的Agent的工作进度和交付物的话,就得不断的退出,进入,查看详情,返回上一级,再进入查看,这样的效率是很低的。
而现在,四个角色可以直接铺满四宫格,由于我给每个人物还做了一点动效谁在工作,谁已经完成交付了什么,产品设计、开发、运营之间的关系,从聊天记录变成了一张可以观察的工作台,在一个页面内你可以查看任何一个Agent的交付物,也可以通过聊天的方式随时跟任何一个Agent进行。
另外一点就是折叠屏自带着分屏功能,以前多数的折叠屏只是左右两栏,而现在 vivo X Fold 6可以 3个甚至4个APP同时在线,可以随意调整窗口的大小位置,甚至进入焦点模式。

比如这个场景,我可以看小红书上优秀的设计风格的同时,也可以看参考提前已经写好的一些设计准则,这样我就能够把握主线,有些想法就直接可以吐给AI设计师这个agent。
电脑相对于手机的开发场景的优势所在,其实就是多任务,而现在 vivo X Fold6 把这块的体验也在尽力追平,让你随时随地都能展开工作。
多任务是一方面,另一方面,大屏可以展示更多的信息,当你有更多的信息呈现空间的时候,你的产品功能也会发生改变。
这是我在V2所规划的,给设计这个Agent做一个实时原型组件的预览,这样你就可以基于原型去给他提建议了。
给开发工程师这个Agent做一个轻量的IDE,左侧是一个Agent的对话流,右侧会放一个代码的预览面板,这样你就可以去审查它的代码了,虽然你不一定会直接在手机上改,但是你看到代码问题可以让他去改。
这样,不论你在何时何地,都能展开手机做一个完整的开发工作,而不是必须回到电脑前。
Fold Creator还有一个圆桌会议的功能,这个功能能让用户看到每个决策是怎么做出来的。比如说产品要做5个功能,工程师说手机端做不了,只能做3个,设计说这个交付太复杂,然后这所有的一切需要您来拍板。

过程其实挺有意思,它会让从来没有接触过产品开发的人去理解,做一个产品是线性的流程,是不停的取舍。
当然不同的产品有可能需要有着不同的展示界面,这个问题我也考虑到了,幸好是在折叠屏这个屏幕上,所以我们能够发挥的也就更多了。

在真正落代码之前,我先让AI帮我出了一个视觉层的一个模板。

你会发现一件事情,当你的设计不再局限于直板手机的时候,折叠屏手机产品所能承载的功能,交互丰富性会更高,以前看到很多复杂的,或者是更加专业性的流程也可以在 X Flod 6上完成。

因为我有很多摄影器材,经常要去做一些焦距,或者是景深的一些换算,当我把这个需求给他之后,他就给我出了这样的一个产品,而且如你所见,他直接套用了我们上边那个小工具的模板,十分清楚。

为了方便使用,我还做了一个发布按钮,这样你可以直接把这个小应用放在桌面,下次方便直接打开。

这样下次如果有类似的计算需求,我就不用去搜索或者问AI,或者再去下载别人的什么APP了。
理论上, Flod Creator能够交付的产品是无限的,因为每个人的场景生活,都是不同的。你可以有会议工作台,旅行工作台,购物工作台。
它能够从你的场景中发掘中独属于你的需求,所有的策划、开发、运行完全是可以在手机上完成的,不需要接入电脑,不需要你太懂编程。
第二个。
Fold AI 拍摄向导。
这个需求来自于现实场景,因为我经常在一些景区呀或者是打卡点看到,被骂的男朋友或者女朋友。
构图不对,或者是角度不对,或者就是举个手机,用前置摄像头当人形三脚架。
一开始我的思路是,就是当我们拍摄一个场景时,AI分析这个场景,然后给出拍摄建议。

如你所见,提供的拍摄参考,其实做的还是很详细的,包括动作、姿势、表情和位置都有详细的说明。
这块的提示来自于我这么多年的拍摄积累的一些经验,这块的系统提示词我跟AI一起写了很久很久。

但是如果你仔细去观察他们这个拍摄场景,你会发现往往是一个人用着一个网络上的热门的出片帖子,让另一个人照着拍——
『让你照着拍,你都拍不明白!』
照着拍,从摄影师摄影创作的角度来讲,这样的做法没有什么意义,但是对于一些想要快速出片,景区打卡,只想要一个好看的照片的人来说,那『照着拍』这个功能其实是一个很现实的需求。
当问题很明确的时候,那解法自然就有了,所以我加了一个小红书链接导入的功能,系统会自动地解析这个帖子下的所有照片并且展示在左侧,选择一个样图后,它会自动在相机的右侧生成这张照片的轮廓预览层。

这时候你不需要考虑什么沟通,你只需要照着做就行,构图可能大部分小白不太明白,但是填空的话,应该是个人都能做的很好。

关键的是,不只是模仿,它在拍摄界面还会给出你一个最重要的姿势动作参考建议,比如这张图,它会提示你身体微侧,并且与背景保持距离,拿一件物品会更加自然。
我第一次给朋友展示这个功能的时候,他直接惊呼,那这是摄影小白救命神器呀。
你会发现如果要做拍摄指导,这件事情,只有折叠屏才能做得更好,一方面它可以展示原图,也可以展示更多的指导信息,这样你在拍摄过程中不知不觉也就提升了自己的摄影能力。
另外,折叠屏还有个好处,它有个外屏,所以你在拍摄的时候可以把预览画面也镜像出去,被拍摄者也能看到实时的一个情况。
而且它还可以成为一个免责的方式,『我都1:1照着拍了,还不好看的话,那就不是拍摄的问题了(狗头)』
所以有时候需求不止存在于你想要的瞬间,也有可能是让你难受的时候。
在设置中我做了一些让你拍摄更好的一些小配置,到时候你可以根据现场环境调节,这种你要拍摄一你主要背景的图片,那就可以把轮廓改成红色。

另外一个就是我还增加了一个手机本地样片库的功能,添加之后,可以把你别的网址或者是其他地方保存的喜欢的照片,用我们这种手把手辅导的方式,再拍一遍。

不想做太多的总结或者是升华,为了点题,我还是再说两句。
手机没有必要成为下一台电脑,他有着自己属于自己的一套生产的流程,在现场发现问题,用一张照片或者一句话发起任务,他就可以在手机上把这个结果交付给你,它是很流畅的,不是去在另一个平台上编译代码,然后再到手机上安装,再去测试,不管是多任务的交互或者是更强的计算能力,只是为了让你这个过程更加的顺。
而且以这样的方式产生的一个应用,它解决的痛点有可能更加贴合你;
所谓的干活也不只是工作,也不只是甲方,更没有什么轻任务和重任务之分,他只要把一件事情能够做得很好,那么他就是一台合格的手机,通过这两个例子,你也能发现,不管是工作里的报销流程或者PPT,还是出门前拍一张好看的照片, X Fold 6都能解决得很好。
说明:
- 由于两款产品都要用到视觉分析,以及大模型的能力,所以首次使用前需要配置对应的 API,点开设置配置即可;
- 如果手头有 vivo手机(最好的是折叠屏)的同学,APK 我放在这里,欢迎下载体验:APK下载链接
3. 由于个人开发加vibe coding 的方式,工期有点短,可能会存在些一些bug,大家可以及时向我反馈,看到了第一时间改;