
Codex 操控电脑的三种方式,该怎么选
今天看到 Codex 团队成员 Jason 写了一篇很细的指南,专门讲 Codex 操控电脑的三种方式。

我看完之后觉得,这篇其实很值得单独拎出来讲。
因为很多人第一次用 Codex 时,会把这三个东西混在一起:
- Computer Use
- Chrome 扩展
- 内置浏览器
表面看都差不多。
都是让 Codex 打开页面、点击按钮、读点东西、再帮你处理一点任务。
但真用起来,差别非常大。
选对了,它像一个知道该走哪条路的同事。
选错了,它就会变成一个很努力、但很慢的鼠标代点器。
所以这篇做个精简版。

先给结论:
需要登录状态,用 Chrome 扩展。
需要操作桌面应用,用 Computer Use。
正在做前端开发,用内置浏览器。
如果有插件、MCP、API 能直接完成,优先用结构化工具。
这句话基本就够用了。
下面展开聊。
一、Computer Use,最广,也最慢
Computer Use 是最像真人替你用电脑的那一个。
它会看屏幕,移动鼠标,点击按钮,敲键盘。
只要你电脑上有图形界面,它理论上就能操作。
Spotify 可以。
Xcode 可以。
系统设置可以。
iOS 模拟器可以。
甚至 iPhone Mirroring 这种把手机画面映射到电脑上的东西,它也能操作。
这就是 Computer Use 最强的地方。
它不要求对方有 API,不要求网页结构规范,也不要求软件专门给 AI 留接口。只要人类能在屏幕上完成,Codex 就有机会照着完成。
但代价也很明显。
慢。
真的慢。
结构化插件如果能直接调 API,可能一秒钟就把数据拿回来了。Computer Use 不行,它得像人一样看界面,找按钮,点一下,等响应,再看一眼有没有点对。
如果页面弹窗了,它要重新判断。
如果按钮位置变了,它要重新找。
如果界面加载慢,它只能等。
所以 Computer Use 很厉害,但不能滥用。
它更像最后一公里的机械手,不是第一选择。
Jason 举了一个很生活化的例子。
有一次他的快递被偷了,Amazon 客服说还要等 25 分钟才能接入人工。他不想一直盯着聊天窗口,于是让 Codex 每五分钟看一次页面。
客服出现之后,再改成每分钟看一次。
等终于能处理退款时,Codex 继续把流程走完。
他去洗了个澡,回来退款已经办好了。
这个例子挺妙。
它不是那种 AI 改变世界的大词。
就是一个很烦的小事。
你不想盯,它能替你盯。
你不想等,它能替你等。
这才是 Computer Use 很真实的价值。
它不是为了快,而是为了把那些必须通过图形界面、又消耗注意力的事,从你身上拿走。
还有一个细节要注意,Mac 和 Windows 的体验差距很大。
在 Mac 上,Codex 可以相对安静地在后台操作,你继续用自己的电脑,影响没那么大。
但在 Windows 上,它必须占据前台。
也就是说,它操作期间你基本没法正常用那台机器。
所以如果你是 Windows 用户,Computer Use 更适合跑那种你可以暂时把电脑交出去的任务。
比如你去吃饭、洗澡、睡觉前,让它帮你盯一个窗口,或者跑一个固定流程。
不要一边自己开会,一边让它抢前台。
那会很难受。
二、Chrome 扩展,带着你的登录状态
Chrome 扩展解决的是另一个问题。
登录态。
这个词看起来技术,但你想一个场景就懂了。
Gmail。
LinkedIn。
Salesforce。
公司内部后台。
这些地方最麻烦的不是打开网页,而是你已经登录了。里面有你的 cookies、账号状态、已有标签页、公司 SSO。
如果 Codex 用一个全新的浏览器环境去访问,它会遇到登录、验证码、二次验证、权限跳转,一堆麻烦。
很多时候任务还没开始,登录已经把人搞烦了。
Chrome 扩展的价值就在这里。
它让 Codex 使用你已经登录的浏览器会话。
你在 Chrome 里是什么状态,Codex 进去就是什么状态。
这就非常关键。
它不只是可以打开网页,而是可以接着你的真实工作现场继续走。
比如你想让 Codex 看 Gmail 里的几封邮件,把客户反馈整理到本地文件。
或者让它打开 LinkedIn 查几个人的资料,再到另一个标签页里对比。
又或者去 Salesforce 里读一个客户记录,整理一段摘要。
这些任务都需要账号状态。
所以 Chrome 扩展是对的选择。
Computer Use 是看屏幕。
Chrome 扩展是理解浏览器上下文。
这两个东西差别很大。
Computer Use 操作浏览器时,本质上还是在看屏幕坐标。
它知道这里有个按钮,那里有个输入框。
Chrome 扩展则更接近浏览器层面的控制。它能同时处理多个标签页,在一个标签里读信息,到另一个标签里对比,再到第三个标签里完成整理。
这种多标签的上下文能力,是纯屏幕操作很难优雅做到的。
Jason 还提到一个长期任务。
每天让 Codex 通过 Chrome 检查他的 Twitter 私信,浏览相关新闻,收集反馈,把有价值的内容存到本地文件。
但不发任何消息。
这个边界我觉得特别重要。
研究、浏览、收集、归档、起草,可以交给它。
发送、发布、付款、确认订单,最好留给自己。
不是因为 Codex 一定会做错,而是因为网站会把 Codex 的点击和表单提交,当成你本人的操作。
你让它点了,它就等于你点了。
所以带登录态的任务,越方便,越要清楚边界。
Chrome 扩展越强,越不能随便把最后一步交出去。
三、内置浏览器,给开发者的沙盒
第三个是 Codex 的内置浏览器。
它住在 Codex 的对话线程里,你和 Codex 共享同一个渲染页面。
但它不带你的 Chrome 登录状态,也不带 cookies。
它是一个隔离环境。
听起来像缺点,对吧。
但在开发场景里,这反而是优势。
因为做前端开发时,很多时候根本不需要真实登录态。
我们需要的是本地开发服务器、文件预览、公共页面、响应式布局检查、视觉 bug 复现。
这些事情,内置浏览器刚好特别适合。
Codex 可以改代码,打开页面,看渲染结果,截图,再根据页面状态继续改。
这就是一个很紧的开发反馈回路。
不是我写完给你看。
而是我改一点,看一眼,再改一点,再看一眼。
Jason 最喜欢的功能是标注。
你可以直接在页面上点某个元素,留评论。
比如:
- 这个层级反了
- 这个按钮间距不够
- 这块在手机上压住下面的内容
Codex 拿到的不只是文字,还包括截图和元素上下文。
它知道你点的是哪里,然后回去改代码,改完重新打开同一个页面,等你下一轮标注。
这个体验比来回传截图和描述高效太多。
因为前端问题经常不是语言能说清楚的。
你说这里怪怪的,对方可能不知道你说的是上边距、颜色、层级、字号,还是视觉重心。
但你直接点一下,问题就具体了。
这也是内置浏览器和 Chrome 扩展的区别。
Chrome 扩展适合真实账号里的真实业务。
内置浏览器适合开发中的实验页面。
一个连着你的工作账号。
一个隔离在 Codex 线程里,方便试错。
不要混。
四、到底怎么选
我觉得可以用一个很简单的顺序判断。
第一步,先问有没有现成的插件、MCP、API 可以做。
如果有,优先用结构化工具。
因为它最快,也最稳定。
第二步,问这件事是不是必须用你的登录状态。
如果是,用 Chrome 扩展。
第三步,问这件事是不是本地开发、页面预览、视觉调试。
如果是,用内置浏览器。
第四步,问这件事是不是必须操作某个桌面软件,或者完全没有结构化入口。
如果是,再让 Computer Use 上。
简单做个表:
| 方式 | 最适合 | 优点 | 代价 |
|---|---|---|---|
| Computer Use | 桌面应用、系统设置、模拟器、没有 API 的图形界面 | 范围最广,像人一样操作屏幕 | 速度慢,Windows 会占前台 |
| Chrome 扩展 | Gmail、LinkedIn、Salesforce、公司后台等需要登录态的网站 | 能使用你的 cookies、账号状态和多个标签页 | 风险更接近本人操作,提交类动作要谨慎 |
| 内置浏览器 | 本地开发服务器、文件预览、公共网页、响应式调试 | 隔离、安全,适合快速截图和迭代 | 没有你的登录状态,不适合账号内任务 |
如果你懒得看表,也可以记这三句:
- 需要登录状态,先想 Chrome
- 需要操作桌面应用,先想 Computer Use
- 需要改网页和看效果,先想内置浏览器
再补一句:
能用插件和 MCP 解决的,不要上来就看屏幕。
这句话非常重要。
因为视觉控制看起来最像人,但不一定最高效。
真正成熟的 agent,不是每件事都亲自点鼠标。
它应该先判断路径。
能调接口就调接口。
能读结构化数据就读结构化数据。
需要登录态就进 Chrome。
需要看页面就开内置浏览器。
实在没办法,再用 Computer Use。
这其实很像一个熟练同事。
熟练同事不会一上来就用最笨的方法干活。
他会先问,已有系统里能不能查,能不能直接导出,有没有接口。
实在没有,再打开页面一点点处理。
Codex 也在往这个方向走。
不是更像人类点鼠标。
而是更像人类判断路径。
这个变化,比三个功能本身更重要。
五、最后说一下边界
我自己会把 Codex 的任务分成两类。
第一类是准备性动作。
比如收集信息、对比页面、整理反馈、草拟回复、检查窗口、生成文件。
这些可以更放心地交给它。
第二类是确认性动作。
比如发送消息、发布内容、付款、删数据、提交表单、确认订单。
这些最好保留人工确认。
尤其是 Chrome 扩展这种带着你登录状态的能力。
它越好用,越要谨慎。
因为网站不会区分这个动作是你亲手点的,还是 Codex 帮你点的。
在系统眼里,这就是你。
所以我觉得比较舒服的用法是:
让 Codex 把事情推进到最后一步。
最后那个确认按钮,自己点。
这不是不信任 AI。
这是给自己留一个刹车。
以上。
如果你只想记一句话,那就是:
Chrome 管登录态,Computer Use 管桌面应用,内置浏览器管开发沙盒。能用插件和 MCP 的时候,优先用插件和 MCP。
月饼科技社服务方案
如果你想上手 Codex、ChatGPT Plus、Pro,或者不知道自己的工作流该用哪种方案,可以加我微信 ybkjs666,备注 Codex。
我会按你的使用场景,直接告诉你该从 Plus、Pro、Codex,还是具体工作流开始。
账号、订阅、支付、开通方式、售后范围,私聊确认。敏感信息由你自己操作,我只做流程指导和必要协助。
觉得有用,欢迎点个赞、在看、转发,也可以给月饼科技社一个星标。