OpenAI把Codex从“写代码助手”推向“数字同事”:它开始会点鼠标、记偏好,还想替你盯项目

Codex不满足只写几行代码了,它想坐到工位上
OpenAI 这次更新 Codex,最有意思的地方,不是模型参数,也不是某个单点功能,而是它的野心终于不藏了。过去大家谈 Codex,更多把它当成一个“写代码更快的 AI 助手”:补全函数、解释报错、生成脚本、顺手写点测试。现在 OpenAI 明摆着要把它往另一个方向推——不是帮你写一段代码,而是陪你把软件做出来。
这次升级里,Codex 可以直接在电脑上“看、点、输”,也就是所谓的 computer use。翻成人话,就是它不只待在聊天框里了,还能像实习生一样操作你的 Mac:打开应用、点按钮、切终端、改前端、看页面效果,甚至在多个代理并行工作的情况下,不打扰你继续用自己的软件。这个变化看似像功能堆料,实则是在改写 AI 编程产品的边界。
过去一年,开发者已经见过太多“会写代码”的 AI 了。GitHub Copilot、Cursor、Anthropic 的 Claude Code,再加上一众创业公司产品,几乎把编辑器变成了 AI 的竞技场。到今天,单纯“代码写得像不像样”已经不够卷了。真正拉开差距的,是谁能跨出编辑器,进入完整的软件开发流程:拉需求、查上下文、跑测试、看 PR、处理 review comment、追任务进度、和 Slack 里催命一样的新消息周旋。OpenAI 现在做的,就是把 Codex 从“代码生成器”往“交付代理人”推。
从编辑器到浏览器,再到整台电脑:AI代理开始接管开发流水线
如果你是开发者,应该很容易理解一个现实:软件开发最耗神的,常常不是写代码那几十分钟,而是在各个工具之间来回横跳的几个小时。JIRA 里有需求,GitHub 上有 review comment,CI 跑挂了要看日志,Slack 里 PM 又来问进度,浏览器里还开着设计稿和文档,最后你甚至要 SSH 到远程开发机里做点脏活累活。真正的工程工作,从来都不是一个代码窗口能装下的。
OpenAI 这次给 Codex 加的能力,几乎是照着这条开发流水线一段段补齐。它支持更深入的 PR 审查流程,能处理 GitHub review comments,能同时看多个文件和多个终端标签页,还能通过 SSH 连远程 devbox。应用内浏览器也来了,开发者可以直接在页面上评论,给代理精确指令。这个设计特别像在告诉大家:别再把 AI 当一个“会聊天的插件”,把它当一个能在工作区里跑来跑去的人。
更激进的是插件生态。OpenAI 新增了 90 多个插件,把技能、应用集成和 MCP server 打包给 Codex。这里面包括 Atlassian Rovo、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite、Render 等一串开发团队常用工具。背后的逻辑并不复杂:AI 如果只懂代码,不懂团队上下文,它再聪明也只是个高级 autocomplete;但如果它知道你的任务卡片、构建状态、文档评论和协作记录,它就更像一个真正参与项目的人。
这也是为什么 OpenAI 特别强调“自动化”与“持续任务”。Codex 现在可以复用已有对话线程,保留上下文,还能为未来安排任务,到时间自动醒来继续干活,周期甚至可以跨几天、几周。这意味着它不再只是即时响应型工具,而开始具备一点“工作连续性”。从产品角度看,这非常关键。一个真正有价值的工程助手,不是你每次都要重新解释背景,它应该记得你们团队上周卡在哪里,昨天审到哪个 PR,今天谁还没回消息。
最像人的升级,不是点鼠标,而是“记住你”
如果说 computer use 解决的是“手脚”的问题,那么记忆功能解决的就是“脑子”的问题。OpenAI 这次放出了 Codex memory 预览版,允许它记住此前经验中的有用信息,比如个人偏好、你纠正过它的地方、那些原本需要花时间收集的项目背景。这个方向,我认为比“会不会生成图片”还重要。
为什么?因为今天大部分 AI 编程工具都有一个共同痛点:它们很聪明,但不长记性。你今天告诉它代码风格要更保守,明天它可能又开始自作主张;你说数据库迁移不能动生产表,它下次还是有概率犯险。开发者真正想要的,不是一个每次都从零认识你的 AI,而是一个慢慢学会你工作方式的 AI。同一个人带了三个月的实习生,和刚入职第一天的实习生,差别不在智商,而在默契。
OpenAI 还让 Codex 可以主动建议你“从哪儿开始今天的工作”。它能根据项目上下文、插件连接的信息和记忆,整理待办优先级。比如识别 Google Docs 里还没处理的评论,再从 Slack、Notion 和代码库里捞出相关背景,最后给出一份行动清单。老实说,这听起来已经不像传统意义上的编程助手了,更像一个带一点项目经理属性的个人执行代理。
当然,这里也埋着一个很现实的问题:当 AI 越来越了解你的工作方式、团队节奏和工具数据时,谁来定义它能记住什么,又该忘记什么?对个人用户来说,这可能只是隐私焦虑;对企业客户来说,就是合规、安全和权限治理。尤其是 Codex 正在深入邮箱、文档、聊天、代码仓库和任务系统,这些地方几乎囊括了一个知识工作者最敏感的数字轨迹。AI 记忆越有用,数据边界就越不能含糊。
这不只是OpenAI的新功能,也是AI编程赛道的下一轮分水岭
把这次更新放在更大的行业背景里看,会更有意思。最近一年,AI 编程市场已经明显从“模型能力竞争”转向“工作流竞争”。GitHub Copilot 背靠微软生态,强在 IDE 渗透和企业采购;Cursor 靠产品体验赢得了大量开发者口碑,几乎把编辑器本身重做了一遍;Anthropic 则不断强化 Claude 在代码理解和长上下文任务上的表现。大家都意识到,开发者愿不愿意把日常工作交给 AI,拼的不是一次回答有多惊艳,而是工具链整合得有多深。
OpenAI 这次给 Codex 赋予浏览器、电脑操作、插件、自动化、记忆,其实是在押注“代理化开发”。它不只是回答问题,而是帮你执行步骤、跨工具搬运上下文、在你离线时继续推进任务。这条路线和传统 IDE 内嵌助手不完全一样,更接近一个常驻型软件代理。谁能把“提建议”升级成“拿结果”,谁就更有可能成为开发者每天打开的第一个工具。
但我也得泼一点冷水。会点鼠标、会开浏览器,并不自动等于“可靠”。AI 代理最怕的不是不会做,而是做错了你一时没发现。比如它自动处理 review comment 时,是否会引入新的副作用?它跨多工具整理信息时,会不会误读任务优先级?它长期自动化跑着跑着,会不会在一个小误解上越走越远?这类问题在演示里通常很优雅,在真实团队里却往往是事故的起点。
所以,Codex 的下一步成败,很可能不取决于它能接入多少工具,而取决于它能否建立一套让人放心的“可追踪、可回滚、可审计”的代理机制。OpenAI 已经在应用里加入了 summary pane,用来追踪 agent 的计划、来源和产物,这说明他们也知道,开发者不是只想看结果,更想知道它是怎么得出这个结果的。没有透明度,AI 代理进入生产环境会一直差一口气。
对开发者来说,诱惑很大;对整个行业来说,考题也更难了
我对这次更新最大的感受是:它让“AI 是工具还是同事”这个问题,第一次变得有点具体。一个只能在编辑器里补全代码的模型,你当然可以把它当高级输入法;但一个会连接你的 CI、会看你文档、会记住你偏好、会自己安排后续任务的代理,已经更像团队成员了。只是这个成员不会抱怨加班,也不会自己去茶水间摸鱼。
这对开发者当然很有吸引力。很多重复、琐碎、上下文切换频繁的工作,确实适合交给机器。尤其是前端迭代、界面测试、处理 review comment、跟踪开放任务这些事情,本来就消耗大量注意力。AI 如果真能把这些边角料收拾好,工程师就能把精力更多放在架构判断、产品理解和关键决策上。
可换个角度看,这也会倒逼开发团队重新设计流程。过去很多制度默认“执行者是人”:人会犹豫,会请示,会在不确定时停下来。AI 代理不一样,它会按照目标一路往前推。于是企业需要的不只是一个更强的助手,而是一整套新的协作规矩:哪些任务可以自动执行,哪些必须人工确认;哪些系统能接入,哪些信息不能被长期记忆;出了错是谁负责,日志怎么留,权限怎么分层。这些问题现在看起来像管理细节,未来很可能和模型能力本身一样重要。
OpenAI 在文末说,目标是缩小“人们能想象什么”与“人们能建造什么”之间的差距。这句话很大,但放到 Codex 这次更新里,倒是有了点可落地的意味。因为真正挡在想法与产品之间的,往往不是不会写代码,而是没有足够的时间、上下文和执行力把一串琐事串起来。Codex 正在试图补上这段最烦人的距离。
我会继续保留一点怀疑,但也必须承认,这条路一旦走通,软件开发的日常会被重写。未来的工程师,也许不再只是自己写代码的人,而是带着几个 AI 代理一起推进项目的人。那时候,比“你会不会写”更重要的,可能是“你会不会指挥、校验和收尾”。