Google DeepMind 给 Gemini 3.5 Flash 加了一个很直白的能力:computer use。

这条新闻的重点不是模型又会写什么,而是它开始碰电脑界面。AI 不再只在聊天框里给建议,而是尝试替你点按钮、填表、切页面、走流程。

这就是 Agent 产品化真正难的地方。会说,只是入口;能把事办完,才进入战场。

发生了什么:Gemini 3.5 Flash 开始有“手”

根据 Google DeepMind 官方发布,Gemini 3.5 Flash 新增的是内置 computer use 工具。

目前公开信息有限,所以不能把它说成“完整接管操作系统”。更稳妥的理解是:模型多了一个通过电脑界面执行任务的能力入口。

维度这次变化现实含义
产品Gemini 3.5 Flash 内置 computer use 工具Flash 线开始承载执行能力,不只追求轻量响应
能力从生成文本走向界面操作任务链路从“给答案”延伸到“做动作”
影响对象开发者、企业自动化用户、知识工作者浏览器、SaaS 后台、桌面流程可能被重新包装
核心风险权限、误操作、安全边界越有用,越不能只看演示效果

受影响最大的,不是普通用户问一句天气。

更相关的是两类人。

一类是做 AI Agent 产品化的开发者。他们接下来要考虑的,不只是接哪个模型,而是任务执行框架怎么搭:什么时候让模型点,什么时候让人确认,失败后怎么回滚。

另一类是企业自动化和效率工具决策者。他们不该马上把内部流程全交出去,更合理的动作是先挑低风险、高重复、可审计的流程试点。比如信息搬运、表单预填、后台查询,而不是付款、删除、外发邮件这类高风险动作。

这不是保守,是常识。企业买的不是一段漂亮演示,而是可控的执行。

为什么重要:Agent 从聊天框进入工作流

OpenAI、Anthropic 也在推 AI Agent 和 computer use 相关路线。各家实现不同,方向接近:让模型离真实软件更近。

过去的大模型竞争,像作文比赛。谁理解更准,谁回答更自然,谁写代码更顺。

现在开始变成办事比赛。能不能登录、导航、识别界面、处理异常、在不确定时停下来。

这一步重要,是因为很多企业软件并不优雅。

API 不完整。系统很旧。流程靠人肉衔接。一个报销、审核、录入、查询任务,常常要在网页、表格、弹窗、邮件之间来回跳。

真正的自动化,很多时候不是调用一个漂亮接口,而是在一堆人类界面里穿针引线。

computer use 的价值就在这里:它试图让模型进入原本只给人用的软件表面。

这个方向有吸引力,也有硬约束。

人类界面不是稳定 API。按钮会改名,页面会重排,弹窗会插进来,验证码会拦住,权限会过期,用户指令也会含糊。

演示环境里路径干净,真实工作流里全是泥。

所以开发者别只看“能不能跑通”。更该看三件事:

  • 任务失败时,模型能不能识别自己失败了;
  • 高风险动作前,能不能强制人工确认;
  • 每一步操作,能不能留下可追溯日志。

企业决策者也别把它当成万能 RPA 替代品。它更像给旧自动化补了一层智能判断,但还没有证据说明它已经能稳定替代人工办公。

这层限制讲清楚,反而更接近产品真相。

真正的分水岭:权限比参数更关键

我更在意的不是 Gemini 3.5 Flash 这次能演示到什么程度,而是 Google 怎么设计权限。

权限越大,产品越有用。也越危险。

一个只能读屏的 Agent,像顾问。一个能点击、提交、删除、购买、发邮件的 Agent,就进入责任区了。

它做错一步,错误不再停在文本里。它会落到账户、数据、订单、客户和业务流程上。

这也是 AI Agent 落地最容易翻车的地方。模型看着更强,产品反而更虚。因为执行能力一放大,可用性和可控性会一起放大。

企业真正会问的问题很具体:

  • 它能访问哪些应用和数据?
  • 哪些动作必须人工确认?
  • 操作日志保存在哪里?
  • 出错后能不能回滚?
  • 责任算用户、开发者、模型提供方,还是企业自己?

这些问题不性感,却决定它能不能进公司。

模型参数再漂亮,也替代不了授权、审计、隔离、回滚和责任划分。

Google 的位置也很微妙。它有 Chrome、Android、Workspace、Cloud,有足够多入口把 Agent 放进真实工作流。

优势在这里,敏感点也在这里。

谁定义 AI 能看什么、点什么、调用什么,谁就握住下一层软件入口。

“天下熙熙,皆为利来。”放到今天,就是所有 Agent 都说自己在帮用户省时间,但它们也在争夺操作入口。谁替你点鼠标,谁就离你的工作流程更近一步。

这和早期平台战争有一点相似,但不能类比过头。浏览器、移动系统、应用商店争的是入口;Agent 争的,是入口之后的执行权。

接下来最该观察的,不是某个发布视频有多顺。

更该看五个变量:权限颗粒度、人工确认机制、日志审计、失败回滚、平台边界。

如果这些问题解决不好,computer use 就只能停在演示和小任务里。解决得足够好,它才可能成为开发者和企业自动化团队愿意押注的新接口。

所以这次发布不能简单说成 Google 赢了。

更准确的判断是:Google 把竞争推到了一个更难伪装的阶段。别只给我看模型会说什么,给我看它能不能稳定、可控、可追责地把事办完。

这道题,比聊天难多了。