Google DeepMind 给 Gemini 3.5 Flash 加了一个很直白的能力:computer use。
这条新闻的重点不是模型又会写什么,而是它开始碰电脑界面。AI 不再只在聊天框里给建议,而是尝试替你点按钮、填表、切页面、走流程。
这就是 Agent 产品化真正难的地方。会说,只是入口;能把事办完,才进入战场。
发生了什么:Gemini 3.5 Flash 开始有“手”
根据 Google DeepMind 官方发布,Gemini 3.5 Flash 新增的是内置 computer use 工具。
目前公开信息有限,所以不能把它说成“完整接管操作系统”。更稳妥的理解是:模型多了一个通过电脑界面执行任务的能力入口。
| 维度 | 这次变化 | 现实含义 |
|---|---|---|
| 产品 | Gemini 3.5 Flash 内置 computer use 工具 | Flash 线开始承载执行能力,不只追求轻量响应 |
| 能力 | 从生成文本走向界面操作 | 任务链路从“给答案”延伸到“做动作” |
| 影响对象 | 开发者、企业自动化用户、知识工作者 | 浏览器、SaaS 后台、桌面流程可能被重新包装 |
| 核心风险 | 权限、误操作、安全边界 | 越有用,越不能只看演示效果 |
受影响最大的,不是普通用户问一句天气。
更相关的是两类人。
一类是做 AI Agent 产品化的开发者。他们接下来要考虑的,不只是接哪个模型,而是任务执行框架怎么搭:什么时候让模型点,什么时候让人确认,失败后怎么回滚。
另一类是企业自动化和效率工具决策者。他们不该马上把内部流程全交出去,更合理的动作是先挑低风险、高重复、可审计的流程试点。比如信息搬运、表单预填、后台查询,而不是付款、删除、外发邮件这类高风险动作。
这不是保守,是常识。企业买的不是一段漂亮演示,而是可控的执行。
为什么重要:Agent 从聊天框进入工作流
OpenAI、Anthropic 也在推 AI Agent 和 computer use 相关路线。各家实现不同,方向接近:让模型离真实软件更近。
过去的大模型竞争,像作文比赛。谁理解更准,谁回答更自然,谁写代码更顺。
现在开始变成办事比赛。能不能登录、导航、识别界面、处理异常、在不确定时停下来。
这一步重要,是因为很多企业软件并不优雅。
API 不完整。系统很旧。流程靠人肉衔接。一个报销、审核、录入、查询任务,常常要在网页、表格、弹窗、邮件之间来回跳。
真正的自动化,很多时候不是调用一个漂亮接口,而是在一堆人类界面里穿针引线。
computer use 的价值就在这里:它试图让模型进入原本只给人用的软件表面。
这个方向有吸引力,也有硬约束。
人类界面不是稳定 API。按钮会改名,页面会重排,弹窗会插进来,验证码会拦住,权限会过期,用户指令也会含糊。
演示环境里路径干净,真实工作流里全是泥。
所以开发者别只看“能不能跑通”。更该看三件事:
- 任务失败时,模型能不能识别自己失败了;
- 高风险动作前,能不能强制人工确认;
- 每一步操作,能不能留下可追溯日志。
企业决策者也别把它当成万能 RPA 替代品。它更像给旧自动化补了一层智能判断,但还没有证据说明它已经能稳定替代人工办公。
这层限制讲清楚,反而更接近产品真相。
真正的分水岭:权限比参数更关键
我更在意的不是 Gemini 3.5 Flash 这次能演示到什么程度,而是 Google 怎么设计权限。
权限越大,产品越有用。也越危险。
一个只能读屏的 Agent,像顾问。一个能点击、提交、删除、购买、发邮件的 Agent,就进入责任区了。
它做错一步,错误不再停在文本里。它会落到账户、数据、订单、客户和业务流程上。
这也是 AI Agent 落地最容易翻车的地方。模型看着更强,产品反而更虚。因为执行能力一放大,可用性和可控性会一起放大。
企业真正会问的问题很具体:
- 它能访问哪些应用和数据?
- 哪些动作必须人工确认?
- 操作日志保存在哪里?
- 出错后能不能回滚?
- 责任算用户、开发者、模型提供方,还是企业自己?
这些问题不性感,却决定它能不能进公司。
模型参数再漂亮,也替代不了授权、审计、隔离、回滚和责任划分。
Google 的位置也很微妙。它有 Chrome、Android、Workspace、Cloud,有足够多入口把 Agent 放进真实工作流。
优势在这里,敏感点也在这里。
谁定义 AI 能看什么、点什么、调用什么,谁就握住下一层软件入口。
“天下熙熙,皆为利来。”放到今天,就是所有 Agent 都说自己在帮用户省时间,但它们也在争夺操作入口。谁替你点鼠标,谁就离你的工作流程更近一步。
这和早期平台战争有一点相似,但不能类比过头。浏览器、移动系统、应用商店争的是入口;Agent 争的,是入口之后的执行权。
接下来最该观察的,不是某个发布视频有多顺。
更该看五个变量:权限颗粒度、人工确认机制、日志审计、失败回滚、平台边界。
如果这些问题解决不好,computer use 就只能停在演示和小任务里。解决得足够好,它才可能成为开发者和企业自动化团队愿意押注的新接口。
所以这次发布不能简单说成 Google 赢了。
更准确的判断是:Google 把竞争推到了一个更难伪装的阶段。别只给我看模型会说什么,给我看它能不能稳定、可控、可追责地把事办完。
这道题,比聊天难多了。
