同一天,四家公司给了四种答案。
阿里放出更适合部署的开源编码模型。OpenAI补上企业最常见、也最麻烦的隐私脱敏环节。小米把开源重点推向长程 agent。谷歌则继续把芯片、模型和企业平台往一体化上收。表面不是一场仗,底层却是同一个问题:AI现在比的,已经不只是模型会不会答题,而是谁能更快落地、谁更容易被接进现有系统。
我最在意的也不是谁又刷高了哪张榜。真正拉开差距的,是模型、工具链、部署生态、治理能力和成本结构能不能一起交付。"天下熙熙,皆为利来"。开源在争开发者入口,云厂商在争企业预算和控制权。两条线还不是同一战场,但会在部署层正面相撞。
这四个发布,各自卡住了哪一层
| 发布 | 已知事实 | 更该关注什么 | 主要影响谁 |
|---|---|---|---|
| 阿里 Qwen3.6-27B | 27B dense,Apache 2.0,支持 thinking / 非 thinking 双模式;官方基准显示其在 SWE-bench、Terminal-Bench 等编码任务上优于更大的 Qwen3.5-397B-A17B;支持原生视觉语言推理;vLLM、Unsloth、ggml、Ollama 当天跟进 | 不只是分数,而是“发完就能跑” | 本地部署开发者、代码助手团队 |
| OpenAI Privacy Filter | 1.5B 参数,token classification,128k 上下文,面向 PII 检测和脱敏 | 它不是通用小模型,而是企业 AI 流水线里的基础设施件 | 企业日志、客服、审计、agent 流水线 |
| 小米 MiMo-V2.5 / Pro | 强调软件工程、长程 agent、工具调用、大上下文,官方给出强基准结果,并接入 Hermes 和 Nous;上下文最长可到 1M tokens | 开源阵营在往“可执行代理”走,不只做聊天模型 | 想做 agent 的开源团队、国产模型采用者 |
| 谷歌 Cloud Next | 发布第 8 代 TPU:TPU 8t 用于训练,TPU 8i 用于推理;同时推出 Gemini Enterprise Agent Platform、Agent Studio 和 200+ 模型的 Model Garden | 谷歌卖的不是单颗芯片,而是企业 AI 全栈 | 企业 IT、平台采购、云架构团队 |
阿里这次最值得记的,不是“27B 也能打更大模型”这句宣传,而是部署链路接得很快。vLLM、Ollama、ggml 这类生态当天就跟上,对开发者的意义很直接:试用成本低,迁移成本也低。
当然,编码基准的领先目前仍以官方口径为主。能不能在真实项目里稳定兑现,还要看外部实测。但至少从发布动作看,Qwen3.6-27B抓的不是榜单,而是实用性。
OpenAI 那个 Privacy Filter 很容易被低估。它不像大模型发布那样热闹,但很贴近企业现实。很多团队不是卡在“模型够不够聪明”,而是卡在“这些日志、客服记录、工单、agent trace 能不能安全喂进去”。PII 检测和遮蔽,过去常被当成外围脏活,现在已经变成门禁。
这也决定了它的边界。它更像一次务实的工具放出,不足以说明 OpenAI 整体路线转向全面开源。别解读过头,但也别忽视它的落地价值。
分水岭已经变了:开源抢可部署,云厂商抢不可替代
小米 MiMo-V2.5 / Pro 的信号很明确。重点不在“又一个国产模型”,而在它把软件工程、长程任务、工具调用、大上下文摆到前台。这说明开源阵营正在卷执行能力。
不过这里也要泼一点冷水。长程 agent、超长上下文、上千次工具调用这类能力,厂商自报和外部复现之间往往有距离。方向可以认,效果先别全信。对团队来说,能不能稳定调用工具、能不能控制成本、能不能减少失败回滚,比单次演示更重要。
谷歌这边,思路更硬。TPU 8t、TPU 8i、Gemini Enterprise Agent Platform、Agent Studio、200 多个模型放在一起看,意思很清楚:硬件、模型、开发、治理、企业接入,尽量都放在一个屋檐下。
官方宣称 TPU 8t 可扩展到百万 TPU 集群规模,这个数字目前应看作官方给出的扩展能力,而不是外部已充分验证的大规模现实部署。真正重要的也不是那个数字本身,而是谷歌在强化一种能力:企业如果已经在它的云上跑数据、权限、审计和工作流,那继续往上接 agent 和模型会更顺。
这和早年的云计算大战很像,但不完全一样。当年很多公司先比算力和单价,后来发现最难换掉的是 IAM、数据库、监控、审计和组织流程。今天企业 AI 也在走这条路。模型分数像参数表,会影响采购;真正把客户留下来的,常常是接入成本、治理工具和责任边界。
一句话:开源阵营在卖灵活度,云厂商在卖省事和控制力。前者便于试错,后者便于报销。
开发者和企业现在该怎么动作
如果你是做本地部署、代码助手、私有化 Copilot 的开发者,阿里这条线最值得马上试。原因不复杂:Apache 2.0,参数量相对可控,主流推理和部署生态当天可用。这类模型的价值,不在“理论上更强”,而在“今天能接进产品”。
但也别急着迁全栈。更稳的做法是先拿内部代码库、工单生成、前端页面生成这类清晰任务做小范围 A/B。看三件事:真实代码修复率、推理成本、部署稳定性。榜单赢不赢,不如这三项有用。
如果你是企业技术负责人,谷歌和 OpenAI 这两条线更该认真看。一个在补企业代理平台,一个在补合规基础件。落地时它们会碰头:你是自己拼模型和治理,还是直接买一套更完整的控制面。
这里最实际的动作,反而不是立刻拍板采购,而是延后大额绑定,先做清单。至少把四个问题问清:
- 数据进模型前,PII 检测和脱敏谁来做,效果怎么验。
- agent 的日志、权限、审批和回滚放在哪一层管。
- 模型可替换性有多高,换供应商要改多少接口。
- 成本是按 token 漂,还是能做到月度可预测。
如果这四件事答不清,平台越完整,后面越难换。古话说“势成则利归其主”。企业 AI 也是这样,一旦权限、日志、工作流都压进同一家平台,技术选择就会慢慢变成财务和组织选择。
接下来我会盯三件事。
一是 Qwen3.6-27B 和 MiMo-V2.5 / Pro 的外部实测,尤其是代码任务、长程 agent 任务和工具调用稳定性。没有外部复现,宣传口径只能算半张答卷。
二是 OpenAI 会不会继续放出更多这种基础设施型模型。不是更大的聊天模型,而是更贴近企业流程的小模型。如果继续放,这条线就不是试水,而是补齐落地链路。
三是谷歌这套企业代理平台,客户最终是在为芯片性能买单,还是在为治理、省事和责任边界买单。这个答案会决定它是卖算力,还是卖锁定力。
