阿里又往前推了一步。4 月 18 日,Qwen 团队公布了专有模型 Qwen3.6-Max-Preview,定位是 Qwen3.6-Plus 之后的下一代预览版。官方给出的升级方向很直接:世界知识更强,指令跟随更稳,最核心的是 agentic coding 继续抬高。
这条新闻的重点,不在“又发了个模型”,而在阿里把战场说得更明白了:大模型竞争已经从会不会聊天,转向能不能干活。尤其是写代码、调工具、跨多步完成任务。对开发者和企业采购来说,这比“文风更像人”重要得多。
Qwen3.6-Max-Preview 变强在哪
从官方披露的数据看,这次相对 Qwen3.6-Plus 的增幅主要落在三块:
- 代码代理能力.SkillsBench +9.9,SciCode +6.3,NL2Repo +5.0,Terminal-Bench 2.0 +3.8
- 知识能力.SuperGPQA +2.3,QwenChineseBench +5.3
- 指令跟随.ToolcallFormatIFBench +2.8
Qwen 还特别强调,这个模型在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode 六个代码类基准上拿到第一。
产品层面,它会以 qwen3.6-max-preview 的名字接入阿里云 Model Studio,也能在 Qwen Studio 直接试用。API 继续兼容 OpenAI 风格和 Anthropic 风格接口,还支持 preserve_thinking,也就是把前几轮“思考内容”保留下来,方便 agent 任务连续执行。
这对谁最有用?不是来闲聊的普通用户,而是两类人:一类是把模型塞进开发流程的工程团队,另一类是想做自动化 agent 的企业。前者关心修 bug、读仓库、调终端;后者关心工单流转、知识库调用、工具编排。模型如果只会答题,不会接活,分再高也只是展台样机。
这次真正重要的,是阿里把产品方向押在“能执行”上
过去一年,行业里最热的词从 chatbot 变成了 agent。原因很现实:聊天容易演示,执行才有预算。老板不会为“更会聊天”单独批采购,但会为“把研发、客服、运营流程自动化”掏钱。
Qwen 这次把 agentic coding 放在最前面,说明它想争的不只是模型榜单,而是开发入口和企业工作流。历史上每一代基础设施竞争都差不多:铁路不是比谁车头亮,而是比谁运得稳、运得远、运得便宜。大模型也一样,"天下熙熙,皆为利来",最后决定采购的不是发布稿里的形容词,而是单位任务成本、调用成功率、延迟和错误后果。
这也是我觉得这次发布重要的地方。它至少说明,国内头部模型厂商不再满足于“中文不错”“参数很大”这种旧叙事,而是试图回答更硬的问题:能不能替代一部分真实的软件劳动。
但不重要的部分也得说清。榜单第一当然好看,可 benchmark 从来不等于生产力。SWE-bench、Terminal-Bench 这类测试更接近真实场景,没错;可企业部署里还有几道更难的坎:长上下文下是否稳定、工具调用会不会偶发失控、推理链保留后成本会不会暴涨、跨区域 API 交付是否一致。原文没有给价格,没有给延迟,也没有给长时间任务失败率。这些空白,比那几个加分项更值钱。
开发者该盯什么,别被“预览版”三个字糊弄过去
对开发者来说,这次最该看的不是宣传图,而是三个动作。
一是实测代码代理的完成率。能不能从 issue 到 patch,再到测试通过,整条链路少人工兜底。二是看 preserve_thinking 带来的收益和代价,连续任务更稳,往往也更贵。三是看阿里云侧的可用性,尤其是兼容 OpenAI 接口之后,迁移成本是不是真低到值得切换。
对企业客户来说,判断标准更简单:别问模型聪不聪明,先问采购上线后谁背锅。预览版意味着还在迭代,也意味着你今天跑通的流程,明天可能因为模型行为变化又得重测。苏格拉底说,未经审视的生活不值得过;放到企业 AI 采购上,未经压测的模型,不值得进生产。
横向看,这和 OpenAI、Anthropic、Google 最近的路数是一致的:都在拼 coding、tool use、agent reliability。区别在于,国际厂商已经逐步把“能力展示”往“可计费场景”上压,阿里这次也在走这条路,但现在还没把最现实的账本摊开。
我更在意的是,Qwen 这次释放出一个信号:国内模型竞争开始从“谁更像通用助手”,转向“谁更像数字劳动力”。这方向没错。错的风险在于,行业太容易把“更像劳动力”包装成“已经能替代劳动力”。一字之差,预算就可能打水漂。
