阿里放出 Qwen3.6-Max 预览版：编码分数更猛，但真正的仗在基准测试外面

人工智能 2026年4月20日

核心摘要 Summary

阿里发布了专有模型 Qwen3.6-Max-Preview，主打比 Qwen3.6-Plus 更强的 agentic coding、知识和指令跟随能力，并把“六项代码基准第一”摆上了台面。
真正重要的不是又多了一个高分模型，而是国内大厂已经把竞赛焦点从聊天能力，转到能不能稳定接工具、跑任务、写代码。
可我不太买账的是，预览版和榜单成绩都只是入场券，企业客户最后看的是稳定性、价格和交付，不是海报上的漂亮分数。

内容导图 Mind Map

Qwen预览版

高分之外看交付

升级重点

编码能力提升最显著

三项增强

代码知识指令齐升

榜单领先

六项代码基准第一

竞争转向

焦点从聊天转向执行

商业逻辑

自动化场景更易付费

目标客户

工程团队与企业先用

产品落地

接入云平台与兼容API

连续任务

支持保留思考上下文

核心质疑

基准高分不等于生产力

交付缺口

价格延迟失败率未披露

部署风险

稳定性与工具失控待验

判断标准

分数是门票不是交付

开发者视角

先测完成率与迁移成本

企业视角

预览版上线仍需压测

阿里又往前推了一步。4 月 18 日，Qwen 团队公布了专有模型 Qwen3.6-Max-Preview，定位是 Qwen3.6-Plus 之后的下一代预览版。官方给出的升级方向很直接：世界知识更强，指令跟随更稳，最核心的是 agentic coding 继续抬高。

这条新闻的重点，不在“又发了个模型”，而在阿里把战场说得更明白了：大模型竞争已经从会不会聊天，转向能不能干活。尤其是写代码、调工具、跨多步完成任务。对开发者和企业采购来说，这比“文风更像人”重要得多。

Qwen3.6-Max-Preview 变强在哪

从官方披露的数据看，这次相对 Qwen3.6-Plus 的增幅主要落在三块：

代码代理能力.SkillsBench +9.9，SciCode +6.3，NL2Repo +5.0，Terminal-Bench 2.0 +3.8
知识能力.SuperGPQA +2.3，QwenChineseBench +5.3
指令跟随.ToolcallFormatIFBench +2.8

Qwen 还特别强调，这个模型在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode 六个代码类基准上拿到第一。

产品层面，它会以 qwen3.6-max-preview 的名字接入阿里云 Model Studio，也能在 Qwen Studio 直接试用。API 继续兼容 OpenAI 风格和 Anthropic 风格接口，还支持 preserve_thinking，也就是把前几轮“思考内容”保留下来，方便 agent 任务连续执行。

这对谁最有用？不是来闲聊的普通用户，而是两类人：一类是把模型塞进开发流程的工程团队，另一类是想做自动化 agent 的企业。前者关心修 bug、读仓库、调终端；后者关心工单流转、知识库调用、工具编排。模型如果只会答题，不会接活，分再高也只是展台样机。

这次真正重要的，是阿里把产品方向押在“能执行”上

过去一年，行业里最热的词从 chatbot 变成了 agent。原因很现实：聊天容易演示，执行才有预算。老板不会为“更会聊天”单独批采购，但会为“把研发、客服、运营流程自动化”掏钱。

Qwen 这次把 agentic coding 放在最前面，说明它想争的不只是模型榜单，而是开发入口和企业工作流。历史上每一代基础设施竞争都差不多：铁路不是比谁车头亮，而是比谁运得稳、运得远、运得便宜。大模型也一样，"天下熙熙，皆为利来"，最后决定采购的不是发布稿里的形容词，而是单位任务成本、调用成功率、延迟和错误后果。

这也是我觉得这次发布重要的地方。它至少说明，国内头部模型厂商不再满足于“中文不错”“参数很大”这种旧叙事，而是试图回答更硬的问题：能不能替代一部分真实的软件劳动。

但不重要的部分也得说清。榜单第一当然好看，可 benchmark 从来不等于生产力。SWE-bench、Terminal-Bench 这类测试更接近真实场景，没错；可企业部署里还有几道更难的坎：长上下文下是否稳定、工具调用会不会偶发失控、推理链保留后成本会不会暴涨、跨区域 API 交付是否一致。原文没有给价格，没有给延迟，也没有给长时间任务失败率。这些空白，比那几个加分项更值钱。

开发者该盯什么，别被“预览版”三个字糊弄过去

对开发者来说，这次最该看的不是宣传图，而是三个动作。

一是实测代码代理的完成率。能不能从 issue 到 patch，再到测试通过，整条链路少人工兜底。二是看 preserve_thinking 带来的收益和代价，连续任务更稳，往往也更贵。三是看阿里云侧的可用性，尤其是兼容 OpenAI 接口之后，迁移成本是不是真低到值得切换。

对企业客户来说，判断标准更简单：别问模型聪不聪明，先问采购上线后谁背锅。预览版意味着还在迭代，也意味着你今天跑通的流程，明天可能因为模型行为变化又得重测。苏格拉底说，未经审视的生活不值得过；放到企业 AI 采购上，未经压测的模型，不值得进生产。

横向看，这和 OpenAI、Anthropic、Google 最近的路数是一致的：都在拼 coding、tool use、agent reliability。区别在于，国际厂商已经逐步把“能力展示”往“可计费场景”上压，阿里这次也在走这条路，但现在还没把最现实的账本摊开。

我更在意的是，Qwen 这次释放出一个信号：国内模型竞争开始从“谁更像通用助手”，转向“谁更像数字劳动力”。这方向没错。错的风险在于，行业太容易把“更像劳动力”包装成“已经能替代劳动力”。一字之差，预算就可能打水漂。

锐评 Commentary

分数是门票，不是交付。榜上封王易，进厂干活难；若只会刷题，不会担责，终究是纸上雄兵。

Qwen3.6-Max-Preview阿里大语言模型Agentic Coding代码基准测试工具调用企业采购指令跟随SWE-bench稳定性与交付