只激活30亿参数,却敢去写代码:Qwen3.6-35B-A3B把开源模型又往前推了一步

人工智能 2026年4月17日
只激活30亿参数,却敢去写代码:Qwen3.6-35B-A3B把开源模型又往前推了一步
阿里通义千问最新开源的 Qwen3.6-35B-A3B,表面上是一次常规模型发布,真正有意思的地方在于:它用 MoE 架构把“便宜、能打、可开源”这三件事尽量凑到了一起。对开发者来说,这不只是多了一个可下载的模型,而是开源 AI 在代码代理、终端执行和多模态理解上,终于开始逼近“能干活”的门槛。

Qwen 团队这次放出的 Qwen3.6-35B-A3B,如果只看名字,很容易被淹没在模型排行榜的数字丛林里。但它其实踩中了当下 AI 行业一个非常关键的痛点:大家都想要更强的编程代理,更长的上下文,更像“会自己动手”的 AI;可另一边,训练和推理成本又像房租一样,只会越来越贵。

这款模型的思路很直接,也很现实:总参数 350 亿,但每次只激活约 30 亿参数。换句话说,它不是靠“全员上场”硬堆算力,而是让专家模型按需出勤。Qwen 团队给出的成绩也颇有攻击性——在多项代码代理和推理基准上,它明显超过上一代 Qwen3.5-35B-A3B,甚至能和更大的稠密模型正面掰手腕。对今天的开源社区来说,这比“又一个大模型”更重要,因为它回答了一个现实问题:如果你不是巨头,能不能也拥有一个足够能写、足够能看、还不至于把 GPU 烧穿的 AI 助手?

开源模型开始不满足于“会答题”,而是要“会干活”

这两年,大模型的竞赛方向已经悄悄变了。早些时候,大家比的是 MMLU、数学题、阅读理解,像一场纸面考试;到了今天,真正决定产品价值的,越来越像是“能不能进终端、改代码、跑命令、修 Bug、读截图、理解网页,再把活儿接着干下去”。也就是所谓的 agentic coding,中文说白了,就是不只会聊天,而是会当半个工程师。

Qwen3.6-35B-A3B最亮眼的部分,恰恰就在这里。比如在 SWE-bench Verified、Terminal-Bench 2.0、NL2Repo、QwenWebBench 这些更接近真实开发流程的任务上,它都交出了相当强的成绩。特别是 Terminal-Bench 2.0 上 51.5 的分数,很说明问题:这类测试不是写几行漂亮代码就行,而是要求模型能在类真实终端环境里完成一连串操作,过程中还会碰到依赖、文件、报错、上下文切换这些“人类程序员每天都在骂”的东西。

这也是我觉得这次发布真正有分量的地方。开源模型过去经常给人一种“考试型选手”的印象,榜单好看,落地一般;而 Qwen 正在试图把模型推向另一种状态:不只是会回答“怎么做”,而是能真的参与“做这件事”。这对于创业团队、独立开发者、企业内部工具链,都是很具体的价值。毕竟现实世界里,老板不会因为模型 MMLU 多了 0.8 分就鼓掌,但如果它能少让工程师熬两个通宵,那就完全是另一回事了。

30亿激活参数,为什么反而更值得看

很多人看到“350 亿参数、仅 30 亿激活”时,第一反应可能是:这是不是有点省?但在今天,这种“省”恰恰是一种能力。

MoE,也就是混合专家模型,已经不是什么新鲜概念。过去几年,从 Mistral 到 DeepSeek,再到各家自研路线,行业都在尝试用更聪明的参数调度,去换取更高的性能密度。原因非常现实:稠密模型虽然好理解,但每一次推理都把所有参数拖出来跑一遍,成本太高。MoE 的诱惑在于,总体容量可以做大,但每次推理只调动一部分“专家”,于是理论上能做到“脑子大、饭量小”。

Qwen3.6-35B-A3B的意义就在于,它把这种思路往开源可用的方向又推了一步。官方给出的对比里,它在多个关键代码任务上压过了自家的 Qwen3.5-27B 稠密模型,也大幅领先上一代 A3B 版本。这说明一件事:参数规模本身越来越不值钱,真正值钱的是有效激活、工具调用能力、上下文利用效率,以及模型在复杂链路任务中的稳定性。

这背后还有个行业趋势值得注意。现在越来越多企业在部署模型时,已经不再只看“天花板性能”,而是看“每块 GPU 能换来多少实际产出”。如果一个只激活 30 亿参数的模型,能打出接近甚至超过更大稠密模型的效果,那它在私有部署、企业内网、边缘推理、成本敏感场景里就很有吸引力。说得俗一点,技术圈终于也开始认真算账了。

它不只想做代码模型,还想做一个“看得懂世界”的助手

如果 Qwen3.6-35B-A3B 只是编程强,这条新闻还不算特别意外。更有意思的是,它依然保留了 Qwen3.6 系列的原生多模态能力,而且成绩不差。

从官方公布的视觉语言评测看,这个模型在文档理解、OCR、图表理解、空间智能和视频理解上都维持了相当完整的战斗力。像 RefCOCO、ODInW13 这种偏空间定位的任务,它的表现尤其突出。你可以把这理解成:它不只是能读 README、写函数,还能看界面、看图、看文档、看视频片段。对于真正的 AI 编程代理来说,这其实非常关键。

为什么?因为今天的开发工作本来就不是纯文本。工程师会盯着 Figma 截图改前端,会根据报错截图排查问题,会看产品原型图理解交互,会读扫描 PDF 里的旧文档,会在网页渲染结果和代码之间来回切换。如果一个模型只能在文本世界里聪明,那它距离“能干活”始终差半步。Qwen 这次想传达的信息很清楚:未来有竞争力的开源模型,不该是一个单纯的代码补全器,而应该是一个能跨越文本、图像、网页和终端的通用执行者。

当然,基准分数永远不等于真实体验。多模态模型最容易出现的老毛病,还是“看起来懂了,其实看偏了”;代码代理最容易翻车的地方,则是连续十几步操作后开始自信胡来。所以我会更关心这款模型在社区中的真实反馈:它在复杂仓库里改代码稳不稳,在长上下文里会不会遗忘,在多轮任务里会不会越做越跑偏。这些问题,跑几个公开 benchmark 其实还回答不了。

开源的意义,不只是免费下载,而是生态位争夺

Qwen 团队这次把模型权重开放在 Hugging Face 和 ModelScope,同时也放进 Qwen Studio,并接入阿里云 Model Studio API,API 名称为 qwen3.6-flash。它还特意强调与 OpenClaw、Qwen Code、Claude Code 等工具链的兼容性。这不是一个无关紧要的细节,恰恰说明今天的模型竞争,已经从“单点模型能力”转向“谁能进入开发者工作流”。

说白了,一个模型再强,如果开发者装起来麻烦、接工具困难、协议不兼容,那它很快就会被遗忘在下载页里。相反,如果它能直接塞进现有终端工具、代码代理和 API 生态里,开发者就会更愿意试、愿意改、愿意二次开发。Qwen 这一步,明显是想抢占开源 coding agent 的基础设施位置,而不是只在榜单上刷一排漂亮数字。

这也让人联想到最近一年的行业变化。闭源阵营里,Anthropic 的 Claude Code、OpenAI 的代码能力、Google 的 Gemini 在多模态和长上下文上的推进,都在把“AI 开发助手”做成真实生产工具。开源阵营如果还停留在聊天和补全,很快就会失去存在感。Qwen3.6-35B-A3B 的价值,是它试图证明:开源模型也能进入这个更难、更讲究实战的赛道。

但争议也会随之而来。一个越来越强的代码代理,被更广泛地开源出来,当然会激发创新,也会带来新的治理问题。比如安全边界怎么设,危险命令怎么拦,企业把代码仓库交给模型处理时怎么审计,模型的“思维链保留”功能会不会让敏感上下文在系统中存得更久。这些都是产品化之后绕不开的问题。开源不是天然正确,开源只是把权力和责任一起交给了社区。

接下来真正的考题,是“谁能把模型变成工程生产力”

我对这次发布的总体判断是乐观的。不是因为它又刷新了几项分数,而是因为它代表了一种更成熟的开源路线:不再盲目追求超级巨模,而是在效率、能力和生态兼容之间找到一个更实用的平衡点。

Qwen3.6-35B-A3B 可能不会是那个“横扫一切”的模型,但它很可能会成为很多团队真正拿来干活的模型。尤其是在预算有限、数据不方便外流、又确实需要一个能写代码、会看图、能调用工具的系统时,它的吸引力会比榜单上的冠军更真实。

接下来,行业最值得看的不只是下一个参数规模,而是两个问题:第一,开源模型能否在真实软件工程场景中持续稳定,而不是偶尔惊艳;第二,模型公司能否把协议、工具链、部署方式和社区支持做成一个完整生态,而不是只会发论文和成绩单。前者决定模型是不是生产力,后者决定它会不会活下来。

如果这两件事 Qwen 都能继续推进,那这次开源就不只是一次产品更新,而可能是开源 AI 编程生态进入下一阶段的信号。到那时,程序员未必会失业,但大概率会更像“带着一群实习 AI 的技术主管”——辛苦还是辛苦,只不过要开始学会管理一群不会喊累、但偶尔会闯祸的数字同事了。

Summary: Qwen3.6-35B-A3B最有价值的地方,不是“以小博大”的参数故事,而是它让开源模型在代码代理和多模态执行上更接近真实生产工具。我判断,未来一年开源大模型的竞争核心会从单一榜单转向“谁更能嵌入开发流程、谁更便宜稳定”。如果 Qwen 能继续把工具链、部署体验和安全边界补齐,它在企业级开源 AI 市场里的位置会明显上升,甚至可能成为很多团队替代部分闭源模型的首选。
Qwen3.6-35B-A3BMoE开源模型代码代理阿里通义千问多模态理解推理成本终端执行编程代理GPU