DeepSeek V4 这次最值得看的,不是又多了一个大模型名字,而是两个数字:V4 Pro 是 1.6T 总参数、49B 激活参数;V4 Flash 是 284B 总参数、13B 激活参数。两档模型都给到 1M token 上下文,也都发布 Base 和 Instruct 版本。
反常点在这里:DeepSeek 回来了,但它没有重新站上所有榜单的最高处。我的判断是,V4 把开放权重模型的长上下文、成本控制和部署选择往前推了一步;但从目前独立评测看,V4 Pro 更接近 Kimi K2.6、GLM-5.1 所在的强开源阵营,还不能写成压过 GPT-5.x、Gemini 3.1 Pro、Claude Opus 4.x 的时刻。
V4 发布了什么:两档模型,面向两种预算
V4 Pro 和 V4 Flash 的分工很清楚。Pro 追求更高能力,Flash 追求更低推理成本。两者都不是只为聊天榜单准备的,更像是给长文档、代码库、企业知识库和工具调用场景准备的底座。
| 项目 | V4 Pro | V4 Flash | 对使用者的含义 |
|---|---|---|---|
| 参数规模 | 1.6T 总参数 / 49B 激活 | 284B 总参数 / 13B 激活 | Pro 适合高能力任务,Flash 适合成本敏感任务 |
| 上下文 | 1M token | 1M token | 可处理更长代码库、合同、报告和知识库输入 |
| 版本 | Base / Instruct | Base / Instruct | Base 便于继续训练,Instruct 便于直接评测和试点 |
| 许可 | MIT | MIT | 商业使用和二次开发约束更少 |
| 部署 | 第三方推理平台快速支持 | 第三方推理平台快速支持 | 开源权重不只停在下载页,更容易进入工程验证 |
Base 和 Instruct 同时发布,是一个实用动作。研究团队可以拿 Base 做后训练、对齐和领域化实验;企业团队可以先用 Instruct 跑内部评测,看它在真实任务里是不是省钱、省时间。
MIT 许可也很关键。对公司来说,开源模型的价值不只在“能不能用”,还在“能不能改、能不能放进自己的产品和流程里”。这决定了它能不能从技术尝鲜进入采购和部署讨论。
强在长上下文降本,但低单价不等于低总成本
V4 的核心进步在长上下文。根据发布材料,DeepSeek 使用 CSA、HCA 等机制,在 1M token 场景下降低 FLOPs 和 KV cache 占用。材料中给出的对比是:在 1M token 时,所需 FLOPs 约为 V3.2 的 27%,KV cache 内存约为 10%。
这不是一个小改动。过去很多模型写着支持长上下文,真正跑起来会卡在显存、延迟和账单上。V4 的意义,是让 1M token 更接近可用能力,而不是只停在规格表里。
最受影响的是两类人。
一类是做大模型研发和 agentic coding 的团队。代码仓库分析、长链路工具调用、复杂任务规划,会更有理由把 V4 放进评测池。动作上,不是立刻替换现有模型,而是把长上下文任务单独切出来,比较成功率、输出 token、延迟和复现稳定性。
另一类是推理基础设施团队。他们要重新算账:上下文长度、缓存命中率、并发、输出长度、硬件栈,哪一个才是真正的成本瓶颈。长上下文单价降低,不代表总账单一定降低。
公开材料显示,V4 Pro 的 API 价格约为每百万输入 token 1.74 美元、输出 token 3.48 美元;V4 Flash 约为 0.14 美元和 0.28 美元。这个价格很有攻击性,但复杂任务可能吃掉大量输出 token。长推理一旦变成长输出,便宜单价也会被调用量抵消。
所以我更在意的不是“每百万 token 多少钱”,而是“完成一个真实任务多少钱”。比如修一个复杂 bug、审一份长合同、跑一次代码库问答,最后消耗多少输入、多少输出、多少重试,这才是企业会看的账。
弱在综合前沿,Ascend 支持也还要看生产数据
能力边界要说清楚。独立评测大致显示,V4 Pro 在开放权重模型里很强,部分 agentic 工作负载表现突出;但综合能力仍更像开放权重第二梯队的强选手,接近 Kimi K2.6、GLM-5.1,而不是把顶级闭源模型拉下马。
这对技术决策者很重要。若任务是内部知识库问答、代码辅助、长文档处理,V4 值得进入候选名单。若任务对可靠性、复杂推理、低幻觉率和多轮稳定性要求极高,闭源前沿模型仍然需要保留在对照组里。
Ascend/CANN 支持是另一件大事。它至少说明,DeepSeek V4 正在降低对 NVIDIA/CUDA 路线的依赖,也给已有 Ascend 集群的企业和云厂商一个更现实的部署选项。
但能跑,不等于已经完全替代。CUDA 的优势不只是一块 GPU,而是一整套驱动、算子、调度、监控、社区修复和人才储备。Ascend/CANN 支持 V4 是里程碑,但生产环境还要看吞吐、稳定性、故障恢复和运维成本。
对关注国产 AI 算力生态的技术决策者来说,更实际的动作是延后“一刀切”采购。先做小规模迁移评估:同一批长上下文任务,在 NVIDIA/CUDA 和 Ascend/CANN 上分别跑吞吐、延迟、成本和错误率。数据稳定后,再决定扩容比例。
接下来最该看三件事:第三方复现是否稳定;Ascend 集群上的真实吞吐和成本曲线是否好看;长上下文场景里的幻觉率和重试率能不能压住。只要这三项没跑透,V4 就更适合进入严肃评测,而不是被包装成终局答案。
这也是这次发布最有意思的地方。DeepSeek V4 没有带来“开源全面反杀闭源”的爽文结局,却给了企业一个更现实的选择:能力够强、上下文够长、部署更自由,但账还得自己算。
