DeepSeek V4 开源权重发布：1M 上下文更实用，但还没掀翻闭源前沿

核心摘要 Summary

DeepSeek V4 Pro 和 V4 Flash 发布开源权重，主打 1M token 上下文、Base/Instruct 双版本、MIT 许可，并支持华为 Ascend/CANN 生态运行。
它真正推进的是长上下文推理成本和部署自由度，不是综合能力全面反超闭源模型。
对研发和基础设施团队来说，现在更适合进入评测、迁移测算和算力路线对比，而不是立刻押注全量替换。

DeepSeek V4 这次最值得看的，不是又多了一个大模型名字，而是两个数字：V4 Pro 是 1.6T 总参数、49B 激活参数；V4 Flash 是 284B 总参数、13B 激活参数。两档模型都给到 1M token 上下文，也都发布 Base 和 Instruct 版本。

反常点在这里：DeepSeek 回来了，但它没有重新站上所有榜单的最高处。我的判断是，V4 把开放权重模型的长上下文、成本控制和部署选择往前推了一步；但从目前独立评测看，V4 Pro 更接近 Kimi K2.6、GLM-5.1 所在的强开源阵营，还不能写成压过 GPT-5.x、Gemini 3.1 Pro、Claude Opus 4.x 的时刻。

V4 发布了什么：两档模型，面向两种预算

V4 Pro 和 V4 Flash 的分工很清楚。Pro 追求更高能力，Flash 追求更低推理成本。两者都不是只为聊天榜单准备的，更像是给长文档、代码库、企业知识库和工具调用场景准备的底座。

项目	V4 Pro	V4 Flash	对使用者的含义
参数规模	1.6T 总参数 / 49B 激活	284B 总参数 / 13B 激活	Pro 适合高能力任务，Flash 适合成本敏感任务
上下文	1M token	1M token	可处理更长代码库、合同、报告和知识库输入
版本	Base / Instruct	Base / Instruct	Base 便于继续训练，Instruct 便于直接评测和试点
许可	MIT	MIT	商业使用和二次开发约束更少
部署	第三方推理平台快速支持	第三方推理平台快速支持	开源权重不只停在下载页，更容易进入工程验证

Base 和 Instruct 同时发布，是一个实用动作。研究团队可以拿 Base 做后训练、对齐和领域化实验；企业团队可以先用 Instruct 跑内部评测，看它在真实任务里是不是省钱、省时间。

MIT 许可也很关键。对公司来说，开源模型的价值不只在“能不能用”，还在“能不能改、能不能放进自己的产品和流程里”。这决定了它能不能从技术尝鲜进入采购和部署讨论。

强在长上下文降本，但低单价不等于低总成本

V4 的核心进步在长上下文。根据发布材料，DeepSeek 使用 CSA、HCA 等机制，在 1M token 场景下降低 FLOPs 和 KV cache 占用。材料中给出的对比是：在 1M token 时，所需 FLOPs 约为 V3.2 的 27%，KV cache 内存约为 10%。

这不是一个小改动。过去很多模型写着支持长上下文，真正跑起来会卡在显存、延迟和账单上。V4 的意义，是让 1M token 更接近可用能力，而不是只停在规格表里。

最受影响的是两类人。

一类是做大模型研发和 agentic coding 的团队。代码仓库分析、长链路工具调用、复杂任务规划，会更有理由把 V4 放进评测池。动作上，不是立刻替换现有模型，而是把长上下文任务单独切出来，比较成功率、输出 token、延迟和复现稳定性。

另一类是推理基础设施团队。他们要重新算账：上下文长度、缓存命中率、并发、输出长度、硬件栈，哪一个才是真正的成本瓶颈。长上下文单价降低，不代表总账单一定降低。

公开材料显示，V4 Pro 的 API 价格约为每百万输入 token 1.74 美元、输出 token 3.48 美元；V4 Flash 约为 0.14 美元和 0.28 美元。这个价格很有攻击性，但复杂任务可能吃掉大量输出 token。长推理一旦变成长输出，便宜单价也会被调用量抵消。

所以我更在意的不是“每百万 token 多少钱”，而是“完成一个真实任务多少钱”。比如修一个复杂 bug、审一份长合同、跑一次代码库问答，最后消耗多少输入、多少输出、多少重试，这才是企业会看的账。

弱在综合前沿，Ascend 支持也还要看生产数据

能力边界要说清楚。独立评测大致显示，V4 Pro 在开放权重模型里很强，部分 agentic 工作负载表现突出；但综合能力仍更像开放权重第二梯队的强选手，接近 Kimi K2.6、GLM-5.1，而不是把顶级闭源模型拉下马。

这对技术决策者很重要。若任务是内部知识库问答、代码辅助、长文档处理，V4 值得进入候选名单。若任务对可靠性、复杂推理、低幻觉率和多轮稳定性要求极高，闭源前沿模型仍然需要保留在对照组里。

Ascend/CANN 支持是另一件大事。它至少说明，DeepSeek V4 正在降低对 NVIDIA/CUDA 路线的依赖，也给已有 Ascend 集群的企业和云厂商一个更现实的部署选项。

但能跑，不等于已经完全替代。CUDA 的优势不只是一块 GPU，而是一整套驱动、算子、调度、监控、社区修复和人才储备。Ascend/CANN 支持 V4 是里程碑，但生产环境还要看吞吐、稳定性、故障恢复和运维成本。

对关注国产 AI 算力生态的技术决策者来说，更实际的动作是延后“一刀切”采购。先做小规模迁移评估：同一批长上下文任务，在 NVIDIA/CUDA 和 Ascend/CANN 上分别跑吞吐、延迟、成本和错误率。数据稳定后，再决定扩容比例。

接下来最该看三件事：第三方复现是否稳定；Ascend 集群上的真实吞吐和成本曲线是否好看；长上下文场景里的幻觉率和重试率能不能压住。只要这三项没跑透，V4 就更适合进入严肃评测，而不是被包装成终局答案。

这也是这次发布最有意思的地方。DeepSeek V4 没有带来“开源全面反杀闭源”的爽文结局，却给了企业一个更现实的选择：能力够强、上下文够长、部署更自由，但账还得自己算。

DeepSeek V4 开源权重发布：1M 上下文更实用，但还没掀翻闭源前沿

DeepSeek V4

发布重点

Pro/Flash

开放条件

核心增量

长上下文降本

真实成本

能力边界

适用场景

高可靠任务

算力路线

生态替代

迁移评估

后续变量

复现稳定

长任务质量

V4 发布了什么：两档模型，面向两种预算

强在长上下文降本，但低单价不等于低总成本

弱在综合前沿，Ascend 支持也还要看生产数据