DeepSeek V4 第一批预览模型来了:V4-Pro 和 V4-Flash。两者都是 1M token 上下文的 MoE 模型,采用 MIT license,以 open weights 形式发布。

更完整的信息补上了三块关键拼图:模型到底有多大、价格到底低到什么程度、DeepSeek 为什么敢把长上下文推理成本压下去。

一句话看新闻:V4-Pro 接近前沿,但按 DeepSeek 自己的说法,仍落后 GPT-5.4、Gemini 3.1 Pro 约 3 到 6 个月;V4-Flash 更像成本杀手,输入 $0.14/M token,输出 $0.28/M token。榜单还没赢完,账单已经先砍了一刀。

发生了什么:两个模型,一个冲规模,一个冲成本

DeepSeek V4-Pro:

  • 1.6T 总参数,49B 激活参数
  • 1M token 上下文
  • Hugging Face 权重体积约 865GB
  • 可能是当前最大的 open weights 模型之一
  • API 价格.输入 $1.74/M token,输出 $3.48/M token

DeepSeek V4-Flash:

  • 284B 总参数,13B 激活参数
  • 1M token 上下文
  • Hugging Face 权重体积约 160GB
  • API 价格.输入 $0.14/M token,输出 $0.28/M token

这里要把概念放准:open weights 不等于完整开源。权重开放很重要,但训练数据、训练代码、完整训练流程没有自动随之开放。把 open weights 直接喊成“全开源”,是偷懒,也容易误导。

第三方试用也给了一个小观察:有人通过 OpenRouter 调用 V4-Pro 和 V4-Flash,让模型生成“骑自行车的鹈鹕”SVG。结果还不错,但这种测试只能看出模型具备一定图形代码生成能力,不能替代严肃 benchmark。

严肃部分还是价格、效率和可部署性。

为什么重要:DeepSeek 没有赢下所有榜单,但赢到了预算表旁边

价格对照很刺眼。

模型输入价格输出价格位置
DeepSeek V4-Flash$0.14/M$0.28/M小模型价格低位
GPT-5.4 Nano$0.20/M$1.25/M比 Flash 贵,尤其输出
Gemini 3.1 Flash-Lite$0.25/M$1.50/M轻量档更贵
DeepSeek V4-Pro$1.74/M$3.48/M大型前沿档低价
Gemini 3.1 Pro$2/M$12/M输出贵很多
GPT-5.4$2.50/M$15/M输出贵很多
Claude Sonnet 4.6$3/M$15/M输出贵很多
GPT-5.5$5/M$30/M高价前沿档

DeepSeek-V4-Flash 比 GPT-5.4 Nano 还便宜。V4-Pro 在大型前沿模型里也打到了低价区。

这不是“免费午餐”。DeepSeek 论文给出的解释是效率路线:在 1M token 长上下文场景下,V4-Pro 的单 token FLOPs 只有 V3.2 的 27%,KV cache 只有 10%;V4-Flash 更激进,分别降到 10% 和 7%。

这组数字比“百万上下文”四个字更要紧。

百万上下文本身已经不稀奇。真正稀缺的是:塞进去之后,算得起、跑得稳、延迟别炸、账单别吓人。长上下文如果只存在于演示里,那是发布会资产;如果成本压下来,才会变成生产系统里的工具。

DeepSeek 这次刺痛 OpenAI、Google、Anthropic 的位置,不是“我比你更聪明”,而是“我可能够聪明,而且便宜很多”。企业采购听到后一半会皱眉,一半会掏计算器。

谁受影响:开发者和企业客户先动,普通用户感知没那么快

最先受影响的是两类人。

一类是开发者。尤其是做长文档分析、代码库问答、Agent 工作流、日志审计、知识库检索的人。这些场景消耗 token 凶,输出也不小。模型单次调用贵一点,月账单就能滚成财务问题。

V4-Flash 的意义在这里:它可能让一批原本不敢大规模跑的任务重新进入预算。不是所有任务都要 Claude Sonnet 或 GPT-5.4。很多企业内部工具只需要“够强、够稳、便宜到能常开”。

另一类是 AI 产品团队。过去产品经理经常被一个问题卡住:演示很漂亮,真实用户一多,推理成本吃掉毛利。DeepSeek 如果能把低价维持住,很多产品的单位经济账会变。

普通用户暂时不一定直接感知。你在聊天框里用哪个模型,背后成本差异未必立刻变成价格差异。但开发者和产品团队会感知。工具链会先动,用户体验随后才会变。

“天下熙熙,皆为利来。”这句话放在模型 API 市场里一点不俗。企业不靠热血采购模型,靠预算、合规、延迟、稳定性和替换成本。谁能把成本曲线压下去,谁就有资格进下一轮谈判。

我更在意的不是参数,而是 DeepSeek 把竞争拖进了成本泥地

V4-Pro 1.6T 参数当然壮观。比 Kimi K2.6 的 1.1T、GLM-5.1 的 754B、DeepSeek V3.2 的 685B 都更大。可参数规模不是最该兴奋的点。

大模型行业过去太爱参数叙事。像早期铁路竞赛,报纸爱写谁的线路最长、谁的机车最快。但铁路真正改变商业,不是靠某段线路破纪录,而是运费降到商人愿意天天发货。

AI 也在过这道坎。不完全一样,但有一处相同:技术进入日常生产后,成本比口号诚实。

DeepSeek 的锋利处就在这里。它承认自己还不是最前沿。论文里写得很直:V4-Pro-Max 通过扩展 reasoning tokens,在一些标准推理 benchmark 上超过 GPT-5.2 和 Gemini-3.0-Pro,但仍略低于 GPT-5.4 和 Gemini-3.1-Pro,大约落后 3 到 6 个月。

这句话反而增加可信度。它没有把自己包装成“全线碾压”。它更像在说:我不一定站在最高点,但我把通往高点的票价打下来了。

这比单纯吹榜单更危险。

因为前沿模型公司最舒服的商业结构,是用能力领先维持高价。能力差距越大,客户越没有议价空间。DeepSeek 如果持续把差距压到“可接受”,同时把价格压到“很难忽视”,那就会逼整个市场重新定价。

火力不在发布会上,在采购合同里。

还有三道坎:真实评测、本地运行、低价能撑多久

别急着把 V4 写成终局。现在能确认的是压力,不是胜利。

第一,benchmark 还要看第三方。DeepSeek 自报成绩只能算线索。真实长上下文任务更麻烦:前文信息保持、跨段推理、代码一致性、引用准确性、工具调用稳定性,这些都不是一张排行榜能讲完的。

第二,open weights 的价值要看量化和本地部署。V4-Flash 160GB,轻量量化后有机会进入高端本地机器的射程。有人已经盯着 Unsloth 这类团队做量化版本。如果 Flash 能在 128GB 级别设备上跑得体面,它的意义会从“便宜 API”扩展到“可私有部署”。

第三,低价能不能长期维持。低价有两种:一种来自效率,能打持久战;一种来自补贴,热闹一阵就涨价。DeepSeek 论文里的 FLOPs 和 KV cache 数字说明它确实在效率上动了刀,但商业价格还要看供给、并发、芯片成本、海外访问、企业服务和安全合规。

这里不能装傻。OpenAI、Google、Anthropic 仍有强优势:模型能力、产品生态、企业信任、云分发、安全治理、全球客户关系。这些不是一张低价表就能抹掉。

但模型市场最怕的不是对手全面领先,而是对手在某个高频场景里“够用又便宜”。一旦开发者开始把边缘任务、新项目、内部工具迁过去,习惯就会松动。平台战争里,用户迁移很少从核心系统开始,通常从边角料开始。边角料多了,就成了新地盘。

这次真正的分水岭:前沿能力开始被按成本重新估价

DeepSeek V4 没有证明“中国模型全面反超”。这么写太粗,也不负责任。

它证明的是另一件事:前沿附近的能力正在被重新定价。以前客户要么买最强,要么忍受弱很多的便宜模型。现在中间出现了更难处理的选项:能力接近、价格低很多、权重还能拿到。

这会让闭源前沿模型厂商不舒服。它们可以继续强调最强能力,也应该强调。最顶级推理、复杂代理、高可靠企业场景,仍然需要最强模型。但它们必须回答一个更现实的问题:客户为什么要把所有任务都交给高价模型?

答案不会再那么轻松。

AI 模型竞争正在从“谁更神”转向“谁更划算”。这话听起来不酷,却更接近商业世界的冷硬地面。用户不为参数崇拜付费,企业不为发布会排场付费。到了规模化部署阶段,账单就是裁判之一。

DeepSeek V4 的百万上下文是门面,效率是骨架,价格是刀口。它未必已经赢下前沿模型战争,但它把战场往自己擅长的地方拖了一步。

这一步很要命。