DeepSeek V4 真正刺痛前沿模型的，还是那张账单

核心摘要 Summary

DeepSeek 发布 V4-Pro 和 V4-Flash 两个预览模型：百万 token 上下文、MoE 架构、MIT license、open weights。
新信息把判断补完整了：V4-Pro 可能是当前最大 open weights 模型之一，但它最狠的地方不是参数，而是把接近前沿的能力压到极低 API 价格。

DeepSeek V4 第一批预览模型来了：V4-Pro 和 V4-Flash。两者都是 1M token 上下文的 MoE 模型，采用 MIT license，以 open weights 形式发布。

更完整的信息补上了三块关键拼图：模型到底有多大、价格到底低到什么程度、DeepSeek 为什么敢把长上下文推理成本压下去。

一句话看新闻：V4-Pro 接近前沿，但按 DeepSeek 自己的说法，仍落后 GPT-5.4、Gemini 3.1 Pro 约 3 到 6 个月；V4-Flash 更像成本杀手，输入 $0.14/M token，输出 $0.28/M token。榜单还没赢完，账单已经先砍了一刀。

发生了什么：两个模型，一个冲规模，一个冲成本

DeepSeek V4-Pro：

1.6T 总参数，49B 激活参数
1M token 上下文
Hugging Face 权重体积约 865GB
可能是当前最大的 open weights 模型之一
API 价格.输入 $1.74/M token，输出 $3.48/M token

DeepSeek V4-Flash：

284B 总参数，13B 激活参数
1M token 上下文
Hugging Face 权重体积约 160GB
API 价格.输入 $0.14/M token，输出 $0.28/M token

这里要把概念放准：open weights 不等于完整开源。权重开放很重要，但训练数据、训练代码、完整训练流程没有自动随之开放。把 open weights 直接喊成“全开源”，是偷懒，也容易误导。

第三方试用也给了一个小观察：有人通过 OpenRouter 调用 V4-Pro 和 V4-Flash，让模型生成“骑自行车的鹈鹕”SVG。结果还不错，但这种测试只能看出模型具备一定图形代码生成能力，不能替代严肃 benchmark。

严肃部分还是价格、效率和可部署性。

为什么重要：DeepSeek 没有赢下所有榜单，但赢到了预算表旁边

价格对照很刺眼。

模型	输入价格	输出价格	位置
DeepSeek V4-Flash	$0.14/M	$0.28/M	小模型价格低位
GPT-5.4 Nano	$0.20/M	$1.25/M	比 Flash 贵，尤其输出
Gemini 3.1 Flash-Lite	$0.25/M	$1.50/M	轻量档更贵
DeepSeek V4-Pro	$1.74/M	$3.48/M	大型前沿档低价
Gemini 3.1 Pro	$2/M	$12/M	输出贵很多
GPT-5.4	$2.50/M	$15/M	输出贵很多
Claude Sonnet 4.6	$3/M	$15/M	输出贵很多
GPT-5.5	$5/M	$30/M	高价前沿档

DeepSeek-V4-Flash 比 GPT-5.4 Nano 还便宜。V4-Pro 在大型前沿模型里也打到了低价区。

这不是“免费午餐”。DeepSeek 论文给出的解释是效率路线：在 1M token 长上下文场景下，V4-Pro 的单 token FLOPs 只有 V3.2 的 27%，KV cache 只有 10%；V4-Flash 更激进，分别降到 10% 和 7%。

这组数字比“百万上下文”四个字更要紧。

百万上下文本身已经不稀奇。真正稀缺的是：塞进去之后，算得起、跑得稳、延迟别炸、账单别吓人。长上下文如果只存在于演示里，那是发布会资产；如果成本压下来，才会变成生产系统里的工具。

DeepSeek 这次刺痛 OpenAI、Google、Anthropic 的位置，不是“我比你更聪明”，而是“我可能够聪明，而且便宜很多”。企业采购听到后一半会皱眉，一半会掏计算器。

谁受影响：开发者和企业客户先动，普通用户感知没那么快

最先受影响的是两类人。

一类是开发者。尤其是做长文档分析、代码库问答、Agent 工作流、日志审计、知识库检索的人。这些场景消耗 token 凶，输出也不小。模型单次调用贵一点，月账单就能滚成财务问题。

V4-Flash 的意义在这里：它可能让一批原本不敢大规模跑的任务重新进入预算。不是所有任务都要 Claude Sonnet 或 GPT-5.4。很多企业内部工具只需要“够强、够稳、便宜到能常开”。

另一类是 AI 产品团队。过去产品经理经常被一个问题卡住：演示很漂亮，真实用户一多，推理成本吃掉毛利。DeepSeek 如果能把低价维持住，很多产品的单位经济账会变。

普通用户暂时不一定直接感知。你在聊天框里用哪个模型，背后成本差异未必立刻变成价格差异。但开发者和产品团队会感知。工具链会先动，用户体验随后才会变。

“天下熙熙，皆为利来。”这句话放在模型 API 市场里一点不俗。企业不靠热血采购模型，靠预算、合规、延迟、稳定性和替换成本。谁能把成本曲线压下去，谁就有资格进下一轮谈判。

我更在意的不是参数，而是 DeepSeek 把竞争拖进了成本泥地

V4-Pro 1.6T 参数当然壮观。比 Kimi K2.6 的 1.1T、GLM-5.1 的 754B、DeepSeek V3.2 的 685B 都更大。可参数规模不是最该兴奋的点。

大模型行业过去太爱参数叙事。像早期铁路竞赛，报纸爱写谁的线路最长、谁的机车最快。但铁路真正改变商业，不是靠某段线路破纪录，而是运费降到商人愿意天天发货。

AI 也在过这道坎。不完全一样，但有一处相同：技术进入日常生产后，成本比口号诚实。

DeepSeek 的锋利处就在这里。它承认自己还不是最前沿。论文里写得很直：V4-Pro-Max 通过扩展 reasoning tokens，在一些标准推理 benchmark 上超过 GPT-5.2 和 Gemini-3.0-Pro，但仍略低于 GPT-5.4 和 Gemini-3.1-Pro，大约落后 3 到 6 个月。

这句话反而增加可信度。它没有把自己包装成“全线碾压”。它更像在说：我不一定站在最高点，但我把通往高点的票价打下来了。

这比单纯吹榜单更危险。

因为前沿模型公司最舒服的商业结构，是用能力领先维持高价。能力差距越大，客户越没有议价空间。DeepSeek 如果持续把差距压到“可接受”，同时把价格压到“很难忽视”，那就会逼整个市场重新定价。

火力不在发布会上，在采购合同里。

还有三道坎：真实评测、本地运行、低价能撑多久

别急着把 V4 写成终局。现在能确认的是压力，不是胜利。

第一，benchmark 还要看第三方。DeepSeek 自报成绩只能算线索。真实长上下文任务更麻烦：前文信息保持、跨段推理、代码一致性、引用准确性、工具调用稳定性，这些都不是一张排行榜能讲完的。

第二，open weights 的价值要看量化和本地部署。V4-Flash 160GB，轻量量化后有机会进入高端本地机器的射程。有人已经盯着 Unsloth 这类团队做量化版本。如果 Flash 能在 128GB 级别设备上跑得体面，它的意义会从“便宜 API”扩展到“可私有部署”。

第三，低价能不能长期维持。低价有两种：一种来自效率，能打持久战；一种来自补贴，热闹一阵就涨价。DeepSeek 论文里的 FLOPs 和 KV cache 数字说明它确实在效率上动了刀，但商业价格还要看供给、并发、芯片成本、海外访问、企业服务和安全合规。

这里不能装傻。OpenAI、Google、Anthropic 仍有强优势：模型能力、产品生态、企业信任、云分发、安全治理、全球客户关系。这些不是一张低价表就能抹掉。

但模型市场最怕的不是对手全面领先，而是对手在某个高频场景里“够用又便宜”。一旦开发者开始把边缘任务、新项目、内部工具迁过去，习惯就会松动。平台战争里，用户迁移很少从核心系统开始，通常从边角料开始。边角料多了，就成了新地盘。

这次真正的分水岭：前沿能力开始被按成本重新估价

DeepSeek V4 没有证明“中国模型全面反超”。这么写太粗，也不负责任。

它证明的是另一件事：前沿附近的能力正在被重新定价。以前客户要么买最强，要么忍受弱很多的便宜模型。现在中间出现了更难处理的选项：能力接近、价格低很多、权重还能拿到。

这会让闭源前沿模型厂商不舒服。它们可以继续强调最强能力，也应该强调。最顶级推理、复杂代理、高可靠企业场景，仍然需要最强模型。但它们必须回答一个更现实的问题：客户为什么要把所有任务都交给高价模型？

答案不会再那么轻松。

AI 模型竞争正在从“谁更神”转向“谁更划算”。这话听起来不酷，却更接近商业世界的冷硬地面。用户不为参数崇拜付费，企业不为发布会排场付费。到了规模化部署阶段，账单就是裁判之一。

DeepSeek V4 的百万上下文是门面，效率是骨架，价格是刀口。它未必已经赢下前沿模型战争，但它把战场往自己擅长的地方拖了一步。

这一步很要命。

DeepSeek V4 真正刺痛前沿模型的，还是那张账单

V4 变局

双模型

V4 Pro

V4 Flash

价格刀口

输出便宜

预算松动

效率支撑

算力下降

缓存下降

受益人群

开发者

产品团队

未决风险

评测待证

低价耐力