QKV 不是圣物，KV Cache 才是账本

核心摘要 Summary

ICML 2026 一篇论文系统测试 Transformer 的 Q/K/V 投影共享，发现共享 Key-Value 能把语言模型 KV cache 减半，只带来 3.1% 困惑度退化。
它没有推翻三投影结构，但把注意力里的默认冗余量化了：端侧推理正在逼架构为内存账单让路。

内容导图 Mind Map

端侧推理逼改架构

K/V共享最稳

困惑度退化3.1%

QKV未被推翻

缓存不等于总成本

部署瓶颈转向住得下

长上下文拉高账单

冗余开始被审计

共享不易打崩

一篇 ICML 2026 论文问了一个很朴素的问题：Transformer 注意力里，Query、Key、Value 真的都需要各自一套投影吗？

结论没有那么夸张。不是“三投影被推翻”，也不是 QKV 已经过时。更准确地说，是研究者把一个长期被默认接受的冗余，拿出来称了称重量。

在语言模型实验里，最稳的方案是共享 Key 和 Value。代价是困惑度退化 3.1%，收益是 KV cache 直接减半。对训练论文来说，这个数字不算性感；对端侧推理来说，这就是账本上的硬钱。

三种共享，只有一种最像正经生意

论文测试了三类约束，不是随便砍一刀：

实验覆盖合成任务、视觉任务，以及语言建模。语言模型部分用了 300M 和 1.2B 参数模型，在 10B tokens 上训练测试。

最关键的数字只有几个：Q-K=V，也就是 K/V 共享，带来 50% KV cache reduction，perplexity degradation 仅 3.1%。如果再和 GQA-4 结合，缓存减少 87.5%；和 MQA 结合，减少 96.9%。

这里别误读。缓存少 96.9%，不等于整体推理成本少 96.9%。计算、显存带宽、kernel 实现、批量调度，都是另一笔账。但 KV cache 是长上下文和端侧部署里最扎眼的一笔账，能少就是硬收益。

这篇论文有意思的地方，不在“又发明了一个 Transformer 变体”。

真正的变量是：大模型部署的瓶颈，正在从“模型能不能更聪明”，转到“模型能不能住得下”。尤其是端侧、边缘设备、长上下文、多用户并发，KV cache 会像仓储费一样持续收费。上下文越长，账越难看。

作者给出的解释也比较克制：Key 和 Value 可以处在相近的表征空间里，注意力本身又常处于低秩 regime，所以 K/V 共享没有立刻把模型打崩。反过来，Q=K-V 这类共享更容易出问题，因为 Query 和 Key 的关系决定了“谁看谁”，共享后注意力图趋向对称，会伤到方向性。

这点很关键。注意力不是一坨可以随便压缩的矩阵。Q、K、V 里，有些冗余是成本惯性，有些差异是真功能。省内存要动刀，但不能闭眼砍。

Transformer 的三投影结构用了这么多年，很大程度上是因为它好用、稳定、工程上被充分优化。技术史里很多“标准件”都是这样坐稳的：不是理论上不可替代，而是在成本还没逼上门时，没人愿意碰它。

现在账变了。

前沿模型继续堆规模，端侧模型又想塞进手机、PC、车机和各种边缘设备。中间的矛盾很直接：用户要长上下文，硬件不给无限缓存；产品要低延迟，内存带宽不愿陪你浪费。于是架构里的默认冗余，就会被一项项翻出来审计。

“天下熙熙，皆为利来。”放在这里不俗。QKV 共享不是因为研究者突然怀疑经典结构，而是推理经济学开始逼问每一块显存：你到底有没有必要存在？

我不太买账的是，把它包装成通用替代方案。300M、1.2B、10B tokens 的实验足够说明方向有价值，但还不能直接外推到前沿超大模型、复杂指令任务、多模态模型和生产级 serving。3.1% 困惑度退化在某些场景可以接受，在另一些场景可能就是产品体验的毛刺。

但我更愿意肯定这篇论文的意义：它没有喊口号，而是给了推理内存一个可量化的架构选项。GQA、MQA 已经在压 head；K/V 共享是在压 projection。两者能叠加，说明端侧模型未来不会只靠量化和剪枝活着，注意力结构本身也会被重新讨价还价。

模型看着更强，产品反而更缺内存。这个反常点，会继续改写架构设计。

锐评 Commentary

QKV 还没退场，但神龛已经松动。省下来的不是参数面子，是端侧推理的活路。

TransformerKV CacheQKV 投影共享语言模型端侧推理注意力机制ICML 2026Key-Value 共享困惑度退化内存优化