一篇 ICML 2026 论文问了一个很朴素的问题:Transformer 注意力里,Query、Key、Value 真的都需要各自一套投影吗?

结论没有那么夸张。不是“三投影被推翻”,也不是 QKV 已经过时。更准确地说,是研究者把一个长期被默认接受的冗余,拿出来称了称重量。

在语言模型实验里,最稳的方案是共享 Key 和 Value。代价是困惑度退化 3.1%,收益是 KV cache 直接减半。对训练论文来说,这个数字不算性感;对端侧推理来说,这就是账本上的硬钱。

三种共享,只有一种最像正经生意

论文测试了三类约束,不是随便砍一刀:

方案含义结果倾向
Q-K=VKey 和 Value 共享投影最稳,语言建模里缓存减半
Q=K-VQuery 和 Key 共享投影会破坏注意力方向性
Q=K=V三者共用一个投影压得更狠,但约束更强

实验覆盖合成任务、视觉任务,以及语言建模。语言模型部分用了 300M 和 1.2B 参数模型,在 10B tokens 上训练测试。

最关键的数字只有几个:Q-K=V,也就是 K/V 共享,带来 50% KV cache reduction,perplexity degradation 仅 3.1%。如果再和 GQA-4 结合,缓存减少 87.5%;和 MQA 结合,减少 96.9%。

这里别误读。缓存少 96.9%,不等于整体推理成本少 96.9%。计算、显存带宽、kernel 实现、批量调度,都是另一笔账。但 KV cache 是长上下文和端侧部署里最扎眼的一笔账,能少就是硬收益。

这不是训练技巧,是推理内存账

这篇论文有意思的地方,不在“又发明了一个 Transformer 变体”。

真正的变量是:大模型部署的瓶颈,正在从“模型能不能更聪明”,转到“模型能不能住得下”。尤其是端侧、边缘设备、长上下文、多用户并发,KV cache 会像仓储费一样持续收费。上下文越长,账越难看。

作者给出的解释也比较克制:Key 和 Value 可以处在相近的表征空间里,注意力本身又常处于低秩 regime,所以 K/V 共享没有立刻把模型打崩。反过来,Q=K-V 这类共享更容易出问题,因为 Query 和 Key 的关系决定了“谁看谁”,共享后注意力图趋向对称,会伤到方向性。

这点很关键。注意力不是一坨可以随便压缩的矩阵。Q、K、V 里,有些冗余是成本惯性,有些差异是真功能。省内存要动刀,但不能闭眼砍。

我的判断:默认设计开始被成本重写

Transformer 的三投影结构用了这么多年,很大程度上是因为它好用、稳定、工程上被充分优化。技术史里很多“标准件”都是这样坐稳的:不是理论上不可替代,而是在成本还没逼上门时,没人愿意碰它。

现在账变了。

前沿模型继续堆规模,端侧模型又想塞进手机、PC、车机和各种边缘设备。中间的矛盾很直接:用户要长上下文,硬件不给无限缓存;产品要低延迟,内存带宽不愿陪你浪费。于是架构里的默认冗余,就会被一项项翻出来审计。

“天下熙熙,皆为利来。”放在这里不俗。QKV 共享不是因为研究者突然怀疑经典结构,而是推理经济学开始逼问每一块显存:你到底有没有必要存在?

我不太买账的是,把它包装成通用替代方案。300M、1.2B、10B tokens 的实验足够说明方向有价值,但还不能直接外推到前沿超大模型、复杂指令任务、多模态模型和生产级 serving。3.1% 困惑度退化在某些场景可以接受,在另一些场景可能就是产品体验的毛刺。

但我更愿意肯定这篇论文的意义:它没有喊口号,而是给了推理内存一个可量化的架构选项。GQA、MQA 已经在压 head;K/V 共享是在压 projection。两者能叠加,说明端侧模型未来不会只靠量化和剪枝活着,注意力结构本身也会被重新讨价还价。

模型看着更强,产品反而更缺内存。这个反常点,会继续改写架构设计。