小模型不如大模型,长期以来大家默认是参数和数据不够。一篇提交给ICML 2026的论文给出一个新角度:差距可能也刻在表征的几何形状里。
研究者盯着Transformer每一层输出的token向量。量化办法很直接——算同一输入序列里所有token向量两两之间的cosine相似度。数值越高,说明这些向量挤得越紧、方向越接近同一条线。他们发现,越往深层走,相似度越高,尤其是小模型,几乎所有token最后都挤进一个狭窄的锥形空间,像被拧成一股绳。这个现象被称为embedding condensation。
现象:小模型天生挤,蒸馏也治不好
论文的观测部分做了四组实验。
- 同一模型家族里,模型越大凝聚越轻.GPT2、GPT2-XL、Qwen3-0.6B、Qwen3-32B在多个输入数据集上都是这个走向。
- 只改MLP维度、固定其他结构做对照,小模型照样更凝聚——排除了层数、训练量之类的干扰。
- 凝聚在初始化那一刻就已经存在.预训练是在缓解它,而不是制造它。
- 用知识蒸馏把大模型的表征"教"给小模型,凝聚程度没有明显改善。
第三条和第四条最反直觉。预训练不是让凝聚变严重的元凶,反而是唯一在起效的补救手段;而蒸馏——这个业内默认能传递大模型"好习惯"的工具——在表征几何这一层,似乎完全够不着。
这说明"教会小模型说话"和"教会小模型把话说到不同方向去",是两件不一样的事。
方法与边界:一剂正则,不是配方
作者设计的dispersion loss思路很直接:训练时加一个正则项,强制embedding往单位超球面上打散,不让它们扎堆。这个思路借鉴了图像生成领域"Diffuse and Disperse"的做法。
放进mid-training和pre-training阶段测试,凝聚程度确实降低了。但作者自己交代得很老实,这张表基本就是目前的全部家底:
| 项目 | 已验证 | 局限/未验证 |
|---|---|---|
| 提升幅度 | 凝聚度肉眼可见降低 | 效果温和,统计检验基础,噪声难排除 |
| 训练规模 | mid-training小规模测试 | 大规模预训练实验薄,跑不起 |
| 训练路线 | 在wikitext类数据上继续训练 | 不是业内标准mid-training做法(通常用来强化领域能力) |
| 因果链 | 凝聚与小模型能力相关 | 凝聚导致能力差这条因果链还没坐实 |
一个方向有意思,但还不到能直接下注的地步。
对谁有影响,该做什么
做小模型训练、模型压缩、蒸馏的算法工程师,可以先把这篇论文当成一个新的体检项。下次小模型效果不如预期,除了查数据配比和参数量,顺手算一下深层token的pairwise cosine similarity,看是不是也挤成了一条线。这个诊断成本很低,不需要马上上dispersion loss去赌一次大规模预训练。
跟踪LLM研究趋势的技术读者,接下来最该盯两件事:有没有其他团队在更大规模上复现dispersion loss的收益,以及蒸馏方法会不会针对这个"几何盲区"出新变体。目前这两件事都还没发生,论文本身也没给路线图。
朱熹写过一句诗,"问渠那得清如许,为有源头活水来"。一池方塘要清澈,靠的是持续有活水注入,不是训练完一次性打扫。dispersion loss作为一个训练中持续起作用的正则项,逻辑上和这句诗有点像——但眼下的证据只够支撑"这个方向可能有用",够不上"这就是活水"。
能确定的只有一件事:小模型的表征塌缩不是训练晚期才冒出来的毛病,是从出生那一刻就带着的问题。
表征几何这本账,小模型训练拖了很多年没认真算过。
