小模型打不过大模型,可能不只是参数不够

核心摘要 Summary

一篇提交ICML 2026的论文发现,小模型的token表征在深层会被挤进狭窄锥形空间,规模越小挤得越紧,而且从初始化那一刻就存在;蒸馏治不好这个毛病,作者提出的dispersion loss能缓解,但效果温和、证据尚薄;这提醒小模型训练该补的不只是参数和数据,还有表征空间的几何治理。

内容导图 Mind Map

小模型病根

差距藏在表征几何

先天凝聚

初始化即挤成锥形

规模效应

模型越小凝聚越重

蒸馏盲区

大模型表征难传递

正则缓解

dispersion loss温和有效

证据偏薄

大规模因果未坐实

小模型不如大模型,长期以来大家默认是参数和数据不够。一篇提交给ICML 2026的论文给出一个新角度:差距可能也刻在表征的几何形状里。

研究者盯着Transformer每一层输出的token向量。量化办法很直接——算同一输入序列里所有token向量两两之间的cosine相似度。数值越高,说明这些向量挤得越紧、方向越接近同一条线。他们发现,越往深层走,相似度越高,尤其是小模型,几乎所有token最后都挤进一个狭窄的锥形空间,像被拧成一股绳。这个现象被称为embedding condensation。

现象:小模型天生挤,蒸馏也治不好

论文的观测部分做了四组实验。

同一模型家族里,模型越大凝聚越轻.GPT2、GPT2-XL、Qwen3-0.6B、Qwen3-32B在多个输入数据集上都是这个走向。
只改MLP维度、固定其他结构做对照,小模型照样更凝聚——排除了层数、训练量之类的干扰。
凝聚在初始化那一刻就已经存在.预训练是在缓解它,而不是制造它。
用知识蒸馏把大模型的表征"教"给小模型,凝聚程度没有明显改善。

第三条和第四条最反直觉。预训练不是让凝聚变严重的元凶,反而是唯一在起效的补救手段;而蒸馏——这个业内默认能传递大模型"好习惯"的工具——在表征几何这一层,似乎完全够不着。

这说明"教会小模型说话"和"教会小模型把话说到不同方向去",是两件不一样的事。

方法与边界:一剂正则,不是配方

作者设计的dispersion loss思路很直接:训练时加一个正则项,强制embedding往单位超球面上打散,不让它们扎堆。这个思路借鉴了图像生成领域"Diffuse and Disperse"的做法。

放进mid-training和pre-training阶段测试,凝聚程度确实降低了。但作者自己交代得很老实,这张表基本就是目前的全部家底:

项目	已验证	局限/未验证
提升幅度	凝聚度肉眼可见降低	效果温和,统计检验基础,噪声难排除
训练规模	mid-training小规模测试	大规模预训练实验薄,跑不起
训练路线	在wikitext类数据上继续训练	不是业内标准mid-training做法(通常用来强化领域能力)
因果链	凝聚与小模型能力相关	凝聚导致能力差这条因果链还没坐实

一个方向有意思,但还不到能直接下注的地步。

对谁有影响,该做什么

做小模型训练、模型压缩、蒸馏的算法工程师,可以先把这篇论文当成一个新的体检项。下次小模型效果不如预期,除了查数据配比和参数量,顺手算一下深层token的pairwise cosine similarity,看是不是也挤成了一条线。这个诊断成本很低,不需要马上上dispersion loss去赌一次大规模预训练。

跟踪LLM研究趋势的技术读者,接下来最该盯两件事:有没有其他团队在更大规模上复现dispersion loss的收益,以及蒸馏方法会不会针对这个"几何盲区"出新变体。目前这两件事都还没发生,论文本身也没给路线图。

朱熹写过一句诗,"问渠那得清如许,为有源头活水来"。一池方塘要清澈,靠的是持续有活水注入,不是训练完一次性打扫。dispersion loss作为一个训练中持续起作用的正则项,逻辑上和这句诗有点像——但眼下的证据只够支撑"这个方向可能有用",够不上"这就是活水"。

能确定的只有一件事:小模型的表征塌缩不是训练晚期才冒出来的毛病,是从出生那一刻就带着的问题。

表征几何这本账,小模型训练拖了很多年没认真算过。

锐评 Commentary

小模型的病根,或许打娘胎里就带着,参数堆得再多,也只是治标不治本。

小模型大模型embedding condensationTransformertoken表征知识蒸馏dispersion lossICML 2026GPT-2Qwen3