一篇 2026 年 4 月提交到 arXiv 的论文《Convergent Evolution: How Different Language Models Learn Similar Number Representations》把语言模型的“数感”拆开看了。作者研究的对象不只是一类大模型,而是覆盖 Transformers、Linear RNNs、LSTMs 和经典词嵌入。
论文最值得注意的发现是:不同模型从自然文本中训练后,数字表示会出现相似周期特征。主导周期集中在 T=2、5、10。但这不是“模型顿悟数学”。更像是自然文本、十进制写法、分词方式、架构和优化路径一起,把表示挤到了相似形状。
多类模型都学出相似数字周期
论文的事实锚点很明确:数字表示不是随机散点。放到傅里叶域看,它们呈现周期稀疏性,尤其是 2、5、10 这些周期更突出。
这很重要。因为它说明“数字表征收敛”不是某个 Transformer 的孤例。不同模型路径不同,结果却有相似结构。
| 观察点 | 论文信息 | 该怎么读 |
|---|---|---|
| 覆盖对象 | Transformers、Linear RNNs、LSTMs、经典词嵌入 | 不是单一架构的偶然现象 |
| 核心发现 | 数字表示存在周期特征 | 模型从文本中抓到了数字相关统计信号 |
| 主导周期 | T=2、5、10 | 与十进制书写和自然语言使用习惯贴近 |
| 能力分层 | 傅里叶周期稀疏性 vs mod-T 几何可分性 | 有周期,不等于能线性分出余数类 |
| 影响变量 | 训练数据、架构、优化器、tokenizer | 不能只归因于模型规模 |
最容易误读的地方,也在这里。
傅里叶域里有周期尖峰,只说明表示里有周期信号。要让一个线性分类器按 mod-T 分出余数类,还需要几何可分。论文把这两层分开,并指出前者是必要条件,不是充分条件。
一句话:频谱图亮了,不代表模型会算。
对做可解释性的研究者,这个区分很要命。看见周期特征,只能说模型编码了某些数字规律。不能直接写成“模型掌握了模运算”,更不能顺手上升到“模型理解了数学”。
关键差别:周期特征不等于算术能力
论文还给出两条可能路径。模型可能从自然语言中的共现信号学到几何可分特征,也可能从多 token 加法问题中学到。单 token 加法不足以概括这件事。
这把行业里一个常见偷懒说法堵住了:模型数学变好,不只是因为“更大”。规模当然重要,但不是唯一变量。
真正要查的是这些问题:
- 数字在训练语料里怎么出现?
- tokenizer 怎么切数字?
- 架构是否更容易保留周期信号?
- 优化器是否把表示推向更可分的几何结构?
- 多 token 加法训练带来的特征,能不能迁移到别的任务?
这比喊“智能涌现”难听,也更接近工程事实。
历史上技术扩张常这样。铁路、电报、报业看起来是新技术胜利,背后却是标准化、计费、调度和组织流程共同定型。不完全一样,但逻辑相近:技术表现不是凭空长出来的,它被制度和路径塑形。
“天下熙熙,皆为利来。”放到训练系统里,就是 loss 要降、成本要压、数据要吃干净。模型会优先利用最便宜、最稳定的统计线索。它不是在课堂里理解数字,它是在训练分布里找捷径。
对产品评测团队,动作要更具体。别只拿几道算术题打分。要拆开测:短数字、长数字、多 token 数字、跨进位、多步计算、单位换算、表格异常值、代码索引边界。每一类都可能暴露不同脆弱点。
对企业采购团队,结论也很直接:如果业务依赖精确计算,不要把语言模型单独当计算后端。会计、风控、工程计算、定价系统,该接计算器、代码执行器或符号系统就接。省掉工具链,最后可能把错误写进账本。
该观察什么:换数据、换分词、换任务后还稳不稳
这篇论文是 arXiv 预印本,不是同行评审后的定论。它也没有授权我们把所有语言模型一概而论。论文说的是:部分模型能学到几何可分特征;不同因素会影响结果。
接下来最该盯三件事。
| 观察变量 | 要问的问题 | 现实影响 |
|---|---|---|
| 换训练语料 | 2、5、10 周期是否还稳定 | 判断这是普遍规律,还是语料偏置 |
| 换 tokenizer | mod-T 几何可分性是否下降 | 判断数字切分是否决定底层数感 |
| 换任务 | 多 token 加法特征能否迁移 | 判断它是表征能力,还是训练题型记忆 |
如果换 tokenizer 后能力塌了,那就说明所谓数感很脆。它依赖工程细节,不是稳固推理。
如果多 token 加法训练只能提升同类题,不能迁移到金融表格、代码索引或单位换算,那也别急着庆祝。那只是训练分布里的好学生,换张卷子就露怯。
我更在意的不是模型有没有“数字的影子”,而是影子能不能经得住换光源。数据一换、分词一换、任务一换,还能站住,才值得谈能力。
所以研究团队接下来要做的,不是把周期图画得更漂亮,而是做反事实实验。换语料,换 tokenizer,换优化设置,换任务外推。能掉多少,才是真信息。
产品团队也该把采购节奏放慢一点。不是不买,而是别把“数学能力”写进核心承诺。先让模型做解释、检索、草稿和辅助分析;精确计算交给可验证工具。人负责验收,系统负责留痕。
这次论文的价值,不在于给“模型会数学”添柴。恰恰相反,它把火压低了。它提醒我们:很多看似聪明的能力,背后是训练信号和工程路径的合谋。
