一篇 2026 年 4 月提交到 arXiv 的论文《Convergent Evolution: How Different Language Models Learn Similar Number Representations》把语言模型的“数感”拆开看了。作者研究的对象不只是一类大模型,而是覆盖 Transformers、Linear RNNs、LSTMs 和经典词嵌入。

论文最值得注意的发现是:不同模型从自然文本中训练后,数字表示会出现相似周期特征。主导周期集中在 T=2、5、10。但这不是“模型顿悟数学”。更像是自然文本、十进制写法、分词方式、架构和优化路径一起,把表示挤到了相似形状。

多类模型都学出相似数字周期

论文的事实锚点很明确:数字表示不是随机散点。放到傅里叶域看,它们呈现周期稀疏性,尤其是 2、5、10 这些周期更突出。

这很重要。因为它说明“数字表征收敛”不是某个 Transformer 的孤例。不同模型路径不同,结果却有相似结构。

观察点论文信息该怎么读
覆盖对象Transformers、Linear RNNs、LSTMs、经典词嵌入不是单一架构的偶然现象
核心发现数字表示存在周期特征模型从文本中抓到了数字相关统计信号
主导周期T=2、5、10与十进制书写和自然语言使用习惯贴近
能力分层傅里叶周期稀疏性 vs mod-T 几何可分性有周期,不等于能线性分出余数类
影响变量训练数据、架构、优化器、tokenizer不能只归因于模型规模

最容易误读的地方,也在这里。

傅里叶域里有周期尖峰,只说明表示里有周期信号。要让一个线性分类器按 mod-T 分出余数类,还需要几何可分。论文把这两层分开,并指出前者是必要条件,不是充分条件。

一句话:频谱图亮了,不代表模型会算。

对做可解释性的研究者,这个区分很要命。看见周期特征,只能说模型编码了某些数字规律。不能直接写成“模型掌握了模运算”,更不能顺手上升到“模型理解了数学”。

关键差别:周期特征不等于算术能力

论文还给出两条可能路径。模型可能从自然语言中的共现信号学到几何可分特征,也可能从多 token 加法问题中学到。单 token 加法不足以概括这件事。

这把行业里一个常见偷懒说法堵住了:模型数学变好,不只是因为“更大”。规模当然重要,但不是唯一变量。

真正要查的是这些问题:

  • 数字在训练语料里怎么出现?
  • tokenizer 怎么切数字?
  • 架构是否更容易保留周期信号?
  • 优化器是否把表示推向更可分的几何结构?
  • 多 token 加法训练带来的特征,能不能迁移到别的任务?

这比喊“智能涌现”难听,也更接近工程事实。

历史上技术扩张常这样。铁路、电报、报业看起来是新技术胜利,背后却是标准化、计费、调度和组织流程共同定型。不完全一样,但逻辑相近:技术表现不是凭空长出来的,它被制度和路径塑形。

“天下熙熙,皆为利来。”放到训练系统里,就是 loss 要降、成本要压、数据要吃干净。模型会优先利用最便宜、最稳定的统计线索。它不是在课堂里理解数字,它是在训练分布里找捷径。

对产品评测团队,动作要更具体。别只拿几道算术题打分。要拆开测:短数字、长数字、多 token 数字、跨进位、多步计算、单位换算、表格异常值、代码索引边界。每一类都可能暴露不同脆弱点。

对企业采购团队,结论也很直接:如果业务依赖精确计算,不要把语言模型单独当计算后端。会计、风控、工程计算、定价系统,该接计算器、代码执行器或符号系统就接。省掉工具链,最后可能把错误写进账本。

该观察什么:换数据、换分词、换任务后还稳不稳

这篇论文是 arXiv 预印本,不是同行评审后的定论。它也没有授权我们把所有语言模型一概而论。论文说的是:部分模型能学到几何可分特征;不同因素会影响结果。

接下来最该盯三件事。

观察变量要问的问题现实影响
换训练语料2、5、10 周期是否还稳定判断这是普遍规律,还是语料偏置
换 tokenizermod-T 几何可分性是否下降判断数字切分是否决定底层数感
换任务多 token 加法特征能否迁移判断它是表征能力,还是训练题型记忆

如果换 tokenizer 后能力塌了,那就说明所谓数感很脆。它依赖工程细节,不是稳固推理。

如果多 token 加法训练只能提升同类题,不能迁移到金融表格、代码索引或单位换算,那也别急着庆祝。那只是训练分布里的好学生,换张卷子就露怯。

我更在意的不是模型有没有“数字的影子”,而是影子能不能经得住换光源。数据一换、分词一换、任务一换,还能站住,才值得谈能力。

所以研究团队接下来要做的,不是把周期图画得更漂亮,而是做反事实实验。换语料,换 tokenizer,换优化设置,换任务外推。能掉多少,才是真信息。

产品团队也该把采购节奏放慢一点。不是不买,而是别把“数学能力”写进核心承诺。先让模型做解释、检索、草稿和辅助分析;精确计算交给可验证工具。人负责验收,系统负责留痕。

这次论文的价值,不在于给“模型会数学”添柴。恰恰相反,它把火压低了。它提醒我们:很多看似聪明的能力,背后是训练信号和工程路径的合谋。