AI竞争的暗线：模型发布会之外，谁在控制实验和训练

核心摘要 Summary

Import AI 457串起四个信号：Fast16污染高精度计算，Muon暴露优化器风险，positive alignment把安全问题推向价值治理，LLM开始自动优化训练流程。
我的判断是，AI竞争的分水岭正在从单点模型能力，下沉到算力、优化器、安全审计和科研自动化这些底层控制权。

一个20多年前的病毒，可能比Stuxnet更早展示了软件时代的狠招：不炸机器，不删文件，只悄悄改高精度计算结果。

这比“黑掉系统”更难处理。科学和工程最怕的不是失败，而是看起来正常的错误。软件照跑，日志照记，结论却慢慢偏掉。

Import AI 457这期把四件事放到一起看：Fast16、Muon、positive alignment、LLM自动调训练。它们表面分散，实际都指向同一条线：AI时代的权力，不只在模型接口，也在实验、训练、价值定义和算力试错能力里。

四个信号：发生了什么，为什么重要

信号	发生了什么	受影响对象	关键限制
Fast16	SentinelOne拆解约20多年历史的fast16.sys，发现它会选择性篡改高精度计算软件的内存代码	做工程仿真、物理建模、科研计算的团队	不能直接断言为国家行为，也不能确认攻击核项目
Muon	Tilde Research称Muon在高矩阵上可能导致MLP神经元永久死亡，约500步时超过四分之一神经元近乎失活	训练大模型、调优化器的研究团队	目前是特定机制和测试条件下的风险信号
Aurora	Tilde提出Aurora，小规模测试中优于Muon/NorMuon，并有独立验证	想降低训练损耗、尝试新优化器的团队	不能说已击败AdamW，缺跨规模验证
Positive alignment	研究者提出AI既要安全合作，也要主动支持人类与生态繁荣	AI安全、产品治理、模型默认行为设计者	争议在于价值多元不能由少数实验室自上而下垄断
LLM优化LLM	Prime Intellect让Codex与Claude Code做约1万次运行，消耗约1.4万H200小时，在nanoGPT speedrun上超过人类基线	有算力、有自动化研发流程的团队	更像工程爬坡，不是原创研究突破

Fast16最有刺。

它的匹配目标涉及LS-DYNA、PKPM、MOHID等工程、物理和仿真工具。LS-DYNA也曾出现在与伊朗疑似核武相关建模的公开报道里。

这里必须收住。现有材料不能证明Fast16就是国家行动，也不能证明它确认攻击了某个核武项目。更稳妥的判断是：它可能被用于削弱特定科研或工程能力。

但方向已经够清楚。

Stuxnet式破坏告诉我们，“兵不血刃”在软件时代不是一句古话，而是污染对方的仪器、流程和信任链。计算结果一旦被悄悄改写，受害者连自己什么时候开始错都不一定知道。

底层工具出问题，训练会安静地跑偏

Muon这件事，看起来是优化器争论，实际是训练基础设施风险。

模型训练不是干净的数学题。优化器、初始化、学习率、矩阵形状、硬件精度，都会改变最后的模型。Tilde的说法是，Muon的更新会继承高矩阵上的row-norm anisotropy，导致一部分MLP神经元早早拿不到有效更新，之后很难恢复。

一句话：训练还在继续，里面一部分神经元已经接近“死亡”。

Aurora的价值在这里。它试图更好处理矩形矩阵里的leverage问题。在1.1B参数、约100B tokens的小规模测试里，Aurora最终loss低于Muon和NorMuon，MMLU也有提升。Alexander Doria也在600M模型上做了独立验证。

但别急着封神。

优化器领域最不缺短期漂亮曲线。真正难的是跨规模、跨架构、跨训练配方还能稳。Aurora现在更像一个值得认真跟进的候选方案，不是AdamW的判决书。

这对技术团队有很现实的影响。

如果你在做大规模训练，不该因为一张benchmark就迁移优化器。更合理的动作是：先在小模型和中等规模上复现实验，监控神经元激活、梯度分布、loss曲线和下游任务；再决定是否进入主训练配方。

如果你在采购算力或排训练计划，也要把优化器风险算进预算。一次错误的底层选择，可能不是浪费几天，而是浪费几万卡小时。

受影响最大的，不是看发布会的人

我更在意的是，这四个信号把AI竞争拆成了三类人。

人群	现在该关注什么	更现实的动作
AI研究团队	优化器、训练自动化、复现实验成本	不轻易换主配方；建立小规模验证和失活监控
企业AI基础设施团队	供应链、仿真软件、训练工具链可信度	对关键科研/工程软件做完整性校验和版本审计
AI安全与产品治理团队	positive alignment如何落进默认行为	把价值选择做成可解释、可调整，而不是写死成平台偏好

Fast16提醒的是科研计算安全。不是所有安全问题都在登录口、权限表和数据泄露里。对工程仿真、药物模拟、材料计算、流体建模这类场景，软件完整性就是实验完整性。

Muon和Aurora提醒的是训练质量。模型训练不是只看GPU数量。底层算法如果带偏，算力越多，错得越贵。

Prime Intellect的实验提醒的是自动化研发。Codex和Claude Code在nanoGPT speedrun任务里做了约1万次运行，消耗约1.4万H200小时，超过人类基线。

这很强。但它强在搜索、堆叠、调参、跑实验。它不像突然出现的牛顿，更像一支不知疲倦的工程队。

这已经足够改变竞争结构。

大量AI研究本来就不是灵光一现，而是昂贵、密集、重复的工程爬坡。谁有算力，谁有自动化代理，谁有更稳的训练工具，谁就能把试错变成规模优势。

positive alignment看似离训练更远，其实也在同一条线上。

过去AI安全常讲“别做坏事”：别越狱，别欺骗，别失控，别制造灾难。positive alignment往前迈了一步：AI还应主动支持人类与生态繁荣，并承认价值多元、地方差异和用户自我定义。

我赞成这个方向。

但我不太买账的是把“繁荣”直接写成少数实验室的默认答案。安全可以有底线，繁荣不能只有一个模板。天下熙熙，皆为利来；一旦价值定义进入产品默认项，商业激励和平台控制就会跟着进来。

接下来最该看的不是哪家模型口号更漂亮，而是四个硬指标：Fast16这类计算污染能否被审计出来；Aurora能否跨规模站住；LLM自动优化能否从调参走向真正提出新方法；positive alignment能否让用户和社区参与定义，而不是只接受平台预设。

AI竞争正在从台前转到台下。发布会讲能力，基础设施结算胜负。能改写实验、训练和价值刻度的人，才握着更深的控制权。

AI竞争的暗线：模型发布会之外，谁在控制实验和训练

暗线竞争

实验可信

Fast16

训练配方

Muon风险

试错速度

LLM调训

价值默认

积极对齐

四个信号：发生了什么，为什么重要

底层工具出问题，训练会安静地跑偏

受影响最大的，不是看发布会的人