一个20多年前的病毒,可能比Stuxnet更早展示了软件时代的狠招:不炸机器,不删文件,只悄悄改高精度计算结果。

这比“黑掉系统”更难处理。科学和工程最怕的不是失败,而是看起来正常的错误。软件照跑,日志照记,结论却慢慢偏掉。

Import AI 457这期把四件事放到一起看:Fast16、Muon、positive alignment、LLM自动调训练。它们表面分散,实际都指向同一条线:AI时代的权力,不只在模型接口,也在实验、训练、价值定义和算力试错能力里。

四个信号:发生了什么,为什么重要

信号发生了什么受影响对象关键限制
Fast16SentinelOne拆解约20多年历史的fast16.sys,发现它会选择性篡改高精度计算软件的内存代码做工程仿真、物理建模、科研计算的团队不能直接断言为国家行为,也不能确认攻击核项目
MuonTilde Research称Muon在高矩阵上可能导致MLP神经元永久死亡,约500步时超过四分之一神经元近乎失活训练大模型、调优化器的研究团队目前是特定机制和测试条件下的风险信号
AuroraTilde提出Aurora,小规模测试中优于Muon/NorMuon,并有独立验证想降低训练损耗、尝试新优化器的团队不能说已击败AdamW,缺跨规模验证
Positive alignment研究者提出AI既要安全合作,也要主动支持人类与生态繁荣AI安全、产品治理、模型默认行为设计者争议在于价值多元不能由少数实验室自上而下垄断
LLM优化LLMPrime Intellect让Codex与Claude Code做约1万次运行,消耗约1.4万H200小时,在nanoGPT speedrun上超过人类基线有算力、有自动化研发流程的团队更像工程爬坡,不是原创研究突破

Fast16最有刺。

它的匹配目标涉及LS-DYNA、PKPM、MOHID等工程、物理和仿真工具。LS-DYNA也曾出现在与伊朗疑似核武相关建模的公开报道里。

这里必须收住。现有材料不能证明Fast16就是国家行动,也不能证明它确认攻击了某个核武项目。更稳妥的判断是:它可能被用于削弱特定科研或工程能力。

但方向已经够清楚。

Stuxnet式破坏告诉我们,“兵不血刃”在软件时代不是一句古话,而是污染对方的仪器、流程和信任链。计算结果一旦被悄悄改写,受害者连自己什么时候开始错都不一定知道。

底层工具出问题,训练会安静地跑偏

Muon这件事,看起来是优化器争论,实际是训练基础设施风险。

模型训练不是干净的数学题。优化器、初始化、学习率、矩阵形状、硬件精度,都会改变最后的模型。Tilde的说法是,Muon的更新会继承高矩阵上的row-norm anisotropy,导致一部分MLP神经元早早拿不到有效更新,之后很难恢复。

一句话:训练还在继续,里面一部分神经元已经接近“死亡”。

Aurora的价值在这里。它试图更好处理矩形矩阵里的leverage问题。在1.1B参数、约100B tokens的小规模测试里,Aurora最终loss低于Muon和NorMuon,MMLU也有提升。Alexander Doria也在600M模型上做了独立验证。

但别急着封神。

优化器领域最不缺短期漂亮曲线。真正难的是跨规模、跨架构、跨训练配方还能稳。Aurora现在更像一个值得认真跟进的候选方案,不是AdamW的判决书。

这对技术团队有很现实的影响。

如果你在做大规模训练,不该因为一张benchmark就迁移优化器。更合理的动作是:先在小模型和中等规模上复现实验,监控神经元激活、梯度分布、loss曲线和下游任务;再决定是否进入主训练配方。

如果你在采购算力或排训练计划,也要把优化器风险算进预算。一次错误的底层选择,可能不是浪费几天,而是浪费几万卡小时。

受影响最大的,不是看发布会的人

我更在意的是,这四个信号把AI竞争拆成了三类人。

人群现在该关注什么更现实的动作
AI研究团队优化器、训练自动化、复现实验成本不轻易换主配方;建立小规模验证和失活监控
企业AI基础设施团队供应链、仿真软件、训练工具链可信度对关键科研/工程软件做完整性校验和版本审计
AI安全与产品治理团队positive alignment如何落进默认行为把价值选择做成可解释、可调整,而不是写死成平台偏好

Fast16提醒的是科研计算安全。不是所有安全问题都在登录口、权限表和数据泄露里。对工程仿真、药物模拟、材料计算、流体建模这类场景,软件完整性就是实验完整性。

Muon和Aurora提醒的是训练质量。模型训练不是只看GPU数量。底层算法如果带偏,算力越多,错得越贵。

Prime Intellect的实验提醒的是自动化研发。Codex和Claude Code在nanoGPT speedrun任务里做了约1万次运行,消耗约1.4万H200小时,超过人类基线。

这很强。但它强在搜索、堆叠、调参、跑实验。它不像突然出现的牛顿,更像一支不知疲倦的工程队。

这已经足够改变竞争结构。

大量AI研究本来就不是灵光一现,而是昂贵、密集、重复的工程爬坡。谁有算力,谁有自动化代理,谁有更稳的训练工具,谁就能把试错变成规模优势。

positive alignment看似离训练更远,其实也在同一条线上。

过去AI安全常讲“别做坏事”:别越狱,别欺骗,别失控,别制造灾难。positive alignment往前迈了一步:AI还应主动支持人类与生态繁荣,并承认价值多元、地方差异和用户自我定义。

我赞成这个方向。

但我不太买账的是把“繁荣”直接写成少数实验室的默认答案。安全可以有底线,繁荣不能只有一个模板。天下熙熙,皆为利来;一旦价值定义进入产品默认项,商业激励和平台控制就会跟着进来。

接下来最该看的不是哪家模型口号更漂亮,而是四个硬指标:Fast16这类计算污染能否被审计出来;Aurora能否跨规模站住;LLM自动优化能否从调参走向真正提出新方法;positive alignment能否让用户和社区参与定义,而不是只接受平台预设。

AI竞争正在从台前转到台下。发布会讲能力,基础设施结算胜负。能改写实验、训练和价值刻度的人,才握着更深的控制权。