一个20多年前的病毒,可能比Stuxnet更早展示了软件时代的狠招:不炸机器,不删文件,只悄悄改高精度计算结果。
这比“黑掉系统”更难处理。科学和工程最怕的不是失败,而是看起来正常的错误。软件照跑,日志照记,结论却慢慢偏掉。
Import AI 457这期把四件事放到一起看:Fast16、Muon、positive alignment、LLM自动调训练。它们表面分散,实际都指向同一条线:AI时代的权力,不只在模型接口,也在实验、训练、价值定义和算力试错能力里。
四个信号:发生了什么,为什么重要
| 信号 | 发生了什么 | 受影响对象 | 关键限制 |
|---|---|---|---|
| Fast16 | SentinelOne拆解约20多年历史的fast16.sys,发现它会选择性篡改高精度计算软件的内存代码 | 做工程仿真、物理建模、科研计算的团队 | 不能直接断言为国家行为,也不能确认攻击核项目 |
| Muon | Tilde Research称Muon在高矩阵上可能导致MLP神经元永久死亡,约500步时超过四分之一神经元近乎失活 | 训练大模型、调优化器的研究团队 | 目前是特定机制和测试条件下的风险信号 |
| Aurora | Tilde提出Aurora,小规模测试中优于Muon/NorMuon,并有独立验证 | 想降低训练损耗、尝试新优化器的团队 | 不能说已击败AdamW,缺跨规模验证 |
| Positive alignment | 研究者提出AI既要安全合作,也要主动支持人类与生态繁荣 | AI安全、产品治理、模型默认行为设计者 | 争议在于价值多元不能由少数实验室自上而下垄断 |
| LLM优化LLM | Prime Intellect让Codex与Claude Code做约1万次运行,消耗约1.4万H200小时,在nanoGPT speedrun上超过人类基线 | 有算力、有自动化研发流程的团队 | 更像工程爬坡,不是原创研究突破 |
Fast16最有刺。
它的匹配目标涉及LS-DYNA、PKPM、MOHID等工程、物理和仿真工具。LS-DYNA也曾出现在与伊朗疑似核武相关建模的公开报道里。
这里必须收住。现有材料不能证明Fast16就是国家行动,也不能证明它确认攻击了某个核武项目。更稳妥的判断是:它可能被用于削弱特定科研或工程能力。
但方向已经够清楚。
Stuxnet式破坏告诉我们,“兵不血刃”在软件时代不是一句古话,而是污染对方的仪器、流程和信任链。计算结果一旦被悄悄改写,受害者连自己什么时候开始错都不一定知道。
底层工具出问题,训练会安静地跑偏
Muon这件事,看起来是优化器争论,实际是训练基础设施风险。
模型训练不是干净的数学题。优化器、初始化、学习率、矩阵形状、硬件精度,都会改变最后的模型。Tilde的说法是,Muon的更新会继承高矩阵上的row-norm anisotropy,导致一部分MLP神经元早早拿不到有效更新,之后很难恢复。
一句话:训练还在继续,里面一部分神经元已经接近“死亡”。
Aurora的价值在这里。它试图更好处理矩形矩阵里的leverage问题。在1.1B参数、约100B tokens的小规模测试里,Aurora最终loss低于Muon和NorMuon,MMLU也有提升。Alexander Doria也在600M模型上做了独立验证。
但别急着封神。
优化器领域最不缺短期漂亮曲线。真正难的是跨规模、跨架构、跨训练配方还能稳。Aurora现在更像一个值得认真跟进的候选方案,不是AdamW的判决书。
这对技术团队有很现实的影响。
如果你在做大规模训练,不该因为一张benchmark就迁移优化器。更合理的动作是:先在小模型和中等规模上复现实验,监控神经元激活、梯度分布、loss曲线和下游任务;再决定是否进入主训练配方。
如果你在采购算力或排训练计划,也要把优化器风险算进预算。一次错误的底层选择,可能不是浪费几天,而是浪费几万卡小时。
受影响最大的,不是看发布会的人
我更在意的是,这四个信号把AI竞争拆成了三类人。
| 人群 | 现在该关注什么 | 更现实的动作 |
|---|---|---|
| AI研究团队 | 优化器、训练自动化、复现实验成本 | 不轻易换主配方;建立小规模验证和失活监控 |
| 企业AI基础设施团队 | 供应链、仿真软件、训练工具链可信度 | 对关键科研/工程软件做完整性校验和版本审计 |
| AI安全与产品治理团队 | positive alignment如何落进默认行为 | 把价值选择做成可解释、可调整,而不是写死成平台偏好 |
Fast16提醒的是科研计算安全。不是所有安全问题都在登录口、权限表和数据泄露里。对工程仿真、药物模拟、材料计算、流体建模这类场景,软件完整性就是实验完整性。
Muon和Aurora提醒的是训练质量。模型训练不是只看GPU数量。底层算法如果带偏,算力越多,错得越贵。
Prime Intellect的实验提醒的是自动化研发。Codex和Claude Code在nanoGPT speedrun任务里做了约1万次运行,消耗约1.4万H200小时,超过人类基线。
这很强。但它强在搜索、堆叠、调参、跑实验。它不像突然出现的牛顿,更像一支不知疲倦的工程队。
这已经足够改变竞争结构。
大量AI研究本来就不是灵光一现,而是昂贵、密集、重复的工程爬坡。谁有算力,谁有自动化代理,谁有更稳的训练工具,谁就能把试错变成规模优势。
positive alignment看似离训练更远,其实也在同一条线上。
过去AI安全常讲“别做坏事”:别越狱,别欺骗,别失控,别制造灾难。positive alignment往前迈了一步:AI还应主动支持人类与生态繁荣,并承认价值多元、地方差异和用户自我定义。
我赞成这个方向。
但我不太买账的是把“繁荣”直接写成少数实验室的默认答案。安全可以有底线,繁荣不能只有一个模板。天下熙熙,皆为利来;一旦价值定义进入产品默认项,商业激励和平台控制就会跟着进来。
接下来最该看的不是哪家模型口号更漂亮,而是四个硬指标:Fast16这类计算污染能否被审计出来;Aurora能否跨规模站住;LLM自动优化能否从调参走向真正提出新方法;positive alignment能否让用户和社区参与定义,而不是只接受平台预设。
AI竞争正在从台前转到台下。发布会讲能力,基础设施结算胜负。能改写实验、训练和价值刻度的人,才握着更深的控制权。
