微软“蒸发一万亿美元”背后:Azure 一场没人敢踩刹车的系统幻觉

一场会议,像科幻小说,但没人觉得好笑
科技圈这些年最不缺的,就是宏大叙事。云、AI、加速计算、主权算力、国家安全,随便拎一个词出来都能撑起一场发布会。但有些故事真正可怕的地方,不在于它听起来多野,而在于它居然真的被写进了执行计划。
这篇题为《How Microsoft Vaporized a Trillion Dollars》的长文,出自一位曾在微软 Windows、Core OS 与 Azure 多个核心部门任职的资深工程师。按他的说法,2023 年他重新加入 Azure Core 团队后,第一天参加规划会就被震住了:团队在认真讨论把一大堆 Windows 用户态和内核相关组件,迁移到 Azure Boost/Overlake 这类加速卡上的 Linux 小型 SoC 里运行。你没看错,不是“重写关键功能”,而是接近“把现有那套管理世界的东西继续搬过去”。
如果你对硬件没概念,可以这么理解:这就像有人看着一辆满载乘客的大巴,认真提议把它改装进一台微波炉里,并且会议室里还真有人开始分配人手。原作者的震惊并不夸张,因为这种加速卡的设计初衷,本来就是低功耗、轻量、专用,把原本占用主机 CPU 的部分基础设施任务卸载出去,好让服务器把算力留给客户虚拟机和 AI 训练推理。结果,卸载的方向却差点变成“把臃肿继续打包带走”。
问题不只是技术错判,而是组织开始脱离现实
原文最刺耳、也最有分量的一点,是这位工程师认为这不是某个小团队一时拍脑袋,而是一个上百人规模组织在相当长时间里,共同陷入了不切实际的路线幻觉。更夸张的是,内部居然整理出多达 173 个“候选 agent”准备往 Overlake 上迁移,而没人能清晰说出:这些 agent 到底分别干什么、为什么存在、彼此如何依赖、哪些是必需、哪些只是历史包袱。
这正是大公司技术债最可怕的模样。技术债从来不只是代码写得丑,更多时候是“没人再能完整解释系统为何如此复杂”,但业务又不允许你停下来整理房间。于是一个 agent 叠一个 agent,一个兼容层叠一个兼容层,直到整套系统像一栋装修了十几轮、墙里电线谁也不敢碰的老楼。平时它还能亮灯,一到扩容、转型、上新架构,就会开始往下掉灰。
从行业经验看,这种事并不只发生在微软。亚马逊、谷歌、Meta 这类超大规模基础设施公司,也都长期与“控制平面膨胀”“运维代理泛滥”“可观测性组件反噬业务性能”作斗争。区别在于,AI 浪潮把所有问题都放大了。过去一台云服务器上跑几十个虚拟机,调度慢一点、管理栈重一点,用户未必立刻感知;到了大模型时代,一点点抖动、一点点资源争抢,都可能直接影响训练效率、推理时延,甚至影响像 OpenAI、Anthropic 这类头部客户的服务稳定性。
换句话说,Azure 这种规模的平台,已经不是“卖几台云主机”那么简单。它是美国政府云、企业 SaaS、OpenAI API、Office 后端、数据库、容器平台和 AI 集群的复合底座。底座上的一粒沙,真的可能卡住整条流水线。
为什么偏偏是现在,这件事尤其危险
这篇文章标题里最抓眼球的,是“一万亿美元”。这当然有夸张成分,或者说它带着很强的作者情绪。但如果把时间线放回 2023 到 2026 年,你会明白这个说法并非全然耸动。
微软近几年市值狂飙,很大程度上押注了两张牌:一张是 Azure,另一张就是与 OpenAI 深度绑定带来的 AI 平台想象力。资本市场愿意给微软高估值,不只是因为它有 Office 和 Windows,而是因为它看起来像那个最有机会把企业软件、云基础设施和生成式 AI 串成闭环的公司。只要 Azure 的基础设施显得足够可靠、足够先进、足够能接住爆炸式增长的 AI 需求,故事就成立。
但一旦底层平台暴露出严重的组织失控迹象,性质就变了。原作者甚至提到“几乎失去 OpenAI”“失去美国政府信任”“国防部长公开表达不满”等后续内容,虽然这些说法仍有待更多独立信息交叉验证,但它点中了一个现实:AI 时代的云厂商竞争,不只是拼模型、拼芯片,也在拼供应链之外的“工程秩序”。模型可以迭代,GPU 可以抢购,唯独一个混乱的基础设施组织,不可能靠一场 keynote 修好。
这也是我觉得这篇文章真正重要的地方。它让外界看到,今天大模型军备竞赛的背后,并不是所有问题都发生在聚光灯下的模型团队。真正决定成败的,往往是那些没人关心的小系统、老代理、驱动栈、遥测链路、宿主机管理逻辑。AI 决战表面上是算力战争,实际上常常输在“谁的基础设施更少内耗”。
微软的问题,也是一整个行业的镜子
如果这份爆料后续被更多信息印证,它会成为近年来云计算行业最值得研究的组织案例之一。它暴露的不只是某个架构方案荒唐,而是一个更普遍的问题:当公司过于成功、层级过于复杂、业务增长压力过大时,内部会不会逐渐失去说“不”的能力?
原作者在文中反复强调,自己试图向更高层示警,甚至写信给 CEO 和董事会,却石沉大海。这里面当然可能有个人叙述视角的偏差,但“坏消息爬不上去”本身就是巨头常见病。英特尔在制程路线上的迟滞、波音在质量管理上的失序、Meta 在元宇宙早期投入上的路径依赖,都有相似气味:不是没人知道问题,而是系统奖励继续前进的人,不奖励猛踩刹车的人。
微软这些年其实并不缺正确的技术方向。Azure Boost 这类基础设施卸载思路,本身就是对的,和 AWS Nitro 的路径很接近。AWS 当年靠 Nitro 把大量网络、存储和虚拟化功能从主机 CPU 中剥离出来,既提升性能,也增强隔离,直接奠定了其云基础设施竞争力。微软想走这条路,没有问题。问题在于,AWS Nitro 的成功建立在极强的“重新定义边界”的能力上——哪些东西必须重写,哪些历史包袱必须砍掉,哪些接口应该被迫标准化。它不是把旧世界原封不动搬上新硬件,而是借硬件切换完成一次系统外科手术。
这也是 Azure 眼下面临的真正挑战:它到底是借 AI 时代完成一次平台瘦身,还是继续让历史包袱寄生在新架构之上?前者痛苦,但能活;后者省事,却可能把每一次扩张都变成更昂贵的灾难。
比技术更难的,是承认“我们可能搞错了”
我读完整篇文章后,最大的感受不是愤怒,而是一种熟悉的担忧。任何在大公司待过的人,大概都见过类似时刻:会议室里挂着看起来很先进的架构图,缩写密密麻麻,箭头飞来飞去,人人都在点头,只有最基本的那个问题没人问出口——这玩意儿真的能跑吗?
技术行业有时太迷信“聪明人总能把事情搞定”。可基础设施不是创业路演,不能靠意志力补齐热设计功耗、内存带宽和系统复杂度。物理规律不会因为你是 Principal Manager 就对你宽容一点,173 个 agent 也不会因为 OKR 压得紧就自动融成 17 个。
当然,作为记者,我也必须保持一份克制。眼下我们看到的主要仍是单一当事人的强烈控诉,很多细节还需要更多证据补完,尤其是涉及 OpenAI、美国政府信任以及微软高层响应的部分。但即便把情绪表达打个折,这个故事仍然足够说明问题:在 AI 抢跑最激烈的几年里,全球最有资源的软件公司之一,可能也一样会被自己的复杂性反噬。
真正值得追问的,不只是“微软有没有犯错”,而是所有云与 AI 巨头都该回答的那个问题:当系统已经复杂到没人能完整解释时,你还敢不敢继续把国家级关键业务、企业核心数据和下一代 AI 平台都压在上面?这不是一个只属于工程师的提问,也是市场、监管者和客户都该盯住的提问。