AI算力不够?这家创业公司说,真正浪费的是你没管好的GPU

云计算 2026年3月31日
AI算力不够?这家创业公司说,真正浪费的是你没管好的GPU
在GPU被视为AI时代“硬通货”的当下,ScaleOps却把矛头指向了另一个更少被讨论的问题:企业并非单纯缺算力,而是不会高效使用算力。它拿下1.3亿美元C轮融资,说明资本市场开始押注一个现实判断——未来AI基础设施的竞争,不只比谁买到更多芯片,也比谁能把每一张卡、每一台机器榨出更高效率。

AI热潮背后,最贵的不是GPU,而是“闲着的GPU”

今天的AI产业有一种很微妙的矛盾感:一边是企业抱怨GPU买不到、租不起,另一边却是大量算力在机房里以一种非常昂贵的方式“待机”。这正是纽约初创公司 ScaleOps 想解决的问题。3月30日,这家公司宣布完成1.3亿美元C轮融资,估值达到8亿美元,领投方是 Insight Partners,老股东 Lightspeed、NFX、Glilot Capital Partners 和 Picture Capital 继续跟投。

如果只看融资数字,这当然是一笔不小的交易;但真正有意思的,是它押中的方向。ScaleOps 不造芯片,也不做大模型,它做的是一件听起来不够性感、但非常现实的事:自动管理 Kubernetes 环境中的计算资源,在应用需求变化时,实时重新分配 CPU、内存、存储、网络,以及更关键的 GPU 资源。公司声称,它能将云和 AI 基础设施成本最多降低 80%。

80% 这个数字听上去相当激进,市场最后会不会接受,当然还得看大规模落地后的实际表现。但即便把宣传口径打个折扣,这个方向依然很有价值。因为 AI 产业发展到今天,很多企业已经发现,真正让财务总监睡不着觉的,不只是买卡的预算,而是那种“明明已经花了很多钱,系统还是跑不顺”的无力感。机器有了,集群也搭起来了,结果推理服务峰值一来就抖,低谷一到资源又大片闲置——这才是基础设施管理的难题。

Kubernetes不是不强,而是太强了

ScaleOps 的创始人兼 CEO Yodar Shafrir 之前在 Run:ai 做工程师。Run:ai 这家公司后来被英伟达收购,它做的是 GPU 编排和调度,这个背景很关键,因为它说明 Shafrir 不是站在云计算外面做“纸上谈兵”,而是确实在一线看过企业怎么被复杂的 AI 工作负载折磨。

他给出的判断很直接:问题不只是 GPU,而是整个基础设施资源管理方式出了毛病。很多企业已经采用 Kubernetes 来运行大规模应用,这套系统本来是云原生时代的基础设施核心,灵活、可扩展、生态庞大,几乎已经成为默认选择。但问题也恰恰出在这里——Kubernetes 太灵活了,灵活到最后需要大量人肉配置、反复调优,才能勉强追上业务变化。

在传统互联网时代,应用负载虽然也会波动,但变化节奏还算可预测。到了 AI 时代,情况完全不同。训练任务、微调任务、推理请求、批处理作业、在线服务,它们对资源的需求模式差异极大,而且变化很快。静态配置一旦跟不上现实,结果就很荒诞:有的 GPU 被空置,有的服务却卡在排队;有的团队怕影响性能,索性把资源配得过满,最后账单像失控的出租车计价器一样往上跳。

从这个角度看,ScaleOps 瞄准的是 Kubernetes 时代最典型的痛点之一:系统本身没有错,错的是人类试图用半自动、跨团队、依赖经验的方式去驾驭一个越来越动态的环境。它想卖的不是一个“看板工具”,而是一个“自动驾驶员”。

这不是节流小工具,而是AI时代的新基础设施生意

过去几年,云成本优化一直是个稳定但不算耀眼的赛道。很多公司都做过类似事情,比如 Cast AI、Kubecost、Spot 等,有的从成本可视化切入,有的从竞价实例和自动扩缩容切入,也有的后来被大公司收购,成为巨头云管理版图的一部分。这个赛道以前给人的感觉,常常像“企业IT部门的止痛药”:有用,但不一定决定企业命运。

AI 浪潮改变了这件事的权重。现在,基础设施效率已经不只是“省点云账单”,而是直接影响模型服务能否规模化、产品能否盈利、业务能否稳定。尤其是推理场景爆发之后,问题比训练阶段更棘手。训练虽然贵,但很多时候是项目制的、可规划的;推理却是长期在线、面向真实用户、时时刻刻消耗资源的。一个聊天机器人、一套智能搜索、一个企业级 Copilot,背后其实都是持续燃烧的算力炉子。

Shafrir 提到,许多现有工具只能告诉团队“哪里出了问题”,却不能真正替团队把问题处理掉。这句话很像是在批评过去十年企业软件的一种通病:仪表盘越来越多,告警越来越密,工程师像坐在飞机驾驶舱里盯着一排闪灯,却还是得自己一项项手动修。ScaleOps 想把这件事往前推一步——从 observability(可观测)走向 autonomy(自治)。

这也是资本愿意继续下注的原因。ScaleOps 在 2024 年 11 月刚完成 5800 万美元 B 轮,如今不到一年半又拿到 1.3 亿美元,公司总融资已达到约 2.1 亿美元。它表示过去一年实现了超过 450% 的同比增长,员工规模在 12 个月内扩大了三倍,并计划在年底前再扩张超过三倍。企业客户名单里包括 Adobe、Wiz、DocuSign、Salesforce 和 Coupa,这意味着它已经不只是“技术团队喜欢的小众工具”,而是开始进入大型企业的正式生产环境。

真正的考验:企业敢不敢把“方向盘”交给它

但话说回来,自动化基础设施从来不是一个只靠愿景就能赢的市场。它最大的问题,不是功能做不出来,而是信任建立得太慢。任何一个在生产环境里跑关键业务的团队,听到“全自动”“无需手动配置”这种描述,第一反应通常不会是兴奋,而是紧张。因为一旦自动化系统做出错误决策,后果可能是性能下降、服务中断,甚至事故升级。

这也是为什么同样是做云资源优化,有些公司最后只能停留在建议层、分析层,而很难深入到真正的执行层。你可以告诉客户“这里能省钱”,客户会感谢你;但如果你直接替客户调整资源配置,客户就会追问:出了问题谁负责?这中间隔着的,不只是技术门槛,还有组织上的心理门槛。

ScaleOps 的差异化说法是,它的平台从一开始就是为生产环境设计的,具备“上下文感知”能力,能够理解不同应用在不同时间、不同环境中的真实需求,而不是机械地做成本压缩。这一点很重要,因为企业最怕的不是资源浪费,而是为了节省成本牺牲稳定性。便宜的系统如果不可靠,最后往往更贵。

不过,我也会保留一点谨慎。所谓“上下文感知”“完全自治”,在宣传材料里都很好听,但它究竟有多强,是否真的适用于复杂到跨地域、跨云、多团队协作的大型环境,还需要更长时间验证。特别是在 AI 推理越来越成为核心业务负载后,基础设施调度系统面对的将不是简单的弹性伸缩,而是延迟、吞吐、成本、可用性之间更细腻的平衡。

一场被低估的竞争,正在AI产业深处发生

过去两年,AI 世界最耀眼的主角一直是模型、芯片和云巨头。谁的参数更多,谁的卡更强,谁的数据中心扩得更快,几乎吸走了全部注意力。但在这些聚光灯照不到的地方,另一场竞争其实正在变得同样关键:谁能把基础设施运营得更聪明。

这件事听起来不如大模型发布会热闹,却非常接近商业现实。因为 AI 迟早要从“秀肌肉”走向“算账”。企业不会永远容忍高昂且不可控的推理成本,投资人也不会一直为低效率买单。当每个 SaaS 产品都想加一层 AI,当每家企业都想自建智能能力,算力管理就会从后勤部门的问题,变成产品战略的一部分。

某种意义上,ScaleOps 代表的是 AI 产业的下一阶段:不再迷恋单纯扩张资源,而是开始认真讨论“如何把资源用对”。这让我想到云计算早年的一个老教训——买服务器从来不是最难的,真正难的是让它们在正确的时间、为正确的业务、以正确的成本运行。今天,GPU 也正在重复这个故事,只不过价格更贵,节奏更快,容错率更低。

如果 ScaleOps 真能把“自治基础设施”做成,它的价值不会只体现在帮客户省钱,还会体现在帮助企业减少组织摩擦。以前,DevOps、平台团队、应用团队和财务团队经常围着同一个问题互相拉扯:到底是谁把资源配多了,谁又把系统调慢了。未来如果这些决策更多由系统实时完成,企业内部那种“边救火边甩锅”的戏码,或许真能少一点。

但更大的问题也随之出现:当越来越多关键基础设施由自动系统接管,企业是否会失去对底层运行逻辑的直觉?换句话说,我们是把复杂性消灭了,还是只是把复杂性藏进了另一层软件里?这会是所有“自治运维”公司迟早都要面对的追问。

眼下来看,ScaleOps 至少抓住了一个非常正确的时间点。AI 需求在飙升,GPU 仍然昂贵,企业开始追问投入产出比,资本也在寻找“卖铲子之外”的下一批基础设施赢家。比起再造一个模型,它选择去修理模型背后的机器调度系统。这个方向没那么喧闹,却可能比许多更热闹的故事活得更久。

Summary: 我对这笔融资的判断是:它不是一则普通的“企业软件又融钱了”新闻,而是AI产业开始从扩张焦虑转向效率焦虑的信号。未来两三年,基础设施自动化会成为继GPU、云平台之后的关键战场。ScaleOps 有机会成长为这一波红利中的重要玩家,但前提是它必须证明,自动化不仅能省钱,更能在生产环境里长期稳定、可控、可被信任。如果做不到,自治运维就仍然只是一个漂亮口号;如果做到了,它会成为AI时代真正的隐形基础设施。
GPU资源利用率ScaleOpsKubernetesAI基础设施算力优化GPU云成本降低Insight Partners资源调度C轮融资