AI算力不够？这家创业公司说，真正浪费的是你没管好的GPU

云计算 2026年3月31日

在GPU被视为AI时代“硬通货”的当下，ScaleOps却把矛头指向了另一个更少被讨论的问题：企业并非单纯缺算力，而是不会高效使用算力。它拿下1.3亿美元C轮融资，说明资本市场开始押注一个现实判断——未来AI基础设施的竞争，不只比谁买到更多芯片，也比谁能把每一张卡、每一台机器榨出更高效率。

AI热潮背后，最贵的不是GPU，而是“闲着的GPU”

今天的AI产业有一种很微妙的矛盾感：一边是企业抱怨GPU买不到、租不起，另一边却是大量算力在机房里以一种非常昂贵的方式“待机”。这正是纽约初创公司 ScaleOps 想解决的问题。3月30日，这家公司宣布完成1.3亿美元C轮融资，估值达到8亿美元，领投方是 Insight Partners，老股东 Lightspeed、NFX、Glilot Capital Partners 和 Picture Capital 继续跟投。

如果只看融资数字，这当然是一笔不小的交易；但真正有意思的，是它押中的方向。ScaleOps 不造芯片，也不做大模型，它做的是一件听起来不够性感、但非常现实的事：自动管理 Kubernetes 环境中的计算资源，在应用需求变化时，实时重新分配 CPU、内存、存储、网络，以及更关键的 GPU 资源。公司声称，它能将云和 AI 基础设施成本最多降低 80%。

80% 这个数字听上去相当激进，市场最后会不会接受，当然还得看大规模落地后的实际表现。但即便把宣传口径打个折扣，这个方向依然很有价值。因为 AI 产业发展到今天，很多企业已经发现，真正让财务总监睡不着觉的，不只是买卡的预算，而是那种“明明已经花了很多钱，系统还是跑不顺”的无力感。机器有了，集群也搭起来了，结果推理服务峰值一来就抖，低谷一到资源又大片闲置——这才是基础设施管理的难题。

Kubernetes不是不强，而是太强了

ScaleOps 的创始人兼 CEO Yodar Shafrir 之前在 Run:ai 做工程师。Run:ai 这家公司后来被英伟达收购，它做的是 GPU 编排和调度，这个背景很关键，因为它说明 Shafrir 不是站在云计算外面做“纸上谈兵”，而是确实在一线看过企业怎么被复杂的 AI 工作负载折磨。

他给出的判断很直接：问题不只是 GPU，而是整个基础设施资源管理方式出了毛病。很多企业已经采用 Kubernetes 来运行大规模应用，这套系统本来是云原生时代的基础设施核心，灵活、可扩展、生态庞大，几乎已经成为默认选择。但问题也恰恰出在这里——Kubernetes 太灵活了，灵活到最后需要大量人肉配置、反复调优，才能勉强追上业务变化。

在传统互联网时代，应用负载虽然也会波动，但变化节奏还算可预测。到了 AI 时代，情况完全不同。训练任务、微调任务、推理请求、批处理作业、在线服务，它们对资源的需求模式差异极大，而且变化很快。静态配置一旦跟不上现实，结果就很荒诞：有的 GPU 被空置，有的服务却卡在排队；有的团队怕影响性能，索性把资源配得过满，最后账单像失控的出租车计价器一样往上跳。

从这个角度看，ScaleOps 瞄准的是 Kubernetes 时代最典型的痛点之一：系统本身没有错，错的是人类试图用半自动、跨团队、依赖经验的方式去驾驭一个越来越动态的环境。它想卖的不是一个“看板工具”，而是一个“自动驾驶员”。

这不是节流小工具，而是AI时代的新基础设施生意

过去几年，云成本优化一直是个稳定但不算耀眼的赛道。很多公司都做过类似事情，比如 Cast AI、Kubecost、Spot 等，有的从成本可视化切入，有的从竞价实例和自动扩缩容切入，也有的后来被大公司收购，成为巨头云管理版图的一部分。这个赛道以前给人的感觉，常常像“企业IT部门的止痛药”：有用，但不一定决定企业命运。

AI 浪潮改变了这件事的权重。现在，基础设施效率已经不只是“省点云账单”，而是直接影响模型服务能否规模化、产品能否盈利、业务能否稳定。尤其是推理场景爆发之后，问题比训练阶段更棘手。训练虽然贵，但很多时候是项目制的、可规划的；推理却是长期在线、面向真实用户、时时刻刻消耗资源的。一个聊天机器人、一套智能搜索、一个企业级 Copilot，背后其实都是持续燃烧的算力炉子。

Shafrir 提到，许多现有工具只能告诉团队“哪里出了问题”，却不能真正替团队把问题处理掉。这句话很像是在批评过去十年企业软件的一种通病：仪表盘越来越多，告警越来越密，工程师像坐在飞机驾驶舱里盯着一排闪灯，却还是得自己一项项手动修。ScaleOps 想把这件事往前推一步——从 observability（可观测）走向 autonomy（自治）。

这也是资本愿意继续下注的原因。ScaleOps 在 2024 年 11 月刚完成 5800 万美元 B 轮，如今不到一年半又拿到 1.3 亿美元，公司总融资已达到约 2.1 亿美元。它表示过去一年实现了超过 450% 的同比增长，员工规模在 12 个月内扩大了三倍，并计划在年底前再扩张超过三倍。企业客户名单里包括 Adobe、Wiz、DocuSign、Salesforce 和 Coupa，这意味着它已经不只是“技术团队喜欢的小众工具”，而是开始进入大型企业的正式生产环境。

真正的考验：企业敢不敢把“方向盘”交给它

但话说回来，自动化基础设施从来不是一个只靠愿景就能赢的市场。它最大的问题，不是功能做不出来，而是信任建立得太慢。任何一个在生产环境里跑关键业务的团队，听到“全自动”“无需手动配置”这种描述，第一反应通常不会是兴奋，而是紧张。因为一旦自动化系统做出错误决策，后果可能是性能下降、服务中断，甚至事故升级。

这也是为什么同样是做云资源优化，有些公司最后只能停留在建议层、分析层，而很难深入到真正的执行层。你可以告诉客户“这里能省钱”，客户会感谢你；但如果你直接替客户调整资源配置，客户就会追问：出了问题谁负责？这中间隔着的，不只是技术门槛，还有组织上的心理门槛。

ScaleOps 的差异化说法是，它的平台从一开始就是为生产环境设计的，具备“上下文感知”能力，能够理解不同应用在不同时间、不同环境中的真实需求，而不是机械地做成本压缩。这一点很重要，因为企业最怕的不是资源浪费，而是为了节省成本牺牲稳定性。便宜的系统如果不可靠，最后往往更贵。

不过，我也会保留一点谨慎。所谓“上下文感知”“完全自治”，在宣传材料里都很好听，但它究竟有多强，是否真的适用于复杂到跨地域、跨云、多团队协作的大型环境，还需要更长时间验证。特别是在 AI 推理越来越成为核心业务负载后，基础设施调度系统面对的将不是简单的弹性伸缩，而是延迟、吞吐、成本、可用性之间更细腻的平衡。

一场被低估的竞争，正在AI产业深处发生

过去两年，AI 世界最耀眼的主角一直是模型、芯片和云巨头。谁的参数更多，谁的卡更强，谁的数据中心扩得更快，几乎吸走了全部注意力。但在这些聚光灯照不到的地方，另一场竞争其实正在变得同样关键：谁能把基础设施运营得更聪明。

这件事听起来不如大模型发布会热闹，却非常接近商业现实。因为 AI 迟早要从“秀肌肉”走向“算账”。企业不会永远容忍高昂且不可控的推理成本，投资人也不会一直为低效率买单。当每个 SaaS 产品都想加一层 AI，当每家企业都想自建智能能力，算力管理就会从后勤部门的问题，变成产品战略的一部分。

某种意义上，ScaleOps 代表的是 AI 产业的下一阶段：不再迷恋单纯扩张资源，而是开始认真讨论“如何把资源用对”。这让我想到云计算早年的一个老教训——买服务器从来不是最难的，真正难的是让它们在正确的时间、为正确的业务、以正确的成本运行。今天，GPU 也正在重复这个故事，只不过价格更贵，节奏更快，容错率更低。

如果 ScaleOps 真能把“自治基础设施”做成，它的价值不会只体现在帮客户省钱，还会体现在帮助企业减少组织摩擦。以前，DevOps、平台团队、应用团队和财务团队经常围着同一个问题互相拉扯：到底是谁把资源配多了，谁又把系统调慢了。未来如果这些决策更多由系统实时完成，企业内部那种“边救火边甩锅”的戏码，或许真能少一点。

但更大的问题也随之出现：当越来越多关键基础设施由自动系统接管，企业是否会失去对底层运行逻辑的直觉？换句话说，我们是把复杂性消灭了，还是只是把复杂性藏进了另一层软件里？这会是所有“自治运维”公司迟早都要面对的追问。

眼下来看，ScaleOps 至少抓住了一个非常正确的时间点。AI 需求在飙升，GPU 仍然昂贵，企业开始追问投入产出比，资本也在寻找“卖铲子之外”的下一批基础设施赢家。比起再造一个模型，它选择去修理模型背后的机器调度系统。这个方向没那么喧闹，却可能比许多更热闹的故事活得更久。

Summary: 我对这笔融资的判断是：它不是一则普通的“企业软件又融钱了”新闻，而是AI产业开始从扩张焦虑转向效率焦虑的信号。未来两三年，基础设施自动化会成为继GPU、云平台之后的关键战场。ScaleOps 有机会成长为这一波红利中的重要玩家，但前提是它必须证明，自动化不仅能省钱，更能在生产环境里长期稳定、可控、可被信任。如果做不到，自治运维就仍然只是一个漂亮口号；如果做到了，它会成为AI时代真正的隐形基础设施。

GPU资源利用率ScaleOpsKubernetesAI基础设施算力优化GPU云成本降低Insight Partners资源调度C轮融资