AI 不缺模型,缺的是便宜算力:Parasail 想做“推理时代的电力公司”

生成式 AI 的热闹,过去两年一直被“大模型参数”“训练成本”“谁又砸了多少 GPU”这些词占据。但如果你真的去问一线开发者,他们嘴里反复念叨的,往往不是 AGI,也不是万亿参数,而是一个更朴素的问题:能不能便宜点?能不能快一点?
美国初创公司 Parasail 就是冲着这个痛点来的。它刚刚宣布完成 3200 万美元 A 轮融资。公司 CEO Mike Henry 的说法很直接:开发者要的就是 token,越快越便宜越好。Parasail 提供的,是面向 AI 模型推理的云计算服务。按照 Henry 的说法,公司现在每天生成 5000 亿个 token。这个数字听上去有点像行业黑话比赛,但翻译成人话就是:它想成为 AI 应用背后那个“出水龙头的人”。
更有意思的是,Parasail 不是那种高举高打、宣称要自己造下一代芯片的公司。Henry 出身芯片设计,也曾在 AI 芯片公司 Groq 负责云业务,但他现在押注的路线很务实:不执着于拥有全部硬件,而是把全球分散的 GPU 和算力资源组织起来、调度起来,再卖给那些急着上线 AI 产品的公司。说白了,它想做的不是发明电,而是做推理时代的“电网调度员”。
从“训练崇拜”到“推理焦虑”
这笔融资之所以值得写,不只是因为金额,而是因为它折射出 AI 基础设施的重心正在变化。
前一轮 AI 竞赛,比的是谁训练出更强的模型。OpenAI、Anthropic、Google DeepMind 这些前沿实验室,像一群在 F1 赛道上烧钱狂奔的车队。可对绝大多数创业公司来说,它们根本不需要自己造车,它们需要的是一辆能送货、能接单、成本还别太离谱的商用车。
问题恰恰出在这里。越来越多创业公司发现,直接把业务全部建立在 OpenAI 或 Anthropic 的 API 之上,并不轻松。价格是一回事,延迟、吞吐、配额、稳定性是另一回事。尤其当 AI agent 开始流行,一个任务不再只是“一问一答”,而是会拆成很多步骤:检索、筛选、总结、复核、再调用更强的模型做最终判断。原本一次调用,现在可能变成几十次、几百次调用。token 消耗像开了水龙头。
TechCrunch 文中提到,科学研究助手公司 Elicit 就在往这种混合架构走:先用开源模型做初筛,降低成本,再让更强的前沿模型给出最终答案。这几乎已经成了很多 AI 应用团队的共识路线——贵模型负责“盖章”,便宜模型负责“跑腿”。当这种架构成为常态,推理基础设施的重要性就会迅速上升。
这也是“tokenmaxxing”这个略带戏谑色彩的词背后的现实。它不是单纯追求更多 token,而是在追求单位成本下最大的 AI 产出。像极了云计算早年企业对 CPU 利用率、带宽成本和存储价格的斤斤计较。AI 正在从“实验室项目”进入“经营性业务”,一旦进入这个阶段,财务模型就会比技术口号更有杀伤力。
Parasail 做的,其实是算力套利生意
Parasail 的模式并不神秘,但很符合当下 AI 市场的裂缝。公司并不主要靠自建超大数据中心吃饭,而是从全球 15 个国家、40 个数据中心租用处理能力,同时还会从流动性市场购买更多算力,再通过后台调度,把不同工作负载分配到最合适、最便宜的资源池里。
这听起来有点像机票比价网站、跨境电力调度和云计算 broker 的混合体。哪边 GPU 空闲、哪边电价低、哪边网络状况合适,它就把请求往哪边送。避开需求高峰,压低推理成本,再把“便宜且能用”的结果交给客户。
这套打法的优点非常明显。第一,不需要像 hyperscaler 那样先砸几十亿美金建设基础设施;第二,可以更灵活地承接中小客户,尤其是那些种子轮到 B 轮之间、业务还在狂奔但预算并不阔绰的 AI 初创公司;第三,它专注推理而不是训练,也就避免了和 AWS、Google Cloud、Oracle 这些巨头在正面战场硬碰硬。
但问题也同样明显。Parasail 的护城河到底是什么?如果它的核心优势只是“更会买 GPU、更会调度”,那迟早会面临两个压力:一是大客户做大之后,可能自己直签更便宜的长期算力合同;二是云厂商和竞争对手也会迅速学会类似玩法。换句话说,这是不是一门“高成长但低壁垒”的生意,仍然要打个问号。
市场上已经有不少类似方向的玩家,比如 Fireworks AI、Baseten,甚至更大的云厂商也在不断强调推理优化、模型托管和成本控制。Parasail 选择的差异化,是更明确地只做 inference、不做 training,并且愿意接住那些没有长期承诺的小客户。这是一个聪明切口,但也意味着它吃到的是最活跃、最不稳定的一批需求。
开源模型的繁荣,正在重写算力市场
Parasail 的故事能否成立,很大程度上取决于另一个问题:开源模型会不会继续壮大。
如果未来一切都被少数闭源巨头垄断,开发者只需要接 API,那么像 Parasail 这样的公司空间就会被压缩。因为云资源的议价权、模型能力的定义权、终端开发的入口,都会集中在少数平台手里。
但眼下的趋势恰恰相反。Llama 系列、Mistral、Qwen,以及一批越来越好用的领域模型,让开发者重新获得了组合自由。企业可以根据任务难度,把不同模型拼接成流水线:用便宜模型处理 80% 的重复工作,把昂贵模型留给真正复杂的 20%。这对成本极其敏感的创业公司来说,是生死线,不是优化项。
这也是为什么投资人会押注 Parasail。Touring Capital 的合伙人 Samir Kumar 甚至判断,未来软件开发成本中,推理至少会占到 20%。我个人觉得,这个数字并不夸张,某些 heavily-agentic 的软件形态里,推理支出甚至可能更高。你可以把它理解成“AI 时代的云账单”:以前 SaaS 公司最怕的是云服务器和带宽费用,未来 AI 公司最怕的,可能就是模型推理账单。
而一旦推理成本成为企业经营中的固定大项,市场就会自然催生两种角色:一种是做更省钱芯片的人,比如 Groq、NVIDIA 的推理方案、各类 ASIC 玩家;另一种就是像 Parasail 这样,专门帮你在复杂供给网络里“榨干每一分钱算力价值”的中间层公司。
这个变化其实很像互联网早期的发展路径。最初大家拼的是网站能不能做出来,后来拼的是 CDN、云主机、数据库优化、广告投放效率。今天 AI 应用也正走向类似阶段:模型能力仍然重要,但工程化、可用性和成本结构,正在决定谁能活下来。
真正的问题:推理需求会不会比供给涨得更快?
Parasail 的投资人说得很激进:没有 AI 泡沫,推理需求正在远远超过供给。这个判断我部分认同,但也想泼一点冷水。
需求暴涨当然是真的。只要 agent 继续渗透办公、客服、编程、搜索、科研、内容生成,token 消耗就会持续上升。更别说未来如果机器人、自动驾驶边缘系统、实时多模态交互真正普及,推理将从“云端服务成本”变成现实世界中的基础设施成本。
但供给端也不是静止的。NVIDIA 还会继续卖更多卡,各类推理芯片和服务器厂商都会加入,云厂商也会加速部署专用实例。模型本身也会变得更高效:蒸馏、量化、MoE、KV cache 优化、编译器层面的改进,都在让同样的任务消耗更少 token 或更少算力。换句话说,今天看上去紧张的推理市场,未必会一直这么紧。
所以,Parasail 能否成为“下一个算力巨头”,关键并不只是赶上风口,而是要在风口过去之后依然有位置。如果未来推理成本迅速下降,这类 broker 型公司必须证明自己不仅能捡便宜,还能提供稳定性、调度能力、企业级 SLA、跨模型优化,甚至是更深层的开发者工具链。否则它就容易被压缩成一个利润并不丰厚的中间商。
但无论如何,这家公司至少抓到了一个行业情绪的变化:AI 创业者已经没那么迷恋“最强模型”了,他们更关心“能跑多快、能烧多少钱、明天会不会断供”。这是一种成熟,也是一种现实。
说到底,科技行业每隔几年就会重复同一个故事:最先赚到掌声的人,未必赚到最后的钱。今天站在聚光灯下的是模型公司,明天真正建立长期价值的,可能是那些让 AI 变便宜、变稳定、变成日常基础设施的人。Parasail 想赌的,正是这件事。