Stability AI 这次把 AI 音乐生成的时长拉到了 6 分 20 秒。

这个数字有意思。2024 年的 Stable Audio Open 最长只能生成 47 秒音频,Stable Audio 2.0 的生成时长也不到这次 medium、large 的一半。47 秒像素材片段,6 分钟才开始接近一首可编辑、可交付的完整作品。

但我更在意的不是“能唱多久”。

Stability Audio 3.0 真正要看的,是三件事能不能同时成立:时长够不够用,模型能不能部署,版权和商业许可够不够清楚。对 AI 音乐工具开发者和音乐科技公司来说,这比单次生成效果更要命。

这次不是一个模型,而是一条分层产品线

Stability Audio 3.0 包含四个模型:small SFX、small、medium、large。

小模型主打端侧生成,medium 开放权重并支持长音频,large 则被留在商业服务里。这种切法很现实:给开发者可试、可改、可集成的部分,同时把最强模型放进收费闸门。

模型参数规模最长生成时长提供方式更适合谁
small SFX459M2 分钟开放权重音效、端侧应用、轻量工具
small459M2 分钟开放权重端侧音乐生成、原型开发
medium1.4B6 分 20 秒开放权重需要长音频的开发者产品
large2.7B6 分 20 秒API、付费自托管企业级应用、商业生产环境

Stability AI 称新模型能够维持音乐结构和旋律走向。这个说法先记下来,但不能直接当成第三方评测结论。

AI 音乐最怕的是前 20 秒好听,后面散架。生成时长拉长以后,难点会从“声音像不像音乐”变成“段落能不能站住”。主歌、副歌、过门、情绪推进,这些才决定它能不能进入真实工作流。

对开发者来说,动作很具体。

如果只是做 Demo,small 或 medium 已经有测试价值;如果要做商用产品,就不能只看模型开没开放,还要先算推理成本、延迟、许可证边界和输出音频的使用权。尤其是打算服务企业客户的团队,最好不要一上来就把 large 当成默认底座,因为它不是开放权重模型。

开放权重给了入口,large 仍然是商业闸门

这次 small SFX、small、medium 都开放权重。large 不开放,只通过 API 和付费自托管提供。

还有一个关键限制:年收入超过 100 万美元的公司,需要企业许可。

这会直接影响团队选择路线。

使用场景更可能的选择现实约束
独立开发者做原型small、small SFX时长最多 2 分钟,质量和控制力要实测
AI 音乐工具创业团队medium可开放权重集成,但要评估商用许可和算力成本
广告、游戏、影视素材公司large API 或付费自托管企业许可、价格、赔偿责任更关键
已有音乐版权业务的公司观望或小规模试点要等合同条款覆盖具体使用场景

这也是这次发布最值得拆开的地方。

“开放权重”听起来很慷慨,但开放的不是全部能力。Stability AI 给出了进入门,也留下了收费门槛。对小团队,这是低成本试错机会;对年收入超过 100 万美元的公司,这更像一套需要采购、法务和产品一起评估的企业软件。

所以,工具开发者接下来不该只问“medium 能不能跑”。还要问三件事:能否稳定生成足够长的音乐,能否在自己的产品里合法分发,未来如果切到 large,成本会不会吞掉毛利。

这才是部署问题,不是参数表问题。

版权合作是加分项,但不是免死金牌

AI 音乐的竞争已经换了题目。

早期比的是谁能生成更像音乐的声音。现在更难的是:训练数据怎么来的,输出作品能不能商用,平台是否愿意为版权风险兜底。

Stability AI 称 Audio 3.0 基于完全授权数据,并且已经与 Warner Music Group、Universal Music Group 达成合作,开发模型和音乐创作工具。这对企业客户有吸引力。广告、游戏、影视和商用素材库都不想把版权不确定性塞进项目里。

但这里不能走太快。

唱片公司合作,不等于所有训练数据、所有输出作品、所有商业使用场景都没有风险。授权范围、训练数据来源、输出相似性、创作者补偿机制,可能对应不同合同,也可能面对不同司法判断。

采购方真正要看的不是新闻稿里的合作名单,而是合同里的几行字:

  • 自己的使用场景是否被覆盖;
  • 输出音频能否二次分发或进入素材库;
  • 如果发生版权争议,责任由谁承担;
  • 是否允许把生成结果用于客户项目、广告投放或游戏发行。

这也是 Stability AI 相对 Suno、Udio 等产品更想打的一张牌。后者仍面对唱片行业相关诉讼与和解压力。Google 有 Lyria 3 Pro,ElevenLabs 也在做音乐生成应用。大家都知道,AI 音乐不是只拼模型,最后一定要拼授权、分发和专业工作流。

Stability AI 还表示正在开发面向专业音乐人的新产品套件,但没有公布具体功能。公司引入 Ethan Kaplan 负责专业音乐产品,他曾任 Universal Audio 和 Fender 的首席数字官。

这个信息能说明它想往音乐制作链条里走深一点,但不能解读成公司财务或组织状况变化。

专业音乐人通常不要一个“一键出歌”的玩具。他们要可控段落、可编辑轨道、风格参考、素材管理,还要能接入 DAW 和插件体系。没有这些,6 分钟生成也可能只是更长的草稿。

对音乐科技和版权行业从业者,这次更适合做两类动作。

一类是小规模试点:用 medium 验证生成长度、稳定性和工作流接入,不急着全量迁移。另一类是法务前置:在采购 large 或自托管前,把授权范围、赔偿责任和客户项目使用权写清楚。这里慢一点,反而少踩坑。

最终,Stability AI 有没有取得相对优势,要看两个硬变量。

medium 开放权重能不能让开发者做出稳定产品。large 的 API、自托管价格和企业许可,能不能让商业客户算得过账。

如果这两点跟不上,6 分钟只是发布会上的好数字;如果跟上,它才有机会把 AI 音乐从“生成片段”推向“可部署工具”。