ElevenLabs 发布了新一代音乐生成模型 Music v2。这个模型可以在同一首歌里切换曲风,例如从歌剧转到重金属再切回去,也能处理快说唱、多语言歌词、复杂人声、编曲和非音乐音效。

这次更新发生在 ElevenLabs 推出首个音乐生成模型约 10 个月后。真正值得看的是,它没有只把目标放在“生成更长的歌”,而是把 AI 音乐往制作软件的方向推了一步:用户可以选中歌曲局部,用提示词重生成,不影响其他段落;也可以按 intro、verse、chorus 等结构分段生成,再拼接成完整作品。

Music v2 的重点是可编辑,而不是炫技换曲风

曲风切换容易被当成演示亮点,但对创作者更实用的是分段控制。过去不少 AI 音乐工具像一次性抽卡:提示词写完,系统吐出一段音频,满意就用,不满意就重来。Music v2 试图把“重来”缩小到某一段。

能力具体变化对使用者的影响
曲风切换可在一首歌内从歌剧切到重金属再切回适合广告、短片、游戏预告等需要情绪转折的内容
人声与歌词支持快说唱、多语言歌词和复杂人声降低 demo 制作门槛,但仍需人工判断可用性
分段编辑可局部重生成,不改动其他段落创作者不用为一句副歌或一段转场推倒重做
结构拼接可按 intro、verse、chorus 生成更接近音乐制作流程,而不是短音频素材库

这对营销团队、品牌内容团队和独立创作者更直接。比如一支 30 秒广告片只差结尾 5 秒的情绪抬升,过去可能要让音乐人返工或重新生成整段;现在至少在工具逻辑上,可以只改那一小段。省下来的不是灵感,而是沟通和试错成本。

AI 音乐竞争正在从“能生成”转向“能交付”

ElevenLabs 不是独自在推进这条线。近几个月,Google、Stability AI、Suno 都发布了能生成更长、更复杂音乐的新模型。Google 在 I/O 上还把 Flow Music 扩展到翻唱、按段落编辑歌曲和生成音乐视频;Stability AI 也在强调更长歌曲生成;Suno 则持续迭代面向大众创作的音乐模型。

横向看,行业竞争的焦点已经变了。早期 AI 音乐比的是“像不像一首歌”,现在比的是能不能稳定产出可修改、可交付、能进入工作流的内容。对专业音乐人来说,这类工具还很难替代审美、录音、混音和版权管理;对短视频、广告、播客、游戏素材团队来说,它更像一个快速出样的生产环节。

这也是 Music v2 的实际意义:它没有证明 AI 已经能替代音乐制作人,但说明 AI 音乐产品正在补上制作环节里最麻烦的一块——修改。音乐商业生产里,第一次生成往往不难,难的是甲方说“副歌再亮一点、前奏短一点、人声别压住旁白”。能不能改,决定它是玩具还是工具。

商用承诺能打开市场,但版权风险没有消失

ElevenLabs 强调 Music v2 基于授权数据训练,生成内容可商用。这个说法很关键,因为 AI 音乐市场绕不开版权。Suno、Udio 等公司已经因版权问题面临诉讼,唱片公司对未经授权训练、仿声、翻唱和混音的态度也越来越强硬。

这里要把话说窄:ElevenLabs 的表述能降低企业客户采购时的心理门槛,但不能证明所有 AI 音乐版权争议都被解决。授权数据覆盖了什么、商业使用边界如何定义、生成结果是否可能接近既有作品,这些仍是企业法务和平台审核要看的变量。

Music v2 目前已接入面向营销和品牌团队的 ElevenCreative,也用于 ElevenMusic 平台;ElevenAPI 将在之后开放。接下来最该观察的不是它还能不能生成更夸张的曲风混搭,而是 API 开放后,是否会进入视频剪辑、广告投放、游戏开发和创作者工具链。如果这些场景真的接入,AI 音乐的竞争就会从模型演示转向渠道和合规能力。