OpenAI 这次把三款实时语音模型放进 Realtime API:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。

最值得盯的不是“它说话像不像人”。这件事的反常点在于:语音接口正在从聊天入口,往业务流程入口挪。用户说一句话,系统不只回答,还可能查库存、改订单、约时间、调用内部工具。

这对 AI 应用开发者和产品负责人很直接。过去语音 AI 多半是体验层。现在它开始碰交易、客服、销售和运营系统。门开大了,账也变厚了。

三款模型:一个办事,一个翻译,一个转写

三款模型的分工很清楚。OpenAI 不是只补一块“语音识别”,而是把语音代理常用的三段能力拆开交付:听懂、翻译、行动。

模型核心能力适合场景价格锚点
GPT-Realtime-2GPT-5 级推理、工具调用、128K 上下文、可调 reasoning effort语音客服、旅行预订、房产助手、复杂任务代理音频输入 $32/百万 token,输出 $64/百万 token
GPT-Realtime-Translate70+ 输入语言到 13 种输出语言,面向实时口语翻译客服、跨境销售、教育、活动、媒体$0.034/分钟
GPT-Realtime-Whisper流式语音转文字,主打低延迟实时转写实时字幕、会议记录、课堂、直播、客服质检$0.017/分钟

GPT-Realtime-2 是主菜。

它支持工具调用,支持 128K 上下文,也能调 reasoning effort。推理强度从 minimal、low、medium、high 到 xhigh,默认是 low。OpenAI 称它在 Big Bench Audio、Audio MultiChallenge 等音频评测上较 GPT-Realtime-1.5 有提升。

这句话要小心读。它是官方给出的评测与产品信号,不是独立第三方验收。Zillow、Deutsche Telekom、Priceline、Vimeo、BolnaAI 这些客户案例,也只能说明企业在测试或构建,不能直接写成各行业已经大规模稳定落地。

Translate 也一样,边界要说清。它是 70+ 输入语言到 13 种输出语言,不是任意语言互译。Whisper 的位置更朴素:把实时转写这块延迟继续往下压。

谁会先用?不是普通用户。

先动的会是客服自动化团队、跨境销售团队、语音代理创业公司,以及已经有内部工具链的企业产品组。对他们来说,接入顺序大概率不是“全量替人工”,而是先挑低风险流程:查询、摘要、转写、预约前确认、跨语言初筛。

分水岭:从听懂人话,到替人推进流程

语音 AI 以前最尴尬的地方,是演示很好看,业务一接上就卡。

用户会打断,会改条件,会说半句话。客服要查订单,旅行预订要看库存,房产助手要理解预算、区域和限制条件。跨境销售还要处理口音、术语和上下文。

GPT-Realtime-2 真正想补的是这条裂缝。

“帮我找周六能看的房子,别临主路,顺便约看房。”这句话看起来简单,背后是多步任务:理解偏好、查房源、过滤条件、看日程、发起确认。语音代理如果只会寒暄,就到这里为止。能调用工具,才开始像产品。

128K 上下文的意义也在这里。语音不是单轮问答。一个真实电话里,用户会补条件、撤回上一句、临时改预算。上下文短,系统像记性差的前台;上下文长,才有机会撑住一段完整流程。

但更强的推理不等于更好的实时体验。

语音场景有个铁律:停顿很贵。电话里沉默两三秒,用户已经开始怀疑系统坏了。Realtime-2 可以开 high、xhigh,可高推理档位会把成本和延迟压力一起推上去。复杂任务也许值得等,简单查询不值得。

所以产品团队接下来要做的不是盲目迁移,而是拆流程。

场景更现实的选择原因
实时字幕、会议记录先看 GPT-Realtime-Whisper成本低,目标明确,责任边界相对清楚
跨境客服初筛先试 GPT-Realtime-Translate + 人工兜底翻译有价值,但术语和语气仍要控风险
订单修改、退款、预约谨慎用 GPT-Realtime-2一旦调用工具,错误会直接进入业务系统
高客单价销售、旅行规划分层使用 Realtime-2 推理档位复杂环节可慢一点,简单环节要快

这才是开发者该看的地方。不是“模型最强能做什么”,而是“哪一步值得让模型接管”。

语音代理和传统 IVR 的差别也在这里。IVR 是菜单树,用户被迫按 1、按 2、按 3。新的实时语音模型想做的是反过来:用户自然说,系统去拆任务。

这听起来像进步。也是风险。

我的判断:技术快到门口,成本和责任还没进屋

我更在意责任边界。

语音代理一旦开始调用工具,就不再只是“答错一句话”。它可能改订单、约时间、触发退款,甚至影响金融、医疗、法律相关流程。文字界面里,用户还能扫一眼再点确认。语音里,确认常常发生在几秒钟内,误解更隐蔽,留痕更重要。

OpenAI 提到 Realtime API 有安全分类器,开发者也可以用 Agents SDK 加护栏,并要求在非显而易见场景告知用户正在和 AI 互动。这些是底线配置,不是免死金牌。

真正决定成败的,是企业自己的流程设计:

  • 哪些动作只能建议,不能执行;
  • 哪些动作必须二次确认;
  • 哪些字段必须复述给用户;
  • 哪些行业术语不能让模型“猜”;
  • 哪些录音、转写和调用记录必须留存。

这不是技术洁癖。是出事之后谁背锅的问题。

“天下熙熙,皆为利来。”语音代理会先冲进客服、销售、出行、教育,不是因为企业突然热爱自然交互,而是因为它可能减少等待、提高转化、覆盖更多语言市场。商业激励会推着它跑。

问题是,发动机已经变大,刹车还在各家公司自己手里。

可以拿早期电话客服做个不完全类比。电话一开始解决的是触达问题,后来变成标准化服务机器。再后来,企业发现真正难的不是接通,而是质检、脚本、投诉、合规和培训。语音 AI 也会走这条路,只是速度更快,自动化程度更高。

这次 OpenAI 做对的地方,是没有只卖“声音自然”。它在补语音代理的底层栈:推理、转写、翻译、工具调用。技术拼图更完整了。

但我不太买账的是,把这类发布直接说成语音代理全面爆发。现在最多能说,API 可用了,部分企业在构建,适合低风险流程先跑。离大规模接管复杂业务,还有几道硬门槛。

接下来最该看四件事:

观察点为什么重要
实际端到端延迟语音体验容不得长时间空白
高推理档位成本Realtime-2 强,但未必适合所有实时场景
工具调用错误率一旦连上业务系统,错误会变成真实损失
企业确认与留痕机制决定出问题后能不能追责、复盘、纠偏

对开发者来说,短期更合理的动作是分层接入。Whisper 和 Translate 可以先放进字幕、转写、跨语言初筛。Realtime-2 则应该从半自动流程开始,让 AI 建议,让人或规则确认。

对企业采购来说,也不必急着把旧语音系统全换掉。更聪明的做法是延后大规模替换,先拿一条明确流程做试点:比如预约确认、客服摘要、售前问答。测完延迟、成本、误操作率,再谈迁移。

语音 AI 的分水岭已经从“能不能听懂”变成“能不能放心交给它办”。这比声音自然难得多,也贵得多。