GPT‑Realtime‑2 先到 API：OpenAI 语音能力开始分入口了

核心摘要 Summary

Simon Willison 更新了自己的 OpenAI WebRTC Audio Session 浏览器工具：现在可选 GPT‑Realtime‑2，也能粘贴大段文档上下文，用语音围绕材料对话。
更值得看的是分发顺序：OpenAI 上月把这款实时语音模型放进 API，但它还没出现在 ChatGPT iPhone App。
对开发者和企业试点来说，API 正在变成新语音能力的前哨；对普通用户来说，ChatGPT App 已经不是 OpenAI 能力的完整清单。

Simon Willison 把一个旧 playground 又翻了出来。

这个工具最早是他在 2024 年 12 月做的，用来测试 OpenAI 当时新推出的 WebRTC API。现在它多了两个关键能力：可选 GPT‑Realtime‑2；也可以先粘贴一大段文档，再在浏览器里开语音会话。

反常点在分发顺序。

OpenAI 上月已经把 GPT‑Realtime‑2 推给 API，并宣传它是“首个具备 GPT‑5 级推理的语音模型”，知识截止到 2024 年 9 月 30 日。但 Willison 说，他一直等它进 ChatGPT iPhone App，结果还没有。于是，他回到自己的 playground 里试。

这个工具到底更新了什么

这不是 OpenAI 官方发布了一个新 ChatGPT 功能。它是 Willison 的个人浏览器工具更新。

事实压缩一下：

问题	当前信息	对读者的影响
工具是谁做的	Simon Willison 的个人 OpenAI WebRTC Audio Session 工具	别误读成 ChatGPT App 新功能
最早用途	2024 年 12 月，为测试 OpenAI WebRTC API 制作	本质是开发者 playground
新增模型	可选择 gpt-realtime-2	开发者能直接试 OpenAI 新实时语音模型
文档上下文	可粘贴大段文本，再开始语音会话	语音可以围绕私有材料讨论，不限闲聊
模型边界	OpenAI 称其具备 GPT‑5-class reasoning，知识截止 2024-09-30	不能等同于 GPT‑5 本体，也不能脑补完整 GPT‑5 能力
App 状态	Willison 提到它还没出现在 ChatGPT iPhone App	API 能力和消费端产品不同步

截图里的示例很说明问题。

他粘进去的不是旅游攻略，也不是会议寒暄，而是一份关于 DuckDB、SQLite、Datasette，以及“不受信 SQL”安全执行的技术材料。语音模型开始围绕这份文档回答。

这类场景比“让 AI 用好听声音陪你聊天”重要得多。

语音 AI 要进入工作流，光会接话不够。它必须能带着文档、代码背景、产品说明、内部规则一起推理。否则它只是一个更自然的输入法，或者一个更贵的客服入口。

真正的变量是上下文，不是嗓音

很多语音 AI 演示容易让人被声音骗过去。

停顿自然，语气顺滑，打断响应快，当然有价值。但这些更多是在降低摩擦。它们解决的是“愿不愿意开口”。

文档上下文解决的是另一件事：开口之后，谈什么。

如果模型不能看材料，语音对话很快会退回泛泛建议。你问它一个技术判断，它只能靠通用知识；你问它一份合同、一段代码、一套内部流程，它就会露怯。

把文档塞进会话后，语音才开始像一个工作入口。

开发者最该试的不是“它声音像不像真人”，而是三类任务：

能不能围绕长文档持续追问，不频繁跑题；
能不能在技术材料里抓住约束，而不是只复述结论；
能不能把语音交互接进现有工具，而不是变成另一个孤岛页面。

企业用户也别急着把它当生产系统。

原始材料没有给价格、延迟、上下文上限、稳定性指标，也没有展开隐私和数据处理细节。至少有一点很现实：你需要使用 OpenAI API Token，并把文档内容送入会话流程。涉及客户资料、合同、源代码、内部安全文档时，不能像试一个普通网页玩具那样随手粘。

更合理的动作是小范围试点。

比如技术支持团队拿公开文档试，教育产品拿课程材料试，内部工具团队拿非敏感规范试。先看它能不能稳定围绕材料对话，再谈接入业务系统。

这一步很土，但必要。AI 产品死得最多的地方，从来不是 demo 不惊艳，而是进流程后没人敢用、用不起、管不住。

API 先到，App 后到，说明分发已经裂开

我更在意的不是这个 playground 本身，而是它为什么有存在感。

按消费互联网的老叙事，最强能力应该先进 App。用户多，传播快，截图好看。ChatGPT iPhone App 理应是普通用户理解 OpenAI 的第一窗口。

但这次，GPT‑Realtime‑2 先出现在 API，至少在 Willison 的观察里，还没进 ChatGPT iPhone App。

原因现在不能硬猜。可能和成本、稳定性、移动端体验、交互设计、滥用控制、发布节奏都有关系。材料没给答案，就不该编答案。

但结果已经摆在眼前：开发者入口正在提前拿到一部分新能力。

这有点像电力早期的路径。电先改变工厂，后来才慢慢进入家庭电器。类比不完全一样，但结构相似：最锋利的新能力，往往先去可控场景。那里用户少一些，反馈专业一些，成本账也更容易算。

AI 现在也在走这条路。

API、脚本、playground、内部工具，会先吃到不少新模型能力。漂亮的 App 反而要等产品形态、成本边界和风险控制都更清楚。

对开发者，这意味着动作要变。

不要只盯着 ChatGPT App 有没有更新。做语音工具、资料库问答、客服台、教育产品、内部知识系统的人，应该把 API 文档和开发者 playground 当成更早的信号源。新能力如果先在那里出现，产品原型也该先在那里跑。

对企业采购和产品负责人，判断也要变。

别把“ChatGPT App 里没有”当成“OpenAI 没有这能力”。也别反过来，把“API 有了”当成“马上能上线给全员用”。中间隔着成本、权限、审计、数据合规和真实体验。

接下来最该看的不是一句“GPT‑5 级推理”有多响。

更该看四个变量：它什么时候进 ChatGPT iPhone App；文档上下文在真实对话里能撑多久；API 使用中的成本和稳定性怎样；开发者能否把它接进严肃工作流。

这几个变量不落地，语音 AI 仍然会停在好看的演示里。

落地之后，入口会重新分层。普通用户看到的是 App；开发者摸到的是 API；企业真正买单的是可控流程。三者不再同步。

这才是这个小工具露出的行业现实。

模型能力在变强，产品分发在变窄。强能力先入窄门，再进大厅。古人说“天下熙熙，皆为利来”，放到今天就是：谁能先把新模型变成可控成本和可验证场景，谁就先拿到那张门票。

GPT‑Realtime‑2 先到 API：OpenAI 语音能力开始分入口了

语音分入口

工具更新

模型可选

核心变量

工作入口

分发裂开

开发者前哨

落地约束

敏感数据

这个工具到底更新了什么

真正的变量是上下文，不是嗓音

API 先到，App 后到，说明分发已经裂开