Simon Willison 把一个旧 playground 又翻了出来。
这个工具最早是他在 2024 年 12 月做的,用来测试 OpenAI 当时新推出的 WebRTC API。现在它多了两个关键能力:可选 GPT‑Realtime‑2;也可以先粘贴一大段文档,再在浏览器里开语音会话。
反常点在分发顺序。
OpenAI 上月已经把 GPT‑Realtime‑2 推给 API,并宣传它是“首个具备 GPT‑5 级推理的语音模型”,知识截止到 2024 年 9 月 30 日。但 Willison 说,他一直等它进 ChatGPT iPhone App,结果还没有。于是,他回到自己的 playground 里试。
这个工具到底更新了什么
这不是 OpenAI 官方发布了一个新 ChatGPT 功能。它是 Willison 的个人浏览器工具更新。
事实压缩一下:
| 问题 | 当前信息 | 对读者的影响 |
|---|---|---|
| 工具是谁做的 | Simon Willison 的个人 OpenAI WebRTC Audio Session 工具 | 别误读成 ChatGPT App 新功能 |
| 最早用途 | 2024 年 12 月,为测试 OpenAI WebRTC API 制作 | 本质是开发者 playground |
| 新增模型 | 可选择 gpt-realtime-2 | 开发者能直接试 OpenAI 新实时语音模型 |
| 文档上下文 | 可粘贴大段文本,再开始语音会话 | 语音可以围绕私有材料讨论,不限闲聊 |
| 模型边界 | OpenAI 称其具备 GPT‑5-class reasoning,知识截止 2024-09-30 | 不能等同于 GPT‑5 本体,也不能脑补完整 GPT‑5 能力 |
| App 状态 | Willison 提到它还没出现在 ChatGPT iPhone App | API 能力和消费端产品不同步 |
截图里的示例很说明问题。
他粘进去的不是旅游攻略,也不是会议寒暄,而是一份关于 DuckDB、SQLite、Datasette,以及“不受信 SQL”安全执行的技术材料。语音模型开始围绕这份文档回答。
这类场景比“让 AI 用好听声音陪你聊天”重要得多。
语音 AI 要进入工作流,光会接话不够。它必须能带着文档、代码背景、产品说明、内部规则一起推理。否则它只是一个更自然的输入法,或者一个更贵的客服入口。
真正的变量是上下文,不是嗓音
很多语音 AI 演示容易让人被声音骗过去。
停顿自然,语气顺滑,打断响应快,当然有价值。但这些更多是在降低摩擦。它们解决的是“愿不愿意开口”。
文档上下文解决的是另一件事:开口之后,谈什么。
如果模型不能看材料,语音对话很快会退回泛泛建议。你问它一个技术判断,它只能靠通用知识;你问它一份合同、一段代码、一套内部流程,它就会露怯。
把文档塞进会话后,语音才开始像一个工作入口。
开发者最该试的不是“它声音像不像真人”,而是三类任务:
- 能不能围绕长文档持续追问,不频繁跑题;
- 能不能在技术材料里抓住约束,而不是只复述结论;
- 能不能把语音交互接进现有工具,而不是变成另一个孤岛页面。
企业用户也别急着把它当生产系统。
原始材料没有给价格、延迟、上下文上限、稳定性指标,也没有展开隐私和数据处理细节。至少有一点很现实:你需要使用 OpenAI API Token,并把文档内容送入会话流程。涉及客户资料、合同、源代码、内部安全文档时,不能像试一个普通网页玩具那样随手粘。
更合理的动作是小范围试点。
比如技术支持团队拿公开文档试,教育产品拿课程材料试,内部工具团队拿非敏感规范试。先看它能不能稳定围绕材料对话,再谈接入业务系统。
这一步很土,但必要。AI 产品死得最多的地方,从来不是 demo 不惊艳,而是进流程后没人敢用、用不起、管不住。
API 先到,App 后到,说明分发已经裂开
我更在意的不是这个 playground 本身,而是它为什么有存在感。
按消费互联网的老叙事,最强能力应该先进 App。用户多,传播快,截图好看。ChatGPT iPhone App 理应是普通用户理解 OpenAI 的第一窗口。
但这次,GPT‑Realtime‑2 先出现在 API,至少在 Willison 的观察里,还没进 ChatGPT iPhone App。
原因现在不能硬猜。可能和成本、稳定性、移动端体验、交互设计、滥用控制、发布节奏都有关系。材料没给答案,就不该编答案。
但结果已经摆在眼前:开发者入口正在提前拿到一部分新能力。
这有点像电力早期的路径。电先改变工厂,后来才慢慢进入家庭电器。类比不完全一样,但结构相似:最锋利的新能力,往往先去可控场景。那里用户少一些,反馈专业一些,成本账也更容易算。
AI 现在也在走这条路。
API、脚本、playground、内部工具,会先吃到不少新模型能力。漂亮的 App 反而要等产品形态、成本边界和风险控制都更清楚。
对开发者,这意味着动作要变。
不要只盯着 ChatGPT App 有没有更新。做语音工具、资料库问答、客服台、教育产品、内部知识系统的人,应该把 API 文档和开发者 playground 当成更早的信号源。新能力如果先在那里出现,产品原型也该先在那里跑。
对企业采购和产品负责人,判断也要变。
别把“ChatGPT App 里没有”当成“OpenAI 没有这能力”。也别反过来,把“API 有了”当成“马上能上线给全员用”。中间隔着成本、权限、审计、数据合规和真实体验。
接下来最该看的不是一句“GPT‑5 级推理”有多响。
更该看四个变量:它什么时候进 ChatGPT iPhone App;文档上下文在真实对话里能撑多久;API 使用中的成本和稳定性怎样;开发者能否把它接进严肃工作流。
这几个变量不落地,语音 AI 仍然会停在好看的演示里。
落地之后,入口会重新分层。普通用户看到的是 App;开发者摸到的是 API;企业真正买单的是可控流程。三者不再同步。
这才是这个小工具露出的行业现实。
模型能力在变强,产品分发在变窄。强能力先入窄门,再进大厅。古人说“天下熙熙,皆为利来”,放到今天就是:谁能先把新模型变成可控成本和可验证场景,谁就先拿到那张门票。
