翻译产品最尴尬的地方,往往不是某一句没翻准,而是大家都在等。
一方说完,系统识别,再翻译,再播报。对话节奏被切碎,会议像在轮流交作业。Google DeepMind 6 月 9 日发布的 Gemini 3.5 Live Translate,想解决的正是这个卡点。
它支持自动识别 70+ 语言,做近实时语音到语音翻译。系统不会等整段话结束才开口,而是连续生成译音,并保持落后说话者数秒。注意,是近实时,不是无延迟。
我更在意的是另一件事:Google 不是只发了一个模型演示,而是把它推向 Gemini Live API、Google AI Studio、Google Translate 和 Google Meet。实时语音翻译正在从单个 App 功能,变成一套可调用、可测试、可采购的平台能力。
它解决的不是翻一句话,而是跟上对话
Gemini 3.5 Live Translate 的核心变化,是连续语音翻译。
传统语音翻译更像回合制。你说完一句,系统处理一句。Gemini 3.5 Live Translate 更像贴着语音流往前走:一边听,一边翻,一边播。
这会带来两个直接影响。
一是对话不必频繁停顿。跨语言会议、课堂、客服、直播、旅行沟通,最怕的都是节奏断掉。只要延迟控制在可接受范围内,体验就会明显不同。
二是译音更像人在说话。Google 称模型会尽量保留说话者的语调、节奏和音高。这个方向对用户友好,但也让风险更现实:声音越自然,越容易让人误以为“这就是本人原话”。
边界也要说清楚。
它仍会落后说话者数秒。嘈杂环境、多人抢话、口音混杂、专业术语,都可能影响效果。Google 称模型在嘈杂、不可预测环境中更稳,但这类能力不能只看发布稿,必须看真实场景。
真正的信号,是三个入口一起铺开
这次发布的重点,不只在模型本身,而在入口分布。
Google 把同一套能力放进了开发者工具、消费级翻译产品和企业会议场景。对不同人来说,意义不一样。
| 入口 | 当前状态 | 主要对象 | 直接影响 |
|---|---|---|---|
| Gemini Live API / Google AI Studio | 公测 | 开发者 | 可以把近实时语音翻译嵌入通话、教育、直播、客服等应用 |
| Google Translate Android / iOS | 全球推出 | 普通用户 | 可以在手机上体验 70+ 语言的近实时语音到语音翻译 |
| Google Meet | 企业私测 | Workspace 企业客户 | 从原先 5 种语言扩展到 70+ 语言,并支持 2000+ 语言组合 |
Google Meet 这条线尤其值得看。
原先 Meet 的语音翻译只覆盖 5 种语言,主要围绕英语进出。接入 Gemini 3.5 Live Translate 后,范围会扩到 70+ 语言,支持 2000+ 语言组合。
但这不是面向所有 Meet 用户开放。目前它是企业私测,面向部分 Google Workspace 商业客户。把“私测”写成“全面上线”,会误判节奏。
对普通科技读者来说,这件事可以先当成一个体验升级看:旅行、导览、跨国家庭沟通、临时会议,会更容易用手机或会议软件解决。
对开发者和企业用户来说,动作会更具体。
开发者可以开始评估 Gemini Live API 和 Google AI Studio,看看现有音视频应用是否需要接入近实时翻译。Google 也通过 LiveKit、Agora、Pipecat、Fishjam、Vision Agents 等实时媒体和开发平台提供集成路径,降低音视频流基础设施的搭建成本。
企业客户不必急着迁移正式流程。更合理的做法是先放进低风险场景试点,比如内部培训、跨国例会辅助、客服质检预览。涉及医疗、金融、法律、合同谈判的场景,仍应保留人工复核。
Grab 也在测试该模型,用于司机和旅客接车时的近实时多语言沟通。这里的关键词是测试,不是已经大规模正式商用。
企业会看体验,也会看责任边界
实时语音翻译越自然,越容易进入工作流。但企业真正采购时,不会只问“听起来像不像真人”。
它们会看几件更硬的事:
| 变量 | 为什么重要 | 现在能下的判断 |
|---|---|---|
| 延迟 | 决定会议和通话能不能连续进行 | 目前只能确认会落后说话者数秒 |
| 准确率 | 决定能否进入正式业务 | 需要看语言、口音、术语和场景表现 |
| 噪声环境 | 决定客服、出行、现场会议能不能用 | 发布信息给出方向,真实鲁棒性还要验证 |
| 水印与检测 | 决定生成语音能否被识别 | 生成音频带 SynthID 水印,但跨平台效果仍要看配合 |
| 数据与合规 | 决定企业是否敢接入 | 价格、调用限制、日志和数据处理细节仍需企业逐项评估 |
Google 表示,模型生成的音频会嵌入 SynthID 水印,用于帮助识别 AI 生成内容,降低虚假音频和误导信息风险。
这是必要动作,但不是万灵药。
水印能否在二次压缩后可靠识别,非 Google 平台是否配合检测,企业内部如何提示“这是翻译音频而非本人原声”,都会影响实际效果。
所以,这次发布更像一条分界线:近实时语音翻译开始进入默认产品入口,但还没到可以无脑托付的阶段。
接下来最该看三件事。
Google Meet 私测什么时候扩大,扩大到哪些 Workspace 客户;Gemini Live API 的价格、调用限制和延迟表现是否适合规模化;高噪声、多说话人、专业术语场景下,错误率能不能被业务接受。
如果这些变量不过关,Live Translate 会是很好用的辅助工具。如果过关,它才可能成为跨语言语音应用的底层能力。
