Nothing 推出了 AI 听写工具 Essential Voice。它能在任意 App 里把语音转成格式化文本,自动去掉 “um”“ah” 这类填充词,并支持 100 多种语言和跨语言翻译。

这件事的看点不在“AI”两个字。听写工具早就很多。Nothing 的动作更像是在把输入入口往系统里收:先让 Phone (3) 用户用起来,再推给 Phone (4a) Pro 和 Phone (4a)。手机厂商又一次盯上了最底层的东西——你怎么把想法送进手机。

Essential Voice 能做什么,谁先用到

Essential Voice 有两个入口。带 Essential key 的设备可以按实体键调用,也可以从键盘里启动。

它的核心功能很直接:说话,转文字,整理成更可发送的文本。它还能翻译,并用快捷短语替你展开重复内容。

项目Essential Voice 的做法对用户的实际影响
使用范围可跨 App 调用在聊天、邮件、文档里少复制粘贴
文本处理自动格式化,去掉填充词口语更接近可直接发送的文字
快捷短语地址、链接、模板可映射成口令填表、回邮件、发固定信息更快
语言能力支持 100 多种语言,可跨语言翻译多语言沟通更省事,但准确率未知
上线节奏Phone (3) 首发;Phone (4a) Pro 本月晚些时候推送;Phone (4a) 下月支持老用户是否能用,取决于机型和推送时间
后续计划按 App 类型定制语气工作邮件和即时聊天可能生成不同语气

最直接受影响的是两类人。

一类是重度移动办公用户。比如外勤路上回邮件、会议间隙补纪要、通勤时处理表单。过去要打字、改格式、删口头禅。现在如果识别够准,可以直接说完再轻修。

另一类是多语言写作和跨国沟通用户。比如把中文口述变成英文消息,或把一段口语整理成可发给同事的文本。它不一定替代专业翻译,但可能减少每天几十次小沟通里的摩擦。

边界也要说清。Nothing 没披露 Essential Voice 的模型来源。它也没有在这些信息里承诺完全离线或绝对隐私安全。别把“AI 听写”自动理解成“本地大模型安全处理”。

差异不在听写,而在系统入口

AI 听写已经很挤。Superwhisper、Wispr Flow、Willow、Monologue 都在做类似功能。Superwhisper 本周还给 iPhone 用户提供了把操作按钮映射到键盘听写的方式。Google 也推出过离线优先的 AI 听写工具。

Nothing 的差异不是功能清单最长,而是入口更靠近系统。第三方 App 再强,也要经过权限、键盘、快捷方式和用户习惯。系统级入口少一层摩擦,就多一次被用户留下的机会。

这就是平台生意的老问题。浏览器、默认搜索框、输入法都证明过:入口看起来只是工具,实际会改写行为路径。古人说“天下熙熙,皆为利来”。放到手机系统里,利来不是一句俗话,而是数据流向、用户依赖和产品分发权。

但这还不是手机交互革命。它目前更像听写、格式化、翻译、快捷短语的组合。做得好,是高频输入工具。做不好,就是设置里又一个被关掉的 AI 开关。

对正在用第三方听写工具的人,决策很简单:不用急着迁移。等真实准确率、隐私说明、跨 App 稳定性出来,再决定是否把日常输入交给系统。对准备买 Nothing 手机的人,也别只因为 Essential Voice 下单。它是加分项,不该是唯一理由。

Nothing 方向对了,但硬仗在发布会之后

我认可 Nothing 把 AI 放进输入层。AI 手机如果只会在相册里修图、在摘要里堆按钮,价值很薄。输入是高频动作。发消息、写邮件、记会议、填表、翻译,才是手机每天真正吃时间的地方。

麻烦也在这里。输入工具不能只演示顺滑。它要在噪声、口音、专有名词、混合语言、人名和地址里活下来。

支持 100 多种语言,不等于 100 多种语言都好用。英语普通话场景准,不代表方言、口音、行业术语也准。没有测试数据之前,这个数字只能说明覆盖范围,不能说明体验质量。

隐私更是硬门槛。听写处理的是原始语音、联系人、地址、工作内容,有时比普通文本更敏感。用户真正需要知道的是:语音在哪里处理,是否上传,保存多久,是否用于改进服务,能不能关闭相关使用。

接下来最该看四件事:

  • 真实准确率.人名、地址、专业术语、口音和噪声环境能不能扛住。
  • 处理链路.本地和云端各负责什么,语音和文本如何保存。
  • 跨 App 体验.调用是否稳定,是否打断当前输入流程。
  • 改写边界.按 App 调整语气时,会不会把用户原意改成一股“AI 味”。

Nothing 这次抓住了一个真入口。不是因为它的功能前所未见,而是因为它把功能放到了用户最常用的位置。平台战争里,位置经常比功能更狠。

但入口只是门。门后是不是路,要靠每天不掉链子的体验证明。准确、可信、顺手,少一个都不行。