Nothing Essential Voice 上线：AI 听写进系统，真正抢的是手机输入权

人工智能 2026年4月24日

核心摘要 Summary

Nothing 发布系统级 AI 听写工具 Essential Voice，首发 Phone (3)，可跨 App 把语音转成整理后的文本，支持 100 多种语言、翻译和自定义语音快捷短语。
重点不是它又做了一个听写工具，而是手机厂商开始把语音输入、AI 改写和系统入口绑在一起。
用户该看三件事：准不准、语音数据怎么处理、跨 App 调用是否真的顺手。

内容导图 Mind Map

AI输入权

Nothing 抢系统入口

功能上线

听写进系统层

跨App调用

少复制粘贴

文本整理

口语转可发文本

入口竞争

位置重于功能

系统优势

调用摩擦更低

平台价值

改写输入路径

受益人群

高频输入先受益

移动办公

邮件纪要更快

多语言沟通

小沟通成本下降

硬门槛

发布后见真章

准确率

口音噪声仍待测

隐私链路

处理方式未讲清

购买判断

加分项非刚需

迁移谨慎

等真实体验出炉

Nothing 推出了 AI 听写工具 Essential Voice。它能在任意 App 里把语音转成格式化文本，自动去掉 “um”“ah” 这类填充词，并支持 100 多种语言和跨语言翻译。

这件事的看点不在“AI”两个字。听写工具早就很多。Nothing 的动作更像是在把输入入口往系统里收：先让 Phone (3) 用户用起来，再推给 Phone (4a) Pro 和 Phone (4a)。手机厂商又一次盯上了最底层的东西——你怎么把想法送进手机。

Essential Voice 能做什么，谁先用到

Essential Voice 有两个入口。带 Essential key 的设备可以按实体键调用，也可以从键盘里启动。

它的核心功能很直接：说话，转文字，整理成更可发送的文本。它还能翻译，并用快捷短语替你展开重复内容。

项目	Essential Voice 的做法	对用户的实际影响
使用范围	可跨 App 调用	在聊天、邮件、文档里少复制粘贴
文本处理	自动格式化，去掉填充词	口语更接近可直接发送的文字
快捷短语	地址、链接、模板可映射成口令	填表、回邮件、发固定信息更快
语言能力	支持 100 多种语言，可跨语言翻译	多语言沟通更省事，但准确率未知
上线节奏	Phone (3) 首发；Phone (4a) Pro 本月晚些时候推送；Phone (4a) 下月支持	老用户是否能用，取决于机型和推送时间
后续计划	按 App 类型定制语气	工作邮件和即时聊天可能生成不同语气

最直接受影响的是两类人。

一类是重度移动办公用户。比如外勤路上回邮件、会议间隙补纪要、通勤时处理表单。过去要打字、改格式、删口头禅。现在如果识别够准，可以直接说完再轻修。

另一类是多语言写作和跨国沟通用户。比如把中文口述变成英文消息，或把一段口语整理成可发给同事的文本。它不一定替代专业翻译，但可能减少每天几十次小沟通里的摩擦。

边界也要说清。Nothing 没披露 Essential Voice 的模型来源。它也没有在这些信息里承诺完全离线或绝对隐私安全。别把“AI 听写”自动理解成“本地大模型安全处理”。

差异不在听写，而在系统入口

AI 听写已经很挤。Superwhisper、Wispr Flow、Willow、Monologue 都在做类似功能。Superwhisper 本周还给 iPhone 用户提供了把操作按钮映射到键盘听写的方式。Google 也推出过离线优先的 AI 听写工具。

Nothing 的差异不是功能清单最长，而是入口更靠近系统。第三方 App 再强，也要经过权限、键盘、快捷方式和用户习惯。系统级入口少一层摩擦，就多一次被用户留下的机会。

这就是平台生意的老问题。浏览器、默认搜索框、输入法都证明过：入口看起来只是工具，实际会改写行为路径。古人说“天下熙熙，皆为利来”。放到手机系统里，利来不是一句俗话，而是数据流向、用户依赖和产品分发权。

但这还不是手机交互革命。它目前更像听写、格式化、翻译、快捷短语的组合。做得好，是高频输入工具。做不好，就是设置里又一个被关掉的 AI 开关。

对正在用第三方听写工具的人，决策很简单：不用急着迁移。等真实准确率、隐私说明、跨 App 稳定性出来，再决定是否把日常输入交给系统。对准备买 Nothing 手机的人，也别只因为 Essential Voice 下单。它是加分项，不该是唯一理由。

Nothing 方向对了，但硬仗在发布会之后

我认可 Nothing 把 AI 放进输入层。AI 手机如果只会在相册里修图、在摘要里堆按钮，价值很薄。输入是高频动作。发消息、写邮件、记会议、填表、翻译，才是手机每天真正吃时间的地方。

麻烦也在这里。输入工具不能只演示顺滑。它要在噪声、口音、专有名词、混合语言、人名和地址里活下来。

支持 100 多种语言，不等于 100 多种语言都好用。英语普通话场景准，不代表方言、口音、行业术语也准。没有测试数据之前，这个数字只能说明覆盖范围，不能说明体验质量。

隐私更是硬门槛。听写处理的是原始语音、联系人、地址、工作内容，有时比普通文本更敏感。用户真正需要知道的是：语音在哪里处理，是否上传，保存多久，是否用于改进服务，能不能关闭相关使用。

接下来最该看四件事：

真实准确率.人名、地址、专业术语、口音和噪声环境能不能扛住。
处理链路.本地和云端各负责什么，语音和文本如何保存。
跨 App 体验.调用是否稳定，是否打断当前输入流程。
改写边界.按 App 调整语气时，会不会把用户原意改成一股“AI 味”。

Nothing 这次抓住了一个真入口。不是因为它的功能前所未见，而是因为它把功能放到了用户最常用的位置。平台战争里，位置经常比功能更狠。

但入口只是门。门后是不是路，要靠每天不掉链子的体验证明。准确、可信、顺手，少一个都不行。

锐评 Commentary

Nothing 方向选对了：AI 输入权比模型口号更值钱。但胜负不在发布会，在准确率、隐私解释和日常顺手度。

Essential VoiceNothingAI 听写语音输入系统级入口语音转文本跨语言翻译Phone (3)输入权隐私信任