ServiceNow-AI 在 Hugging Face 发了 EVA-Bench Data 2.0。数字不复杂:3 个企业领域,121 个工具,213 个评测场景,场景量约为上一版 4 倍。

更要紧的是评测方向变了。它不是继续奖励语音 Agent 把话说得像真人,而是把它按进企业流程:要认证,要查权限,要遵守政策,要知道哪些请求不能答应。

语音 Agent 真进企业电话系统后,最危险的不是“答不上来”。最危险的是答得很顺,事情却办错了。

它到底评什么:三类企业电话场景

EVA-Bench 2.0 从单一企业领域扩展到三类电话服务场景:航空客服、企业 IT 服务、医疗 HR 服务。

领域场景数主要压力点
Airline CSM50改签、确认码、航班客服流程
ITSM80工单、故障、访问权限、企业 IT 流程
Healthcare HRSD83医疗 HR、保险、FMLA、NPI 等政策约束

合计是 213 个评测场景、121 个工具、35+ 工作流。数据集开源,可在 Hugging Face 获取。

原文还提到,每个场景都用 OpenAI GPT-5.4、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6 做过可解性验证。这个边界要说清:这不是三家模型的性能榜,也没有给出具体分数。它只是说明这些题不是随手编的死局,至少经过前沿模型检查,任务可解,设定相对公平。

另一个边界也重要:这不是完整生产通话的原样复刻。它更像基于真实流程、政策和 API 约束写出来的测试剧本。能逼近企业现场,但不能等同于真实部署结果。

对开发者来说,它的直接用途不是拿来发一张“模型排名图”。更现实的用法是把自己的语音 Agent 接进这些流程,检查工具调用、认证处理、拒绝策略和多轮对话是否稳定。

对采购方来说,它至少提供了一个问供应商的抓手:别只演示顺滑对话,拿复杂流程跑一遍。跑不过,就别急着接生产系统。

真正难的是拒绝、鉴权和多意图

EVA-Bench 2.0 里最有价值的部分,不是场景变多,而是它把 happy path 往后放了。

它重点覆盖几类麻烦场景:认证、不可满足目标、对抗用户、多意图通话。

这些东西不漂亮,但很企业。

一个用户可能在同一通电话里改航班、查积分、更新联系方式。一个员工可能同时报修电脑、追问工单、申请系统权限。HR 场景里,用户要的结果可能本来就不符合政策。还有人会试图绕过身份验证,或者要求访问自己无权查看的记录。

普通演示很少碰这些。演示喜欢用户配合、系统顺利、目标明确。企业现场不这样。

企业现场的错误成本,常常发生在一句“可以”的后面。不该改签却改了,不该开权限却开了,不该解释政策却乱解释了。语音 Agent 一旦接入工具和系统,它就不只是客服话术,而是执行入口。

EVA-Bench 还强调每个场景只有一条正确解决路径,用来保证可复现。这个设计看起来有点硬,但必要。否则同一任务今天多问一句、明天少说一句,结果差异到底来自模型能力,还是来自剧情漂移,很难判断。

这里也有现实限制。企业流程不是永远只有一条路径,真实客服也常常会转人工、延期处理、补材料。EVA-Bench 2.0 更适合作为基础压力测试,不该被包装成“真实业务全覆盖”。

我更看重它能不能推动团队改评测习惯。过去很多语音 Agent 测的是听写、延迟、拟人感。下一步该测的是:

  • 用户没过认证时,能不能停住;
  • 工具返回异常时,能不能恢复;
  • 请求违反政策时,能不能拒绝;
  • 多个意图混在一起时,能不能排序处理;
  • 任务完成前,能不能保持状态一致。

这些指标不如“像真人”好卖,但更接近企业买单的理由。

分水岭不是会聊天,是能不能被托付

很多语音 Agent 的宣传还停在三个词:自然、低延迟、真人感。

这些当然重要。电话体验太差,用户会直接挂断。但企业真正害怕的不是 Agent 不够会说话,而是它会说、会做、还不守边界。

航空客服里,一次错误改签可能带来赔付和投诉。ITSM 里,一次权限误开可能变成安全事故。医疗 HR 里,一句政策误读可能牵涉合规风险。

所以企业语音 Agent 的分水岭,不是“能不能聊”。是能不能在复杂流程里守规则、调工具、拒绝错误请求,并且把失败处理得可追踪。

这件事有点像早期铁路和电力进入工业现场。发明本身很耀眼,但真正决定它能不能铺开的是标准、调度、责任和安全边界。今天的语音 Agent 不完全一样,但结构相近:技术要进生产系统,就必须接受组织规则的约束。

“天下熙熙,皆为利来”。企业上 Agent,图的是降本、提效、缩短等待时间。问题是,如果评测只奖励流畅表达,不惩罚越权和误办,省下的是客服成本,攒起来的是治理债。

接下来最该观察的,不是 EVA-Bench 2.0 会不会变成又一个榜单页面。而是企业 AI 团队会不会把它这类评测放进上线门槛。

更具体一点,看三件事。

一看供应商是否愿意公开复杂流程下的失败案例,而不只展示成功录屏。二看企业采购是否把认证、权限、拒绝策略写进验收标准。三看开发团队是否把工具调用和政策约束当成核心能力,而不是产品上线前的补丁。

如果这些没变,语音 Agent 还是会继续在演示里显得很聪明,在流程里制造麻烦。

EVA-Bench 2.0 的意义就在这里:它把行业从“说得像人”拉回“办得像一个受约束的企业员工”。这不炫,但更接近真实落地。