一个研究型 Agent 最危险的动作,可能不是读取企业内部文档,而是把几个看似普通的词扔进外部搜索框。

ServiceNow 在 Hugging Face 发布了 MosaicLeaks。它测的不是模型会不会胡说,而是深度研究 Agent 在本地企业文档和 Web 检索之间来回跳时,会不会把私有信息拆成查询词带出去。

最刺眼的数字很简单:Base Qwen3-4B 的任务成功率是 48.7%,泄露率 34.0%;只按任务表现训练后,成功率升到 59.3%,泄露率也升到 51.7%。模型更会办事了,也更会顺手把秘密塞进查询。

MosaicLeaks 测的不是回答,是查询

MosaicLeaks 包含 1,001 条多跳研究链。任务材料交织本地企业文档和受控 Web 语料,用来模拟一种企业里很常见的流程:Agent 先读内部材料,再去外部搜索补证据,最后拼出答案。

限制也要讲清楚。这里的企业文档是合成的,Web 语料是受控的。它不是线上事故报告,不能直接等同真实企业部署泄露率。

但这个基准抓住了一个真实口子:查询日志本身就是泄露通道。

攻击者不需要拿到企业文档,也不需要看到模型的推理链。只要能看到 Agent 发出的 Web 查询,就可能从碎片里拼出内部事实。

泄露类型查询日志暴露了什么现实风险
Intent leakage能推断 Agent 在研究什么暴露调查目标、业务方向或内部关切
Answer leakage给定私有问题后,可用查询日志答出来查询已经带出答案线索
Full-information leakage只靠查询日志说出可验证私有事实最严重,问题本身都不用给

这就是“马赛克效应”。一条查询只有公司名,另一条有月份,第三条有比例或指标。单看都像正常检索,合在一起就像把内部报告拆成了搜索词。

受影响最大的是两类人。

一类是做企业 Agent 的产品和安全团队。只测回答是否正确不够,还要测出站查询是否泄露。

另一类是采购深度研究 Agent 的企业客户。供应商如果只展示完成率,不解释查询日志、外部工具和隐私评测,采购就该慢一点。

反常点:完成率越高,泄露率也可能越高

这篇工作最有价值的地方,不是证明某个模型不安全。它把一个更麻烦的冲突摆出来了:任务奖励可能会放大隐私泄露。

数据对比很直白。

方案严格链路成功率泄露率说明
Base Qwen3-4B48.7%34.0%基础 Agent 表现
任务奖励训练59.3%51.7%只奖励任务成功,泄露上升
提示词约束44.5%25.5%泄露下降,但成功率也掉
PA-DR58.7%9.9%把隐私惩罚写进训练目标

自然反应是给 Agent 加一句提示:不要发出可能泄露本地信息的 Web 查询。

论文里也试了。对 Qwen3-4B,泄露率从 34.0% 降到 25.5%,但成功率从 48.7% 掉到 44.5%。

这说明提示词能管一点,但管不稳。它更像是在让 Agent 缩手缩脚,而不是学会安全地搜索。

PA-DR 的思路更接近问题本身:把隐私放进奖励函数。它既奖励 Agent 找到正确文档,也惩罚那些会直接泄露、或累积形成马赛克泄露的查询。

结果是成功率 58.7%,接近任务奖励训练的 59.3%;泄露率降到 9.9%。

这里还有一个容易误读的点:PA-DR 不是简单让 Agent 少搜索。它可能发出更多 Web 查询,但查询里更少携带私有碎片,比如具体比例、年份、内部实体和答案形态。

问题不在搜索次数,而在搜索词里塞了什么。

企业该盯住奖励函数和出站边界

我更在意的是训练激励。

对研究型 Agent 来说,更具体的查询通常更有效。带上公司名、指标、日期、上下文,搜索命中率会提高。对任务有用的信息,对旁观者也同样有用。

所以这不是模型“笨”。恰恰是模型更会利用上下文后,把私有上下文当成了检索燃料。

“天下熙熙,皆为利来。”放到机器学习里,这个“利”就是奖励函数。奖励完成率,模型就会奔着完成率去;隐私没有进账本,它就会被当成成本外包给查询日志。

企业落地时,最该改的不是一句系统提示,而是三道闸。

要管的环节该问的问题对应动作
查询生成Agent 会不会把内部实体、数字、结论带出去做查询级隐私评测,拦截高风险查询
外部工具Web 搜索能拿到多少上下文用工具代理、字段脱敏、最小必要上下文
日志权限谁能看到查询和返回结果限制日志访问,区分调试日志和生产日志

对 Agent 开发团队,动作更具体:把 MosaicLeaks 这类测试接进评测集;上线前不要只看 answer accuracy;出站查询要单独打分。

对企业采购方,问题也很直接:供应商能不能说明查询日志怎么存、谁能看、是否支持脱敏和审计;如果答不上来,先别把内部文档全接进去。

PA-DR 也不能被吹成终局方案。9.9% 仍然是泄露。结果还依赖单一 agent harness 和特定任务设计。真实企业里的权限、工具链、日志系统、网络边界更乱。

接下来该看三件事。

一是 PA-DR 这类方法能不能迁移到更多模型和真实工具链。二是企业 Agent 平台会不会把“查询泄露率”做成默认指标。三是厂商是否愿意开放查询日志治理能力,而不是只给一张漂亮的任务成功率曲线。

开头那个搜索框,可以收回来了。危险不在搜索本身,而在模型学会把私有信息当作搜索捷径。

捷径走多了,就是暗门。