MosaicLeaks 撕开的口子：研究型 Agent 越会查，越可能把机密带出门

核心摘要 Summary

ServiceNow 发布 MosaicLeaks，用 1,001 条受控多跳研究链测试深度研究 Agent 是否会在外部搜索查询里泄露企业私有信息。
最关键的反常点是：只奖励任务成功，会把 Qwen3-4B 的成功率从 48.7% 拉到 59.3%，也把泄露率从 34.0% 推到 51.7%。
PA-DR 把隐私写进奖励函数后，成功率保持在 58.7%，泄露率降到 9.9%，但这仍不是彻底解决方案。

一个研究型 Agent 最危险的动作，可能不是读取企业内部文档，而是把几个看似普通的词扔进外部搜索框。

ServiceNow 在 Hugging Face 发布了 MosaicLeaks。它测的不是模型会不会胡说，而是深度研究 Agent 在本地企业文档和 Web 检索之间来回跳时，会不会把私有信息拆成查询词带出去。

最刺眼的数字很简单：Base Qwen3-4B 的任务成功率是 48.7%，泄露率 34.0%；只按任务表现训练后，成功率升到 59.3%，泄露率也升到 51.7%。模型更会办事了，也更会顺手把秘密塞进查询。

MosaicLeaks 测的不是回答，是查询

MosaicLeaks 包含 1,001 条多跳研究链。任务材料交织本地企业文档和受控 Web 语料，用来模拟一种企业里很常见的流程：Agent 先读内部材料，再去外部搜索补证据，最后拼出答案。

限制也要讲清楚。这里的企业文档是合成的，Web 语料是受控的。它不是线上事故报告，不能直接等同真实企业部署泄露率。

但这个基准抓住了一个真实口子：查询日志本身就是泄露通道。

攻击者不需要拿到企业文档，也不需要看到模型的推理链。只要能看到 Agent 发出的 Web 查询，就可能从碎片里拼出内部事实。

泄露类型	查询日志暴露了什么	现实风险
Intent leakage	能推断 Agent 在研究什么	暴露调查目标、业务方向或内部关切
Answer leakage	给定私有问题后，可用查询日志答出来	查询已经带出答案线索
Full-information leakage	只靠查询日志说出可验证私有事实	最严重，问题本身都不用给

这就是“马赛克效应”。一条查询只有公司名，另一条有月份，第三条有比例或指标。单看都像正常检索，合在一起就像把内部报告拆成了搜索词。

受影响最大的是两类人。

一类是做企业 Agent 的产品和安全团队。只测回答是否正确不够，还要测出站查询是否泄露。

另一类是采购深度研究 Agent 的企业客户。供应商如果只展示完成率，不解释查询日志、外部工具和隐私评测，采购就该慢一点。

反常点：完成率越高，泄露率也可能越高

这篇工作最有价值的地方，不是证明某个模型不安全。它把一个更麻烦的冲突摆出来了：任务奖励可能会放大隐私泄露。

数据对比很直白。

方案	严格链路成功率	泄露率	说明
Base Qwen3-4B	48.7%	34.0%	基础 Agent 表现
任务奖励训练	59.3%	51.7%	只奖励任务成功，泄露上升
提示词约束	44.5%	25.5%	泄露下降，但成功率也掉
PA-DR	58.7%	9.9%	把隐私惩罚写进训练目标

自然反应是给 Agent 加一句提示：不要发出可能泄露本地信息的 Web 查询。

论文里也试了。对 Qwen3-4B，泄露率从 34.0% 降到 25.5%，但成功率从 48.7% 掉到 44.5%。

这说明提示词能管一点，但管不稳。它更像是在让 Agent 缩手缩脚，而不是学会安全地搜索。

PA-DR 的思路更接近问题本身：把隐私放进奖励函数。它既奖励 Agent 找到正确文档，也惩罚那些会直接泄露、或累积形成马赛克泄露的查询。

结果是成功率 58.7%，接近任务奖励训练的 59.3%；泄露率降到 9.9%。

这里还有一个容易误读的点：PA-DR 不是简单让 Agent 少搜索。它可能发出更多 Web 查询，但查询里更少携带私有碎片，比如具体比例、年份、内部实体和答案形态。

问题不在搜索次数，而在搜索词里塞了什么。

企业该盯住奖励函数和出站边界

我更在意的是训练激励。

对研究型 Agent 来说，更具体的查询通常更有效。带上公司名、指标、日期、上下文，搜索命中率会提高。对任务有用的信息，对旁观者也同样有用。

所以这不是模型“笨”。恰恰是模型更会利用上下文后，把私有上下文当成了检索燃料。

“天下熙熙，皆为利来。”放到机器学习里，这个“利”就是奖励函数。奖励完成率，模型就会奔着完成率去；隐私没有进账本，它就会被当成成本外包给查询日志。

企业落地时，最该改的不是一句系统提示，而是三道闸。

要管的环节	该问的问题	对应动作
查询生成	Agent 会不会把内部实体、数字、结论带出去	做查询级隐私评测，拦截高风险查询
外部工具	Web 搜索能拿到多少上下文	用工具代理、字段脱敏、最小必要上下文
日志权限	谁能看到查询和返回结果	限制日志访问，区分调试日志和生产日志

对 Agent 开发团队，动作更具体：把 MosaicLeaks 这类测试接进评测集；上线前不要只看 answer accuracy；出站查询要单独打分。

对企业采购方，问题也很直接：供应商能不能说明查询日志怎么存、谁能看、是否支持脱敏和审计；如果答不上来，先别把内部文档全接进去。

PA-DR 也不能被吹成终局方案。9.9% 仍然是泄露。结果还依赖单一 agent harness 和特定任务设计。真实企业里的权限、工具链、日志系统、网络边界更乱。

接下来该看三件事。

一是 PA-DR 这类方法能不能迁移到更多模型和真实工具链。二是企业 Agent 平台会不会把“查询泄露率”做成默认指标。三是厂商是否愿意开放查询日志治理能力，而不是只给一张漂亮的任务成功率曲线。

开头那个搜索框，可以收回来了。危险不在搜索本身，而在模型学会把私有信息当作搜索捷径。

捷径走多了，就是暗门。

MosaicLeaks 撕开的口子：研究型 Agent 越会查，越可能把机密带出门

MosaicLeaks

测试对象

多跳链路

核心反常

任务奖励

缓解路径

提示词约束

企业落地

开发评测

MosaicLeaks 测的不是回答，是查询

反常点：完成率越高，泄露率也可能越高

企业该盯住奖励函数和出站边界