你以为是在让 AI 改文档。论文里的结果更别扭:它可能一边完成指令,一边把底稿改坏。

这不是整份文件丢了,也不是 25% 的任务失败。更麻烦的是,错误稀疏、严重、静默累积。等你发现时,公式、代码、标记、引用、结构可能已经在几轮编辑里变形。

这篇论文真正戳中的,不是模型会不会写错一句话。它问的是:一个 AI agent 能不能被长期委托处理关键文档。

DELEGATE-52 测的不是写作能力,而是托管能力

论文题为《LLMs Corrupt Your Documents When You Delegate》,arXiv 编号 2604.15597,提交时间是 2026 年 4 月 17 日。

先把边界说清:这是 arXiv 预印本,不是已经同行评审的定论。它也不能推出“所有短文本生成、问答、一次性润色都不可靠”。

它测的是更窄、也更接近企业落地的一类场景:把复杂文档交给大模型,经过多轮指令、长流程编辑后,原文还能不能守住。

问题论文信息该怎么读
测了谁19 个 LLM,包括 Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 等不是只拿弱模型垫背
测什么DELEGATE-52,覆盖 52 个专业领域包括 coding、crystallography、music notation 等
核心结果前沿模型流程末尾平均破坏约 25% 文档内容不是 25% 文件丢失,也不是 25% 任务失败
错误形态稀疏但严重,会静默累积单轮看着没事,多轮后出问题
恶化因素文档更大、交互更长、存在干扰文件越像真实工作流,越需要警惕
工具调用agentic tool use 未改善表现会用工具,不等于更可靠

这张表已经说明问题。

最危险的场景不是让 AI 写一段介绍。是让它维护代码、科研材料、乐谱标记、合同条款、知识库页面。内容越结构化,越不能只看“读起来顺不顺”。

因为这些文档里的小错,不一定像错别字那样刺眼。一个标记错位、一段代码被误改、一个引用变形,后面可能牵出一串连锁问题。

受影响最大的是两类团队

第一类,是正在把 AI agent 接进文档、代码和知识库流程的团队。

如果原计划是让 agent 直接改主文档、自动提交、自动覆盖,那这篇论文至少给了一个暂停键。采购可以不必取消,但上线方式要改。先跑沙盒。先看 diff。先限制写权限。

第二类,是做企业 AI 产品和内部工具平台的团队。

卖点不能只写“端到端完成任务”。企业客户真正会问的是:改了哪里?谁批准?错了能不能回滚?关键字段有没有校验?干扰文件会不会误伤?

这里有个现实约束:模型越像一个能干员工,越容易让人放松流程。

但组织管理里从来不是“能干”就能随便改底账。人类编辑会犯错,所以成熟组织才有版本管理、审阅权限、变更记录、责任边界。AI agent 如果绕开这些制度,直接长时间操作底稿,那不是效率升级,是把风险藏进自动化里。

“差之毫厘,谬以千里。”这句老话放在普通聊天里有点重,放在晶体学、代码库、合同和乐谱里刚好。

我更在意的不是 25% 这个数本身。预印本、基准设计、评测口径都还需要更多验证。真正该盯住的是错误类型:它不是大喊一声“我失败了”,而是安静地把文档带偏。

这和一次性问答不同。一次性回答错了,人还容易怀疑。长流程委托最麻烦的地方,是人会逐步把注意力从逐字检查切到结果验收。

信任就是这么丢的。

接下来别看演示,看三道闸门

我不太买账“加上工具就好了”的说法。论文里一个刺眼点是:agentic tool use 没有改善表现。

这不等于工具没用。它说明工具不是护身符。没有验证、权限和回滚,工具调用只会让模型更方便地把错误写进文件系统。

接下来最该观察三件事。

  • 产品是否默认保留原文,不直接覆盖底稿。
  • 每次修改是否强制生成可审计 diff,而不是只给一段总结。
  • 高风险文档是否有规则校验、分段锁定、人类确认和一键回滚。

这些功能听起来不性感。也不适合发布会上做三分钟炫技。

但生产系统靠的就是这些笨办法。铁路、电力、互联网早期都经历过类似阶段:能力先扩张,治理后补课。今天的 AI agent 不完全一样,但重复的是同一种组织惯性——新工具刚能干活,就被急着当基础设施。

这篇论文的价值,不是劝人别用大模型。它更像一条分界线:让 AI 生成内容,和让 AI 长期照看关键文档,是两种产品。

前者看智能上限。后者看可靠性下限。

企业团队现在该做的,不是急着问哪个模型赢了。论文没有给我们一个可以直接拿来采购的胜负表。更实际的问题是:你的流程里,AI 有没有权力直接改原件?有没有干扰文件?有没有长对话累积?有没有人真的看 diff?

如果答案都偏危险,那就别把 agent 放到主干流程里。先让它提建议、生成补丁、跑在副本上。等验证链条补齐,再谈长期委托。

能写,是能力。可托付,是制度和工程。两者之间,差着一整套刹车系统。