一块 8×8 的在线记忆状态,能不能让大模型更会用历史信息?

这就是新论文《δ-mem: Efficient Online Memory for Large Language Models》最有意思的地方。论文编号是 arXiv:2605.12357,提交时间为 2026 年 5 月 12 日。作者没有选择继续拉长上下文窗口,也没有训练一个新骨干模型,而是在冻结的全注意力大模型上,加了一个小型在线关联记忆状态。

反常点在这里:长程 Agent 最缺的是持续记忆,但最直觉的办法往往很笨——把更多历史塞进 prompt,或者上更长上下文模型。δ-mem 给出的判断是,历史信息不一定都要以 token 形式躺在上下文里,也可以被压缩进一个固定大小状态矩阵,并在生成时影响注意力计算。

我更在意的不是它又刷了几个分数,而是它把“长记忆”从堆窗口这条路上拽开了一点。

δ-mem 做的不是扩窗口,而是给注意力加一条记忆旁路

δ-mem 的核心机制并不复杂。

模型运行时维护一个固定大小的在线记忆矩阵。历史信息通过 delta-rule learning 写入这个矩阵。生成时,记忆读出的结果不直接变成更长提示词,而是对骨干模型的注意力计算做低秩修正。

这几个边界很关键:

  • 不替换骨干模型;
  • 不做全量微调;
  • 不显式扩展上下文窗口;
  • 把历史信息压缩到固定大小状态矩阵;
  • 在生成时影响注意力计算。

论文里提到的 8×8,也要看准。它不是上下文窗口大小,不是 8K、80K 这种 token 数。它也不是模型参数规模。它是实验中的在线记忆状态尺寸,更像一个随对话和任务滚动更新的小型关联缓存。

把几条常见路线放在一起看,δ-mem 的位置会更清楚:

路线典型做法主要代价δ-mem 的差异
扩上下文增大可输入 token 数推理成本更高,长历史未必被有效利用不显式扩窗口
RAG / 外部记忆检索文档或会话片段依赖切分、召回、排序和摘要质量记忆直接耦合注意力计算
全量微调更新模型权重成本高,部署链路重冻结骨干模型
换骨干模型上新架构或更大模型迁移和评估成本高在现有全注意力模型上增强

这对 Agent 研发团队的含义很直接。

如果团队现在主要靠“会话摘要 + 检索 + 长 prompt”维持长期任务状态,δ-mem 至少提供了一个可验证的新假设:有些历史信息可以进入模型计算路径,而不是每次都重新塞回上下文。

但它还不是替代 RAG 的结论。RAG 解决的是外部知识和可追溯材料,δ-mem 更像在处理模型内部的在线状态复用。一个偏“找回来”,一个偏“记住并影响计算”。两者可能互补,不必硬分胜负。

分数有信号,但还不能当落地结论

论文给出的结果不弱。

按摘要,δ-mem 的平均分达到冻结骨干模型的 1.10×,达到最强非 δ-mem 记忆基线的 1.15×。在更依赖历史信息的任务上,提升更明显:MemoryAgentBench 为 1.31×,LoCoMo 为 1.20×。

作者还称,一般能力基本保留,收益主要集中在记忆密集型任务。

这说明一件事:小型在线状态不只是装饰,它可能真的改变模型复用历史信息的方式。尤其在长程助手、任务型 Agent、多轮偏好跟踪这类场景里,收益更容易出现。

但证据边界也要写清。

这仍是一篇 arXiv 预印本,不能写成已经同行评审。材料中也没有足够信息支撑代码开源、模型规模、训练成本、部署成本等判断。更不能直接说 δ-mem 已经解决长上下文问题。

目前更稳妥的说法是:论文证明了它在特定基准上的提升,且提升更集中在记忆密集型任务。至于工程接入后能不能省 token、降延迟、跨模型稳定迁移,还看不清。

这里有一个容易被忽略的限制:固定大小记忆矩阵意味着它必须压缩和取舍。压缩带来效率,也带来损失。长期 Agent 真正难的不是“存进去”,而是冲突信息怎么处理、旧信息怎么遗忘、错误记忆会不会滚雪球。

这也是它和简单扩大上下文的分水岭。扩上下文的麻烦是贵,δ-mem 的麻烦是可控性。前者烧算力,后者考治理。

受影响的不是普通用户,而是做长程 Agent 的团队

对普通用户来说,δ-mem 现在还不是一个能立刻感知的新功能。它不是某个产品按钮,也不是可直接购买的记忆插件。

真正该看这篇论文的,是两类人。

一类是做 Agent 系统的研发团队。如果你们已经在为长任务维护会话摘要、任务状态、用户偏好和工具调用记录,接下来可以把 δ-mem 当成研究型备选路线,而不是立刻迁移。更现实的动作是:保留现有 RAG 和摘要链路,同时设计小规模对照实验,看它是否减少上下文占用、降低重复召回,并提升多轮任务完成率。

另一类是企业应用负责人或采购方。这里不适合马上把 δ-mem 写进采购需求。更合理的动作是延后判断,要求供应商说明三件事:记忆能否删除,状态能否审计,错误记忆能否回滚。没有这些,所谓“长期记忆”很容易从能力卖点变成合规负担。

接下来最该观察的也不是单个榜单数字,而是几个硬变量:

观察项为什么重要现在的状态
独立复现判断提升是否稳健目前主要来自论文实验
真实 Agent 工作流看是否真能降 token、降延迟摘要信息不足,不能下结论
跨模型迁移冻结骨干是否真的降低接入成本仍需更多实验支撑
可删、可审计、可回滚企业记忆系统的底线论文结果不能替代治理方案

我的判断比较克制:δ-mem 值得技术团队跟进,但不值得产品团队抢跑包装。

它的价值在于提出了一条更轻的长记忆增强路径:不换模型,不全量微调,不直接扩窗口,而是用固定大小在线状态影响注意力。它的风险也在同一个地方:记忆被压缩进状态之后,如何解释、清除和纠错,会比 prompt 里的明文历史更麻烦。

长程 Agent 需要记忆,但不能只追求“记得更多”。记忆系统一旦进入真实业务,就必须回答少记什么、错了怎么办、谁能删除。δ-mem 把问题推进了一步,也把这些旧问题重新摆到了桌面上。