δ-mem 论文提出小型在线记忆：长程 Agent 不必只靠堆上下文

核心摘要 Summary

arXiv:2605.12357 提出 δ-mem：在冻结的全注意力大模型上加入固定大小在线关联记忆，用低秩修正影响注意力计算。
它不替换骨干模型、不做全量微调、不显式扩展上下文窗口，真正值得看的，是它能否成为扩上下文和复杂检索之外的低成本长记忆路线。
论文给出 8×8 记忆状态下的基准提升，但目前证据仍限于预印本实验，不能直接等同于可落地产品能力。

一块 8×8 的在线记忆状态，能不能让大模型更会用历史信息？

这就是新论文《δ-mem: Efficient Online Memory for Large Language Models》最有意思的地方。论文编号是 arXiv:2605.12357，提交时间为 2026 年 5 月 12 日。作者没有选择继续拉长上下文窗口，也没有训练一个新骨干模型，而是在冻结的全注意力大模型上，加了一个小型在线关联记忆状态。

反常点在这里：长程 Agent 最缺的是持续记忆，但最直觉的办法往往很笨——把更多历史塞进 prompt，或者上更长上下文模型。δ-mem 给出的判断是，历史信息不一定都要以 token 形式躺在上下文里，也可以被压缩进一个固定大小状态矩阵，并在生成时影响注意力计算。

我更在意的不是它又刷了几个分数，而是它把“长记忆”从堆窗口这条路上拽开了一点。

δ-mem 做的不是扩窗口，而是给注意力加一条记忆旁路

δ-mem 的核心机制并不复杂。

模型运行时维护一个固定大小的在线记忆矩阵。历史信息通过 delta-rule learning 写入这个矩阵。生成时，记忆读出的结果不直接变成更长提示词，而是对骨干模型的注意力计算做低秩修正。

这几个边界很关键：

不替换骨干模型；
不做全量微调；
不显式扩展上下文窗口；
把历史信息压缩到固定大小状态矩阵；
在生成时影响注意力计算。

论文里提到的 8×8，也要看准。它不是上下文窗口大小，不是 8K、80K 这种 token 数。它也不是模型参数规模。它是实验中的在线记忆状态尺寸，更像一个随对话和任务滚动更新的小型关联缓存。

把几条常见路线放在一起看，δ-mem 的位置会更清楚：

路线	典型做法	主要代价	δ-mem 的差异
扩上下文	增大可输入 token 数	推理成本更高，长历史未必被有效利用	不显式扩窗口
RAG / 外部记忆	检索文档或会话片段	依赖切分、召回、排序和摘要质量	记忆直接耦合注意力计算
全量微调	更新模型权重	成本高，部署链路重	冻结骨干模型
换骨干模型	上新架构或更大模型	迁移和评估成本高	在现有全注意力模型上增强

这对 Agent 研发团队的含义很直接。

如果团队现在主要靠“会话摘要 + 检索 + 长 prompt”维持长期任务状态，δ-mem 至少提供了一个可验证的新假设：有些历史信息可以进入模型计算路径，而不是每次都重新塞回上下文。

但它还不是替代 RAG 的结论。RAG 解决的是外部知识和可追溯材料，δ-mem 更像在处理模型内部的在线状态复用。一个偏“找回来”，一个偏“记住并影响计算”。两者可能互补，不必硬分胜负。

分数有信号，但还不能当落地结论

论文给出的结果不弱。

按摘要，δ-mem 的平均分达到冻结骨干模型的 1.10×，达到最强非 δ-mem 记忆基线的 1.15×。在更依赖历史信息的任务上，提升更明显：MemoryAgentBench 为 1.31×，LoCoMo 为 1.20×。

作者还称，一般能力基本保留，收益主要集中在记忆密集型任务。

这说明一件事：小型在线状态不只是装饰，它可能真的改变模型复用历史信息的方式。尤其在长程助手、任务型 Agent、多轮偏好跟踪这类场景里，收益更容易出现。

但证据边界也要写清。

这仍是一篇 arXiv 预印本，不能写成已经同行评审。材料中也没有足够信息支撑代码开源、模型规模、训练成本、部署成本等判断。更不能直接说 δ-mem 已经解决长上下文问题。

目前更稳妥的说法是：论文证明了它在特定基准上的提升，且提升更集中在记忆密集型任务。至于工程接入后能不能省 token、降延迟、跨模型稳定迁移，还看不清。

这里有一个容易被忽略的限制：固定大小记忆矩阵意味着它必须压缩和取舍。压缩带来效率，也带来损失。长期 Agent 真正难的不是“存进去”，而是冲突信息怎么处理、旧信息怎么遗忘、错误记忆会不会滚雪球。

这也是它和简单扩大上下文的分水岭。扩上下文的麻烦是贵，δ-mem 的麻烦是可控性。前者烧算力，后者考治理。

受影响的不是普通用户，而是做长程 Agent 的团队

对普通用户来说，δ-mem 现在还不是一个能立刻感知的新功能。它不是某个产品按钮，也不是可直接购买的记忆插件。

真正该看这篇论文的，是两类人。

一类是做 Agent 系统的研发团队。如果你们已经在为长任务维护会话摘要、任务状态、用户偏好和工具调用记录，接下来可以把 δ-mem 当成研究型备选路线，而不是立刻迁移。更现实的动作是：保留现有 RAG 和摘要链路，同时设计小规模对照实验，看它是否减少上下文占用、降低重复召回，并提升多轮任务完成率。

另一类是企业应用负责人或采购方。这里不适合马上把 δ-mem 写进采购需求。更合理的动作是延后判断，要求供应商说明三件事：记忆能否删除，状态能否审计，错误记忆能否回滚。没有这些，所谓“长期记忆”很容易从能力卖点变成合规负担。

接下来最该观察的也不是单个榜单数字，而是几个硬变量：

观察项	为什么重要	现在的状态
独立复现	判断提升是否稳健	目前主要来自论文实验
真实 Agent 工作流	看是否真能降 token、降延迟	摘要信息不足，不能下结论
跨模型迁移	冻结骨干是否真的降低接入成本	仍需更多实验支撑
可删、可审计、可回滚	企业记忆系统的底线	论文结果不能替代治理方案

我的判断比较克制：δ-mem 值得技术团队跟进，但不值得产品团队抢跑包装。

它的价值在于提出了一条更轻的长记忆增强路径：不换模型，不全量微调，不直接扩窗口，而是用固定大小在线状态影响注意力。它的风险也在同一个地方：记忆被压缩进状态之后，如何解释、清除和纠错，会比 prompt 里的明文历史更麻烦。

长程 Agent 需要记忆，但不能只追求“记得更多”。记忆系统一旦进入真实业务，就必须回答少记什么、错了怎么办、谁能删除。δ-mem 把问题推进了一步，也把这些旧问题重新摆到了桌面上。

δ-mem 论文提出小型在线记忆：长程 Agent 不必只靠堆上下文

δ mem

核心机制

固定状态

骨干冻结

路线差异

对比RAG

对比扩窗

实验信号

基准提升

证据边界

影响对象

研发团队

采购方

落地风险

压缩取舍

治理底线

δ-mem 做的不是扩窗口，而是给注意力加一条记忆旁路

分数有信号，但还不能当落地结论

受影响的不是普通用户，而是做长程 Agent 的团队