120万条聊天记录交给LLM后，关系真的比记忆更清楚吗

核心摘要 Summary

一名作者导出VK、Twitter、Facebook、Instagram、Telegram等平台近20年聊天档案，用LLM和确定性脚本整理出可追溯的关系、事件和情绪记录。
这个实验的看点不是AI能不能读懂亲密关系，而是私人聊天数据在多大程度上能校正记忆，又会在哪些地方误伤关系判断。
对量化自我用户和产品工程团队来说，真正门槛在身份合并、溯源回滚、隐私同意和本地处理，而不只是接入一个模型。

一名作者把近20年的聊天记录导了出来。

来源不是一个App，而是VK、Twitter、Facebook、Instagram、Telegram等平台的导出档案。总量约120万条消息。最后，他用LLM和确定性脚本，把这些碎片整理成事件、人物、地点、情绪，以及可以回到原始聊天位置的结构化档案。

这件事有意思的地方不在于“AI又会整理聊天了”。我更在意的是另一个问题：私人聊天数据会不会比记忆更可靠？如果会，它又会不会把人的亲密关系误读成一张过于自信的报表？

聊天记录为什么会变成个人关系档案

Dmitry Robinin这篇长文的起点，是WaitButWhy在2014年提出的“人生周历”：把一生拆成一格格星期，看时间如何流走。

传统日记的问题也在这里。人会记录自己当时觉得重要的事，却常常漏掉日常对话、关系温度和缓慢变化。很多关系不是突然变远的，而是在几个月、几年里一点点换了形状。

聊天记录刚好补上这块空白。它不靠事后回忆，而是留下当时的时间、对象、措辞和频率。它更像一个“个人关系CRM”，只是客户换成了朋友、伴侣、同事和家人。

但这里不能浪漫化。聊天记录更完整，不等于更真实。它记录的是人在平台里的表达，不是关系本身。

所以这套实验的价值，不是证明数据比人更懂关系。它更像一面粗糙但诚实的镜子：能照出记忆忽略的变化，也会把光线扭曲。

从工程上看，平台导出的JSON、HTML和媒体索引不是最难的部分。真正麻烦的是后处理。

聊天里有表情、链接、转发、短填充语、玩笑、昵称和跨平台身份。同一个人可能在Telegram、Instagram和Facebook里有不同名字。一个昵称也可能指向不同的人。模型如果直接读，很容易把玩笑当事件，把情绪词当关系结论。

Robinin的做法相对克制。LLM只负责读取分块消息，并产出JSON清单，比如每日笔记、人物事实、时间线事件、地点更新和无法消歧的问题。真正写入档案的动作，由确定性Python脚本完成。

这个分工很重要。模型负责“提取候选项”，脚本负责“落库”。每条结果都保留原始聊天来源标记，比如聊天ID和消息区间，并用SQLite保存溯源。出错时可以回滚，而不是让模型生成一份看似完整、其实无从查证的个人史。

情绪处理也没有放任模型自由发挥。作者用了18个情绪标签，再加三类方向前缀：自己的状态、对方的状态、双方共同状态。

这样做少了一点“文学性”，但多了统计价值。否则模型会生成一堆近义标签：开心、愉快、轻松、释然、满足。看起来细腻，实际无法稳定比较。

准确性也要压住说。原文提到的结果是：在200个事件holdout中、每块消息低于6000条时，假阳性率低于1%。这只能说明这个实验在特定数据、特定流程下表现不错。它不是一个通用研究结论，也不能外推到所有语言、平台和关系类型。

这对产品和工程团队的提醒很直接：私人聊天分析不能只按“接一个LLM API”来估算成本。真正要投入的是噪声过滤、身份合并、昵称消歧、事件校验、可回滚存储和本地隐私边界。

这篇文章最有用的一点，是没有把消息数量当成唯一指标。

聊天变少，可能是关系变远。也可能是关系成熟后，从高频闲聊变成低频长消息。也可能只是换了平台。只看消息量，很容易把关系形态变化误判成关系破裂。

Robinin还看了平均消息长度、词汇重合度，以及相对各自关系基线的情绪偏移。这些指标放在一起，才稍微接近“关系漂移”。

比如，月消息数下降，但平均消息长度上升，未必是疏远。它可能说明双方不再每天碎聊，但仍会认真交流。词汇重合度下降，则可能提示共同话题减少。情绪从“共同玩笑”转向“共同事务”，可能意味着关系正在变得工具化。

这里的边界也要说清。指标只能提示变化，不能替人下结论。亲密关系里有沉默、照顾、责任和默契。它们未必都写在聊天框里。

对两类读者，这件事的动作层影响不一样。

读者	可以做什么	不该做什么
量化自我/个人知识管理用户	小范围、本地分析自己的导出档案；只看趋势，不用单条结论审判关系	不要把他人聊天批量上传到云端模型；不要用指标逼问对方
做LLM私人数据工具的产品和工程人员	优先做本地处理、溯源、撤销、标签约束和权限提示	不要把“聊天导入+AI总结”包装成关系洞察神器

普通用户是否要尝试？我的判断偏保守。

如果只是想回看人生时间线，可以从少量平台、本地脚本和可删除结果开始。不要一次性导入所有聊天，也不要把别人的私密表达交给第三方服务。材料来自私人对话，哪怕技术上能导出，也不代表伦理上就适合处理。

对团队来说，真正该看的不是这套流程能不能快速产品化，而是能否满足三个条件：本地运行、最小暴露、可追溯回滚。做不到这三点，所谓个人关系CRM很容易变成亲密关系审计表。

开头那个问题也就回来了：120万条聊天记录，能不能比记忆更清楚？

它能让一些变化浮出水面。比如谁慢慢淡出，哪些话题消失，哪段关系从玩笑变成事务。但它不能替人理解沉默，也不能替人承担判断后果。

记忆会粉饰，数据会误伤。用数据看人，最难的不是算得更细，而是知道哪里该停。