一名作者把近20年的聊天记录导了出来。
来源不是一个App,而是VK、Twitter、Facebook、Instagram、Telegram等平台的导出档案。总量约120万条消息。最后,他用LLM和确定性脚本,把这些碎片整理成事件、人物、地点、情绪,以及可以回到原始聊天位置的结构化档案。
这件事有意思的地方不在于“AI又会整理聊天了”。我更在意的是另一个问题:私人聊天数据会不会比记忆更可靠?如果会,它又会不会把人的亲密关系误读成一张过于自信的报表?
聊天记录为什么会变成个人关系档案
Dmitry Robinin这篇长文的起点,是WaitButWhy在2014年提出的“人生周历”:把一生拆成一格格星期,看时间如何流走。
传统日记的问题也在这里。人会记录自己当时觉得重要的事,却常常漏掉日常对话、关系温度和缓慢变化。很多关系不是突然变远的,而是在几个月、几年里一点点换了形状。
聊天记录刚好补上这块空白。它不靠事后回忆,而是留下当时的时间、对象、措辞和频率。它更像一个“个人关系CRM”,只是客户换成了朋友、伴侣、同事和家人。
但这里不能浪漫化。聊天记录更完整,不等于更真实。它记录的是人在平台里的表达,不是关系本身。
| 记录方式 | 主要来源 | 优点 | 盲区 |
|---|---|---|---|
| 日记/笔记 | 主动书写 | 语境清楚,主观意图强 | 容易筛选和美化记忆 |
| 聊天档案 | 平台导出记录 | 时间跨度长,遗漏少 | 噪声多,容易误读语气和关系 |
| 关系CRM式整理 | 聊天记录+结构化处理 | 能观察长期变化 | 隐私、同意和标签设定都很敏感 |
所以这套实验的价值,不是证明数据比人更懂关系。它更像一面粗糙但诚实的镜子:能照出记忆忽略的变化,也会把光线扭曲。
难点不是导出文件,而是让模型少误判
从工程上看,平台导出的JSON、HTML和媒体索引不是最难的部分。真正麻烦的是后处理。
聊天里有表情、链接、转发、短填充语、玩笑、昵称和跨平台身份。同一个人可能在Telegram、Instagram和Facebook里有不同名字。一个昵称也可能指向不同的人。模型如果直接读,很容易把玩笑当事件,把情绪词当关系结论。
Robinin的做法相对克制。LLM只负责读取分块消息,并产出JSON清单,比如每日笔记、人物事实、时间线事件、地点更新和无法消歧的问题。真正写入档案的动作,由确定性Python脚本完成。
这个分工很重要。模型负责“提取候选项”,脚本负责“落库”。每条结果都保留原始聊天来源标记,比如聊天ID和消息区间,并用SQLite保存溯源。出错时可以回滚,而不是让模型生成一份看似完整、其实无从查证的个人史。
情绪处理也没有放任模型自由发挥。作者用了18个情绪标签,再加三类方向前缀:自己的状态、对方的状态、双方共同状态。
这样做少了一点“文学性”,但多了统计价值。否则模型会生成一堆近义标签:开心、愉快、轻松、释然、满足。看起来细腻,实际无法稳定比较。
准确性也要压住说。原文提到的结果是:在200个事件holdout中、每块消息低于6000条时,假阳性率低于1%。这只能说明这个实验在特定数据、特定流程下表现不错。它不是一个通用研究结论,也不能外推到所有语言、平台和关系类型。
这对产品和工程团队的提醒很直接:私人聊天分析不能只按“接一个LLM API”来估算成本。真正要投入的是噪声过滤、身份合并、昵称消歧、事件校验、可回滚存储和本地隐私边界。
关系漂移能被看见,但不能被判死刑
这篇文章最有用的一点,是没有把消息数量当成唯一指标。
聊天变少,可能是关系变远。也可能是关系成熟后,从高频闲聊变成低频长消息。也可能只是换了平台。只看消息量,很容易把关系形态变化误判成关系破裂。
Robinin还看了平均消息长度、词汇重合度,以及相对各自关系基线的情绪偏移。这些指标放在一起,才稍微接近“关系漂移”。
比如,月消息数下降,但平均消息长度上升,未必是疏远。它可能说明双方不再每天碎聊,但仍会认真交流。词汇重合度下降,则可能提示共同话题减少。情绪从“共同玩笑”转向“共同事务”,可能意味着关系正在变得工具化。
这里的边界也要说清。指标只能提示变化,不能替人下结论。亲密关系里有沉默、照顾、责任和默契。它们未必都写在聊天框里。
对两类读者,这件事的动作层影响不一样。
| 读者 | 可以做什么 | 不该做什么 |
|---|---|---|
| 量化自我/个人知识管理用户 | 小范围、本地分析自己的导出档案;只看趋势,不用单条结论审判关系 | 不要把他人聊天批量上传到云端模型;不要用指标逼问对方 |
| 做LLM私人数据工具的产品和工程人员 | 优先做本地处理、溯源、撤销、标签约束和权限提示 | 不要把“聊天导入+AI总结”包装成关系洞察神器 |
普通用户是否要尝试?我的判断偏保守。
如果只是想回看人生时间线,可以从少量平台、本地脚本和可删除结果开始。不要一次性导入所有聊天,也不要把别人的私密表达交给第三方服务。材料来自私人对话,哪怕技术上能导出,也不代表伦理上就适合处理。
对团队来说,真正该看的不是这套流程能不能快速产品化,而是能否满足三个条件:本地运行、最小暴露、可追溯回滚。做不到这三点,所谓个人关系CRM很容易变成亲密关系审计表。
开头那个问题也就回来了:120万条聊天记录,能不能比记忆更清楚?
它能让一些变化浮出水面。比如谁慢慢淡出,哪些话题消失,哪段关系从玩笑变成事务。但它不能替人理解沉默,也不能替人承担判断后果。
记忆会粉饰,数据会误伤。用数据看人,最难的不是算得更细,而是知道哪里该停。
