Nick Levine、David Duvenaud 与 Alec Radford 在 2026 年 4 月 28 日推出 talkie,一个标称来自“1930 年”的 13B 语言模型。项目开放了 talkie-1930-13b-base 和 talkie-1930-13b-it 两个权重,均采用 Apache 2.0 许可。

这不是又一个把复古当卖点的 AI 玩具。talkie 更像一次受控实验:如果训练语料理论上都落在美国版权截止日前,也尽量隔绝 1931 年后的知识,一个大模型还能表现出多少推理、归纳和迁移能力?对关心开源、本地部署和训练数据版权的开发者来说,这个问题比“模型会不会装作老派绅士说话”更重要。

talkie 把模型时间锁在 1931 年前

talkie-1930-13b-base 是项目的核心版本,大小 53.1GB,使用 2600 亿个 1931 年前英文 token 训练。按项目说明,这些 base 训练语料理论上落在美国版权截止日之前,也就是 1931 年 1 月 1 日前公开的英文文本。

指令版 talkie-1930-13b-it 大小 26.6GB,用从历史参考书中抽取的指令—回答数据微调,面向聊天界面。团队还提供了在线 demo。

模型关键信息判断
talkie-1930-13b-base13B,53.1GB,260B 个 1931 年前英文 token更接近版权洁净与时代隔离实验
talkie-1930-13b-it26.6GB,历史参考书指令数据微调更适合聊天,但纯度下降
许可两者均为 Apache 2.0方便研究者本地测试和再开发

这里有一个容易被忽略的限制:原文并未说训练数据已经公开,只是外部观察者希望团队以后发布。对研究者来说,权重开放是一回事,语料可审计是另一回事。没有语料,外界仍难完整验证“1931 年前”这个边界是否被严格守住。

真问题不是怀旧,而是版权洁净模型能否有用

当前大模型行业绕不开训练数据版权。OpenAI、Meta、Anthropic 等公司都在面对内容授权、诉讼和数据透明度压力。相比之下,talkie 选择了一条反方向路线:不追求最新知识,而是把语料缩回公共领域,看看模型能力会损失多少。

这让 talkie 与一些“合成数据模型”或“许可数据模型”形成对照。前者常用现代大模型生成训练材料,后者依赖商业授权语料;talkie 的 base 版本则试图用过期版权文本建立一个更干净的起点。它不可能直接替代现代助手,但能帮助回答几个研究问题:模型能否从旧知识中判断未来事件的“意外程度”?能否在知识截止后重新推导某些发明?能否通过少样本示例学会写 Python 这类 1930 年不存在的编程任务?

这些都还只是研究问题,不能夸成模型已经“预测未来”或“独立发现相对论”。更现实的用途,是给实验室、开源社区和企业法务团队一个可测试对象:如果预算不允许购买大规模授权数据,公共领域语料路线到底能撑到什么水平。

chat 版本的污染风险,比参数大小更关键

talkie 最大的技术争议在后训练。项目报告提到,团队使用 Claude Sonnet 4.6 做 judge,进行在线直接偏好优化;又用 Claude Opus 4.6 与 talkie 生成多轮合成对话,再做一轮监督微调。这会提升聊天能力,也会引入现代模型的表达习惯和知识阴影。

所以,只有 base 模型更接近一些研究者所说的“vegan model”:训练尽量来自许可或版权到期数据。chat/it 版本不能被写成完全不受现代模型影响。团队也承认,AI 反馈强化学习会以不合时代的方式塑造模型行为,早期 7B 版本甚至在 RL 后学会了现代清单体表达。

项目的幽默感也说明它不是严肃产品发布会式的“能力宣言”。有人让 demo 生成“鹈鹕骑自行车的 SVG”,talkie 回答说这种 SVG 在 1860 年已经生成,鹈鹕坐在鞍座上,长喙朝前,腿跨在车把上。这段荒诞回答恰好暴露了模型边界:它有时代口吻和文本联想能力,但不等于掌握现代图形生成或事实可靠性。

接下来最该看两件事:团队是否发布可审计语料;以及能否用 vintage base 模型自己做 judge,减少 Claude 等现代模型在后训练中的影响。若这两步做不成,talkie 仍是好实验;若做成,它才会真正逼近一条“版权洁净模型”的可复制路线。