talkie 发布：一台停在 1930 年的 13B 模型，真正考题是版权洁净训练

核心摘要 Summary

Nick Levine、David Duvenaud 与 Alec Radford 发布 talkie，一个用 1931 年前英文文本训练的 13B 复古语言模型，并开放 base 与指令微调版本。
它的价值不在怀旧包装，而在给开源模型社区提供了一个罕见样本：只靠版权到期、时代隔离的数据，大模型能走多远。
最大争议也在这里——base 模型相对“干净”，chat 版本仍被现代 LLM 的后训练流程影响。

内容导图 Mind Map

talkie 发布

版权洁净训练实验

时间锁定

语料限定 1931 年前

base 版

更接近时代隔离

it 版

聊天能力优先

核心价值

测试公共领域上限

开源样本

权重开放可本地测

法务参照

替代授权数据试验

主要争议

后训练引入污染

Claude 介入

现代知识阴影增加

纯度分化

base 比 chat 更干净

后续变量

可审计性决定价值

语料公开

边界仍待验证

自举评测

减少现代模型依赖

Nick Levine、David Duvenaud 与 Alec Radford 在 2026 年 4 月 28 日推出 talkie，一个标称来自“1930 年”的 13B 语言模型。项目开放了 talkie-1930-13b-base 和 talkie-1930-13b-it 两个权重，均采用 Apache 2.0 许可。

这不是又一个把复古当卖点的 AI 玩具。talkie 更像一次受控实验：如果训练语料理论上都落在美国版权截止日前，也尽量隔绝 1931 年后的知识，一个大模型还能表现出多少推理、归纳和迁移能力？对关心开源、本地部署和训练数据版权的开发者来说，这个问题比“模型会不会装作老派绅士说话”更重要。

talkie 把模型时间锁在 1931 年前

talkie-1930-13b-base 是项目的核心版本，大小 53.1GB，使用 2600 亿个 1931 年前英文 token 训练。按项目说明，这些 base 训练语料理论上落在美国版权截止日之前，也就是 1931 年 1 月 1 日前公开的英文文本。

指令版 talkie-1930-13b-it 大小 26.6GB，用从历史参考书中抽取的指令—回答数据微调，面向聊天界面。团队还提供了在线 demo。

模型	关键信息	判断
talkie-1930-13b-base	13B，53.1GB，260B 个 1931 年前英文 token	更接近版权洁净与时代隔离实验
talkie-1930-13b-it	26.6GB，历史参考书指令数据微调	更适合聊天，但纯度下降
许可	两者均为 Apache 2.0	方便研究者本地测试和再开发

这里有一个容易被忽略的限制：原文并未说训练数据已经公开，只是外部观察者希望团队以后发布。对研究者来说，权重开放是一回事，语料可审计是另一回事。没有语料，外界仍难完整验证“1931 年前”这个边界是否被严格守住。

真问题不是怀旧，而是版权洁净模型能否有用

当前大模型行业绕不开训练数据版权。OpenAI、Meta、Anthropic 等公司都在面对内容授权、诉讼和数据透明度压力。相比之下，talkie 选择了一条反方向路线：不追求最新知识，而是把语料缩回公共领域，看看模型能力会损失多少。

这让 talkie 与一些“合成数据模型”或“许可数据模型”形成对照。前者常用现代大模型生成训练材料，后者依赖商业授权语料；talkie 的 base 版本则试图用过期版权文本建立一个更干净的起点。它不可能直接替代现代助手，但能帮助回答几个研究问题：模型能否从旧知识中判断未来事件的“意外程度”？能否在知识截止后重新推导某些发明？能否通过少样本示例学会写 Python 这类 1930 年不存在的编程任务？

这些都还只是研究问题，不能夸成模型已经“预测未来”或“独立发现相对论”。更现实的用途，是给实验室、开源社区和企业法务团队一个可测试对象：如果预算不允许购买大规模授权数据，公共领域语料路线到底能撑到什么水平。

chat 版本的污染风险，比参数大小更关键

talkie 最大的技术争议在后训练。项目报告提到，团队使用 Claude Sonnet 4.6 做 judge，进行在线直接偏好优化；又用 Claude Opus 4.6 与 talkie 生成多轮合成对话，再做一轮监督微调。这会提升聊天能力，也会引入现代模型的表达习惯和知识阴影。

所以，只有 base 模型更接近一些研究者所说的“vegan model”：训练尽量来自许可或版权到期数据。chat/it 版本不能被写成完全不受现代模型影响。团队也承认，AI 反馈强化学习会以不合时代的方式塑造模型行为，早期 7B 版本甚至在 RL 后学会了现代清单体表达。

项目的幽默感也说明它不是严肃产品发布会式的“能力宣言”。有人让 demo 生成“鹈鹕骑自行车的 SVG”，talkie 回答说这种 SVG 在 1860 年已经生成，鹈鹕坐在鞍座上，长喙朝前，腿跨在车把上。这段荒诞回答恰好暴露了模型边界：它有时代口吻和文本联想能力，但不等于掌握现代图形生成或事实可靠性。

接下来最该看两件事：团队是否发布可审计语料；以及能否用 vintage base 模型自己做 judge，减少 Claude 等现代模型在后训练中的影响。若这两步做不成，talkie 仍是好实验；若做成，它才会真正逼近一条“版权洁净模型”的可复制路线。

锐评 Commentary

talkie 的清醒在于退后一步：少一点全知幻觉，多一把可审计的尺。

talkie13B语言模型版权洁净训练训练数据版权开源模型talkie-1930-13b-basetalkie-1930-13b-itAlec Radford指令微调Apache 2.0