Thousand Token Wood v2 最值得看的,不是森林动物学会了借贷、做空、内幕消息和结盟。

反常点在这里:这个金融游戏没有让一个大模型包办全场,而是把 4 个不同实验室的小模型接进同一个市场。玩家扮演幕后金主,操纵贷款、传递真假内幕、拉联盟、做空,治安官还会追查可疑盈利。

这更像一个缩小版智能体系统实验。小模型能不能用?能。但不能放野。它们要被服务层、数据权限、记忆摘要和测试套件一层层圈住。

v2 改了什么:从旁观沙盒到可操作金融剧场

v1 更像观察实验。几只林地动物用一个微调 0.5B 模型交易商品,玩家丢进天气、供需冲击,看泡沫和崩盘怎样长出来。

v2 变成了游戏。玩家是 Patron of the Wood,像影子银行家一样影响市场:放贷、收息、散布真假内幕、贿赂、做空、结盟。市场不再只是被观看,而是可以被操纵。

关键变化不多,但每一条都指向同一个问题:小模型智能体到底怎么落地。

维度v2 的做法读者该看什么
模型组合gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B、微调 Qwen 0.5B角色差异来自异构模型,不只是换 prompt
模型规模4 个模型均在 32B 以下项目押的是小模型编排,不是大模型统治全场
部署都部署在 Modal难点落到服务层、镜像、推理栈和调度
输出统一 JSON 解析与修复层模型格式不稳,系统要兜底
记忆不塞原始历史,只给有限关系摘要保留关系感,控制 prompt 膨胀
信息安全内幕真假标记不进 prompt,只放玩家账本把泄密风险从“提示词技巧”降到数据流设计

这件事对两类人最直接。

做智能体应用的工程团队,可以把它当成一份小型架构样本:多模型不难接,难的是权限、状态、输出修复和可测试行为。关注小模型落地的团队,也应该少问“4B 能不能像 70B”,多问“4B 放在哪个环节最省钱、最可控”。

企业采购或内部平台团队也会受影响。看到这类项目后,不该急着把业务流程交给小模型代理。更现实的动作是延后“全自动智能体”采购,先要求供应商交代三件事:数据隔离怎么做、失败输出怎么修、每轮 prompt 能不能被审计。

工程点比玩法更硬:小模型靠结构补短板

v2 的几个细节,听起来不花哨,却是真正有用的部分。

vLLM 0.22.1 加载时需要 JIT 编译 kernel,因此要有 CUDA toolkit / nvcc。作者一开始用精简镜像,四个模型都报找不到 nvcc;换成 CUDA devel 镜像后统一解决。

这不是某个模型的小毛病,而是服务栈的共性坑。很多智能体项目死得不壮烈,就是死在镜像、依赖、解析器和状态管理上。

gpt-oss-20b 使用原生 MXFP4 量化,可以在 24GB L4 上跑。但这个事实不能外推成“所有 20B 模型都低成本好跑”。模型结构、量化支持、推理后端、显存占用,都会改变账本。

MiniCPM3 需要 trust_remote_code,Nemotron 加载更顺。真正让异构模型可控的,不是模型突然都变乖,而是外面套了统一的容错解析器。

结果也要克制看。

在一次 seeded run 里,微调 Qwen 0.5B 做到 0% self-buys、100% valid offers。隐藏提示标记在每轮完整 prompt 扫描中 0 泄漏。

这很好,但不是通用基准。0 泄漏也不是绝对安全证明。它只能说明:在这个设定、这次运行、这套扫描规则下,系统没有把隐藏标记漏进 prompt。

这里的分水岭很清楚:不要把小模型当聪明人,要把它当一个会说话、会犯错、但便宜可调的执行部件。

可复用的部分大概是这几条:

  • 动作空间要窄,别让模型自由发挥太久;
  • 输出必须结构化,JSON 修复层不能省;
  • 敏感标记不要进 prompt,放到账本或权限层;
  • 记忆给摘要,不给无限历史;
  • 强敌意、拒贷、联盟等行为可以部分机械化;
  • 每轮 prompt 要能扫描,关键状态要能测试。

这套东西不浪漫,但管用。工程里最贵的往往不是模型,而是把模型出错后的损失压住。

我的判断:小模型能上桌,但别让它坐主位

我不太买账“小模型追平大模型”这种叙事。至少从 Thousand Token Wood v2 看,结论刚好相反。

小模型的价值不是像大模型一样包打天下。它的价值在便宜、可部署、可替换、可编排。它适合当系统里的零件,不适合当系统本身。

这个项目做对的一点,是没有假装模型会凭空推理出稳定金融行为。它把模型关进几道笼子:有限动作、结构化输出、关系摘要、数据流防火墙、每轮 prompt 扫描。

“天下熙熙,皆为利来。”这句话放在金融游戏里贴切,放在 AI 行业也不违和。参数好讲,融资好讲,Demo 好讲;权限、镜像、解析、测试、回滚,不好讲,也不好卖。

但真到落地,脏活决定生死。

这也是我认为它有价值的地方。它没有证明小模型有多聪明,只证明了一件更实在的事:只要系统边界设计得足够硬,小模型可以参与复杂交互。

历史上很多技术也是这样进工业体系的。电力改变世界,不只靠更大的发电机,还靠电网、标准、电表和保险丝。类比不完全一样,但今天的小模型智能体也缺这套“保险丝”。

接下来该观察的不是“动物会不会演得更像人”。那不关键。

更该看三件事:

观察点为什么重要
多轮运行是否稳定单次 seeded run 不能说明长期可靠性
泄漏扫描能否覆盖更多攻击面0 泄漏只对当前规则有效
小模型编排的成本是否低于单大模型便宜不是口号,要算部署、维护、测试总成本

如果这三件事跑不通,多模型智能体只是漂亮玩具。如果跑通,它就会进入很多低风险、强约束、可审计的场景:游戏 NPC、仿真市场、训练沙盒、内部流程助手。

别急着把它包装成真实金融交易系统。它不是。

它更像一个提醒:智能体的第一性原理不是“更聪明”,而是“更可控”。模型看着更小,工程反而更重。这不是倒退,是工业化该有的样子。