DeepReinforce 的第一个模型发布,直接打到了本地代码代理这个点上。
Ornith-1.0 是开放权重,MIT 许可,面向 agentic coding。也就是让模型不只是补代码,而是在代码库里检索、读文件、调用工具,连续完成开发任务。
更有意思的是,它不是只给一个巨型模型。公开信息里有 9B Dense、31B Dense、35B MoE 和 397B MoE 几个版本,并声称在同等规模开源代码模型基准上达到领先表现。
我更在意的不是榜单口号。
对本地 LLM 用户来说,真正的问题更朴素:能不能合规用,能不能在自己的机器或私有环境里跑,能不能撑住一串工具调用而不乱。
先看清 Ornith-1.0 到底给了什么
Ornith-1.0 基于 Gemma 4 和 Qwen 3.5 预训练模型构建。原记录里的判断是,这两个底座均为 Apache 2.0 许可,因此和 Ornith-1.0 以 MIT 许可开放权重的做法大体兼容。
这句话要留边界。
它是基于公开许可文本的判断,不是法律意见。真要放进公司流程,还是要按自己的合规要求再审一遍。
| 维度 | Ornith-1.0 已知信息 | 对开发者的实际影响 |
|---|---|---|
| 发布方 | DeepReinforce,首个模型发布 | 需要观察后续维护和说明是否跟得上 |
| 模型版本 | 9B Dense、31B Dense、35B MoE、397B MoE | 小模型适合本地试验,大版本更偏部署或研究 |
| 权重许可 | MIT | 比只给 API 更适合私有代码场景 |
| 底座模型 | Gemma 4、Qwen 3.5 | 许可链条相对清楚,但企业仍需复核 |
| 官方说法 | 同规模开源代码基准领先 | 可以作为线索,不能直接等同生产可用 |
这里和 Copilot、Cursor、Claude Code 这类云端代码代理不是一条路。
云端产品的优势是省心,工具链、界面、上下文管理都已经包好了。代价也很清楚:私有代码要不要上传,成本怎么控,供应商锁定能不能接受。
Ornith-1.0 这类开放权重模型给的不是完整产品,而是一块可接入本地工具链的底座。对已经在折腾 LM Studio、llama.cpp、本地 agent harness 的人,这个差别很关键。
初步体验看的是“能不能连续干活”
Simon Willison 的记录里,使用 LM Studio 跑的是 ornith-1.0-35b-Q4_K_M.gguf,文件约 20GB,并接入 Pi。
这个组合说明一件事:35B 量化版本已经能进入个人或小团队的本地实验范围。它不等于低门槛,但也不是只能在大型机房里看演示。
测试任务也比较贴近真实代码代理。
他让模型在 Datasette 代码库里查找两件事:一是 actor cookie 的解码逻辑,二是点击按钮后打开 insert dialog 的代码。模型都处理得比较顺。
这类任务比“写一个排序函数”更有参考价值。
代码代理最难的地方,常常不是生成一段漂亮代码,而是在陌生仓库里找对文件、跟住调用链、读懂命名、连续调用工具。中间一步跑偏,后面就会越走越远。
所以 Ornith-1.0 这次给出的信号是:35B GGUF 版本至少值得本地代码代理用户拉下来试一轮。
但别把它当成系统评测。
一次顺利的终端会话,只能说明它在这个仓库、这些任务、这套 harness 下表现不错。大仓库、长任务、多语言项目、复杂重构,仍然要重新验证。
还有一个绘制鹈鹕的小测试,输出速度达到 103 tokens/s。结果有瑕疵,但还能看出是鹈鹕。
这个例子更适合看成本地推理速度和生成稳定性的旁证。它不能证明模型具备完整多模态能力,也不该被拿来夸大。
现在适合谁试,谁该等等
Ornith-1.0 现在最适合两类人。
一类是已经在本地跑模型的开发者。他们有 LM Studio、llama.cpp 或类似工具链,也愿意处理量化文件、上下文长度、工具调用失败这些麻烦。
这类人可以把 35B GGUF 当作新的候选模型,放进现有 agent harness 里跑几个真实仓库任务。重点不是看它会不会聊天,而是看它能不能连续查代码、改代码、解释路径。
另一类是不能轻易把私有代码送上云的小团队。
他们不一定马上迁移,但可以安排一次小范围试用:挑一个内部仓库,设计 5 到 10 个高频任务,比如查调用链、定位配置、生成小补丁、解释测试失败。跑完再决定是否进入日常工具链。
更谨慎的团队可以先观望。
原因也简单:DeepReinforce 公开信息还不多。原记录里提到,能找到的较早论文是 2025 年 6 月的《CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning》。除此之外,团队背景、训练细节、数据来源、评测方法、后续维护节奏,目前都看不清。
接下来不必盯着“又高了几个点”。更该看四个变量:
| 观察点 | 为什么重要 | 适合采取的动作 |
|---|---|---|
| GGUF 等量化版本是否持续更新 | 决定本地用户能不能长期用 | 本地开发者可先试,不急着替换主力模型 |
| 多工具调用在长任务里是否稳定 | 决定能否胜任真实代码代理 | 用真实仓库压测,不只跑小 demo |
| 训练与评测说明是否更透明 | 决定信任成本 | 企业团队先做合规和安全审查 |
| 发布方维护节奏是否稳定 | 决定生态能不能跟上 | 小团队避免一次性迁移 |
我的判断是,Ornith-1.0 已经进入“值得试”的区间,但还没进入“可以押注”的区间。
对本地代码代理来说,分数只是入场券。真正的门槛是长活:多轮工具调用不漂,仓库理解不乱,量化版本有人维护,许可链条经得起审查。
回到开头那个问题:它是不是本地代码代理的新选择?
是。
但现在更像一把刚开刃的刀。可以上手试锋利,别急着拿它替掉整套工具箱。
