YC P26 公司 General Instinct 在 Hacker News 上发布其边缘设备运行前沿模型的方案,并开源 InstinctRazor。该工具面向大型 MoE 模型压缩与量化,公司称已将约 245GB BF16 的 Qwen3.5-122B-A10B 压缩到 48GiB GGUF。

这条消息对机器人和边缘 AI 团队有现实意义:它不是简单把所有权重一刀切压低精度,而是承认 MoE 模型内部不同部分的重要性不同。我的判断是,这是一条值得工程团队测试的路线,但现在还不能把它等同于“前沿模型已经可在所有边缘设备生产部署”。模型文件变小、峰值显存下降,与真实推理速度、功耗、系统稳定性不是一回事。

General Instinct 把重点放在 MoE 的“常活跃部分”

General Instinct 的说法是,InstinctRazor 保留 router、norms、Gated-DeltaNet/SSM 层、视觉路径等常活跃组件,对 routed experts 采用更激进量化,并用 on-policy distillation 恢复量化后损失的能力。

这套思路的核心在于,MoE 模型每次推理只调用部分专家,但路由器、归一化层和部分结构几乎总会参与计算。把这些层压得过狠,可能比压缩专家权重更容易伤模型表现。General Instinct 选择“保主干、压专家”,工程逻辑是成立的。

项目General Instinct 声称的做法对部署团队的含义
模型对象Qwen3.5-122B-A10B,约 245GB BF16目标是大参数 MoE,而非小模型微调
压缩结果48GiB GGUF文件体积明显下降,但仍需要较大系统内存
精度策略常活跃层保留,routed experts 更激进量化避免关键路径被过度压缩
能力恢复on-policy distillation需要训练/蒸馏流程配合,不只是格式转换
小 GPU 模式experts 可从系统内存流式加载8k context 下峰值 VRAM 约 7.6–8GB,但会引入内存带宽变量

这也解释了它为什么比普通量化截图更值得看。边缘部署的难点很少只是“显存不够”,还包括内存带宽、加载抖动、上下文长度、视觉输入、热设计和电池预算。InstinctRazor 至少把其中一部分问题拆开处理了。

和 Gemma-4-26B-A4B 的对比,不能直接当成独立结论

General Instinct 称,压缩后的 Qwen3.5-122B-A10B 文件小于 Gemma-4-26B-A4B,并在 MMLU-Pro、GPQA-D 等 benchmark 上表现更好。这个对照有信息量,但应按“公司自测结果”理解,不能写成第三方验证结论。

横向看,Gemma、Qwen、Llama 等开放权重模型已经让本地部署从“能不能跑”进入“跑哪一个更划算”的阶段。过去一年,llama.cpp、GGUF、AWQ、GPTQ、MLC LLM 等工具链让量化和本地推理门槛下降,但大 MoE 模型仍有尴尬:总参数很大,活跃参数较少,理论上省算力,工程上却吃内存和调度。

General Instinct 的方案刚好卡在这个缝隙里。它想证明,大 MoE 不必永远困在数据中心;只要把专家加载、量化策略和蒸馏流程配好,边缘设备也能保留一部分“前沿模型”的能力。对本地大模型开发者来说,这可能影响模型选型:原来只能考虑 7B、14B、26B 级别 dense 或小 MoE,现在可以把更大 MoE 纳入实验列表。

真正受影响的是机器人团队的工程取舍

机器人团队最关心的不是榜单分数,而是模型能否在现场稳定响应。仓储机器人、巡检设备、具身智能原型机常常面对网络不稳定、隐私限制和实时控制要求。把模型放到本地,能减少云端依赖,也能让视觉、语言和动作规划更贴近设备侧数据。

但 General Instinct 目前公开材料没有给出延迟、吞吐、功耗、连续运行温度、不同 CPU/内存配置下的表现,也没有披露客户落地数据。尤其是“小 GPU + 系统内存流式加载 experts”的模式,峰值 VRAM 低并不代表体验一定好。系统内存带宽、PCIe 通道、专家命中模式都会影响实际速度。

接下来最该观察三件事:开源工具是否能被外部团队复现同等压缩效果;机器人真实任务是否比小模型加专用策略更好;在 8k context、视觉输入和长时间运行下,延迟与功耗是否可接受。若这三项过不了,48GiB 只是漂亮的模型文件;若过了,它会成为边缘 AI 选型表里一个新分支。