General Instinct 开源 MoE 压缩工具：前沿模型上边缘设备，仍差一次实测

核心摘要 Summary

YC P26 公司 General Instinct 在 Hacker News 发布边缘部署方案，并开源 InstinctRazor，声称可把约 245GB BF16 的 Qwen3.5-122B-A10B 压缩到 48GiB GGUF。
真正重要的不是“又一次量化数字”，而是它把 MoE 模型的常活跃层和专家层区别处理，试图降低机器人、本地部署团队使用大模型的硬件门槛；但延迟、功耗、稳定性和真实任务表现仍未被独立验证。

内容导图 Mind Map

MoE压缩

前沿模型试探边缘部署

开源工具

InstinctRazor 面向大 MoE

压缩幅度

245GB 降至 48GiB

取舍策略

保主干、压专家

常活跃层

关键路径保留精度

边缘价值

大 MoE 纳入本地实验

机器人场景

减少云端依赖

证据不足

公司自测仍待复现

体验变量

延迟功耗未验证

YC P26 公司 General Instinct 在 Hacker News 上发布其边缘设备运行前沿模型的方案，并开源 InstinctRazor。该工具面向大型 MoE 模型压缩与量化，公司称已将约 245GB BF16 的 Qwen3.5-122B-A10B 压缩到 48GiB GGUF。

这条消息对机器人和边缘 AI 团队有现实意义：它不是简单把所有权重一刀切压低精度，而是承认 MoE 模型内部不同部分的重要性不同。我的判断是，这是一条值得工程团队测试的路线，但现在还不能把它等同于“前沿模型已经可在所有边缘设备生产部署”。模型文件变小、峰值显存下降，与真实推理速度、功耗、系统稳定性不是一回事。

General Instinct 把重点放在 MoE 的“常活跃部分”

General Instinct 的说法是，InstinctRazor 保留 router、norms、Gated-DeltaNet/SSM 层、视觉路径等常活跃组件，对 routed experts 采用更激进量化，并用 on-policy distillation 恢复量化后损失的能力。

这套思路的核心在于，MoE 模型每次推理只调用部分专家，但路由器、归一化层和部分结构几乎总会参与计算。把这些层压得过狠，可能比压缩专家权重更容易伤模型表现。General Instinct 选择“保主干、压专家”，工程逻辑是成立的。

项目	General Instinct 声称的做法	对部署团队的含义
模型对象	Qwen3.5-122B-A10B，约 245GB BF16	目标是大参数 MoE，而非小模型微调
压缩结果	48GiB GGUF	文件体积明显下降，但仍需要较大系统内存
精度策略	常活跃层保留，routed experts 更激进量化	避免关键路径被过度压缩
能力恢复	on-policy distillation	需要训练/蒸馏流程配合，不只是格式转换
小 GPU 模式	experts 可从系统内存流式加载	8k context 下峰值 VRAM 约 7.6–8GB，但会引入内存带宽变量

这也解释了它为什么比普通量化截图更值得看。边缘部署的难点很少只是“显存不够”，还包括内存带宽、加载抖动、上下文长度、视觉输入、热设计和电池预算。InstinctRazor 至少把其中一部分问题拆开处理了。

和 Gemma-4-26B-A4B 的对比，不能直接当成独立结论

General Instinct 称，压缩后的 Qwen3.5-122B-A10B 文件小于 Gemma-4-26B-A4B，并在 MMLU-Pro、GPQA-D 等 benchmark 上表现更好。这个对照有信息量，但应按“公司自测结果”理解，不能写成第三方验证结论。

横向看，Gemma、Qwen、Llama 等开放权重模型已经让本地部署从“能不能跑”进入“跑哪一个更划算”的阶段。过去一年，llama.cpp、GGUF、AWQ、GPTQ、MLC LLM 等工具链让量化和本地推理门槛下降，但大 MoE 模型仍有尴尬：总参数很大，活跃参数较少，理论上省算力，工程上却吃内存和调度。

General Instinct 的方案刚好卡在这个缝隙里。它想证明，大 MoE 不必永远困在数据中心；只要把专家加载、量化策略和蒸馏流程配好，边缘设备也能保留一部分“前沿模型”的能力。对本地大模型开发者来说，这可能影响模型选型：原来只能考虑 7B、14B、26B 级别 dense 或小 MoE，现在可以把更大 MoE 纳入实验列表。

真正受影响的是机器人团队的工程取舍

机器人团队最关心的不是榜单分数，而是模型能否在现场稳定响应。仓储机器人、巡检设备、具身智能原型机常常面对网络不稳定、隐私限制和实时控制要求。把模型放到本地，能减少云端依赖，也能让视觉、语言和动作规划更贴近设备侧数据。

但 General Instinct 目前公开材料没有给出延迟、吞吐、功耗、连续运行温度、不同 CPU/内存配置下的表现，也没有披露客户落地数据。尤其是“小 GPU + 系统内存流式加载 experts”的模式，峰值 VRAM 低并不代表体验一定好。系统内存带宽、PCIe 通道、专家命中模式都会影响实际速度。

接下来最该观察三件事：开源工具是否能被外部团队复现同等压缩效果；机器人真实任务是否比小模型加专用策略更好；在 8k context、视觉输入和长时间运行下，延迟与功耗是否可接受。若这三项过不了，48GiB 只是漂亮的模型文件；若过了，它会成为边缘 AI 选型表里一个新分支。

锐评 Commentary

此事可喜处在取舍清醒，未可喜处也在证据未足。边缘 AI 不缺口号，缺的是跑得稳、跑得久、跑得起。

InstinctRazorGeneral InstinctMoE模型压缩量化边缘部署Qwen3.5-122B-A10BGGUFon-policy distillation边缘 AI