一篇关于大模型压缩的论文把问题指向了当前工程团队最常碰到的现实:想用 GPT-4 这类强模型训练小模型,却只能拿到回答,看不到参数、隐藏状态和中间分布。arXiv:2401.07013《Knowledge Distillation of Black-Box Large Language Models》v1 提交于 2024 年 1 月 13 日,v2 修订于 2024 年 11 月 9 日,提出的 Proxy-KD 正是为这个缺口设计。

这项工作的核心判断比较清楚:黑盒教师模型不是不能蒸馏,而是蒸馏信号太薄。Proxy-KD 引入 proxy model,让它在黑盒教师和学生小模型之间充当知识转移的“中间层”。这并不意味着方法能访问 GPT-4 内部状态,而是试图用可控的代理模型补足纯输出蒸馏缺失的信息。

黑盒蒸馏的瓶颈不是答案质量,而是信号密度

传统知识蒸馏通常依赖教师模型的 logits、层表示或注意力等信息。开源或自有模型可以这样做,专有 LLM 很难。GPT-4 等黑盒教师通常只通过 API 返回文本,研究者和企业团队拿到的是最终答案,而不是模型如何形成答案的过程。

这让黑盒 KD 更像“照着标准答案学”,而白盒 KD 更像“看老师解题步骤”。两者差异不在形式,而在训练信号的颗粒度。

路线可获得信息现实约束对小模型训练的影响
黑盒 KD教师输出文本无法访问内部状态成本低、易用,但迁移信号有限
白盒 KDlogits、隐藏层等需要可控教师模型信号更丰富,但不适合多数专有 LLM
Proxy-KD黑盒输出 + 代理模型辅助代理模型质量成为变量试图在可用性和信号密度之间折中

Proxy-KD 的价值在于承认专有模型的边界

论文作者称,Proxy-KD 能提升来自黑盒教师模型的 KD 效果,并在实验中超过传统白盒 KD。这个说法有分量,但不能被理解成“所有任务上都比白盒蒸馏强”。原始摘要没有给出具体基准、模型规模和数值,结论的适用范围还要看论文全文和后续复现。

更稳妥的读法是:Proxy-KD 提供了一条绕开黑盒限制的技术路线。它不破解 GPT-4,不读取内部参数,也不改变 API 访问规则;它只是把一个代理模型放进训练流程,让学生模型不只模仿最终答案。

这对两类人最直接。做模型压缩的研究者会关心代理模型到底学到了什么,是知识迁移还是误差放大。用专有大模型训练小模型的工程团队会关心成本账:多引入一个 proxy model,是否能换来足够稳定的性能提升,是否比继续调用大模型更划算。

接下来要看复现,而不是只看“超过白盒”这句话

大模型蒸馏过去一年已经从论文话题变成工程问题。企业希望把强模型能力迁移到更便宜、更可控的小模型上,用在客服、检索增强、内部知识库和边缘部署里。黑盒教师常常来自商业 API,白盒教师则更可能来自开源模型或自研模型。

Proxy-KD 真正要过的关,不是概念是否成立,而是三个变量:代理模型本身需要多强;在不同任务上是否稳定;额外训练成本是否抵消了小模型部署收益。只要这些问题没有被公开复现实验充分回答,它就更像一个有启发性的研究方案,而不是可以直接写进生产排期的标准做法。

对工程团队来说,现实建议很朴素:如果已经在用 GPT-4 生成训练数据,Proxy-KD 值得作为实验分支评估;如果预算紧、数据闭环不稳,先别把它当成确定的降本方案。黑盒蒸馏的难点从来不是“老师够不够聪明”,而是学生能不能拿到足够好的学习材料。