约 200 条手工整理的提示,三条内部方向,一个开放权重模型。
这篇题为《What political censorship looks like inside an LLM's weights (Qwen 3.5)》的机制可解释性研究,盯的是 Qwen3.5-9B。它讨论的不是模型外面那句拒答,而是拒答、回避和宣传式回答在模型内部怎样被触发。
真正反常的地方在这里:作者称,Base 模型里相关事实知识仍然存在。聊天模型更像是在后训练之后,把这类问题稳定导向了某些回答模板。
我更在意的也是这一点。若结论站得住,它说明涉华政治过滤未必是“模型不知道”,更像是“模型知道,但被训练成走另一条路”。
研究发现:过滤被拆成三条方向
研究对象很窄:Qwen3.5-9B,重点是开放权重模型中的涉华政治过滤机制。
作者使用约 200 个手工整理提示,分为天安门、其他涉华议题、有害请求、中性或无害政治问题等类别。随后在模型残差流中提取出三条方向。
| 内部方向 | 对应信号 | 研究中的含义 |
|---|---|---|
| d_prc | PRC 敏感性 | 判断输入是否落入涉华敏感议题 |
| d_refuse | 是否拒答 | 判断输出是否进入拒答路径 |
| d_style | 涉华拒答风格 | 区分回避式拒答与宣传式回答 |
这比“模型会不会回答某个问题”更进一步。
外部测评只能看到结果。机制可解释性研究试图看到中间过程:哪些层在写入判断,哪些层在读取判断,最后怎样落成文本。
作者还把电路分成两段:L11–L20 更像“写入者”,负责形成上述类别信号;L20–L31 更像“读取者”,把信号转成输出行为。原文提到,第 24 层附近可能先把判定落实到中文 token,再由后续层转成英文输出。
这个细节有意思,但不能读歪。它不是在说“中文 token 决定审查”。研究主线仍然是:少数方向携带了可干预的行为信号。
对安全研究者来说,这提供了一个更硬的检查对象。不是只看模型有没有拒答,而是看拒答路径是否能在权重内部被定位。
关键证据:Base 对比和 steering 干预
这项研究最重要的对比,是 Base 模型和 Chat 模型。
作者称,Qwen3.5-9B-Base 在原始文本补全形式下,对天安门、Tank Man、法轮功等提示能给出相关事实。聊天模型则更稳定地产生拒答、回避或宣传式模板。
这支持一个判断:相关事实知识没有消失。变化发生在后训练之后,模型把某些输入路由到特定输出。
| 对比项 | Base 模型 | Chat 模型 | 能说明什么 |
|---|---|---|---|
| 相关事实 | 作者称仍能补全相关内容 | 不一定直接给出 | 知识缺失不是唯一解释 |
| 输出行为 | 更接近文本补全 | 更稳定拒答、回避或宣传式回答 | 后训练改变行为路径 |
| 研究价值 | 作为知识参照 | 作为过滤对象 | 可区分“知道什么”和“怎么回答” |
更关键的是 steering 干预。
如果只提取方向,最多说明相关性。作者进一步在合适层级、合适剂量上推动或减去某个方向,观察模型是否在正常回答、拒答、回避和宣传式模板之间切换。
这一步很重要。它把问题从“方向能分类输出”推进到“方向会影响输出”。因果链条仍需复现,但证据强度比单纯跑提示词测评高一截。
闭源模型很难做这件事。外部用户只能猜系统提示、RLHF 边界或安全策略。开放权重模型至少给了研究者一个机会:去看 activation patching、方向提取和 steering 是否能解释行为。
这也是开源模型治理里容易被低估的部分。开放权重不只意味着能部署、能微调,也意味着模型里的行为路由可能被检查、被改写、被绕开。利弊同源,不可不察。
影响和边界:谁该动,谁该等
最该受影响的不是普通聊天用户,而是两类人:模型安全团队,以及准备把开放权重模型接进业务系统的团队。
安全团队可以把测试从“问 50 个敏感问题,看答不答”往前推一步。更现实的动作是:同时比较 Base 与 Chat,按议题类别整理提示集,检查拒答、回避、宣传式模板是否稳定出现;如果有能力,再做激活层面的审计。
企业采购或内部模型团队则要更谨慎。若模型要进入政务、教育、知识库、跨境产品,仅靠表面红队不够。至少要把涉政、跨语种、历史事实类问题放进验收集。验收不过,就延后采购、换模型,或把这类问题交给单独的检索与审核流程。
这不是要求每家公司都做机制可解释性。现实里,多数团队没有这个能力。底线是别把“开源可控”直接等同于“行为透明”。权重能下载,不代表路由已被理解。
边界也要说清。
这项研究只覆盖 Qwen3.5-9B 这一模型。提示集约 200 条,类别由人工整理。它不能证明所有 Qwen、所有阿里模型,或所有中文大模型都有同一套审查电路。
它也没有评价政治事件真伪,更不是在替任何政治立场背书。它研究的是机制:模型怎样把一类输入导向一类输出。把机制研究直接改写成政治宣言,反而会削弱它的可复现价值。
接下来要看的不是一句“还会不会有更多研究”,而是三个硬条件:独立团队能否复现;更大参数版本是否仍有相似方向;中文、英文和多语提示下,这套电路是否稳定。
如果这些条件成立,开源大模型治理会从“看输出”推进到“查权重”。如果不能成立,它更像一个有启发的小模型病例,而不是行业通则。
文章开头那个问题也就回来了:模型到底是不知道,还是知道却不这么说?
就这项研究目前给出的证据看,更接近后者。但这句话只能落在 Qwen3.5-9B 这个范围里。过线一步,就不是判断,是编故事。
