美国商务部禁用统计“噪声注入”：更准确的名义下，普查数据可能更难用

核心摘要 Summary

美国商务部近日发布命令，要求人口普查局和经济分析局在统计产品中不得使用“噪声注入”。同一份命令还给披露控制方法排了顺序：优先粗化，只有粗化违法，或严重损害准确性、可用性时，才把抑制作为最后选择。

这件事容易被误读成“政府终于要让数据更准确”。我不太买账的是这一点。官方统计不是原始数据库公开，人口普查局和经济分析局仍有法定保密义务。问题在于，保密责任还在，工具箱却被拿掉了一件重要工具。

命令改了什么：禁的是噪声注入，不是所有隐私保护

这次命令的适用范围，是商务部统计产品中的“噪声注入”。受影响的核心机构，是人口普查局和经济分析局。它没有写成“美国全面禁止差分隐私”。

但实际指向并不难看懂。差分隐私在官方统计中的常见做法，通常依赖两件事：限制单个个体或机构对统计结果的贡献，再加入经过校准的随机噪声。这个噪声不是错误，也不是造假，而是披露控制的一部分。

差分隐私也不承诺绝对隐私。它做的是把隐私风险和数据可用性放到一个可量化的框架里，让发布者知道自己在用多少误差换多少保护。

命令给出的路线更接近这样：

方法	命令中的位置	典型做法	现实代价
粗化	首选	把县变成州，把精确年龄变成年龄段	细节减少，地方和小群体分析变钝
抑制	最后手段	小样本格子不发布	少数群体、稀有组合更容易“消失”
噪声注入	禁用	对统计值加入校准随机扰动	差分隐私、部分随机化披露控制受限

粗化和抑制不是没用。小表、低维度、风险明确的场景里，它们很常见，也容易解释。

问题出在大规模细分统计。人口、地区、年龄、族裔、收入、住房、行业一层层交叉之后，格子会迅速变小。只靠粗化，数据会失去颗粒度；只靠抑制，很多小群体会从公开表里被抹掉。

这就是这条命令的反常处。它看起来是在追求更“原汁原味”的数字，却可能逼统计机构发布更粗的数字。

美国人口普查局不是一开始就偏爱差分隐私。1990 年到 2010 年的人口普查，主要依赖一种叫“交换”的方法：随机交换部分记录属性，降低从公开表识别个人的风险。

后来问题暴露出来。普查局发现，仅靠交换方法，很难抵御重构攻击。攻击者可以利用大量公开统计表，像解方程一样，重构出接近个体级别的记录。

这就是 2020 年美国人口普查采用差分隐私的重要背景。它不是因为一个数学概念听起来先进，而是旧披露控制方法在公开数据越来越细、计算能力越来越强之后，已经不够稳。

这里有一个现实约束：统计数据越细，越好用，也越危险。

地方政府想知道某个街区、某个年龄段、某个少数族裔群体的住房压力。研究者想看教育、医疗、就业在不同人群中的差异。这些问题都需要细分数据。但细分越多，单个格子越小，重构和识别风险也越高。

差分隐私的价值，正是在这个矛盾里给出一个可计算的折中。它会带来误差，尤其在小地区、小群体、交叉分类很细时，误差会被明显感知。可它至少让发布者能说明：噪声加在哪里，加了多少，隐私预算如何分配。

禁用噪声之后，矛盾不会消失。只是从“怎样校准噪声”变成“到底粗化多少、抑制多少”。后者未必更透明，也未必更好用。

最先感到变化的，不是普通读者，而是两类人。

一类是使用官方统计数据的研究者、政策分析者和地方公共部门。他们依赖细分人口、地区、行业数据做模型、拨款、资源评估和项目复盘。如果未来表格层级被粗化，他们可能要改用更大地理范围的数据，分析精度下降；如果小格子被抑制，他们甚至看不到某些问题是否存在。

另一类是关注数据治理和隐私技术的团队。对他们来说，这条命令会影响的不只是一个技术名词，而是官方统计对现代披露控制工具的态度。做数据发布、隐私评估、合规方案的人，接下来需要重新检查：哪些流程依赖随机扰动，哪些报告会因为官方口径变化而调整。

动作层面的影响会很具体。研究团队可能要推迟基于新版细分数据的项目设计，先确认表格粒度是否变化。政策分析者可能要准备替代数据源，或者在报告里增加“数据粗化/抑制导致低估”的说明。做隐私技术的人则要更谨慎地区分：禁用的是商务部统计产品中的噪声注入，不是所有场景里的差分隐私。

接下来最该看三件事。

这条命令没有取消保密义务，所以不会让官方统计突然变成“无隐私保护”的裸数据发布。它真正改变的是路线选择：当不能用噪声来量化折中时，机构只能更多依赖粗化和抑制。

准确性当然重要。但在官方统计里，准确性不是唯一目标。一个数字如果细到足以反推出个人，就不能发布；一个数字如果粗到无法指导政策，也失去了公共价值。

开头那个问题，答案也在这里：禁用噪声注入未必会换来更可信的统计。它更可能让统计机构在“看不清”和“藏不住”之间，做更难看的选择。