官方统计错误 
作者:阿历克斯·塔巴洛克(Alex Tabarrok)
原文:Census Miscounts
哇哦,贾斯汀·沃尔夫斯(Justin Wolfers)报道了一篇新的由特伦特·亚历山大(Trent Alexander),迈克尔·达文(Michael Davern)以及贝西·史蒂文森(Betsey Stevenson)撰写的NBER(译注1)论文(公开版本),该论文是关于他们在官方的人口普查数据中所找到的错误,特别是关于65岁及以上的公民的数据。
问题的根源是什么?美国人口普查局故意将微观数据混淆了一点,以保障每一位个人的身份信息不被泄露。比如,如果他们将一位居住在费城的37岁澳大利亚侨民重新编码,将其记录为36岁,那么你就很难在微观数据中找到我,如此就保护了我的隐私。为了确保数据仍然可以给出准确的估计值,很重要的是,他们也要把一个具有类似特点的36岁个体重新编码,将其记录为37岁。以上可以让你大概了解一下他们的“防止泄露步骤”。虽然听起来有点奇怪,如果这些步骤是被正确使用的,数据还是会提供正确的估计结果,而且同时还保护了我的隐私。到目前为止,一切顺利。
但是,因为在统计局如何实施这些流程上存在一个程序上的错误,问题就出现了。正确的反应显然应该是:改正方案,并公示正确的数据。不幸的是,统计局拒绝修正数据。
该问题还会进一步深化。如果错误仅仅是如上图表所示的话,只要重新调整估计值,那么结果不会有太多偏差,比如说,85岁的老年男性——只要将他们的数据减少一点儿就好了。但结果是,相同的编码错误也弄混淆了年龄以及就业之间的相互关系,或者是年龄和婚姻状况之间的关联数据(以及,作者们怀疑,可能还有一些其他的相关关系)。当你像这样把一些相关联系破坏,就没有一个简单的统计学上的方法可以修正。
更糟糕的是,研究者们发现,相关的问题会使得从其他大型数据源中得到的微观数据误差增大。总而言之,他们在以下问题上找到了相似的错误:
- 2000年的十年数据统计
- 美国社区调研,这是一个年度“迷你统计”(错误存在于2003到2006年度,但不在2001-2002年度,以及2007-2008年度)。
- 目前的人口调查,这是我们主要的劳动力数据的来源(错误存在于2004-2009年度)。
这些微观数据已经被作为参考文献用于成千上万的研究以及不计其数的政策性讨论中了。
译注1:NBER,National Bureau of Economic Research 的缩写,全国经济研究局,一个美国私人的、非营利性质的研究组织。
(审校:ina)
泰勒·考恩(Tyler Cowen)是乔治梅森大学的经济学教授,在公共选择研究中心工作。同时他也是James Buchanan中心和Mercatus中心的董事。
阿历克斯·塔巴洛克(Alex Tabarrok)是乔治梅森大学的经济学副教授。同时他也是一家独立机构的研究总监和Mercatus中心的研究员。