“遵循数据”就足够了吗?社会科学不是机械性的数学问题

  • 社会学研究需要的不仅仅是对数据的遵从。在某些情况下,它甚至要求您拒绝研究结果 — — 无论这些研究结果所依据的技术设备有多高的威望或多复杂

这不只是一个统计学方法论的问题,而是希望通过这场高调的辩论,帮助人们理解到被用于指导政策或为政策辩护的社会科学研究结论,有可能落入什么样的陷阱。您应该当心那些设计这种陷阱的人。

2016年,经济学家 Roland G. Fryer, Jr. — — 哈佛大学有史以来最年轻的获得终身职位的非裔美国人,发现了一个他称之为 “我职业生涯中最令人惊讶的结果”。在一项关于警察使用武力的种族差异的研究中,弗莱尔发现,黑人和西班牙裔平民被警察射杀的可能性并不比白人平民更高。“你知道,抗议不是我的事”,弗莱尔告诉《纽约时报》,“但数据是我的事。所以我决定,我要收集一堆数据,并试图了解当涉及到警察使用武力的种族差异时,到底发生了什么。”

三千个小时后,经过细致的记录收集和分析,数据已经说话了。弗莱尔总结说,尽管黑人在类似情况下比白人更有可能在警察手中遭遇非致命武力,但在致命的警察枪击事件中并不存在种族偏见。

这些发现似乎对迈克尔·布朗、埃里克·加纳、塔米尔·莱斯、弗雷迪·格雷、费兰多·卡斯蒂利亚等等无数人被警察杀害后席卷美国的日益增长的抗议运动有直接影响。

弗莱尔在论文的结尾写道:“在低级别的武力使用中存在的种族差异是有道理的,BLM等运动应该在他们自己的社区内寻求解决方案,而不是去改变警察和其他外部力量的行为”。

这项研究很快就受到了抨击。在大多数情况下,批评者采取了两种方法中的一种。这两种方法是,1、认为研究在技术上失败了:数据是错误的或误导性的;分析中存在数学错误;统计协议是不恰当的。2、是以辅助性的理由来破坏这项工作的合法性,指出经济学家不是研究警察枪击事件的专家,而且经济学专业存在着保守的偏见。

这两种类型的回答体现了对定量社会科学成果的常见反应模式,它们也再次在关于警务的国家对话中广泛展示。但它们说明了人们对社会科学调查的性质的思考方式存在着深刻的问题 — — 因此也说明了人们对政治和政策的思考提供信息的能力。

在这两种观点中,科学方法要么被认为是密不透风的,只有来自内部的错误才能破坏它;要么被认为是漏洞百出的,其有效性完全取决于外部利益。当然,每一种错误都有案例:一方面是 Reinhart-Rogoff Excel 电子表格的失误,另一方面是埃克森美孚公司用数千万美元资助气候变化否认主义的研究。

然而,如果人们认为科学实践要么无处不在,要么无处不被数据所解决,那么就会误解日常的科学实践。正如历史学家和科学哲学家长期以来所强调的,“数据” 永远不能把我们从观察到结论的整个过程中带出来;我们只能根据一些背景理论来解释它们,这些理论解决了数据所证明的问题。在定量社会科学中,一套共同的理论和规范承诺远没有发挥任何作用以使数据优先的方法能够完全可行。

数据和理论的这种纠缠贯穿于量化方法的任何应用中,但在今天的种族研究中,这种纠缠尤其充满了矛盾。自20世纪70年代以来,因果推理方法的发展和大规模数据收集工作的兴起,产生了大量关于社会中种族影响的定量文献。但是,尽管其技术日益成熟,学者们还没有就有关这些影响的正确概念化和测量的基本问题达成共识。种族作为一个原因究竟意味着什么?关于种族的推论何时能从单纯的相关关系跃升为因果关系?我们在哪里划分关于社会世界的假设与假设之间的界限  — — 前者是为了让统计机器启动和运行,后者则大量扭曲了社会世界的实际情况和运作方式?又是什么让定量分析成为法律和政策制定的可靠资源?

在学术和政策讨论中,这些问题往往被越来越深奥的技术工作所挤掉。但是,这些问题引起了深刻的关注,无论多少复杂的统计实践都无法解决,而且随着关于种族和警务的 “基于证据” 的辩论达到新的争议程度,这些问题确实会越来越重要。

人们需要对社会科学能够提供的调查、证据和知识,以及它不能提供的东西,有一个更精确的认识。在最新发现的浪潮中,人们应该相信什么 — — 以及应该放弃相信什么  — — 永远不能简单地通过对数据的粗暴呼吁来决定,无法对可靠性和重要性的判断划清界限。对正确的社会世界的承诺并不要求仅仅因为被认可的统计机器已经启动而对结果表示敬意。事实上,在某些情况下,它甚至要求我们拒绝研究结果,无论这些结果所基于的社会科学机器有多大的威望或多复杂。

在这些问题上,可以从去年夏天引发的一场争论中找到启发,5月底发表在《美国政治科学评论》(APSR)上的一篇论文质疑了最近研究警察行为中种族偏见的许多方法的有效性,包括上述弗莱尔的方法。在明尼阿波利斯警察 Derek Chauvin 谋杀 George Floyd 的全球抗议的背景下,社会科学家之间发生了非常公开的争吵。

APSR的论文特别强调了 “使用本身就是种族歧视产物的记录来研究种族歧视问题” 的困难。作者 Dean Knox, Will Lowe 和 Jonathan Mummolo 指出:

如果在决定拘留平民的过程中存在种族歧视 — — 这决定了哪些遭遇会出现在警察行政数据中 — — 那么在没有额外数据和/或强大且无法测试的假设的情况下,对平民种族对随后警察行为的影响的估计就会有偏差。

简而言之,问题在于 “警察记录并不包含警察所观察到的人的代表性样本”。如果有种族偏见反映在谁被拦截和为什么被拦截上 — — 我们有独立的理由相信确实如此 — — 那么,如果不做额外的不靠谱的或无法测试的假设,警方关于白人和非白人被捕者的数据就无法直接比较了。因此,数据中的这种 “后处理偏差” 将严重影响任何估计种族对执法行为的 “真正” 因果影响的努力,即使我们只对拦截发生后的情况感兴趣。

作者总结说:“这一领域现有的经验性工作在警察行为中的种族偏见的严重性方面产生了误导性的证据描述。这种技术大大低估了或完全掩盖了有色人种平民所面临的不同的警察暴力”。因此,作者呼吁 “未来的研究在设计时要考虑到这个问题”,他们还概述了一种替代方法。

一个月后的6月,其他几位学者 —— 约翰·盖布勒、威廉·蔡、纪尧姆·巴塞、拉维·施罗夫、沙拉德·戈尔、和珍妮弗·希尔的批评性回应出现了;为简单起见,将这群学者称为第二阵营。他们反驳了APSR作者对警务工作中种族偏见研究的悲观评估,认为APSR的论文建立在一个 “数学错误” 之上,认为通常的方法仍然可以恢复种族对执法行为的因果影响的可靠估计,即使警察拦截本身就是有种族偏见的。他们断言,错误在于假设必须要有某些条件,才能使用像弗莱尔这样的数据做出可靠的估计。事实上,这些学者写道,一个较弱的统计条件 —— 他们称之为 “子集可忽略性” —— 也足够了,而且它更有可能在实践中 “完全或近似” 成立。然后,他们试图通过提出他们自己对检察官决定起诉的种族偏见的分析,来说明标准的因果估计技术是如何被拯救的(再次依赖于APSR作者认为有问题的那种来自警察记录的数据)。

在这次交流之后的几天里,随后发生的事只能被描述为在推特上进行的一场高调的统计学对决,其中还夹杂着感兴趣的旁观者的评论。第二阵营对数学进行了辩护,认为统计方法的进步不应该因为担心不可观察的偏见而被排除在外。戈尔写道,在一个越来越多地以定量分析为指导的政策环境中,“断然禁止一种方法……会给人们带来严重后果。… 会在改革的道路上产生严重的后果” 。

相比之下,APSR的作者强调了他们所认为的应用社会科学研究的目的:提供分析,为现实世界的政策和实际的政治项目服务。例如,Knox 写道,批评者的论点 “把种族偏见当作了一种数字游戏”。相反,他继续说,他和他的合著者 “使用统计学来寻求严肃问题的最佳答案 —— 而不是构建关于紧迫情景的愚蠢逻辑谜题”。APSR的作者们认为,现在不是为了摇动统计机器迷恋数学假设的时候。

我们该如何看待这场辩论呢?尽管提到了数学和证明 — — 反例-反证的争论,这表明只有在纯逻辑领域才能找到解决办法,但是,这场争论最终归结为统计实践中一个平凡的、先天的特征:在每项工作开始时必须做出的假设的可信性。

对于APSR的作者来说,即使是第二阵营的较弱的子集可忽略性假设也无法通过经验审查的考验:对他们来说,就社会世界事实上是如何运作的问题,显然是不可信的。但具有讽刺意味的是,鉴于他们对APSR论文的强烈批评,第二阵营在他们自己对检察官的指控决定的分析中也得出了同样的结论,承认 “子集可忽略性可能被违反”,从而使他们自己的结果在经验上受到怀疑。

这个奇怪的插曲表明,社会科学家在寻求坚持自己的经验承诺时常常陷入双重困境,特别是当涉及到观察性研究 —— 相对于随机实验而言 —— 是今天几乎所有定量社会科学的主要收入来源。要么她为自己争取到了使用大量数据的能力,但代价是她的模型和假设不靠谱;要么她从经验上靠谱的假设开始,但留给她做推理的数据很少。

总的来说,在过去的二十年里,定量社会科学采取了前者,这在很大程度上要归功于来自资金的激励。如果难以置信的假设是进入市场的代价,那么大数据革命保证了这种付出是值得的,无论是利润还是专业声望。正如数理统计学家大卫·A·弗里德曼(David A. Freedman)所写道的:“在社会和行为科学领域,那些设法忽视模型背后深远假设的人,常常为先进的定量方法的优越性提出意义深远的主张。”

但是,如果社会科学家真正致力于实证研究,他们在可信的假设和现成的数据之间做出的这种选择本身必须在实证的基础上得到证明。因此,他们最终做出的举动默示了他们对目前可用的社会世界理论的信任,或者至少是他们自己愿意做错的那种承诺。正因为社会科学是比数学更重要的东西 —— 是要弄清楚世界是怎样的,或者大约是怎样的 —— 所以统计假设永远无法摆脱其实质性的影响。

因此,对社会科学真正 “以证据为基础” 的要求是非常苛刻的:这意味着我们不能仅仅基于数学上的便利,或者纯粹出于对统计机器的渴望,来证明我们使用令人难以置信的假设的合理性。只有相信我们的假设是真实的,或足够真实,对实际存在的世界而言,社会科学才能满足这一苛刻的要求。

请注意规范性在这个分析中所扮演的角色。如果作为开始任何统计分析的第一步,定量社会科学家必须采用一套关于社会世界如何运作的假设,他们就会引入实质性的理论承诺作为调查的投入。因此,这种最初的规范性贯穿了整个分析过程:根本无法逃避它。随后的任何统计举措是否合适,将以复杂的方式取决于一个人对社会世界的最初实质性观点。

在种族和警务研究的具体案例中,这些反思意味着什么?事实上,在任何特定的研究中,人们是否已经提炼出种族对警察行为的因果影响,将取决于人们对更广泛的警务工作的种族特征的真实看法。

由于你在这些问题上的立场取决于你对种族不公正作为一种经验现象的普遍性和严重性的背景看法,因此,一个发现是否最终通过了统计学上的考验,从而被视为种族歧视的警察行为的实例,将取决于你对社会世界更广泛的取向。

这些考虑的结果是,统计分析不可避免地带有规范性;“遵循数据” 从来不是一个机械或纯粹的数学练习。但这一事实不应导致我们放弃对经验有效性的任何承诺。相反,它应该只是提醒我们,经验审查的标准适用于任何方法论的整个过程。正如弗里德曼所说:“实证研究的目标是 — — 或者说应该是 — — 增加我们对现象的理解,而不是展示我们对技术的掌握。”

这种取向的一个重要后果是,研究者不仅要对假设,而且要对结论进行经验审查。对社会世界的一些观察家来说,在警察枪击案中不存在种族的因果效应的结论不仅是难以置信的:它就是简单和明显的错误。因为即使粗略地看一下描述性的汇总统计,也能发现黑人与白人相比,被警察杀害的风险有很大差距。

根据一项研究,黑人男子被警察杀害的可能性是白人男子的2.5倍,来自100个最大城市警察部门的数据显示,警察杀害手无寸铁的黑人的比例是手无寸铁的白人的4倍 — — 这些统计事实还完全没有提到公开的种族主义警务的巨大历史记录,而这并不容易量化。

如果某些方法抹去了这些明显的(和无可争议的)差异,描绘出一幅种族并不对警察射击行为产生因果影响的社会图景,那么这些方法就会变得更加糟糕。从这个角度来看,不考虑几十年来种族化警务和政策制定的多种不同形式的证据,不仅是规范上的错误,它在经验上也是荒谬的,特别是作为一个自诩为 “基于证据” 的研究项目试图照亮我们社会世界的真相。

我们有时应该拒绝一个发现,理由是它不符合我们先前的信念  — — 这个建议似乎是对经验科学项目的彻头彻尾的异端。的确,这里有一些危险;在极端情况下,不分青红皂白地拒绝根据证据改变我们的想法,这就意味着对世界的实证研究的承诺是虚假的。但事实是,在完全常规的科学实践过程中,科学家们一直在以这些理由拒绝研究结果。最近有新闻价值的一个例子是,2011年的一项研究发现了超感知觉的证据。此举不一定意味着理性的失败;事实上,它往往是对理性的一种要求。在任何特定的情况下,确定它是哪一种,不能通过询问一个人是否忠实于 “事实和逻辑”(正如许多人喜欢说的那样)或数学推导的纯粹严格来解决。

相反,当一个科学发现与我们的一个信念相冲突时,我们每个人都必须梳理哲学家奎因(W. V. O. Quine)强调的 “信仰之网”,考虑必须牺牲什么来挽救其他的信仰。因为每个人的网并不完全相同,所以理性的信仰修正对每个人的要求也会有所不同。一个人愉快地得出的结论是另一个人的矛盾证明。或者说,正如俗话所说,一个人的肯定前件是另一个人的否定后件。

由于不同意某项研究的结果而拒绝其方法或起始假设,是一种完全合法的推论行动。人们倾向于忽视科学的这一特点,只是因为对大多数人来说,科学调查的许多细枝末节对日常生活没有什么直接影响。人们的信仰之网通常不会被科学的最新发展所触及。但是,一旦科学发现与人们的信念相接触,甚至与人们的信念相冲突,人们就会对推理链的运行方式变得更加敏感。

善意的理性努力可能导致不同的人得出不同的甚至相反的结论,这是科学的一个基本的、令人不安的限制。我们不能寄希望于对世界的纯粹了解,在没有中介理论的情况下直接从数据推出结论。

最后,弗莱尔研究的争论是一个漫长的实物课程,说明人们的经验性承诺总是与规范性承诺纠缠在一起,包括更典型的被认为是道德或政治的承诺。

特别是选择在自己的假设中牺牲经验上的合理性,在 “仅仅是事实” 的过度简化的意义上,不仅仅是一个 “科学” 问题:而且它还不可避免地与人们的伦理和政治承诺交织在一起。在将自己的信仰之网带入关于什么构成对警务工作中种族影响的适当研究的辩论中时,人们提出的不仅仅是关于种族目标的普遍性或警察报告做法的忠实性的先前经验性信仰,而且还有自己对种族正义事务的取向和作为种族和更广泛的警务和刑事司法系统研究者的自我概念化。

对于APSR的作者来说,警务工作中的偏见既是一种规范性的关注,也是一种经验上的可能性,因此,作为一个良好的科学实践问题,允许牺牲某些一切照旧的方法。相比之下,第二阵营则不愿意放弃被推崇的方法。他们对所谓的标准方法的有用性的承诺是如此之深,以至于他们还没有看到足够的理由退缩。在10月发布的论文修订版中,作者删除了 “数学错误” 的断言,但发现 “有理由感到乐观”,许多潜在的歧视案例确实符合为挽救通常方法而提出的统计假设所规定的经验条件。

而这些乐观的理由到底是什么,仍然不清楚。第二阵营自己也承认,因为 “我们无法知道未测量的混杂因素的确切性质和影响……我们必须在很大程度上依靠领域的专业知识和直觉来形成合理的结论。” 然而,在没有提到任何此类进一步的证据或支持的情况下,他们还是得出了结论:“在这种情况下,我们将我们的结果解释为提供了适度有力的证据,即在我们考虑的司法管辖区,感知的性别和种族对检察官的指控决定影响有限”。这样的说法最终说明了他们的信仰之网比实际存在的社会世界要多得多。

对于那些在参与自下而上的激进社会政治运动中形成的信仰、经验和伦理,不愿意接受关于种族和警务的某些发现,就是在他们的信仰网络中坚定不移地致力于某种厚重的经验和伦理命题,即:警务和监狱系统是种族恐怖的工具,任何因果关系理论、种族理论和值得一试的统计方法都会认为种族是影响不同的警务和监狱结果的重要因果因素。这只是 “符合数据” 的第一个测试。这不是对理性的逃避,而是对理性的行使。

这种对社会科学的看法是否将一种认识论的事业变成了一种粗暴的政治事业?愿意牺牲一些科学发现来挽救伦理或政治承诺,是否会危及科学作为一个寻求产生关于世界的新知识的独特项目的地位?我认为这并不是必须的。即使是最强硬的经验主义者也是有起点的。她必须根据她认为最自然、最合理、最富有成效的某种背景理论来解释她的数据。对这一立场的偏离,如果是自觉地受到政治的驱动,那么其真正的求实性并不比自诩的对现状的中立尊重要差。

这一事实往往会在关于科学在 “客观”(不受偏见和外界干扰)和 “政治”(不受限制地争夺权力,“科学” 的标签只被贴在获胜者的身上)之间的连续体上的位置的辩论中被忽略。这种情况忽略了科学是如何在知识生产的战壕中展开的:在方法论的细枝末节中决定哪些假设必须牺牲,哪些可以保存,什么时候抽象会导致愚蠢的逻辑难题,什么时候抽象是一种必要的邪恶,哪些结论会引发双重评价,哪些是范式转变的信号,等等。承认这些斗争不能使我们超越 “最新发现” 的永无止境的浪潮,并不是要放弃定量社会科学作为更好地理解世界的冒险。它只是接受了一种社会调查的概念,正如哲学家理查德·J·伯恩斯坦所说,它总是同时具有 “经验性、解释性和批判性”。⚪️

Race, Policing, and The Limits of Social Science

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据