如何处理巴拿马文件那种规模的泄漏?:开始调查(2)- 介绍一些工具

  • 本系列依旧是框架式指南,用具体案例呈现思考方式,相关细节的操作方法此前都有过介绍;所以,如果您的社区/团队使用本套指南作为培训材料,请将其中关联的链接作为知识点单独讲解 

欢迎回来!

如果您错过了前面的内容,可以在这里回顾:《保持敏锐需要一些技巧:开始调查(1)- 从嗅觉到行动力》。

关于本系列的简介,见下图:

本文来自德国记者 Frederik Obermaier 的经验。

从瑞士泄密到巴拿马文件,如今的透明度革命越来越强大,对于调查者来说,处理大量数据的工作越来越频繁。

调查记者和编辑 Frederik Obermaier 对此了如指掌。他和他的同事巴斯蒂安·奥伯迈尔(Bastian Obermayer)发起了 “巴拿马文件”(Panama Papers)调查项目,这是一个关于迄今为止向记者泄露的最大规模数据集的项目。这也是记者们最大规模的合作,涉及80个国家的350多名记者,由国际调查记者联盟协调。

处理如此大的泄密事件是很复杂的,但如何在第一时间获得这些数据?

能见度高

作为吹哨记者,要想获得泄密,意味着您本人必须是可见的,在某种程度上就像您在互联网上、您在公开讨论中发言、您站在街头。简单说您必须展示自己,否则线人或吹哨人就找不到您。

还记得斯诺登是如何找到 Glenn 的吗?因为他读到了大量 Glenn 撰写的报告、博客文章和视频访谈,他知道这个记者的立场、工作领域、尤其是人格,可以帮助他公正地发表泄漏信息。

下面是 Obermaier 的视频讲述:

他的第一个建议是建立自己的网页。

“我的网页就像一张名片一样”,他说。

📌 在自己的网页上,吹哨记者应该列出所有的联络方式、自己工作用的电话号码、工作用的个人电子邮件地址、邮寄地址(如果有人想邮寄硬盘的话)、公钥、以及使用的所有加密通信服务。

“一旦有新的吹哨出现,我就会创建一个新的账户,因为我不想强迫吹哨人采用某种沟通方式”,Obermaier 说。这点也是技巧之一。相关技巧详见(公民)调查记者如何与吹哨人合作:7点提示》。

这样做的缺点是,您的联系方式会被公开,所以人们可以在晚上给您打电话,也许会发送烦人的信息,这种情况是很普遍的。然而,这是值得的。“每10个侮辱你的人中你就能得到一个伟大的吹哨,为了最好的揭露,一切都是值得的”,Obermaier 说。

要问的问题

在得到一个吹哨后,调查者首先应该问的第一个问题就是:数据集是否真实。如果证明真实,则继续检查它是否符合公众利益。如果符合公众利益,继续检查数据集除了源头保护外,是否有任何附加条件,比如只发布某些文件或在特定时间发布。

“当我听到,「你必须在某一天发布」或者「你必须发布这个和那个部分」,我总是有点紧张和谨慎”,Obermaier 说。简单说,调查者应该思考对方为什么提出这样的要求。

然而,最难的一步是第一步  — — 确保泄露的消息是真实的。检查泄密的真实性是一件很麻烦的事。

您需要的工具

问题是,如今正常的吹哨泄漏都是几千兆字节或几兆兆字节的数据,调查者必须快速扫描所有这些数据,并与公共记录、公司记录、法庭记录、或人类信息源进行交叉检查。

要做到这一点,您需要趁手的工具。对 Obermaier 来说,最重要的工具之一是光学字符识别,即OCR,它可以让扫描的文件变成机器可读。为此,他喜欢 Abbyy 的 FineReader,这是一个付费的OCR解决方案。接下来,当您把所有泄露的文件都进行OCR处理后,您需要一些东西来搜索它们。为此,Obermaier 推荐了 Aleph,这是一个由有组织犯罪和腐败调查报告项目(OCCRP)的 Friedrich Lindenberg 开发的工具。

他说,Nuix 也很有帮助,但相当贵。然后,它对可视化您的数据来说真的很有帮助,为此他推荐 neo4j 软件。

“但是当然,当处理像巴拿马文件这样的大泄密事件时,我们有超过2TB的数据,它带来了一定的责任。你必须检查每一个文件在发布之前进行仔细分析”,他说。

如何处理大数据,Hacking Team 案例研究

当您遇到300GB的乱七八糟的数据泄露时,您该怎么办?

处理这么多的数据并不容易,您需要知道自己到底想要什么,才能妥善管理。

这样的数据泄露有几种方式来找您。要么是消息来源直接给您,比如斯诺登泄密事件或巴拿马文件,要么是黑客将其作为一组文件上传到网络上,您需要下载,比如 Hacking Team 或丝绸之路航空公司的文件,尤其是 BlueLeaks 那种专门依靠黑客泄漏的吹哨平台,2017年的五角大楼调查就使用了这种规模的文件。

或者,也许您只是得到了一大堆纸质文件,您需要将其数字化,以便妥善处理,就像亚努科维奇泄密案那样。

在任何情况下,您都需要快速行动,特别是当泄漏信息是公众直接受益的东西时,或者您的竞争对手(比如企业媒体和官宣)正在处理这个案子。

📌 您的工作是迅速评估材料,整理材料,认识到每份文件的重要性,核实后开始发布。

但首先要做的是把所有的东西整理出来,了解数据。

这可能是压倒性的,所以您需要尽快掌握:

  • 您到底收到了什么?
  • 来源是怎么说的,和眼前的东西相比如何?
  • 它看起来合法吗?谁能验证它是否完全真实?
  • 一般内容是什么?
  • 您能发现一些线索吗?
  • 有什么需要您立即行动的吗?

当您掌握了手头的实际情况后,您就会计算出自己可能会从数据中提取出哪些潜在的故事,然后开始以这样的方式进行组织,您可以证明或反驳自己的偏见或想法。📌 具体思考方式和工具详见我们的 “解码秘密” 指南

这个方法的一个很好的例子是 The Share Foundation 的研究人员对 Hacking Team 文件进行的调查工作。

Hacking Team 是一家意大利监视技术公司,专门研究和制造侵犯人权的间谍软件工具。无国界记者组织将其称为互联网的企业敌人之一。

2015年7月,一个不知名的黑客公开提供了 Hacking Team 400GB的内部文件、发票、邮箱和源代码的链接。

当大家都在关注 Hacking Team 的合同、他们的间谍工具、和涉及的国家时,Share Foundation 的人决定根据泄密事件中提供的数千封邮件的元数据,做一个关于 Hacking Team 内部运作的报道。

他们成功地重建了 Hacking Team 的 CEO David Vincenzetti (Mister D.) 的具体行为,他在国外旅行时在做什么,HT什么时候发生危机,他的行为如何。

📌 调查元数据是重点之一 — — 因为大量元数据包含了互联网用户私人生活的敏感信息。

那么,这是如何做到的呢?

首先,调查者获得了黑客提供的泄漏数据;然后,他们从中找出所有可能的故事,决定一个调查焦点 — — 元数据调查。

调查者意识到,他们可以从 Hacking Team 邮箱账户的几十万封邮件中提取标题,这时故事就开始形成了。

当您知道自己想要什么的时候,只需要选择合适的工具就可以进入工作了。

电子邮件的标题包含了大量的数据。其中大部分对于重点调查来说是无用的,而作为调查者,您需要对其进行一定的了解。

对于这类调查,需要的数据有:每封邮件的主题、日期和时间、相关人员的邮箱地址和姓名。

既然邮箱文件的扩展名是.pst,那就意味着这些是微软公司无处不在的电子邮件软件 Microsoft Outlook 的文件。不过,Outlook 在这次调查中并没有用处,因为它对这些邮件的唯一工作就是打开邮件并显示内容。

调查者需要一个工具来搜索这些文件,并只提取和分类调查所需要的信息。

在这里使用的工具是 Outlook Export,这是 Code Two 公司的一个免费软件,该公司有几个处理微软文件的免费程序

利用它,您能够选择对调查很重要的元数据,并将它们导出到一个单独的表格中。

现在,当调查者把结构化的数据放在一个表格中时,就只剩下把这些数据翻译成一个故事的问题了。

但是,您如何将几十万条数据行翻译成一个故事?您如何从中发现重要的趋势?

📌 有几种方法可以做到,但其中最好的一种是从不同的角度来观察数据。

使用开源的可视化工具,如功能强大但易于使用的 Gephi,调查者能够以多种方式对提取的数据进行图形化表示。

每一种表示方式都能够让调查者产生新的认识  — — 谁在组织内部和外部与谁交流,他们什么时候去度假,什么时候起床,谁在世界的哪个地方工作,谁是主要的合作伙伴,等等。

这样,调查者就能够确定CEO的邮箱地址是 Hacking Team 中人员内部沟通的中心点。这些信息决定了调查报告的其他部分。

通过关注CEO,调查者可以回答他们提出的问题了:「您能仅仅根据一个人的邮件元数据来重构他的私密行为吗?」

答案是,可以。

通过仅使用人人都能使用的开源和免费工具对元数据进行调查,就得以深入了解一家间谍软件公司CEO的个人习惯和活动,并证明了这一前提,即:元数据中包含了互联网用户私生活的敏感信息,可以用来监控此人的行为,“比传统的监控更深入和更危险”。

关于HackingTeam 泄漏邮件的调查演示在这里看到:《想知道老大哥是如何侵犯你的吗?挖掘更深层的内幕》⚪️

—— 未完待续 ——

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据