如何获取、挖掘、分析各种来源的调查数据完整指南:解码秘密(2)- 开始收集和处理数据

  • 能做的事有很多。公民的直接行动最基本需要的是:开动脑筋,发挥创造力

欢迎回来!

如果您错过了前面的内容,可以在这里回顾:《如何获取、挖掘、分析各种来源的调查数据完整指南:解码秘密(1)- 哪些方式可以找到您想要的东西?》。

关于这份指南:来自8个国家的11人参与了这份指南的编写工作;在38个案例研究中介绍了来自20个国家的情况;配有76张图片;推荐了64种工具和89种资源。

本指南适合所有国家的公民调查人员、非政府组织、独立权利组织、反抗社区,即 所有支持直接行动的人和群体。

同样:建议您按顺序阅读本手册。

本集将继续前文内容,开始研究收集这些数据的技术和处理方法。

本集中涉及的资料在这里下载https://www.patreon.com/posts/ji-zhu-zi-yuan-43947456

收集

这一节中将介绍四种思考您所拥有的或已经发现的数据的方法,以及如何帮助他人最大限度地利用这些数据。接下来将采用实用的方法,通过三个教程来展示如何获取通常情况下无法获取的数据。

Suzanne Vega 的《Tom’s Diner》是90年代初第一首被压缩成.mp3格式的歌曲。当 Karlheinz Brandenburg 在柏林的弗劳恩霍夫研究所(Fraunhofer Institute)工作时,他开发了.mp3格式,极大地提高了现在人们在电脑上分享和存储音乐的能力。

同一研究所开发了一种技术,从柏林墙倒塌后斯塔西匆匆撕毁的数亿份文件中收集证据。

斯塔西 —— 更正式的名称是纳粹的国家安全部 —— 是德意志民主共和国在1950年至1990年期间的官方国家安全机构,以极其有效的和压制性的秘密警察机构而闻名。

上图中这本书在这里下载https://www.patreon.com/posts/mi-mi-jing-cha-40693613

斯塔西以热衷于使用纸张而著称,他们将所了解到的关于他们所监视的人的一切情况都记录在案。1989年柏林墙倒塌后,斯塔西知道自己风头已过,他们将因监视民众而受到调查。他们出动了劣质的碎纸机来销毁他们积累的纸质记录;碎纸机坏了,他们就用手把文件撕碎,塞进麻袋里。而在销毁这些麻袋之前,斯塔西总部就被包围了,这些麻袋被新的联邦当局截获。

几十年后,弗劳恩霍夫研究所发明了一种叫做电子拼图器的技术 ePuzzler。ePuzzler 使匹配和重建整个斯塔西文件成为可能。

首先,每一张被撕碎的纸张都必须进行扫描。在扫描过程中,有关纸张的大小、形状和记号的数据都被数字化记录下来。然后,电子拼图器使用数学公式将纸张的大小和形状信息与其他约6亿张纸片进行匹配。

Image showing unsorted fragments of various sizes” Source: BStU/Jüngert

ePuzzler 的诞生有很多有趣的原因。2007年,弗劳恩霍夫研究所面临着一个看似不可能完成的任务,即:为了调查从1950年一直到1989年的斯塔西及其秘密警察活动而匹配数百万张纸片。他们没有依靠已有的技术,而是创造了一种新技术来应对这一挑战。

📌 这个案例研究还表明,在收集信息的同时,您可能不知道这些信息什么时候会变得有用。当调查人员在20世纪90年代收集这些无穷无尽的碎信息袋时,他们不可能知道20年后,科学家们会发明一种技术,可以自动将这些信息重新拼凑起来。

由于数字技术使信息的共享、存储和发现更加方便,因此,有了处理数据的新的可能性。

然而,您建立调查所需的数据从来都不是现成的,也很可能不是以您可以立即使用的方式或格式组织起来的。于是您经常不得不在互联网上四处搜索,以找到所需的数据;有时,数据采集的过程不得不求助于许多不同的人。

开放数据的倡导者认为,公共机构发布信息和数据时,不仅要考虑到现代的在线习惯,并且,他们应该以消除任何形式的重复使用的技术、财务和法律障碍的方式进行操作。

📌 在实践中,这意味着设计发布不同类型信息的方法和标准时,其方式要能预见到但不排除人们可能想用它来做什么。

这包括确保信息以数字格式发布,可以在常用的桌面工具(如电子表格)中使用,并使用共同的标准来实现数据集之间的链接。

这项重要的技术工作消除了挖掘数据中蕴藏的潜力的实际障碍,有助于实现呼吁获取数据所建议的必要行动。

本节分为两部分。

第一部分 “让数据在线有用”,介绍了四种思考您所拥有或发现的数据的方法,以及您如何帮助他人最大限度地利用这些数据。

第二部分 “如何在无法访问数据时访问数据”,通过三个教程,以实用的方式获取数据:

  1. 访问锁定在PDF电子表格中的信息
  2. 利用抓取工具将网站变成电子表格
  3. 关于团体和个人的教程,以及相关示例

使数据在线有用

数据可以成为发现新故事或被隐藏的秘密的地方,尤其是,如果您能创造一种显示原始数据的方式,召集公众帮助广泛搜索以寻找有趣的东西。

2011年,Tactical Technology Collective 采访了印度 Kanoon 的 Sushant Sinha 博士,他所做的计划就证明了这一点。

“如果您在2008年问我是否是活动家,我会说不是。当时我是一个纯粹的技术人员。现在我认为我的作用是在印度提供免费的法律服务。”

当我们问他,创建 IndianKanoon.org —— 一个免费的、每天更新的、包含200万条印度法律和法院判决的在线搜索引擎 —— 是否是行动主义时,Sushant Sinha 博士笑了。他认为自己的工作是在解决一个恼人的问题。

“很多其他印度网站都在试图提供法律信息,但是,文件之间没有任何联系,所以人们很难在判决书之间相互参照。你几乎找不到这些判决书的链接。结果就是,人们被那些纯粹的行话搞糊涂了”。

Sinha 是雅虎印度公司的一名软件工程师,他从2005年开始对法律产生兴趣,花时间浏览当时印度出现的越来越多的法律博客。但他无法迅速找到博客中提到的消息来源,因此也无法理解一个案件的内容。

“令人沮丧的是,我没有法律背景。2005年或2006年,印度最高法院开始把每份判决书放在网上。所以我开始阅读它们,我当时想的就是 ‘额滴神呐,有太多的行话了’。但后来我有了个想法。让我们假设这些人知道这些章节很重要,那为什么计算机不能自动发现它呢?”

为了增进自己对法律的理解,Sinha 利用自己作为计算机科学家的技能,将印度最高法院官方网站上公布的约3万份判决书汇集在一起。

他的电脑程序 “阅读” 每一份判决书,找出法律条文的引文和最高法院裁决的其他相关案件的参考资料。然后将这些判决连接在一起,使法律文件更容易搜索、浏览和理解。

他并没有就此止步。2008年初,他决定将自己的作品放到网上,作为一个简单易用的搜索引擎。

印度的高等法院每天也会公布审理案件的结果,所以 Sinha 开始将它们纳入搜索引擎。他的数据收集爬网程序每天都在自动访问这些网站,寻找新的资料,下载找到的资料并添加到搜索引擎中。

Screenshot taken from the Indian Kanoon website

并不是每个人都对此感到高兴。由于印度 Kanoon 的法院判决书也被谷歌和其他搜索引擎索引,许多参与法院案件的人发现他们的名字第一次出现在搜索引擎结果中。

一些人请求 Sinha 删除他们的名字,实际上是要求他改变原来已经公开的法庭文件的内容。

从数据供应方面来看,Sinha 指出,印度 Kanoon 对易用性的关注表明,运行法院系统的IT公司的利益和能力如何阻碍了为最终用户提供有用的、响应性的服务。

那些致力于改善法律信息获取的民间团体却并不认为从事这类技术项目是他们的职责。“印度的公民活动家倾向于走这样的路:就此向有关法院提起公益诉讼。他们知道这需要什么。我不知道如何打这场仗 —— 所以不管什么样的仗,我都要打。”

📌 如果您想在工作领域中使用这些技术,以下是四种思考已拥有或已发现数据的方法,以及如何帮助他人充分利用这些数据的方法

1、寻找一个真正应该更好的公共服务,或者尝试创建一个全新的公共服务(如果尚不存在的话);

一些最早的、有趣的和最有影响力的开放数据倡议都是由那些对公共服务不尽如人意而感到沮丧的人创建的

两个最好的例子是 “Public Whip” 和 “They Work for You” 网站。这两个网站共同创建了一个 “无障碍” 版本的英格兰和威尔士议会官方记录。

令网站的开发者感到沮丧的是,由于这些数据被埋藏在官方记录中最奇怪的地方,因此无法看到议员们的投票情况。

他们应用了一种网页抓取技术(我们将在后面讨论)来收集这些信息,并建立了一个用户友好的网站来显示这些信息。

在过去的几年里,在线议会信息学领域的工作在全球范围内迅速兴起,从这里的一长串网站名单中可以看出。

“巴拿马公司登记处”(Panama Registry of Companies)经常被调查记者用于各种调查,对于对腐败和避税相关问题感兴趣的记者和活动家来说,这是一个很好的工具。它提供了有关董事、登记和注册人的详细信息 —— 在这里,您可以查询所有注册过的公司和非营利组织的相关名称(偶尔还有所有权信息)。登录后您可以在网站上浏览其数据库(注册是免费的)。

然而,要访问数据,您必须知道您想要的信息的公司准确名称。要访问全球注册名单,请看这里作为起点。

为了规避这个问题,在 “有组织犯罪和腐败报告项目” 工作的黑客 Dan O’Huiginn 对官方数据库进行了刮取,创建了一个新的数据库,允许人们输入一个人的名字,就可以查看他或她隶属于哪些公司。

Paul Radu 举了一个例子,阿塞拜疆总统的女儿们 —— 在这个搜索引擎中输入她们的名字后,他发现她们拥有多家在巴拿马注册的公司。

The Investigative Dashboard 制作了两个视频教程,帮助您浏览这两个界面:一个是巴拿马公司注册处官方网站上的视频教程,另一个视频可以了解更多关于如何使用 Dan O’Huiginn 的数据刮取工具。

2、通过将所有知识汇集在一起​​来“分解”知识领域;

许多不同的团体收集和公布同一事物的数据,但以不同的方式、不同的方法、标准和技术进行。

例如,不同的政府以不同的方式发布有关公司的信息:在全球化的世界里,这使得追踪公司和与之相关的个人的活动变得困难。

解决这个问题的一个有趣的方法是使用 OpenCorporates,它汇集了世界各地公司的注册和所有权数据。OpenCorporates 做了繁重的工作,使公司信息更容易获得,这意味着其他研究公司的人不必再重复这项工作。

如上所述,国际援助透明度倡议组织(IATI)也做了类似的工作,它创建了一个标准,各国政府和国际组织可以用来公布发展援助支出的数据,使其能够便于进行汇总和比较。

3、用数据查找和讲述故事

前文所述,通过信息获取的相关法律发布数据,以及开放数据运动带来的技术创新,也影响了普通新闻和调查性新闻。像 Pro Publica 这样的倡议通过开发更好的技术工具来收集、分析和显示数据,增加了记者的现有技能。

📌 这意味着,有时数据本身就是故事;而在其他情况下,公布根据数据制作的可视化,通过揭示故事的不同方面或角度,扩大读者对故事的兴趣。

最后,数据可以成为发现新故事的地方,特别是,如果您能创造一种显示原始数据的方式,让公众帮助扩大搜索范围以寻找更多隐藏的东西。

4、以互联网固有的方式发布信息

倡导团体已经开始适应网上发布信息的互联网本地方式。这样做的目的是鼓励其他人使用这些信息,使其易于搜索、探索、再利用、和结合实际情况。

📌 与其把您的数据看作是报告中的一张表格,不如把它看作是对他人的服务:他们还能用它做些什么,而您却不能?开放数据门户的浪潮,如肯尼亚开放数据组织,通过提供绘制图表和定量分析的工具,再次更进了一步。开放知识基金会制定了一份实现这种技术开放的指南。

越来越多的在线数据源不仅被专家、研究人员、学者和记者所使用,而且也被相关的公众所使用,人们的好奇心和愿意为调查原始数据以形成自己的观点而付出的巨大努力让数据发布者感到惊讶。

👌 想了解更多关于这种数据思维方式的信息吗?可以参考下面的资源:

无法访问数据时该怎么办

在许多情况下,数据并不像可能的那样可以自由获取和容易重复使用。研究一个问题或要求提供信息,可能会产生一大摞纸质文件或成千上万的数字文件。这些文件可能会让人不知所措,难以快速理解,而且很难知道如何进行下去。

您是直接开始用纸笔翻阅文件,还是采用更系统的方法更好?哪些技术可以帮到您?

活动家和记者一直在与技术专家合作,制定一系列可能有用的方法,以克服格式妨碍信息的情况。在本节中,将提出了一些收集和处理数据的实用起点,并探讨三种基本技术

1、访问锁定在PDF电子表格中的信息

深入研究抓取和解析:对数字文档进行反向工程以使其中的数据更有用。

大多数人都遇到过被 “锁” 在PDF文档中的信息。我们可以解开这些文档,并对其进行 “反向工程”,使其内容更容易被处理和分析。这可以通过使用 “刮取和解析” 技术来完成。

在下面的例子中,我们关注的是津巴布韦的一个组织所产生的数据,但这些想法和技术适用于任何数字出版物,如果其格式妨碍使用其中数据的话。这个想法同样适用于从网站中提取数据。

“津巴布韦和平项目” (ZPP)是津巴布韦的一个组织,它记录政治暴力、侵犯人权行为和紧急粮食分配系统的政治化使用情况。他们拥有一个全国性的实地监测网络,每月提交数千份事件报告,覆盖津巴布韦的所有城市和农村。

2004年至2007年间,津巴布韦人民党发布了全面的报告,详细介绍了该国发生的暴力事件。这些报告是密密麻麻的PDF文件和微软Word文档,是事件的摘要,其全面性是独一无二的。

作为文件,它们也是相当难以获取其中数据的,它们的格式妨碍了公民调查者看到实际发生的事,也妨碍了研究人士衡量这些年局势的变化。

由于数据被锁定在PDF文件中,所以很难对数据进行任何操作,比如搜索、过滤、统计或在在地图上绘制它们。那么,对此能做些什么呢?

仔细观察:所有文档均以特定的预定义方式排列。无论是报告还是网页,它们都将具有以下结构:

  • 不同类型的数据,如文本、数字和日期
  • 文本样式,如标题、段落和要点
  • 可预测的布局,如一个大标题,一个小标题,然后是两个段落,另一个标题,等等

这是ZPP的一份报告中有关2007年津巴布韦政治暴力事件的单页内容(PDF)。

上面页面的结构可以细分如下:

这种结构在整个文档中重复出现。如果您把报告放大,同时看16页,就可以看到布局中的一个规律性的、可预测的模式。

所以,里面有很多数据,但无法直接获取。这份报告内容非常丰富,包含了数百起政治动机的暴力事件的细节。

但是,它有一些局限性。例如,除非手动筛查,否则无法找出在津巴布韦各地某一天发生的事件。这是因为这些数据的结构并没有让您很容易地找到这些信息。它是以叙述的形式写成的,其格式使人难以搜索。

📌 为了解决这个问题,必须改变信息的格式以允许更有效的搜索。尝试将该报告想象为电子表格:

然而,从原始的ZPP报告中制作这个电子表格,需要大量的剪切和粘贴,这将花费太多的时间。那么是否可以简化它呢?

如果您能读懂它,电脑或许也能读懂它。值得庆幸的是,由计算机创建的文件通常也能被计算机 “阅读”。只要稍作技术处理,像这个例子中的报告,就可以从一个无法访问的PDF变成一个可搜索和可分类的电子表格。

这是一种机器数据转换的形式。了解它的工作原理可以改变您对一大堆数字文档的看法。用这种方式转换数据的计算机程序被称为 “刮刀-解析器”。它们从一个地方抓取数据(刮),并通过过滤(解析)将其变成您想要的样子。

Scraper-parsers 是自动化的、超快的复制和粘贴程序,它们将遵循您给它们的规则。计算机程序并不像您那样 “阅读” 报告;它寻找文档的结构,正如您在上面所看到的,这很容易识别。然后,您可以根据它遇到的元素、样式和布局告诉程序该怎么做。

使用这个 ZPP 的报告,现在的目的是创建一个调查暴力事件的电子表格,包括它们发生的时间和地点。于是,您应该给软件提供以下规则

规则1:如果看到一个标题是 a)在页面顶部,b)用粗体大写,应假定这是一个地理区域 (Region),并将发现的内容打印在电子表格的第1栏。

规则2:在看到一个地理区域(Region)后,应假设直到看到页面顶部的另一个粗体大写的标题与前一个标题不同,那么此内容是该地理区域发生的事。

规则3:在这之前,只要看到一段文字上面有一行,下面有一行,前面有 “日月年” 形式的日期,那就确定这些是发生在这个地理区域的事件,所以要把它们复制到 “事件” 一栏。

一旦设置好规则,就可以运行 scraper-parser 了。它将会非常快速地浏览这100页的文档,提取出您告诉它的数据。第一次使用时它可能会有错误,别担心,您时刻都可以改进它,手动检查它在您的电子表格中放了什么,它仍然会比您自己动手要快得多。

您必须为每个不同的文档特别编写规则,因为规则会有所不同,虽然任务是一样的。然而,在大多数情况下,这对程序员来说并不是什么挑战,很容易就可以找到规则。

帮您去做那些枯燥重复的任务正是计算机的职责。您可能会认为,为一个问题任务写一个 scraper-parser 是不值得的。然而,如果您有几百个文档,所有的文档都有相同的格式、都包含您想要的信息呢?是不是很值得?

在津巴布韦的例子中,有38份近10年的报告,每份报告都很密集,总共包含了25000多起政治暴力事件的数据。格式妨碍了对这些数据的使用;一个 scraper-parser 可以做到

  • 无论是在计算机上还是在互联网上,仔细阅读您告诉软件的所有38个文档(scraper-parser 也可以浏览互联网)
  • 根据您为其编写的规则,提取您告诉它的数据
  • 复制所有数据并存储到一个电子表格中

还可以做到

  • 查看ZPP每天发布报告的网站,如果有新的报告出现,下载它并通过电子邮件通知您,然后将其添加到您的电子表格的报告列表中
  • 在报告中加入新的栏目,包括报告发布的日期,以及报告中记录事件的页码(这样您就可以更方便地在此后任何时候检查数据是否正确)
  • 为您更改每个日期的格式,例如,把2004年9月27日改为27/09/2004
  • 自动将电子表格转为在线电子表格(如 Google Spreadsheets),可在网上自由分享,并在有新数据出现时进行更新

刮取和解析可能是技术性的,但如果您试图提取已经组织在表格中的数据,那就容易多了,而且有一些工具可以帮助您。要从更复杂的布局中解锁数据,您可能需要让程序员参与进来。

📌 下面是一个进一步的资源列表,可以帮助您加深对这种技术的理解,这样您就可以自己尝试一下:

2、通过网页抓取将网站变成电子表格

对调查有用的信息也可以在网站中找到。经常有一些在线数据库分布在许多页面上,您必须无休止地点击 “下一个”、”下一个”、”下一个” …… 才能看到这些页面的内容,更不用说分析它们了。您往往想快速收集这些数据,对其进行查询,或者看看这些数据随着时间的推移有什么变化。

手动完成这些工作会花费大量的时间,令人不快。然而,这可以通过利用一种叫做网页抓取的技术来自动完成。这使您能够将存储在网站上的信息转化为更有用的格式,如电子表格。

通过在网站上运行一个脚本或软件,该工具可以有效地搜索刮取您认为重要的信息,并让您能够对其提出问题。诸如 “这个新兴市场的价格是什么时候开始上涨的?或者某次政治活动的主要捐赠者是谁?” 等等。

使用网页抓取工具,您可以:

  • 从网站收集内容
  • 将提取的内容转化为电子表格
  • 检查内容是否以及如何随着时间的推移而改变

📌 网页抓取示例:

1、此前介绍过的 Transparency Toolkit 团队在Linkedin网站上提取了27000多份工作岗位的简历,收集并分析进入情报界工作的人员身份。

2、Mostre.me:该网站通过网页抓取工具收集巴西政府文化部的公开数据,并利用这些内容创建数据可视化,以帮助公众就政府资金支持的文化项目进行咨询,并揭露其执行和所有权状况。

政府官方网站有义务公开这些信息,但他们的网站无法使用,而且已经超过7年没有更新。一个独立的公民调查团体通过使用网页抓取和分析数据,使网站能够揭示巴西文化领域的公共资金是如何被使用的。

3、HURIDOCS 创建了 Caselaw Analyzer 工具,以收集和分析从欧盟网站收集的数据。该项目旨在了解欧洲人权法院为何将某些案件列为 “重要” 案件,以及哪些是实际执行判决的模式。

工具

有一些基于网络的服务,为用户提供免费的网页抓取软件。这些服务因操作系统不同而不同,例如 Kimono.io 可供 Mac 和 Linux 用户使用,而 Import.io 仅适用于 Windows 用户。

如果您想要开源的替代品,可以尝试 scrapy.org,可用于 Linux、Mac OS 和 Windows。Scrapy 是一个很不错的替代品,但需要您对终端操作有更多的了解,建议先阅读他们的文档。

scraperwiki 也是一个流行的替代品,而且对记者是免费的。

注意事项 ——

需要注意的是,许多网页抓取工具是由第三方服务器托管的。这意味着您收集到的信息可能存储在 “别人的房子” 里。本指南后面的 “保护” 部分将更多解释为什么这可能是个问题。与存储在 PDF 文件中的信息类似,将信息隐藏在网站中也是一种避免被调查的小花招。

📌 如果您正在处理敏感信息或针对敏感问题进行调查,请小心,先问自己以下这些问题:

  • 使用这个服务会不会把我调查的目的透露给别人?
  • 我问这些问题是否会让自己或他人处于危险之中?

网页抓取的合法性

过去几年里已经有一些案例让人们对网页抓取的合法性提出了疑问。比如2000年的 Ebay 案,一家名叫 Bidder’s Edge 的公司被指控由于他们的网页抓取工具使系统超载而令 Ebay 蒙受损失;再比如 Facebook 起诉 Power.com 侵犯版权,当时刮取的公共数据被认为是临时副本,违反了该社交网络的使用条款。

最近的案件则是利用违反公平使用规则来起诉那些刮取网站、侵犯其版权规则的人和公司,如在 Meltwater 案中,一家新闻聚合商被指控通过刮取美联社的内容来 “抄袭” 美联社。

我们建议您从以下几个步骤入手

  • 检查被抓取的内容是否受版权保护
  • 确保使用的抓取工具不会影响到目标网站的服务和能力
  • 检查网站的使用条款是否禁止抓取
  • 尽量不要收集敏感的用户信息
  • 如果您不确定您的行为是否合法,可以首先向律师核实

从成堆的纸张到数据驱动

无论您做什么工作,文书都是其中一个重要部分。虽然这一点正在改变,但并非所有对您有用的信息都是 “天生” 的数字格式存在。由于一系列的原因,纸质文件仍然可以是一个更好的解决方案,无论谁试图捕捉或传输信息。

面对堆积如山的纸张,您又知道或希望其中包含与您正在研究的问题相关的信息,这可能会让您感到恐惧和沮丧。本节将提出一些经验法则和程序,以帮助您克服这些挑战。

针对2001年9月11日纽约发生的恐怖袭击事件,美国政府加强了对涉嫌参与所谓的恐怖主义的外国国民的审讯。为此,中央情报局(CIA)制定了一项 “特别引渡” 方案,通过该方案,其特工在一个国家逮捕人员,并将他们带到埃及等经常使用酷刑的国家进行审讯。该方案显然违反了一系列国际人权和人道主义法律。

十年后,人权律师继续为那些被绑架的、未经适当程序拘留和遭受酷刑的人们寻求补救。多年来,他们查明了运送囚犯的飞机、飞行日期和路线,以及运营这些飞机的公司。他们从包括国家和国际航空机构在内的许多来源获得了数据。

2007年,在纽约州的一家法院,Richmor Aviation (一家其飞机被签约用于引渡计划的公司) 与 Sportsflight Air Ltd (一家曾为政府提供 Richmor 服务的小公司) 之间发生了一场与服务报酬有关的法律纠纷。人权组织 “Reprieve” 在2011年得知此事,几乎是意外。Crofton Black 是 Reprieve 的调查员,他说这个案子的法庭记录和其中发现的文件成为了揭示这种侵犯人权的引渡计划的信息宝库。

“我们对这些文件的详细程度感到非常震惊。有一个深层级的信息,以前并没有真正公开过。它展示的是2002年~2005年这种侵犯人权的计划运行方式的一个缩影。有电话帐单、引渡人员在执行任务时拨打的电话号码清单;有餐饮收据、地勤服务的记录、在许多不同国家/地区为许多特派团提供后勤框架的服务提供商的参考。”

1700页法院文件的硬拷贝被快递到 Reprieve。为了开始理解这些材料,Reprieve 的志愿者首先将其扫描并制作成PDF格式。然后,他们快速浏览,以确定他们所拥有的文件类型,并在关键信息块上做了标记。

为了帮助找出材料中讨论的主题,一名技术专家对材料使用了光学字符识别(OCR),并创建了一个可搜索的索引,其中包含所有使用的单词。

然而,文件附带的服务发票中包含的最有用的信息无法用OCR可靠地提取出来,只能靠人工提取。在几个星期内,Reprieve 的团队手工将这些数据从发票中提取出来,放入电子表格中。

他们对这些材料进行了第一次检查,创建了一个简单的数据结构,然后将其扩展到包括不同航班的更多详细信息。通过拆分这些纸质线索,Reprieve 的调查人员拼凑出了几十次旅行,利用发票来证明飞机在哪里停靠过,哪些公司为疑似引渡航班提供过服务。

这些数据在许多不同的案件中起到了填补漏洞的作用,对这些数据的分析也被提供给了全世界的记者和法律团队。

“所有这些数百万美元的东西提出了一个问题就是,哪些航班上有囚犯,此人是谁?这当然是这些文件不会告诉你的事。但电子表格是一个梦幻般的分析工具。如果我们听说一个囚犯在某一天被转移,但不知道人在哪里,我们就可以看看这个日期,看是否表格中对应了任何东西,” Black 说。

他只有一个遗憾。“光学字符识别的能力还是相当差。如果这些文件能正确地进行OCR,那么从第一天开始就会有不同的进展”,他解释说。从扫描文件中产生的OCR样本来看,很容易理解他的意思。

u 1’I::CC:.1 … eu. (>04t Ollicc Box 179

-OIdChlJthBITI. NewYoric. ‘Z130

re:/epllane:(618) 794–9600 Nlghr:

(518) 794–7977 FAX:(61B/794–7437

要把这样的信息转储为一个可以看到其价值的形式,更不用说开发利用了,往往很难估量需要花费多少时间和精力。在某些时候,以一种特别的方式,通过手工或使用基本的但很好理解的技术来处理信息可能变得不切实际。

例如,如果没有在第一时间从原始资料中提取有用的信息,那么随着时间的推移,它可能会产生越来越少的回报。另一方面,试验新兴技术(如OCR) 使用更系统的方法作为工具,似乎很难证明其合理性:它们可能会增加很多成本,或者对于一箱子纸来说似乎是矫枉过正了。

Mari Bastashevski 是一位艺术家、研究员、作家和调查员。在2015年9月的采访中谈到了她围绕系统性失灵和国际冲突问题所做的工作,以及她如何将碎纸片还原的一个案例。

“在亚努科维奇政权倒台后,乌克兰寡头库尔琴科留下了一大堆碎纸片,这些文件没有任何信息价值,我怀疑在一个司法系统破产的国家,这些文件是否会带来正义。但是,同时,这些文件在历史和文化上都是非常有意义的物件。在撕碎这些文件的过程中,被剥夺了权力的个人背叛了自己:他们的行为暴露了罪恶感。市民们将这些碎纸重新还原的劳动是一种重新获得权力的优雅行为。它可能被证明是完全徒劳的,但它是一首诗。”

无论采取什么方法,对复杂和隐蔽的侵犯人权制度的调查都是要从不同来源增加一层又一层的信息。

📌 这个例子表明,调查人员必须能够对新的信息资源的可用性作出迅速反应,无论这些信息资源以何种形式出现,都要将其与已有的信息资源进行权威性的联系。数字化是这方面的一项关键技能。

数字化印刷材料

数字化是将这些信息从物理形式转为数字格式的过程,可以用计算机进行分析。它不是一个单一的过程,而是一套步骤,我们将依次展示。

📌 在开始之前,先做好准备:

1、清楚您想要实现什么以及为什么 —— 数字化的决定反映了动机的平衡。

活动家和调查记者将硬拷贝材料数字化的主要原因之一是安全问题。数字档案可以轻松复制,并且可以安全地保存,不被对手蓄意破坏,也不会由于工作环境的严酷性(温度、湿度、光线)而退化。其他驱动因素也包括对材料规模的关切,这既是一个物理存储问题,也是对快速获取有用信息的挑战。

2、知道您在处理什么 —— 做一些工作来确定您所拥有的材料的规模、状况和范围。

您有一屋子记录多年工作的纸张,还是一两个文件夹?是一次性的举措,还是您每天都要做的事?

对目前的实物纸页或图像的数量、单个文件的数量进行统计,建立一个您所拥有的不同种类文件的分类。如果您认为会有额外的材料出现,试着在开始之前预估如何定期出现和以何种数量出现。

您还应该仔细阅读材料,并找出那些您认为可能重要的文件中的不同类型的信息,以及寻找可能遗漏的文件。这将帮助您决定哪些信息是需要优先从材料中提取的,并将指导您的数据采集流程的设计

这个范围界定工作对设计和组织数字化过程至关重要:估计需要多长时间、可能需要多少技术和劳动力投资、需要多少成本,以及最终是否值得自己做,或者根本不值得。

数字化工作最简单的是外包给专业公司,但您必须评估这样做是否安全,以及是否负担得起。

3、先试水 —— 在决定了您想走的路线之后,设计一个流程草案,并在您所拥有的材料的小型样本上进行测试

这样的 “试水” 可以检验您的假设和想法,暴露其中的问题,可以帮助您找出以后可能难以改正的问题,提前改正它。

步骤1:硬拷贝材料的数字化

这是将硬拷贝材料转换为数字格式的技术过程。此过程有很多不同方面:

1、组织:即使您只有少量的材料,您也应该制定一个扫描计划来量化工作量。这将列出您所拥有的硬拷贝,并用于决定哪些材料要扫描和何时扫描,并应告诉您已经完成了哪些工作,还有哪些工作要做。扫描计划可以帮助您管理时间,并确保您没有忘记任何东西。

2、硬件:您将需要一台电脑,一台扫描仪。专为家庭使用而设计的扫描仪通常价格不高,但它的设计甚至不适合中等分量的专业用途。

理想的情况是,您选择的扫描仪应该有一个自动文档进纸器,使它能够一个接一个地扫描散页,并有一个双面功能,使它能够自动复印一张纸的两面。试着确定扫描仪的工作周期,这表明了它的扫描速度和可以持续使用多久。

在可能的情况下,尝试在购买扫描仪或相机之前对其进行测试:它们可能看起来很匹配,但可能使用起来很繁琐,或者有一个糟糕的结构或可用性缺陷,只有在大量使用时才会显现出来。这些缺陷可能包括软件不可靠、过热,以及设计不良的进纸器会卡住或无法取纸。

如果您有大量的文件需要扫描,那么使用平板扫描仪将是一个痛苦的过程,可能值得在您的关系网络中寻找有书籍扫描仪的人。现在智能手机摄像头的质量非常高,并且已经开发了一些Apps来扫描文件,尽管它们(还)似乎并不面向高规模的需求。

“世界记忆项目” 在2014年写了一份图书扫描手册,提供了如何将纸质图书数字化为电子书的详细说明。

1、软件:您将需要驱动程序和扫描软件。大多数现成的扫描仪都是 “即插即用” 的,或者带有驱动软件,安装在您的电脑上以控制扫描仪。您还需要软件来管理扫描和处理生成的数字图像。

有一些商业化的选项,如 Adobe Acrobat,也有 XSANEScanTailor 等开源软件。这些软件可以让您定义扫描质量,其中包括 DPI(每英寸点数)、分辨率、颜色和文件格式。ScanTips 有关于所有这些主题的出色指导。

2、数字化存储:在材料被数字化后,它们需要被安全地存储。您必须考虑如何在您使用的数字存储媒体上保证文件的安全,防止损坏或未经授权的修改。

这意味着要有一个备份计划,并确保只有需要使用它们的人才能访问它们。

有些媒体可能需要大量的存储空间,因此提前计划以确保不会耗尽空间,并确保有足够的空间进行备份是很重要的。对此后面将有更多介绍。

3、质量保证和 “保管链”:文件扫描后,您需要做三件事:

首先,检查它是否与原始硬拷贝准确匹配。第二,对扫描件进行处理,提高其质量,并以符合您的需求的方式进行整理。例如,当您把一个双页扫描成单页时,ScanTailor 等软件可以把图像分割成两页。

第三,决定如何处理原始硬拷贝。您是否需要能够向他人展示您的数字版本是原件的完美副本?例如,在法律程序中,文件的数字副本可能不会被接受为证据。在这些情况下,您将不得不考虑一个数字 “监管链”,可以用来证明物理文件和数字材料是如何处理的。

步骤2:整理、建立索引并关联数字文件

扫描纸质副本后,您将必须对其进行数字组织和分类,从而使材料更易于查找,分类和与其他材料相关联。

1、组织原始文件:扫描的文件将以 .TIFF 或 .PDF 等格式出现在您的计算机上。大多数扫描软件会自动给每个扫描文件一个文件名,如 DSCR23453.TIFF —— 您应该将这些文件改成对您有意义的文件命名方案。

大多数数字文件还包含描述大小、创建日期、最后修改日期等技术元数据。有些文件也有特殊类型的元数据。例如,用智能手机或带有GPS设备的数码相机拍摄的图片可能包含关于图片创建地点的元数据(ExifToolMediaInfo 等软件可以帮助您找到这些数据)。

这种自动创建的元数据对组织数字文件很有用。文件浏览器,如 Windows Explorer,或 Linux 上的 Nautilus,应该足以使用这种元数据来组织、过滤和搜索大量的数字文件集合。

2、对文件进行编目:除了管理原始文件本身,您还可以创建新的元数据,描述文档或文件中的内容。

您必须定义您认为重要的元数据的种类。虽然读起来很费劲,但 Dublin Core 网站对元数据的内容有详尽的描述,并有一些有用的想法,您可以根据自己的需要进行调整。您也可以看我们早前的更简要介绍在这里

元数据可以包括一些术语,表明谁创造了材料,它是关于什么的,它所涉及的事件,其中提到的人等等。这类数据对于视频和图像等视觉材料尤为重要,因为这些材料往往包含一个小的快照,如果不了解周围的背景,就无法真正理解。

不要错过我们曾经介绍过的相关指南:

步骤3:从材料中提取内容

数字化虽然具有广泛的价值,但对于研究人员来说,其目的通常是为了更好地理解材料本身中的信息。

1、自动内容提取:扫描后的文档仍然是一个图像,这意味着其中的文本不能被机器轻易 “阅读”。可以使用光学字符识别 (OCR)(如 Tesseract 或一些商业成像软件内置的工具)从图像中查找和提取文本。然而,请做好失望的准备:即使OCR软件扫描的是布局清晰的打字材料,使用起来也很麻烦,输出不稳定,而且总是需要人眼来确保准确性。

2、‘老派’ 的内容提取:现实中,从材料中提取内容很可能是一个手工过程,这意味着寻找、阅读和手工输入数字文档中的实际信息,并将其输入数据库或电子表格之类的东西。

关于数字化其他媒体的简要说明

在本节中重点讨论了纸张的挑战;然而,录像带和录音带、照片和地图,也经常作为资源出现在大多数调查工作中。如果您需要将这些类型的媒体数字化,下面有一些提示和链接。

1、视频和音频

物理存储  — — 如磁带或DVD — — 带来了三个特别的挑战:基于时间的媒体通常更难管理,数字版本需要更多的存储空间,长期保存原始的物理版本很复杂。

数字化时,尽量以最高质量的方式采集。当对老旧的或被损坏的媒体进行数字化时,与您可以信赖的专业第三方合作比自己动手更好。

关于视频数字化的简要概述,TAPE 项目提供了一些有用的指导和资源。有关详细的实用指南,请参见伊利诺伊州学术和图书馆联盟(CALLI)的《数字馆藏创建指南》中的动态影像数字化指南。

在这里下载这份指南:

2、视频分析工具

Robert Ochshorn 创造了 InterLace<video> 导航,您可以在这里看到他用于 Eyal Sivan 的网络纪录片 “Montage Interdit” 和 “城市权利” 项目的例子。

在这里可以看到他的其他实验,在这里可以看到 Robert 的个人网站。Robert的项目代码可以在他的GitHub账户上找到。

3、地图

将印刷版的地图移动到数字格式,首先需要对地图进行扫描。根据地图的大小,您可能需要使用平板扫描仪扫描部分地图,创建一系列较小的 “拼图”。

另一种方法是找到一台宽幅扫描仪。在创建地图的数字图像后,需要对其进行地理参照和校正。这意味着在现有的准确数字地图(例如 “Open Street Map”)上找到您的地图所在的位置。

最后,可以将扫描件上传到在线地图服务中,以便在线查看。MapWarper 是个在线地理参考系统(下面是一个教程视频),可以做到这一点。如果您不想把自己的材料上传到别人的服务器上,也可以用桌面GIS软件来完成,比如 QGIS(这里有一个地理参考的基本指南,下面第2个是教程视频)。

其他资源:

  • The Quartz 的指南:详尽描述了现实世界数据处理中出现的问题,以及如何解决这些问题的建议。

在下一集中我们将开始分析数据,以及研究网络调查模型和可视化,继续提供技巧、工具和资源。下次见。⚪️

—— 未完待续 ——

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据