手慢无:如何抢在信息被遮挡、污染或完全消失之前捕获它们?

  • 证据就如酒精,在互联网的嘈杂中会不断蒸发;尤其是对于重要的证据来说,不想让你看到证据的人会雇佣恶意行为者发动信息战,在机器人和水军的帮助下淹没真相,让调查变得更难。这种情况下怎么办?

速度是任何类型调查中的关键因素。俗称手慢无。

信息被搁置的时间越长,被遮挡、被污染、或完全消失的可能性就越大。

对于任何类型的信息都是如此,无论是目击者证词、服务器日志、推文、指纹、还是调查员可能认为有用的任何其他信息。

目击者会忘记、服务器日志将被覆盖、推文将被删除、指纹也将被擦除。

⚠️无论您在调查什么,知道如何迅速采取行动以在丢失信息之前做好保存和收集,是一项重要技能。

Jake Creps 进一步探讨这个想法,并展示一些可以在出现问题时恢复丢失的信息的技术。值得学习。

信息损耗

为了解释这是什么意思,请见下面的图:

红色框代表理想的世界,在其中您可以获取所有可能的信息。

也就是说,假设每个 Facebook 帖子都是公开的,每个图片都是公开共享的,没有人删除其推文,而 Google 已为每个细节编制了索引。

很遗憾这样的世界根本不存在,但是为了收集开源情报资料的目的正是要尽可能地靠近这个理想世界

橙色框则代表您可以作为OSINT调查员实际使用的材料。

这个世界并不完美,您会不断丢失信息:时间流逝、隐私设置被打开、视频被删除、网站受到审查、数据流庞大您不知所措并迷失在搜索结果的海洋中、或者长得不够帅目击者决定不再和你说话 …… 等等,总之导致您丢失很多信息的方法有很多种。

最底下的黄色框是您最后需要处理的实际信息量。

这是您实际用来做出报道、撰写记录片中的故事、完成报告、或起诉案件的可用材料。

从橙色框过渡到黄色框再次丢失了更多的材料,其原因有一大堆:过时且不相关的、丢失了USB记忆棒、来源不再想要提供帮助、您所依赖的Internet工具不再起作用、目标已修补您正在利用的漏洞……等等。

在红色框的理想世界和黄色框的最终结果之间,可用的OSINT材料的这种减少被称为信息损耗

💡于是,您越早入手能收集和保存到的数据就越多,最终就将获得更好更有效的结果。

如果一项开源情报调查没有考虑如何很好地收集和保存证据,它看起来就会像下面这样:

由于材料的最初收集和保存(橙色框)较差,因此,由于损耗而丢失了更多信息,而最终的调查产品(黄色框)则会更弱。

示例:具有挑战性的侦探游戏

Fiete Stegers 发布了一个非常具有挑战性的侦探游戏。本文将以这个例子来说明,为什么以及如何迅速收集信息以防止损耗。

Fiete 的题目是这样的:从他参加的活动现场实时发布了下面这张照片。你知道这张照片是在哪里拍摄的吗?

结合使用 Twitter 的实时更新、Twitter 的实时地理位置数据、以及 OneMillionTweetMapSnapchat Map 和 Facebook 的主题标签,可以非常快速地找到这个位置。

请注意,这个方法在很大程度上依赖于来自各种社交媒体应用程序的短期实时数据;通过快速收集并保存数据(在这种情况下仅使用屏幕截图就可以),信息的损耗可以争取到最小化,并且可以非常快速地完成地理定位。

但是,如果我是在四个月后才开始这项调查的,结果会是什么样子呢?

这种情况下尝试从 Twitter 捕获实时数据已经毫无意义了,Snapchat Map 镜头也早已消失,而 Facebook 搜索机制的变化将意味着,即使不是不可能,也很难找到这场游行的准确路线。

不仅是您最初所依赖的数据已经不再可用,而且,还有其他因素会导致更大的信息损失:这是一次气候维权大游行,但是自从拍摄那张照片以来,这里还有更多的同类游行出现。你可能分不清哪张照片来自哪个游行。

这意味着将有数百万个搜索结果遮盖你一直在寻找的内容,本该依赖的某些 Twitter 帐户已被删除,依此类推。

在Fiete发布挑战后的最初几个小时中,可用的信息库足以找到他,但是现在,从头开始将使任务更加艰巨,即使不是不可能的话。

快速采取行动,尽早收集和保留开源情报信息,对最终结果将产生重大影响。接下来,本文将研究如何以及为何要快速保存开源情报资料

保留和收集开源情报数据

防止证据丢失的需求并非开源情报调查所独有。

上面那张图显示了尽快保存和收集信息的相同道理。

正如你所知道的,诸如血迹、指纹、头发样本、和脚印之类的重要证据对于解决严重犯罪来说至关重要。这些法医线索会很快退化或丢失,因此好的调查员会保留它们以防止丢失。

这就是为什么罪案发生后,现场会迅速被警方围起来,避免不想干的人闯入破坏了上述证据。

所有最敏感的区域都覆盖有帐篷。这不仅是为了让围观者远离。帐篷还可以保护非常敏感的证据碎片免受雨水、风和其他可能导致损失的因素的影响。如果一开始丢失或污染了这些证据,那么整个案件可能永远无法解决。

在开源调查中,使用的原理也一样。

如果您没有收集和保存正在发生或才刚发生的事件信息,证据就会丢失。

⚠️在瞬息万变的新闻世界中,珍贵的材料不仅会快速被新快讯所掩埋,甚至,可能还有其他恶意行为者在机器人的协助下推动信息战,积极地试图破坏证据、并利用阴谋论淹没原始资料。

Twitter 就是一个很好的例子。如果无法快速识别和捕获主要来源,则很容易丢失它们,从而导致调查受挫。

接下来本文将介绍一些实用的工具,可用于可靠的、快速地从Web捕获信息,以及其他一些工具,可帮助您收回一开始可能会丢失的信息。

保存工具

您可以使用多种工具来快速有效地捕获信息。

最佳工具的使用确实取决于您要捕获的内容是什么,但是这里是一些不同工具的概述。

Screenshot — 有很多不同的屏幕截取工具。

Fireshot 用作浏览器插件,Windows 内置了 Snipping Tool,Mac OS 内置了 Screenshot 工具,而我最喜欢的 Linux 工具是 Shutter 和 Flameshot。

 Firefox 和 Vivaldi 现在都具有内置的截图工具。

Saving A Webpage — GIJN 在这里发布了有关从网络捕获信息的各种方式的指南。

这包括一个提醒,您可以按 Ctrl + S 并将网页另存为HTML文件。

当然,您仍然可以执行此操作,但是大多数现代网页包含太多动态内容,因此离线保存的HTML页面不太可能与原始页面非常相似。

HTTrack 是保存网页的一种更为有效的方法,后面很快会谈到。

TweetBeaver — Tweetbeaver 包含多个工具,可让您从 Twitter 下载所选信息,并在需要时将其导出为CSV。

您需要首先让它访问您自己的 Twitter 帐户(非常建议使用袜子木偶账户),这是从 Twitter 下载批量信息的好方法,并且它的用户界面非常简单。

Twint — Twint 是我最喜欢的 Twitter 工具。它不使用 Twitter API,功能非常强大。我们在这里介绍过:《新生情报工具(2)

它具有捕获特定种类信息的许多功能,并且与一些常见的可视化工具很好地集成在一起。做出报告会很漂亮。

下面的屏幕截图列出了一些可用的选项:

Archive.is — Archive.is 是“网页的时间胶囊”。它不如互联网档案馆那么知名,并且它不包含太多信息,但是,它确实为您提供了一个选项,可以非常快速地归档您想要的任何页面。

只需在红色框中输入页面的URL,Archive.is 便会复制并保存该页面,即使原始页面已被删除。很好用。

Pastebin — Pastebin 的界面很简单。它只能用于存储文本,但有时如果您急于收集且不能在本地保存文档或者出于某种原因而不想这样做,那么它可能会是一个有用的选择。

复制并粘贴您要保存的文本,然后 Pastebin 创建一个唯一的URL,您可以将其用作书签。请注意,默认情况下保存的内容不是私密的。

Httrack — HTTrack 是保存网站的强大工具。它复制了网站或页面的整个结构,并可以离线保存。

它比简单地将网页另存为HTML文件更强大,因为它捕获了使网页起作用所需的所有相关脚本和样式。

它非常详尽,可让您创建网站的精确副本以供离线查看。

唯一的缺点是,在逐页复制整个网站时,捕获整个网站所需的时间要比仅拍摄一些屏幕截图要长,但是,最终产品的细节要丰富得多。 Windows 和 Linux 均可使用。

YouTube-dl — 这个也介绍过,它几乎可以从任何网页(不仅仅是顾名思义的YouTube)中获取视频内容。

您可以在这里看到具体教程《如何快速从大部分社交网络上抓取视频?深度调查的必备基础工具》。

Hunchly

Hunchly 是捕获Web浏览器证据的最佳工具,没有之一。

当您浏览、抓取网页、视频、屏幕截图、搜索等内容时,它可以在后台默默地捕获证据,同时为您进行的研究创建可审核的踪迹。

不过要花钱,一年的许可费用为129美元,但是,如果您是专业地从事调查的人员、甚至只是业余爱好者,那么真的值得为此付出。它在 Windows、MacOS 和 Linux 上同样有效。

OSIRT — OSIRT Browser 虽然不像 Hunchly 那样知名,但它仍然相当不错。

它在您浏览时进行捕获,具有内置的视频捕获工具、网页捕获功能、还有Tor功能,并且允许您添加自己的记录,最后将整个内容导出为PDF。

很棒吧。

它最初是为执法而设计的,但现在已公开提供给所有人使用(仅限 Windows)。

恢复工具

互联网调查与传统调查之间的主要区别在于,恢复丢失的信息要容易得多。

我们介绍过一些方法,见《盗墓OSINT》。

如果有人在谋杀现场擦掉了指纹,那么指纹将永远消失,但是,如果有人删除了一条推文,则可能有办法将其找回。

💡以下是一些资源的列表,这些资源可以使您有机会恢复第一次丢失的信息。

Google Cache — Google不仅将网页编入索引,还将网页的副本存储在缓存中,这样就可以检索网页的缓存版本,即使原始网页已被删除。

您只需要注意,Google不会一直缓存所有内容。

要查看网页的缓存版本,只需在搜索URL前面加上 “cache:”即可。

以下是一个例子,对于一条已删除的推文。 Google 找到了原始推文…

点击它你会发现,Twitter 限制了发布者的帐户,无法查看该帖子:

但是,通过在URL上添加 cache:前缀,并对其进行Google搜索

cache:https://twitter.com/jakecreps/status/1126239101294919685

即使原始版本已消失,Google也会返回该缓存的版本,这样就能看到啦:

您也可以直接从搜索结果中访问网页的缓存版本,方法是单击绿色的向下箭头并选择“缓存”。

如果此选项不存在,那么很遗憾,该页面尚未被缓存。

The Wayback Machine — Archive.org 是互联网上最知名的存档资源。它包含了可以追溯多年的网站快照。

它还具有广泛的高级搜索选项,用于挖掘旧的和隐晦的信息。

尽管它是一个很好的工具,但是它并不能始终捕获所有内容,也不适合捕获包含 Twitter 页面在内的内容快速变化的URL。

Ceddit 和 Resavr — 这两个工具都用来捕获并保留已删除的 Reddit 帖子。 Ceddit 看起来与 Reddit 主站点很类似,但是它可以保留并存档已从 Reddit 删除的帖子。

Resavr 采用的是略有不同的方法。它只是捕获并存档已删除的 Reddit 评论。您可以检索评论的全文,用户ID,删除的时间以及删除前的停留时间。

Time Parameter Searches — 这与恢复丢失或模糊的信息的方法略有不同。

正如前文所述,开源情报调查中信息损耗的原因之一是,您正在寻找的数据可能会被较新的搜索结果所淹没。

例如,假设我为“ Jeffrey Epstein”使用 Google,会得到超过7000万个结果:

杰弗里·爱泼斯坦(Jeffrey Epstein)被捕并自杀身亡的故事几乎全球流行,于是搜索引擎确保了与这些最近事件有关的结果在搜索结果中占主导地位。

但是,如果你想要研究的是有关他的较旧信息怎么办呢? Google的高级搜索参数使您只能在给定的时间范围内找到结果,这可能会使您要查找的信息更容易挖掘。

在搜索结果页面上,选择“工具”,然后单击“任意时间”,然后从下拉菜单中选择“自定义范围”:

输入感兴趣的日期范围,Google只会返回这些时间范围内的结果。

这样一来,您就可以滤除大量无关信息的干扰,而只关注您感兴趣的时间段。只需要记住格式:DD / MM / YYYY。

举例来说,假设我只是想看看 Jeffrey Epstein 从2009年开始的信息结果,我会这样做:

如果您需要非常具体的内容,甚至可以设置更小的时间参数,比如减少到一天。

请注意,这仍然会带来误报,因为相对较新的信息会出现在非常旧的网站上。与往常一样,您需要亲手检查所有内容。

好啦就是这样。以上列表很可能不够详尽;如果您有其他更好的方法,欢迎留言交流。⚪️

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据