如何制作自己的互联网存档

  • 互联网档案馆有很多限制,但您依然可以获得自己的离线的存档,让一个网站保持它本来的样子

您有很多理由想要保存一个网站、网页、视频、音频等等,它们可能会随着时间消失,或者您的翻墙软件失败。比如我们的网站,多位读者询问过是否有 “全网站下载”,很遗憾我们不会提供那种功能,但您可以自己完成,包括其中所有视频,都可以离线存档。nixintel 介绍了如何做到这点。

互联网开源调查的最大挑战之一是一旦发现数据后如何保存。

您可以获得的信息比以往任何时候都多,但如果您不采取措施将其存档,那么很多信息很容易丢失。如果您曾经将一个重要的资源加入书签,但稍后再回来时却发现它已经不存在了,您就会知道这有多么令人沮丧。

互联网档案馆可能是人们最熟悉的保存网页的工具,但它并非没有局限性。例如,它不能捕获 Facebook 页面,即使您指示它开始存档一个网站,那么如果该网站的 robots.txt 阻止抓取,它也很容易失败。

越来越多的 Javascript 和嵌入式视频内容的使用,也让网页的抓取和存档变得更加困难。您在 Internet Archive 上找到的保存的网站往往缺少了许多原始内容和功能。

为了应对这种情况,有必要使用几种类型的工具来为您的调查保存网页内容,而不是仅仅依靠一种工具。

Hunchly 对于抓取网页来说是非常好的,但您还是需要用 YouTube-dl 来补充,用来抓取视频内容。最近出现的 Archive Box 工具可以帮助您建立想要保留的网页内容的离线档案。它并不是为开源调查工作而设计的,但它完全可以胜任保存和归档多种格式的网页的任务,包括基于 JavaScript 的网站和PDF/PNG截图。视频和音频内容也可以被下载和保存。

Archive Box 可以为您的书签、浏览器历史记录或从您提供的自定义URL列表中列出的网站,建立完整的存档

本文将展示如何设置和安装 Archive Box,并开始存档您自己的网页。

设置

Archive Box 是用Python编写的,可以在 Linux 和 Mac OS 上运行。它利用原生的 Linux/Mac 程序,如 curl 和 wget 来抓取大量的数据,所以与许多其他 Python 工具不同,它不会在 Windows 中运行。如果您想在Windows环境中使用 Archive Box,那么您需要按照这里的说明安装并使用 Docker 运行它。

Archive Box 的最新版本(0.4.21)可以通过 Pypi 获得,将在本指南中安装它。它需要 Python 3.7 或更高版本才能运行。Archive Box 也可以在 Windows 上运行,前提是您已经安装了 Python/Pip

要检查您当前的 Python 3 版本,请进入控制台并输入:

$ python3 -V

如果版本小于 3.7,您需要安装一个更新的 Python 版本。

一旦您安装了 Python 3.7 (或更高版本),可以用下面的命令直接从 PyPi 安装 Archive Box:

$ pip install archivebox

如果您不熟悉 Python和Pip,可以看这篇文章。如果您使用的是 MacOS,则可以用 Brew 安装 Archive Box:

$ brew install archivebox

Archive Box 也有一个 Docker 镜像,这意味着您也可以在 Windows 上运行它,只需要先设置 Docker。

接下来,您需要创建一个存放您的存档的目录,并在那里完成 Archive Box 的设置。

$ mkdir myarchive && cd myarchive 
$ archivebox init

安装完成后,您就可以开始构建存档文件了。

基本用法

所有命令均采用以下格式:

$ archivebox [command] [argument]

要存档单个网页,请使用以下命令:

$ archivebox add 'https://域名'

也可以在您的请求中添加递归,这样不仅可以对您指定的页面进行存档,而且 Archive Box 也会对页面上的每一个链接进行跟踪,并将其也存档。depth 越大,它就会跟着链接走得越远。递归可以通过以下选项来添加:

$ archivebox add 'https://域名' --depth=1

现在将存档该站点,并跟踪其中的所有链接,depth=1,然后也存档所有这些页面。

查看存档

这里是新存档:

要查看您的存档,打开浏览器并导航到您创建的存档文件夹中的 index.html 文件。它将是类似 /home/username/myarchive/index.html 的东西。存档记录了您创建它的时间,保存的链接,以及原始的URL。点击 “文件” 就可以看到 Archive Box 的强大功能。

现在目标网站首页已经被保存为离线本地存档(包含所有必要的 JavaScript,因此外观与实时版本相同),您也会注意到 Archive Box 甚至在WayBack Machine上也存档了一份。所以现在您的机器上已经有了一个完整的网站工作档案保存在本地。比起简单的截图,这是一种更好的保存网页的方式,即使原来的网站消失了,您仍然有一个完整的离线副本可以使用。

存档多个网站

只有一个网站的存档并没有多少乐趣。幸运的是,Archive Box 还能让您轻松地一次存档多个网站,无论是从URL列表,还是从浏览器的保存书签。要对多个网站进行存档,请创建一个类似这样的文本文件,每行只有一个URL:

https://gabrielrockhill.com
https://thebulletin.org
https://quillette.com

然后,输入以下命令(假设您的URL列表与存档文件位于同一目录中):

$ cat url_list.txt | archivebox add

几分钟后,所有列出的网站都以与以前相同的格式添加到您的离线存档中。

尽管如此,事实上,网站的PDF和PNG版本也被创建,这意味着您仍然可以看到网站在存档时的样子。您还会注意到前文中提到的 Wayback Machine 的一个限制。如果一个网站不想被 Wayback Machine 抓取,唯一能保留的就是301错误。以多种格式存档意味着材料丢失的几率大大降低。

视频内容

Archive Box 使用 YouTube-dl,因此它也可以对视频内容进行存档。比方说,您想把这个十分钟小贴士添加到您的存档中。您可以运行以下命令。

$ archivebox add https://www.youtube.com/watch?v=zo_geMvcOg8&feature=youtu.be

整个10分钟小贴士现在将保存到您的档案中,包括视频和音频文件。

要访问已存档的视频/音频,请单击右侧的 “媒体” 链接。您会看到视频、音频和缩略图的内容都已离线保存:

存档您的书签

Archive Box 还允许您创建保存在书签中的网站档案。只需将浏览器中的书签列表导出(Chrome浏览器和Firefox浏览器请看这里这里的说明)为HTML文件,然后将 Archive Box 指向它。

$ archivebox add /path/to/bookmarks.html

最后

能够捕获和保存网络内容是开源调查人员的核心技能。有几个技术挑战使这一工作变得困难,但 Archive Box 是收集和保存所需信息的一种非常有效的方法。

Archive Box 正处于积极的开发中,并不断添加新的功能和更新,因此本帖中的一些内容可能会随着时间的推移而过时。请在 Twitter 上关注 @ArchiveBoxApp,了解最新更新。⚪️

Make Your Own Internet Archive With ArchiveBox

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据