深挖推特:如何从推文中提取准确的元数据?

  • 其实非常简单,只是大多数人平时没有注意到这点

对于某些调查来说,重要的是要找出在 Twitter 上发布帖子的确切时间。比如可能会要求您调查目标用户通常何时处于活动状态 —— 您可以联想各种需求,从关系网络调查、到位置判断、到突袭计划 ……

Aware Online 介绍了一种方法非常使用《Interpreting metadata on Twitter

您看到的时间真的正确吗?

如果您经常查看发布的 Tweets 的确切时间,您可能已经注意到了,同一帖子的时间显示并不总是相同的。无论您是否登录、以及使用哪个帐户登录、或者使用什么设备登录,都会产生很大的不同。

作为研究人员或调查人员,您需要确定自己的调查目标。如果犯了一个错误,您不仅会感到尴尬,而且还会给您的调查带来严重后果。

本文将解释如何找到 Tweet 本身、Retweets、和评论的确切时间。

时间和元数据

在 Twitter 上发布消息的确切时间是一种元数据。您可以将元数据视为表明其他数据的数据。

比如 元数据的示例包括特定 Word 文档作者的姓名以及该文档的标题和创建时间。这三者都对该文档有说明作用。

调查中的元数据

元数据嵌入了许多数据中,这对于调查人员来说会很有用。毕竟,您不仅手中有 “普通” 数据,而且还包含说明该数据的数据。

并且,这些数据有时包含的信息超出您的想象。例如,用数码相机拍摄的照片甚至可能包含日期、时间和GPS坐标。这可以使您精确地识别照片拍摄的时间和位置。

Twitter 上的元数据

阅读以上内容后,您可能会想到从 Twitter 上发布的照片​​中定位GPS坐标。不幸的是,这行不通。大型网站和社交媒体(例如 Facebook,Twitter 和 LinkedIn)在上传后会删除此类信息 —— 只是对用户删除,这些寡头公司自己保留。

对您来说,这意味着您不再可以从照片中提取此信息。有时候,小型网站或社交媒体反而可以查看元数据。无论如何,尝试不会有任何伤害。

幸运的是,您可以对发布的消息或评论在 Twitter 上进行映射。有时甚至可以找到来自哪个位置。下面将解释如何做这件事,并没有那么困难。

登录与未登录的区别

要了解我们在说什么,建议您在 Twitter 上查看随机消息并记下消息的发布时间。请务必在登录时和退出后各执行一次。您看到差异了吗?

在下面的图像中,您会看到同一条 Tweet,左图显示了未登录时看到的时间,右图显示的是登录后看到的时间。

两张图片均显示日期为2015年1月23日,但时间有所不同:左图为 02:57,右图为 11:57 a.m.。

那么究竟哪一个是正确的?为什么会有这种差异?

找出正确的时间

为了找到正确的时间,您必须搜索相关消息的Unix时间戳。

“Unix时间戳”也称为 “Epoch时间”。无需更多讨论这个概念,它是一种指示特定时间的系统。

由于根据该系统时刻在全球范围内是相同的,因此Unix时间戳在计算机系统中得到了广泛使用。如果您知道 “Unix时间戳”,就可以将此时间戳转换为本地时区中的时间。

查找Unix时间戳

下面将解释如何在 Twitter 上找到消息的 Unix 时间戳。您可以在登录时从 Tweets 检索 Unix 时间戳,也可以在未登录时检索:两者都将为您提供完全相同的答案。

还是上面这个案例,登录和未登录状态下显示不同的时间。这时候您只需要移动鼠标到时间的位置,右键点击时间,然后点击 Inspect Element。

然后您就可以看到下面这样的画面。您将看到已打开Web浏览器的 “开发人员工具”,并且某些信息以蓝色突出显示。

您也可以通过单击F12并选择消息的日期来做到同样的事。

在下面的信息中,data-time =“ 1422010676” 部分很重要,因为它包含消息的Unix时间戳。您需要时间戳 “1422010676”来找出消息的正确发布时间。

转换Unix时间戳

现在您知道需要 Unix 时间戳来查找消息的日期了。将 Unix 时间戳转换为本地时间的一种方法是通过 WolframAlpha 等网站的工具。

如下所示,WolframAlpha 网站将 Unix 时间戳 1422010676 转换为 10:57:56 am UTC。

您还可以通过 Epochconverter 网站将 Unix 时间戳转换为 “真实 ”时间。如下所示,Unix 时间戳 1422010676 被转换为 GMT 10:57:56。两个结果完全相同。

这是什么意思?

WolframAlpha 网站上的工具和 Epochconverter 网站上的工具都将 Unix 时间戳 1422010676 显示为 10:57:56。但 UTC 和 GMT 确实有所不同。 GMT 是时区,而UTC不是时区。即使将时钟设置为向前(“夏令时”)或向后(“冬令时”),两种时间格式都不会改变。

如果您想在当地时区理解 GMT / UTC 10:57:56,则必须考虑夏令时和冬令时。此外还必须考虑您的本地时区。

比如荷兰位于CET时区,即 “欧洲中部时间”。该时区比UTC早1小时,在夏季又要加一小时。由于目标帖子是在2015年1月23日发布的,因此必须考虑冬季时间。也就是说转换为当地时间后就是 11:57:56 (10:57:56 + 1 小时)。

那为什么在Twitter上会有不同的时间?

如上所述,如果您未登录,Twitter 会将时间记录为02:57,如果您登录,则同一条消息会在显示为 11:57 a.m.。为什么 Twitter 不会自动将此时间转换为本地时区?

一个可能是每个 Twitter 帐户都有自己的时区设置。例如,如果时区设置为 GMT + 01:00(阿姆斯特丹)时区,于是显示出来的就是 11:57 的时间。

如果随后使用其中一个假身份帐户登录,则会看到完全不同的时间显示。

下面的左图是使用时间设置为 GMT-07:00 山地时间(美国和加拿大)的帐户登录时看到的时间显示。右图是使用时间设置为 GMT+01:00 Amsterdam 的账户查看时显示的时间。

最后

您是否要确保对一条消息的留言、转发或评论找到正确的时间?您就需要先找到时间戳记,并将该时间戳记转换为本地时区,考虑一年中的时间(夏季时间和冬季时间)。您是否已登录都无关紧要,因为时间戳始终是相同的。

如果您已登录,最好从您的 Twitter 的帐户中将其设置为调查目标相同的时区。通过设置和隐私>帐户>时区,使用 GoodTwitter 返回旧版推特。

就是这样,您学会了吗?⚪️

Interpreting metadata on Twitter

One thought on “深挖推特:如何从推文中提取准确的元数据?

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据