到底有多少跟踪器在盗窃你的隐私?谷歌以其惊人的跟踪量位居榜首

最近的文章显示,嵌入在许多网站上的追踪器增加了 Facebook,Google(和其他公司)可用来了解我们的信息 – 即使你根本没有登录(甚至你可以完全没有账户!)也同样可被它们窥视。我开始考虑有多少个不同的网站可能会跟踪我在网络上的浏览。

我们如何知道公司跟踪我们的地点和数量?

有多少网站使用 Facebook 跟踪 API? Twitter 的 API?亚马逊?公司/追踪者的数量可能是无穷无尽的,但本文只关注一小部分 – Facebook,Google,Twitter,LinkedIn 和亚马逊。用 url,HTTPArchive 可以做到。

方法是这样的。在“Facebook隐私”上进行 Google 搜索,选择了前 6 篇文章:

https://www.chronicle.com/blogs/profhacker/firefox-add-on-protects-against-most-facebook-tracking/65281

https://www.thequint.com/tech-and-auto/tech-news/prevent-facebook-data-access-with-this-firefox-web-extension

http://www.thedailystar.net/world/limiting-facebooks-data-brokers-wont-stop-tracking-1555630

https://globalnews.ca/news/4110311/how-to-stop-targeted-ads-facebook-google-browser/

https://www.cbsnews.com/news/how-facebook-was-able-to-collect-android-phone-and-text-logs/

https://www.makeuseof.com/tag/facebook-tracking-stop/

然后,使用 Ghostery(Chrome 浏览器插件,即 ID 跟踪器/广告等)来识别这些页面上的跟踪器。例如这里有两个 Facebook 追踪器:

现在,我标记的某些网址可能无害,并且无法通过网络跟踪用户。我没有深入了解每个 API 或他们收集的数据,我为 Facebook 建立了以下查询:

SELECT pages.rank, pages.url, requests.url, ext FROM httparchive.runs.latest_requests_mobile requests JOIN ( SELECT rank, pageid, url FROM httparchive.runs.latest_pages_mobile) pages ON pages.pageid = requests.pageid WHERE (requests.url CONTAINS “facebook.com/tr”|| requests.url CONTAINS “graph.facebook.com”|| requests.url CONTAINS “facebook.com/impression” || requests.url CONTAINS “facebook.com/connect”|| requests.url CONTAINS “connect.facebook.net”|| requests.url CONTAINS “connect.facebook.com”|| requests.url CONTAINS “facebook.com/brandlift” ) ORDER BY rank ASC

所以,Facebook 跟踪了你多少?

我在数据库中发现了超过 147.5k 站点的 805k Facebook 追踪请求。这意味着平均每页5个 Facebook 追踪者,约占整个互联网的 33%。

有趣的是,按排名显示,排名前100位的网站使用远远低于 Facebook 的追踪数据(11%) – 可能是因为 Facebook 的许多竞争对手都位列前100名。

Twitter 在这方面怎么样? 在检查的6页中,我找到了2个跟踪网址:

requests.url CONTAINS “syndication.twitter.com/i/jot”||

requests.url CONTAINS “platform.twitter.com/widgets.js”

此查询结果意味着 39.7k 个站点发生 117.5k 个跟踪请求

亚马逊怎么样?

amazon-adsystem.com/widgets

2.4k 的网站上有 6k 个跟踪实例

LinkedIn

requests.url CONTAINS “px.ads.linkedin.com/collect”||

requests.url CONTAINS “snap.licdn.com/li.lms-analytics”

跨越 7.6k 个站点有 22.5k 个跟踪实例

Google

在我有限的网站样本中,Google 拥有最多的被指定为追踪者的网址。实际上有多大?举个例子吧 – 如果我尝试一次全部运行它们,BigQuery 会遇到内存问题。我只能将这些分解成更小的查询并获得完整的图像:

Google Analytics

requests.url CONTAINS “https://www.google-analytics.com/collect”||

requests.url CONTAINS “https://ssl.google-analytics.com

176k results across 103.7k sites (23% of all sites in the dataset)

Google Ads (不是 DoubleClick)

requests.url CONTAINS “https://www.googletagservices.com/tag/js”||

requests.url CONTAINS “https://www.google-analytics.com/collect”||

requests.url CONTAINS “https://ssl.google-analytics.com”||

requests.url CONTAINS “pagead2.googlesyndication.com/pagead”||

requests.url CONTAINS “www.googleadservices.com/pagead/”||

requests.url CONTAINS “imasdk.googleapis.com/js/sdkloader”

600k entries across 202k sites (44% of all sites tested have one of these urls)

Google Ads – DoubleClick

requests.url CONTAINS “stats.g.doubleclick.net/r/collect”||

requests.url CONTAINS “securepubads.g.doubleclick.net/gpt/”||

requests.url CONTAINS “googleads.g.doubleclick.net

1.02M entries across 250k sites (54% of all sites tested have one of these urls)

将这些条目加起来可以提供 1.79M 的 Google 追踪者。如果我只为网页网址运行查询,则可以成功运行,并且这些跟踪链接会显示在 268k 个网站上(占所有网站的 58%)

汇总

综合所有这些结果可以在 HTTPArchive 找到所有追踪者的总和:

HTTPArchive 中 64% 的站点至少使用了上面指定的 22 个URL中的一个。正如您大概能猜的那样,大多数网站都使用这些追踪器中的一个以上:

(最大值为290,但为了保持y轴比例合理,我将其删除了

结论

所有的跟踪都是不同的。每一次点击和页面访问都会随附发送不同级别的个人信息,它们单独看起来似乎没什么,但是一旦汇总起来,即刻能把你完全扒光。

来自 Ghostery 和6 个新闻文章的跟踪数量非常有限。然而在网络的一个大横截面上发现使用了许多跟踪器:所有站点中有 64% 的站点至少有一个跟踪器存在,并且跟踪器的中间站点利用了上述 22 个 URL 中的 7 个。⚪️

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据