政府间谍如何监听并自动识别电话通话中的敏感词?

  • 这是2015年的揭露,有中国朋友对这种监听敏感词的方式感兴趣,我们使用这篇文章作为一些时间线方面的解释 —— 文末附带文档资源

【注】斯诺登文件已公开部分的中文讲述在这里看到《互联网霸主的时间线 — — 他们将互联网视为间谍、破坏和战争的主场》。

在中国,我们收到一些朋友的提问,他们怀疑当局的监视如何针对每一部电话的每一次通话?如何才能从无数通话中准确抓取到任何所谓的 “敏感词”?

人工监听是不可能做到这点的;如果您假设语音搜索的技术领域是个空白的话,这肯定是一个不可能完成的任务。但语音搜索真的不是空白 —— 美国间谍早在十几年前就开始成功实现了这种监听,即:实时地从无数通话中抓取和查找任何想要的关键词。

但您永远不可能知道他们用来瞄准您的敏感词是什么。它可以是一个隐喻词、可以是一种含混的模糊表达形式、甚至只是一个人名或地名 …… 您的电话通话和几乎所有互联网语音通话都是完全透明的。

来看看他们是如何做到这点的。

如今大多数人都已经意识到,他们曾经认为是私密的电子邮件和其他数字通信,都可以成为他们被永久记录的一部分。

但即使人们越来越多地使用那些能够理解他们所说的话的应用程序,大多数人也仍然没有意识到自己所说的一切都在被监视监听

斯诺登档案中的绝密文件显示,国安局一直可以自动识别电话内的对话内容,通过创建粗略的文字记录和语音,可以轻松搜索和存储任何通话。

文件显示,国安局的分析师在十几年前就已经开始庆祝他们所谓的 “语音谷歌” 的发展了

尽管对自然对话的完美转录显然仍是情报界的 “圣杯”(一种至高无上、难以达成的目标),但是,斯诺登文件中已经描述了关键词语音搜索技术的广泛使用,以及旨在分析和 “提取” 任何政府间谍想要的语音对话内容的计算机程序,甚至使用复杂的算法来标记间谍们感兴趣的任何对话

这些文件包括在伊拉克和阿富汗等战区以及拉丁美洲使用语音识别的生动例子。但是,这些文件没有说明间谍机构究竟在多大程度上广泛使用这种监听能力,特别是在收集大量通话的程序中,这些通话包括居住在美国的所有人和美国公民。

监视国际电话一直是国安局监控的主要内容之一,但要求实际人员进行监听意味着它实际上只能限于总流量的一小部分。通过利用自动语音识别的进步,NSA已经进入了大批量监听的时代。

而这是在没有任何公众监督、听证会或立法行动的情况下发生的。国会并没有表现出甚至知道这是怎么回事的迹象。

美国自由法案 —— 国会目前正在辩论的监控改革法案 —— 根本没有涉及这个话题。该法案也许将结束一个不收集语音内容的NSA项目:一直以来政府大量收集国内通话数据,显示谁给谁打电话,以及多长时间。

但是,即使该法案成为法律,斯诺登曝光的众多监视机制仍然会被保留下来,在美国和全球范围内挖出大量无辜者的文本短信和语音通信。

The Intercept 联系的公民自由专家表示,NSA的语音转文本功能是一个非常令人不安的例子,说明随着整个世界的数字化进程,隐私侵犯正在成为最大威胁。

“我认为依旧有很多人不明白,监控的经济学已经被完全改变了”,斯坦福互联网与社会中心的公民自由部门负责人 Jennifer Granick 说。

“一旦你拥有这种能力,那么问题是:如何部署它?你能缓存所有美国电话,抄录所有电话,并对电话内容进行文本搜索吗?” 她说,“这可能不是他们现在正在做的事,但他们将能够做到这一点。”

而且,她问, “如果他们改变政策,我们如何才能知道?”

事实上,NSA官员一直在对他们将语音转换为文本的能力、以及他们如何广泛地使用这种能力的秘密,留下了大量的证据。

如何打破这种保密性是关键,Granick 说。“我们不知道有多少无辜的人受到影响,也不知道这些无辜的人中有多少是美国公民。”

【注:间谍机构可以拒绝任何监督,包括总统和国会都无法真正监督间谍机构;间谍机构的官员不会通过选举产生,公民对他们一无所知,但是,他们随时可以倾覆全世界任何地方的人们的生活。在国家安全局工作了30年的领先情报专家 William Binney 曾经在接受采访中对此有过解释,这份对话见《全球暴行的同谋者》】

国安局吹哨人 Thomas Drake 曾接受过语音处理加密语言学的培训,并在该机构工作到2008年,他告诉 The Intercept,911后,他看到了一个巨大的推动力,让间谍们想要将收集到的大量语音通信转化为更有用的东西。

人工的监听显然不会是解决方案。“没有那么多耳朵可用”,他说。

他说,新监视系统中出现的抄本并不完美,“但即使不是百分之百,监视者也能获得更多的信息。它更容易获得。可以对照它进行搜索。”

Drake 称,将语音转换为文本,使NSA更容易看到间谍们收集和存储的内容。“具有突破性的问题是,能够在多大范围内做到这一点,”他说。

更多数据,更多功能,更好的性能

国防部通过其国防高级研究计划局 (DARPA),于1970年代初就开始资助对语音识别的学术和商业研究。

出现了多个将语音转化为文本的情报分析系统,所有这些系统都在缓慢但逐渐地改进,让它们能够对更多的数据以更快的速度工作。

在一次简短的采访中,DARPA 信息创新办公室主任 Dan Kaufman 表示,政府在自动转录方面的能力仍然有限。

Kaufman 表示,电话对话的自动转录 “超级困难”,因为 “信号上有很多噪音”,“严重的不正规”。

他说,在像新闻广播这样的理想的声音环境中,“我们在转录翻译方面已经可以做得很好了。”

斯诺登档案 2008 年的一份文件显示,7年前,使用一种名为 “增强视频文本和音频处理”(Enhanced Video Text and Audio Processing)的程序,对新闻广播进行转录已经做得很好:

(U/FOUO)EViTAP 是一个全自动的新闻监测工具。这款由 Intelink-SBU 托管的工具的主要特点是,它可以分析六种语言的新闻,包括阿拉伯语、中文普通话、俄语、西班牙语、英语和法语/波斯语。你可能会问,它是如何工作的?它集成了自动语音识别 (ASR),它提供了口语音频的抄本,接下来,ASR转录的机器翻译将母语转录翻译成英语。瞧! 科技真神奇 ……

【注:再次提醒,本文来自6年前的2015年,背景是2013年的吹哨泄漏,其中标注的技术出现在更的时间里,请注意具体日期。关于自动语音识别,见去年底的这篇文章《中国AI巨头让监视如此容易》】

国安局使用的监视系统版本在6年前就已经可以商用了

语音识别方面的专家表示,在过去的十几年里,技术改进的速度是爆炸性的。随着信息存储越来越便宜,效率越来越高,技术公司能够在服务器上存储大量的语音数据,使他们能够不断地更新和改进情报分析模型。巨大的处理器,被调教成 “深度神经网络”,像人脑一样的检测模式,产生的文字记录更加干净。

【注:这一发展的最明显体现就是,2018年的这个新闻中所警告的《大规模监视新途径:国际刑警组织使用 192 个执法机构的样本推出*国际语音识别数据库*》】

斯诺登的文件显示,在商业语音转文本产品中看到的同样的飞跃也在国家安全局秘密进行,这得益于该机构对天文数字的信息的独特访问权限和其自身庞大的数据档案。

事实上,十多年来,国安局一直在不断推出新的改进型语音识别系统。

第一代语音监视工具就已经使海量语音内容的关键词搜索成为可能,于2004年推出,代号为 RHINEHART

2006年NSA一份题为 “对于语音挖掘来说,未来就是现在!” 的内部备忘录中写到:“语音词搜索技术允许分析人员根据其情报内容查找任何想要的关键词,并优先拦截目标。”

备忘录称,参与反恐的情报分析人员能够识别出与炸弹制造材料有关的单词,如 “雷管” 和 “双氧水”,以及 “巴格达” 等地名或 “穆沙拉夫” 等人名。

RHINEHART “被设计成既支持实时搜索 —— 即通过指定的一组字典自动搜索传入的数据,也支持回溯性搜索 —— 即 间谍可以在过去几个月的流量中反复进行搜索”,该备忘录解释说(强调这是原文)。

截至2006年,RHINEHART 可以 “在各种任务和语言中” 运行,并 “在NSA/CSS [Central Security Service] 企业中使用”。

但即使在那时,NSA的人类语言技术(HLT)项目办公室已经在推出一个更新、更复杂的产品。新系统名为 VoiceRT,首先在巴格达推出,“设计为每天索引和标记100万个目标”。

根据2006年的另一份备忘录,其目标是利用语音处理技术,能够对所有被截获的通信进行 “索引、标记和可视化”。“使用HLT服务,一个分析师将能够对每天数百万条拦截的电话进行分类,只关注其中敏感的部分”,该备忘录称。

NSA 的英国间谍同行 GCHQ 在2009年的一份备忘录中描述了 “NSA已经让BBN语音转文本系统 Byblos 在米德堡运行了至少10年 —— 也就是说至少从1999年就开始了。在此期间,他们投入了大量资金,以美式英语和越来越多的其他语言制作自己的转录 Sigint 语料库。GCHQ 还指出,它有自己的小型转录语音通信语料库,其中大部分恰好是 “北爱尔兰口音的语音”。

VoiceRT 则在推出几年后就被超越了。根据情报界2013财年的 “黑色预算”,VoiceRT 在2011年和2012年退役并被替换,这样到2013年,NSA就可以运行一个新系统。这个系统显然被称为 SPIRITFIRE,可以处理更多的数据,速度更快。SPIRITFIRE 将是 “基于语音到文本关键词搜索和配对对话转录的更强大的语音处理能力”。

在国外广泛使用

无论是通过普通电话线、手机网络还是通过网络语音服务发送的语音通信,都可以被国安局收集。此前公布的斯诺登文件中已经描述了NSA在过去十年中为获取 Skype 通话等网络语音内容所做的巨大努力

档案中的其他文件记录了该机构对以下事实的调整,即越来越大比例的对话,甚至是那些以固定电话或移动电话开始的对话,最终以数字化数据包的形式飞过同样的光纤电缆,而NSA对其他数据和语音通信的挖掘非常有效

The Intercept 所搜索和分析的斯诺登文件记录了NSA广泛使用语音到文本转录技术来搜索国际电话中截获的内容 —— 特别是在伊拉克和阿富汗,以及墨西哥和拉丁美洲。

例如,语音转文本是被称为 “实时区域网关”(RTRG)的复杂分析计划的一个关键但以前未被提及的元素,该计划始于2005年,据《华盛顿邮报》报道,当时新任命的国家安全局局长 Keith B. Alexander 说国安局 “想要得到一切:每一条短信、电话和电子邮件,都可以被该机构强大的计算机吸走”。

2006年6月国安局的一张幻灯片介绍了 VoiceRT 的作用。

这种从语音中搜索敏感词的技术也延伸到对伊朗的拦截。2006年的一份备忘录报告说,讲波斯语的分析人员成功地使用了 RHINEHART,他们 “在通信中搜索 ‘谈判’ 或 ‘美国’ 等关键词时,RHINEHART 找到了一个非常重要的电话,并逐字进行了转录,提供了一个重要的伊朗目标关于组建伊拉克新政府的讨论的情报”。

根据2011年的一份名为 “人类语言技术(HLT)进展如何?” 的备忘录中,NSA当年在阿富汗、在德克萨斯州和佐治亚州的设施,以及由特别收集处(NSA/CIA 的一个联合单位在大使馆和其他地点运作)在拉丁美洲运行的监听站,都部署了 “HLT实验室”。

【注意:Special Collection Service,代号为F6的特别收集部门是高度机密的中央情报局-国家安全局联合计划,负责在外国大使馆,通讯中心和外国政府机构等难以到达的地方插入窃听设备。SCS成立于1970年代末,总部位于马里兰州的贝尔茨维尔,参与了从冷战到全球反恐战争的各种行动。】

备忘录说:“西班牙语是我们最成熟的语音转录文本分析方法”。备忘录指出,NSA 及其在拉丁美洲的特别收集服务站点,在搜索西班牙语敏感词方面取得了 “巨大成功”。

该备忘录提供了NSA德克萨斯州的一个例子,在那里,一名新接受系统培训的分析师使用敏感词搜索找到了以前未报告的关于一个监视目标的信息。在另一个案例中,拉丁美洲的一个特别收集服务站点的一名官员 “能够在很少的时间内就找到关于一名古巴官员的外国情报”。

在2011年的一篇题为《从墨西哥到阿富汗,在一大堆语音收集中快速掘金》的文章中,一位来自国家安全局德克萨斯州的情报分析技术总监描述了他了解的人类语言技术 “惊人的改变生活的事例”,以及它 “在大量的收集数据中准确找到感兴趣的流量” 的能力。

得克萨斯州的情报分析家们发现这项新技术是间谍活动的福音。“从寻找蒂华纳的隧道,到识别墨西哥城街道上的炸弹威胁,或者揭示墨西哥波托西的美国海关官员被枪杀事件,这项技术都起到了它所宣传的作用。他写道:“在时间紧迫的情况下,它加速了寻找相关情报的过程。” (强调:原文如此)

备忘录的作者也是向阿富汗军事领导人介绍该技术的团队成员。“从坎大哈到喀布尔,我们走遍了全国,向NSA领导人解释了他们的愿景,并向 SIGINT(信号情报)团队介绍了HLT分析技术今天能做什么,以及为了使这项技术取得改变游戏规则的成功还需要做些什么”,该备忘录写道。

使用的程度仍然未知

档案中不太清楚的是,这种能力在多大程度上被广泛用于抄录或以其他方式索引和搜索主要涉及NSA所说的 “美国” 的语音通话。

尽管作为斯诺登档案一部分的 NSA “指南” 中明确指出,“NSA/CSS已经创建了HLT模型”,用于语音到文本处理以及性别、语言和语音识别,但NSA并没有回答一系列关于自动语音识别的详细问题。”

事实上,处理过程可以帮助人类语言学家对音频文件进行分类和优先处理,而且统计模型根据实际截获的数据定期进行改进和更新。相比之下,由于它们是利用实际截获的音频文件进行调整的,所以系统的具体参数是高度机密的。

“国家安全局在授权的对外情报任务过程中,采用了多种技术”,发言人 Vanee’ Vines 在给 The Intercept 的邮件中写道。“这些技术由国安局专门的专业人员操作 …… 。”

Vines 没有回答有关处理美国国内或国内对国际语音通信的隐私保护的具体问题。但她写道:“NSA总是按照总统2014年1月的指示,实施 ……”

由总统任命但独立的隐私和公民自由监督委员会(PCLOB)在其公开报告也没有提到语音转文本技术。

“我不会去讨论任何项目是否具有这种能力”,PCLOB 主席 David Medine 告诉 The Intercept。

他说,他的委员会的报告只包含情报界同意可以解密的信息

“我们去了情报界,要求他们解密大量的材料”,他说,这些材料的 “大部分” 都被解密了,但并不是全部 —— 包括 “我们认为可以在不损害国家安全的情况下解密的事实”。

Medine 说,从假设的角度来看,将语音转化为文本的能力将引发重大的隐私问题。而且这也会引起情报机构如何 “最大限度地减少被保留和传播的材料 —— 特别是涉及美国公民的材料 —— 的问题,这些材料包括他们并没有明确允许保留的信息。

“很明显,这种技术增加了政府监听更多电话的能力”,Medine 说。“这将引发更多的隐私问题。”

新的学习曲线

语音识别专家 Bhiksha Raj 将当前的时代比作互联网的早期,当时人们并没有完全意识到自己打出的东西会永远存在。

“当我在90年代开始使用互联网时,我只是在发布一些东西”,卡内基梅隆大学语言技术研究所的副教授 Raj 说,“我从来没有想到,20年后我可以自己去谷歌,把这些东西都挖出来。想象一下,如果我曾经在 alt.binaries.pictures.erotica 之类的网站上发了一些东西,现在这个帖子会让我永远尴尬。”

他说,语音通信的使用量也越来越大。而且,鉴于世界上大多数的通信在历史上都是通过语音进行的,而且,它传统上被认为是一种私人的通信模式,所以风险就更高了。

“人们仍然没有意识到这个问题可能达到的相当严重的程度”,Raj 说,“而且这不仅仅是监控”,他说,“人们一直在使用语音服务。而这些语音去了哪里?谁知道?…… 你是靠信任生活的。而现在,我认为你不能信任任何人。”

对新规则的需求

Stilwell 科技政策高级研究中心执行主任 Kim Taipale 是十年前试图让政策制定者认识到现有的监控方法并不能充分应对新的全球通信网络和包括语音识别在内的先进技术的几个人之一。

“事情不再是短暂的”,Taipale 告诉 The Intercept,“我们生活在这样一个世界里,许多曾经可以稍纵即逝的事,现在都被永久地记录下来了。那么问题就变成了:这有什么后果,要用什么规则来处理这些后果?”

Taipale 说,从现实的角度来看,“政府有能力批量搜索语音通信是我们在未来某些情况下可能不得不接受的事之一”。但是,至少需要 “明确的公共规则和有效的监督,以确保这些信息只用于符合宪法原则的适当的执法或国家安全目的。”

最终,Taipale 说,考虑到人为滥用和误用导致侵犯人权的可能性,计算机标记可疑语音通信的监视系统可能比人工进行监听的系统更具侵犯性

但在美国公民自由联盟的言论、隐私和技术项目的高级政策分析师 Jay Stanley 看来,从隐私人权、可能的后果以及对言论的寒蝉效应来看,人工的监听和电脑的监听之间并没有什么区别

“人们最终关心的,也是最终产生寒蝉效应的,是后果”,他说,“我认为,随着时间的推移,人们会更加害怕电脑监听,就像害怕人类的监听一样,是因为它可能带来的后果。”

事实上,电脑监听的确会引发新的担忧2006年NSA的一份内部备忘录称,“正在开发的一项重要增强功能是,这种HLT能力能够让情报分析人员根据目标人过去的行为模式预测哪些被截获的数据可能应该成为新的敏感词。”

【注:也就是 少数派报告模式的行为预测。(在这里看到人类行为预测技术如何毁掉了民主)。】

该备忘录引用了亚马逊不仅追踪而且预测买家偏好的能力,称设计用于标记有趣的截获数据的 NSA 监视系统 “为向分析师提供高度丰富的流量排序带来了希望”。

在加州大学戴维斯分校计算机科学教授 Phillip Rogaway 看来敏感词搜索可能是 “我们最不需要解决的问题”。在给记者的一封电子邮件中,Rogaway 警告说:“当NSA根据当代NLP[自然语言处理]方法确定某人为目标人时,可能除了:‘此人的语料库与我们认为是重点监视目标的其他人的语料库相似’ 之外;更要紧的是,概念上的相反 —— “他的话语听起来与大多数人都不同”。

Rogaway 写道:“如果NSA计算机用来识别威胁的算法太过复杂,人类无法理解,那么就不可能理解人们据以判断的监控设备的轮廓。 人们能够做的唯一一件事就是,尽力让自己的行为和其他人一样。” 这就实现了大规模的行动操纵。

本文附带的文档:

⚪️

HOW THE NSA CONVERTS SPOKEN WORDS INTO SEARCHABLE TEXT

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据