当视频证据显示你杀人…… 全身DeepFake意味着什么?

  • 最可能有效的也是难度最大的是从意识层面的免疫,提升人们的分辨能力

在俄罗斯小说家维克多·佩勒温(Victor Pelevin)的网络朋克小说《智人》(Homo Zapiens)中,一位名叫巴比伦·塔塔尔斯基(Babylen Tatarsky)的诗人被一位前大学好友招募,在后苏联时期经济崩溃之际担任莫斯科的广告撰稿人。

Tatarsky 凭借出色的文字游戏才能,迅速攀升了公司阶梯,然后他发现,像当时的俄罗斯总统鲍里斯·叶利钦(Boris Yeltsin)这样的政客和重大政治事件实际上是虚拟的模拟。

随着越来越复杂的深度造假的出现,如 Pelevin 所描述的这般愿景正在慢慢成为现实。

在被研究人员称之为 “深度造假” 或 “合成媒体” 的领域中,大部分注意力都集中在可能对政治现实造成严重破坏的假脸上,以及其他可以模仿某个人的写作风格和声音特征的深度造假。

但是,合成媒体技术的另一个分支正在迅速发展:全身深度造假。

2018年8月,加利福尼亚大学伯克利分校的研究人员发布了名为 “Everybody Dance Now” 的论文和视频,展示了深度学习算法如何将专业舞者的动作转移到业余者的身体上。

尽管还很原始,但它的确表明机器学习研究人员正在解决创建全身深度造假的更艰巨的任务。

同样在2018年,由德国海德堡大学的 BjörnOmmer 博士领导的一组研究人员发表了一篇关于机器学习的论文,以逼真的渲染人体运动。

4月,日本人工智能公司 Data Grid 开发了一种AI,该AI可以自动生成原本就不存在的人的全身模型,理论上是在时装和服装行业的实际应用。

显然,深层造假会具有一些有趣的商业应用,例如演示跳舞的应用程序或生物医学研究等领域,但是,在当今虚假信息和虚假新闻引发的两极分化的政治气候下,这种技术的恶意用例正日益引起人们的关注。

目前,全身的深度造假产品还不能完全使人迷惑,但是像任何深度学习技术一样,它将会不断取得进步。这只是在多长时间内将与真实变得难以区分的问题。

合成整个人体

为了创建伪造品,计算机科学家使用生成对抗网络(GAN)。这是由两个相互竞争的神经网络组成的深度神经网络架构,在完善的反馈回路中工作,以创建逼真的合成图像和视频。

深度造假的首次恶意使用出现在 Reddit 上 —— 斯嘉丽·约翰逊(Scarlett Johansson)等女演员的面孔被映射到色情演员的身体上。

Fast.AI 的 Rachel Thomas 说,存在的伪造品中有95%是色情材料,意在以虚假的性行为指称骚扰某些人。“其中一些深度造假视频使用的不一定是非常复杂的技术。” 但是,这种情况已经开始改变。

Farid 指出,中国的深度造假应用程序 Zao 足够说明这项技术在不到两年的时间内发展了多快。

他说:“有了深度造假图片和视频,我们已经从本质上实现了CGI技术的民主化 —— 我们已经将其从好莱坞制片厂手中移交给了 YouTube 视频创作者。”

海德堡大学图像处理协作实验室(HCI)和科学计算跨学科中心(IWR)的计算机视觉教授 Björn Ommer 领导着一个研究和开发全身合成媒体的团队。

像该领域的大多数研究人员一样,该小组的总体目标是教机器如何理解图像和视频。

Ommer 说:“我们不仅在游戏行业中看到了合成化身,而且在其他许多领域也创造了收入。”

仅仅合成面孔和合成整个身体的过程之间存在重大差异。 Ommer 说,已经对面部合成进行了更多研究。

这有几个原因。首先,任何数码相机或智能手机均具有内置的面部检测技术,该技术可用于诸如微笑检测或识别观看者正在看的人的身份。

这样的应用程序可以产生收益,从而导致更多的研究。但是,正如 Ommer 所说,它们还导致了 “大量数据集的组装、数据管理、以及获取人脸图像的研究,这些都是深度学习研究的基础。”

其次,对于 Ommer 而言,更有趣的是,尽管每个人的面孔看起来都不同,但是将面孔与整个人体进行比较时并没有太大的可变性。

“这就是为什么面部研究进入了一个新阶段的原因,与整个人体的造假相比,它可以产生非常不错的结果,其中存在更多的可变性,处理起来要复杂得多,而如果您深入那个方向,会学到更多的东西。” Ommer 说。

Ommer 不确定完全合成的物体什么时候会达到他和研究人员想要的质量。然而,考虑到恶意深度造假的成熟,Ommer 指出,即使没有深度学习计算机视觉智能、人工智能或其他技术所产生的伪造品,人类也会很容易受到欺骗。

美国众议院议长南希·佩洛西 (Nancy Pelosi) 被放慢速度的视频让她看起来就像是喝醉了酒。这段视频表明,这种简单扭曲的深度造假技术即将出现,并可能会被某些人所利用。

Ommer 说:“但是,如果要使其对更大的社会具有吸引力,还需要几年的时间。” 全身造假及其他深度造假产品将变得更便宜、更流行。

“研究社区本身已经朝着一个方向发展了,他们需要对我们所看到的这种稳步发展负责,算法很容易获得,例如在 Github 上等等。所以你只需要下载代码,而不需要更多知识,运行它们就行。”

感觉无力

并非每个人都能创造出“轰动一时的假货”。但是,随着时间的推移,Ommer 说,金钱将不再是计算资源方面的问题,软件的适用性也将变得更加容易。

Farid 说,借助全身的深度造假技术,恶意的创建者将能够使用典型静态的人物直接对着摄像机说话,让目标去做和说出他们永远不会说的话。

调查记者兼弗兰德广播公司(VRT)的外国记者 Tom Van de Weghe、也是人权活动家和持不同政见者,担心全身造假会使镜头武器化。

Van de Weghe 和他的团队在2007年至2012年期间曾担任比利时电视台中国台的国际通讯员,在报道河南省的一次艾滋病丑闻时,触犯了中国政府。

Van de Weghe 在前往机场的途中遭到殴打,他说,当局告诉中国官媒新华社称这是一个虚假的故事。

Van de Weghe 说:“那是我第一次接触假新闻,我感到无能为力。一旦官方叙事被世界上最大的新闻机构所扭曲,并且已经在世界各地的发行机构中分发,您会看到它印在《中国日报》的首页上,您会觉得这都是什么玩意?”

这种悲惨的经历、加上2016年大选期间虚假新闻的激增、以及2017年深度造假的兴起,激发了 Van de Weghe 开始研究合成媒体的能力。

在2018年夏天,他在斯坦福大学开始了一项研究奖学金计划,专注于研究打击恶意使用深度造假的方法。

Van de Weghe 说:“受到威胁最大的不一定是大人物,政治人物和流行的名人。而是普通人,就像你我这样的人,以及一些边缘化群体,更可能成为或已经成为深度造假的受害者”。

就在最近,在将视频上传到 PornHub 并在互联网上发布之后,荷兰新闻主播 Dionne Stax 发现自己的脸被深度造假技术附着在色情女演员的身上。

尽管 PornHub 迅速删除了该视频,但 Van de Weghe 说她的名誉受损已经造成。他还指出,中国的AI公共广播电台已经证明了中国政府有能力实现高明的深度造假。

“2020年,中国的街道上应该有2亿个摄像头,以追踪人们的一举一动,为所谓的社会信用评分计划。中国当局拥有大量数据,他们可以使用所有数据来操纵某些事物。”

Van de Weghe 认为,全身的深度造假可能会以令人烦恼的新方式完全改变香港抗议等事件的影响 —— 这些内容的造假可能会使抗议者看起来暴力、或借以美化执法部门的镇压行动。

“要勒索新闻工作者或对新闻工作者施加负面影响,他们就可以将这些镜头变成深度造假。他们可以使用这些素材进行任何操作,并且很容易做到。我不是说他们正在这样做,但他们可能已经能够做到这一点。全身的 Deepfake 技术已经越来越好,所以问题是,第一个全身 Deepfake 会用来干什么?”

Van de Weghe 指出了CNN首席白宫通讯员 Jim Acosta 的2018年镜头,以想象全身深度造假的工作原理。在阴谋论网站 Infowars 的编辑 Paul Joseph Watson 上传的视频片段中,Acosta 看起来似乎在努力推搡一位白宫工作人员试图拿起麦克风。C-SPAN 播放的原始剪辑与 Watson 的剪辑明显不同。

Infowars 编辑声称他没有篡改素材,并将任何差异归因于 “视频压缩” 伪像。但是,正如《独立报》对该视频进行并排分析所显示的那样,Watson 的视频缺少了原始视频的几帧。

就像编辑视频帧一样,全身的 Deepfake 可以改变事件的真实性。

“如果白宫都能出这样的事,那就想象一下像中国那样的民主程度较低的政权能够凭借全面的深度造假技术实现什么。”

Deeptrace Labs 成立于2018年,是一家网络安全公司,现正在基于计算机视觉和深度学习构建工具来分析和理解视频,尤其是可以由任何类型的AI操纵或合成的视频。

公司创始人 Giorgio Patrini 曾是阿姆斯特丹大学DELTA实验室的深度学习博士后研究员,他说,几年前,他开始研究技术如何预防或防范未来对合成媒体的滥用。

Patrini 认为,恶意的深度造假东西,包括合成的全身、面部和声音的组合,将很快被用于针对记者和政治人物。

他指的是一部深度造假的色情视频,其中印度记者 Rana Ayyub 的脸被放在色情女演员的身体上,这是一次虚假宣传活动的一部分,目的是在她公开要求强奸和谋杀8岁的克什米尔女孩案件以示公义后,抹黑她的调查报告。

  • 的确,IYP也一直不认为深度造假会对政治权力斗争中的当权者造成多严重的危害,因为哪个政客是什么鸟样老百姓都知道。反而是政治异议和任何敢于说真话的人会面临危险 —— 这是信息战的重头戏,即 维稳《人格暗杀和抹黑运动:谁在受益?》

3月份,Deeptrace Labs 调查了据说是最近中风的加蓬总统 Ali Bongo 的造假视频。

尽管这个非洲国家的许多人认为邦戈的面孔、眼睛和身体非常不真实,这表明它是一个假脸 —— 包括加蓬军方,他们基于这一信念发动了一次政变 —— 但 Patrini 对媒体说,他不相信总统的录像是合成的。

Patrini 说:“我们找不到任何理由相信这是一次深度造假欺骗,后来我确认,总统仍然活着,但是他得了中风。”

我想在这里提出的要点是,视频是否为假货并不重要 —— 人们知道它可以引起公众舆论的怀疑,并可能在某些地方引发暴力。”

最近,Van de Weghe 了解到,一名政党特工接近最受欢迎的 Deepfake 创作者之一,要求使用 Deepfake 技术破坏特定个人。这种定制的深造造假可能会成为大生意。

Van de Weghe 说:“深度造假可以赚钱。”人们会下单。因此,政府不必制造假冒品,而只需联系专门从事造假的人来制造这些东西。”

《华尔街日报》最近报道说,一家英国能源公司的首席执行官被骗向匈牙利供应商的账户转账243,000美元。这位高管说,他相信自己正在与他的老板谈话,后者似乎已经批准了这项交易。后来才明白,他是音频造假的受害者。

Farid 相信其他欺诈性的深度造假财务计划出现(可能包括全身的深度造假)只是时间问题。

“我可以制作杰夫·贝索斯(Jeff Bezos)的速写视频,让 ‘他’ 说亚马逊的股价正在下跌,” Farid 说,“考虑做空亚马逊股票可以赚到的所有钱 ……

Farid 认为,社交媒体和深度造假视频的组合,无论是面部还是全身,都可以轻易造成严重的破坏。社交媒体公司很大程度上无法或不愿意调节其平台和内容,因此深度造假产品可能像野火一样传播。

他说:“当您将创建 Deepfake 内容的能力与在全球范围内分发和使用它的能力结合在一起时,就会出现问题。出于多种原因,我们生活在高度两极分化的社会中,人们认为他们不同意的任何人都是最糟糕的人。”

但是对于 Fast.AI 的 Thomas 而言,在新的网络冲突中,几乎不需要故意造假来对政治进程产生负面影响,政府和行业一直在假消息中挣扎。风险不仅涉及技术,还涉及人为因素。社会是两极分化的,美国(和其他国家)的广大地区不再拥有他们可以信赖的共享真相。

这种不信任感会落入具有政治动机的深度造假者的手中。

正如隐私学者 Danielle Citron 指出的那样,当将一个假货被揭穿时,它可以向那些购买谎言的人暗示 “这样做是值得的”。Citron 将其称为“骗子的红利”。

Farid 认为,全身深度造假技术的进步将使这种邪恶的总体问题更为严重。

在大学研究(例如 “ Everybody Dance Now”)和私有部门计划(例如中国的 Zao)将深度造假货币化的推动下,该技术正在迅速发展。

Farid 说:“一旦你可以做全身的造假,那就不再只是在谈论头部这么简单了:你可以模拟人们发生性关系、甚至杀死某人。”

行业反应

当前,在科技行业内尚无消除深度造假的共识方法。正在研究和测试许多不同的技术。

例如,Van de Weghe 的研究团队创造了不同的方法,探索深度造假的内部挑战。一个团队调查镜头的数字水印,以识别深度伪造内容。另一个团队使用区块链技术来建立信任,这是它的优势之一。还有一个团队通过使用最初创伪造视频的相同深度学习技术来识别它们。

“有些斯坦福大学的辍学生创造了 Sherlock AI ,这是一种深度伪造视频自动检测工具。他们取样了某些卷积模型,然后在视频中寻找异常。还有被其他深度伪造探测器使用的程序,比如 Deeptrace 实验室。他们使用名为 FaceForensics+ 的数据集,然后对其进行测试。这种技术的识别准确率高达97%,而且更擅长识别换脸。”

Deeptrace Labs 基于API的监控系统可以查看 Deepfake 视频的创建、上传和共享。自2018年成立以来,该公司已在互联网上找到了14,000多个假视频。

Deeptrace Labs 系统收集的见解可以告知公司及其客户有关深度造假创作者的作品、假货来自何处、他们使用的算法、以及这些工具的可访问性。

Patrini 说,他的团队发现95%的伪造品是假色情类别中的面孔互换,其中大多数是名人中的一小部分。到目前为止,Deeptrace Labs 尚未发现任何在野外使用的全身造假技术。

Patrini 说:“您无法真正用一个算法或想法来总结所有问题的解决方案。这只是构建几个工具,这些工具可以告诉您有关合成媒体整体的不同情况。”

Van de Weghe 认为,反深度造假伪造技术的下一个重大突破将是软生物识别签名。每个人都有自己独特的面部表情 —— 抬起的眉毛、嘴唇动作、手部动作 —— 这些都是独一无二的。

加州大学伯克利分校的研究人员 Shruti Agarwal 使用软生物识别模型来确定是否为视频人工创建了这种面部抽动。 (Agarwal 的论文顾问是假视频专家 Hany Farid)

“基本思想是,我们可以为世界各地的领导人建立这些软生物特征识别模型,然后,随着视频开始疯传,我们可以对其进行分析,并尝试确定我们是否认为它们是真实的或不真实的。” Agarwal 说。

尽管 Agarwal 的模型并不完全可靠,由于处于不同情况下的人可能会出现不同的面部抽动,Van de Weghe 认为公司将来可以提供软生物识别签名来进行身份验证。这样的签名可能是众所周知的眼睛扫描或全身扫描。

Van de Weghe 说:“我认为这是前进的道路:与学者和大型科技公司合作创建更大的数据集。而且,作为新闻编辑室,我们应该尝试培训人员并建立有关抵制深度造假的媒体素养。”

国防高级研究计划局(DARPA)的努力是使用语义取证法处理深度造假,目的是寻找算法错误,例如 会造成人在深度造假视频中佩戴的耳环不匹配的算法错误。

2018年9月,AI基金会筹集了1000万美元用于创建一种工具,该工具可以通过机器学习和人工识别 Deepfake 和其他恶意内容。

但是,Fast.AI 的 Thomas 仍然对技术能否完全解决深度造假的问题表示怀疑,无论他们采取何种形式。

她认为,“在短期内,推广虚假信息和其他煽动性内容对主要平台来说是有利可图的,所以我们的激励机制完全不一致。我不认为这些平台应该对它们托管的内容负责,但我确实认为它们应该对它们积极宣传的内容负责。例如, YouTube 向那些甚至没有寻找相关内容的人推荐了160亿次 Alex Jones 的视频。”

Patrini 说:“我们还可以告诉大众,这项技术已经存在,我们需要重新训练自己的耳朵和眼睛,不要相信我们在互联网上看到和听到的一切。我们需要为人和社会接种 ‘疫苗’,而不是期待在两年内修复东西,因为滥用这项技术可能会引发许多灾难性或有争议的事。

Ommer 称:“我们都看到了图像理解的应用及其潜在的好处,但这涉及非常重要的责任问题,谁将为此承担责任?公司很可能为了股东的利益着想也需要明确自己的责任。但是,我们都知道他们到目前为止是如何处理这一责任的。这是个非常棘手的问题,它们只是希望深度造假视频自然而然地消失,但这显然是不现实的。” ⚪️

You’ve been warned: Full body deepfakes are the next step in AI-based human mimicry

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据