什么是Deepfakes以及如何创建它们?

通过Faceswap轻松了解Deepfakes并制作它们的终极解释器。

Artificial Intelligence不再那么“人工”了。这些时代把它带得离我们人类非常近。

它可以建议、写作、创作艺术,现在甚至外貌和言谈都和真人一样。

这是这个领域最新的发展之一,我们应该好好利用它。然而,这也是我们必须警惕的。

什么是Deepfakes?

Deepfake一词是由深度和假冒组合而成的。简单来说,你也可以认为这是经过专业处理或深度伪造的媒体。

根据维基百科的定义,这也被称为合成媒体,指的是对现有图像、音频或视频进行修改,以完全表示其他人。

通常,Deepfakes会使知名人物看起来说出他们本来不会说的话。

根据其创建者的技能,很难判断它是真实还是伪造。

Deepfakes如何工作?

简单地说,原始视频的一部分(比如脸部)被类似的伪造物替换。在这种情况下,它也可以被称为面部交换,就像这个链接中所示。

然而,它不仅限于视频,我们也有Deepfakes的图像和音频(谁知道,在不久的将来可能会有Deepfake虚拟现实头像)。

图片来源:迪士尼

这种欺骗的工作方法主要取决于应用程序和基础算法。

根据这个链接,有各种技术,包括编码器-解码器、生成对抗网络(GANs)、基于几何的Deepfakes等等。

然而,以下各节主要受到它如何与Faceswap工作的影响。这是一个免费开源的Deepfake软件,可以使用多种算法来获得预期的结果。

生成Deepfakes需要三个主要过程:提取、训练和转换。

#1. 提取

这涉及从媒体样本中检测和挤压出感兴趣的主题区域,即原始样本和用于交换的样本。

根据硬件能力,可以选择许多算法来进行高效的检测。

例如,Faceswap有几种不同的提取、对齐和遮罩选项,根据CPU或GPU的效率选择。

提取只是识别整个视频中的脸部。对齐确定任何脸部的关键特征(眼睛、鼻子、下巴等)。最后,遮罩将图像的其他元素屏蔽掉,只留下感兴趣的区域。

选择任何选项时,输出所需的总时间很重要,因为在中等硬件上选择资源密集型的算法可能导致失败或需要相当长的时间来生成可接受的结果。

除了硬件之外,选择还取决于一些参数,比如输入视频是否受到手部动作或眼镜等面部障碍的影响。

最后一个必要的步骤是清理(稍后解释)输出,因为提取的结果可能会有一些误报。

最终,提取过程在原始视频和伪造视频(用于交换)上重复进行。

#2. 训练

这是创建Deepfakes的核心。

训练涉及编码器和解码器的设计。在这里,算法被提取的数据输入以创建一个以后用于转换的模型。

编码器将输入转换为向量表示,以便训练算法从向量中重新创建面部,就像解码器所做的那样。

之后,神经网络通过分配损失分数来评估其迭代结果并与原始结果进行比较。随着算法的持续迭代,损失值会随时间下降,直到达到可接受的预览结果。

训练是一种耗时的过程,输出结果通常会根据所执行的迭代次数和输入数据的质量而逐渐改善。

例如,Faceawap建议使用至少500张不同的原始图像和交换图像。此外,这些图像应该在角度上有显著差异,在独特的光照条件下涵盖所有可能的角度,以获得最佳的复制效果。

由于训练时间较长,一些应用程序(如Faceswap)允许用户在训练过程中停止或稍后继续。

值得注意的是,输出结果的照片逼真度还取决于算法的效率和输入。同时,硬件能力也对输出结果产生限制。

#3. 转换

这是深度伪造创建过程的最后一步。转换算法需要源视频、训练模型和源对齐文件。

随后,可以更改与颜色校正、遮罩类型、期望的输出格式等相关的几个选项。

在配置这些选项后,只需等待最终渲染。

如前所述,Faceswap可以使用多种算法,用户可以在其中选择以获得可接受的面部交换效果。

就这么简单吗?

不是!

这只是面部交换,是深度伪造技术的一个子集。正如字面意义上的意思,面部交换只是替换脸部的一部分,以对深度伪造技术的能力提供一个初步的了解。

要进行可信的交换,您可能还需要模仿音频(更为人们熟知的是语音克隆)和整个身体,包括画面中的所有内容,例如:

那么,这里发生了什么?

可能发生的情况是,深度伪造的作者自己拍摄了视频(在最后几秒钟中可以看出),用摩根·弗里曼的合成声音对话进行了口型同步,并替换了自己的头部。

总而言之,这不仅仅是面部交换,还涉及整个画面,包括音频。

您可以在YouTube上找到大量的深度伪造视频,看到这一点后,您可能会对何种内容可信产生恐慌。而只需一台配置良好的计算机和一个高效的graphics card就可以开始制作深度伪造视频。

然而,完美很难实现,尤其是对于深度伪造技术来说。

要制作一个能够欺骗或惊叹观众的令人信服的深度伪造视频需要技巧,并且需要几天到几周的处理时间才能生成一到两分钟的视频。

有趣的是,就目前而言,这些算法的能力已经相当强大。但是,未来的发展如何,包括这些应用程序在低端硬件上的效果如何,都让许多政府感到不安。

然而,我们不会深入探讨其未来的后果。相反,让我们看看如何自己进行一些有趣的制作。

制作(基本)深度伪造视频

您可以在此链接的列表中找到许多应用程序:deepfake apps for making memes

其中之一是Faceswap,我们将使用它。

在进行以下操作之前,我们需要确保几件事情。首先,我们应该有一个质量良好的目标视频,其中展示了各种情绪。其次,我们需要一个源视频来替换目标。

此外,在使用Faceswap之前,请关闭所有与图形卡有关的应用程序,如浏览器或游戏。这一点对于拥有少于2 GB VRAM(视频内存)的用户尤其重要。

步骤1:提取面部

这个过程的第一步是从视频中提取面部。为此,我们必须选择目标视频作为输入目录,并为提取设置一个输出目录

此外,还有一些选项,包括 detector、aligner、masker等;每个选项的解释都在 Faceawap FAQs 中,再在这里重复这些信息会浪费时间。

来源:Faceswap FAQ

一般而言,建议先阅读文档以便更好地理解和获得良好的输出。然而,在 Faceswap 中,你可以通过悬停在特定选项上来找到一些有用的文本。

简单来说,并没有通用的方法,一个人应该从最好的算法开始,并逐步成功地创建一个令人信服的深度伪造。

为了背景,我使用了 Mtcnn(检测器)、Fan(对齐器)和 Bisenet-Fp(掩蔽器),同时保持其他选项不变。

最初,我使用了 S3Fd(最佳检测器)和其他几种掩蔽器的组合。然而,我的 2Gb Nvidia GeForce GTX 750Ti 无法承受这个负担,所以处理过程一再失败。

最后,我降低了期望和设置,才得以完成。

除了选择适当的检测器、掩蔽器等,还有一些在设置 > 配置设置中的选项,可以进一步调整个别设置以协助硬件。

简单来说,选择尽可能低的批量大小、输入大小和输出大小,并选中低内存等选项。这些选项并非普遍可用,而是基于特定的部分。此外,帮助文本还可以帮助选择最佳选项。

虽然这个工具在提取人脸方面做得很好,但输出帧可能比训练(稍后讨论)模型所需的要多得多。例如,它将包含所有的人脸(如果视频中有多个)和一些错误的检测,根本没有目标人脸。

这导致需要清理数据集。可以自行检查输出文件夹并删除,或者使用 Faceswap 的排序功能来获得一些帮助。

使用上述工具将不同的人脸按顺序排列,从中可以将必要的人脸放在一个文件夹中并删除其他的。

提醒一下,你还需要为源视频重复提取。

第二步:训练模型

这是创建深度伪造的最长过程。在这里,输入 A 是目标人脸,输入 B 是源人脸。此外,模型目录 是训练文件的保存位置。

这里最重要的选项是训练器。有很多个体缩放选项,但是对于我的硬件来说,Dfl-H128 和轻量级训练器以最低的配置设置效果最好。

接下来是批量大小。较大的批量大小可以减少整体训练时间,但会消耗更多的 VRAM。迭代对输出没有固定的影响,你应该设置一个足够高的值,并在预览可接受的情况下停止训练。

还有一些其他设置,包括创建定时拍摄,但是我以最低限度训练了模型。

第三步:在原始视频上交换

这是深度伪造创建的最后一个步骤。

一般而言,时间不会太长,你可以尝试许多选项来快速获得所需的输出。

如上图所示,这是一些需要选择的选项,以开始转换。

大多数选项已经讨论过了,比如输入和输出目录、模型目录等等。有一个关键的事情是Alignments,它是指目标视频的对齐文件(.fsa)。它在提取过程中在输入目录中创建。

如果没有移动特定文件,Alignments字段可以留空。否则,可以选择文件并继续其他选项。但是,请记住,如果您之前已经清理了提取内容,请清理对齐文件。

为此,这个小工具位于“工具 > 对齐”中。

首先,在“作业”部分选择“去除面孔”,选择原始对齐文件和清理后的目标面部文件夹,然后点击右下角的“对齐”。

这将创建一个修改后的对齐文件,与优化的面部文件夹匹配。请记住,我们需要这个文件用于要进行交换的目标视频。

还有一些其他配置,包括颜色调整和蒙版类型。颜色调整决定了蒙版的混合方式,您可以尝试几种选项,查看预览,并选择最佳选项。

蒙版类型更重要。这又取决于您的期望和可用的硬件。通常,您还需要考虑输入视频的特性。例如,“Vgg-Clear”适用于没有障碍物的正面面部,“Vgg-Obstructed”也可以处理带有障碍物(如手势、眼镜等)的情况。

接下来,“写入器”根据您想要的输出提供了几个选择。例如,选择“Ffmpeg”进行视频渲染。

总体来说,成功的深度伪造的关键是根据时间可用性和硬件性能进行预览和优化。

深度伪造的应用

深度伪造有好的、坏的和危险的应用。

好的方面包括通过那些当时真正在场的人重新创作历史课程,以提高参与度。

此外,它们还被在线学习平台用于从文本生成视频。

但最大的受益者将是电影业。在这里,很容易想象到实际的主演进行特技表演,即使是特技人员冒着生命危险。此外,制作多语言电影将比以往更容易。

谈到坏的方面,不幸的是,有很多。事实上,到目前为止最大的深度伪造应用,根据Deeptrace的报告,有96%(据此)。这是在色情行业中,用名人的脸替换色情演员的脸。

此外,深度伪造也被用来攻击“标准”的非名人女性。通常,这些受害者在社交媒体上有链接,这些链接被用于创建深度伪造。

另一个可怕的应用是vishing,也就是语音钓鱼。在一个这样的案例中,一家总部位于英国的公司的首席执行官根据其德国母公司的“首席执行官”的命令进行了转账,后来发现这实际上是一个深度伪造的电话。

但更加危险的是,深度伪造可能引发战争或要求投降。最近的一次尝试是乌克兰总统,他告诉他的军队和人民在正在进行的战争中投降。然而,这次真相被低劣的视频揭示了。

总之,深度伪造有很多应用,而且它刚刚开始。

这就引出了一个百万美元的问题…

深度伪造是否合法?

这主要取决于当地政府。尽管如此,明确规定什么是允许的、什么是不允许的法律仍然有待出台。

不过,显而易见的是,这取决于您使用深度伪造的目的。如果您的目的是娱乐或教育别人而不使交换的目标感到不安,那么几乎不会有任何伤害。

另一方面,无论司法管辖区如何,恶意应用都应受到法律制裁。另一个灰色地带是需要得到适当考虑的侵犯版权问题。

但要再次强调,您应该向当地政府机构咨询关于合法深度伪造应用的问题。

保持警惕!

深度伪造利用人工智能使任何人说任何话。

不要相信互联网上的任何信息是我们应该首先采取的建议。有大量的错误信息,并且它们的效力只会增加。

而且由于创建它们只会变得更加容易,现在是我们学习的时候了 how to spot deepfakes

类似文章