工具

什么是Deepfakes以及如何创建它们？

By姚伟斌 December 17, 2023September 13, 2023

通过Faceswap轻松了解Deepfakes并制作它们的终极解释器。

Artificial Intelligence不再那么“人工”了。这些时代把它带得离我们人类非常近。

它可以建议、写作、创作艺术，现在甚至外貌和言谈都和真人一样。

这是这个领域最新的发展之一，我们应该好好利用它。然而，这也是我们必须警惕的。

什么是Deepfakes？

Deepfake一词是由深度和假冒组合而成的。简单来说，你也可以认为这是经过专业处理或深度伪造的媒体。

根据维基百科的定义，这也被称为合成媒体，指的是对现有图像、音频或视频进行修改，以完全表示其他人。

通常，Deepfakes会使知名人物看起来说出他们本来不会说的话。

根据其创建者的技能，很难判断它是真实还是伪造。

Deepfakes如何工作？

简单地说，原始视频的一部分（比如脸部）被类似的伪造物替换。在这种情况下，它也可以被称为面部交换，就像这个链接中所示。

然而，它不仅限于视频，我们也有Deepfakes的图像和音频（谁知道，在不久的将来可能会有Deepfake虚拟现实头像）。

这种欺骗的工作方法主要取决于应用程序和基础算法。

根据这个链接，有各种技术，包括编码器-解码器、生成对抗网络（GANs）、基于几何的Deepfakes等等。

然而，以下各节主要受到它如何与Faceswap工作的影响。这是一个免费开源的Deepfake软件，可以使用多种算法来获得预期的结果。

生成Deepfakes需要三个主要过程：提取、训练和转换。

#1. 提取

这涉及从媒体样本中检测和挤压出感兴趣的主题区域，即原始样本和用于交换的样本。

根据硬件能力，可以选择许多算法来进行高效的检测。

例如，Faceswap有几种不同的提取、对齐和遮罩选项，根据CPU或GPU的效率选择。

提取只是识别整个视频中的脸部。对齐确定任何脸部的关键特征（眼睛、鼻子、下巴等）。最后，遮罩将图像的其他元素屏蔽掉，只留下感兴趣的区域。

选择任何选项时，输出所需的总时间很重要，因为在中等硬件上选择资源密集型的算法可能导致失败或需要相当长的时间来生成可接受的结果。

除了硬件之外，选择还取决于一些参数，比如输入视频是否受到手部动作或眼镜等面部障碍的影响。

最后一个必要的步骤是清理（稍后解释）输出，因为提取的结果可能会有一些误报。

最终，提取过程在原始视频和伪造视频（用于交换）上重复进行。

#2. 训练

这是创建Deepfakes的核心。

训练涉及编码器和解码器的设计。在这里，算法被提取的数据输入以创建一个以后用于转换的模型。

编码器将输入转换为向量表示，以便训练算法从向量中重新创建面部，就像解码器所做的那样。

之后，神经网络通过分配损失分数来评估其迭代结果并与原始结果进行比较。随着算法的持续迭代，损失值会随时间下降，直到达到可接受的预览结果。

训练是一种耗时的过程，输出结果通常会根据所执行的迭代次数和输入数据的质量而逐渐改善。

例如，Faceawap建议使用至少500张不同的原始图像和交换图像。此外，这些图像应该在角度上有显著差异，在独特的光照条件下涵盖所有可能的角度，以获得最佳的复制效果。

由于训练时间较长，一些应用程序（如Faceswap）允许用户在训练过程中停止或稍后继续。

值得注意的是，输出结果的照片逼真度还取决于算法的效率和输入。同时，硬件能力也对输出结果产生限制。

#3. 转换

这是深度伪造创建过程的最后一步。转换算法需要源视频、训练模型和源对齐文件。

随后，可以更改与颜色校正、遮罩类型、期望的输出格式等相关的几个选项。

在配置这些选项后，只需等待最终渲染。

如前所述，Faceswap可以使用多种算法，用户可以在其中选择以获得可接受的面部交换效果。

就这么简单吗？

不是！

这只是面部交换，是深度伪造技术的一个子集。正如字面意义上的意思，面部交换只是替换脸部的一部分，以对深度伪造技术的能力提供一个初步的了解。

要进行可信的交换，您可能还需要模仿音频（更为人们熟知的是语音克隆）和整个身体，包括画面中的所有内容，例如：

那么，这里发生了什么？

可能发生的情况是，深度伪造的作者自己拍摄了视频（在最后几秒钟中可以看出），用摩根·弗里曼的合成声音对话进行了口型同步，并替换了自己的头部。

总而言之，这不仅仅是面部交换，还涉及整个画面，包括音频。

您可以在YouTube上找到大量的深度伪造视频，看到这一点后，您可能会对何种内容可信产生恐慌。而只需一台配置良好的计算机和一个高效的graphics card就可以开始制作深度伪造视频。

然而，完美很难实现，尤其是对于深度伪造技术来说。

要制作一个能够欺骗或惊叹观众的令人信服的深度伪造视频需要技巧，并且需要几天到几周的处理时间才能生成一到两分钟的视频。

有趣的是，就目前而言，这些算法的能力已经相当强大。但是，未来的发展如何，包括这些应用程序在低端硬件上的效果如何，都让许多政府感到不安。

然而，我们不会深入探讨其未来的后果。相反，让我们看看如何自己进行一些有趣的制作。

制作（基本）深度伪造视频

您可以在此链接的列表中找到许多应用程序：deepfake apps for making memes

其中之一是Faceswap，我们将使用它。

在进行以下操作之前，我们需要确保几件事情。首先，我们应该有一个质量良好的目标视频，其中展示了各种情绪。其次，我们需要一个源视频来替换目标。

此外，在使用Faceswap之前，请关闭所有与图形卡有关的应用程序，如浏览器或游戏。这一点对于拥有少于2 GB VRAM（视频内存）的用户尤其重要。

步骤1：提取面部

这个过程的第一步是从视频中提取面部。为此，我们必须选择目标视频作为输入目录，并为提取设置一个输出目录。

此外，还有一些选项，包括 detector、aligner、masker等；每个选项的解释都在 Faceawap FAQs 中，再在这里重复这些信息会浪费时间。

一般而言，建议先阅读文档以便更好地理解和获得良好的输出。然而，在 Faceswap 中，你可以通过悬停在特定选项上来找到一些有用的文本。

简单来说，并没有通用的方法，一个人应该从最好的算法开始，并逐步成功地创建一个令人信服的深度伪造。

为了背景，我使用了 Mtcnn（检测器）、Fan（对齐器）和 Bisenet-Fp（掩蔽器），同时保持其他选项不变。

最初，我使用了 S3Fd（最佳检测器）和其他几种掩蔽器的组合。然而，我的 2Gb Nvidia GeForce GTX 750Ti 无法承受这个负担，所以处理过程一再失败。

最后，我降低了期望和设置，才得以完成。

除了选择适当的检测器、掩蔽器等，还有一些在设置 > 配置设置中的选项，可以进一步调整个别设置以协助硬件。

简单来说，选择尽可能低的批量大小、输入大小和输出大小，并选中低内存等选项。这些选项并非普遍可用，而是基于特定的部分。此外，帮助文本还可以帮助选择最佳选项。

虽然这个工具在提取人脸方面做得很好，但输出帧可能比训练（稍后讨论）模型所需的要多得多。例如，它将包含所有的人脸（如果视频中有多个）和一些错误的检测，根本没有目标人脸。

这导致需要清理数据集。可以自行检查输出文件夹并删除，或者使用 Faceswap 的排序功能来获得一些帮助。

使用上述工具将不同的人脸按顺序排列，从中可以将必要的人脸放在一个文件夹中并删除其他的。

提醒一下，你还需要为源视频重复提取。

第二步：训练模型

这是创建深度伪造的最长过程。在这里，输入 A 是目标人脸，输入 B 是源人脸。此外，模型目录 是训练文件的保存位置。

这里最重要的选项是训练器。有很多个体缩放选项，但是对于我的硬件来说，Dfl-H128 和轻量级训练器以最低的配置设置效果最好。

接下来是批量大小。较大的批量大小可以减少整体训练时间，但会消耗更多的 VRAM。迭代对输出没有固定的影响，你应该设置一个足够高的值，并在预览可接受的情况下停止训练。

还有一些其他设置，包括创建定时拍摄，但是我以最低限度训练了模型。

第三步：在原始视频上交换

这是深度伪造创建的最后一个步骤。

一般而言，时间不会太长，你可以尝试许多选项来快速获得所需的输出。

如上图所示，这是一些需要选择的选项，以开始转换。

大多数选项已经讨论过了，比如输入和输出目录、模型目录等等。有一个关键的事情是Alignments，它是指目标视频的对齐文件（.fsa）。它在提取过程中在输入目录中创建。

如果没有移动特定文件，Alignments字段可以留空。否则，可以选择文件并继续其他选项。但是，请记住，如果您之前已经清理了提取内容，请清理对齐文件。

为此，这个小工具位于“工具 > 对齐”中。

首先，在“作业”部分选择“去除面孔”，选择原始对齐文件和清理后的目标面部文件夹，然后点击右下角的“对齐”。

这将创建一个修改后的对齐文件，与优化的面部文件夹匹配。请记住，我们需要这个文件用于要进行交换的目标视频。

还有一些其他配置，包括颜色调整和蒙版类型。颜色调整决定了蒙版的混合方式，您可以尝试几种选项，查看预览，并选择最佳选项。

蒙版类型更重要。这又取决于您的期望和可用的硬件。通常，您还需要考虑输入视频的特性。例如，“Vgg-Clear”适用于没有障碍物的正面面部，“Vgg-Obstructed”也可以处理带有障碍物（如手势、眼镜等）的情况。

接下来，“写入器”根据您想要的输出提供了几个选择。例如，选择“Ffmpeg”进行视频渲染。

总体来说，成功的深度伪造的关键是根据时间可用性和硬件性能进行预览和优化。

深度伪造的应用

深度伪造有好的、坏的和危险的应用。

好的方面包括通过那些当时真正在场的人重新创作历史课程，以提高参与度。

此外，它们还被在线学习平台用于从文本生成视频。

但最大的受益者将是电影业。在这里，很容易想象到实际的主演进行特技表演，即使是特技人员冒着生命危险。此外，制作多语言电影将比以往更容易。

谈到坏的方面，不幸的是，有很多。事实上，到目前为止最大的深度伪造应用，根据Deeptrace的报告，有96%（据此）。这是在色情行业中，用名人的脸替换色情演员的脸。

此外，深度伪造也被用来攻击“标准”的非名人女性。通常，这些受害者在社交媒体上有链接，这些链接被用于创建深度伪造。

另一个可怕的应用是vishing，也就是语音钓鱼。在一个这样的案例中，一家总部位于英国的公司的首席执行官根据其德国母公司的“首席执行官”的命令进行了转账，后来发现这实际上是一个深度伪造的电话。

但更加危险的是，深度伪造可能引发战争或要求投降。最近的一次尝试是乌克兰总统，他告诉他的军队和人民在正在进行的战争中投降。然而，这次真相被低劣的视频揭示了。

总之，深度伪造有很多应用，而且它刚刚开始。

这就引出了一个百万美元的问题…

深度伪造是否合法？

这主要取决于当地政府。尽管如此，明确规定什么是允许的、什么是不允许的法律仍然有待出台。

不过，显而易见的是，这取决于您使用深度伪造的目的。如果您的目的是娱乐或教育别人而不使交换的目标感到不安，那么几乎不会有任何伤害。

另一方面，无论司法管辖区如何，恶意应用都应受到法律制裁。另一个灰色地带是需要得到适当考虑的侵犯版权问题。

但要再次强调，您应该向当地政府机构咨询关于合法深度伪造应用的问题。

保持警惕！

深度伪造利用人工智能使任何人说任何话。

不要相信互联网上的任何信息是我们应该首先采取的建议。有大量的错误信息，并且它们的效力只会增加。

而且由于创建它们只会变得更加容易，现在是我们学习的时候了 how to spot deepfakes。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

关于数字营销的一切

By姚伟斌 November 4, 2023September 11, 2023

数字营销也被称为在线营销。企业使用这种方法通过不同的在线渠道如网站、搜索引擎、社交媒体、电子邮件和短信来推广他们的产品和服务。毫不夸张地说，这是数字营销时代。全球有超过4.9 billion active internet users个，数字营销为您提供了通过数字设备个别接触观众的机会。在今天的营销环境中，数字营销由于以下原因变得极其重要：几乎整个世界都变得数字化人们花费大量时间上网冲浪这些策略可以轻松规划和应用您可以针对正确的目标受众群体您可以衡量数字营销的表现它帮助您以最低成本触达全球受众现在，我们来探讨数字营销的类型。搜索引擎优化搜索引擎优化（SEO）是最重要的数字营销类型。它意味着优化您的网页或网站内容以便搜索引擎方便地找到它们，从而让客户能够轻松找到它们。没有SEO，任何数字营销策略都是不完整的。…

工具

Python在网络安全中的简要指南

By姚伟斌 November 14, 2023September 11, 2023

我们比前一天更依赖互联网，成为网络攻击的受害者的风险也在增加。随着网络攻击和其他安全威胁的不断增加，网络安全变得非常重要。 Cybersecurity指的是保护数字技术免受恶意软件、间谍软件、ransomware和其他对云、网络、设备等平台的攻击。近年来，Python编程语言成为网络安全专业人员的关注焦点。作为网络安全专业人员负责开发、架构和定制，中级水平的Python知识对他们非常有益。接下来了解一下对网络安全有用的Python特性以及在网络安全中学习使用Python的地方。 Python的特点网络安全专家喜欢Python的以下特点：学习和实施都很容易与其他编程语言相比，Python需要更少的代码行来完成相同的任务。此外，人们之所以喜欢在网络安全中使用Python，是因为它首先是一种简单、轻量和直观的编程语言。 Python编程语言的这些结构特性减少了新程序员的学习曲线。轻松调试 Python的简单结构、较少的代码行以及更好的代码可读性使得调试代码变得轻而易举。即使是新手编程人员也可以进行自我调试。此外，与其替代品相比，调试Python代码所需的时间更少。 Python的许可是开源的由于这是一种开源编程语言，越来越多的软件、应用和数字解决方案开发人员依赖于这种语言，而不是其竞争对手。此外，开发成本始终低于您需要付费的编程语言。内存管理 Python编程环境配有内置的内存管理器。因此，用户或程序员无需担心内存分配、缓存、分段等问题。适合网络安全专业人员网络安全专业人员通常具有有限的编程知识。如果他们在网络安全中必须实施除Python之外的任何编程语言，专业人员必须经历一个复杂的学习曲线。…

工具

什么是AWS CLI以及如何在Windows、macOS、Docker和Linux上安装？

By姚伟斌 November 28, 2023August 31, 2023

AWS命令行界面（CLI）是一组开源工具，可以使用命令来管理和自动化AWS服务。AWS CLI支持，和HTML标签。

工具

如何在Python中使用Lambda函数 [附带示例]

By姚伟斌 November 6, 2023September 12, 2023

在本教程中，您将学习有关Python中的lambda函数的所有内容-从定义lambda函数的语法到使用示例代码的不同用途。在Python中，lambda是具有简洁语法并且可以与其他有用的内置函数一起使用的匿名函数。在本教程结束时，您将学习如何定义lambda函数以及何时应该考虑在常规Python函数上使用它们。让我们开始吧！ Python Lambda函数：语法和示例以下是在Python中定义lambda函数的一般语法： lambda 参数(s): 返回值在上述一般语法中： lambda是您应使用的关键字，用于定义lambda函数，后跟函数应采用的一个或多个参数。冒号分离参数和返回值。 💡在定义lambda函数时，应确保返回值通过计算跨越单行代码的表达式来计算。通过编码示例，您将更好地理解这一点。 Python Lambda函数示例理解lambda函数的最佳方法是将常规Python函数重写为lambda函数。…

工具

如何使用或不使用VPN更改Netflix地区

By姚伟斌 December 8, 2023September 13, 2023

想象一下，您支付了Netflix的订阅费，但由于该剧集在您的国家不可用，因此无法观看您想看的电视节目。这可能令人心碎和非常恼人。如果您是Netflix的粉丝（就像我们大多数人一样），并且想要访问他们的全部内容库，有一个快速的解决方法。默认情况下，Netflix根据您的位置显示内容。这意味着许多令人惊叹的地理限制的内容对您不可见。这是因为Netflix与不同的制作公司有协议，它只有在您所在地区允许播放的内容的权限。然而，好消息是解决这个问题并不是非常困难。一旦解决了这个问题，您就可以解锁来自任何国家的内容。如果听起来有趣，请在本文中了解如何解决。更改Netflix地区的好处我可以列举出在更改Netflix地区时所获得的无数好处，但以下是我最喜欢的几个： #1. 更多种类的内容 📺 如果您听说过某个在您所在国家不可用的节目的好评如潮，您可以轻松地在更改地区到该特定地理位置时观看它。例如，像《恶搞之家》和《Pretty Little Liars》这样的电视剧是地理限制的；只有在允许的地区才能访问。当您更改Netflix的地区时，您就可以打开各种各样的内容，适用于任何国家。您可以轻松切换到英国地区以访问仅限英国的电视节目，或切换到韩国地区以获取所有您想观看的精彩韩剧。此外，更改您的地区允许您访问其他地区首次发布的内容。例如，某些电影首先在印度发布，然后才会在其他国家发布，因此通过将您的地区更改为印度，您可以即时访问。…

工具

2025年高效标注的十大最佳图像标注工具

By姚伟斌 November 14, 2023September 11, 2023

图像标注是训练机器学习模型的高效标签化基础，通过使用这些最佳图像标注工具，可以使您的处理过程更加有效。什么是图像标注？ machine learning model手动标注完成后，该过程会处理已标注的图像，以在没有人工监督的情况下重新生成标注。图像标注还会复制任何标签错误，因为图像标注建立了模型努力遵循的标准。使用描述性数据标注或分类图像，以帮助识别和分类图像中的对象、人物或场景，就是图像标注。图像标注在计算机视觉、robotics和自动驾驶等领域至关重要，因为它使机器能够理解和解释视觉数据。绘制图像中物体的边界框、使用文本标注对象，或根据其视觉特征将图像分成各个部分，都是图像标注的示例。使用图像标注的好处许多行业，包括电子商务、医疗保健和自动驾驶，都可以从图像标注中受益。它使机器能够正确识别和分类图像中的对象，增强了它们进行物体检测、image search和诊断等活动的能力。这可能会增加生产力、效率和节省成本。标注的照片还可以训练和改进机器学习模型，提高其准确性和效果。图像标注使机器能够理解和解释视觉数据，推进了计算机视觉科学的发展。图像标注的用例在技术领域发生了许多进展，图像标注变得非常有用。在一切都围绕数据的情况下，正确标注数据对于模型更好地理解它至关重要。现在，让我们来看一些图像标注的用例。目标检测…

什么是Deepfakes？

Deepfakes如何工作？

#1. 提取

#2. 训练

#3. 转换

就这么简单吗？

制作（基本）深度伪造视频

步骤1：提取面部

第二步：训练模型

第三步：在原始视频上交换

深度伪造的应用

深度伪造是否合法？

保持警惕！

Related

Similar Posts