工具

13种用于合成数据生成的工具，用于训练机器学习模型

By姚伟斌 December 14, 2023September 13, 2023

数据对于构建机器学习模型、测试应用程序和获取商业洞察越来越重要。

然而，为了符合许多数据法规，它经常被封存和严格保护。访问此类数据可能需要几个月才能获得必要的签名。或者，企业可以使用合成数据。

什么是合成数据？

合成数据是人工生成的数据，其统计特性类似于旧数据集。它可以与真实数据一起使用，以支持和改进 AI 模型，也可以完全替代真实数据。

由于它不属于任何数据主体，并且不包含个人身份信息或敏感数据（例如社会安全号码），因此它可以作为保护隐私的替代真实生产数据的选择。

真实数据和合成数据的区别

两种类型数据生成的最重要区别在于它们是如何生成的。真实数据来自于真实主体，其数据是在调查或使用您的应用程序时收集的。另一方面，合成数据是人工生成的，但仍然类似于原始数据集。
第二个区别在于影响真实和合成数据的法规。对于真实数据，受访者应该能够知道关于他们的数据收集了什么数据以及为什么收集，对于数据的使用也有限制。然而，这些法规不再适用于合成数据，因为无法将数据归属于某个主体，并且不包含个人信息。
第三个区别在于可用数据的数量。对于真实数据，您只能获得用户提供的数据量。另一方面，您可以生成任意数量的合成数据。

为什么应考虑使用合成数据

由于您可以生成与您已有的较小数据集相似的更大数据集，所以生成合成数据的成本相对较低。这意味着您的机器学习模型将有更多的数据进行训练。
生成的数据已经自动标记和清理。这意味着您无需花费时间准备数据进行机器学习或分析的繁琐工作。
由于数据不是个人身份信息且不属于数据主体，因此不存在隐私问题。这意味着您可以自由使用和共享。
您可以通过确保少数类别得到充分代表来克服 AI 偏见。这有助于构建公正和负责任的 AI。

如何生成合成数据

虽然生成过程取决于您使用的工具，但通常，该过程始于将生成器连接到现有数据集上。然后，您可以标识数据集中的个人身份字段，并将其标记为排除或模糊。

然后，生成器开始识别剩余列的数据类型和这些列中的统计模式。从此之后，您可以生成所需的合成数据。

通常情况下，您可以将生成的数据与原始数据集进行比较，以查看合成数据与真实数据的相似程度。

现在，我们将探讨用于训练机器学习模型的合成数据生成工具。

Mostly AI

Mostly AI拥有一款 AI 动力学合成数据生成器，它从原始数据集的统计模式中学习。然后，AI 生成符合学习模式的虚构角色。

使用 Mostly AI，您可以生成具有引用完整性的整个数据库。您可以合成各种数据，帮助您构建更好的 AI 模型。

Synthesized.io

Synthesized.io被领先的公司用于其人工智能项目。要使用synthesize.io，您需要在YAML配置文件中指定数据需求。

然后，您可以创建一个作业并将其作为data pipeline的一部分运行。它还有一个非常慷慨的免费套餐，让您可以进行实验，以查看是否符合您的数据需求。

YData

通过YData，您可以生成表格、时间序列、交易、多表和关系数据。这使您可以避免与数据收集、共享和质量相关的问题。

它配备了一个AI和SDK，供您与其平台进行交互。此外，他们还有一个慷慨的免费套餐，供您使用以演示产品。

Gretel AI

Gretel AI提供了生成无限量合成数据的API。Gretel还有一个open-source data generator，您可以安装和使用。

或者，您可以使用他们的REST API或CLI，但需要付费。不过，他们的定价合理，并与业务规模成比例。

Copulas

Copulas是一个用于建模使用Copula函数的多元分布和生成具有相同统计特性的合成数据的开源Python库。

该项目始于2018年，是麻省理工学院的合成Data Vault项目的一部分。

CTGAN

CTGAN由生成器组成，能够从单表真实数据中学习并根据识别出的模式生成合成数据。

它是一个开源的Python library。CTGAN与Copulas一起是合成数据库项目的一部分。

DoppelGANger

DoppelGANger是使用生成对抗网络生成合成数据的开源实现。

DoppelGANger适用于生成时间序列数据，被Gretel AI等公司使用。这个Python库是免费的，并且是开源的。

Synth

Synth是一个开源的数据生成器，可以根据您的规格创建逼真的数据，隐藏个人身份信息，并为应用程序开发测试数据。

您可以使用Synth为机器学习需求生成实时序列和关系数据。Synth也与数据库无关，因此您可以与SQL和NoSQL数据库一起使用。

SDV.dev

SDV代表合成数据库。SDV.dev是一个软件项目，于2016年在麻省理工学院开始，并创建了不同的工具来生成合成数据。

这些工具包括Copulas、CTGAN、DeepEcho和RDT。这些工具是作为开源Python库实现的，您可以轻松使用。

Tofu

Tofu是一个基于英国生物库数据生成合成数据的开源Python库。与之前提到的工具不同，Tofu生成的数据只类似于英国生物库的数据。

英国生物库是对来自英国的50万名中年成人的表型和基因型特征进行研究的项目。

Twinify

Twinify是一个软件包，用作库或命令行工具，通过生成具有相同统计分布的合成数据来双胞胎敏感数据。

要使用Twinify，您需要将真实数据提供为CSV文件，并从数据中学习生成可用于生成合成数据的模型。它完全免费使用。

Datanamic

Datanamic可帮助您为数据驱动和机器学习应用程序生成测试数据。它根据列特征（如电子邮件、姓名和电话号码）生成数据。

Datanamic数据生成器是可定制的，并支持大多数数据库，如Oracle、MySQL、MySQL服务器、MS Access和Postgres。它支持并确保生成数据的引用完整性。

Benerator

Benerator是用于测试和培训目的的数据混淆、生成和迁移软件。使用Benerator，您可以使用XML（可扩展标记语言）来描述数据，并使用命令行工具进行生成。

它被设计成非开发人员也可以使用，并且可以生成数十亿行的数据。Benerator是免费且开源的。

最后的话

根据Gartner的估计，在将来的机器学习中，使用的合成数据将比真实数据更多。

考虑到使用真实数据的成本和隐私问题，这并不难理解。因此，企业有必要了解合成数据以及帮助它们生成合成数据的不同工具。

接下来，查看synthetic monitoring tools以获取您的在线业务。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

谷歌推出Passkeys，LinkedIn引入AI功能以获取工作，微软为初创企业推出飞马计划。

By姚伟斌 November 13, 2023September 12, 2023

你好！🙋 今天我们有以下更新！ 📣 谷歌推出了无需密码登录的passkeys 帕西奥是一款ai驱动的文档解析器，可自动提取数据 linkedin的新ai功能可能帮助你找到工作微软推出了为初创企业提供高达35万美元信用额度的pegasus计划谷歌推出了无需密码登录的passkeys 在最新的更新中，谷歌宣布推出了首款用于登录gmail和youtube账户的passkeys，无需输入密码。passkeys的引入使您能够使用指纹、面部识别、屏幕锁定或硬件安全密钥安全登录谷歌账户。谷歌表示，passkeys是一种更安全、更便捷的替代密码的选择，可以无需密码登录谷歌id绑定的账户，如gmail和youtube。它们与主要平台兼容，并允许用户无需密码登录其账户。 passkeys是一种新的登录应用和网站的方法，易于使用，相比传统密码提供了更强的安全性。用户无需依赖容易被攻击的易记密码。 passkeys使用生物识别认证，如指纹和面部识别，或屏幕锁定的pin码，授予用户访问其应用和网站的权限。与密码不同，passkeys对在线攻击（如钓鱼）更具弹性，因此比通过发送的传统一次性验证码更安全。启用谷歌passkeys的步骤: 在使用gmail时，请点击个人资料照片，然后继续管理谷歌账户，选择安全性，最后选择passkeys。该功能与android和ios兼容。如果键盘中包含指纹扫描仪或者有外部passkeys可用，也可以在windows桌面上启用它。启用passkeys后，谷歌还将在登录过程中取消2步验证（2sv）。 parsio…

工具

Terraform初学者指南 – Terraform教程

By姚伟斌 November 7, 2023August 30, 2023

想知道什么是Terraform吗？让我们来了解一下。基础设施即代码（IaC）是DevOps专业人员中广泛使用的术语。它是一种将基础设施定义为可编程代码的方法，允许通过编写代码来管理和配置基础设施资源。使用Terraform，您可以通过编写声明性的配置文件来创建、修改和版本控制基础设施。

工具

8个最佳的安全托管文件传输（MFT）工具，适用于企业

By姚伟斌 November 3, 2023September 11, 2023

快速和安全的文件传输对每个企业都至关重要。使用安全的托管文件传输（MFT）软件可以帮助您。对于任何公司来说，团队成员和其他利益相关方之间的文件传输是业务流程中不可避免的一部分。特别是如果组织处理IT，它应该确保快速和安全的文件传输以满足其不断变化的业务需求。虽然有各种文件传输和链接模式，但托管文件传输解决方案最近变得非常流行。在这里，您将了解安全的托管文件传输、其特点以及顶级托管文件传输软件应用。什么是托管文件传输？托管文件传输或MFT是一种可信赖且高效的安全文件传输方式。MFT工具在将文件或数据发送给接收者之前，使用Open PGP、AES密码或其他协议对其进行加密。它被认为优于其他文件传输方法和协议，如文件传输协议（FTP）、安全文件传输协议（SFTP）和超文本传输协议（HTTP）。MFT适用于传输受合规保护、敏感或大容量数据。因此，属于零售、制造、医疗保健、银行、电信和保险行业的公司更喜欢这种方法而不是其他技术。 MFT与其他文件共享选项的区别看看MFT与其他流行的文件传输协议有何不同： MFT与FTP：MFT解决方案提供安全的链接。专家不推荐使用FTP，因为它不会在传输过程中或休息时对文件进行加密。 MFT与FTPS：与FTPS相比，更好选择MFT，因为FTPS需要私钥和公钥验证来进行解密。 MFT与SFTP：与MFT相比，SFTP的客户端设置和密钥管理更复杂。 MFT与HTTP：与MFT不同，不推荐使用HTTP协议，因为它不提供加密功能。使用托管文件传输解决方案的好处可见性…

工具

区块链在医疗保健领域的九个应用

By姚伟斌 November 16, 2023September 11, 2023

区块链是一种创新的共享和数据存储解决方案，但如何在医疗领域中利用它呢？请查看有关医疗领域中的详细应用。

工具

如何在云负载均衡器上实施Google托管证书？

By姚伟斌 November 29, 2023August 30, 2023

让Google Cloud为您的网站管理SSL/TLS证书。近期，Google宣布推出了一种托管证书，您可以在Google Cloud上进行配置。

工具

数据复制：5分钟以内解释

By姚伟斌 November 8, 2023September 13, 2023

数据是任何业务的命脉。它是成功的关键，对于收集情报、做出决策和改善运营至关重要。一个业务依赖于其数据和应用程序来运营。every day但是当其中一个数据库或系统出现故障时会发生什么？所有重要的业务信息和数据可能会面临风险。幸运的是，有办法防止这种情况发生。保护业务数据最有效的方法之一是数据库复制。这是每个小、中、大型企业都必须适应以在竞争中生存的事情。在本文中，我将讨论数据复制是什么，它是如何工作的，以及其他重要的方面。所以，让我们开始吧！什么是数据库复制？将数据从源数据库传输到一个或多个目标数据库被称为数据库复制。它通常涉及将数据从一个数据库复制或流式传输到另一个数据库，以便所有用户都可以访问同步的数据，无论他们使用哪个系统来查看它。如果数据发生变化，数据复制工具将确保这些变化也在目标数据库中实施。因此，创建了一个分布式 data storage 网络，使每个人都可以快速访问重要和相关的数据。使用数据复制解决方案，您可能会注意到每个节点之间数据一致性的改进，减少数据冗余，更大的数据可靠性，以及最终性能的提高。数据库复制可以实时发生，就像数据在源数据库上创建、编辑和销毁一样，也可以作为批处理操作的一部分发生。数据复制是如何工作的？…