工具

数据血统是什么？示例、技术和用例

By姚伟斌 November 27, 2023September 12, 2023

数据血统提供了一条路径，展示了数据在过程中的变化和转换。

多年来，数据血统一直是一个重要的概念。然而，随着大数据、云计算的增长以及数据管道的复杂性增加，近年来它变得越来越重要。

数据血统的概念可以追溯到数据仓库和ETL(抽取、转换、加载)流程的早期。随着数据仓库变得越来越大和复杂，了解数据的变化和来源变得更加关键。

这导致了数据血统工具的开发，这些工具可以跟踪数据在管道中的流动并提供数据流动的可视化表示。让我们探讨一下数据血统的内容以及它为什么重要。

什么是数据血统？

数据血统是跟踪数据在其生命周期中的起源和移动的过程。它包括数据的来源、流向以及沿途的任何变化。

数据血统是数据管理的一个关键方面，对各种原因都很重要。

了解数据的历史，包括它如何随着时间的推移而转变和使用。
保持数据质量，并确保符合监管要求。
能够分析数据和流程的变化的影响。
帮助审计和治理，根据数据做出明智的业务级决策。
提高数据管理流程的整体效率和效果。

数据血统是如何工作的？

数据血统通常包括关于数据起源、用于转换和移动数据的系统和流程以及数据的最终目的地的信息。

这些信息通常以图形方式表示，每个节点代表一个系统或流程，每个边代表节点之间的数据流。

元数据是数据血统的关键组成部分，因为它提供了有关数据资产及其在数据管道中的流动方式的信息。

数据血统工具使用元数据创建数据流的可视化表示，使用户能够看到数据如何在整个组织中转换和使用。这有助于用户确定数据的有用性，从而做出更明智的决策。

数据血统的实施

在组织中实施数据血统通常涉及以下步骤。

#1. 定义数据来源

识别包含要跟踪的数据的所有系统和数据库。这包括识别各种数据源，如文件、API和云服务。

#2. 收集元数据

下一步是收集有关数据的信息，如其结构、格式和位置。这些元数据用于了解数据的特性和使用方式。

#3. 确定数据流

绘制数据从源头到目的地的流动，包括沿途发生的任何转换或处理，这样更容易理解数据在整个组织中的变化和应用。

#4. 跟踪数据访问

监控和记录谁访问数据，以确保数据安全和合规性。

#5. 存储和可视化血统

将收集到的元数据和数据流信息存储在中央存储库中，并使用可视化工具显示血统，以便进行简单的理解和分析。

#6. 实施自动化解决方案

自动化将帮助您确保捕获和跟踪数据血统，并减少错误，提高效率。

#7. 审查和更新

定期检查谱系信息以确保准确性和最新性，并根据需要进行更新。

需要注意的是，每个组织可能有特定的要求和限制，需要在实施过程中进行额外的步骤或修改。

数据谱系用例

数据建模

组织可以使用数据谱系生成多个数据项及其连接的可视化表示。数据组件之间的链接可以进行建模，以显示数据生态系统中存在的依赖关系。

这使得分析师和数据科学家更容易理解统计模型并进行深入和及时的分析。这里有一篇详细的文章：data modeling。

合规性

在审核、增强风险管理和确保数据按照数据治理准则进行处理和维护的过程中，会利用数据谱系。

影响分析

通过数据谱系，可以更简单地进行详细的影响评估。通过使用谱系图，您可以快速确定任何特定修改的上游和下游效果。您可以更深入地观察表格或业务报告的影响。

数据问题的根本原因分析

通过跟踪数据在系统中的流动情况，可以使用数据谱系快速确定数据问题的来源。

这在复杂的数据环境中特别有用，其中数据从多个系统收集并在到达最终目的地之前通过多个过程。

它还可以跟踪数据随时间的变化，并检测可能指示问题的模式或异常。这可以帮助组织防止未来再次发生数据问题。

数据谱系技术

以下是对重要数据集执行数据谱系的几种常用技术。

#1. 基于模式的谱系

在不管理用于生成或更改数据的代码的情况下，该技术通过识别数据中的模式并将其应用于推断其起源和历史。

它建立在使用模式识别分析表格和业务报告的元数据的基础上。该方法可以在任何数据库技术上使用。但它并不总是准确的。如果逻辑隐藏在编程代码中并且在人类可读的元数据中不明显，则可能会错过数据集之间的连接。

另一个局限性是，如果数据规模较大且元数据复杂，则可能需要大量的计算资源。

需要注意的是，可以将此技术与其他谱系技术结合使用，以提供完整的数据谱系视图。

#2. 标记信息谱系

该方法假定数据已经通过转换引擎进行了标记或标记。然后，它从过程的开始到结束跟踪标记以发现谱系。

只有在具有一致的转换工具控制所有数据移动并了解工具使用的标记结构的情况下，该方法才有效。

它涉及向数据添加标签或标记，然后可以使用这些标签来跟踪数据在不同系统和过程中的谱系。

这些标签可以包含源系统的名称、提取数据的日期和时间、数据的格式以及对数据执行的任何转换或操作等信息。

#3. 解析谱系

此技术涉及自动读取数据处理逻辑。它通过逆向工程转换逻辑来执行完整的端到端跟踪，这对于识别数据依赖关系以及检测问题非常有用。

然而，这种技术的部署复杂，因为它需要理解用于ETL逻辑、基于XML的解决方案等的所有编程语言和工具。

此外，此技术要求对数据如何在组织系统中流动有很好的了解，并依赖于日志的可用性和分析能力。它还需要一个具备数据管理、编程和数据分析知识的团队才能发挥作用。

#4. 自我包含的血统

独立血统是指系统或信息框架追踪其组件和依赖关系的能力，而无需外部记录或信息。

这是一个自我包含的过程，其中信息以集中化的方式存储、处理和管理，以便对元数据进行全面控制。

该方法的缺点是，它只考虑受控环境中存在的数据，忽略可能对数据产生影响的任何外部影响或操作。

学习资源

以下是一些关于数据血统的外部资源。

#1. 从业务角度看数据血统

本书提供了一个清晰的数据血统元模型，并演示了实施最佳实践，涵盖了数据治理、数据质量和合规性等关键领域。

预览	产品	评分	价格
	Data Lineage from a Business Perspective		$54.78	Buy on Amazon

总的来说，这是对业务专业人士来说是一个有价值的资源，他们希望了解数据血统的重要性以及如何在组织中实施它。

#2. 指导性数据血统完全指南-2020版

本书深入介绍了数据血统的主题，并为组织实施它提供了全面的指南。

预览	产品	评分	价格
	Prescriptive Data Lineage A Complete Guide – 2020 Edition	尚无评分	$76.99	Buy on Amazon

这本书的内容组织得很好，包含了真实世界的例子，以强调重要原则。

#3. 数据血统：完全指南 – 2025年版

本书旨在帮助技术和业务专业人士更深入地了解数据血统以及如何在其组织中有效使用它。

预览	产品	评分	价格
	Data Lineage A Complete Guide – 2021 Edition	尚无评分	$89.76	Buy on Amazon

它提供了关于这个主题的最新信息和见解，包括反映该领域最新发展的新信息和链接。

总结

数据血统是确保数据可靠性的关键工具，特别适用于依赖准确数据做出重要决策的行业。如果没有适当的技术和流程，跟踪数据可能会很困难且资源密集。

它使组织能够从两个端点跟踪数据流，确保数据一致性和准确性，最终提高决策质量。

希望您在了解数据血统和技术方面找到了有用的信息。您可能还对了解最佳工具感兴趣。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

13个最佳的无代码平台，用于构建令人惊叹的产品

By姚伟斌 November 21, 2023September 12, 2023

无代码工具已经彻底改变了构建应用程序的过程，使其比以往更容易。现在，即使不花费大量金钱，等待数天或数月，或雇佣多个开发人员，也有可能创建更复杂的应用程序，这都得益于这些技术。而且，无论是个人用途还是商业用途，您都已经知道应用程序在我们现今生活中的重要性。除此之外，您不一定需要成为编码专家才能构建令人惊叹的应用程序。现代低代码或无代码平台确保您写入尽可能少的代码，并仍然生成能够表达创新并推动您业务发展的应用程序。除了构建应用程序外，无代码平台还提供了简单的工作流自动化、帮助增强业务流程以及提供其他功能，以促进您的运营并帮助您成长。但是，低代码或无代码平台到底是什么？让我们在接下来的部分中更深入地探讨这个问题，以及它如何帮助您的业务。然后，我们将讨论适合您的最佳低代码或无代码平台。低代码或无代码平台是什么意思？低代码开发平台低代码开发平台指的是一种应用程序开发平台，允许您以很少或无编码技能创建业务和移动应用程序。它们使用图形化用户界面、最小逻辑和拖放功能，而不是编写大量代码。无代码开发平台无代码开发平台允许您在不编写任何代码的情况下创建应用程序。这意味着任何没有编码技能的人都可以轻松构建应用程序。无代码平台与低代码平台密切相关，因为它们都旨在加快应用程序开发。无代码平台使用图形用户界面和配置，而不是传统的编程语言。由于低代码和无代码平台提供了一种简单快速的替代传统开发过程的方法，因此两者都越来越受欢迎。这就是为什么没有正式编码技能的创始人和专业开发人员都在使用这些平台来满足他们开发应用程序、自动化流程和推动数字转型的业务需求。一份《forrester报告》称，低代码平台市场预计在未来5年内将达到210亿美元以上。…

工具

VPN混淆在5分钟或更短时间内解释

By姚伟斌 November 21, 2023September 11, 2023

当购买VPN时，要求具备的一个必备功能是服务器混淆。让我们快速了解一下，看看它的缺失对您意味着什么。 VPN已经不再是一个小众产品。人们出于隐私、解锁地理限制、安全、娱乐等多种原因而个人和企业部署它们。然而，并非所有的VPN都像它们所宣传的那样友好于隐私，一些免费的VPN对用户匿名性来说是个彻底的灾难。虽然大多数VPN共享类似的规格表，但服务器混淆使其中一些胜出于其余。 VPN服务器混淆还记得为什么我们使用VPN吗？为了隐藏-免受政府、ISP、网络犯罪分子等的监视。VPN用户希望在没有任何窥探尝试的情况下保持独立。 VPN“试图”通过它们的加密来确保这样的隐私措施。然而，使用一些 VPN protocols 加密数据会泄露一些与常规互联网流量不同的模式。因此，它透露了VPN使用情况，破坏了用户匿名的意图。当暴露时，这些用户可能面临不必要的审查、降低的速度、封锁，甚至是法律纠纷，如果他们所在的国家将VPN使用列入黑名单。然而，如果您拥有服务器混淆，仍然有希望。它是如何工作的？将VPN混淆视为隐藏实际VPN加密的一层加密。它将互联网流量随机化，使其看起来像“标准流量”，以帮助其通过VPN防火墙。就是这样。…

工具

如何在任何设备上获取Android隐私仪表板如何在任何设备上获取Android隐私仪表板

By姚伟斌 November 11, 2023August 31, 2023

这是一份逐步指南，教您如何在任何Android设备上获得和使用Android 12的隐私仪表盘功能。

工具

人力资源发展（HRD）与人力资源管理（HRM）：解释差异

By姚伟斌 November 4, 2023September 12, 2023

人力资源发展（hrd）和人力资源管理（hrm）是一个组织的两个重要支柱，共同努力实现成功的人力资源运营。候选人之间的竞争越来越激烈，因此招聘熟练的候选人变得更加困难。因此，聪明地雇佣人员并在各个方面照顾他们是必要的，从入职和付款到为他们提供一个更安全的环境以发展。为此，组织实施了两个方案 – 人力资源发展和人力资源管理。这两个方案都涉及各种策略来管理劳动力。它们共同调整人力资源管理实践以实现公司的目标。此外，它们帮助劳动力发展他们的技能，努力工作，全力以赴为公司做出贡献，并因此获得回报。虽然它们看起来可能相似，但人力资源发展和人力资源管理在组织中具有不同的功能集。在本文中，我将讨论人力资源发展和人力资源管理，它们的功能和差异。我们开始吧！什么是hrd？人力资源发展（hrd）是人力资源管理（hrm）的一个子集，旨在发展组织的劳动力。它旨在提高公司员工的技能、知识、态度、能力和行为。此外，hrd活动旨在增强和加强员工的能力，以在组织中建立更好的绩效指标。它为员工的全面发展提供有益机会。主要活动包括：职业发展人才管理教练和指导…

工具

9个适用于Linux的最佳绘画软件，能够像专业人士一样创建艺术

By姚伟斌 November 27, 2023September 11, 2023

如果你有创造力，并且想通过创建数字绘画或绘画向世界展示你的技能，你可能已经知道绘图的重要性。微软绘图，或者简称为“绘图”，是一款免费、简单且流行的光栅图形编辑器，预装在所有版本的Windows上。使用这个应用程序，你可以轻松地编辑图像，并使用方便的工具创建令人惊叹的绘画。然而，如果你是Linux用户，有个坏消息。绘图在运行在平台上的个人电脑上不可用。不过别担心。有很多绘图工具可以有效地作为绘图的替代品。好消息是它们都在Linux生态系统中运行得很顺畅。这款绘图软件具有各种独特的功能，使数字绘画/绘画过程变得轻松无忧，成果丰硕。身处Linux的你不应该停止探索创造力和创造杰作。在本文中，我们使用和策划了一些最佳的Linux绘图软件，以像专业人士一样创作艺术。为什么Linux这么受欢迎？ Linux在近年来越来越受欢迎，以下是一些原因： #1. 价格 Linux是免费且开源的。因此用户无需支付任何费用即可使用操作系统，而不必担心后台运行的原生数据收集软件。 #2. 可靠性 Linux目前拥有一个庞大且专注的社区。这些熟练、热情的个人花费了数小时来检测和修复错误。这样的不断改进是更多人信任Linux的关键。 #3. 安全性毫无疑问，Linux比Windows更安全。因此，现在的人们正在寻找更安全的操作系统，并更倾向于Linux。由于用户规模较小，Linux很少遭受复杂的恶意软件或攻击。绘图软件对Linux的重要性是什么？…

工具

Trello vs. monday.com：比较最佳项目管理工具 [2023]

By姚伟斌 November 14, 2023September 12, 2023

工作动态正在迅速变化，为了保持与时俱进，项目管理（pm）已成为我们这个时代增长最快的行业。有越来越多的pm软件使得员工团队能够轻松实时地协作，保持组织和高效。很明显，最大化生产力、管理员工和自由职业者，以及发展您的业务在很大程度上取决于您选择的项目管理工具。 trello和monday.com一直是项目管理领域的领军者，但大多数潜在用户需要帮助在两者之间做出选择。虽然这两个工具在一瞥之下提供了类似的好处，但在面板、集成、时间跟踪功能、浏览器扩展和移动应用方面有一些细微的差别。我们不想让您在黑暗中摸索，随意选择trello vs. monday.com，我们想帮助您分解它们的主要特点，以便您可以做出明智的决策。 trello vs. monday.com：概述项目管理软件在独立创业者和为大型公司管理多个项目的人的生活中起着至关重要的作用。通过pm软件，按时完成任务、委派任务或与团队成员沟通等问题都变得轻而易举。 trello和monday.com都是强大的选择，但哪个最适合您取决于您的需求。然而，由于功能上存在一定的重叠，我们将简要比较两者，并提到它们的一些优点和缺点。最重要的是，我们的评论将突出每个工具的亮点和不足之处，涵盖易用性、客户支持、报告和与其他软件的集成等方面。 trello是什么？ trello是一种在线协作工具，具有卡片和面板，允许用户分享他们对分配角色和项目的看法。该平台由面板、列表和卡片组成，团队可以使用这些组件创建无限的协作面板。用户可以在可移动的卡片上写下自己的任务，以反映进度。用户可以对拖放的卡片进行过滤、标记或着色，以获得更显著的视觉效果。该软件允许用户在卡片上写下评论，当他们有反馈、问题或不同的想法时。最重要的是，用户可以在应用程序中提及他们正在通知的特定成员，通过手机、电子邮件或桌面通知。 trello在2025年改进了其功能，新增了一套新功能，其中最引人注目的是额外的项目查看方式。最突出的新增功能有时间轴视图、日历视图和工作区表格，您可以从中查看任务和多个面板。然而，所有这些新功能只适用于trello的付费计划用户。…