如何将数据保险库打造成数据仓库的未来[+5个学习资源]

随着公司产生越来越多的数据,传统的数据仓库方法变得越来越难以维护,成本也越来越高。数据沙盒(Data Vault)是一种相对较新的数据仓库方法,通过提供可扩展、灵活和经济高效的方式来管理大量数据,解决了这个问题。

在本文中,我们将探讨数据沙盒是数据仓库的未来,以及为什么越来越多的公司采用这种方法。我们还将提供学习资源,供那些想深入了解这个主题的人使用!

什么是数据沙盒?

数据沙盒是一种适用于敏捷数据仓库的数据仓库建模技术。它提供了高度的扩展性,完整的历史数据记录以及对数据加载过程的强大并行化支持。丹·林斯特德特在1990年代开发了数据沙盒建模。

在2000年首次发表后,通过一系列文章在2002年获得了更大的关注。在2007年,林斯特德特赢得了比尔·因蒙的认可,他将其描述为他的数据沙盒2.0架构的“最佳选择”。

任何涉及敏捷数据仓库的术语的人很快会接触到数据沙盒。这项技术的特殊之处在于,它专注于企业的需求,因为它能够对数据仓库进行灵活、低成本的调整。

数据沙盒2.0考虑了整个开发过程和架构,由组件方法(实施)、架构和模型组成。其优势在于,这种方法在开发过程中考虑了商业智能的所有方面,与底层数据仓库相结合。

数据沙盒模型提供了现代化的解决方案,克服了传统数据建模方法的局限性。凭借其可扩展性、灵活性和敏捷性,它为构建能够应对现代数据环境的复杂性和多样性的数据平台提供了坚实的基础。

数据沙盒的枢纽-辐条架构以及实体和属性的分离使得跨多个系统和领域的数据整合和协调变得容易,促进了增量和敏捷开发。

数据平台建设中数据沙盒的一个关键作用是为所有数据建立一个真正的单一数据源。它提供的统一数据视图以及通过卫星表捕获和跟踪历史数据变化的支持,使得符合合规、审计、监管要求以及全面的分析和报告成为可能。

数据沙盒通过增量加载实现了近实时的数据集成能力,便于处理Big Data和物联网应用等快速变化的环境中的大量数据。

数据沙盒与传统数据仓库模型的对比

第三范式(3NF)是最著名的传统数据仓库模型之一,通常在许多大型实施中首选。顺便说一下,这与数据仓库概念的“先驱”之一比尔·因蒙的想法相一致。

因蒙架构基于关系数据库模型,通过将数据源拆分为较小的表并存储在数据集市中,并使用主键和外键进行互联,消除了数据冗余。它通过强制执行引用完整性规则确保数据的一致性和准确性。

规范化的目标是为核心数据仓库构建一个全面的公司级数据模型,但由于高度耦合的数据集市、近实时模式下的加载困难、繁琐的请求和自上而下的设计和实施,它存在可扩展性和灵活性问题。

Kimbal模型,用于OLAP(在线分析处理)和数据集市,是另一个著名的数据仓库模型,其中事实表包含聚合数据,维度表描述了存储在star schema or snowflake schema design中的数据。在这种架构中,数据被组织成事实和维度表,这些表被非规范化以简化查询和分析。

Kimbal基于一种优化查询和报告的维度模型,非常适用于业务智能应用。然而,它在面向主题的信息隔离、数据冗余、不兼容的查询结构、可扩展性困难、事实表的不一致粒度、同步问题以及自上而下的设计与自下而上的实施需求方面存在问题。

相比之下,数据保险库架构是一种融合了3NF和Kimbal架构的混合方法。它是基于关系原理、数据规范化和冗余数学的模型,以不同的方式表示实体之间的关系,并以不同的结构和时间戳结构化表字段。

在这种架构中,所有数据都存储在原始数据保险库或数据湖中,而常用数据以规范化格式存储在业务保险库中,其中包含可以用于报告的历史和上下文特定数据。

数据保险库通过更高效、可扩展和灵活的方式解决了传统模型的问题。它允许准实时加载,更好的数据完整性,并且可以在不影响现有结构的情况下轻松扩展。该模型还可以在不迁移现有表的情况下进行扩展。

建模方法 数据结构 设计方法
3NF建模 3NF的表 自下而上
Kimbal建模 星型模式或雪花模式 自上而下
数据保险库 集线器和分支 自下而上

数据保险库的架构

数据保险库具有集线器和分支架构,实际上由三个层次组成:

暂存层:从源系统(例如CRM或ERP)收集原始数据

数据仓库层:当作为数据保险库模型进行建模时,该层包括:

  • 原始数据保险库:存储原始数据。
  • 业务数据保险库:根据业务规则包括协调和转换的数据(可选)。
  • 指标保险库:存储运行时信息(可选)。
  • 操作保险库:存储直接从操作系统流入数据仓库的数据(可选)。

数据集市层:该层将数据建模为星型模式和/或其他建模技术。它提供用于分析和报告的信息。

图片来源:Lamia Yessad

数据保险库不需要重新架构。新的功能可以直接使用数据保险库的概念和方法并行构建,并且现有组件不会丢失。框架可以显着简化工作:它们在数据仓库和开发人员之间创建了一个层,从而降低了实现的复杂性。

数据保险库的组成部分

在建模过程中,数据保险库将属于对象的所有信息分为三个类别 – 与传统的第三范式建模形成对比。然后,这些信息严格分开存储。在数据保险库中,功能区域可以在所谓的集线器、链接和卫星中映射:

#1. 集线器

#6. Deploy and Implement the Model

Once the model has been tested and validated, it can be deployed and implemented in the data warehouse environment. This involves creating the necessary tables, views, and indexes to support the model, as well as implementing the necessary ETL processes to load and update the data vault.

最后,应对模型进行测试和验证,以确保它满足业务需求,并且具备可扩展性和灵活性,能够处理未来的变化。定期进行维护和更新,以确保模型与业务需求保持一致,并继续提供数据的统一视图。

Data Vault学习资源

精通Data Vault可以提供在当今数据驱动型行业中广受欢迎的宝贵技能和知识。以下是一份包括课程和书籍在内的综合资源列表,可帮助学习Data Vault的复杂性:

#1. 使用Data Vault 2.0建模数据仓库

这门Udemy课程全面介绍了Data Vault 2.0建模方法、敏捷项目管理和大数据集成。课程涵盖了Data Vault 2.0的基础和基本原理,包括其架构和层次结构、业务和信息存储区,以及高级建模技术。

它教授如何从零开始设计Data Vault模型,将传统模型如3NF和维度模型转换为Data Vault,并理解Data Vault中维度建模的原则。该课程要求具备数据库和SQL基础知识。

这门畅销课程评分高达4.4,拥有超过1,700条评价,适合任何希望在Data Vault 2.0和大数据集成方面打下坚实基础的人。

#2. 用实例解释Data Vault建模

这门Udemy课程旨在通过实际业务示例指导您构建Data Vault模型。它是Data Vault建模的入门指南,涵盖关键概念,如使用Data Vault模型的适当场景、传统OLAP模型的局限性,以及构建Data Vault模型的系统化方法。该课程适用于具有最少数据库知识的个人。

#3. Data Vault大师:实用指南

Patrick Cuba先生的《Data Vault大师》是一本全面介绍数据保险库方法论的指南,该方法论使用了与software delivery类似的自动化原则来建模企业数据仓库。

预览 产品 评分 价格


The Data Vault Guru: a pragmatic guide on building a data vault $65.64

该书首先概述了现代架构,然后详细介绍了如何提供一种适应企业变化的灵活数据模型,即数据保险库。

此外,该书通过提供自动化时间线修正、审计追踪、元数据控制和与敏捷交付工具的集成,扩展了数据仓库方法论。

#4. 使用Data Vault 2.0构建可扩展的数据仓库

本书为读者提供了使用Data Vault 2.0方法论从头到尾创建可扩展数据仓库的全面指南。

预览 产品 评分 价格


Building a Scalable Data Warehouse with Data Vault 2.0 $48.96

本书涵盖了构建可扩展数据仓库的所有重要方面,包括Data Vault建模技术,该技术旨在防止典型的数据仓库故障。

该书提供了许多示例,以帮助读者清楚地理解这些概念。凭借其实用的见解和现实世界的例子,本书是任何对数据仓库感兴趣的人的必备资源。

#5. 冰箱里的大象:通过构建以业务为中心的模型,引导实现数据仓库成功

《冰箱里的大象:通过构建以业务为中心的模型,引导实现数据仓库成功》是由约翰·贾尔斯(John Giles)撰写的实用指南,旨在通过从业务开始,以业务结束来帮助读者实现数据仓库成功。

预览 产品 评分 价格


The Elephant in the Fridge: Guided Steps to Data Vault Success through Building Business-Centered… $32.99

本书重点介绍了企业本体论和业务概念建模的重要性,并提供了逐步指导,介绍如何应用这些概念创建坚实的数据模型。

通过实际建议和示例模式,作者对复杂的主题进行了清晰简明的解释,使本书成为对于那些新接触数据仓库的人来说的一个优秀指南。

最后的话

数据仓库代表了数据存储的未来,为企业在灵活性、可扩展性和效率方面提供了显著优势。它特别适用于需要快速加载大量数据的企业,以及那些希望以敏捷方式开发他们的业务智能应用程序的企业。

此外,那些拥有现有隔离架构的企业可以通过使用数据仓库来实施上游核心数据仓库,从而获得巨大的利益。

您可能还对了解有关 data lineage的内容感兴趣。

类似文章