随着分析技术面临数据量迅速增长的挑战,有人担心传统的提取、转换和加载过程(ETL)是否依然适用。
ETL 工具可以快速“入侵”移动 App 和 Web 应用程序,因为它们可以非常有效地访问数据。最终,ETL 应用将积累行业标准并得以壮大。
本文中我们来讨论一个比较新的话题——能够轻松构建一个敏感的、并且能够使数据仓库变得动态且适应性强的数据模型:Data Vault。
企业数据仓库(EDW)系统旨在维持数据驱动型企业的真实
商业智能(
BI)。公司必须熟知这些重要动态数据中的关键指标。
ETL 的挑战
ETL 由于传统数据建模而面临的五大挑战有:
1.EDW、BI 系统的上游业务流程或者业务规则需要适应新的变化。
2.在数量、速度、品种、可视化、真实性和价值6个方面分析业务数据 - 具有实际技术的大数据,以确保竞争优势。
3.能够智能应用并具有设计、创造、交付、持续、易于访问能特点的大型
存储 EDW、BI 系统变得越来越复杂。
4.需要定制数据以满足业务核心业务领域的需求,而不能为所有业务需求都提供统一的简单解决方案。
5.面对新的不可预知和无计划的来源以及上游流程的影响时缺乏灵活性。
现在,我们来讨论应对上述所有潜在挑战的方案:Data Vault混合数据建模的方法。
Dan Linstedt 将 Data Vault 模型定义如下:
Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。
Data Vault 非常优雅、简单且易于执行。它建立在一套多结构和审计规则之上。通过利用 data vault 原则,你的项目能够轻松满足可审计性、可扩展性和灵活性。
以下规定的标准将帮你构建 data vault:
1.确定业务主键和枢纽表(Hubs);
2.确定业务主键和连接表(link)之间的关系;
3.指定围绕业务主键、卫星表(Satellites)的描述;
4.为解码数据集连接独立因子(比如时间属性和代码描述);
5.集成查询优化,附加性能表(比如桥接表和时间点(PD)结构模型表)。
建立 data vault 非常简单,最终将会突破企业集成架构中通常使用到的常规方法。该模型的建立方式还可以根据需求进行有效扩展。
Data Vault 建模 + 架构 + 为上述挑战提供解决方案
“业务灵活性具有根据持续的变化进行自我改善的能力。”
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。