e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

数据质量:BI项目成功的基石

2017/9/9    来源:互联网    作者:佚名      
关键字:BI  商业智能  数据质量  
在涉及多数据源的商业智能项目中,数据质量不高在很大程度上制约了BI项目的最终效果,甚至直接导致了BI项目失败。

    BI-商业智能是IT领域的一个热点话题。日益激烈的市场竞争让越来越多的企业负责人倾向于借助商业智能来辅助决策,而企业经过多年来信息化的建设积累下丰富的数据也为商业智能项目的进行奠定了坚实的基础,在这样的背景下,企业上马商业智能项目的热情逐渐高涨起来。然而,和众多企业管理软件项目一样,商业智能项目的失败率也居高不下,其中数据质量问题是诸多失败诱因中的一个,特别是在涉及多数据源的商业智能项目中,数据质量不高在很大程度上制约了BI项目的最终效果,甚至直接导致了BI项目失败。

数据质量欠佳的原因

    导致数据库中数据质量欠佳的原因很多,其中有人为因素,也有系统的原因,还有外界不可抗拒的原因,比如,某个区域改变了邮件编码或者电话号码等,使得系统原有与此相关的数据变成了错误的数据。

    输入错误是最常见的影响数据质量的行为。比如,原本应为8位的电话号码只有7位、2月份出现了31日、数字和字母出现了混淆(把“I”当成了“1”) 等。一般而言,如果应用程序设计得好一些、纠错能力强的话,上述错误在数据录入时是可以避免的。而有些错误如果不用专门的工具而单靠应用程序是不现实的,比如错误的名称、地址信息等。另外,在系统维护和数据处理时也可能出现错误。而错误数据的输入可能扩散到多个系统中,从而影响到整个企业数据的质量,有时即使是相对简单的数据错误也会迅速升级为复杂问题,降低整个企业内数据的质量。事实上,每个数据维护操作都可能改变数据,从而导致无法预知的结果。

    错误的数据还可能来自第三方。现代企业与产业链上下游的关系越来越密切,不少数据就来自上下游企业。此外,有些企业将业务流程外包给第三方或者与合作伙伴以及供应商协作,在这些场合,企业对外来的数据无法即时控制,这些来源或质量无法确定的外部数据都可能进入企业中并在企业中扩散。

    值得注意的是,有些数据原本不是错误,放到特定场景就有问题。比如,同一信息不同系统格式可能不同,数据集成时要把以不同格式保存的数据合并起来就可能出现问题。这也就是企业建立统一的数据字典或者上线主数据管理系统的原因之一。另外,同一数据可能会保持在多个系统,如果在一个系统中有过修改,也有可能引发数据一致性问题。

    为了衡量数据质量,可以从以下几个维度来考察,即完全性、符合性、一致性、准确性、重复性等。完全性指数据项没有缺失,比如个人信息要求必须有身份证号、邮件地址;符合性指各个数据项符合基本常识,例如邮政编号必须为数字、电话号码应没有字母且长度符合规定;一致性指在不同系统中表达同一信息的代码是一致的,一致性是涉及多数据源的数据集成时常出现的问题;重复性指的是同样或者相似数据出现多次。

如何保证数据质量

    要改善数据质量可以从两个方面着手,一个是在数据进入系统时引入各种规则来保证数据的正确性,另一个是在数据集成时引入专门的工具进行数据清洗。相对而言,前一个方法更主动,成本也较低,而后一种方法是事后处理,成本高,而且以后还需要持续不断进行。不过,等到要上BI项目时,改善数据质量常常只能是依赖后者。

    改善数据质量最直接的办法就是选用数据质量相关的工具。目前,数据质量已经成为一个专门的应用领域,市场上也有很多工具,比如,大多数BI厂商都有自己的数据质量工具,其ETL工具也带有这部分功能。因为在数据仓库的建设过程中,数据清洗是其中必不可少的一步。

    数据质量保证通常涉及以下过程:首先使用数据剖析工具对数据质量进行分析和探查,以深入了解数据的结构、数值的有效性、分布情况以及在多个分散系统之间关联等重要信息,然后对数据进行清洗、修正、删除重复数据,并实现数据的标准化,最后对这些数据进行归并存入数据仓库。

    应该说,数据质量工具并不是解决问题的根本办法,因为如果管理和流程跟不上的话,单靠数据质量工具是很难达到满意的效果的。实际上,在数据质量保证项目中,有一件非常重要的工作是建立数据的标准和规范、明确数据的定义。因为大多数企业没有建立主数据管理系统,而应用程序开发的时间不同,很可能出现同一数据采用不同格式进行表达的情况,而在对多数据源进行数据集成时,必须对这些数据格式进行转换,如果有了相关标准和定义,就可以大大降低数据集成时的工作量和复杂度。此外,还要建立一个可重复的数据收集、数据修改和数据维护流程,而最终的理想结果是达到流程的自动化,从而降低数据质量保证计划的总体开销。

    值得强调的是,由于数据的生成和处理是一个持续不断进行的过程,因此,数据质量保证是一个长期的过程,相应的,确保数据质量并不是一次就能完成的。

    改善数据质量需要从数据质量工具、建立管理制度和流程两个方面着手,并通过持续不断的改进来确保数据质量的高度可靠。

责任编辑:程玥
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐