e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

傅一平:为什么传统BI没前途?

2016/11/15    来源:互联网    作者:傅一平      
关键字:传统BI  大数据  
从事BI十多年,经历了经营分析系统的大建设,大发展时期,也有幸处在大数据与传统BI系统的交替之际,因此特别来谈谈,为什么说传统BI没前途。技术为业务服务,因此这里不谈技术,更多从使用者的角度去阐述原因,理了10个方面,每个方面都是笔者亲历,当然任何穷举法都无法证明绝对正确,但希望能引起思考。

    写了一篇文章《大数据,为什么不是传统BI的简单升级》,获得了不少人响应,不少读者问,只要能解决问题就成,不用区分大数据和传统BI吧,但所谓的解决问题,到底是指什么?

    做数据,逃不过两个字“较真”,可以用一天的时间解决问题,也可以用1秒的时间解决问题? 两个都叫解决问题。

    从事BI十多年,经历了经营分析系统的大建设,大发展时期,也有幸处在大数据与传统BI系统的交替之际,因此特别来谈谈,为什么说传统BI没前途。

    技术为业务服务,因此这里不谈技术,更多从使用者的角度去阐述原因,理了10个方面,每个方面都是笔者亲历,当然任何穷举法都无法证明绝对正确,但希望能引起思考。

1、资源申请-从月到日,不可同日耳语

    自从企业有了大数据MPP、HADOOP、流处理三个资源池,租户生效基本都是所见即所得。公司甚至为了申请方便,搞了资源套餐,我们申请资源叫点套餐,这种资源申请模式为对外灵活开放数据提供了基本保障,在半年时间内,内外部租户已经开出了100多个(以前可能叫数据集市),现在回想起来,如果没有这个能力,公司的对外变现基本不可能。

    无论是阿里云还是AWS,都是这个套路,但为什么企业要自己做,因为较大的企业本身内部就是个巨大的市场,有各类的应用要求,从数据、安全、接口、技术等各个方面讲,都不适合放到外部平台。

    传统BI的小型机阶段,没有资源池概念,资源申报按硬件台数算,需要提前申请预算,即使硬件到位,集成时间也过于漫长,记得以前为11个地市规划11个数据集市,采用四台570划分12个分区,搞了1个多月,效率不可同日而语。

    大数据系统在资源粒度、申请速度、资源动态扩展等各个方面都完爆传统BI,在业务快速部署上具有无法比拟的优势,为业务创新奠定了很好的基础。

    如果你做过DB2的项目集成啥的,每一次都涉及规划、划盘、分区、安装等等,就知道啥叫等待。

2、数据采集-多样性才能创造更多应用场景

    传统ETL的基本套路都是从源数据库导出成文本,然后通过客户端工具导入到目的数据库,导出用EXPORT,传输用FTP,导入用IMPORT,当然,同种类型的数据库可能用DBLINK等这种快捷方式,程序中采用ODBC啥的连接数据库来进行操作。很多公司专门开发了一些多库之间互导数据的工具,当然一般企业级的平台不用,可扩展性、灵活性太差。传统ETL的技术非常适应以天或月为分析周期的静态应用要求。

    我想大多数企业,BI的数据分析现在周期基本还是天,笔者做了10年BI,记得企业很长一段时间,是以月为单位ETL数据的,当然,从业务的角度讲,够用即可,有人会问,数据的周期减少到小时、分钟、秒以致实时,到底有多大现实意义?

    但真的业务上不需要更短周期的分析吗?是因为大家BI分析的套路习惯使然还是能力不够使然?

    从取数的角度讲,业务人员永远希望你取得数据越快越及时越好,我们原来只出月报,后来性能上去了,复杂的日报也能出了,日报变成了标配,日报之后呢,实时是否应该成为未来的标配?

    从应用的角度讲,企业除了一堆运营指标报表,一般有营销和风控两个角度有数据的现实需求,实时营销显然比静态营销效果更好一点,BAT如果不搞实时营销基本就没法活,实时风控显然比离线风控效果更好有一点,比如反欺诈系统,如果不是实时的监听,如何在诈骗的事中介入?

    从趋势的角度讲,如果你认同未来的世界是满足个性化的世界,那么,只有实时的数据才能蕴含更多的信息,才能给你更为个性化的服务,你会想到太多的场景需要实时化采集。

    即使你没有以上提的任何需求,但技术和业务永远是互动的,你具备了按小时提供的能力,人家就会创造按小时的业务场景,你具备了实时的提供能力,人家就会创造实时的业务场景。谁是蛋谁是鸡说不清楚,但如果你想服务的更好,就应该在技术层面更前瞻性一点。

    但传统BI能支撑吗?传统企业的BI不实时,本质不是没有需求,也许是能力不够所致,我记得以前CRM上线要搞个实时放号指标监控,也是蛮困难的事情,以前出账只有月报啊,现在,没有日报,还能活? 我记得很多年前第一份日账报表是IT人员自己提的,因为能力到了。 那未来10年呢?

    ETL是传统数据仓库中的一个概念,我觉得该升级了,多样化的采集方式是王道,这是大势所趋,有三样东西是最重要的,一个是采集方式的百花齐放,即消息、数据流、爬虫、文件、日志增量都能支持,二是数据的流动不是单向的,不仅仅是E,而且是X,即交换,这样就极大衍生了ETL的内涵,三是数据采集的分布式,可以并行动态扩展,ETL的读写问题能较好解决。这些恰是传统BI做不到的。

3、计算性能-性价比是王道,更迭速度比想象的快

    DB2、Teradata在数据仓库领域一直占据着巨大的份额,我们用GBASE+HADOOP花了半年时间把2台P780替换掉了,综合性能可以说是原来的1.5倍,但投资只有几分之一,虽然前期涉及一些调优,对于代码也有更高的要求,但性价比非常高,关键是能够多租户动态扩展,容灾能力也超DB2。记得以前DB2一旦节点出现问题,虽然也能切换,但性能往往下降一半,极大影响业务。

    传统数据仓库,对于不同的数据处理方式往往是一视同仁的,但事实上,不同数据处理阶段,对于数据处理的要求存在结构性的不同,一些简单的转化和汇总,在库外方式处理比库内处理合算,但传统BI习惯于把数据全部导入到数据仓库中做,浪费了珍贵的小型机系统资源,性价比很低。因此,当前MPP+HADOOP混搭型数据仓库渐成趋势,HADOOP擅长海量简单的批量处理,MPP擅长数据关联分析,比如eBAY,中国移动等都采用了类似的方案。

    从综合的角度讲,DB2等数据仓库当然有它的优势,比如引以为豪的稳定,但这些技术过于依赖国外,感觉运维能力每况愈下,关键问题的解决越来越力不从心,稳定这个词也要打上大大的问号,不知道其他企业感觉如何。

    要相信笔者不是打国产GBASE广告,坑很多,但值得拥有。

责任编辑:马倩
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐