一、大数据平台
大数据在工作中的应用有三种:
与业务相关,比如用户画像、风险控制等;
- 与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;
- 与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。
数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。
如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过
数据采集、数据
存储,之后才是数据分析和数据处理。
从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。
二、数据源的特点
数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:
- 第三类:从可变性来看分为不可变可添加数据和可修改删除数据;
内部数据
来自企业内部系统,可以采用主动写入技术(push),从而保证变更数据及时被采集。
外部数据
企业要做大数据的话肯定不会只局限于企业内部的数据,比如银行做征信,就不能只看银行系统里的交易数据和用户信息,还要到互联网上去拉取外部数据。
外部数据分为两类:
- 一类是要获取的外部数据本身提供API,可以调用API获取,比如微信;
- 另一类是数据本身不提供API,需要通过爬虫爬取过来。
这两类数据都不是我们可控制的,需要我们去获得,它的结构也可能跟我们企业内部数据的结构不一样,还需要进行转换,爬虫爬取的数据结构更乱,因此大数据平台里需要做ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪,这个过程比较麻烦。爬虫爬过来的数据往往是非结构性的、文档型的数据,还有视频、音频,这就更麻烦了。
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。