e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

大数据平台架构技术选型与场景运用

2017/6/22    来源:36大数据    作者:张逸      
关键字:大数据  大数据平台架构  
数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。
    一、大数据平台
 
    大数据在工作中的应用有三种:
 
    与业务相关,比如用户画像、风险控制等;
 
  • 与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;

  • 与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。
 
    数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。
 
    大数据平台架构技术选型与场景运用
 
    如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。
 
    从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。
 
    二、数据源的特点
 
    大数据平台架构技术选型与场景运用
 
    数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:
 
  • 第一类:从来源来看分为内部数据和外部数据;

  • 第二类:从结构来看分为非结构化数据和结构化数据;

  • 第三类:从可变性来看分为不可变可添加数据和可修改删除数据;

  • 第四类,从规模来看分为大量数据和小量数据。
 
    内部数据
 
    来自企业内部系统,可以采用主动写入技术(push),从而保证变更数据及时被采集。
 
    大数据平台架构技术选型与场景运用
 
    外部数据
 
    企业要做大数据的话肯定不会只局限于企业内部的数据,比如银行做征信,就不能只看银行系统里的交易数据和用户信息,还要到互联网上去拉取外部数据。
 
    外部数据分为两类:
 
  • 一类是要获取的外部数据本身提供API,可以调用API获取,比如微信;

  • 另一类是数据本身不提供API,需要通过爬虫爬取过来。
 
    大数据平台架构技术选型与场景运用
 
    这两类数据都不是我们可控制的,需要我们去获得,它的结构也可能跟我们企业内部数据的结构不一样,还需要进行转换,爬虫爬取的数据结构更乱,因此大数据平台里需要做ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪,这个过程比较麻烦。爬虫爬过来的数据往往是非结构性的、文档型的数据,还有视频、音频,这就更麻烦了。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐