e-works数字化企业网  »  文章频道  »  基础信息化  »  网络与安全

大数据分析平台建设与应用综述

2017/3/19    来源:知网    作者:王强  李俊杰  陈小军  黄哲学  陈国良      
关键字:大数据平台建设  大数据应用  
文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方而进行介绍。
    1.引言
    
    当前,人类社会信息化进程正在迈向网络化信息技术普及阶段。整个社会的信息采集渠道日益丰富,信息应用广度不断拓展,信息总量呈指数级增长,以信息为核心的创新驱动力持续增强,从而带来全社会信息在类型多样性、关系复杂性、应用时效性等方面呈现出崭新的趋势和特征。这种由社会信息环境的变革而引发的社会数据环境的变革,给信息科学及相关产业发展带来了巨大的挑战和机遇。
    
    大数据就是为有效应对“网络时代海量复杂数据带来的管理与应用难题”而产生的一种新的思维方式、技术体系和创新能力,其特有的战略意义和核心价值主要表现在以下三个方面:
    
    第一,在战略思维层面,数据己经成为全球社会公认的创新发展要素,大数据己经从商业领域上升到国家战略层面。
    
    自2011年6月麦肯锡公司发布了《大数据:下一个竞争、创新和生产力的前沿领域》「‘」的研究报告,拉开了全球竞相发展大数据的序幕。随后,美、英、法、澳、日、韩等发达国家,以及联合国、欧盟、八国集团等国际组织,纷纷提出国家级或区域性大数据发展战略,旨在提升从大量复杂数据中获取知识和洞见的能力,进而促进政府治理效能和经济发展活力的显著提升。我国自2012年起,从中央部委到地方省市,连续密集地出台了十余个与大数据相关的发展规划和行动计划,特别是国务院于2015年8月出台了《促进大数据发展行动纲要》,明确提出了政府率先开放政务大数据并强化与社会各方形成合力的相关任务和计划时间表,更加突显我国发展大数据的意志与决心。
    
    第二,在信息科学与技术创新发展层面,大数据给传统的信息科学与技术体系带来了全方位的挑战,大数据科学正在加速形成以数据为核心的新的理论与技术体系。
    
    大数据所特有的类型多样、混合异构、快速增长、体量巨大、关系复杂、高维稀疏等特性,导致传统的来源于多元统计、人工智能、机器学习、模式识别等领域的数据分析理论,以及以数据为核心的存储、索引、融合、处理、分析、应用、安全等全过程技术,函待实现全面系统的创新与发展,不断形成和完善大数据科学与技术体系。同时,从大数据工程技术创新发展的角度,函待将大数据相关的理论、技术成果与国际主流的大数据工程技术框架相结合,针对互联网应用的智能化和服务化的发展趋势,以及离线分析与在线分析的应用特点,围绕Hadoop, Spark(内存计算)等当前热门主流的大数据工程技术体系,开展大数据平台开发与产业化应用,是促进大数据科技发展的另一项必要和紧迫的工作。
    
    第三,在经济社会创新发展层面,大数据是保障我国“互联网+”和“智慧城市”战略实现的核心能力,并为推进“双创”战略提供了广阔的发展空间。
    
    以应用为导向、以应用为引领,是大数据技术创新与发展的主要特征。当前,我国正在全力推进“互联网+”和“智慧城市”发展战略,大数据作为其中必不可少的使能性技术,将在城市虚拟空间的各种应用场景中发挥着信息整合、知识挖掘、业务协同、服务创新的作用。其中,大数据分析与应用平台更是作为大数据时代必备的基础设施:通过不断汇聚技术创新成果,为应用创新提供一站式共性基础服务,有效降低应用技术门槛,支持创业公司和创客群体在平台上开展不同领域、不同层次、不同环节的应用服务创新,加速形成以平台为核心的产业创新生态圈和产品化应用解决方案,促进大数据产业加快形成。
    
    大数据时代,我国拥有得天独厚的发展优势。一方面,在政府大力倡导和全社会积极努力下,大数据己经成为全社会的共识,大数据所蕴含的经济价值和创新价值己经引起社会各界的高度关注。另一方面,我国拥有海量丰富的数据资源,广阔多样的应用场景,潜力巨大的消费市场,为大数据创新与发展提供了必要条件。当务之急是如何快速有效突破数据价值挖掘的瓶颈。大数据分析与应用平台,是大数据时代必备的基础设施,也是突破当前技术瓶颈的有效突破口。开发和建设大数据分析与应用平台将带来三个方面的价值有助于不断汇集大数据技术创新成果,并用最先进的技术为用户提供一站式的应用服务有助于降低用户技术门槛,为应用开发提供共性基础设施与服务,从而加快应用创新;(3)有助于形成大数据技术产品和行业解决方案,促进我国大数据产业加快形成。
    
    本文基于深圳大学大数据技术与应用研究所大数据分析平台课题组(以下简称“课题组”)近年来开发和建设大数据分析与应用平台的科研成果和实践经验,同时结合课题组在人才培养、科学研究、社会服务等方面的实际感受,首先介绍了大数据平台的总体功能、体系架构及其关键技术;其次,针对当前大数据领域的前沿热点技术,重点介绍了Spark技术架构及其核心模块;最后,介绍了课题组己经完成的在大规模制造业、零售业和智能电网三个领域的大数据应用案例,以期为学术界和产业界提供具有一定参考借鉴价值。
 
    2.大数据分析平台
 
    2.1大数据分析平台发展现状
    
    大数据分析平台是建设和实施大数据应用所必需的基础设施,也是目前国际产业界竞相发展的前沿和热点领域。从目前全球发展现状来看,大数据分析平台建设与应用的主要力量来自于传统信息技术(Information Technology,  IT)企业、新兴互联网企业、高校科研院所三大阵营,以下对其发展情况和代表成果进行概括总结。
 
    2.1.1传统信息技术巨头的大数据平台战略
    
    该阵营以IBM,ORACLE,SAP,EMC,Teradata等传统IT巨头为代表,凭借长期积累的技术、产品、品牌、服务等全球领先的综合实力为基础,通过“硬件+软件+数据”整体解决方案向用户提供以平台为核心的完备的大数据基础架构与服务,同时通过密集地并购大数据分析创新型企业,以迅速增强和扩展在大数据分析领域的实力和市场份额。
     
    整体平台解决方案厂商依靠自身原有的软件、硬件或技术优势,通过收购及整合不同公司的产品线,实现对大数据各个领域的覆盖。但是这种增量式的系统整合,只是使系统功能的体量增加。只有通过对自身产品和技术的原始创新,才能实现对大数据处理问题的彻底解决。
 
    2.1.2新兴互联网巨头的大数据平台战略
    
    该阵营以Google,Amazon,Facebook、阿里巴巴、百度、腾讯等互联网公司为代表,基于自身的应用平台、庞大用户群和海量用户信息,形成独有的互联网大数据应用生态圈,不断创新应用和商业模式,不断创造新价值。
    
    (1)Google
    
    ①Google提出的GFS,MapReduce和BigTable等大数据核心技术,催生了大数据处理的事实标准Hadoop。目前,Google通过自身开发的Caffeine 平台,直接将索引放置在由Google开发的分布式数据库BigTable上;
 
    ②Google还提供大数据虚拟服务器业务,用户可以把数据上传到Google,Google提供了包括BigQuery 和Google Compute Engine等服务和基础设施运行用户的查询服务。
    
    (2)Amazon
    
    Amazon弹性MapReduce(Amazon ElasticMapReduce),是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上,用于满足数据密集型任务(如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究),平台将根据用户需要立即配置和满足资源需求。
 
    (3)Facebook
 
    ①Corona日冕)平台,可以让你在数目庞大的Hadoop服务器之间运行大量的任务,并且不用担心软件错误会导致整个服务器集群崩溃;
    
    ②Prism(三棱镜)fzo7平台,可以自动复制数据,并在不同地点的服务器之间传输数据。这可以让Hadoop服务器集群运行在全球范围内的多个数据中心上,实现集群规模的灵活扩展。
    
    (4)阿里巴巴、百度、腾讯
    
    ①早在2011年,阿里巴巴就己经推出了“淘宝指数”,商家可以根据以往的销售信息和“淘宝指数”进行生产、库存决策,同时,消费者也能以更优惠的价格购买商品;
    
    ②百度正开展大数据革命以应对企业时代需求,其己从数据、工具及应用三个层面布局大数据时代企业战略规划,为用户更深入地挖掘数据价值,优化营销决策;
  
    ③腾讯主要通过深入挖掘用户属性,培育社会化营销平台,利用大数据和关系链,为用户筛选、推荐最适合他的内容。
    
    互联网公司在大数据领域的创新主要是基于自身的数据和业务需求,主要集中在搜索、个性化推荐和存储、计算等方面。但是对于“人、机、物”三元融合技术产生的多样化海量复杂数据,仍然需要新的分析平台及处理技术。
 
    2.1.3科研领域的大数据平台发展状况
    
    国际顶级期刊《Nature》和《Sciences》近期针对大数据分别出版了专刊《Big Data》和《Dealing with Data》,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。
    
    在国内,中国计算机学会(China Computer rederation,CCF)成立了大数据专家委员会(CCF Big Data Task Force,简称CCF TFBD)。2012年10月19日,中国计算机学会大数据专家委员会成立,通过竞选产生了以李国杰院士为主任的专家委员会的第一任领导班子。2012年11月30日一12月1日,中国Hadoop与大数据技术大会(HBTC 2012)在北京成功举办。大会以“大数据共享与开放技术”为主题,讨论了大数据共享平台与应用、大数据的技术挑战与发展趋势。
    
    目前,国际学术界研发的大数据平台的代表成果包括:
    
    (1)Petuum大数据分布式机器学习平台由美国卡耐基梅隆大学(CMU)邢波教授课题组针对大数据机器学习特点研发,是一个分布式机器学习框架,提供了面向超大型机器学习的
 
    通用算法和系统接口。包含数据和模型并行两套功能,平台的参数服务器为开发者提供良好的编程环境,通过共享虚拟分布内存,在编程的时候不用对每个机器进行单独通讯;平台的调度器能够对模型进行有效的分割,甚至是动态分割,然后进行任务的分布化和载量平衡。
 
    (2)PDMiner基于云计算的数据挖掘软件平台,平台由中国科学院计算技术研究所与中国移动合作开发,集成了ETL组件、数据挖掘组件以及多种算法,可有效解决多种云计算数据挖掘问题。平台的挖掘效率随节点增加而增加,多个任务工作流之间互不干扰,不同节点间可同时启动,具有容错能力,架构具有开放性,算法可方便地配置加载到平台上,达到了商用软件精度,成为中国移动数据挖掘分析支撑工具。
    
    (3)CLAIMS并行数据分析系统:系统由华中师范大学数据科学与工程研究院研发,提供了一个基于内存(in-memory)的并行数据库系统框架,可运行在服务器集群中,提供面向关系型数据的实时数据分析。
    
    (4)深圳大学大数据分析平台:平台由深圳大学大数据技术与应用研究所研发,也是本文主要介绍内容,详见后文。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐