e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

面向特定领域大数据平台架构及标准化研究

2017/10/29    来源:大数据期刊    作者:佚名      
关键字:大数据平台架构  大数据标准  
文章研究了特定领域大数据的特点和现实需求,给出了适合这些领域大数据建设的参考架构,结合大数据主流技术和基础平台,详细分析了特定领域大数据参考架构的不同部件。
    1.引言
 
    随着移动互联网、物联网和云计算等技术的不断进步和用户数量的急剧增加,与国家民生和安全密切相关的银行、电子商务、航空航天、网络安全、应急反恐、军事对抗等特定领域(以下简称“特定领域”)产生的数据规模急剧增长。这些数据具有类型复杂、结构多样、体量巨大、价值密度低、挖掘潜力巨大等特点,大数据时代已经来临。与其他领域大数据相比,上述特定领域应用大数据有独特的要求。一是安全性要求更高,比如在与网络安全相关的大数据系统中,需要考虑应对信息对抗条件下的各类安全威胁,对数据和系统的保护和授权必须严格遵守相关权限管理要求。二是可靠性要求更高,从硬件到软件,从数据到应用,在大数据系统的各个层次都要提供各类容错抗毁措施。比如航空航天领域的在轨通信卫星7×24 h不间断地向地面发送图像影片资料,同时地面基站需要实时向太空卫星发送各类指令数据,这就要求相关大数据系统具有高稳定性。三是时效性要求更高,对各类动态信息的收集、融合和分析速度往往要求达到实时或近实时。比如在银行领域,在大型节假日等高峰期,相关大数据系统每秒需要处理的事务数已经超过十万条。四是多样性要求更高,尤其是各类传感器产生的动态流数据占据重要比例。比如在应急反恐和军事对抗领域的相关大数据处理平台中,需要全面分析互联网、战场物联网传送过来的文本、图片、语音、视频等各类数据。五是数据质量要求更高。比如在银行信用卡消费相关业务中,需要对实时处理的各类数据进行真伪校验和欺诈识别。在事关国计民生和国家安全的特定领域,在复杂对抗条件下数据质量攸关成败,对其甄别、清洗、融合和分析处理要求更为严格。
 
    大数据强调尊重事实理念,将精准计算与概率评估两种客观要求有机统一,突出用数据来评估、用数据来管理、用数据来决策、用数据来创新。大数据相关技术是对传统数据处理技术进行继承和创新,通过有效解决大数据的高效存储、快速计算、多维关联、深度分析、趋势预测和辅助决策等问题,挖掘大数据隐藏的客观规律,预测事物及行为发展变化的趋势,支持做出正确的判断与决策。大数据已经成为国家竞争的战略前沿、企业创新发展的重要来源。
 
    面向特定领域的大数据标准化工作是实现相关大数据系统互连、互通、互操作的重要前提,是实现大数据系统中重要信息跨部门、跨领域、跨平台安全共享的坚实基础。加强特定领域大数据平台架构研究,构建特定领域大数据相关标准体系,对加速这些领域大数据的快速发展具有重要意义。
 
    2.相关工作
 
    2.1 主要国家相关战略
 
    美国政府的网络与信息技术研发(NITRD)计划早在2011年就成立了大数据高级指导小组,负责大数据项目的遴选、启动和协调。2012年3月美国政府发布《大数据研究和发展倡议》,将大数据提升为国家战略。2013年4月美国国会科学、空间和技术委员会下的研究专委和技术专委专门就“下一代计算与大数据分析”举行联合听证会,邀请政府部门(自然科学基金委员会)、IT企业(IBM)和教育部门(北卡罗来纳州立大学)的专家就大数据的影响及国家应做的工作进行深入讨论和佐证。欧盟2011年12月推出《开放数据战略》,以开放数据为核心,制定了迎接大数据时代的相关策略。受此影响,各界从领域需求出发,积极推进大数据应用。欧盟通过“开放数据平台”向公众提供包括地理、大气、国际贸易、农业等信息在内的5 815个数据集,大力推进了欧洲数字化进程。日本政府2013年发布《创建最尖端IT国家宣言》,阐述2013—2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略。日本产业界也十分强调利用大数据的相关理念方法解决工程应用中的实际问题。此外,英国、法国、澳大利亚等国家也相继制定了相关大数据国家发展战略。
 
    我国政府2014年《政府工作报告》将大数据列为我国政府推动国家科技创新和引领经济结构优化升级、赶超国际先进水平、引领国家未来产业发展的六大战略性创新产业之一。2015年6月,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》指出“加强政府信息标准化建设和分类管理”。同年8月,国务院以国发〔2015〕50号印发《促进大数据发展行动纲要》,明确指出要建立标准规范体系,推进大数据产业标准体系建设,加快建立大数据市场交易标准体系。
 
    2.2 特定领域研究情况
 
    在银行、电子商务等核心金融领域,大数据建设十分关注建立各应用之间的数据共享交互标准,消除应用之间的数据壁垒和信息孤岛,统一业务和技术的数据字典,构建完整、全面、统一的企业数据信息视图。在银行系统,大数据相关标准建设正经历由传统数据标准规范向大数据背景下的数据标准发展。ISO/TC68金融服务技术委员会是国际标准化组织下设的从事金融标准化工作的机构。该机构近年来紧密跟踪大数据背景下金融标准化研究工作,先后在金融业务、业务数据安全等领域提出了多项国际标准。在国内,2004年中国建设银行提出银行业“数据标准化”概念;2008年中国光大银行成为国内第一家实施数据标准化的股份制银行,并将成果运用到数据仓库建设中;2014年中国人民银行相继发布《银行数据标准定义规范》《统计数据与元数据交换(SDMX)》等标准规范,为大数据背景下统一银行数据属性描述,促进银行间数据共享等方面发挥积极意义。在电子商务领域,大数据相关建设如火如荼。2016年电子商务大数据专题组在电子商务大数据采集规范、仓库建设模型和应用指标体系等方面已经向相关部门提交了标准规范。同时,在用户画像规范、管理系统规范、营销分析规范等方面正在展开深入研究。
 
    在航空航天领域,大数据相关系统建设为相关问题的研究和解决提供了新的手段。美国国家航天局约翰逊航天中心和企业合作开发的可扩展大数据处理分析平台每秒能处理700 TB数据,通过该系统实现了对太空探测设备回传数据的实时处理,提高了外太空异常信号捕捉与探测能力。荷兰、瑞士、英国和其他17个国家与IBM公司合作,开发了一个名为DOME的超级计算系统,该系统每天可处理1 EB的天文数据,通过该系统加速了太空科学问题的研究。
 
    在网络安全、应急反恐等领域,美国十分重视大数据相关系统建设。美国国防部近年年均投资超过2.5亿美元进行大数据研究,相继开展了数据到决策、网络内部威胁、视频与图像检索分析工具(VIRAT)、洞察(Insight)、多尺度异常检测(ADAMS)、XDATA等20多项军事大数据项目。美国国家安全局(National Security Agency,NSA)“棱镜计划”的主要技术基础是大规模图数据管理技术,其中基于Hadoop的Accumulo系统已成为NSA安全战略的关键,该系统可在大约140 h内完成对4.4万亿(242)个节点和70万亿(246)条边的图数据的分析计算,可对参与计划公司(包括微软、雅虎、谷歌、苹果等公司)的全世界用户进行全面监听。英国情报机构的“时代计划”通过采用大数据技术中高可扩展的体系架构,能够在线收集、存储所有流经英国服务器的所有互联网数据,并进行情报分析。
 
    在军事对抗领域,美国海军为了实现在全球范围内对数据资源进行统一调配和优化使用,相继启动了海军大数据、远征作战海军战术云等项目,以提高其远征作战能力。美国海军甚至在探讨利用大数据技术颠覆传统的潜艇作战模式。美国陆军早在2009年就启动了有关分布式通用地面系统——陆军分系统(DCGS-A)的大数据支撑建设,其利用私有云平台为驻阿富汗美军提供最新战场情报信息。DCGS-A借助有效的大数据交互标准实现系统间的相互访问,替代了以往一系列烟囱式的情报数据收集与分析系统,实现了系统级别的互联、互通和互操作。美国军方和相关国防项目承包商积极参与国际大数据标准化组织以及产业联盟的相关标准化工作,比如美国著名的国防承包商Level 3通信控股公司下属的数据分析部门,向美国国家标准与技术研究所大数据工作组提交了国防军事领域中3个大数据典型用例,其中涉及地理信息数据分析与可视化技术(基于云平台的大规模地理空间数据分析和可视化)、非结构化数据的持续实时分析与应用(基于广域大幅面图像与全动态视频的目标识别和跟踪)、情报数据处理与分析技术。
 
    2.3 大数据标准建设
 
    在大数据标准研究方面,美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)于2013年6月成立了大数据公共工作组(NBD-PWG),将达成共识的定义、术语、安全参考体系结构和技术路线图形成标准,并提出数据分析技术应满足的互操作性、移植性、可用性和扩展性需求,以解决如何安全有效地支持大数据应用技术基础设施[7]。国际标准化组织/国际电工委员会第一联合技术委员会(ISO/IEC JTC1)于2013年11月全会上成立负责大数据国际标准化的大数据研究组(ISO/IEC JTC1 SG2),负责调研各个标准化组织在大数据领域的关键技术、参考模型以及用例等标准基础,评估分析当前大数据标准的具体需求,提出大数据标准的优先顺序。国际电信联盟远程通信标准化组织ITU-T将物联网、云计算与大数据相关技术结合,在高吞吐、低延迟、安全、灵活和规模化的网络基础设施以及垂直行业平台的互操作等领域开展了相关标准化研究工作[8]。
 
    国内学术界和产业界也意识到了大数据标准体系研究工作的重要性,做了很多重要工作。全国信息化标准委员会近年相继在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持[9]。中国电子技术标准化研究院于2015年12月份推出《大数据标准化白皮书V2.0》[10],这为推进我国大数据体系架构研究和标准化工作提供了重要技术基础。
 
    3 面向特定领域大数据参考架构
 
    在特定领域面临的任务种类多样,需要处理的数据类型繁多,比如在面向实时处理的电子商务在线交易、银行系统在线支付欺诈检测等任务时,需要在线分析大量结构化和非结构化数据;在面向网络安全密码破译、海量文本检索等任务时,需要离线分析大量结构化、半结构化数据。此外,在面向航天侦察、国防安全等任务时,相应的大数据系统往往还需要同时满足在线计算和离线分析的要求。
 
    由于面向特定领域大数据系统在安全性、可靠性、时效性、多样性以及数据质量等方面的特殊要求,传统面向单一任务类型的数据处理平台和框架无法有效应对特定领域的大数据处理需求。比如,基于传统MapReduce架构的大数据处理平台对于需要迭代离线计算的文本处理和数值计算具备优势,但是可能无法应对数据流条件下的大规模图数据处理;同样基于Spark架构的大数据分析平台在大规模流式数据处理上具备较大优势,但是对于密码破译和气象预报等巨大计算量类型的大数据业务可能无法有效应对。因而,面向特定领域的大数据平台参考架构既需要考虑特定领域的特殊性,又需要考虑这类任务的通用性。
 
    综合考虑特定不同任务特点、不同用户需求和不同数据差异,提出如图1所示的面向特定领域大数据参考架构模型。参考架构由数据源层、大数据管理层、大数据计算层、大数据应用层、大数据相关通信协议和标准、大数据安全维护和管理等部件组成,其中大数据相关通信协议和标准、大数据安全维护和管理两大部件贯穿大数据参考架构始终。大数据管理层和大数据计算层由底层各类物理存储资源、计算资源和网络资源等通过虚拟化和分布式技术形成的虚拟资源提供支撑,构成大数据体系平台。自底向上,面向特定领域大数据参考架构体现了“数据→信息→知识→决策”的转化过程,实现大数据到大价值的转变。
 
    面向特定领域大数据平台架构及标准化研究
 
 图1 面向特定领域大数据参考架构
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐