e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

面向特定领域大数据平台架构及标准化研究

2017/10/29    来源:大数据期刊    作者:佚名      
关键字:大数据平台架构  大数据标准  
文章研究了特定领域大数据的特点和现实需求,给出了适合这些领域大数据建设的参考架构,结合大数据主流技术和基础平台,详细分析了特定领域大数据参考架构的不同部件。

    (1)数据源层
 
    主要负责数据的供给和数据清洗等。面向特定领域大数据来源广泛,类型多样,体量巨大。数据源层数据来源包括面向特定领域专门业务数据、系统运行数据、外部采集数据、环境感知数据和信息系统迁移改造过程中留下的历史遗留数据等。对于面向特定领域的大数据数据源,从数据类型维度分析,这些数据包括结构化数据、半结构化数据和非结构化数据;从数据时间维度分析,这些数据包括离线数据、近似实时数据和实时数据。这些数据体量巨大,比如航空航天领域每分钟实获卫星下传数据量可能超过1 GB,网络安全领域每天需要实时处理的数据量可能超过1 TB。各类数据由各类传感器传输到代理服务器,然后由各类代理服务器对这些数据进行数据去噪和清洗,并且实现数据的抽取、转换和加载(ETL)过程。
 
    (2)大数据管理层
 
    负责对特定领域大数据的存储、组织和管理。由于不同领域面临的任务不同,因而对数据格式、存储方法、读写方式、存储周期等要求差异较大,面向特定领域的大数据参考架构在大数据管理层设计了针对不同任务所需要的大数据组织和管理方法,包括采用分布式关系数据库、分布式文件系统、NoSQL数据库等。目前主流的分布式关系数据库包括Oracle RAC、MySQL cluster、MemSQL等。分布式数据库实现高扩展的方法主要有两个,即数据分片和读写分离。对于不同厂商的分布式关系数据库,其集群解决方案的技术架构可能存在巨大差异,比如Oracle RAC采用共享存储(shared-disk)架构,整个RAC集群建立在一个共享存储设备之上,节点之间采用高速网络互连,而MySQL cluster则采用无共享(shared-noting)方式,整个集群由管理节点、处理节点和存储节点组成,并且处理节点和存储节点可以线性增加,从而实现高效的横向扩展能力。对于银行、电子商务的大多数业务数据可以用关系模型描述的结构化数据,考虑采用分布式关系数据库系统进行组织管理。常见的分布式文件系统包括Ceph、HDFS、Lustre、GridFS等。由于Hadoop生态系统的日益壮大,以HDFS为代表的分布式文件系统被大数据系统广泛采用。HDFS数据存储时采用数据块方式按照一定策略多数据节点冗余部署,能够有效满足“一次写入、多次读出”要求,适合航空航天侦察等领域的视频、图像等海量数据的存储管理。
 
    NoSQL数据库大多具有无需预先定义数据模式和表结构、无共享架构、异步复制、最终一致性和软事务等特点。列存储数据库代表性系统包括Tokyo、Redis、Voldemort等,键值存储数据库代表性系统包括 BigTable、Dynamo、HBase、Gemfire、Cassandra等,文档型数据库系统的代表包括MongoDB和Couchbase等,图数据库的代表是Neo4j和Graph等。对于不同领域的任务需求,可以根据不同类型的NoSQL数据库特点,选取适合的大数据组织管理方式。比如,列存储数据库以列族式存储实现高可扩展,适合军事对抗环境下由各类传感器传送回的水文气象和地理环境大数据管理;键值型数据库通过散列表的方式实现Key-Value,具有查找速度快的特点,适合于电子商务广告业务分析中需要海量文本检索等场景;文档型数据库弱化数据结构要求,无需像关系型数据库一样需要预先定义表结构,适合于网络安全内容分析中原始数据管理;图数据库采用图结构的顶点和边方式存储,适合于电子商务推荐系统中商品交易网络关系分析和应急反恐中敏感人物社会关系分析等场景;对于面向大数据的分布式数据管理方案,大多都提供了成熟的索引管理、元数据管理、资源目录管理、负载均衡管理和抗毁容灾管理等功能,为上层的大数据计算层提供坚实的数据基础。在同一个大数据系统中,完全可以按照实际任务需求,对不同来源和不同类型的数据,分别采用不同类型的数据组织管理方法,实现对特定领域大数据系统的灵活部署和合理开发利用。
 
    (3)大数据计算层
 
    提供大数据运算所需要的计算框架和任务调度等功能,负责对特定领域大数据的计算、分析和处理等。根据大数据处理多样性的需求和不同的特征维度,大数据计算模式可以大致分为查询分析计算、高性能计算、批处理计算、流式计算、内存计算、迭代计算和图计算等。根据不同领域任务要求和数据特点,可以灵活采用上述一种或多种计算模式提供实时计算、在线计算或离线计算。查询分析计算模式适合于存储于数据仓库的大数据处理,这类计算一般对计算实时性要求不高,但要求能够保证在数据体量极大时仍有效提供多维数据查询分析能力,类似系统包括Hadoop下的Hive、Facebook开发的Cassandra等。高性能计算采用高性能互联方式将众多处理器联合起来进行科学运算,这类计算大多配套专门的操作系统和软件环境,适合通过科学发现第三范式即数值模拟的方法处理网络安全密码破译、航空航天飞行器空洞试验等典型任务。以我国“天河”“太湖之光”等为代表的系列高性能计算机代表了当前高性能计算的最高水平。
 
    大数据批处理的代表性计算模式是MapReduce,这是一种适合于网络内容安全分析、航空航天水文气象环境模拟等离线计算的处理模式。MapReduce采用“分而治之”的思想,将大量重复的数据记录处理过程总结成map和reduce两个抽象的操作,诸多系统层细节都在计算框架中自动完成。MapReduce计算模式在批处理计算方面优势明显,但是在电子商务和银行等领域的交易数据在线计算方面存在诸多不足。迭代计算模式在MapReduce基础上通过优化数据存储位置、持久化map和reduce任务、引入可缓存的map和reduce机制等手段,有效实现了迭代计算应用需求[11]。目前,最为典型的迭代计算系统是UC Berkeley AMPLab的Spark,其采用了基于分布式内存的弹性数据集模型实现快速的迭代计算。内存计算通过虚拟化和高效数据管理方法,在体系结构层面提高数据的读写效率,由于内存计算模式能够大幅减少磁盘I/O,因而在计算速度上远高于普通的MapReduce批处理。内存计算适合于实时性要求较高的大数据支撑的军事对抗领域指挥决策和实时情报处理等场景。流式计算是一种高实时性的计算模式,该模式需要对时间窗口内的新数据实时计算处理,从而避免数据堆积和丢失。在航空航天和军事对抗等特殊领域,相关数据系统往往需要同时具备处理高流量的流式数据和大量积累的历史数据的能力,因而在提供批处理数据模式的同时,系统还需要具备高实时性的流式计算能力。目前最具代表性的流式系统包括Twitter公司的Storm和加州大学伯克利分校的Spark Steaming等。图计算是采用以顶点、边和属性为主要元素进行组织存储的一种计算模式,这种计算模式特别适合于应急反恐敏感人物分析和电子商务推荐系统等重要领域中对各类社交网络、Web链接关系分析等应用场景,代表系统包括Facebook公司的Pregel和微软公司的Trinity等。
 
    (4)大数据应用层
 
    构建在大数据存储架构和计算架构之上,为了满足特定领域需要而开发的面向专门任务的大数据应用系统集合。大数据应用层提供各种挖掘模型和工具,并以可视化的方式展现给最终用户。常见的大数据挖掘和分析任务包括机器学习、规律分析、态势预测、异常检测等。为了满足大数据平台多用户的特点,系统采用虚拟化方法引入多租户模式,提供各类数据的访问控制方式。面向特定领域的大数据应用层包括涉及国家民生和安全密切相关的银行、电子商务、航空航天、网络安全、应急反恐、军事对抗等特定应用。此外,还可以根据特定领域任务的需要,以安全可控的方式向第三方提供开放数据平台等功能。
 
    (5)大数据相关通信协议和标准
 
    负责消息传输、数据管理和功能接口交互等的相关规则和约定。大数据相关通信协议和标准通常以协议栈和标准集合的形式定义数据处理和信息交互时数据单元应使用的格式、信息单元应包含的信息与语义、连接方式、信息发送和接收的时序等。通信协议和标准均具有层次性特点,每个层次完成一部分功能,各个层次相互配合共同完成相关功能。目前大数据相关协议和标准在充分继承传统数据处理的相关方法上不断创新发展。比如在数据管理层的分布式文件系统、NoSQL键值存储,在大数据计算层的MapReduce计算框架等,因为被大多具有影响力的开源系统所使用而成为事实上的协议和标准。此外,一些国际标准化组织和机构积极制定相关协议,NIST联合微软、Oracle、IBM以及加利福尼亚大学圣地亚哥分校等机构和组织联合编写了《大数据互操作框架》等大数据指导性文件,规范大数据相关通信协议和标准;云安全联盟(CSA)自2012年以来相继发布了《大数据安全与隐私十大挑战》《大数据安全和隐私手册》等报告;国际电信联盟标准化部门(ITU-T)2015年12月批准了代号为ITU-T Y.3600的首个大数据国际电联标准“大数据—基于云计算的要求及能力”,该标准描述了如何利用云计算相关技术对大数据进行处理,并提供大数据服务。大数据相关通信协议和标准有效保证了大数据架构内部各部件之间以及大数据系统之间互联、互通、互操作,具有重要意义。
 
    (6)大数据安全维护和管理
 
    作为面向特定领域大数据参考架构的重要部分有着十分重要的意义。由于面向特定领域的相关大数据系统涉及国家民生和安全,容易成为犯罪分子和敌对势力的攻击目标。大数据系统的攻防双方在目标上具有不对称性特点,因而在安全性上,面向特定领域大数据具有更高和更特殊的要求。面向特定领域大数据安全既包括传统数据平台的物理安全、系统安全、网络安全等,又包括大数据特有的数据安全、隐私防护等。由于面向特定领域大数据系统属于弱电工程,耐压值很低,所以在物理安全上除了应该考虑传统物理打击外,还需要考虑地震、水灾、火灾、电源故障等环境事故,操作失误或错误等人为事故以及数据的外部电磁干扰和线路截获等。主机和数据中心级别的冗余通常是处理物理安全的有效手段。面向特定领域的大数据参考架构中对数据存储资源和计算资源均采用分布式冗余部署,具备较高的物理安全防护级别。系统安全主要表现在大数据运行平台使用的核心软硬件是否能够自主可控。同时应避免系统关键软硬件的崩溃、损坏和供应链的断裂导致的对系统存储、处理和传输的破坏和损失,保证大数据系统信息处理和传输的安全[12,13]。面向特定领域大数据系统核心软硬件产品包括操作系统、数据管理平台、数据计算平台、处理器和关键板卡等,在同等条件下应优先采用国内自主品牌,对于开源软件应具备吸收引进后的二次开发能力。网络安全体现在大数据系统内部网络和开放数据共享平台上的系统信息的安全,包括用户口令鉴别、用户存取权限控制、安全审计、计算机病毒防治等。数据安全主要体现在数据的分级访问控制、数据加密存储和传输、数据完整性和数据真实性等。此外,面向特定领域大数据隐私保护也非常重要,比如在军事对抗领域,很多关键信息都涉及大数据隐私保护问题,一旦出现隐私泄露将可能造成严重的后果。
 
    对上述面向特定领域大数据参考架构中不同部件进行角色模型分析,数据源扮演大数据提供者角色,大数据管理层和大数据计算层扮演大数据运行框架提供者角色,大数据应用层扮演大数据消费者角色,大数据安全和维护管理扮演大数据安全维护者角色,大数据相关通信协议、标准以及大数据系统维护者扮演大数据协调运维者角色。面向特定领域大数据参考架构各个部件密不可分,角色互补,形成一个有机统一总体。
 
    4.面向特定领域大数据标准体系
 
    大数据标准之间存在着相互依存、相互衔接、相互补充、相互制约的内在联系,通过建立大数据标准体系,可以形成科学的有机整体[10]。同时,大数据标准体系是大数据标准化研究发展的基石,对标准化研制工作具有重要的指导意义。
 
    由于特定领域大数据在安全性、可靠性、时效性、多样性和数据质量等方面有着更高的要求,所以在相关标准的制定过程中应区别于传统领域,重点关注其业务特点,突出特定领域的特殊性,增强数据质量、数据安全等相关标准在体系中的地位,有针对性地进行特定领域大数据标准体系的建设工作。
 
    本文针对特定应用领域的大数据的内在需求,结合国内外大数据标准化情况、大数据技术发展现状以及大数据未来发展的趋势,充分考虑特定领域的业务特点和特殊要求,提出面向特定领域大数据标准体系,见表1。
 
   面向特定领域大数据标准体系
 
    表1 面向特定领域大数据标准体系
 
    特定领域大数据标准体系主要由6个部分的标准组成,分别为:基础标准、技术标准、平台标准、应用标准、安全标准、质量标准。
 
    (1)基础标准
 
    基础标准是大数据标准体系的根基,是解决跨平台异构数据互操作问题的前提,主要用于规范大数据基础层面标准。基础标准主要包括术语、大数据参考模型、大数据架构标准。
 
    目前国际上比较有影响力的基础类标准是NIST发布的《大数据互操作框架》[14],该标准对基础层面的大数据术语定义、参考模型和大数据架构等都进行了详细阐述,并提出了大数据标准体系发展路线图。近些年,中国电子技术标准化研究院针对我国大数据技术和标准发展现状,相继发布了两个版本的《大数据白皮书》[10],补充了国内基础标准研究工作,为特定领域大数据基础标准相关研究提供了重要依据。
 
    (2)技术标准
 
    该部分标准主要针对大数据相关技术进行规范,包括大数据集描述、处理生命周期技术、分布式技术和互操作技术4类标准。其中,处理生命周期技术主要针对数据收集、数据预处理、数据存储与管理、数据处理与分析、数据访问与接口、数据可视化等方面进行规范。同时,面向特定领域大数据实际应用需求,还提出了分布式技术和互操作技术标准,以规范解决数据规模大和异构性问题的方法。其中,分布式技术包括分布式存储和分布式计算等规范,互操作技术包括不同数据模型间互操作和不同平台架构间互操作等技术规范。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐