e-works数字化企业网  »  文章频道  »  基础信息化  »  IT综合

基于云计算的数据采集分析系统

2014/8/25    来源:中国云计算    作者:李东辉  方方  吴小志  朱广新  茹萌      
关键字:云计算  Hadoop  web服务  数据采集  
从云计算三个层次的服务模式出发,提出了一种基于云计算平台的分布式并行信息系统数据采集分析系统。首先,通过Hadoop云计算平台提供的分布式文件系统提升数据的存取速度,增强系统的容错性。在此基础上,利用MapReduce编程模型并行化数据流系综分类算法,提高数据的分类挖掘效率。最后,采用Web Service技术构建了SOA服务体系架构,从而整合了技术平台。测试结果表明,检测系统运行高效,并且检测精度高,具有一定的实用性和推广价值。

  近年来,随着信息系统数量的快速增长,传统基于B/S或C/S结构的信息系统数据采集分析系统已经远远不能满足众多数据同时查询、存取海量检测信息,以及快速从中对系统数据采集分析的基本诉求。而云计算作为多种计算机与网络技术发展融合的产物,具有高效、廉价、容错、易部署和扩展等特点,能够从根本上解决传统车辆检测系统面临的诸多问题。本文将从云计算三个层次的服务模式出发,采用Hadoop开源云计算平台以及并行数据流系综分类挖掘算法对原有系统进行改造,设计出信息系统数据采集分析系统,为云计算系统的部署和实施提供了实例参考。

  1、相关知识

  云计算是分布式计算、并行计算和网格计算的发展,是这些计算机科学技术的商业表现形式。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算能力、存储空间和各种软件服到引。根据云计算提供服务的层次可将它的服务模式分为3种即IaaS基础设施即服务、PaaS平台即服务、SaaS软件即服务。

Hadoop云计算框架是由Apache基金会设计的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序,这样就可以充分利用集群的能力进行高速运算和存储,从技术层面上,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。

  2、系统的研究与设计

  云计算系统提供服务是以IaaS、Paas、SaaS3种模式进行,本文的设计思路是以Hadoop平台提供的HDFS、MapReduce分别对应laas、PaaS,并且由SOA体系架构中的web服务技术提供SaaS服务。系统总体架构如图1所示:

云计算检测系统总体设计

图 1 云计算检测系统总体设计 

  2.1 IaaS

  经过现场勘察,现有的信息系统数据采集分析系统是基于B/S结构的,利用一台运行Oracle数据库的IBM P6-550服务器作为数据中心,一台DELL PowerEdge SCl425服务器用作数据的备份和系统繁忙时分流,其它集群服务器提供决策支持、实时视频监控、安全接入验证等服务。这种系统架构的弊端在于:当检测高峰时段来临,大量信息系统产生的数据需要同时读写、查询与传输,这对于数据中心和专用网络的压力显然是巨大的,且极易产生系统瘫痪、读写错误等事故。

  为满足系统要求,本文选取HDFS作为底层基础设施服务,利用其高容错性、快速访问及传输数据的特点,将其部署在电网信息中心服务器集群之上,具体方案参照HDFS指南如图2所示:

HDFS部署示意图
图 2 HDFS部署示意图

  我们选取集群当中一台中心服务器作为NameNode节点,负责保存以及管理元数据,执行文件系统的namespace操作和客户端对数据的访问。其余集群服务器作为DataNode节点,仅需要管理各自节点上的block数据块并等待NameNode节点的指示完成打开、关闭、复制、删除等等数据操作即可。这样做不但降低了数据中心的负担,也可以更加合理的利用集群中的剩余计算及存储资源,从而提高了数据处理效率,增强r数据的容错性。

  2.2 PaaS

  云计算系统最核心的技术是并行汁算,为了能够让用户更方便地获取云服务,Hadoop云计算平台采用了开源的Google MapReduce计算模型提供PaaS服务。

  由于原有的信息系统很大程度上依赖于人工从检测数据上判断系统是否符合标准,再由工作人员将结果录入系统传回中心服务器数据库。这样不但浪费了大量的人力物力,而且检测结果的准确性和可信性也会随之大打折扣。

  通过分析,系统信息具有海量、快速到达等数据流特征,采用数据流分类挖掘算法自动将被测信息系统分为合格与不合格两类是可行的。

  分类器系综算法采用训练一系列分类器,根据其在待分类数据上的分类准确率作为权值,并保留权值最高的n个分类器,最终加权投票做出决策。Wang等人在文献中不但证明了系综分类在提高分类精度方面的有效性,还同时提出的基于动态权重的数据流系综分类算法,但执行效率远不能满足多检测线并行检测的实际问题。为此,引入Hadoop云计算平台中的MapReduce编程模型并行优化基于权重的数据流系综分类算法,自动完成辅助决策任务。

  算法的执行流程为:

  (1)将采集的系统信息数据流采样作为训练数据并划分成规模相当的n个数据块。

  (2)并行在这n个块上训练出n个基分类器,对每个块做格式化操作解析出<keyl,valuel>对,在此处<keyl,valuel>等价于<Block,Classifier>,其中Block为块号,Classifier为基础分类器。

  (3)启用Master分配进程将n个训练数据块分别发送至分配了Map任务的n个结点,并将新到的待分类数据块放入公共资源池。每个分配了Map任务的节点收到<Block,Classifier>后,并行计算各自的分类器在待分类数据块上的MSEr(出错门限值)、MSEt(均方误差)以及权值w=MSEr-MSE,,同时产生中问键值对<Classifier,w>(注:Classifier为分类器名称,w为权值)

  (4)最后由分配了Reduce任务的节点接收步骤(3)中产生的<Classifier,w>键值对,并调用加权投票算法得到用于分类的最优分类器。

  由上述的算法分析可知,算法采用多数据块并行产生分类器,故算法的时间复杂度仅为原算法的l/n,大大缩短了自动决策的处理时间,提升了效率。

  虽然算法对于信息系统数据流的分类精度很高,但实际应用中需要辅助决策能够达到极小的分类出错率,故本文设计了单独的数据重分类进程。当数据流存入数据中心数据库时,利用静态数据分类挖掘算法离线多遍扫描数据来验证决策的正确性。

  2.3 SaaS

  云计算作为新一代计算技术,它的服务交付模式也与以往有很大不同。在SaaS这一层次,系统需要按照用户需求提供相应的服务模式,也就是说将服务遍布于云内形成服务集群。而由web服务构建的SOA服务体系架构,有利于整合技术平台、统一技术标准,符合SaaS服务模式的内在逻辑和基本诉求。本文设计的SaaS服务层次是以web服务作为基本技术,采用SOAP协议在web服务之间传递XML格式的检测信息,同时由wsdl描述web服务的接口,并提供服务之间的调用方法。构建SOA服务体系架构示意图如图3所示:

SOA服务体系架构
图 3 SOA服务体系架构

  参照上图,流程表述如下:

  (1)无论是监查主机还是监测主机都要先将经过MD5加密认证的用户名以及密码以SOAP协议封装,并通过总线云提供的WSDL接口找到身份安全认证服务WSDL接口将消息传递进去。身份安全认证服务解封装后根据用户类别赋予用户相应的权限,许可访问云系统。

  (2)当监测主机接收到设备传同的数据后,将监测数据和存储控制命令以xml格式存储并封装在SOAP协议中,通过云服务总线wsdl接口传送到数据操作服务wsdl接口,并由数据操作服务将消息解封装并提取xml中的数据进行存储操作。

  (3)监测主机发出以SOAP协议封装的自动辅助决策请求,通过云服务总线的中转将消息转发给辅助决策服务。接到请求后,辅助决策服务通过云服务总线向数据操作服务发送提取监测数据操作请求(SOAP协议封装的消息),数据操作服务提供相应服务并以xml格式化数据传给辅助决策服务,最后由辅助决策服务将系综分类结果传回监测主机。

  (4)监测主机接收到所有预打印数据后,将数据xml格式化通过云服务总线传给自助打印服务,自助打印服务提取数据,经过表格标准化、饺验、备份,添加打印控制命令,传回监测主机实施打印结果.

  (5)监察主机可以通过云服务总线监察整个云服务的行个方面,并拥有修改、增添、终止个服务的权限。

  3、实例应用与分析

  为了验汪设计方案的实际应用效果,本文以某电网信息数据采集分析系统为例,将数据分析采集服务平稳移植到云计算平台卜,并对云服务检测系统进行了实地部署和分析。

  3.1系统开发软硬件配置

  本文采用MyEclipse8.0作为开发平台,利用其自带的Xfire构建web服务,在WebSphere Application Server 5.0上发布服务形成云服务总线。云计算平台运行近期比较稳定的Hadoop 0.20.0版本,用MapReduce编程模型改进MOA中提供的基于权重的数据流系综分类算法。底层运行Oracle数据库提供数据服务。

  硬件方面原系统采用10台服务器集群的方案,其中中心服务器采用IBM P6-550基本配置为:2个3.5GHZPOWER6处理器、8G DDR2内存以及2个146G SCSI接口硬盘,其余为戴尔、联想等品牌服务器。

  4、总结

  本文提出了基于云计算理论的信息系统数据采集分析系统,能够将云计算和自动化检测技术相结合,为自动化检测平台提供高效、准确、安全、灵活的解决方案,为云计算平台的研究提供了现实依据。目前该采集分析系统已成功运行于电网系统信息采集工作中并得到用户的认可,旺明其具有极高的推广应用价值。 

责任编辑:涂君军
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐