e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

大数据技术发展趋势及灯塔大数据行业应用平台

2017/3/20    来源:中兴通讯技术    作者:王若倪  赵慧伶      
关键字:灯塔大数据  数据库架构  
指出大数据发展的趋势:混合数据存储是大数据技术的基础;融合数据库架构是大数据发展的趋势;异构数据关联是大数据平台的关键;行业知识库是产业互联网应用发展的要素;深度标签是大数据挖掘的核心技术之一。

    (2)对于千万级以上的数据查询业务,已超出单台MySQL的支持水平,更适宜转化成离线查询业务,直接使用非关系型数据库HBase来支持。此时数据查询的范围可扩展至数十亿甚至上百亿,系统仍可平稳输出查询结果,前提是付出分布式离线计算的延时代价。
    
    (3)对于在深度包检测技术( DPI)数据的K-V查询过程中需同步完成标签数据在灯塔本地服务器的ETL工作的场景,任何传统磁盘输入输出(IO)基本都无法支持该高频数据存取操作,则借助内存数据库Redis来完成。Redi、可在典型的单台计算资源下支持100毫秒级的数据ETL操作,少十且可以与K-V查询进行无缝衔接,轻松应对每日2亿条标签数据入库。
    
    (4)对于图状数据结构,如灯塔平台中典型的ID知识体系,则适合从边和节点的角度进行数据存储、表达和计算,无论行数据库还是列数据库都不再适合,因此采用图数据库Neo4j来支持。
    
    目前,灯塔大数据行应用平台支持1 000万级多维数据的秒级查询展现,10亿级多维数据的24 h内基础演算,100毫秒级的数据流处理,并可秒级完成10亿级边、1 000万级节点的子图查询运算。
 
    3.2 ID关联模型
    
    基于图计算技术构建ID关联模型,采用图数据库进行数据存储和模型计算,实现DPI数据内的多种用户ID关联,解决了电信数据与外部数据有效关联和拼接的间题。ID关联模型建立设备标识一场景的图模型,通过图数据库、图计算得到隐性变量用户唯一标识,打通用户各个设备,实现全面的用户画像。
    
    ID关联模型对内实现数据融合,将DPI数据内的多种用户ID关联,实现多场景、多屏幕信息打通,从而实现更全面和精准的用户描述;对外实现数据开放,借助从DPI中挖掘出的外部ID,实现运营商数据与外部数据的打通,从而打破了电信数据开放的壁垒。
    
    目前,灯塔大数据行业应用平台已积累超过100类ID数据,ID总量超5000万。
 
    3.3 用户深度标签
    
    根据用户上网行为、使用机器学习和模式识别等算法,如树状增强型朴素贝叶斯(TAN)分类算法等,推断用户的性别、年龄等基础人口属性,井打造消费偏好、消费能力等其他深度标签,用于支持用户行为分析的大数据应用。
    
    目前,灯塔大数据行应用平台已构建超过10个行业的总计6000余类用户深度标签。
 
    3.4 行业知识库
    
    通过整合数据采集、数据存储、数据形式化、数据表达等环节,打造完善的行业知识库,为运营商网络大数据的解析提供必要的支持。其中,行业知识库的构建包含以下环节:
   
    (1)基于分布式爬虫进行数据采集。如图3所示,分布式爬虫DTSpider基于开源技术WehMagie与内存数据库技术Redi、而研发,搭建在云主机上,提供行业知识库数据采集解决方案。
    
    (2)面向垂直行业构建知识体系。如图4所示,行业知识库面向如电商、新闻、影视等不同的垂直行业,分别构建树状知识体系,能够直接对接标签能力应用。例如,电商行业的树状知识体系,可按照商品类别进行构建,如图书、服饰、运动健康等。
    
    (3)深挖垂直行业知识详情。基于从页面抓取的标题和正文,经自然语言处理得到知识详情,例如电商库存量单位(SKLJ)名称、价格、参数、评论等。
    
    目前,灯塔大数据行应用平台的行业知识库整体字典规模超过2亿,其中电商和视频分别占1.2亿和6 000万、3.5统一数据采集与存储
    
    面向电信管道数据、互联网公开数据和企业自有数据等多种数据类型,分别构建数据采集能力,并定义了统一的数据采集接口与存储接口,解决了多源异构数据的采集与存储的相关间题。
    
    (1)电信网络大数据采集
    
    电信网络大数据采集包含以下环节:DPI分光采集、数据清洗、数据脱敏、规则匹配预处理、业务数据传输、数据入库等环节,如图5所示。
 
分布式爬虫DT Spider
 
图3 分布式爬虫DT Spider
 
行业知识体系
 
图4 行业知识体系

电信网络大数据采集流程
 
图5 电信网络大数据采集流程
 
    在基层分局进行一次采集与清洗,在业务平台进行二次采集与存储。具体来说,在基层分局分光设备采集(一次采集)得到固网/移动DPI数据,然后采用通用清洗规则与白名单规则相结合的方式,过滤掉DPI数据中无效及重复清求,并保证各类业务的数据需求。经过规则匹配预处理,从DPI中抽离井编码得到业务所需的数据,以标签形式传输(二次采集)井入库至业务平台,提供给PaaS层的生成数据能力,最终对接软件即服务(SaaS)层的数据应用。
    
    根据生产平台数据接口差异以及顶层业务类型差异,电信网络大数据的二次采集可采用实时或离线模式。如图6所示,实时流处理模式是通过K-V查询接口,以流处理模式,逐条传输、ETL ,融合井入库至业务平台。离线批处理模式是通过安全文件传送协议(SFTP)传输接口,将数据离线批量采集至业务平台缓存中,再进行批量抽取、加载、转换(ETL),融合并入库至业务平台。
    

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
兴趣阅读
相关资料
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐