e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

大数据技术发展趋势及灯塔大数据行业应用平台

2017/3/20    来源:中兴通讯技术    作者:王若倪  赵慧伶      
关键字:灯塔大数据  数据库架构  
指出大数据发展的趋势:混合数据存储是大数据技术的基础;融合数据库架构是大数据发展的趋势;异构数据关联是大数据平台的关键;行业知识库是产业互联网应用发展的要素;深度标签是大数据挖掘的核心技术之一。
    大数据是信息时代技术创新的产物,大数据与云计算、物联网等新技术相结合,正日益深刻地改变着人们的生产生活方式。大数据产业的出现和发展是现代信息技术与互联网时代海量信息发展到一定阶段的必然结果,必将对当今社会的信息技术、商业模式和相关的法律法规产生深刻影响。大数据经历了基础理论研究和产业应用探索,与行业应用结合已成为大数据发展的新机遇。
 
    1、大数据技术发展趋势
 
    (1)混合数据存储是大数据技术的基础
    
    在大数据环境下,数据量达到了PB级甚至EB级。大数据存储一方面需要提供超大容量的存储空间,另一方面需要支持对海量数据的智能检索和分析。为了兼容各种类型的大数据应用,大数据存储需要提供混合的数据存储模型,支持文件、对象、键值、块等多种访间接口,作为大数据技术的基础。
   
    (2)融合数据库架构是大数据发展的趋势
    
    随着大数据业务的发展,除了面向强关系型的结构化查询语言(SQL)数据库之外,面向各类应用的接口灵活、功能丰富且高效的NoSQL数据库也得到了蓬勃发展。在应用类型多样、数据种类繁多的大数据平台中,融合关系型数据库、列数据库、内存数据库、图数据库等多种数据库的混合数据库架构,能够满足多种场景下的数据处理需求,是大数据发展的必然趋势。
 
    (3)异构数据关联是大数据平台的关键
    
    当前,各行业、企业、系统、平台都累积了海量的数据,这些数据结构不同且相对独立,在没有建立起关联关系的情况下,难以展现出数据的优势。将这些多源异构数据进行关联和融合,挖掘数据之间的相关性,能够为数据分析奠定坚实的基础,最大限度地发挥数据价值,是大数据平台的关键所在。
    
    (4)行业知识库是产业互联网发展的要素
    
    随着“互联网+”战略的实施,各产业尤其是传统产业,纷纷进行互联网化转型。在“互联网+”的浪潮下,面向多个行业,深挖行业知识详情,构建行业知识库,形成完整的行业知识体系,能有效推动数据应用与价值落地,是产业互联网发展的关键。
    
    (5)深度标签是大数据挖掘的核心技术之一
    
    数据挖掘越来越多地应用到各个行业应用领域,使用数据挖掘技术而打造用户深度标签,已经逐渐成为大数据挖掘的热点。通过针对大数据场景的数据挖掘,深入分析用户行为,打造多层次、多角度的用户深度标签。深度标签是大数据挖掘的核心技术之一,它使得大数据应用更加精准,业务能够更加贴近用户,更好地满足用户的需求。
 
    2、灯塔大数据行业应用平台
  
    总体架构
    
    在大数据的发展浪潮下,中国电信股份有限公司北京研究院通过大数据技术创新,自主研发了业内领先的灯塔大数据行业应用平台。灯塔大数据行业应用平台深入研究大数据平台技术和应用技术,为满足顶层大数据应用需求,自主开发大数据能力,实现电信数据与外部数据相融合的大数据分析挖掘,打造了ID关联模型、用户深度标签、行业知识库、分布式爬虫、数据可视化等平台即服务( PaaS)层能力,少十以标准化应用程序编程接口(API)的形式支持顶层数据的相关应用,打造了市场研究、泛义征信、地理洞察等三大领域的6款大数据应用。
    
    灯塔大数据行业应用平台技术架构如图1所示,其底层平台基于开源技术搭建,融合了离线批处理、内存计算、流计算等多种计算模型,以及关系型数据库、列数据库、内存数
 
    据库、图数据库等多种数据库模型,向上提供计算和存储能力;在大数据开放能力层,研发了ID图谱、用户标签等多种大数据分析挖掘技术,并结合第三方的地理信息系统(GIS)等能力,面向多个行业领域,向应用层以API的形式提供多种数据服务。
 
    3、灯塔大数据行业应用平台
  
    关键技术
    
    灯塔大数据行业应用平台主要研发了混合数据库、ID关联模型、用户深度标签、行业知识库、统一数据采集与存储等几项关键技术。
 
    3.1 混合数据库
    
    融合关系型数据库、列数据库、内存数据库、图数据库,}1=提出面向不同存储过程和计算需求的混合数据库模型,可以满足多种场景下的数据处理需求,解决单一数据库模型无法满足大规模数据训练、高频高实时性计算、网状结构计算等不同场景下的数据处理间题。
    
    如图2所示,海量数据计算使用非关系型数据库(SQL)来支持;网状结构数据的机器学习训练依靠图数据库(Neo4j)来支持;高频高实时性计算对接内存数据库(Redis);小规模顶层数据查询与展现对接关系型数据库(SQL)。具体来说,包含4点内容:
    
    (1)能够实现有一定实时性需求的、传统千万级及以下的数据查询与展现业务,并基于传统关系型数据库MySQL来构建。通过加载数据预读取算法,MySQL的单机处理能力可以达到秒级访间5000万条多维数据的水平,能够满足一般的数据查询业务需求。
 
灯塔大数据行业应用平台
 
图1 灯塔大数据行业应用平台
 
混合数据库模型
 
图2 混合数据库模型
  

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
兴趣阅读
相关资料
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐