e-works数字化企业网  »  文章频道  »  基础信息化  »  云计算和虚拟化

一站式异构互通、整库迁移上云帮你应对数据采集带来的挑战

2018/2/19    来源:云栖社区    作者:佚名      
关键字:数据采集  阿里云  
本文主要从为什么进行数据采集开始聊起,进而重点说明了如何应对数据采集带来的挑战,包括一站式实现异构互通、提供整库迁移云上能力等,最后举例场景为大家演示了实验步骤实践。
    在进行大数据分析的第一步或者说企业要做好运营的第一步,往往都需要将数据进行云化,针对多种异构数据或数据源,如何便捷、高效、稳定的对这些异构数据源进行数据的采集是我们入门大数据的第一步。本文主要从为什么进行数据采集开始聊起,进而重点说明了如何应对数据采集带来的挑战,包括一站式实现异构互通、提供整库迁移云上能力等,最后举例场景为大家演示了实验步骤实践。
 
    以下是精彩视频内容整理:
 
    为什么进行数据采集?
 
    我们主要依靠单维度的事务数据做决策,在大数据出现之后,我们需要基于用户的所有数据做决策,意味着从能制造数据变成能使用数据。如何才能够能使用数据?
 
一站式异构互通、整库迁移上云帮你应对数据采集带来的挑战
 
    数加总体数据加工解决方案这样的:先将应用产生的所有业务数据进行汇聚、分析、然后回流到业务系统,业务数据汇聚到数仓、回流的线上的过程就是数据采集的过程;
 
一站式异构互通、整库迁移上云帮你应对数据采集带来的挑战
 
    要完成数据采集,需要知道我们的数据在哪里?在创业初期,我们应用可能就是一个只需要支持几千个用户的系统,为了节省成本,我们的数据就存储在免费的MySQL中;
 
    随着访问用户的增加,会发现单个数据库的压力越来越大,然后我们进行:读写分离、使用缓存、甚至会去购买商用的数据库,oracle,来提高用户体验;直到有一天,你发现你在关系型数据库上进行统计查询时,查询时间远超过用户可接受响应时间,于是你一部分业务开始迁移到NoSQL上去,像的HBase。如果我们的应用是一个请求量波动极大的应用,比如电商应用存在:秒杀、双11大促,游戏应用在每天晚上是在线用户高峰期间,为了避免资源浪费,我们会去选择具备弹性伸缩能力的阿里云存储资源。你会发现:随着应用的发的、业务场景的变化,我们数据会分散到各种数据存储中,而且不同的数据存储都有自己的数据结构。
 
一站式异构互通、整库迁移上云帮你应对数据采集带来的挑战
 
    此外,如果你的业务系统已经有成千上万的表,这些表如何快速将数据采集到应有的线上系统中?这个时候可能需要去一步一步配置很多任务。如果你的业务是一个全国性的应用,每个地域都有自己的数据存储,不同地域的数据存储到自己的队伍机房里面,每个机房都有自己的私有网络,这时候不可能把数据存储通过公网IP的形式暴露出来,那么,如何进行一个跨网的数据存储?
 
    通过以上的分析,数据采集会带来哪些挑战呢,具体表现在以下四方面:
 
    1.不易运维。我们的业务存储被存在各种因果数据存储中,我们要完成这些异构数据存储的数据互通,需要我们使用很多的工具:比如:将MySQL数据同步到oracle中,需要我们写一个dump脚本、将oracle数据同步到HDFS中,需要配置使用sqoop;将日志数据采集到数据库中,需要使用flume等。随着业务发展,需要维护的数据同步工具会形成指数级的增长,运维也会越来越复杂。
 
    2.配置复杂。如果你有成千上万的表,需要每一个表、每一个字段去一一的映射匹配。
 
    3.局限于单机。如果数据量达到一定程度时候,单机的能力毕竟是有限的,不管是网卡还是CPU的能力都不够用,很有可能会把单机的网卡打满。
 
    4.无法跨网络。我们的数据可能在很多地域中都会有一些私有网络,我们无法直接去连接这些私有网络的IP,没办法进行两个地域之间的数据交换。面对这些问题,阿里云的数据集成是如何解决的?
 
    一站式实现异构数据互通
 
一站式实现异构数据互通
 
    首先,数据集成会做一次简单抽象,异构数据存储抽象为数据源;数据采集的抽取端抽象为Reader,数据采集的目的端抽象为writer;数据采集的架构就有网状的工具结构变成了以数据集成为中心的辐射结构;如果我们增加一个数据源,只需要在这个环上实现数据源和数据集成进行交互结合,比如现在有一个新出现的数据源,我只要在系统环节上实现数据集成的交互,就可以达到每增加一个数据源实现正能数据源和一流数据源之间无缝的互通,一站式实现各种异构数据源的数据互通,数据不再是孤岛。目前,数据集成已经覆盖了90%的数据源,包括普通的关系型数据库、大数据生态存储以及像阿里云的云存储。
 
    提供向导、脚本配置模式
 
一站式实现异构数据互通
 
    数据集成提供向导模式、脚本模式。如果你不是开发人员,只需要,在向导模式下,用户只需要一步一步的选择数据采集的源头、目的端,即可完成数据采集配置;如果你是开发人员,可以使用脚本模式,对一些数据库参数进行深度调优,同时我们可以支持选择一个数据源,就可以一键式将数据库下面的整个库迁移到云上的MaxCompute中。
 
    多并发、分布式执行
 
一站式实现异构数据互通
 
    如果你的数据集成配置一个业务,数据集成会根据你的任务级别情况,数据集成会自动将你的一个任务进行拆分为多个task,进而进行多并发、分布式的执行。突破单机瓶颈。只要的两端的数据库性能足够好,数据集成可以将每台执行机器的网卡打满。

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐