e-works数字化企业网  »  文章频道  »  管理信息化  »  BI

大话Hadoop1.0、Hadoop2.0与Yarn平台

2017/3/12    来源:互联网    作者:佚名      
关键字:Hadoop  Yarn  
文章介绍了Hadoop1.0、Hadoop2.0与Yarn的联系。

    近来这几天一直在忙于Hbase的实验,也没有太静下心来沉淀自己,今天打算写一篇关于Hadoop1.0、Hadoop2.0与Yarn的文章,从整体上把握三者之间的联系,内容如有问题,欢迎留言指正!OK,进入本文正题……

    在开始接触Hadoop的时候,也许大家对于Hadoop是下面的一个概念:Hadoop由两部分组成,一是负责存储与管理文件的分布式文件系统HDFS、二是负责处理与计算的MapReduce的计算框架。即Hadoop通过HDFS既能够存储海量的数据,又能够通过MapReduce实现分布式的一个计算,用一句话来概括Hadoop就是:Hadoop是适合大数据的分布式存储与计算的一个平台。

Hadoop是适合大数据的分布式存储与计算的平台

图1 Hadoop是适合大数据的分布式存储与计算的平台

    在这里我们先看一下HDFS的体系结构:

HDFS的体系结构图

图2 HDFS的体系结构图

    HDFS的体系结构是一个主从式的结构,主节点NameNode只有一个,从节点DataNode有很多个,大家在这里面要注意:主节点NameNode与从节点DataNode实际上指的是不同的物理机器,即有一台机器上面跑的进程是NameNode,很多台机器上面跑的进程是DataNode ,也就是说服务器的角色是由其上面跑的进程的角色决定其是什么类型的服务器,不然大家都是一堆物理机器而已,对于这个概念大家务必要区分清楚。

    接下来我们依次讨论HDFS中NameNode、SecondaryNameNode与DataNode在集群中的作用:

    NameNode的作用:

    ●1>NameNode管理着整个文件系统,负责接收用户的操作请求

    ●2>NameNode管理着整个文件系统的目录结构,所谓目录结构类似于我们Windows操作系统的体系结构

    ●3>NameNode管理着整个文件系统的元数据信息,所谓元数据信息指定是除了数据本身之外涉及到文件自身的相关信息

    ●4>NameNode保管着文件与block块序列之间的对应关系以及block块与DataNode节点之间的对应关系

    用一句话来概括我们的NameNode:NameNode在HDFS中是负责管理工作的。

    DataNode的作用:

    1>DataNode在HDFS中只做一件事情:存储数据,并且在HDFS中的文件是被切分成block块来进行存储的,这一点不同于我们的Windows,而在HDFS中之所以将文件切分成block块来进行存储,也是为了便于维护与管理。

    大家要特别注意一下:在HDFS中,我们真实的数据是由DataNode来负责来存储的,但是数据具体被存储到了哪个DataNode节点等元数据信息则是由我们的NameNode来存储的。

责任编辑:程玥
本文来源于互联网,e-works本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供,并以尽力标明作者与出处,如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐