1. e-works数字化企业网
  2. 文章频道
  3. IT基础架构
  4. 大数据

Hbase 技术细节笔记(上)

2017年10月13日 来源:网络大数据 作者:佚名  
关键字:Hbase  Hbase 技术  
最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享。
    前言
 
    最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享,由于Hbase涵盖的内容比较多,因此计划分享2期,下面就是针对第一期Hbase技术分享整体而成,第一期的主要内容如下:
 
    一、Hbase介绍
 
    二、Hbase的Region介绍
 
    三、Hbase的写逻辑介绍
 
    四、Hbase的故障恢复
 
    五、Hbase的拆分和合并
 
    如下ppt所示:
 
Hbase
 
    下面就来针对各个部分的内容来进行详细的介绍:
 
    一、Hbase介绍
 
    1、Hbase简介
 
    Hbase是Hadoop Database的简称 ,Hbase项目是由Powerset公司的Chad Walters和Jim Kelleman在2006年末发起,根据Google的Chang等人发表的论文“Bigtable:A Distributed Storage System for Strctured Data“来设计的。2007年10月发布了第一个版本。2010年5月,Hbase从Hadoop子项目升级成Apache顶级项目。
 
    Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。
 
    2、Hbase几个特点介绍
 
    提炼出Hbase的几个特点,如下图所示:
 
Hbase
 
    2.1、海量存储
 
    Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。
 
    2.2、列式存储
 
    这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。为了加深对Hbase列族的理解,下面是一个简单的关系型数据库的表和Hbase数据库的表:
 
    RDBMS的表:
 
Hbase
 
    Hbase的表:
 
Hbase
 
    下图是针对Hbase和关系型数据库的基本的一个比较:
 
Hbase
 
    2.3、极易扩展
 
    Hbase的扩展性主要体现在两个方面,一个是基于上层处理能力(RegionServer)的扩展,一个是基于存储的扩展(HDFS)。
 
    通过横向添加RegionSever的机器,进行水平扩展,提升Hbase上层的处理能力,提升Hbsae服务更多Region的能力。
 
    备注:RegionServer的作用是管理region、承接业务的访问,这个后面会详细的介绍通过横向添加Datanode的机器,进行存储层扩容,提升Hbase的数据存储能力和提升后端存储的读写能力。
 
    2.4、高并发
 
    由于目前大部分使用Hbase的架构,都是采用的廉价PC,因此单个IO的延迟其实并不小,一般在几十到上百ms之间。这里说的高并发,主要是在并发的情况下,Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。
 
    2.5、稀疏
 
    稀疏主要是针对Hbase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。
 
    3、Hbase的几个概念介绍
 
    在我学习Hbase的时候有几个概念需要重点理解一下,列出4个基础概念如下图所示:
 
Hbase
 
    3.1、Column Family的概念
 
    Column Family又叫列族,Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。刚接触的时候,理解起来有点吃力。我想到了一个非常类似的概念,理解起来就非常容易了。那就是家族的概念,我们知道一个家族是由于很多个的家庭组成的。列族也类似,列族是由一个一个的列组成(任意多)。
 
    Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。
 
    Hbase的列族不是越多越好,官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
您可以:
排行榜
  1. 丽台 Quadro P5000 专业显卡评测报告
  2. 已有ERP和MES,为什么还需要质量管理系统(QMS)?-(1)提高供应商质量
  3. 西门子MES里面有质量模块,为什么还要收购质量管理软件(QMS)?
  4. 中外主流PCB设计软件大盘点(2011版)
  5. 数据库实时同步技术解决方案
  6. 工厂管理心得
  7. 车间管理方法
  8. 基于Solidworks有限元静应力分析使用要点综述
  9. 格力:携手浪潮,让世界爱上中国造
  10. 华为数智引擎,驱动长安汽车智造革新之路
编辑推荐
• 工厂人必看!MES和WMS别再傻傻分不清
• “超级生产团队”上线:懂生产,更懂怎么干
• 安徽芯纪元:打造具有中国“魂”的DSP“芯”
• 西门子EDA:构建数字化创新“底座”,驱动智能...
• 从定制化到高多层,嘉立创持续引领PCB创新时代
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 会叠衣服的中美机器人,谁离具身智能更近?
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
新闻推荐
• 联想中国交出第二财季成绩单:个人AI业务持续领跑,企业AI业务增势强劲
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产品开发转型
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI战略
• Fortinet 发布安全人工智能数据中心解决方案
• 智算时代,企业需要怎样的AI基础设施?
• 2025年第十六届德国工业4.0考察正式启航
• 艾默生公布 2025 财年第四季度和全年业绩,并对 2026 财年做出初步展望
• 和利时智能仪表与XMagital®智能系统解决方案交流会圆满落幕
• ManageEngine卓豪:聚力IT管理革新,驱动企业数智升级
• ABB电气连续21年荣登中国电气工业百强榜,多领域斩获十强殊荣
• 中国经济增速继续领跑 制造业将现跃迁式提升

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看