e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

Spectrum Scale,释放数据简化管理之美

2019/6/27    来源:e-works    作者:e-works  熊东旭      
关键字:Spectrum Scale  数据管理  
随着云计算、大数据等新兴技术的应用与发展,以及平台部署模式的多样化,企业的IT架构正变得越来越复杂,使得数据的管理难度和运维成本也越来越高。

    现代管理学之父彼得·德鲁克曾说,“最好的管理就是消灭管理”。这种思想与中国2500年前老子提出的“无为而治”思想很接近。用一种大众化的思想来理解就是,“简单的就是最好的。”

    这就像设计一款产品,以最简洁方式设计出来,那一定是最优的。从结构上来讲,用最简化的架构设计出的产品用到的零件最少,内部的运行效率最高,使得出故障的几率大大降低。反观今天的企业,随着云计算、大数据等新兴技术的应用与发展,以及平台部署模式的多样化,企业的IT架构正变得越来越复杂,使得数据的管理难度和运维成本也越来越高。

企业数据管理现状

    就数据管理这个话题,最近e-works在对制造企业的存储及数据应用现状调查中了解到,目前大部分企业并不知道如何去高效的管理和利用现有的庞大业务数据,更谈不上让数据发挥指导价值。其中最主要障碍在于缺乏有效的存储系统整合技术和数据管理手段。在对国内某大型重工企业的数据管理现状调查中了解到,由于多年的信息化发展,在企业现有的IT基础架构中存在多种异构存储系统并存的现象,有些老旧的存储系统使用寿命甚至已经超过10年,性能表现如何姑且不说,但仅仅就稳定性和可靠性而言,肯定会存在较大的数据安全风险。

    除此之外,近年来随着云应用的逐渐发展成熟,企业内部除了本地部署的传统存储系统之外,还有一部分企业将非关键业务应用迁移到云端,这种本地部署和多云环境的混合架构已经成为当前企业IT架构的主流趋势,同时也给企业的数据管理带来了巨大挑战。

    在工业层面,随着智能制造战略的推进以及物联网应用的发展,越来越多的智能终端和工业设备开始接入到企业的工业生产系统中,企业每天产生的数据量以GB甚至TB计算,而且越来越多的工业数据需要进行及时的分析处理,使得企业需要部署更多、更快、更稳定的存储系统来应对这种需求。这些存储系统可能是闪存系统,磁盘阵列或者是磁带库,也可能直接部署到云端。

    从企业存储系统应用现状看,由于存储产品的异构性以及多样化的部署方式,让企业的数据日趋分散,管理难度越来越大,如何整合和管理这些分散的存储系统和数据已经成为企业推进数字化转型过程中的巨大障碍。因此,企业普遍需要一种既能整合现有各种异构存储系统,又能为人工智能、大数据分析等高性能应用提供统一数据服务的技术和方法。

数据简化管理之美

    如何像揉捏面团一样把分散的数据柔合到一起进行统一管理是当前企业普遍关心的话题。这需要强大的异构存储系统整合能力,不管是高性能的闪存系统、传统的磁盘阵列、磁带库,还或者是云存储,都能够实现统一整合,同时还要保持整合后平台的良好扩展性和高可用性。

    面对这样需求,一种面向集群部署的GPFS文件系统受到了企业的高度关注。GPFS是IBM于上世纪90年代推出的并行文件系统,非常适合多节点、大数据量的文件并发处理,能够整合不同类型的存储系统,具备良好的可扩展性和高性能。自从4.1版本推出后,GPFS便更名为IBM Spectrum Scale,并入到IBM Spectrum产品线。

    IBM Spectrum Scale不仅完全继承GPFS的基本功能,兼容AIX,Linux and Windows Server操作系统,支持Power、Intel或AMD的处理器和服务器,还支持IBM z Systems,具有良好的可扩展性、闪存加速性能,以及基于策略的自动存储分层功能,还在GPFS的基础上增加了Hadoop大数据、对象等能力,具备丰富的特性、如Cache加速、生命周期管理、统一命名空间、多站点等;同时支持加密等特性和软硬件解耦部署。

    Spectrum Scale采用C/S结构对集群内的节点进行管理,主要在不同的节点上利用本地磁盘建立NSD共享盘,并将其通过Spectrum Scale统一管理生成共享池,提供给不同的终端使用,同时借助锁机制达到多终端同时读写的需求。具体通信原理图,如图1所示,命令执行如图2所示:

Spectrum Scale通信原理图

图1 Spectrum Scale通信原理图

    NSD是网络共享盘,一个虚拟的磁盘子系统,提供对Spectrum Scale内共享磁盘全局命名的功能。Cluster是多个节点的集合,它们共享同一个或者多个并行文件系统,集群里的节点可以并发访问这些文件系统内的数据。失败域是一个磁盘的集合,一个单点故障会引起集合内部的所有磁盘同时失效。仲裁是保障Spectrum Scale资源可用和完整性的机制,在Spectrum Scale中,如果半数以上节点Spectrum Scale守护进程正常工作,次机制就被激活,Spectrum Scale系统处于正常工作状态。

Spectrum Scale操作执行原理图

图2 Spectrum Scale操作执行原理图

    Spectrum Scale操作执行过程:本地磁盘将被发现并添加到全局的命名空间中,形成网络共享盘(NSD),供集群调用。NSD将保存数据分为多种类型,主要是用于检索的元数据(meta)和用于存储的data数据。集群将生成的NSD盘按照不同的需求生成多个或单个共享磁盘,供上层服务器挂载。最后上层服务器可以利用mount(Linux下的一个命令)将多个或者单个共享磁盘挂载到本地,进行数据存储,同时保证并发操作。

    Spectrum Scale最大的特点就是为所有数据提供单一文件命名空间,不管是闪存、磁盘、磁带库,只要接入到系统中都会自动被发现,并添加到全局的命名空间,形成可供集群调用的网络共享盘。这种机制能很方便的将企业中分布式的异构存储系统整合到一起,包括闪存系统、磁盘阵列、磁带库、云等多种产品形成一套存储系统,IBM Cloud或Cloud Object Storage均可作为其一个存储层使用。

    为了提高存储系统的整体性能,Spectrum Scale可以自动检测服务器上的可用闪存容量并将它作为高速缓存来使用。除此之外,Spectrum Scale还配备了政策驱动的、增强分析的自动化分级功能,可以将数据移动到最合适的存储设备上,比如在存储系统内部根据数据的使用频繁度实现数据在闪存、磁盘、磁带库以及云存储之间的热迁移,以最高效的方式利用存储空间,从而降低存储的使用成本。

    目前,IBM Spectrum Scale的部署和交付方式主要有三种:

    第一,基于云平台部署。比如通过与IBM Cloud云平台集成或者与OpenStack开源云平台集成,实现对多云环境下的存储及数据管理。

    第二,基于现有硬件部署。由于企业大多想尽可能的利用现有的硬件系统,而不是重新购买新的硬件,因此这种是目前大多数企业优先选择的方式。IBM Spectrum Scale可支持不同的服务器硬件和操作系统,包括Linux on Power、Linux on IBM z Systems、Linux on x86(64-bit)、IBM AIX on Power、Microsoft Windows on x86(64-bit)。

    第三,直接购买IBM提供的软硬一体化设备,这些硬件设备上已经预装了IBM的相关软件。Spectrum Scale是存储虚拟化软件,与硬件解耦,企业可根据应用需求选择硬件,但考虑到灵活性,可以采用通用硬件,考虑性能,可以选择配置较高的硬件,IBM推荐的服务器为Elastic Storage Server。

    Spectrum Scale搭配IBM的服务器和JBOD硬件组合为Elastic Storage Server,这种方案的优势是能获取更高的性能和数据恢复效率,承受硬盘框级别的故障。这是因为Elastic Storage Server实现了EC方式的软RAID,这是一种能实现自动纠错的技术,软RAID支持EC(最大3)和副本(最大4副本),数据分布到更多盘。如果某一个盘上的数据损坏或丢失,可以通过EC方式恢复数据。

    笔者认为,随着云计算、大数据和人工智能等技术的发展。在IT基础架构层面,传统本地部署和云部署的混合云架构将成为主流趋势,在业务应用层面,大数据和人工智能等应用极大的提高了企业对大规模并行计算能力的需求,分散在各种异构存储系统中的数据必须实现整合。在这种需求下,Spectrum Scale这种软件定义存储产品能充分发挥作用。

责任编辑:程玥
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐