e-works数字化企业网  »  文章频道  »  基础信息化  »  存储

关于归档的几个最新技术

2015/1/21    来源:TechTarget中国    作者:Jon Toigo      
关键字:归档  FLAPE  闪存加速带  分层存储  
存储专家Jon Toigo概括介绍了几种归档技术,以及保障它们顺利运行的技术,并解释了数据分类至关重要的原因。

  你知道什么是FLAPE?如果不知道,你可能已经跟不上最新的归档技术发展。请看存储专家Jon Toigo对于归档以及如何避免无意将垃圾信息归档保存是怎么说的。

  数据归档的想法——将其放置在一个安全节能,合理组织的信息库里,以备将来某一天的突然需要——听起来够直白了吧。然而即使是这样一个简单的想法也是充满了问题,需要提前做好深思熟虑的。本文讨论的一些决策可能会影响到你的归档项目的成败。

  在大多数关于归档的讨论中的一个典型问题就是,数据的组织方式和格式是否经得起时间的考验。如果数据归类的方式在以后需要发生改变,那怎么办——例如,对某些类型数据管控和保留的规则发生了变化。或者用于创建某种数据的应用程序不再被新的操作系统或硬件平台支持,比方说10年后?难道在可预见的未来你都必须保留一份现有应用程序和处理器的副本吗?这些实际问题都需要简单而有效的解决对策。

  从数据归档方法的发展上思考这些问题的答案是有助益的。在过去,数据归类并放入存档是根据元数据(metadata),或数据的数据。一个数据集或文件,根据其元数据,如果在30、60、90天或更长时间内没有被访问到或修改,就会被简单地迁移出生产系统的存储空间,转入归档存储。然而,这种方法没有任何粒度的区别。它完全不顾数据的重要性,与特定业务流程的相关性,或者与任何数据保留的法规法律的关联性。所以这个过程有可能保存下来的有可能是垃圾文件,互联网cookies和浏览器残余,甚至是很久以前测试、开发过程中创建的临时虚拟机的镜像文件。

  最起码的一点是,除非你有一个“数据清洁”的程序到位,并帮助清除掉那些杂物,否则你的存档系统注定会像你的主存储系统一样,在经过一段时间后充满了各种垃圾。这使得将来在存档系统中搜索和使用有用信息更具挑战。

  对于无颗粒数据选择的一种可选方案是基于谁创建它来进行分类。如果甲乔在会计部门工作,从乔甲的工作站中出来的所有数据都可以被作为“会计类数据”,并经由为该类数据所制定的存档策略进行处理。然而,这种做法也为以后留下了麻烦,例如,当甲乔的职位发生变化,从会计部门到销售部门(对数据归档的策略完全不同),或者当甲乔喜欢上社交媒体,他在推特和博客中分享关于他的孩子和爱好的信息开始和他的合法工作文件一起存档。你不得不再次面对存档系统满是垃圾,数据搜索使用很难的结果。

  根据部门工作流程的数据分类

  数据分类的最佳方式是把概念作为最大的粒度:按部门的工作流程创建数据分类,而不是按用户角色来分类数据。然后在元数据中设置像“数据上次访问时间”和“数据最后修改时间”这样的触发器,以确定何时将相关文件转移到存档系统。一些新兴的分层存储架构,如FLAPE(flash plus tape,闪存加磁带),可以使你在把数据写入主存储系统(闪存,硬盘或两者的组合)的同时就把数据也保存到归档系统,这样,你无需以后再次把数据移到归档系统,而是保存在主存储系统中的文件在达到其归档点后会被简单地删除。

  作为一项规则,今天的归档管理员会尽量规避那些可能有“时限”的数据格式。文件系统看起来相当稳定,但是用于存储数据位的“容器”,要使得它们在离开了最初创建它们的原软件后,依然能够被使用——例如,有些商业文件格式,如Adobe PDF,或部分仍然处于试验阶段的“标准”XML容器——这依然是个问题。一家重要的国家档案馆几年前选择了Adobe PDF作为他们的数据容器,却对此决定后悔不迭。因为Adobe在他们决定后的两年就改变了PDF格式,他们为此不得不对每一个数据进行“解”摄取,重新格式化,然后重新摄取的工作,花费了比以前多出30多倍的时间和工作量。

  另一个挑战则可能来自于早期对文件系统的稳定性和永久性的假设。实际上,文件系统也一直在改变,新的文件系统,被每一个今天流行的操作系统引入并利用,伴随着新的功能特性,例如作为存储方法一部分的重复数据删除和压缩,或作为数据保护方法的纠删编码。文件系统扁平化趋势随着网络的发展有可能预示着传统的分层或基于树的文件系统模型将会在较短的时间内被新的范式所取代,那时所有数据都以对象进行保存,在一个类数据库的结构中自描述或自索引。

  对象存储的归档

  新的商业技术,如Caringo Software的SWARM或Spectra Logic的Black Pearl,说明作为传统存储归档方法替代品的对象存储市场正在孕育出真正成熟的解决方案。尽管如此,截止本文写作之时市场上依然没有占主导地位的架构模式,而标准化的工作也还处于起步阶段。假以时日,对象存储和归档将会有很大的交叠。

  将所有数据集作为对象对待的双重优点:

  1.待存储的数据集可以有大量丰富的元数据,可以对数据对象进行更精确地识别和分类,进而可以把非常精细的策略应用于数据的保持和维护。

  2.整个存储基础设施和其上的数据可以被完整地进行管理,无需任何特殊软件或设备提供数据保护或保存。这是因为数据保护的规则已经被写进了特定类型的所有数据对象的元数据中。

  例如,Caringo的SWARM技术,可以通过纠删编码将存储数据的复制对象的各部分分散到整个存储基础设施中,并在其元数据中加入检索标示。这样,当某一存储设备发生故障时,存储对象依然能够通过那些正常设备上存储的部分来进行重建。而对于其他不需要这种保护功能的数据类型,可以把存储对象的元数据句柄中简单地设置成镜像策略。这样,数据的保障策略可以很容易地分配,使得存储基础设施成为归档和主存储的一个通用平台。

  出现这种“归档就位”的策略,其中一个原因是可以推动大数据分析。另一个原因是存储服务的成本被包含其中。而对于归档管理员,简化日后数据归类和保存的方法是其意义所在。 

责任编辑:涂君军
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐