e-works数字化企业网  »  文章频道  »  基础信息化  »  存储

存储重复数据删技术分析

2017/8/22    来源:TWT    作者:佚名      
关键字:存储  数据  
重复数据删除已经不是一个新的话题了,如今各个厂商的存储或备份产品都有这项功能。不过,当我们在说重删时,我们是在说同一个重删吗?关于重删,其实还有很多细微的差别,今天小编就来讲一讲。
    重复数据删除已经不是一个新的话题了,如今各个厂商的存储或备份产品都有这项功能。不过,当我们在说重删时,我们是在说同一个重删吗?关于重删,其实还有很多细微的差别,今天小编就来讲一讲。
 
    所谓重复数据删除,顾名思义,就是要把一些具有重复性的数据删除掉。重删是一个过程,其基本方法是通过算法,把一个文件切割成不同的小块,这些切割后小数据文件切片有很多是相同的,在真正在保存的时候,我们只要保存不同的数据块的一份,这是任何一个重复数据删除算法的根基。
 
存储重复数据删技术分析
 
    不过,在这根基之上却有很多种重删
 
    首先最简单的是文件级重删,这实际上可以不认为是一个重复数据删除,它只是一个重复数据忽略,因为它只会在文件级别进行扫描,比如文件的特性、文件的修改时间,保证每次只备份同一个文件。如果说这个文件做了一些小的修改,整个文件还是需要备份的,所以它的力度是非常低的。
 
    接下来是块级重删,也就是之前讲的先要通过一个算法,把文件进行切割,切割成一个一个小的块,然后每个块进行比对。比对过后,只有不同的块才会被分走,这样可以保证重复数据会在子文件级进行相应的删除,从而提高每个文件相同的比率。然后被切割的这个文件,我们再附上一组指针表。这个指针图表上列出文件是由哪些小的块组成的,保证我们在还原的时候,通过这个基因图和相应的数据块,可以恢复任何的文件。
 
    那么怎么样可以提高我们的重复数据删除率呢?就是这个块的大小,块切得越小,相应的重复数据就越多。比如我们切一个西瓜,西瓜上有很多西瓜子,把西瓜切得越小块,没有西瓜子的块就会越多。对重删来说这就是算法,而算法主要分两类:
 
    定长重删。数据按照固定长度进行分块,之后进行重删。例入一个文件大小为128M,按照128K来切,切完就是一千份的子文件,然后对这一千份进行对比,把重复数据去掉就是定长重删。
 
    变长重删。数据被划分成不同大小的块进行重删,一般来说变长重删可以获得更好的重删效果,因为对企业来说数据是不断更新的。比如定长重删下数据被切割形成一系列字母组合,由于数据变化插入了一个字母,因此整个数据的顺序就改变了,再按照128K切的话,对于备份软件来说所有行都是一个全新的数据块,所以要重新做备份。而变长重删可以保证其余的数据块不变,只在新增字母的块增加一个大小上限就可以了,因此变长重删效率更高。
 
    按照重删处理的位置,这里也可以分为两类:
 
    源端重删。在备份的时候,在备份端上agent就有重复数据删除的算法和功能,它可以在备份以前进行相应的切割和对比,只把一些新变化的数据传送到备份服务器上,这样可以大大降低备份数据量,在网络传输过程中的数据量也降低,这样可以降低整个备份网络的带宽要求,对企业来说也可以减少日常运维成本。
 
    目标端重删。直接将数据传输到相应的磁带设备、磁带库或者是虚拟带库上,在目标端进行重复数据删除的算法、对比,然后把一些相应新的数据块元素和指针表也保留下来。
 
    还有按照数据的重删执行的时间进行分类:
 
    在线重删。备份的时候先做重复数据删除,在数据存储到硬盘之前,重复数据已经被去除掉了。
 
    后重删。指的是在写到存储设备的同时不进行重删处理,先把原始数据写到硬盘上,随后启动后台进程对这些原始数据进行重删处理。与在线重删相比较,后重删需要更高的硬盘性能,需要更多的硬盘数量,并且在线重删可以大大降低数据的备份量和网络带宽的需求,因此效率更高。
 
存储重复数据删技术分析
 
    好了,以上就是目前市场上主流的几种重删技术。其实今天小编为什么要讲这个话题呢,是因为听到了一个故事,说是某客户买了一款备份产品,虽然之前知道该产品有重删功能,但下单使用之后才发现重删效率和自己的预期有差异。所以,虽然大家都在说重删,但是具体采用何种重删技术?大家都要心中有数。
 
责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐