应用于分布式系统的数据处理方法及装置的制造方法

文档序号:9375738阅读:491来源:国知局
应用于分布式系统的数据处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机领域,具体来说,涉及一种应用于分布式系统的数据处理方法及装置。
【背景技术】
[0002]分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据的访问接口制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
[0003]对于分布式文件系统,可以存储海量数据并具备高可靠性是其最主要的特征,当系统中存储了大量的文件,需要大量的磁盘存储,但磁盘相对于磁带库成本高出很多,于是用磁带库和磁盘来分级存储数据显得很有必要。
[0004]传统的做法是向将一段时间内访问次数较少文件的全部数据直接存放到磁带库上,而访问次数较多的文件存放在sata盘上,这样做的缺点是当需要访问的文件位于磁带库上时,访问速度变的比sata盘慢了很多,用户体验很差,并且多次访问磁带库也会造成磁带库的加速损坏,导致文件无法修复。
[0005]针对相关技术中的问题,目前尚未提出有效的解决方案。

【发明内容】

[0006]针对相关技术中的问题,本发明提出一种应用于分布式系统的数据处理方法及装置。
[0007]本发明的技术方案是这样实现的:
[0008]根据本发明的一个方面,提供了一种应用于分布式系统的数据处理方法。
[0009]该方法包括:
[0010]将写入的文件数据进行erasure code编码,生成文件数据的冗余数据;
[0011 ] 将文件数据及冗余数据存储至第一存储器;
[0012]将访问热度低于预设值的文件数据的冗余数据转存至第二存储器;
[0013]当需要读取文件数据对应的数据信息时,直接在第一存储器中读取文件数据以获取数据信息。
[0014]如果当第一存储器损坏时,则对存储于第二存储器中的冗余数据进行erasurecode编码,生成与冗余数据对应的文件数据,并将文件数据存储于性能正常的第一存储器。
[0015]而当第二存储器损坏时,则对存储于第一存储器中且与存储于第二存储器中的冗余数据对应的文件数据进行erasure code编码,将重新生成的冗余数据存储于性能正常的第二存储器。
[0016]其中第一存储器为以下任意之一:
[0017]sata 盘、ssd 盘、sas 盘;以及
[0018]第二存储器为以下任意之一:
[0019]磁带库、sata盘、ssd 盘、sas 盘;
[0020]但是,第一存储器与第二存储器所选不重复。
[0021]另外,访问热度包括以下至少之一:
[0022]访问次数、访问频率、访问时间、最近一次的访问时刻距当前时刻的时长。
[0023]根据本发明的另一方面,还提供了一种应用于分布式系统的数据处理装置,包括:
[0024]生成模块,用于将写入的文件数据进行erasure code编码,生成文件数据的冗余数据;
[0025]第一存储模块,用于将文件数据及冗余数据存储至第一存储器;
[0026]第二存储模块,用于将访问热度低于预设值的文件数据的冗余数据转存至第二存储器;
[0027]读取模块,用于当需要读取文件数据对应的数据信息时,直接在第一存储器中读取文件数据以获取数据信息。
[0028]此外,该装置还可以包括:
[0029]第一转存模块,用于当第一存储器损坏时,对存储于第二存储器中的冗余数据进行erasure code编码,生成与冗余数据对应的文件数据,并将文件数据存储于性能正常的第一存储器。
[0030]第二转存模块,用于当第二存储器损坏时,对存储于第一存储器中且与存储于第二存储器中的冗余数据对应的文件数据进行erasure code编码,将重新生成的冗余数据存储于性能正常的第二存储器。
[0031]其中,第一存储器为以下任意之一:
[0032]sata 盘、ssd 盘、sas 盘;以及
[0033]第二存储器为以下任意之一:
[0034]磁带库、sata盘、ssd 盘、sas 盘;
[0035]但是,第一存储器与第二存储器所选不重复。
[0036]另外,访问热度包括以下至少之一:
[0037]访问次数、访问频率、访问时间、最近一次的访问时刻距当前时刻的时长。
[0038]本发明的数据处理方法可以有效的保证访问数据的响应速度,并大大节省了存储成本和运维成本。
【附图说明】
[0039]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是根据本发明实施例的应用于分布式系统的数据处理方法的流程图;
[0041]图2是根据本发明实施例的应用于分布式系统的数据处理方法的示意图;
[0042]图3是根据本发明实施例的应用于分布式系统的数据处理装置的框图。
【具体实施方式】
[0043]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0044]根据本发明的实施例,提供了一种应用于分布式系统的数据处理方法。
[0045]如图1所示,根据本发明实施例的应用于分布式系统的数据处理方法括:
[0046]步骤S101,将写入的文件数据进行erasure code编码,生成文件数据的冗余数据;
[0047]步骤S103,将文件数据及冗余数据存储至第一存储器;
[0048]步骤S105,将访问热度低于预设值的文件数据的冗余数据转存至第二存储器;
[0049]步骤S107,当需要读取文件数据对应的数据信息时,直接在第一存储器中读取文件数据以获取数据信息。
[0050]此外,如果当第一存储器损坏时,则对存储于第二存储器中的冗余数据进行erasure code编码,生成与该冗余数据对应的文件数据,并将重新恢复的文件数据存储于性能正常的第一存储器。
[0051]而当第二存储器损坏时,则对存储于第一存储器中且与存储于第二存储器中的冗余数据对应的文件数据进行erasure code编码,将重新生成的冗余数据存储于性能正常的第二存储器。
[0052]其中第一存储器可以为以下任意之一:
[0053]sata 盘、ssd 盘、sas 盘;以及
[0054]第二存储器可以为以下任意之一:
[0055]磁带库、sata盘、ssd 盘、sas 盘;
[0056]但是,选择的第一存储器与第二存储器不能重复。
[0057]另外,访问热度包括以下至少之一:
[0058]访问次数、访问频率、访问时间、最近一次的访问时刻距当前时刻的时长。
[0059]为了更好的体现本发明的技术方案与现有技术方案的差别及优点所在,在一个实施例中,第一存储器选取为sata盘,第二存储器选取为磁带库。当分布式文件系统中写入文件时,首先对该文件进行erasure code编码,在生成相应的冗余校验后,统一将原始数据和冗余数据存放到数据存储服务器的sata盘上
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1