应用于分布式系统的数据处理方法及装置的制造方法_2

文档序号：9375738阅读：来源：国知局

，然后根据文件最后一次的访问时间将不经常访问的文件的冗余数据转存到磁带库上，并删除在sata盘上的冗余副本，当该文件被再次访问到时，则不用从磁带库上读取数据，只需从sata盘上读出原始数据即可，如果当磁盘上的数据损坏时，可以从磁带库上读出冗余重新恢复出原始数据，而当磁带库上的数据损坏时，则可以用sata盘上的数据重建出损坏的数据，这样即保证了数据访问时的响应速度，又充分利用了磁带库降低了存储成本，同时又满足高可靠性要求。
[0060]为了更清楚的理解本发明的技术方案，在一个具体的实施例中，参照图2所示，实现本发明技术方案的具体步骤如下:
[0061]1.当文件写入时，客户端向元数据服务器获取文件布局信息的请求；
[0062]2.客户端对文件进行erasure code编码后将冗余数据及原数据写入布局请求layout指定的sata盘中；
[0063]3.元数据服务器定时扫描文件目录，根据设定的文件访问策略，将最后一次访问时间至今超过一定时间(如3天)的文件帅选出来；
[0064]4.将筛选出来的文件的冗余数据迀移到磁带库上，并修改文件布局信息。
[0065]5.当sata盘损坏时，根据文件布局信息将磁带库上的数据读出通过erasurecode编码计算出原始数据修复到好的sata盘上；
[0066]6.当磁带库中有数据损坏时，根据文件布局信息将sata盘上数据读出通过erasure code编码计算出冗余数据重新写入到磁带库中；
[0067]当用户读取数据时，只需要读取普通盘上的原始数据即可，无需访问磁带库上的数据。
[0068]根据本发明的实施例，还提供了一种应用于分布式系统的数据处理装置。
[0069]如图3所示，根据本发明实施例的应用于分布式系统的数据处理装置包括:
[0070]生成模块31，用于将写入的文件数据进行erasure code编码，生成文件数据的冗余数据；
[0071]第一存储模块32，用于将文件数据及冗余数据存储至第一存储器；
[0072]第二存储模块33，用于将访问热度低于预设值的文件数据的冗余数据转存至第二存储器；
[0073]读取模块34，用于当需要读取文件数据对应的数据信息时，直接在第一存储器中读取文件数据以获取数据信息。
[0074]此外，该装置还可以包括:
[0075]第一转存模块(未示出)，用于当第一存储器损坏时，对存储于第二存储器中的冗余数据进行erasure code编码，生成与冗余数据对应的文件数据，并将文件数据存储于性能正常的第一存储器。
[0076]第二转存模块(未示出)，用于当第二存储器损坏时，对存储于第一存储器中且与存储于第二存储器中的冗余数据对应的文件数据进行erasure code编码，将重新生成的冗余数据存储于性能正常的第二存储器。
[0077]其中，第一存储器可以为以下任意之一:
[0078]sata 盘、ssd 盘、sas 盘；以及
[0079]第二存储器可以为以下任意之一:
[0080]磁带库、sata盘、ssd 盘、sas 盘；
[0081]但是，第一存储器与第二存储器所选不重复。
[0082]另外，访问热度包括以下至少之一:
[0083]访问次数、访问频率、访问时间、最近一次的访问时刻距当前时刻的时长。
[0084]本发明的数据处理方法可以有效的保证访问数据的响应速度，并大大节省了存储成本和运维成本。
[0085]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种应用于分布式系统的数据处理方法，其特征在于，包括: 将写入的文件数据进行erasure code编码，生成所述文件数据的冗余数据；将所述文件数据及冗余数据存储至第一存储器；将访问热度低于预设值的文件数据的冗余数据转存至第二存储器；当需要读取所述文件数据对应的数据信息时，直接在所述第一存储器中读取所述文件数据以获取所述数据信息。2.根据权利要求1所述的方法，其特征在于，进一步包括: 当所述第一存储器损坏时，对存储于所述第二存储器中的冗余数据进行erasure code编码，生成与所述冗余数据对应的文件数据，并将所述文件数据存储于性能正常的第一存储器。3.根据权利要求1所述的方法，其特征在于，进一步包括: 当所述第二存储器损坏时，对存储于所述第一存储器中且与存储于所述第二存储器中的冗余数据对应的文件数据进行erasure code编码，将重新生成的冗余数据存储于性能正常的第二存储器。4.根据权利要求1所述的方法，其特征在于，包括: 所述第一存储器为以下任意之一: sata盘、ssd盘、sas盘；以及所述第二存储器为以下任意之一: 磁带库、sata盘、ssd盘、sas盘；其中，所述第一存储器与所述第二存储器所选不重复。5.根据权利要求1所述的方法，其特征在于，所述访问热度包括以下至少之一: 访问次数、访问频率、访问时间、最近一次的访问时刻距当前时刻的时长。6.一种应用于分布式系统的数据处理装置，其特征在于，包括: 生成模块，用于将写入的文件数据进行erasure code编码，生成所述文件数据的冗余数据；第一存储模块，用于将所述文件数据及冗余数据存储至第一存储器；第二存储模块，用于将访问热度低于预设值的文件数据的冗余数据转存至第二存储器; 读取模块，用于当需要读取所述文件数据对应的数据信息时，直接在所述第一存储器中读取所述文件数据以获取所述数据信息。7.根据权利要求6所述的装置，其特征在于，包括: 第一转存模块，用于当所述第一存储器损坏时，对存储于所述第二存储器中的冗余数据进行erasure code编码，生成与所述冗余数据对应的文件数据，并将所述文件数据存储于性能正常的第一存储器。8.根据权利要求6所述的装置，其特征在于，包括: 第二转存模块，用于当所述第二存储器损坏时，对存储于所述第一存储器中且与存储于所述第二存储器中的冗余数据对应的文件数据进行erasure code编码，将重新生成的冗余数据存储于性能正常的第二存储器。9.根据权利要求6所述的装置，其特征在于，包括:所述第一存储器为以下任意之一:sata盘、ssd盘、sas盘；以及所述第二存储器为以下任意之一:磁带库、sata盘、ssd盘、sas盘；其中，所述第一存储器与所述第二存储器所选不重复。10.根据权利要求6所述的装置，其特征在于，所述访问热度包括以下至少之一:访问次数、访问频率、访问时间、最近一次的访问时刻距当前时刻的时长。
【专利摘要】本发明提出了一种应用于分布式系统的数据处理方法及装置，该方法包括：将写入的文件数据进行erasure？code编码，生成文件数据的冗余数据；将文件数据及冗余数据存储至第一存储器；将访问热度低于预设值的文件数据的冗余数据转存至第二存储器；当需要读取文件数据对应的数据信息时，直接在第一存储器中读取文件数据以获取数据信息。本发明的数据处理方法可以有效的保证访问数据的响应速度，并大大节省了存储成本和运维成本。
【IPC分类】G06F17/30
【公开号】CN105095352
【申请号】CN201510344249
【发明人】郭照斌, 李博, 苗艳超, 季旻, 姜国梁, 杨鹏
【申请人】曙光信息产业股份有限公司
【公开日】2015年11月25日
【申请日】2015年6月19日

完整全部详细技术资料下载

当前第2页1 2