一种基于纠删码自适应编码的数据可靠存储方法

文档序号:36827292发布日期:2024-01-26 16:39阅读:13来源:国知局
一种基于纠删码自适应编码的数据可靠存储方法

本发明涉及数据存储方法,尤其涉及一种基于自适应纠删码编码的数据可靠存储方法。


背景技术:

1、面向跨企业数据海量、数据快速增长、场景服务负载需求变化大等特点,针对跨企业数据分布式存储环境下数据易丢失、数据规模大、丢失数据恢复慢等问题,实现跨企业产品生态数据空间的可靠性至关重要。可靠性指的是在面对各种故障和流量突增时,数据存储系统能够持续地提供数据访问和保护的能力。跨企业产品生态数据空间中,存储的可靠性需要确保数据的安全性、完整性和可用性。这意味着存储系统必须能够有效地保护数据免受损坏、丢失或未经授权的访问,并且能够提供快速、可靠的数据访问服务。

2、为了应对以上困境,纠删码这一概念被应用在存储领域。纠删码(erasurecoding,ec)是一种数据保护方法,它将数据分割成片段,把冗余数据块扩展、编码,并将其存储在不同的位置,比如磁盘、存储节点或者其它地理位置。使用纠删码对数据进行编码后存储,这使得我们不需要再存储多余的副本,只用存储原始数据和编码数据,这释放了足够多的存储空间,节省了存储成本,并且保留了三副本存储策略的可靠性,在数据丢失之后,可以通过编码数据和现存数据将丢失数据找回。

3、然而,当前存储系统的瓶颈不仅仅限于磁盘i/o。尽管在大多数情况下,整个系统的性能可能是过剩的,但当遇到突发情况时,性能可能会稍显不足。换句话说,系统无法有效应对多样化的工作负载环境。为了进一步优化系统资源利用、提升性能并提供更优质的服务,我们需要对当前系统可能面临的负载进行区分,并采用不同的策略来应对挑战。通过识别和适应不同类型的负载,系统可以更加智能地分配资源,并且在高峰期和突发情况下做出及时的调整,从而提高系统整体的效率和性能。这样的策略可以使系统更具弹性和适应性,以满足不同工作负载环境下的需求,并提供更加可靠和高效的服务。


技术实现思路

1、针对现有技术存在的上述问题,本发明要解决的技术问题是:分布式存储环境下数据易丢失、数据规模大、丢失数据恢复慢的问题。

2、为解决上述技术问题,一种基于纠删码自适应编码的数据可靠存储方法,包括两个组件,组件一是xgc纠删码,组件二是自适应编码模块。

3、其中组件一包括如下步骤:

4、s101:数据分块,将待存储的原始数据分成若干数据块,每个数据块的大小根据需求进行设定。

5、s102:利用生成矩阵与每个数据块进行矩阵编码计算,生成相应的奇偶校验块,所述矩阵编码计算是指生成矩阵左乘数据块。

6、s103:选择纠删码编码方案和分发策略,将数据块和奇偶校验块分布到不同的存储节点或设备上,确保数据的冗余存储和容错能力,分发策略即:使每个节点拥有的数据量一致。

7、s104:当需要读取数据时,根据数据块和奇偶校验块的分布信息,从相应的存储节点或设备上读取数据。

8、s105:如果某个数据块损坏或丢失,通过计算奇偶校验块和其他可用数据块的信息,进行数据恢复,补充缺失的数据块。

9、组件二包含以下步骤:

10、s201:编码策略选择,根据实际需求和系统环境选择纠删码编码方案。

11、s202:编码参数设置,确定编码方案的参数,包括数据块数量、奇偶校验块数量和冗余度,以满足数据可靠性和存储效率的要求。

12、s203:自适应调整,根据实时的工作负载和数据访问模式,动态调整编码策略和参数,以优化存储效率和数据恢复速度。

13、作为优选,所述s101包含如下具体步骤:

14、首先,将待存储的原始数据进行预处理,把数据转换为二进制形式,然后将预处理后原始数据按照块的大小进行分割,从原始数据的起始位置开始,按照块大小依次划分数据,直到将整个原始数据划分为多个块,最后,对每个数据块进行校验。

15、作为优选,所述s105包含如下具体步骤:

16、首先,通过进行数据的校验和进行数据损坏检测。xgc编码具有局部恢复性,从具有需要恢复的数据块的本地冗余块中选择一部分作为恢复的冗余块,本地冗余块是指与需要恢复的数据块在同一个节点上的冗余块。使用选择的冗余块和相应的数据块进行计算。将计算得到的恢复数据块存储到相应的节点上,以替代丢失的数据块。进行数据完整性验证,确保恢复后的数据块与原始数据一致。

17、作为优选,所述s201包含如下具体步骤:

18、首先将输入的数据标记为温数据,使用多副本策略,过设定时间段后,通过读取该数据在设定时间段内的读取次数,对该数据进行冷热判断,设读取频率为n代表读取次数,t代表时间段,将读取频率进行降序排列,将10%的数据标记为热数据,这部分数据使用xgc快速型编码,其余数据标记为冷数据,冷数据使用xgc紧凑型编码进行存储。

19、作为优选,所述s202包含如下具体步骤:

20、奇偶校验块用于存储冗余信息,以实现数据的恢复。将校验块划分为两类,一类是局部校验1,另一类是全局校验g,三者关系为:m=l+g。全局校验保证了纠删码在任意g个数据块丢失的情况下都能算回数据;

21、所述冗余度r计算方法:其中k是指原始的数据块的个数,m是校验块个数。

22、作为优选,所述s203包含如下具体步骤:

23、1)上传数据,标记为write hot,以多副本存储形式储存;

24、2)获取数据特征和系统的状态,获取的数据特征包括数据上一次修改时间,数据被读取次数和数据大小,所获取的系统状态包括系统实际存储量占比;

25、3)设定时间段后将数据标记为write cold;

26、4)根据2)中所获取的数据特征,判断数据是否read cold,若读取量低于设置的值,则将其用存储消耗小的xgc紧凑型编码,反之则使用xgc快速型编码,如果此时系统存储量已经达到阈值,则选择存储消耗小的xgc紧凑型编码。

27、5)若read cold数据在进行编码后,状态变为read hot,则改变其存储方式,使用xgc快速型编码。

28、相对于现有技术,本发明至少具有如下优点:

29、基于纠删码自适应编码的数据可靠存储方法平衡了数据对磁盘空间的占用和丢失数据找回的效率。xgc纠删码在rs编码的基础上增添了局部校验块,能以较低代价恢复已丢失的数据,从而保证数据的可靠性。在xgc的基础之上应用自适应方法,能高效的实现紧凑型编码和快速型编码之间的相互转换。本发明提出的方法进行了多次实验,与目前先进技术相比,该放方法提供了更好的数据存储服务,能以较低冗余度存储数据,在数据恢复时能节省80%的时间和资源。



技术特征:

1.一种基于纠删码自适应编码的数据可靠存储方法,其特征在于:包括两个组件,组件一是xgc纠删码,组件二是自适应编码模块;

2.如权利要求1所述的一种基于纠删码自适应编码的数据可靠存储方法,其特征在于:所述s101包含如下具体步骤:

3.如权利要求1所述的一种基于纠删码自适应编码的数据可靠存储方法,其特征在于:所述s105包含如下具体步骤:

4.如权利要求1所述的一种基于纠删码自适应编码的数据可靠存储方法,其特征在于:所述s201包含如下具体步骤:

5.如权利要求1所述的一种基于纠删码自适应编码的数据可靠存储方法,其特征在于:所述s202包含如下具体步骤:

6.如权利要求1所述的一种基于纠删码自适应编码的数据可靠存储方法,其特征在于:所述s203包含如下具体步骤:


技术总结
本发明涉及一种基于纠删码自适应编码的数据可靠存储方法,该发明通过将数据编码为纠删码进行保存,并且在不同的工作负载下,转换不同的编码策略,从而使存储系统能适应不同的工作环境,维持数据的可靠性。该发明由改良纠删码和自适应编码两个组件构成,改良纠删码基于现有纠删码进行改良,本发明提出的一种异或分组编码XGC,增强现有纠删码的性能,为自适应编码提供基础。组件二基于数据的冷热特点,以及存储系统的使用率,进行工作负载判断并改变编码策略。

技术研发人员:鄢萌,罗永一,殷涛,徐玲,张小洪
受保护的技术使用者:重庆大学
技术研发日:
技术公布日:2024/1/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1