一种数据重删的方法、装置、设备及可读介质与流程

文档序号:29127402发布日期:2022-03-05 00:28阅读:186来源:国知局
一种数据重删的方法、装置、设备及可读介质与流程

1.本发明涉及计算机领域,并且更具体地涉及一种数据重删的方法、装置、设备及可读介质。


背景技术:

2.当前存储系统支持在线重删功能,该功能在主机数据写入ssd盘之前会通过计算哈希值来判断是否是重复数据,如果是重复数据则不需写入ssd盘,这样可以节省存储空间、同时也可以减少写盘次数。但是在线重删需要对主机数据计算哈希值、查询/写入元数据等操作,这样会因为增加了io延迟从而较大的影响了系统性能。


技术实现要素:

3.有鉴于此,本发明实施例的目的在于提出一种数据重删的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够解决在线重删影响系统性能下降的问题,能够提高系统性能,节省了存储空间。
4.基于上述目的,本发明的实施例的一个方面提供了一种数据重删的方法,包括以下步骤:
5.响应于接收到主机下发的数据,获取当前系统cpu的第一使用率;
6.基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中;
7.响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,并将系统cpu的第二使用率与预设阈值进行比较;
8.响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删。
9.根据本发明的一个实施例,响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删包括:
10.响应于系统cpu的第二使用率小于预设阈值,判断数据的特征中是否包括lba值;
11.响应于数据的特征中包括lba值,计算包括lba值的数据的哈希值;
12.判断计算得到的哈希值在哈希表中是否存在;
13.响应于计算得到的哈希值在哈希表中不存在,确定不存在重复数据不做重删操作。
14.根据本发明的一个实施例,还包括:
15.响应于计算得到的哈希值在哈希表中存在,通过hpsearch函数查找到计算得到的哈希值对应的pba值;
16.建立lba值和pba值的映射关系;
17.删除数据的元数据中的映射关系并将建立的映射关系插入到数据的元数据中;
18.将数据设置为无效数据。
19.根据本发明的一个实施例,还包括:
20.设定当前cpu的第一使用率与执行在线重删数据的比例,其中,当前cpu的第一使用率小于等于50%,100%数据执行在线重删;
21.当前cpu的第一使用率大于50%且小于80%,50%数据执行在线重删;
22.当前cpu的第一使用率大于等于80%且小于95%,20%数据执行在线重删;
23.当前cpu的第一使用率大于等于95%,全部数据不执行在线重删。
24.本发明的实施例的另一个方面,还提供了一种数据重删的装置,装置包括:
25.获取模块,获取模块配置为响应于接收到主机下发的数据,获取当前系统cpu的第一使用率;
26.分流模块,分流模块配置为基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中;
27.比较模块,比较模块配置为响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,并将系统cpu的第二使用率与预设阈值进行比较;
28.重删模块,重删模块配置为响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删。
29.根据本发明的一个实施例,重删模块还配置为:
30.响应于系统cpu的第二使用率小于预设阈值,判断数据的特征中是否包括lba值;
31.响应于数据的特征中包括lba值,计算包括lba值的数据的哈希值;
32.判断计算得到的哈希值在哈希表中是否存在;
33.响应于计算得到的哈希值在哈希表中不存在,确定不存在重复数据不做重删操作。
34.根据本发明的一个实施例,重删模块还配置为:
35.响应于计算得到的哈希值在哈希表中存在,通过hpsearch函数查找到计算得到的哈希值对应的pba值;
36.建立lba值和pba值的映射关系;
37.删除数据的元数据中的映射关系并将建立的映射关系插入到数据的元数据中;
38.将数据设置为无效数据。
39.根据本发明的一个实施例,还包括设置模块,设置模块配置为:
40.设定当前cpu的第一使用率与执行在线重删数据的比例,其中,当前cpu的第一使用率小于等于50%,100%数据执行在线重删;
41.当前cpu的第一使用率大于50%且小于80%,50%数据执行在线重删;
42.当前cpu的第一使用率大于等于80%且小于95%,20%数据执行在线重删;
43.当前cpu的第一使用率大于等于95%,全部数据不执行在线重删。
44.本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
45.至少一个处理器;以及
46.存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
47.本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
48.本发明具有以下有益技术效果:本发明实施例提供的数据重删的方法,通过响应于接收到主机下发的数据,获取当前系统cpu的第一使用率;基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中;响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,并将系统cpu的第二使用率与预设阈值进行比较;响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删的技术方案,能够解决在线重删影响系统性能下降的问题,能够提高系统性能,节省了存储空间。
附图说明
49.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
50.图1为根据本发明一个实施例的数据重删的方法的示意性流程图;
51.图2为根据本发明一个实施例的数据重删的装置的示意图;
52.图3为根据本发明一个实施例的计算机设备的示意图;
53.图4为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
55.基于上述目的,本发明的实施例的第一个方面,提出了一种数据重删的方法的一个实施例。图1示出的是该方法的示意性流程图。
56.如图1中所示,该方法可以包括以下步骤:
57.s1响应于接收到主机下发的数据,获取当前系统cpu的第一使用率。
58.首先判断主机下发的数据是否为重删数据,如果是重删数据则根据当前cpu压力情况进行重删数据分流,即让一部分数据走在线重删流程,剩余数据直接走非重删流程,即直接存储到硬盘中,这样可以缩短主机数据io路径从而提高系统性能,经过在线重删流程写入ssd(固态硬盘)中的pba数据会带有哈希值,经过非重删流程写入ssd中的pba数据会带有lba值,在本发明的一个实施例中,可以根据实际情况设定cpu的使用率与做在线重删数据的比例,例如,当前cpu的使用率小于等于50%,100%数据执行在线重删,当前cpu的使用率大于50%且小于80%,50%数据执行在线重删,当前cpu的使用率大于等于80%且小于95%,20%数据执行在线重删,当前cpu的使用率大于等于95%,全部数据不执行在线重删。
59.s2基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中。
60.根据获取到的cpu的第一使用率可以得到做在线重删数据的比例,例如,当前cpu使用率为60%,对应的比例为50%,则将数据中的50%走在线重删流程,剩余的50%数据直接存储到硬盘中,在线重删流程可以使用现有技术中的方法。
61.s3响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,
并将系统cpu的第二使用率与预设阈值进行比较。
62.持续获取cpu的第二使用率,并将第二使用率与预设阈值进行比较,预设阈值可以设置为40%。
63.s4响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删。
64.如果当前cpu的第二使用率小于40%,则将直接存储到硬盘中的数据做重删操作,依次判断待迁移的pba数据中的数据特征,如果该pba数据特征中有哈希值,说明该pba是经过在线重删流程写入的,不需做后台重删处理,继续判断下一个pba数据,如果该pba数据特征中有lba值,说明该pba是经过非重删流程写入的,此时需要通过该lba值计算出来卷id来获取该卷的重删属性,如果该卷属于非重删卷,说明该pba数据是非重删数据,不需做后台重删处理,继续判断下一个pba数据,如果该卷属于重删卷,说明该pba数据是重删数据,此时需要判断该数据是否是重复数据,计算该重删数据的哈希值,然后在哈希表中查找该哈希值是否存在,如果不存在说明该数据不是重复数据,因此该pba不需要进行重删处理,继续判断下一个pba数据,如果存在说明该pba数据是重复数据,此时需要对其进行重删操作,可以通过hpsearch函数查找到该哈希值对应的pba值(标记为p’),然后修改元数据映射关系,即在元数据中插入lp’(lba到pba的映射)、插入p’l(pba到lba的映射)、删除元数据中以前的映射关系(pl),然后把该旧pba数据置为无效数据,后续待垃圾回收模块回收后可重新使用。
65.通过本发明的技术方案,能够解决在线重删影响系统性能下降的问题,能够提高系统性能,节省了存储空间。
66.在本发明的一个优选实施例中,响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删包括:
67.响应于系统cpu的第二使用率小于预设阈值,判断数据的特征中是否包括lba值;
68.响应于数据的特征中包括lba值,计算包括lba值的数据的哈希值;
69.判断计算得到的哈希值在哈希表中是否存在;
70.响应于计算得到的哈希值在哈希表中不存在,确定不存在重复数据不做重删操作。哈希表为系统中重删过程使用的哈希表,其中记录了每个数据对应的哈希值。
71.在本发明的一个优选实施例中,还包括:
72.响应于计算得到的哈希值在哈希表中存在,通过hpsearch函数查找到计算得到的哈希值对应的pba值;
73.建立lba值和pba值的映射关系;
74.删除数据的元数据中的映射关系并将建立的映射关系插入到数据的元数据中;
75.将数据设置为无效数据。查找到的pba值就是重复数据(以前存储在硬盘中的数据)对应的物理地址,将这些数据(需要做重删的数据)的逻辑地址lba与硬盘中原存储的数据的物理地址pba做映射关系,将映射关系存储到数据的元数据中后把数据删除即可。
76.在本发明的一个优选实施例中,还包括:
77.设定当前cpu的第一使用率与执行在线重删数据的比例,其中,当前cpu的第一使用率小于等于50%,100%数据执行在线重删;
78.当前cpu的第一使用率大于50%且小于80%,50%数据执行在线重删;
79.当前cpu的第一使用率大于等于80%且小于95%,20%数据执行在线重删;
80.当前cpu的第一使用率大于等于95%,全部数据不执行在线重删。
81.通过本发明的技术方案,能够解决在线重删影响系统性能下降的问题,能够提高系统性能,节省了存储空间。
82.需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory,rom)或随机存取存储器(random access memory,ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
83.此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。
84.基于上述目的,本发明的实施例的第二个方面,提出了一种数据重删的装置,如图2所示,装置200包括:
85.获取模块,获取模块配置为响应于接收到主机下发的数据,获取当前系统cpu的第一使用率;
86.分流模块,分流模块配置为基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中;
87.比较模块,比较模块配置为响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,并将系统cpu的第二使用率与预设阈值进行比较;
88.重删模块,重删模块配置为响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删。
89.在本发明的一个优选实施例中,重删模块还配置为:
90.响应于系统cpu的第二使用率小于预设阈值,判断数据的特征中是否包括lba值;
91.响应于数据的特征中包括lba值,计算包括lba值的数据的哈希值;
92.判断计算得到的哈希值在哈希表中是否存在;
93.响应于计算得到的哈希值在哈希表中不存在,确定不存在重复数据不做重删操作。
94.在本发明的一个优选实施例中,重删模块还配置为:
95.响应于计算得到的哈希值在哈希表中存在,通过hpsearch函数查找到计算得到的哈希值对应的pba值;
96.建立lba值和pba值的映射关系;
97.删除数据的元数据中的映射关系并将建立的映射关系插入到数据的元数据中;
98.将数据设置为无效数据。
99.在本发明的一个优选实施例中,还包括设置模块,设置模块配置为:
100.设定当前cpu的第一使用率与执行在线重删数据的比例,其中,当前cpu的第一使用率小于等于50%,100%数据执行在线重删;
101.当前cpu的第一使用率大于50%且小于80%,50%数据执行在线重删;
102.当前cpu的第一使用率大于等于80%且小于95%,20%数据执行在线重删;
103.当前cpu的第一使用率大于等于95%,全部数据不执行在线重删。
104.基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例包括如下装置:至少一个处理器21;以及存储器22,存储器22存储有可在处理器上运行的计算机指令23,指令由处理器执行时实现以下方法:
105.响应于接收到主机下发的数据,获取当前系统cpu的第一使用率;
106.基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中;
107.响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,并将系统cpu的第二使用率与预设阈值进行比较;
108.响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删。
109.在本发明的一个优选实施例中,响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删包括:
110.响应于系统cpu的第二使用率小于预设阈值,判断数据的特征中是否包括lba值;
111.响应于数据的特征中包括lba值,计算包括lba值的数据的哈希值;
112.判断计算得到的哈希值在哈希表中是否存在;
113.响应于计算得到的哈希值在哈希表中不存在,确定不存在重复数据不做重删操作。
114.在本发明的一个优选实施例中,还包括:
115.响应于计算得到的哈希值在哈希表中存在,通过hpsearch函数查找到计算得到的哈希值对应的pba值;
116.建立lba值和pba值的映射关系;
117.删除数据的元数据中的映射关系并将建立的映射关系插入到数据的元数据中;
118.将数据设置为无效数据。
119.在本发明的一个优选实施例中,还包括:
120.设定当前cpu的第一使用率与执行在线重删数据的比例,其中,当前cpu的第一使用率小于等于50%,100%数据执行在线重删;
121.当前cpu的第一使用率大于50%且小于80%,50%数据执行在线重删;
122.当前cpu的第一使用率大于等于80%且小于95%,20%数据执行在线重删;
123.当前cpu的第一使用率大于等于95%,全部数据不执行在线重删。
124.基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质s31存储有被处理器执行时执行如下方法的计算机程序s32:
125.响应于接收到主机下发的数据,获取当前系统cpu的第一使用率;
126.基于当前系统cpu的第一使用率获取对应在线重删数据的比例,并将数据中的与比例对应的数据进行在线重删,将数据中的剩余数据存储到硬盘中;
127.响应于数据中的剩余数据存储到硬盘中,持续获取当前系统cpu的第二使用率,并将系统cpu的第二使用率与预设阈值进行比较;
128.响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删。
129.在本发明的一个优选实施例中,响应于系统cpu的第二使用率小于预设阈值,将数据中的剩余数据进行重删包括:
130.响应于系统cpu的第二使用率小于预设阈值,判断数据的特征中是否包括lba值;
131.响应于数据的特征中包括lba值,计算包括lba值的数据的哈希值;
132.判断计算得到的哈希值在哈希表中是否存在;
133.响应于计算得到的哈希值在哈希表中不存在,确定不存在重复数据不做重删操作。
134.在本发明的一个优选实施例中,还包括:
135.响应于计算得到的哈希值在哈希表中存在,通过hpsearch函数查找到计算得到的哈希值对应的pba值;
136.建立lba值和pba值的映射关系;
137.删除数据的元数据中的映射关系并将建立的映射关系插入到数据的元数据中;
138.将数据设置为无效数据。
139.在本发明的一个优选实施例中,还包括:
140.设定当前cpu的第一使用率与执行在线重删数据的比例,其中,当前cpu的第一使用率小于等于50%,100%数据执行在线重删;
141.当前cpu的第一使用率大于50%且小于80%,50%数据执行在线重删;
142.当前cpu的第一使用率大于等于80%且小于95%,20%数据执行在线重删;
143.当前cpu的第一使用率大于等于95%,全部数据不执行在线重删。
144.此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
145.此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
146.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
147.在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称
为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
148.以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
149.应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
150.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
151.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
152.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1