一种删除重复数据的方法、装置和系统的制作方法

文档序号:6377707阅读:119来源:国知局
专利名称:一种删除重复数据的方法、装置和系统的制作方法
技术领域
本发明涉及计算机领域,特别涉及一种删除重复数据的方法、装置和系统。
背景技术
在现有技术中,提高海量信息存储率的重要方法是删除系统中存在的重复数据。系统中存在的重复数据是指存储在系统中的完全相同的两份或两份以上数据。在删除系统中存在的重复数据前,首先获取上传数据的数据信息,根据数据信息判断系统中是否已经存在上传数据,当已经存在上传数据时,删除上传数据。
上传数据的数据信息是对上传数据进行哈希计算所得的值。哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。在获得上传数据的数据信息后,将数据信息与系统中保存的数据信息进行对比,若数据信息一致,则表示系统中存在与上传数据相同的数据,需要删除上传数据。若数据信息不一致,则表示系统中不存在与上传数据相同的数据,直接把上传数据存储在系统中。所述系统中保存的数据信息是指对存储在数据系统中的数据进行哈希计算所得的值。在实现本发明过程中,发明人发现现有技术中至少存在如下问题I、由于需要删除重复数据,因此系统中不能存储两份以上的相同数据,对于重要的数据不能进行备份操作,降低了数据可靠性;2、当出现异常情况,如停电等,系统中产生垃圾数据,降低存储率;所述垃圾数据是系统进行删除重复数据的过程中,系统已检测出上传数据为重复数据,需要进行删除,但由于停电等意外情况的发生,导致未更新上传数据元数据和删除上传数据,使系统中存在一份不需要的数据;3、用户上传数据时,若在线进行删除重复数据的操作,影响用户体验。若上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销。

发明内容
本发明的实施例提供一种删除重复数据的方法、装置和系统,解决系统中对于重要的数据不能进行备份操作,垃圾数据不能删除的技术问题。为达到上述目的,本发明的实施例采用如下技术方案第一方面,提供一种删除重复数据的方法,包括获取用户的输入数据,以及用户输入的副本数。对所述输入数据进行哈希计算,得到哈希值。建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。在第一方面的第一种可能的实现方式中,判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。第二方面,提供一种删除重复数据的装置,包括
输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数。第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值。数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。在第二方面的第一种可能的实现方式中,第一判断单元,用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。输入数据删除单元,用于当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
第三方面,提供一种计算机系统,包括总线,与所述总线相连的处理器以及与所述总线相连的存储器;其中所述处理器包括上述提及的装置。本发明实施例提供一种删除重复数据的方法、装置和系统,首先获取用户的输入数据,以及用户输入的副本数。对所述输入数据进行哈希计算,得到哈希值。建立所述输入数据对应的数据信息,判断是否存在与所述数据信息相同的已存储数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述删除重复数据的方法,记录备份数,删除垃圾数据,对系统中重要的数据进行备份,提高系统存储空间存储率,优化用户体验,加快运行效率。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本发明实施例I中删除重复数据的流程框图;图2为本发明实施例2中删除重复数据的流程框图;图3为本发明实施例2中已存储数据对应删除列表的框图;图4为本发明实施例2中另一种删除重复数据的流程框图;图5为本发明实施例2中第三种删除重复数据的流程框图;图6为本发明实施例3中一种删除重复数据装置的框图;图7为本发明实施例3中另一种删除重复数据装置的框图;图8为本发明实施例3中第三种删除重复数据装置的框图;图9为本发明实施例3中元数据更新单元的框图;图10为本发明实施例3中计算机系统的框图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例I :
本发明的一个实施例提供了一种删除重复数据的方法,如图I所示,该方法包括如下步骤101、获取用户的输入数据,以及用户输入的副本数。用户将输入数据以及与该输入数据的副本数一同输入计算机中。102、对所述输入数据进行哈希计算,得到哈希值。本发明实施例中提及的哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。103、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
104、判断是否存在与所述数据信息相同的已存储数据信息。所述已存储数据信息对应唯一的已存储数据。在计算机中,已经存储了大量的数据,每一份已存储数据对相应的建立了唯一的已存储数据信息,每份已存储数据信息中包括对应的已存储数据的哈希值和副本数。105、当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。当存在与所述数据信息相同的已存储数据信息时,表示在步骤101中获取的用户的输入数据已经存在,不需要再进行存储,此时对该输入数据进行删除。本发明的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述方法,克服对重要数据不能备份的问题,提高数据的可靠性。实施例2 本发明的一个实施例提供一种删除重复数据的方法,如图2所示,包括201、获取用户的输入数据,以及用户输入的副本数。202、对所述输入数据进行哈希计算,得到哈希值。所述哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。203、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。204、判断是否存在与所述数据信息相同的已存储数据信息。所述已存储数据信息对应唯一的已存储数据。在计算机中,已经存储了大量的数据,每一份已存储数据相应的建立了唯一的已存储数据信息,每份已存储数据信息中包括对应的已存储数据的哈希值和副本数。步骤204判断是否存在与所述数据信息相同的已存储数据信息,即判断是否存在与用户的输入数据的数据信息所包括的哈希值和副本数分别相同的已存储数据信息。如果两个数据信息中的哈希值和副本数分别相同,可以判定这两个数据信息所对应的两个数据是相同的数据。205、当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项。所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址。206、根据所述已存储数据的存储地址,获取对应的删除列表。
所述删除列表记录有被执行过删除动作的所述已存储数据的文件名。207、将所述用户输入的数据的文件名加入所述删除列表。举例来说,如图3所示,已存储数据3001对应有已存储数据信息301,301具有对应的状态信息项302,302记录有3001在硬盘上的存储地址303 (具体的,303可以是3001存储的起始地址)。此外,系统还对应存储地址303建立有对应的删除列表304。假设在304中记录了 3041,3042,3043共三项,这三项分别是三个不同的文件名,且对应相同的文件内容,即3001。
通过步骤205至207,将用户的输入数据的文件名加入到对应的删除列表中。该删除列表对应已在系统中存储的已存储数据,并且该已存储数据与用户的输入数据是相同的。208、将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。209、删除所述输入数据。本发明的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。然后将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据。通过上述方法,克服对重要数据不能备份的问题,方便对执行上述步骤的数据进行管理。本发明的一个实施例还提供一种删除重复数据的方法,如图4所示,该方法包括如下步骤401获取系统中已存在的元数据。所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名。402、对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值。403、构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数。404、判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息。当存在第三数据信息时,执行步骤405。405、获取所述第三数据信息对应的第三状态信息项。所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址。406、根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表。所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名。407、判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名。当不存在所述当前元数据记录的文件名时,执行步骤408。408、将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址。409、删除所述系统中已存在的元数据对应数据的存储地址中的数据。需要说明的是,对元数据的获取动作,是通过对所有元数据进行遍历来执行的。即对于每个元数据,都会执行上述步骤401至409的流程,当然,如果在执行过程中不能满足步骤404或407的判断条件,则终止对当前元数据的后续步骤。本发明的一个实施例提供一种删除重复数据的方法,通过当前元数据获得当前数据进而得到第二哈希值,然后构造第二数据信息,当在系统中存在与所述第二数据信息相·同的第三数据信息时,获得第三数据信息对应的第三删除列表。若所述第三删除列表不存在当前元数据记录的文件名,则将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址并删除当前数据的存储地址中的所述当前数据。通过上述方法,删除系统中的垃圾数据,提高系统存储空间存储率。进一步的,本发明的一个实施例还提供一种删除重复数据的方法,如图5所示,该方法包括如下步骤501、获取用户的输入数据,以及用户输入的副本数。502、对所述输入数据进行哈希计算,得到哈希值。503、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。504、判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。505、当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址。506、根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名。507、将所述用户输入的数据的文件名加入所述删除列表。508、经过预设定的时间段。509、将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。510、删除所述输入数据。本发明的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据。通过上述方法,克服了用户上传数据时进行在线进行删除重复数据的操作,影响用户体验和上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销的问题,优化了用户体验,加快运行效率。实施例3本发明的一个实施例提供了一种删除重复数据的装置,如图6所示,该装置包括输入数据获取单元61,第一哈希单元62,数据信息建立单元63,第一判断单元64,输入数据删除单元65。其中输入数据获取单元61用于获取用户的输入数据,以及用户输入的副本数。第一哈希单元62用于对所述输入数据进行哈希计算,得到哈希值。数据信息建立单元63用于建立所述输入数据对应的数据信息,所述数据信息包 括所述哈希值,所述副本数。第一判断单元64用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。输入数据删除单元65用于删除所述输入数据。进一步的,如图7所示,所述装置还包括状态信息项获取单元66,用于当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址。删除列表获取单元67,用于根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名。文件名添加单元68,用于将所述用户输入的数据的文件名加入所述删除列表。元数据更新单元69,用于将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。进一步的,如图8所示,所述装置还包括元数据获取单元610,第二哈希单元611,第二数据信息建立单元612,第二判断单元613,第三状态信息项获取单元614,第三删除列表获取单元615,第三判断单元616,存储地址更新单元617,当前数据删除单元618。其中元数据获取单元610用于获取获取系统中已存在的元数据。第二哈希单元611用于对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值。第二数据信息建立单元612用于构造第二数据信息。第二判断单元613用于判断是否存在与所述第二数据信息相同的第三数据信息。第三状态信息项获取单元614用于当存在与所述第二数据信息相同的第三数据息时,获取所述第二数据息对应的第二状态息项。第三删除列表获取单元615用于根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名。第三判断单元616用于判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名。
存储地址更新单元617用于当所述第三删除列表不存在所述系统中已存在的元数据对应数据的文件名时,将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址;。当前数据删除单元618用于删除所述系统中已存在的元数据对应数据的存储地址中的数据。通过当前元数据获得当前数据进而得到第二哈希值,然后构造第二数据信息,当在系统中存在与所述第二数据信息相同的第三数据信息时,获得第三数据信息对应的第三删除列表。若所述第三删除列表不存在当前元数据记录的文件名,则将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址并删除当前数据的存储地址中的所述当前数据。通过上述装置,删除系统中的垃圾数据,提高系统存储空间存储率。进一步的,如图9所示,元数据更新单元69包括元数据更新子单元691,用于在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入 数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。本发明的一个实施例提供一种删除重复数据的装置,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述装置,记录备份数,增强数据可靠性。进一步的,存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据,这样方便对已经执行过删除操作的数据的管理。此外,通过当前元数据获得当前数据进而得到第二哈希值,然后构造第二数据信息,当在系统中存在与所述第二数据信息相同的第三数据信息时,获得第三数据信息对应的第三删除列表。若所述第三删除列表不存在当前元数据记录的文件名,则将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址并删除当前数据的存储地址中的所述当前数据。通过上述方法,删除系统中的垃圾数据,提高系统存储空间存储率。再者,所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,克服了用户上传数据时进行在线进行删除重复数据的操作,影响用户体验和上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销的问题,优化了用户体验,加快运行效率。本发明的一个实施例还提供了一种计算机系统,如图10所示,包括总线701,处理器702,存储器703。其中,处理器702中包括上述提及的任意一种删除重复数据的装置。本发明的实施例提供一种计算机系统,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据。通过上述装置,克服了用户上传数据时进行在线进行删除重复数据的操作,影响用户体验和上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销的问题,优化了用户体验,加快运行效率。通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本发明各个实施例所述的方法。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
权利要求
1.一种删除重复数据的方法,其特征在于,包括 获取用户的输入数据,以及用户输入的副本数; 对所述输入数据进行哈希计算,得到哈希值; 建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据; 当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
2.根据权利要求I所述的方法,其特征在于,还包括 当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址;根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名; 将所述用户输入的数据的文件名加入所述删除列表。
3.根据权利要求I所述的方法,其特征在于,系统按照预设的周期遍历系统中已存在的元数据,包括 获取系统中已存在的元数据;所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名; 对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值; 构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数; 判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息; 若存在,获取所述第三数据信息对应的第三状态信息项;所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址; 根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名; 判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名;若否,将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址; 删除所述系统中已存在的元数据对应数据的存储地址中的数据。
4.根据权利要求I所述的方法,其特征在于,在删除所述输入数据前,还包括 将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
5.根据权利要求4所述的方法,其特征在于,所述将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,包括 在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
6.一种删除数据重复数据的装置,其特征在于,包括 输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数; 第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值; 数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数; 第一判断单元,用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据; 输入数据删除单元,用于当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括 状态信息项获取单元,用于当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址; 删除列表获取单元,用于根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名; 文件名添加单元,用于将所述用户输入的数据的文件名加入所述删除列表。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括 元数据获取单元,用于获取系统中已存在的元数据;所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名; 第二哈希单元,用于对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值; 第二数据信息建立单元,构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数; 第二判断单元,用于判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息; 第三状态信息项获取单元,用于当存在与所述第二数据信息相同的第三数据信息时,获取所述第三数据信息对应的第三状态信息项;所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址; 第三删除列表获取单元,用于根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名; 第三判断单元,用于判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名; 存储地址更新单元,用于当在所述第三删除列表不存在所述系统中已存在的元数据对应数据的文件名时,将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址;当前数据删除单元,用于删除所述系统中已存在的元数据对应数据的存储地址中的数据。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括 元数据更新单元,用于在删除所述输入数据前,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
10.根据权利要求9所述的装置,其特征在于,所述元数据更新单元,包括 元数据更新子单元,用于在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
11.一种计算机系统,其特征在于,包括 总线,与所述总线相连的处理器以及与所述总线相连的存储器; 其中所述处理器包括权利要求6至10中任意一项所述的装置。
全文摘要
本发明的实施例公开一种删除重复数据的方法、装置和系统,涉及计算机领域,解决现有技术中数据可靠性低,垃圾数据多,系统开销大的问题。一种删除重复数据的方法,包括通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息和对应的删除列表,将用户输入数据的文件名加入所述删除列表。然后将输入数据对应的元数据记录的输入数据的存储地址变更为已存储数据对应的元数据记录的已存储数据的存储地址,最后删除所述输入数据。本发明主要应用于计算机系统中。
文档编号G06F17/30GK102902762SQ20121036120
公开日2013年1月30日 申请日期2012年9月25日 优先权日2012年9月25日
发明者郑锡涛, 张辉, 战宏亮, 韩明 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1