数据重复性校验方法及装置与流程

文档序号:11155094阅读:744来源:国知局
本发明涉及信息
技术领域
:,尤其涉及一种数据重复性校验方法及装置。
背景技术
::近些年来,随着信息技术的不断发展,分布式技术越来越成熟,通过分布式技术建立分片集群,可以实现对数据库中的数据进行分布式存储,例如MongoDB,CouchDB,Hbase,Hypertable等数据库,进而可以提高分布式系统中的并发性能。但是由于在分片模式下数据库的片键索引无法保证集群数据的唯一性,会导致分布式系统中产生很多重复的冗余数据,不仅会增加硬件的存储成本,还会影响系统的存储和查询性能。目前可以在每次插入新数据之前进行数据重复性校验,在数据库中查询是否存在相同的数据,具体地,当需要向数据库插入新数据时,可以将此新数据分配到数据库中每一分片区域分别进行数据重复性校验。然而,由于每次向数据库中插入新数据之前都需要进行上述数据重复性校验,这样会造成数据重复性校验的效率较低,并且会影响数据的插入速度。技术实现要素:有鉴于此,本发明实施例提供一种数据重复性方法及装置,主要目的是可以提高数据重复性校验的效率。为达到上述目的,本发明主要提供如下技术方案:一方面,本发明实施例提供了一种数据重复性校验方法,该方法包括:获取数据库对应的数据量信息;根据所述数据量信息,创建布隆过滤器;获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。另一方面,本发明实施例还提供了一种数据重复性校验装置,该装置包括:获取单元,用于获取数据库对应的数据量信息;创建单元,用于根据所述获取单元获取的数据量信息,创建布隆过滤器;所述获取单元,还用于获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;保存单元,用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:本发明提供的一种数据重复性校验方法及装置,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本发明实施例提供的一种数据重复性校验方法流程示意图;图2为本发明实施例提供的另一种数据重复性校验方法流程示意图;图3为本发明实施例提供的一种数据重复性校验装置结构示意图;图4为本发明实施例提供的另一种数据重复性校验装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本发明实施例提供了一种数据重复性校验方法,如图1所示,所述方法包括:101、获取数据库对应的数据量信息。其中,所述数据量信息包含有数据库中当前已经存在的数据量。102、根据数据量信息,创建布隆过滤器。其中,所述布隆过滤器(BloomFilter)的实现基础是一个很长的二进制位向量和一系列随机散列函数,是一种基于散列的查找算法,用于查找一个元素是否在集合中,和散列表相比,所述布隆过滤器的优点是空间效率和查询时间都远远超过一般的算法,可以对海量数据集进行表示和查找操作,存储空间和插入/查询时间都是常数,另外,哈希函数相互之间没有关系,方便由硬件并行实现;布隆过滤器不需要存储元素本身,在对保密要求非常严格的场合有优势。需要说明的是,可以根据实际需求,将数据库中当前已经存在的数据量乘以相应的经验值,作为估算的布隆过滤器中容纳的元素数,例如,可以将数据库中当前已经存在的数据量N乘以10,作为估算的布隆过滤器中容纳的元素数M。为了创建布隆过滤器还需要误差容忍度的参数,可以根据实际情况进行配置,例如,误差容忍度p可以采用十万分之一。通过元素数和误差容忍度两个必要参数,可以确定创建布隆过滤器所需的其他参数,包括:所需要的内存大小以及hashfunction(哈希函数)的个数等,根据这些参数,初始化布隆过滤器。103、获取数据库中预置字段信息对应的哈希值,并将哈希值保存在布隆过滤器中。其中,所述预置字段信息可以为用于数据唯一性判断的字段信息,具体可以根据实际需求进行配置。对于本发明实施例,可以将数据库中作为唯一性判断的字段按照一定的规则编码为一个字符串,再计算出其哈希值(根据需要可以是32位、64位或者更长),并全部读取到布隆过滤器中。104、当布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存待插入数据。其中,所述特征字段信息可以为在待插入数据中与预置字段标识信息对应的多个字段信息,所述预置字段标识信息可以为确定待插入数据唯一性的字段标识信息。例如,当需要对网站贴吧中发表的文章帖子进行数据重复性校验时,预置字段标识信息可以配置为文章帖子对应的URL(UniformResourceLocator,统一资源定位符)标识以及发布时间标识,与URL标识对应的字段信息可以为http://tieba.baidu.com/p/1050771140,与发布时间标识对应的字段信息可以为2010年1月1日18点38分20秒。对于本发明实施例,当所述布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,则将所述待插入数据删除,不进行插入;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,可以将待插入数据进行插入。本发明实施例提供的一种数据重复性校验方法,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。本发明实施例提供了另一种数据重复性校验方法,如图2所示,所述方法包括:201、获取数据库对应的数据量信息。其中,所述数据量信息包含有数据库中当前已经存在的数据量。202、根据数据量信息,创建布隆过滤器。其中,所述布隆过滤器的概念解释可以参考步骤102中的相应解释,本发明实施例不做限定。需要说明的是,所述步骤202具体包括:根据所述数据量信息,确定创建布隆过滤器的所需参数;根据所述布隆过滤器的所需参数,创建所述布隆过滤器。具体地,可以根据实际需求,将数据库中当前已经存在的数据量乘以相应的经验值,作为估算的布隆过滤器中容纳的元素数。为了创建布隆过滤器还需要误差容忍度的参数,可以根据实际情况进行配置,通过元素数和误差容忍度两个必要参数,可以确定创建布隆过滤器所需的其他参数,包括:所需要的内存大小以及哈希函数的个数等,根据这些参数,初始化布隆过滤器。进一步地,可以根据公式计算出所需要的内存m,可以根据公式计算出哈希函数的个数,其中,公式中n为元素数,p为误差容忍度,m为所需要的内存大小,k为哈希函数的个数。203、获取数据库中不同预置字段信息分别对应的哈希值,并将哈希值保存在布隆过滤器中。其中,所述预置字段信息可以为用于数据唯一性判断的字段信息,具体可以根据实际需求进行配置。对于本发明实施例,可以将数据库中作为唯一性判断的字段按照一定的规则编码为一个字符串,再计算出其哈希值(根据需要可 以是32位、64位或者更长),并全部读取到布隆过滤器中。204a、当布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存待插入数据。其中,所述特征字段信息可以为在待插入数据中与预置字段标识信息对应的多个字段信息,所述预置字段标识信息可以为确定待插入数据唯一性的字段标识信息。例如,当需要对博客网站中发表的博客文章进行数据重复性校验时,预置字段标识信息可以配置为博客文章对应的URL标识以及发布时间标识,与URL标识对应的字段信息可以为http://blog.sina.com.cn/s/blog_49818dcb0102w0y0.html?tj=1,与发布时间标识对应的字段信息可以为2011年6月2日22点10分10秒。对于本发明实施例,所述方法还可以包括:从待插入数据中获取与预置字段标识信息对应的多个字段信息;根据预置编码规则将所述多个字段信息进行编码,得到所述多个字段信息对应的组合字段信息。需要说明的是,所述203具体可以包括:获取数据库中不同预置字段信息,根据不同预置字段标识信息分别对应的多个字段信息以及所述预置编码规则,将所述不同预置字段信息生成多个预置组合字段信息,将所述多个预置组合字段信息分别对应的哈希值保存在布隆过滤器中。此时所述步骤204a具体可以包括:当所述布隆过滤器中不存在所述组合字段信息对应的哈希值时,保存所述待插入数据。其中,所述预置编码规则可以根据实际需求进行配置,也可以由系统默认配置,本发明实施例不做限定,具体可以为将多个字段信息分别对应的字符串进行连接。所述组合字段信息可以为由多个字段信息组合得到的一个字段信息。例如,与预置字段标识信息对应的有四个字段信息,四个字段信息对应的 字符串分别为http%3A%2F%2Fwww.w3school.com.cn%2Fhtml%2Fhtml_urlencode.asp、20110101、191918、1010101011010,将四个字段信息分别对应的字符串进行连接得到http%3A%2F%2Fwww.w3school.com.cn%2Fhtml%2Fhtml_urlencode.asp201101011919181010101011010。需要说明的是,通过根据预置编码规则将多个特征字段信息进行编码得到组合字段信息,对组合字段信息与数据库中的组合字段信息进行匹配进而实现数据重复性校验,减少了数据匹配的次数,提高了数据重复性校验的效率,减少了分布式系统的负担。205a、将待插入数据中特征字段信息对应的哈希值保存在布隆过滤器中。对于本发明实施例,通过将待插入数据中特征字段信息对应的哈希值保存在布隆过滤器中,可以用于对新的待插入数据进行数据重复性校验,以提高数据重复性校验的准确性。与步骤204a并列的步骤204b、当布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,将待插入数据进行删除。本发明实施例提供的另一种数据重复性校验方法,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少 了分布式系统的负担。进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种数据重复性校验装置,如图3所示,所述装置包括:获取单元31、创建单元32、保存单元33。所述获取单元31,可以用于获取数据库对应的数据量信息。所述创建单元32,可以用于根据所述获取单元31获取的数据量信息,创建布隆过滤器。所述获取单元31,还可以用于获取所述数据库中预置字段信息对应的哈希值。所述保存单元33,可以用于将所述哈希值保存在所述布隆过滤器中。所述保存单元33,还可以用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。需要说明的是,本发明实施例提供的一种数据重复性校验装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。本发明实施例提供的一种数据重复性校验装置,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种数据重复性校验装置,如图4所示,所述装置包括:获取单元41、创建单元42、保存单元43。所述获取单元41,可以用于获取数据库对应的数据量信息。所述创建单元42,可以用于根据所述获取单元41获取的数据量信息,创建布隆过滤器。所述获取单元41,还可以用于获取所述数据库中不同预置字段信息分别对应的哈希值。所述保存单元43,可以用于将所述哈希值保存在所述布隆过滤器中。所述保存单元43,还可以用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。进一步地,所述装置还包括:删除单元44。删除单元,可以用于当所述布隆过滤器中存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据进行删除。进一步地,所述创建单元42包括:确定模块421、创建模块422。所述确定模块421,可以用于根据所述数据量信息,确定创建布隆过滤器的所需参数。所述创建模块422,可以用于根据所述布隆过滤器的所需参数,创建所述布隆过滤器。所述保存单元43,还可以用于当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,将所述待插入数据中特征字段信息对应的哈希值保存在所述布隆过滤器中。进一步地,所述装置还包括:编码单元45。所述获取单元41,还可以用于从待插入数据中获取与预置字段标识信息对应的多个字段信息。所述编码单元45,可以用于根据预置编码规则将所述多个字段信息进行编码,得到所述多个字段信息对应的组合字段信息。所述保存单元43,具体可以用于当所述布隆过滤器中不存在所述组合字段信息对应的哈希值时,保存所述待插入数据。需要说明的是,本发明实施例提供的另一种数据重复性校验装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。本发明实施例提供的另一种数据重复性校验装置,首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。与现有技术相比,本发明通过根据数据库的数据量信息,创建布隆过滤器,并在布隆过滤器中进行数据重复性校验,可以实现在数据库插入数据的入口处对数据进行重复性校验,无需将待插入数据分配到数据库中每一分片区域分别进行数据重复性校验,提高了数据重复性校验的效率,减少了分布式系统的负担。所述数据重复性校验装置包括处理器和存储器,上述获取单元、创建单元、保存单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据重复性校验的效率。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存 储器包括至少一个存储芯片。本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取数据库对应的数据量信息;根据所述数据量信息,创建布隆过滤器;获取所述数据库中不同预置字段信息分别对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1