数据处理方法、装置、电子设备及可读存储介质与流程

文档序号:33271131发布日期:2023-02-24 18:23阅读:24来源:国知局
1.本发明涉及计算机
技术领域
:,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
::2.传统算法中,在面临大数据体量的实时计算时,通常会采用基于哈希表的数据结构,然而在面临大量数据明细无法连接,可聚合力度很低的大数据体量时,采用基于哈希表的数据结构将会导致计算效率降低,聚合算子的计算性能降低,无法满足实际计算需求。技术实现要素:3.本发明提供一种数据处理方法、装置、电子设备及可读存储介质,用以解决现有技术在面临大量数据明细无法连接,可聚合力度很低的大数据体量时计算效率较低的技术问题,提供了一种结合布隆过滤器辅助哈希表实现高耗时算子性能提升的技术方案。4.第一方面,本发明提供了一种数据处理方法,包括:5.计算每一行数据的哈希值;6.在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;7.遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;8.所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;9.所述群聚哈希值为计数值超过预设数值的哈希值;10.所述孤立哈希值为计数值不超过预设数值的哈希值。11.根据本发明提供的数据处理方法,在布隆过滤器中匹配每一行数据的哈希值之后,还包括:12.在布隆过滤器中构建哈希值集群;13.对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值不相匹配的情况下,将所述哈希值标记为待测哈希值;14.输入所述待测哈希值至所述哈希值集群中,以更新所述哈希值集群。15.根据本发明提供的数据处理方法,在遍历所有哈希值之后,还包括:16.输入所有待测哈希值至所述哈希值集群中,以根据所有待测哈希值确定最终哈希值集群。17.根据本发明提供的数据处理方法,所述将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,包括:18.确定所有群聚哈希值;19.将所述最终哈希值集群中的每一待测哈希值与所有群聚哈希值进行匹配;20.对于任一待测哈希值,若无法与任一群聚哈希值相匹配,确定所述待测哈希值为孤立哈希值,直至确定出所有孤立哈希值。21.根据本发明提供的数据处理方法,所述在所述哈希表中记录每一群聚哈希值与计数值的对应关系,包括:22.若任一群聚哈希值不存在于所述哈希表中,创建所述群聚哈希值,并构建所述群聚哈希值与初始计数值的对应关系;23.在任一群聚哈希值存在于所述哈希表中,聚合所述群聚哈希值。24.根据本发明提供的数据处理方法,所述聚合所述群聚哈希值,包括:25.查询所述群聚哈希值所对应的计数值;26.根据所述计数值以及预设常数确定更新后计数值。27.根据本发明提供的数据处理方法,在确定出所有孤立哈希值之后,还包括:28.构建所有孤立哈希值以及每一孤立哈希值相对应的预设数值的第一对应关系;29.构建所有群聚哈希值以及每一群聚哈希值相对应的计数值的第二对应关系;30.将所述第一对应关系以及所述第二对应关系确定为结果集后,输出所述结果集。31.第二方面,本发明提供了一种数据处理装置,包括:32.计算单元:用于计算每一行数据的哈希值;33.第一确定单元:用于在所述布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;34.第二确定单元:用于遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;35.所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;36.所述群聚哈希值为计数值超过预设数值的哈希值;37.所述孤立哈希值为计数值不超过预设数值的哈希值。38.第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据处理方法。39.第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据处理方法。40.本发明提供的数据处理方法、装置、电子设备及可读存储介质,本发明通过计算原始输入数据中每一行数据的哈希值,在输入哈希表之前,先根据哈希值在布隆过滤器中查找,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,并在所述哈希表中记录群聚哈希值与计数值的对应关系,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,从而使得在哈希表中实现插入、聚合操作的哈希值,是经过孤立哈希值去重后的哈希值,进而减轻哈希表的工作负担,提高高耗时算子性能,提高数据库查询效率。附图说明41.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。42.图1是本发明提供的数据处理方法的流程示意图之一;43.图2是本发明提供的数据处理方法的流程示意图之二;44.图3是本发明提供的确定出所有孤立哈希值的流程示意图;45.图4是本发明提供的记录每一群聚哈希值与计数值的对应关系的流程示意图;46.图5是本发明提供的数据处理方法的流程示意图之三;47.图6是本发明提供的数据处理方法的流程示意图之四;48.图7是本发明提供的数据处理装置的结构示意图;49.图8是本发明提供的电子设备的结构示意图。具体实施方式50.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。51.数据库是数据管理的产物,其核心需求包括对数据的分类、编码、计算、分析以及维护等,从数据库技术的发展来看,数据库技术经历了人工管理阶段、文件系统阶段和数据库系统阶段。对于数据库技术发展,海量数据的出现毫无疑问是推动数据库发展的重要因素之一。随着社会的发展,历史数据的激增,各类数据库主要针对于大数据量的计算进行不断的优化改进,不断提升在大数据场景下的计算性能。52.olap(on-lineanalyticalprocessing)型数据库,会实时根据用户提出的需求,连接明细和汇总数据,对数据进行计算后返回给用户。在应对吉字节gb或太字节tb级别数据体量的实时计算,所采用的常规手段是:对于高耗时算子的行处理均采用数据结构(hashtable,ht),通过其接近o(1)的时间复杂度,以空间换时间为代价提升实时查询的效率,例如join算子(用以连接明细),agg算子(用以汇总数据)等。53.在面对大数据体量的实时计算时,ht数据结构无疑是高效选择,然而,在面临大量数据明细无法连接,可聚合力度很低的大数据体量时,大量孤立数据是无法被连接或聚合的,即这批孤立数据是可直接输出的,采用基于哈希表的数据结构将会导致整体计算效率降低。54.为了解决上述技术问题,图1是本发明提供的数据处理方法的流程示意图之一,本发明提供了一种数据处理方法,包括:55.计算每一行数据的哈希值;56.在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;57.遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;58.所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;59.所述群聚哈希值为计数值超过预设数值的哈希值;60.所述孤立哈希值为计数值不超过预设数值的哈希值。61.在步骤101中,首先接收来自终端输入的原始数据,所述原始数据中存在多行数据,以行数据作为输入,遍历所有行,以计算出每一行数据的哈希值,哈希是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值,这种转换是一种压缩映射,哈希算法可以将一个数据转换为一个标志,这个标志和源数据的每一个字节都有十分紧密的关系,本发明通过聚合算子计算每一行数据的哈希值,从而根据不同的哈希值分类出不同的群组,即根据一定的规则进行分组,通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。62.在步骤102中,在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系,所述布隆过滤器是一个很长的二进制向量和一系列随机映射函数,布隆过滤器可以用于检索一个元素是否在一个集合中。63.在布隆过滤器的初始阶段,布隆过滤器中并不存在任何哈希值,但随着匹配的不断进行,例如,布隆过滤器在首次匹配行数据的哈希值时,由于布隆过滤器中并未记录所述哈希值,此时输入所述哈希值至布隆过滤器中,以使得在下一次面对所述哈希值时,在布隆过滤器中实现成功匹配。64.所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的,所述哈希值集群中包含有一个或多个待测哈希值,而所述哈希值集群在匹配每一行数据哈希值的过程中实现动态更新,即在当前状态下,若一哈希值与当前状态下哈希值集群中的所有待测哈希值均不相同,则将所述哈希值确定为待测哈希值,从而完成对哈希值集群的扩充,以使得在下一次再次输入所述哈希值时,能够在哈希值集群中成功匹配,进而在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中。65.所述群聚哈希值为计数值超过预设数值的哈希值,所述预设数值可选地为1,此时,由于所述哈希值已经是第二次在布隆过滤器中进行匹配,所以此哈希值所对应的群组的数量一定大于或等于2,进而将这样的哈希值确定为群聚哈希值,本发明旨在过滤掉哈希值所对应的群组的记数数量小于2的哈希值,而针对大于或等于2的记数所对应的哈希值,需要将其输入至哈希表中,并在哈希表中完成后续的映射关系处理,并在后续不断的哈希值的输入布隆过滤器,而布隆过滤器经过过滤后将其输入至哈希表的过程中,在所述哈希表中记录每一群聚哈希值与计数值的对应关系。66.在步骤103中,遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,所述孤立哈希值为计数值不超过预设数值的哈希值,所述预设数值可选地为1,即首先,需完成所有哈希值的遍历,即完成所有哈希值对于布隆过滤器的输入,从而确定出所有群聚哈希值,此时,在完成所有哈希值的遍历的情况下,也完成了对于待测哈希值的扩充,并确定所有的待测哈希值,显然,所述布隆过滤器中的待测哈希值的群组类别是大于群聚哈希值所对应的群组类别的,进而将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,由于进入至哈希表中,能够成为群聚哈希值的,均是经过布隆过滤器筛选,并成功认定为其计数值至少为两个或两个以上的哈希值,故未能成功成为群聚哈希值的待测哈希值,即为孤立哈希值,即为计数值为1的哈希值。所述预设数值还可以根据实际应用需要进行调整,例如设置为2、3或者其他数值,在此不予赘述。67.本发明提供的数据处理方法、装置、电子设备及可读存储介质,本发明通过计算原始输入数据中每一行数据的哈希值,在输入哈希表之前,先根据哈希值在布隆过滤器中查找,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,并在所述哈希表中记录群聚哈希值与计数值的对应关系,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,从而使得在哈希表中实现插入、聚合操作的哈希值,是经过孤立哈希值去重后的哈希值,进而减轻哈希表的工作负担,提高高耗时算子性能,提高数据库查询效率。68.图2是本发明提供的数据处理方法的流程示意图之二,在布隆过滤器中匹配每一行数据的哈希值之后,还包括:69.在布隆过滤器中构建哈希值集群;70.对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值不相匹配的情况下,将所述哈希值标记为待测哈希值;71.输入所述待测哈希值至所述哈希值集群中,以更新所述哈希值集群。72.在步骤201中,对于一个准备进行数据处理而尚未开始处理的布隆过滤器,在数据处理的初始阶段,所述布隆过滤器中并未构建哈希值集群,甚至没有待测哈希值,而在数据处理的过程中,随着哈希值在布隆过滤器中的输入,所述布隆过滤器一边执行过滤操作,一边更新哈希值集群。73.在步骤202中,对于任一哈希值,其所匹配的布隆过滤器,一定是匹配当前匹配状态下的哈希值集群所对应的布隆过滤器,在实时的匹配过程中,实现任一哈希值的匹配或者不匹配,在匹配成功时,进一步地输入哈希值至哈希表,完成哈希表中哈希值与计数值对应关系的构建,而在匹配不成功时,则将匹配不成功所对应的哈希值确定为待测哈希值,可选地,标记的过程可以基于原始数据中标记所述数据行来实现,也可以聚合算子中实现。74.即在步骤203中,在与当前匹配状态下所对应的哈希值集群中的待测哈希值不相匹配的情况下,将所述哈希值标记为待测哈希值,同时,将所述待测哈希值输入至布隆过滤器的哈希值集群中,进而实现所述哈希值集群的更新。75.可选地,在遍历所有哈希值之后,还包括:76.输入所有待测哈希值至所述哈希值集群中,以根据所有待测哈希值确定最终哈希值集群。77.在输入哈希值的过程中,实际上是寻找哈希表对应关系的过程,也是更新哈希值集群的过程,直至遍历所有哈希值之后,确定所有待测哈希值,将所有待测哈希值输入至所述哈希值集群中,以根据所有待测哈希值确定最终哈希值集群,所述最终哈希值集群即为在遍历所有哈希值之后所形成的,对应于此次原始数据的所有哈希值的群组类别。78.本领域技术人员理解,区别于现有技术,布隆过滤器中添加待测哈希值的过程,是一种直接简单输入的过程,相对于在哈希表中形成哈希值与计数值的对应关系的过程而言,其处理过程效率高,能有效的过滤出孤立哈希值,减轻哈希表处理负担,从而提升整体计算效率。79.图3是本发明提供的确定出所有孤立哈希值的流程示意图,所述将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,包括:80.确定所有群聚哈希值;81.将所述最终哈希值集群中的每一待测哈希值与所有群聚哈希值进行匹配;82.对于任一待测哈希值,若无法与任一群聚哈希值相匹配,确定所述待测哈希值为孤立哈希值,直至确定出所有孤立哈希值。83.在步骤1031中,在遍历完所有哈希值之后,确定出所有群聚哈希值,所述群聚哈希值即为在哈希表中存在哈希值与计数值对应关系的哈希值的集合。84.在步骤1032中,在确定出所有群聚哈希值之后,将所述最终哈希值集群中的每一待测哈希值与所有群聚哈希值进行匹配,即将每一待测哈希值与所有群聚哈希值进行匹配,以确定出在所述群聚哈希值中是否存在与之相对应的哈希值与所述待测哈希值相对应,遍历所有待测哈希值,直至完成所有待测哈希值的匹配。85.在步骤1033中,对于任一待测哈希值,若与任一群聚哈希值相匹配,则认为所述待测哈希值所对应的群聚哈希值是即通过布隆过滤器筛选,又形成哈希表中对应关系的哈希值,若无法与任一群聚哈希值相匹配,确定所述待测哈希值为孤立哈希值,直至确定出所有孤立哈希值,所述孤立哈希值即为被所述布隆过滤器所拦截,且在接下来的哈希值输入过程中,并未发现有相同的哈希值与所述孤立哈希值相同,则认定所述孤立哈希值即为那些大量数据明细无法连接,可聚合粒度低下的数据,而这些数据作为单独数据直接输出,无需形成哈希表中对应关系,通过步骤1033,即确定出所有孤立哈希值。86.图4是本发明提供的记录每一群聚哈希值与计数值的对应关系的流程示意图,所述在所述哈希表中记录每一群聚哈希值与计数值的对应关系,包括:87.若任一群聚哈希值不存在于所述哈希表中,创建所述群聚哈希值,并构建所述群聚哈希值与初始计数值的对应关系;88.在任一群聚哈希值存在于所述哈希表中,聚合所述群聚哈希值。89.在步骤1021中,若任一群聚哈希值不存在于所述哈希表中,则认为所述群聚哈希值是首次出现在所述哈希表中,然而由于能够出现在哈希表中的群聚哈希值,是已经在此之前记录在布隆过滤器中,即已经是第二次出现的群聚哈希值,故此时所述初始计数值可以设置为2,而在其他的实施例中,也可以设置为1。90.在步骤1022中,在任一群聚哈希值存在于所述哈希表中,聚合所述群聚哈希值,若任一群聚哈希值存在于所述哈希表中,则认为当前哈希表中已经存在有所述群聚哈希值,则可以通过聚合操作更新所述群里哈希值所对应的计数值。91.可选地,所述聚合所述群聚哈希值,包括:92.查询所述群聚哈希值所对应的计数值;93.根据所述计数值以及预设常数确定更新后计数值。94.在聚合所述群聚哈希值的过程中,首先查询所述群聚哈希值所对应的计数值,例如,查询某一群聚哈希值的对应计数值为6,设所述预设常数为1,则根据所述计数值以及预设常数之和,确定更新后计数值为7,而在下一次再次匹配到所述群聚哈希值时,更新计数值为8,以此类推。95.图5是本发明提供的数据处理方法的流程示意图之三,在确定出所有孤立哈希值之后,还包括:96.构建所有孤立哈希值以及每一孤立哈希值相对应的预设数值的第一对应关系;97.构建所有群聚哈希值以及每一群聚哈希值相对应的计数值的第二对应关系;98.将所述第一对应关系以及所述第二对应关系确定为结果集后,输出所述结果集。99.在步骤301中,所述预设数值为1,则可以以元组形式构建第一对应关系,例如,(孤立哈希值a,1)、(孤立哈希值m,1)等等,前面的“孤立哈希值a”为所述孤立哈希值,而“1”则为孤立哈希值相对应的预设数值,(孤立哈希值a,1)即为第一对应关系。100.在步骤302中,计数值与每一群聚哈希值相对应,同样可以构建第二对应关系如下:(群聚哈希值b,6)、(群聚哈希值n,21),前面的“群聚哈希值b”为所述群聚哈希值,而“6”则为孤立哈希值相对应的计数值,(群聚哈希值b,6)即为第二对应关系。101.将所述第一对应关系以及所述第二对应关系确定为结果集后,输出所述结果集,可选地,确定所有第一对应关系,确定所有第二对应关系,将所有第一对应关系以及所有第二对应关系确定为结果集,并将其作为数据处理结果输出。102.图6是本发明提供的数据处理方法的流程示意图之四,如图6所示,用户executor输入数据至聚合算子hashaggxo,在循环过程loop中,遍历每一行数据,计算哈希值,根据哈希值在布隆过滤器bloomfilter中查找,在未查找出的情况下,将所述哈希值插入至布隆过滤器中,并标记所述哈希值所对应的行,在成功查找出的情况下,进入哈希表hashtab中,在哈希表中不存在与之相对应的哈希值时,插入所述哈希值至哈希表中,在哈希表中存在与之相对应的哈希值时,进行聚合操作agg(data)。103.在执行完所有哈希值在布隆过滤器以及哈希表中的处理后,遍历所有被标记的行,与哈希表中数据进行匹配,将不存在于哈希表中的被标记的行直接放至输出结果集,最终输出结果。104.图7是本发明提供的数据处理装置的结构示意图,本发明公开了一种数据处理装置,包括计算单元1:用于计算每一行数据的哈希值,所述计算单元1的工作原理可以参考前述步骤101,在此不予赘述。105.所述数据处理装置还包括第一确定单元2:用于在所述布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系,所述第一确定单元2的工作原理可以参考前述步骤102,在此不予赘述。106.所述数据处理装置还包括第二确定单元3:用于遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,所述第二确定单元3的工作原理可以参考前述步骤103,在此不予赘述。107.所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;108.所述群聚哈希值为计数值超过预设数值的哈希值;109.所述孤立哈希值为计数值不超过预设数值的哈希值。110.本发明提供的数据处理方法、装置、电子设备及可读存储介质,本发明通过计算原始输入数据中每一行数据的哈希值,在输入哈希表之前,先根据哈希值在布隆过滤器中查找,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,并在所述哈希表中记录群聚哈希值与计数值的对应关系,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,从而使得在哈希表中实现插入、聚合操作的哈希值,是经过孤立哈希值去重后的哈希值,进而减轻哈希表的工作负担,提高高耗时算子性能,提高数据库查询效率。111.图8是本发明提供的电子设备的结构示意图。如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(communicationsinterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行数据处理方法,该方法包括:计算每一行数据的哈希值;在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;所述群聚哈希值为计数值超过预设数值的哈希值;所述孤立哈希值为计数值不超过预设数值的哈希值。112.此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。113.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种数据处理方法,该方法包括:计算每一行数据的哈希值;在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;所述群聚哈希值为计数值超过预设数值的哈希值;所述孤立哈希值为计数值不超过预设数值的哈希值。114.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据处理方法,该方法包括:计算每一行数据的哈希值;在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;所述群聚哈希值为计数值超过预设数值的哈希值;所述孤立哈希值为计数值不超过预设数值的哈希值。115.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。116.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。117.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1