更新地理信息数据增量的方法及装置与流程

文档序号:12666314阅读:311来源:国知局
本发明涉及数据处理领域,具体而言,涉及一种更新地理信息数据增量的方法及装置。
背景技术
::关联规则挖掘作为数据挖掘的一个重要领域,用于发现大量数据中项集之间的关联性,在各个领域发挥着不可替代的作用。目前,随着信息技术的进一步发展,在国民经济的各个领域积累的数据量越来越大,我们迎来了大数据的时代。在大数据的实际应用中,关联规则挖掘的对象往往是一个庞大的集中式或分布式的数据源。如果采用单机进行关联规则挖掘,存储能力和挖掘效率势必成为挖掘过程中的瓶颈,从而不能满足大数据挖掘的需求。另一方面,在很多实际的数据挖掘应用中,往往还存在增量更新的问题。很多应用领域的数据库都处在不断更新中,从而导致原有挖掘出来的模式失去作用或产生新的模式。针对上述的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种更新地理信息数据增量的方法及装置,以至少解决相关技术中地理信息的数据更新效率低的技术问题。根据本发明实施例的一个方面,提供了一种更新地理信息数据增量的方法,包括:获取地理信息的候选项集,上述候选项集包括上述原始数据集和上述新增数据集;从上述候选项集中提取上述原始数据集和上述新增数据集;对提取的上述原始数据集和上述新增数据集进行计算,得到增量计算结果;根据上述增量计算结果更新上述地理信息的数据增量。进一步地,获取地理信息的候选项集包括:扫描地理信息数据库;根据扫描结果生成上述地理信息的上述候选项集。进一步地,对提取的上述原始数据集和上述新增数据集进行计算,得到增量计算结果包括:将上述原始数据集划分为原始频繁项集和原始非频繁项集,并将上述新增数据集划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;计算上述原始频繁项集与上述新增频繁项集的并集,得到第一并集;计算上述原始频繁项集与上述新增非频繁项集,得到第二并集;计算上述原始非频繁项集与上述新增频繁项集,得到第三并集;计算上述原始非频繁项集与上述新增非频繁项集,得到第四并集;将上述第一并集、上述第二并集、上述第三并集和上述第四并集作为上述增量计算结果。进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:将上述第一并集中的项集作为数据增量添加至上述新增数据集中;将上述第四并集中的项集从上述原始数据集中删除。进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:判断上述第二并集中的项集是否是非频繁项集;若是,则将该非频繁项集对应的原始频繁项集从上述原始数据集中删除;和/或判断上述第三并集中的项集是否是频繁项集;若是,则将该频繁项集对应的原始非频繁项集添加到上述新增数据集中。根据本发明实施例的另一方面,还提供了一种更新地理信息数据增量的装置,包括:获取单元,用于获取地理信息候选项集,上述候选项集包括上述原始数据集和上述新增数据集;提取单元,用于从上述候选项集中提取上述原始数据集和新增数据集;计算单元,用于对提取的上述原始数据集和上述新增数据集进行计算,得到增量计算结果;更新单元,用于根据上述增量计算结果更新上述地理信息的数据增量。进一步地,上述获取单元包括:扫描模块,用于扫描地理信息数据库;生成模块,用于根据扫描结果生成上述地理信息的候选项集。进一步地,上述计算单元包括:划分模块,用于将上述原始数据集划分为原始频繁项集和原始非频繁项集,并将上述新增数据集划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;第一计算模块,用于计算上述原始频繁项集与上述新增频繁项集的并集,得到第一并集;第二计算模块,用于计算上述原始频繁项集与上述新增非频繁项集,得到第二并集;第三计算模块,用于第一计算模块,用于计算上述原始非频繁项集与上述新增频繁项集,得到第三并集;第四计算模块,用于计算上述原始非频繁项集与上述新增非频繁项集,得到第四并集;确定模块,用于将上述第一并集、上述第二并集、上述第三并集和上述第四并集作为上述增量计算结果。进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:第一添加模块,用于将上述第一并集中的项集作为数据增量添加至上述新增数据集中;第一删除模块,用于将上述第四并集中的项集从上述原始数据集中删除。进一步地,上述更新单元包括:第一判断模块,用于判断上述第二并集中的项集是否是非频繁项集;第二删除模块,用于在上述第二并集中的项集是非频繁项集时,将该非频繁项集对应的原始频繁项集从上述原始数据集中删除;和/或第二判断模块,用于判断上述第三并集中的项集是否是频繁项集;第二添加模块,用于上述第三并集中的项集是频繁项集时,将该频繁项集对应的原始非频繁项集添加到上述新增数据集中。在本发明实施例中,采用根据项集在数据库增量更新前后是否为频繁的情形动态的更新数据结构的方式,通过获取地理信息的候选项集,候选项集包括原始数据集和新增数据集;从候选项集中提取原始数据集和新增数据集;对提取的原始数据集和新增数据集进行计算,得到增量计算结果;根据增量计算结果更新地理信息的数据增量,达到了快速、高效更新新增地理信息数据的技术效果,进而解决了相关技术中地理信息的数据更新效率低的技术问题。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的一种可选的更新地理信息数据增量的方法的流程图;图2是根据本发明实施例的一种可选的更新地理信息数据增量的装置的示意图。具体实施方式为了使本
技术领域
:的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本发明实施例,提供了一种更新地理信息数据增量的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本发明实施例的一种可选的更新地理信息数据增量的方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,获取地理信息的候选项集,候选项集包括原始数据集和新增数据集;步骤S104,从候选项集中提取原始数据集和新增数据集;步骤S106,对提取的原始数据集和新增数据集进行计算,得到增量计算结果;步骤S108,根据增量计算结果更新地理信息的数据增量。很多应用领域的数据库都处在不断更新中,使用本发明提供的技术方案,可以在原有模式的基础上,结合新增数据集进行再次挖掘,即进行增量关联规则挖掘处理。这样,即使数据挖掘应用中存在增量更新的问题,也不会导致原有挖掘出来的模式失去作用或产生新的模式。通过上述步骤,在对海量数据挖掘时,不仅能够满足海量数据挖掘的需求,还能极大地提高挖掘效率。可选地,获取地理信息的原始数据集和新增数据集包括:S2,扫描地理信息数据库;S4,根据扫描结果生成地理信息的候选项集。其中,地理信息数据库可以是多系统的分布式数据库。原始数据集包括原始频繁项集和原始非频繁项集。其中,在原始数据集中,支持度计数大于等于原始数据集中事务记录数目与最小支持度阈值的乘积的项集为原始频繁项集,支持度计数小于原始数据集中事务记录数目与最小支持度阈值的乘积的项集为原始非频繁项集。同理,新增数据集包括新增频繁项集和新增非频繁项集。其中,在新增数据集中,支持度计数大于等于新增数据集中事务记录数目与最小支持度阈值的乘积的项集为新增频繁项集,支持度计数小于新增数据集中事务记录数目与最小支持度阈值的乘积的项集为新增非频繁项集。通过上述步骤,可以得到全面、准确的原始数据集和新增数据集。可选地,对提取的原始数据集和新增数据集进行计算,得到增量计算结果包括:S6,将原始数据集划分为原始频繁项集和原始非频繁项集,并将新增数据集划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;S8,计算原始频繁项集与新增频繁项集的并集,得到第一并集;S10,计算原始频繁项集与新增非频繁项集,得到第二并集;S12,计算原始非频繁项集与新增频繁项集,得到第三并集;S14,计算原始非频繁项集与新增非频繁项集,得到第四并集;S16,将第一并集、第二并集、第三并集和第四并集作为增量计算结果。通过本发明实施例,可以根据项集在数据库增量更新前后是否为频繁的情形动态的更新数据结构的方式,达到提高更新效率的目的。可选地,根据增量计算结果更新地理信息的数据增量包括:S18,将第一并集中的项集作为数据增量添加至新增数据集中;S20,将第四并集中的项集从原始数据集中删除。由于原始频繁项集与新增频繁项集的并集必然是频繁项集,因此可以直接将其添加至新增数据集;并且原始非频繁项集与新增非频繁项集的并集必然是非频繁项集,因此可以直接将其从原始数据集中删除。通过本发明实施例,将不同类型的项集分类计算,可以实现快速更新计算结果的目的,达到提高更新效率的技术效果。可选地,根据增量计算结果更新地理信息的数据增量包括:S22,判断第二并集中的项集是否是非频繁项集;S24,若是,则将该非频繁项集对应的原始频繁项集从原始数据集中删除;和/或S26,判断第三并集中的项集是否是频繁项集;S28,若是,则将该频繁项集对应的原始非频繁项集添加到新增数据集中。也即,在求原始频繁项集与新增非频繁项集的并集时,若原始频繁项集变化为非频繁项集,则需要将该非频繁项集对应的原始频繁项集从原始数据集中删除;和/或,在求原始非频繁项集与新增频繁项集的并集时,若原始非频繁项集变化为频繁项集,则需要将该频繁项集对应的原始非频繁项集添加到新增数据集中。通过本发明实施例,可以根据项集在数据库增量更新前后是否为频繁的情形动态的更新数据结构的方式,达到提高更新效率的目的。下面以一个具体实施例详细阐述本发明:在本发明实施例中,可以使用FUFP-tree算法进行基于关联规则的增量挖掘。具体地,针对原始事务数据库增量更新后,频繁项集发生变化的问题,可以把增量更新后的所有项集分为4种类别C1,C2,C3,C4。其中,对于类别C1,在D(即原始数据集)和d(即新增数据集)中都为频繁项集,此类在更新后的事务数据库D∪d中肯定也是频繁项集;而对于类别C4,在D和d中都非频繁项集,在更新后的事务数据库D∪d中肯定也是非频繁项集;对于类别C2,在D中为频繁项集,在d中为非频繁项集,那么在D∪d中频繁性不确定,若变为非频繁项,则需要把它从原始频繁项集中删除;对于类别C3,在D中为非频繁项集,在d中为频繁项集,那么在D∪d中频繁性也不确定,若变为频繁项集,则需要把它添加到频繁项集中。FUFP-tree算法是在最小支持度不变的情况下,利用已获得的原始频繁项集和更新后的数据库,采用FUP算法的思想,依据项集在数据库增量更新前后是否为频繁的情形动态地更新FUFP-tree数据结构,从而最小程度地去扫描原始事务数据库。在FUFP-tree构建过程中,通常会把初次扫描原始数据库后发现的一阶频繁项集保存在名为Header-table的头表中,与FUFP-tree中的节点对应。与FP-tree结构不同之处是,把FP-tree结构中父节点和孩子节点间的单向连接关系改为双向连接,从而在数据库增量更新时,可以根据上述4种类别来更新Headertable头表以及增加或删除树中节点,从而使其可以正确地快速更新FUFP-tree。在FUFP-tree更新时,显然类别C4不予考虑,首先考虑类别C2,扫描新增事务数据库,将由频繁变为非频繁的项集从原有的头表Header-table和FUFP-tree中删除。然后再考虑类别C1和C3,这2个类别只存在往头表Header-table和FUFP-tree添加项集的情况,但有不同之处。对于C1,只需添加属于C1的新增事务数据集,而对于C3,需要重新扫描原始的事务数据库,找出属于C3的项集并计算支持度,然后再同C3中的新增事务数据集进行支持度计算,把计算后为频繁项集的事务记录添加进去。通过对C1,C2,C33种情况进行更新可以得到新的事务数据库D∪d的FUFP-tree。FUFP-tree算法有效地结合了FUP和FP-tree算法,通过低复杂度的更新频繁模式树和唯一的一次扫描原始事务数据库,即可完成原始事务数据库的增量更新数据挖掘。实施例2根据本发明实施例,提供了一种更新地理信息数据增量的装置的实施例。图2是根据本发明实施例的一种可选的更新地理信息数据增量的装置的示意图,如图2所示,该装置包括:获取单元202,用于获取地理信息候选项集,所述候选项集包括所述原始数据集和所述新增数据集;提取单元204,用于从候选项集中提取原始数据集和新增数据集;计算单元206,用于对提取的原始数据集和新增数据集进行计算,得到增量计算结果;更新单元208,用于根据增量计算结果更新地理信息的数据增量。很多应用领域的数据库都处在不断更新中,使用本发明提供的技术方案,可以在原有模式的基础上,结合新增数据集进行再次挖掘,即进行增量关联规则挖掘处理。这样,即使数据挖掘应用中存在增量更新的问题,也不会导致原有挖掘出来的模式失去作用或产生新的模式。通过上述步骤,在对海量数据挖掘时,不仅能够满足海量数据挖掘的需求,还能极大地提高挖掘效率。可选地,获取单元包括:扫描模块,用于扫描地理信息数据库;生成模块,用于根据扫描结果生成地理信息的候选项集,候选项集包括原始数据集和新增数据集。其中,地理信息数据库可以是多系统的分布式数据库。原始数据集包括原始频繁项集和原始非频繁项集。其中,在原始数据集中,支持度计数大于等于原始数据集中事务记录数目与最小支持度阈值的乘积的项集为原始频繁项集,支持度计数小于原始数据集中事务记录数目与最小支持度阈值的乘积的项集为原始非频繁项集。同理,新增数据集包括新增频繁项集和新增非频繁项集。其中,在新增数据集中,支持度计数大于等于新增数据集中事务记录数目与最小支持度阈值的乘积的项集为新增频繁项集,支持度计数小于新增数据集中事务记录数目与最小支持度阈值的乘积的项集为新增非频繁项集。通过上述步骤,可以得到全面、准确的原始数据集和新增数据集。可选地,计算单元包括:划分模块,用于将原始数据集划分为原始频繁项集和原始非频繁项集,并将新增数据集划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;第一计算模块,用于计算原始频繁项集与新增频繁项集的并集,得到第一并集;第二计算模块,用于计算原始频繁项集与新增非频繁项集,得到第二并集;第三计算模块,用于第一计算模块,用于计算原始非频繁项集与新增频繁项集,得到第三并集;第四计算模块,用于计算原始非频繁项集与新增非频繁项集,得到第四并集;确定模块,用于将第一并集、第二并集、第三并集和第四并集作为增量计算结果。通过本发明实施例,可以根据项集在数据库增量更新前后是否为频繁的情形动态的更新数据结构的方式,达到提高更新效率的目的。可选地,根据增量计算结果更新地理信息的数据增量包括:第一添加模块,用于将第一并集中的项集作为数据增量添加至新增数据集中;第一删除模块,用于将第四并集中的项集从原始数据集中删除。由于原始频繁项集与新增频繁项集的并集必然是频繁项集,因此可以直接将其添加至新增数据集;并且原始非频繁项集与新增非频繁项集的并集必然是非频繁项集,因此可以直接将其从原始数据集中删除。通过本发明实施例,将不同类型的项集分类计算,可以实现快速更新计算结果的目的,达到提高更新效率的技术效果。可选地,更新单元包括:第一判断模块,用于判断第二并集中的项集是否是非频繁项集;第二删除模块,用于在第二并集中的项集是非频繁项集时,将该非频繁项集对应的原始频繁项集从原始数据集中删除;和/或第二判断模块,用于判断第三并集中的项集是否是频繁项集;第二添加模块,用于第三并集中的项集是频繁项集时,将该频繁项集对应的原始非频繁项集添加到新增数据集中。也即,在求原始频繁项集与新增非频繁项集的并集时,若原始频繁项集变化为非频繁项集,则需要将该非频繁项集对应的原始频繁项集从原始数据集中删除;和/或,在求原始非频繁项集与新增频繁项集的并集时,若原始非频繁项集变化为频繁项集,则需要将该频繁项集对应的原始非频繁项集添加到新增数据集中。通过本发明实施例,可以根据项集在数据库增量更新前后是否为频繁的情形动态的更新数据结构的方式,达到提高更新效率的目的。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1