更新地理信息数据增量的方法及装置的制造方法

文档序号:9765989阅读:281来源:国知局
更新地理信息数据增量的方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理领域,具体而言,涉及一种更新地理信息数据增量的方法及
目.0
【背景技术】
[0002]关联规则挖掘作为数据挖掘的一个重要领域,用于发现大量数据中项集之间的关联性,在各个领域发挥着不可替代的作用。目前,随着信息技术的进一步发展,在国民经济的各个领域积累的数据量越来越大,我们迎来了大数据的时代。在大数据的实际应用中,关联规则挖掘的对象往往是一个庞大的集中式或分布式的数据源。如果采用单机进行关联规则挖掘,存储能力和挖掘效率势必成为挖掘过程中的瓶颈,从而不能满足大数据挖掘的需求。另一方面,在很多实际的数据挖掘应用中,往往还存在增量更新的问题。很多应用领域的数据库都处在不断更新中,从而导致原有挖掘出来的模式失去作用或产生新的模式。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

【发明内容】

[0004]本发明实施例提供了一种更新地理信息数据增量的方法及装置,以至少解决相关技术中地理信息的数据更新效率低的技术问题。
[0005]根据本发明实施例的一个方面,提供了一种更新地理信息数据增量的方法,包括:获取地理信息的原始数据集和新增数据集;对上述原始数据集和上述新增数据集进行计算,得到增量计算结果;根据上述增量计算结果更新上述地理信息的数据增量。
[0006]进一步地,获取地理信息的原始数据集和新增数据集包括:扫描地理信息数据库;根据扫描结果生成地理信息的候选项集,上述候选项集包括上述原始数据集和上述新增数据集。
[0007]进一步地,对上述原始数据集和上述新增数据集进行计算,得到增量计算结果包括:将上述原始数据集划分为原始频繁项集和原始非频繁项集,并将上述新增数据集划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;计算上述原始频繁项集与上述新增频繁项集的并集,得到第一并集;计算上述原始频繁项集与上述新增非频繁项集,得到第二并集;计算上述原始非频繁项集与上述新增频繁项集,得到第三并集;计算上述原始非频繁项集与上述新增非频繁项集,得到第四并集;将上述第一并集、上述第二并集、上述第三并集和上述第四并集作为上述增量计算结果。
[0008]进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:将上述第一并集中的项集作为数据增量添加至上述新增数据集中;将上述第四并集中的项集从上述原始数据集中删除。
[0009]进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:判断上述第二并集中的项集是否是非频繁项集;若是,则将该非频繁项集对应的原始频繁项集从上述原始数据集中删除;和/或判断上述第三并集中的项集是否是频繁项集;若是,则将该频繁项集对应的原始非频繁项集添加到上述新增数据集中。
[0010]根据本发明实施例的另一方面,还提供了一种更新地理信息数据增量的装置,包括:获取单元,用于获取地理信息的原始数据集和新增数据集;计算单元,用于对上述原始数据集和上述新增数据集进行计算,得到增量计算结果;更新单元,用于根据上述增量计算结果更新上述地理信息的数据增量。
[0011 ]进一步地,上述获取单元包括:扫描模块,用于扫描地理信息数据库;生成模块,用于根据扫描结果生成地理信息的候选项集,上述候选项集包括上述原始数据集和上述新增数据集。
[0012]进一步地,上述计算单元包括:划分模块,用于将上述原始数据集划分为原始频繁项集和原始非频繁项集,并将上述新增数据集划分为新增频繁项集和新增非频繁项集,其中,在数据集中,支持度计数大于等于数据集中事务记录数目与最小支持度阈值的乘积的项集为频繁项集,支持度计数小于数据集中事务记录数目与最小支持度阈值的乘积的项集为非频繁项集;第一计算模块,用于计算上述原始频繁项集与上述新增频繁项集的并集,得到第一并集;第二计算模块,用于计算上述原始频繁项集与上述新增非频繁项集,得到第二并集;第三计算模块,用于第一计算模块,用于计算上述原始非频繁项集与上述新增频繁项集,得到第三并集;第四计算模块,用于计算上述原始非频繁项集与上述新增非频繁项集,得到第四并集;确定模块,用于将上述第一并集、上述第二并集、上述第三并集和上述第四并集作为上述增量计算结果。
[0013]进一步地,根据上述增量计算结果更新上述地理信息的数据增量包括:第一添加模块,用于将上述第一并集中的项集作为数据增量添加至上述新增数据集中;第一删除模块,用于将上述第四并集中的项集从上述原始数据集中删除。
[0014]进一步地,上述更新单元包括:第一判断模块,用于判断上述第二并集中的项集是否是非频繁项集;第二删除模块,用于在上述第二并集中的项集是非频繁项集时,将该非频繁项集对应的原始频繁项集从上述原始数据集中删除;和/或第二判断模块,用于判断上述第三并集中的项集是否是频繁项集;第二添加模块,用于上述第三并集中的项集是频繁项集时,将该频繁项集对应的原始非频繁项集添加到上述新增数据集中。
[0015]在本发明实施例中,采用根据项集在数据库增量更新前后是否为频繁的情形动态的更新数据结构的方式,通过获取地理信息的原始数据集和新增数据集;对原始数据集和新增数据集进行计算,得到增量计算结果;根据增量计算结果更新地理信息的数据增量,达到了快速、高效更新新增地理信息数据的技术效果,进而解决了相关技术中地理信息的数据更新效率低的技术问题。
【附图说明】
[0016]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0017]图1是根据本发明实施例的一种可选的更新地理信息数据增量的方法的流程图;
[0018]图2是根据本发明实施例的一种可选的更新地理信息数据增量的装置的示意图。
【具体实施方式】
[0019]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0020]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0021]实施例1
[0022]根据本发明实施例,提供了一种更新地理信息数据增量的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0023]图1是根据本发明实施例的一种可选的更新地理信息数据增量的方法的流程图,如图1所示,该方法包括如下步骤:
[0024]步骤S102,获取地理信息的原始数据集和新增数据集;
[0025]步骤S104,对原始数据集和新增数据集进行计算,得到增量计算结果;
[0026]步骤S106,根据增量计算结果更新地理信息的数据增量。
[0027]很多应用领域的数据库都处在不断更新中,使用本发明提供的技术方案,可以在原有模式的基础上,结合新增数据集进行再次挖掘,即进行增量关联规则挖掘处理。这样,即使数据挖掘应用中存在增量更新的问题,也不会导致原有挖掘出来的模式失去作用或产生新的模式。
[0028]通过上述步骤,在对海量数据挖掘时,不仅能够满足海量数据挖掘的需求,还能极大地提高挖掘效率。
[0029]可选地,获取地理信息的原始数据集和新增数据集包括:
[0030]S2,扫描地理信息数据库;
[0031]S4,根据扫描结果生成地理信息的候选项集,候选项集包括原始数据集和新增数据集。
[0032]其中,地理信息数据库可以是多系统的分布式数据库。原始数据集包括原始频繁项集和原始非频繁项集。其中,在原始数据集中,支持度计数大于等于原始数据集中
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1