一种增量码库的建立方法和装置制造方法

文档序号:6486708阅读:139来源:国知局
一种增量码库的建立方法和装置制造方法
【专利摘要】本发明提供了一种增量码库的建立方法和装置,该方法包括:利用获取的更新数据与历史增量数据库中的历史增量数据进行比较,将关键属性相异的更新数据确定为非冗余数据;提取所述非冗余数据中描述地理对象的信息,添加到候选码库中;对所述候选码库中各候选数据的地理对象名称和空间位置进行判断,将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组;对同一个判重组内的多个候选数据,根据各候选数据的数据来源的可信度计算各候选数据的权值;将权值最高的候选数据作为该判重组的码库数据,构成增量码库。相较于现有技术,本发明能提高数据挖掘处理的效率,通过对多个候选数据进行判重和校验,提高准确性。
【专利说明】一种增量码库的建立方法和装置
【【技术领域】】
[0001]本发明涉及地理信息【技术领域】,特别涉及一种增量码库的建立方法和装置。
【【背景技术】】
[0002]码库,又称为地理编码参考数据库(geocode reference dataset),是为识别点、线、面的位置和属性而设置的编码数据库,它将全部实体按照预先拟定的分类系统,选择最适宜的量化方法,按实体的属性特征和集合坐标的数据结构记录在计算机的储存设备上。在进行地理编码时,通常是根据各数据点的地理坐标或空间地址(如省市、街区、楼层、房间等),将数据库中的数据与其在地图上相对应的图形元素一一对应,即给每个数据赋予X和Y坐标值(经度/纬度值),从而确定该数据标在图上的位置的过程。
[0003]随着基于位置的定位技术的不断发展,特别是导航和移动设备的普及,用户对地理空间数据的准确性、完整性和实时性提出了更高的要求。因此,空间数据提供商会对地理空间数据库进行持续不断的更新,并向数据用户分发更新信息,以提高地理空间数据的实时性。现有空间数据提供商的更新服务可分为批量式更新和增量式更新两种方式:批量式更新向用户提供新版数据的全部内容,这种更新方式存在传输效率低、用户端更新困难等诸多问题;增量式更新只向客户提供发生变化的信息,这种更新方式更加科学,是一种更有效的更新信息发布方式。
[0004]当空间数据提供商发布更新信息后,空间数据的用户也需要相应地将更新信息挖掘成对应的码库信息。无论空间数据提供商提供的是批量式更新数据还是增量式更新数据,现有的码库挖掘方法均是通过对所有数据进行一次性的挖掘,即全量挖掘,以生成地理编码数据。这种全量挖掘的方式首先是效率低,每次有数据更新都需要重新对所有数据运行一遍挖掘流程;其次是无法继承人工修改的数据,也就是上次纠正的数据会在下一次全量挖掘过程中需要重新进行人工修 改,导致浪费人力物力。

【发明内容】

[0005]有鉴于此,本发明提供了一种增量码库的建立方法和装置,能够有效区分更新数据中的冗余数据,利用非冗余数据形成增量码库,提高了数据处理的效率,能对人工修改的结果进行继承,节省资源,并通过对多个候选数据进行判重和校验,提高了数据的准确性。
[0006]具体技术方案如下:
[0007]一种增量码库的建立方法,该方法包括以下步骤:
[0008]S1、获取数据图的更新数据;
[0009]S2、利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较,将关键属性相异的更新数据确定为非冗余数据;
[0010]S3、提取所述非冗余数据中描述地理对象的信息,添加到候选码库中;
[0011]S4、对所述候选码库中各候选数据的地理对象名称和空间位置进行判断,将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组;[0012]S5、对同一个判重组内的多个候选数据,根据各候选数据的数据来源的可信度计算各候选数据的权值;
[0013]S6、将权值最高的候选数据作为该判重组的码库数据,构成增量码库。
[0014]根据本发明一优选实施例,在所述步骤S I之后,还包括:
[0015]对所获取的更新数据的格式进行预处理,转换成预定义的数据格式。
[0016]根据本发明一优选实施例,所述关键属性包括:
[0017]数据的名称、地址、数据来源、可信度和空间位置;
[0018]所述关键属性相异的更新数据是指与所述历史增量数据相比,至少有一种关键属性相异的数据。
[0019]根据本发明一优选实施例,在所述步骤S2之后,还包括:
[0020]将所确定的非冗余数据添加到所述历史增量数据库中。
[0021]根据本发明一优选实施例,所述步骤S3包括:
[0022]步骤S3_l、对所述非冗余数据的名称或地址进行分词;
[0023]步骤S3_2、从名称或地址的分词结果中按照预定义的规则进行规范化处理后,得到描述地理对象的地理对象名称;
[0024]步骤S3_3、关联确定所述地理对象名称对应的属性信息,组成一条候选数据,添加到候选码库中;
[0025]其中,所述对应的属性信息至少包括:该地理对象的空间位置。
[0026]根据本发明一优选实施例,所述关联确定所述地理对象名称对应的属性信息,包括:
[0027]将所述地理对象名称所在的非冗余数据中包含的属性信息,确定为该地理对象名称所在的候选数据对应的属性信息;
[0028]根据所述空间位置,对所述候选数据进行最小外接矩形计算,预估所述候选数据的范围大小。
[0029]根据本发明一优选实施例,在所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值之前,还包括:
[0030]判断所述判重组中的候选数据是否正确。
[0031]根据本发明一优选实施例,所述判断所述判重组中的候选数据是否正确,具体包括:
[0032]对提供数据来源的各个数据提供商提供的数据质量进行评估,确定可信来源的数据提供商;
[0033]判断同一个判重组中是否有可信来源的数据,如果有,则认为该判重组中的数据正确,否则,计算判重组中各个候选数据的数据权值,如果判重组中的数据权值不小于预设阈值,则认为该判重组中的数据正确,否则,认为该判重组中的数据错误。
[0034]根据本发明一优选实施例,所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值,具体包括:
[0035]根据各候选数据的数据来源确定各个候选数据的可信度;
[0036]对提供数据来源的各个数据提供商提供的数据质量进行评估,将可信来源的数据作为校验数据;[0037]统计各候选数据关联到的校验数据的数量;
[0038]利用各个候选数据和关联到的校验数据的数量,计算得到各候选数据的数据权值。
[0039]根据本发明一优选实施例,所述将数据权值最高的候选数据作为该判重组的码库数据,具体包括:
[0040]将数据权值最高的候选数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值;
[0041]根据预设的类别优先级配置文件,从该判重组中所有的类别中确定出该判重组的码库数据的类别;
[0042]对于类别为道路类的码库数据,选择包含点最多的候选数据的几何形状作为对应的属性值,并对该判重组中所有的最小外接矩形求并集,得到的结果作为该码库数据的最小外接矩形的属性值,其余的属性对应选择该判重组中数据权值最高的属性值作为对应的属性值;
[0043]对于类别为非道路类的码库数据,所有属性均对应选择数据权值最高的属性值作为对应的属性值。
[0044]根据本发明一优选实施例,所述步骤S4之前,还包括:
[0045]将增量码库中已有的码库数据添加到所述候选码库中。
[0046]一种增量码库的建立装置,该装置包括:
[0047]数据获取模块,用于获取数据图的更新数据;
[0048]同源比对模块,用于利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较,将关键属性相异的更新数据确定为非冗余数据;
[0049]地理对象提取模块,用于提取所述非冗余数据中描述地理对象的信息,添加到候选码库中;
[0050]判重分类模块,用于对所述候选码库中各候选数据的地理对象名称和空间位置进行判断,将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组;
[0051]权值计算模块,用于对同一个判重组内的多个候选数据,根据各候选数据的数据来源的可信度计算各候选数据的权值;
[0052]整合模块,用于将权值最高的候选数据作为该判重组的码库数据,构成增量码库。
[0053]根据本发明一优选实施例,该装置还包括:
[0054]预处理模块,用于对所述数据获取模块获取的更新数据的格式进行预处理,转换成预定义的数据格式。
[0055]根据本发明一优选实施例,所述关键属性包括:
[0056]数据的名称、地址、数据来源、可信度和空间位置;
[0057]所述关键属性相异的更新数据是指与所述历史增量数据相比,至少有一种关键属性相异的数据。
[0058]根据本发明一优选实施例,所述同源比对模块在确定非冗余数据之后,还包括:
[0059]将所确定的非冗余数据添加到所述历史增量数据库中。
[0060]根据本发明一优选实施例,所述地理对象提取模块,包括:[0061]分词单元,用于对所述非冗余数据的名称或地址进行分词;
[0062]规范化单元,用于从名称或地址的分词结果中按照预定义的规则进行规范化处理后,得到描述地理对象的地理对象名称;
[0063]属性关联单元,用于关联确定所述地理对象名称对应的属性信息,组成一条候选数据,添加到候选码库中;
[0064]其中,所述对应的属性信息至少包括:该地理对象的空间位置。
[0065]根据本发明一优选实施例,所述属性关联单元关联确定所述地理对象名称对应的属性信息,具体配置包括:
[0066]将所述地理对象名称所在的非冗余数据中包含的属性信息,确定为该地理对象名称所在的候选数据对应的属性信息;
[0067]根据所述空间位置,对所述候选数据进行最小外接矩形计算,预估所述候选数据的范围大小。
[0068]根据本发明一优选实施例,该装置还包括:
[0069]校验模块,用于判断所述判重分类模块得到的判重组中的候选数据是否正确;
[0070]将判断正确的候选数据提供给所述权值计算模块。
[0071]根据本发明一优选实施例,所述校验模块判断所述判重组中的候选数据是否正确,具体配置为:
[0072]对提供数据来源的各个数据提供商提供的数据质量进行评估,确定可信来源的数据提供商;
[0073]判断同一个判重组中是否有可信来源的数据,如果有,则认为该判重组中的数据正确,否则,计算判重组中各个候选数据的数据权值,如果判重组中的数据权值不小于预设阈值,则认为该判重组中的数据正确,否则,认为该判重组中的数据错误。
[0074]根据本发明一优选实施例,所述权值计算模块根据各候选数据的数据来源的可信度计算各候选数据的数据权值,具体配置为:
[0075]根据各候选数据的数据来源确定各个候选数据的可信度;
[0076]对提供数据来源的各个数据提供商提供的数据质量进行评估,将可信来源的数据作为校验数据;
[0077]统计各候选数据关联到的校验数据的数量;
[0078]利用各个候选数据和关联到的校验数据的数量,计算得到各候选数据的数据权值。
[0079]根据本发明一优选实施例,所述整合模块将数据权值最高的候选数据作为该判重组的码库数据,具体配置为:
[0080]将数据权值最高的候选数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值;
[0081]根据预设的类别优先级配置文件,从该判重组中所有的类别中确定出该判重组的码库数据的类别;
[0082]对于类别为道路类的码库数据,选择包含点最多的候选数据的几何形状作为对应的属性值,并对该判重组中所有的最小外接矩形求并集,得到的结果作为该码库数据的最小外接矩形的属性值,其余的属性对应选择该判重组中数据权值最高的属性值作为对应的属性值;
[0083]对于类别为非道路类的码库数据,所有属性均对应选择数据权值最高的属性值作为对应的属性值。
[0084]根据本发明一优选实施例,所述判重分类模块在进行判重之前,还包括:
[0085]将增量码库中已有的码库数据添加到所述候选码库中。
[0086]由以上技术方案可以看出,本发明提供的增量码库的建立方法和装置,利用记录的历史增量数据库,能有效区分更新数据中的冗余数据,达到同源继承的目的,从而利用非冗余数据形成增量数据库,提高了效率,对输入的更新数据进行统一的格式预处理,能对人工修改的结果进行继承,节省资源,并通过对多个候选数据进行判重和校验,提高了码库数据的准确性。
【【专利附图】

【附图说明】】
[0087]图1为本发明实施例一提供的增量码库的建立方法流程图;
[0088]图2为本发明实施例一提供的最小外接矩形的计算方法示意图;
[0089]图3为本发明实施例二提供的增量码库的建立方法流程图;
[0090]图4为本发明实施例三提供的增量码库的建立装置示意图;
[0091]图5为本发明实施例四提供的增量码库的建立装置示意图。
【【具体实施方式】】
[0092]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0093]实施例一、
[0094]图1是本实施例提供的增量码库的建立方法流程图,如图1所示,该方法包括:
[0095]步骤S101、获取数据图的更新数据。
[0096]数据图的更新数据一般是由数据提供商提供,通常包括:名称、类别、地址、数据提供商(Content Provider, CP)、空间位置或几何形状等属性信息。或者,也可以是经过人工校正后的更新数据。
[0097]其中,空间位置通常以X和Y坐标值表示,几何形状通常以点集合或折线集合表示。
[0098]如下表1和表2所示,是由数据提供商NavInfo和MapBar提供的部分更新数据的示意。
[0099]表1
【权利要求】
1.一种增量码库的建立方法,其特征在于,包括以下步骤: 51、获取数据图的更新数据; 52、利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较,将关键属性相异的更新数据确定为非冗余数据; 53、提取所述非冗余数据中描述地理对象的信息,添加到候选码库中; 54、对所述候选码库中各候选数据的地理对象名称和空间位置进行判断,将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组; 55、对同一个判重组内的多个候选数据,根据各候选数据的数据来源的可信度计算各候选数据的权值; 56、将权值最高的候选数据作为该判重组的码库数据,构成增量码库。
2.根据权利要求1所述的方法,其特征在于,在所述步骤SI之后,还包括: 对所获取的更新数据的格式进行预处理,转换成预定义的数据格式。
3.根据权利要求1所述的方法,其特征在于,所述关键属性包括: 数据的名称、地址、数据来源、可信度和空间位置; 所述关键属性相异的更新数据是指与所述历史增量数据相比,至少有一种关键属性相异的数据。
4.根据权利要求1所述的方 法,其特征在于,在所述步骤S2之后,还包括: 将所确定的非冗余数据添加到所述历史增量数据库中。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3包括: 步骤S3_l、对所述非冗余数据的名称或地址进行分词; 步骤S3_2、从名称或地址的分词结果中按照预定义的规则进行规范化处理后,得到描述地理对象的地理对象名称; 步骤S3_3、关联确定所述地理对象名称对应的属性信息,组成一条候选数据,添加到候选码库中; 其中,所述对应的属性信息至少包括:该地理对象的空间位置。
6.根据权利要求5所述的方法,其特征在于,所述关联确定所述地理对象名称对应的属性信息,包括: 将所述地理对象名称所在的非冗余数据中包含的属性信息,确定为该地理对象名称所在的候选数据对应的属性信息; 根据所述空间位置,对所述候选数据进行最小外接矩形计算,预估所述候选数据的范围大小。
7.根据权利要求1所述的方法,其特征在于,在所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值之前,还包括: 判断所述判重组中的候选数据是否正确。
8.根据权利要求7所述的方法,其特征在于,所述判断所述判重组中的候选数据是否正确,具体包括: 对提供数据来源的各个数据提供商提供的数据质量进行评估,确定可信来源的数据提供商; 判断同一个判重组中是否有可信来源的数据,如果有,则认为该判重组中的数据正确,否则,计算判重组中各个候选数据的数据权值,如果判重组中的数据权值不小于预设阈值,则认为该判重组中的数据正确,否则,认为该判重组中的数据错误。
9.根据权利要求1所述的方法,其特征在于,所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值,具体包括: 根据各候选数据的数据来源确定各个候选数据的可信度; 对提供数据来源的各个数据提供商提供的数据质量进行评估,将可信来源的数据作为校验数据; 统计各候选数据关联到的校验数据的数量; 利用各个候选数据和关联到的校验数据的数量,计算得到各候选数据的数据权值。
10.根据权利要求1所述的方法,其特征在于,所述将数据权值最高的候选数据作为该判重组的码库数据,具体包括: 将数据权值最高的候选数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值; 根据预设的类别优先级配置文件,从该判重组中所有的类别中确定出该判重组的码库数据的类别; 对于类别为道路类的码库数据,选择包含点最多的候选数据的几何形状作为对应的属性值,并对该判重组中所有的最小外接矩形求并集,得到的结果作为该码库数据的最小外接矩形的属性值,其余的属性对应选择该判重组中数据权值最高的属性值作为对应的属性值; 对于类别为非道路类的码库`数据,所有属性均对应选择数据权值最高的属性值作为对应的属性值。
11.根据权利要求1所述的方法,其特征在于,所述步骤S4之前,还包括: 将增量码库中已有的码库数据添加到所述候选码库中。
12.—种增量码库的建立装置,其特征在于,包括: 数据获取模块,用于获取数据图的更新数据; 同源比对模块,用于利用所述数据获取模块获取的更新数据与历史增量数据库中的历史增量数据进行比较,将关键属性相异的更新数据确定为非冗余数据; 地理对象提取模块,用于提取所述非冗余数据中描述地理对象的信息,添加到候选码库中; 判重分类模块,用于对所述候选码库中各候选数据的地理对象名称和空间位置进行判断,将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组; 权值计算模块,用于对同一个判重组内的多个候选数据,根据各候选数据的数据来源的可信度计算各候选数据的权值; 整合模块,用于将权值最高的候选数据作为该判重组的码库数据,构成增量码库。
13.根据权利要求12所述的装置,其特征在于,该装置还包括: 预处理模块,用于对所述数据获取模块获取的更新数据的格式进行预处理,转换成预定义的数据格式。
14.根据权利要求12所述的装置,其特征在于,所述关键属性包括:数据的名称、地址、数据来源、可信度和空间位置; 所述关键属性相异的更新数据是指与所述历史增量数据相比,至少有一种关键属性相异的数据。
15.根据权利要求12所述的装置,其特征在于,所述同源比对模块在确定非冗余数据之后,还包括: 将所确定的非冗余数据添加到所述历史增量数据库中。
16.根据权利要求12所述的装置,其特征在于,所述地理对象提取模块,包括: 分词单元,用于对所述非冗余数据的名称或地址进行分词; 规范化单元,用于从名称或地址的分词结果中按照预定义的规则进行规范化处理后,得到描述地理对象的地理对象名称; 属性关联单元,用于关联确定所述地理对象名称对应的属性信息,组成一条候选数据,添加到候选码库中; 其中,所述对应的属性信息至少包括:该地理对象的空间位置。
17.根据权利要求16所述的装置,其特征在于,所述属性关联单元关联确定所述地理对象名称对应的属性信息,具体配置包括: 将所述地理对象名称所在的非冗余数据中包含的属性信息,确定为该地理对象名称所在的候选数据对应的属性信息; 根据所述空间位置,对`所述候选数据进行最小外接矩形计算,预估所述候选数据的范围大小。
18.根据权利要求12所述的装置,其特征在于,该装置还包括: 校验模块,用于判断所述判重分类模块得到的判重组中的候选数据是否正确; 将判断正确的候选数据提供给所述权值计算模块。
19.根据权利要求18所述的装置,其特征在于,所述校验模块判断所述判重组中的候选数据是否正确,具体配置为: 对提供数据来源的各个数据提供商提供的数据质量进行评估,确定可信来源的数据提供商; 判断同一个判重组中是否有可信来源的数据,如果有,则认为该判重组中的数据正确,否则,计算判重组中各个候选数据的数据权值,如果判重组中的数据权值不小于预设阈值,则认为该判重组中的数据正确,否则,认为该判重组中的数据错误。
20.根据权利要求12所述的装置,其特征在于,所述权值计算模块根据各候选数据的数据来源的可信度计算各候选数据的数据权值,具体配置为: 根据各候选数据的数据来源确定各个候选数据的可信度; 对提供数据来源的各个数据提供商提供的数据质量进行评估,将可信来源的数据作为校验数据; 统计各候选数据关联到的校验数据的数量; 利用各个候选数据和关联到的校验数据的数量,计算得到各候选数据的数据权值。
21.根据权利要求12所述的装置,其特征在于,所述整合模块将数据权值最高的候选数据作为该判重组的码库数据,具体配置为: 将数据权值最高的候选数据中的地理对象名称和空间位置作为该判重组的码库数据对应的属性值; 根据预设的类别优先级配置文件,从该判重组中所有的类别中确定出该判重组的码库数据的类别; 对于类别为道路类的码库数据,选择包含点最多的候选数据的几何形状作为对应的属性值,并对该判重组中所有的最小外接矩形求并集,得到的结果作为该码库数据的最小外接矩形的属性值,其余的属性对应选择该判重组中数据权值最高的属性值作为对应的属性值; 对于类别为非道路类的码库数据,所有属性均对应选择数据权值最高的属性值作为对应的属性值。
22.根据权利要求12所述的装置,其特征在于,所述判重分类模块在进行判重之前,还包括: 将增量码库中已有的码 库数据添加到所述候选码库中。
【文档编号】G06F17/30GK103514235SQ201210227185
【公开日】2014年1月15日 申请日期:2012年6月30日 优先权日:2012年6月30日
【发明者】林锡通, 段建国 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1