一种地理编码方法及装置的制造方法

文档序号:9708331阅读:360来源:国知局
一种地理编码方法及装置的制造方法
【技术领域】
[0001] 本发明涉及地理信息系统领域,尤其涉及一种地理编码方法及装置。
【背景技术】
[0002] 在电子地图领域中,通过地理编码将用户输入的待匹配地理地址转化为地理位 置,以便于在电子地图上显示该待匹配地理地址,方便用户了解该待匹配地理地址所处的 地理位置。
[0003] 目前,地理编码的具体实现如下:首先,对用户输入的待匹配地理地址进行分词; 其次,针对每一个分词,将该分词与预置的门址库中的预存分词进行匹配,得到与该分词匹 配的至少一个预存分词;再其次,按照各分词在待匹配地理地址中的语序,对各分词对应的 预存分词进行组合,得到多个组合;将各种组合结果展示给用户以便用户进行选择,根据用 户选择的组合结果进行地理编码。如待匹配地理地址为C1C2C3C4,对其进行分词后得到分 词为Cl、C2、C3和C4,其中门址库中与C2匹配的预存分词包括XI和X2,门址库中与C4匹 配的预存分词包括Y1和Y2,则进行组合后,得到以下组合:C1X1C3C4、C1X2C3C4、C1X1C3Y1、 C1X1C3Y2、C1X2C3Y1、C1X2C3Y2C4、C1C2C3Y1、C1C2C3Y2 ;将组合反馈给用户选择,根据用户 选择的组合进行地理编码,以得到待匹配地理地址的编码结果。
[0004] 目前的地理编码方式,由于直接将各分词对应的预存分词进行组合,因此得到的 组合结果数量较多,并且将所有组合结果反馈给用户选择,根据用户选择的组合结果去做 地理编码,该种方式,一方面,每次进行地理编码需要用户参与,不能实现自动化的地理编 码;另一方面,通过用户从大量的组合结果中选取组合结果,时延较长,效率较低。

【发明内容】

[0005] 本发明的目的是提供一种地理编码方法及装置,以克服现有技术中地理编码需要 人工参与而无法实现自动化地理编码的问题,以及地理编码效率较低的问题。
[0006] 本发明提供一种地理编码方法,包括:
[0007] 对待匹配地理地址进行分词;
[0008] 针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到至少一个 与该分词匹配的预存分词;
[0009] 根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈 值的预存分词聚合在同一个聚类集合中;
[0010] 针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集合中预存 分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词;
[0011] 将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹 配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果;
[0012] 根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。
[0013] 本发明还提供一种地理编码装置,包括:
[0014] 分词模块,用于对待匹配地理地址进行分词;
[0015] 预存分词获取模块,用于针对每个分词,将该分词与预置的门址库中的预存分词 进行匹配,得到至少一个与该分词匹配的预存分词;
[0016] 聚类模块,用于根据预存分词的属性信息中的空间位置信息,将空间距离小于预 置的第一距离阈值的预存分词聚合在同一个聚类集合中;
[0017] 可用预存分词选择模块,用于针对每个分词,从该分词对应的每一个聚类集合 中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可 用预存分词;
[0018] 最终匹配结果选择模块,用于将可用预存分词按照其对应分词在待匹配地理位置 中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹 配结果作为最终匹配结果;
[0019] 地理编码模块,用于根据所述待匹配地理地址的最终匹配结果进行地理编码,得 到地理编码结果。
[0020] 本发明至少具有以下有益效果:本方案,一方面,将与分词匹配的预存分词进行聚 类,再从聚类集合中选取一个预存分词作为与该分词对应的可用预存分词,然后,再将可用 预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待 匹配结果,本方案由于将与分词匹配的预存分词进行聚类,然后从聚类中选取一个预存分 词作为可用预存分词,相当于从多个预存分词中选取一个具有代表性的预存分词参与待匹 配结果的生成,而不是将所有与分词对应的预存分词均参与待匹配结果的生成,因此,本方 案相对于现有技术直接将与分词匹配的可用分词按照其对应分词在待匹配地理位置中的 语序进行组合来生成待匹配地理地址的待匹配结果,本方案,能够在很大程度上降低了待 匹配结果的数量,从少量的待匹配结果中确定一个最终匹配结果,能够降低时延,从而从整 体上提高了地理编码的处理效率和匹配效率;另一方面,在得到待匹配结果之后,从该待匹 配结果中选取一个作为最终匹配结果,然后根据最终匹配结果进行地理编码,从而实现自 动化选取一条最终匹配结果,相对于现有技术每次地理编码均需要通过人工选取最终匹配 结果而言,本方案不需要人工选取匹配结果,降低人工干预的程度。
【附图说明】
[0021] 图1为本发明实施例中地理编码方法的流程图之一;
[0022] 图2为本发明实施例中地理编码方法的流程图之二;
[0023] 图3为本发明实施例中地理编码方法的流程图之三;
[0024] 图4为本发明实施例中地理编码装置的示意图之一;
[0025] 图5为本发明实施例中地理编码装置的示意图之二。
【具体实施方式】
[0026] 以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的 优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发 明中的实施例及实施例中的特征可以相互组合。需要说明的是,本发明实施例提供的各种 表及表中数据仅用于示例性解释说明,并不用于限定本发明实施例。
[0027] 本发明实施例提供一种地理编码方法及装置,本方案,一方面,将与分词匹配的预 存分词进行聚类,再从聚类集合中选取一个预存分词作为与该分词对应的可用预存分词, 然后,再将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹 配地理地址的待匹配结果,本方案由于将与分词匹配的预存分词进行聚类,然后从聚类中 选取一个预存分词作为可用预存分词,相当于从多个预存分词中选取一个具有代表性的预 存分词参与待匹配结果的生成,而不是将所有与分词对应的预存分词均参与待匹配结果的 生成,因此,本方案相对于现有技术直接将与分词匹配的可用分词按照其对应分词在待匹 配地理位置中的语序进行组合来生成待匹配地理地址的待匹配结果,本方案,能够在很大 程度上降低了待匹配结果的数量,从少量的待匹配结果中确定一个最终匹配结果,能够降 低时延,从而从整体上提高了地理编码的处理效率和匹配效率;另一方面,在得到待匹配结 果之后,从该待匹配结果中选取一个作为最终匹配结果,然后根据最终匹配结果进行地理 编码,从而实现自动化选取一条最终匹配结果,相对于现有技术每次地理编码均需要通过 人工选取最终匹配结果而言,本方案不需要人工选取匹配结果,降低人工干预的程度。
[0028] 下面对本发明实施例中提供的地理编码方法进行详细说明。
[0029] 实施例一
[0030] 如图1所示,为本发明实施例提供的地理编码方法的流程图,该方法包括步骤 101-步骤 106 :
[0031] 步骤101 :对待匹配地理地址进行分词。
[0032] 步骤102 :针对每个分词,将该分词与预置的门址库中的预存分词进行匹配,得到 至少一个与该分词匹配的预存分词。
[0033] 步骤103 :根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的 第一距离阈值的预存分词聚合在同一个聚类集合中。
[0034] 步骤104 :针对每个分词,从该分词对应的每一个聚类集合中,选取距离该聚类集 合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存分词。
[0035] 步骤105 :将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组 合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终 匹配结果。
[0036] 步骤106 :根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编 码结果。
[0037] 下面对以上各步骤进行详细说明:
[0038] 一、在步骤101中
[0039] 其中,待匹配地理地址中可以包括名称词和数字词中的至少一项。其中名称词顾 名思义为表示名称的词,例如市名、街道名称、区名称(如海淀区)、建筑物名称等。数字词 顾名思义为用于表示编号的词,例如几号院、小区内的楼栋号、门牌号等。本发明实施例中 门址库中存储的预存分词为对Ρ0Ι数据库中存储的Ρ0Ι名称进行分词所得到,一条Ρ0Ι名 称通过切分能够得到多个预存分词,如对Ρ0Ι名称"北京市海淀区建材城西路16号新希望 学校7号501"进行分词,得到预存分词"北京市"、"海淀区"、"建材城西路"、"16号"、"新 希望学校"、"7"、"501";在该门址库中存储各预存分词的相关属性信息,包括:预存分词的 ID(identification,唯一标识码,该ID是指编制在门址库中该预存分词的编号)、名称、父 ID (父ID是指在同一 POI名称中该预存分词的前一预存分词的ID,如表1中,ID为4的预 存分词"16号"的父ID是指在P0I名称中"北京市海淀区建材城西路16号新希望学校7栋 501"位于16号之前的分词"建材城西路"的ID (即3))、行政代码、空间位置信息(如经纬 度坐标)、地理层次和精度。
[0040] 如表1所示为一门址库的示例,但并不仅限于表1的内容和格式:
[0041] 表1门址库示例
[0042]
[0043] 门址库中预存分词的精度是指预存分词的地理位置信息的精确度。门址库中预存 分词的地理层次根据地物的地理区域范围的大小所设定的参数,地理区域范围越大则地理 层次越高,例如行政省的地理层次高于归属于该行政省的行政县的地理层次,居民小区的 地理层次高于居民小区内一栋楼的地理层次。其中,地理层次设置表如表2所示。
[0044] 表2地理层次设置不例
[0045]
[0046] 需要说明的是,为便于对待匹配地理地址进行分词,根据门址库中为名词的预存 分词建立字典,该字典的格式与门址库的格式一致,字典与门址库的区别在于,字典不包括 门址库中为数字词的预存分词。例如由表1所示的门址库建立的字典如表3所示。
[0047] 表3字典示例
[0048]
[0049] 这里对步骤101中的分词过程进行举例说明:若待匹配地理地址为"北京市海淀 区建材城西路16号新希望学校7栋501"时,将该待匹配地理地址根据字典进行分词,得到 待匹配地理地址的名称词为:"北京市"、"海淀区"、"建材城西路"、"新希望学校";对于该待 匹配地理地址中剩余的词"16号"、"7栋"、"501"通过例如数字识别技术得到以下数字词: "16 号" "7 栋" "501"。
[0050] 二、在步骤102中
[0051] 分词与门址库中预存的预存分词是否匹配成功,可通过以下方式确定:若分词包 含的字符与预存分词包含的字符完全一致,则确定该分词与该预存分词匹配;或者,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1