一种地理编码方法及装置的制造方法_5

文档序号:9708331阅读:来源:国知局
存分词; 将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地 理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果; 根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地理编码结果。2. 根据权利要求1所述的方法,其特征在于,所述根据预存分词的属性信息中的空间 位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中之 前,还包括: 根据所述分词的匹配的预存分词的属性信息中的地理层次,将与所述分词匹配的预存 分词中属于同一地理层次的预存分词划分为一组; 针对每一组预存分词,从预置的地理层次与第一距离阈值的对应关系中,获取与该组 预存分词所属地理层次对应的第一距离阈值,并执行所述根据预存分词的属性信息中的空 间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中的 步骤。3. 根据权利要求1所述的方法,其特征在于,针对每个分词,从该分词对应的每一个聚 类集合中,选取距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分 词的可用预存分词,具体包括: 针对所述分词对应的每一个聚类集合,根据该聚类集合包含的预存分词属性信息中的 空间位置信息,计算几何中心位置点; 计算聚类集合中的每个预存分词距离所述几何中心位置点的空间距离,将空间距离最 小的预存分词作为所述分词的可用预存分词。4. 根据权利要求1-3中任一项所述的方法,其特征在于,所述从待匹配结果中选取一 个待匹配结果作为最终匹配结果,具体包括: 针对每一条待匹配结果,根据待匹配结果中的可用预存分词的属性信息中的行政代 码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常分词,若是则将该异常分 词从待匹配结果中剔除; 针对异常分词处理后的每一条待匹配结果,判断该待匹配结果中的可用预存分词是否 均包含在其他一条待匹配结果中,若是则删除该条待匹配结果; 从保留的待匹配结果中选取一条作为待匹配地理地址的最终匹配结果。5. 根据权利要求4所述的方法,其特征在于,所述根据待匹配结果中的可用预存分词 的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常 分词,具体包括: 遍历待匹配结果中的可用预存分词,若该可用预存分词的前一个可用预存分词为正常 分词,根据该可用预存分词与其前一个可用预存分词的属性信息中的行政代码,判断该可 用预存分词与其前一可用预存分词不具有行政上下级关系,且根据该可用预存分词与其前 一可用预存分词的空间位置信息计算得到的空间距离大于等于预置的第二距离阈值时,则 确定该可用预存分词为异常分词; 若该可用预存分词的前一个可用预存分词为异常分词,根据该可用预存分词与前一个 最近正常分词的属性信息中的行政代码,判断该可用预存分词与前一个最近正常分词不具 有行政上下级关系,且根据该可用预存分词与前一个最近正常分词的空间位置信息计算得 到的空间距离大于等于预置的第二距离阈值时,则确定该可用预存分词为异常分词。6. 根据权利要求4所述的方法,其特征在于,从保留的待匹配结果中选取一条作为待 匹配地理地址的最终匹配结果,具体包括: 针对保留的每一条待匹配结果,根据预置的个体可信度评价公式,计算该条待匹配结 果中每一个可用预存分词的个体可信度; 根据每一个可用预存分词的个体可信度与预置的总体可信度评价公式,确定该条待匹 配结果的总体可信度; 从保留的待匹配结果中,选择总体可信度最高的待匹配结果作为待匹配地理地址的最 终匹配结果; 其中,所述个体可信度评价公式为: p - 7 * η 其中,Pi表示所述待匹配结果中的第i个可用预存分词的个体可信度;Ζ表示预设系 数;m表示所述第i个可用预存分词所属的聚类集合中所包含的预存分词的总数量;η表示 所述第i个可用预存分词对应的分词所匹配的预存分词的总数量; 其中,所述总体可信度评价公式为: 'N: Qt-~…一 Σ.Λ 其中,Qi表示第j条待匹配结果的总体可信度;Pi表示所述第j条待匹配结果中第i个 可用预存分词的个体可信度;λ i表示第i个可用预存分词对应的地理层次的预设权重值; N表示第j条待匹配结果所包含的可用预存分词的总数量。7. 根据权利要求1~3任一项所述的方法,其特征在于,所述针对每个分词,将该分词 与预置的门址库中的预存分词进行匹配,得到至少一个与该分词匹配的预存分词,具体包 括: 当所述分词为名称词时,将该分词与预置的门址库中的预存分词进行匹配,将匹配成 功的预存分词确定为与所述分词匹配的预存分词; 当所述分词为数字词时,将该分词与预置的门址库中的预存分词进行匹配,若匹配成 功的预存分词仅为一个,则将该预存分词确定为与所述分词匹配的预存分词,若匹配成功 的预存分词为多个,则将该多个预存分词的预置父ID与所述分词的前一个分词匹配的预 存分词的ID进行比对,将比对一致的预存分词确定为与所述分词匹配的预存分词;其中, 一条地址中按语序相邻的两个预存分词中前一预存分词的ID是后一预存分词的父ID。8. -种地理编码装置,其特征在于,所述装置包括: 分词模块,用于对待匹配地理地址进行分词; 预存分词获取模块,用于针对每个分词,将该分词与预置的门址库中的预存分词进行 匹配,得到至少一个与该分词匹配的预存分词; 聚类模块,用于根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的 第一距离阈值的预存分词聚合在同一个聚类集合中; 可用预存分词选择模块,用于针对每个分词,从该分词对应的每一个聚类集合中,选取 距离该聚类集合中预存分词的几何中心位置最近的一个预存分词作为该分词的可用预存 分词; 最终匹配结果选择模块,用于将可用预存分词按照其对应分词在待匹配地理位置中的 语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结 果作为最终匹配结果; 地理编码模块,用于根据所述待匹配地理地址的最终匹配结果进行地理编码,得到地 理编码结果。9. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 地理层次分组模块,用于在所述聚类模块根据预存分词的属性信息中的空间位置信 息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中之前,根据 所述分词的匹配的预存分词的属性信息中的地理层次,将与所述分词匹配的预存分词中属 于同一地理层次的预存分词划分为一组; 所述聚类模块,用于针对每一组预存分词,从预置的地理层次与第一距离阈值的对应 关系中,获取与该组预存分词所属地理层次对应的第一距离阈值,并执行所述根据预存分 词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在 同一个聚类集合中的步骤。10. 根据权利要求8所述的装置,其特征在于,所述可用预存分词选择模块,具体包括: 中心位置点确定单元,用于针对所述分词对应的每一个聚类集合,根据该聚类集合包 含的预存分词属性信息中的空间位置信息,计算几何中心位置点; 可用预存分词选择单元,用于计算聚类集合中的每个预存分词距离所述几何中心位置 点的空间距离,将空间距离最小的预存分词作为所述分词的可用预存分词。11. 根据权利要求8-10中任一项所述的装置,其特征在于,所述最终匹配结果选择模 块,具体包括: 异常分词剔除单元,用于针对每一条待匹配结果,根据待匹配结果中的可用预存分词 的属性信息中的行政代码、空间位置信息,确定待匹配结果中的可用预存分词是否为异常 分词,若是则将该异常分词从待匹配结果中剔除; 待匹配结果剔除单元,用于针对异常分词处理后的每一条待匹配结果,判断该待匹配 结果中的可用预存分词是否均包含在其他一条待匹配结果中,若是则删除该条待匹配结 果; 最终匹配结果选择单元,用于从保留的待匹配结果中选取一条作为待匹配地理地址的 最终匹配结果。12. 根据权利要求11所述的装置,其特征在于,所述异常分词剔除单元,具体包括: 异常分词确定子单元,用于遍历待匹配结果中的可用预存分词;若该可用预存分词的 前一个可用预存分词为正常分词,根据该可用预存分词与其前一个可用预存分词的属性信 息中的行政代码,判断该可用预存分词与其前一可用预存分词不具有行政上下级关系,且 根据该可用预存分词与其前一可用预存分词的空间位置信息计算得到的空间距离大于等 于预置的第二距离阈值时,则确定该可用预存分词为异常分词;若该可用预存分词的前一 个可用预存分词为异常分词,根据该可用预存分词与前一个最近正常分词的属性信息中的 行政代码,判断该可用预存分词与前一个最近正常分词不具有行政上下级关系,且根据该 可用预存分词与前一个最近正常分词的空间位置信息计算得到的空间距离大于等于预置 的第二距离阈值时,则确定该可用预存分词为异常分词; 剔除子单元,用于将异常分词确定子单元确定的异常分词从待匹配结果中剔除。13. 根据权利要求11所述的装置,其特征在于,所述最终匹配结果选择单元,具体包 括: 个体可信度评价子单元,用于针对保留的每一条待匹配结果,根据预置的个体可信度 评价公式,计算该条待匹配结果中每一个可用预存分词的个体可信度; 总体可信性评价子单元,用于根据每一个可用预存分词的个体可信度与预置的总体可 信度评价公式,确定该条待匹配结果的总体可信度; 最终匹配结果选择子单元,用于从保留的待匹配结果中,选择总体可信度最高的待匹 配结果作为待匹配地理地址的最终匹配结果; 其中,所述个体可信度评价公式为: η 其中,Pi表示所述待匹配结果中的第i个可用预存分词的个体可信度;Ζ表示预设系 数;m表示所述第i个可用预存分词所属的聚类集合中所包含的预存分词的总数量;η表示 所述第i个可用预存分词对应的分词所匹配的预存分词的总数量; 其中,所述总体可信度评价公式为: -------------- ;:.ν? 其中,Qi表示第j条待匹配结果的总体可信度;Pi表示所述第j条待匹配结果中第i个 可用预存分词的个体可信度;λ i表示第i个可用预存分词对应的地理层次的预设权重值; N表示第j条待匹配结果所包含的可用预存分词的总数量。14. 根据权利要求8-10任一项所述的装置,其特征在于,所述预存分词获取模块,具体 用于: 当所述分词为名称词时,将该分词与预置的门址库中的预存分词进行匹配,将匹配成 功的预存分词确定为与所述分词匹配的预存分词; 当所述分词为数字词时,将该分词与预置的门址库中的预存分词进行匹配,若匹配成 功的预存分词仅为一个,则将该预存分词确定为与所述分词匹配的预存分词,若匹配成功 的预存分词为多个,则将该多个预存分词的预置父ID与所述分词的前一个分词匹配的预 存分词的ID进行比对,将比对一致的预存分词确定为与所述分词匹配的预存分词;其中, 一条地址中按语序相邻的两个预存分词中前一预存分词的ID是后一预存分词的父ID。
【专利摘要】本发明公开一种地理编码方法及装置。所述方法包括:对待匹配地理地址进行分词;针对每个分词,从预置的门址库中获取与该分词匹配的预存分词;根据预存分词的属性信息中的空间位置信息,将空间距离小于预置的第一距离阈值的预存分词聚合在同一个聚类集合中;从每个分词对应的每一个聚类集合中,选取一个预存分词作为该分词的可用预存分词;将可用预存分词按照其对应分词在待匹配地理位置中的语序进行组合,生成待匹配地理地址的待匹配结果,并从待匹配结果中选取一个待匹配结果作为最终匹配结果并进行地理编码,得到地理编码结果。通过本发明,可实现自动化地理编码,无需人工干预,并且提高了地理编码的处理效率和匹配效率。
【IPC分类】G06F17/30
【公开号】CN105468632
【申请号】CN201410450111
【发明人】高积粮
【申请人】高德软件有限公司
【公开日】2016年4月6日
【申请日】2014年9月5日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1