一种可持续优化地名数据库快速分级配准方法

文档序号:6606284阅读:188来源:国知局
专利名称:一种可持续优化地名数据库快速分级配准方法
技术领域
本发明属于数据处理领域,特别涉及一种可持续优化地名数据库快速分级配准方法。
背景技术
目前在数字城市建设过程中,各个业务系统通常需要集成地理信息和业务数据信 息,但业务系统数据库中的地理位置相关数据通常不存在经纬度坐标信息,只有地理位置 的名称或近似名称,所以不能用GIS技术图形化来管理和展示业务信息。因此需要以地名 空间数据为纽带,将业务管理数据中的地名地址匹配到空间数据库的地名地址,实现各个 业务数据快速匹配落图定位,支持业务管理与空间数据快速集成。因此基于地名数据库的 地名配准是一项重要的基础性工作。目前进行地址数据配准大都通过人工方式,造成效率低下,且需要多个软件相互 配合才能完成。后来,有人研制出一种半自动方式的软件配准系统,但是其不够智能化,效率不够 高,没有把软件能够自动完成的高精度配准数据提取出来,造成工作量的增加。此外,目前所进行的数据匹配,都是采用模糊匹配,例1 汉字模糊音化,再将业务 数据中的地理位置模糊音化,两者匹配,例2 基于中文字符串模糊匹配算法BPM-BM的基本 原理匹配,这些模糊匹配的方法都不能找到最匹配的结果,造成配准结果的精度降低。基于以上分析,本发明人针对现有的地名数据库配准方法进行研究改进,本案由 此产生。

发明内容
本发明的主要目的,在于提供一种可持续优化地名数据库快速分级配准方法,可 同时提高配准的质量和效率。为了达成上述目的,本发明的解决方案是一种可持续优化地名数据库快速分级配准方法,包括全自动配准子系统和人工快 速检查子系统,步骤为(1)全自动配准子系统读取基础数据及词库,并对其进行预处理;(2)全自动配准子系统读取待配准数据和配准参考数据,并依据先点匹配、再区域 匹配的配准原则进行匹配,然后输出初步的配准结果;(3)人工快速检查子系统读取基础数据及词库,并对其进行预处理;(4)人工快速检查子系统对前述初步的配准结果进行数据筛选,并应用不同的检 查策略;(5)进行人工匹配,核查结果。上述步骤⑵中,点匹配的内容为名称、区划代码完全相同;若无,去除地名要素 前缀之后的单位名称、区划代码完全相同;若无,单位的名称要素、区划代码相同,或单位地址、区划代码相同,大厦名称相同。上述步骤(2)中区域匹配的内容为单位地址邻近,小区名称相同或者包含;若 无,按所在的社区/村的行政中心匹配若无,按所在的道路匹配;若无,按所在的街道/镇/ 乡的行政中心匹配。上述步骤(4)中,对初步的配准结果按匹配方法进行筛选,对于点匹配进行抽查 或快速浏览检查,对于区域匹配进行重点检查。采用上述方案后,本发明具有以下特点(1)本发明采用精度分级的配准原则,能够按照匹配方法对匹配结果的精度予以 描述,在检查时,可以按照精度进行重点检查或者抽查,与传统的不分主次精度不分等级, 统一检查相比,可以有效提高检查效率;(2)采用自动配准与人工检查相结合的配准流程,既能通过自动化的程序在极短 时间内完成初步配准作业,又能通过检查程序保证配准的整体质量;(3)通过词库的方法来识别地名中的关键字,一则可以解决地名本地化搜索的问 题,二则解析过程简单且更精准,可以有效提升匹配的质量;(5)全自动配准子系统是一个可不断优化的系统,通过对词库的干预,即可影响匹 配结果,经过多次词库的优化,尽可能地提升自动配准结果的质量,减少人工检查作业的工作量。


图1是本发明的流程图;图2是本发明的整体架构图。
具体实施例方式以下将结合附图及具体实施例,对本发明进行详细说明。首先参考图2所示,是本发明一种可持续优化地名数据库快速分级配准方法所使 用的系统架构图,主要包括基础数据及词库、全自动配准子系统、人工快速检查子系统三个 部分,其中,基础数据及词库主要包括以下词库文件1)地名分类代码需要三类村社区,乡镇街道,大厦小区;内容为每个分类所包 括的分类代码;2)道路坐标表用于道路匹配时,配准到道路的中心坐标;3)区划代码表用于当无行政区划代码时,从名称和地址中分析行政区划代码;4)市/区/镇/村词库文件整理一份全称的,放置于根目录下指定目录;一份简 称的,放置于配置文件;5)道路名称用于识别地址中的道路名称,去掉一些过于简单,会产生歧义的道 路名;6)大厦小区用于识别地址中的大厦小区名称。去掉一些过于简单,会产生歧义 的名称;7)包含数字的词库表用于处理地址中的数字转换。由市/区/镇/村/道路/ 大厦词库而来;
8)附加控制表(可选)用于按条件过滤名称的多余部分。规则为,如果名称中包 含某字符串,则过滤掉某字符串;9)简称/错别字对照表(可选)用于处理地址及名称中的简称以及错别字。参考图1所示,本发明提供一种可持续优化地名数据库快速分级配准方法,包括 如下步骤步骤一,基础数据及词库的读取和预处理首先读取原始数据及准备好的词库文件,所述的原始数据包括待配准数据和配准 参考数据,其中待配准数据包含有名称、地址、区划代码等字段,但无空间坐标信息,实际举 例可参考表1所示。表 1 而配准参考数据包含有名称、地址、分类、区划代码、空间坐标信息等字段,本实施 例中所使用的配准参考数据由MID和MIF两个文件组成,两个文件结合起来组成的数据如 表2所示。表2 本发明的目的就在于从表2中找出与表1中的每项内容相匹配的记录,然后把经 纬度坐标信息赋予表1中各项。该步骤的内容为(1)读取基础数据及词库,并放置于内存哈希表中;其中包括读取道路名称词库、 大厦词库、小区词库、村社词库、乡镇街道办词库、数字地名词库、简称对照表、错别字对照 表、区划代码对照表、道路坐标数据等。其中道路名称词库用于从地址中分析出道路名称; 大厦小区词库用于从地址中分析出大厦小区;村社区、乡镇街道办词库用于从地址中分析 村社乡镇街道办;数字地名防止对这些地名进行中文数字转换;简称错别字对照表用于对 配准双方进行替换然后配准;区划代码表用于当待配准数据无区划代码时,计算其行政区 划代码;道路坐标数据用于道路匹配;(2)读取待配准数据表,对地址进行预处理,包括全半角转换、简称/错别字处理 等;(3)读取配准参考数据表,并对名称进行分词处理,对地址进行预处理,同样包括 全半角转换、简称/错别字处理等;(4)哈希表搜索缓存;该缓存主要针对配准参考数据表,包括把名称去掉市级、区 县级、乡镇级的前缀和后缀、对地址进行预处理。步骤二,全自动配准配准就是比较待配准数据项与配准参考数据项是否相匹配,比较的字段有名称、 地址和区划代码,其中区划代码是必要因素,名称和地址是两个单独的因素,也就是说相匹 配的两条记录,必须是区划代码相同的,而名称和地址只要有一个相匹配即可。以下是本方法所使用的配准原则(按照从优到劣顺序)①点匹配(精确匹配)完全匹配名称、区划代码完全相同。区划代码只采用有效位,下同。准确匹配去除地名要素前缀之后的单位名称、区划代码完全相同。名址匹配单位的名称要素(去除地名要素前缀、后缀)、区划代码相同,或单位 地址(含门牌号码)、区划代码相同,大厦名称相同。②区域匹配(模糊匹配)地址邻近匹配单位地址(含门牌号码)邻近,小区名称相同或者包含。社村级匹配按所在的社区/村的行政中心匹配。道路匹配当找不到邻近地址的情况下,按所在的道路匹配(道路上的随机特征 点,或者道路某段的中心点)。街镇级匹配按所在的街道/镇/乡的行政中心匹配。③未匹配在无法使用以上任何原则匹配的前提下,不予配准。全自动配准子系统在进行配准时,以下述的顺序进行匹配,若匹配成功,则不再进 行下面的匹配,直接跳出,开始下一项的配准,以下将说明具体的匹配顺序(为方便表示, 当前待配准数据项各字段命名为DName,DAddress, DCode,分别表示名称、地址、区划代码;配准参考数据项的各字段命名为PName,PAddress, PCode, PClass,分别表示名称、地址、区 划代码、分类)(1)地址完全匹配。判断DAddress和PAddress是否有地址完全相同项。依据为 完全匹配原则。(2)地址基本匹配。DAddress提取道路名称和门牌号,PAddress亦提取道路名称 和门牌号,然后判断是否有完全相同项。依据为名址匹配原则。(3)名称完全匹配。判断DName和PName是否有名称完全相同项。依据为完全匹 配原则。(4)名称准确匹配。该步分为6步,第一步为DName和PName分别去掉市级前缀, 判断是否有完全相同项,该步依据为准确匹配原则;第二步到第六步分别为DName和PName 去掉前缀及后缀、去掉区县级前缀、去掉区县级前缀及后缀,去掉乡镇级前缀,去掉乡镇级 前缀及后缀,而后判断是否有完全相同项。该五步依据为名址配准原则。(5)地名分词匹配。对PName进行分词,然后检查DName是否完全包含各词组,并 且无多余。依据为名址匹配原则。(6)大厦相等匹配。识别DName和DAddress中的大厦,检查配准参考数据中是否 有完全相同项。依据为名址匹配原则。若识别时DName或者DAddress中有多个大厦名称, 则以后者优先。下同,小区名词识别亦同此规则。(7)大厦包含匹配。识别DName和DAddress中的大厦,检查配准参考数据中是否 有项包含此大厦名称,若有,则认为匹配。依据为名址匹配原则。(8)地址邻近匹配。门牌号相差50以内。识别DAddress中的门牌号码,并找到 PAddress中门牌号码最接近的一项,若差距大于50,则认为不能匹配。依据为地址临近匹 配原则。(9)小区匹配。识别DName和DAddress中的小区名称,检查完全和包含匹配。依 据为地址临近匹配原则。(10)村/社级行政区中心匹配。识别DName和DAddress中的村、社区名称(全 称),然后检查配准参考数据中是否有匹配项。依据为村社级匹配。若识别时DName或者 DAddress中有多个村/社区名称,则以后者优先。(11)道路匹配。识别DName和DAddress中的道路名称,采用该道路在当前区划内 的部分道路的中心点表示/或者地址包含该道路的任意特征点。依据为道路匹配。(12)村/社级行政中心匹配(简称匹配)。识别DName和DAddress中的村、社区 名称(简称),然后检查配准参考数据中是否有匹配项。依据为村社级匹配。(13)街道/镇/乡级别的行政中心匹配。识别DName和DAddress中街道办、镇、 乡名称,先全称后简称,检查完全匹配。依据为街镇级匹配。其中(1)-(7)为精确匹配,(8)-(13)为模糊匹配。前述配准完成后,全自动配准子系统输出初步的配准结果,参照表3所示。表 3
7
其中虚线框中表示自动匹配后添加的内容字段。需要说明的是,当全自动配准子系统配准完成后,可以对初步的配准结果进行大 致的审查,可能会发现某些项误匹配或者未匹配的原因,然后适当地修改词库,再次运行本 子系统,运行完毕,再进行审查,再修改,再运行。通过这样几次循环,一则提升了匹配质量, 二则得到了一份本地词库,在以后该地区的配准作业中,可以直接使用,或者在此基础上进 行丰富即可,具有不断优化的特点;此外,其还具有稳定性,体现在,如果词库不修改,每次 运行的结果都是一样的,如果修改个别词库,仅与该词相关的项会发生改变,该特性在判断 词库修改后产生的影响上有重要意义。步骤三,人工检查单纯地通过修改词库并不能解决所有问题,因此还需进行人工审核,具体的步骤 为(1)基础数据及词库的读取和预处理同步骤一中的内容,在此不再赘述。(2)数据筛选对前述配准结果按照已配准/未配准、匹配方法等进行筛选,从而方便对由不同 匹配方法产生的配准结果进行不同的检查策略,如对于点匹配进行抽查或快速浏览检查, 而对于区域匹配则进行重点检查;(3)人工匹配搜索在配准参考数据中按照原始地名信息进行搜索,并列出所有备选项,还可以修改 搜索关键字,并执行兴趣点搜索和道路搜索。(4)地图定位选择某一匹配备选项,并在地图上予以标识,此处可通过鹰眼图和详细图两种图 示进行显示,从而可方便在不同备选项之间切换时,迅速确定各备选项之间的距离和相对 位置关系。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是 按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围 之内。
权利要求
一种可持续优化地名数据库快速分级配准方法,其特征在于包括全自动配准子系统和人工快速检查子系统,步骤为(1)全自动配准子系统读取基础数据及词库,并对其进行预处理;(2)全自动配准子系统读取待配准数据和配准参考数据,并依据先点匹配、再区域匹配的配准原则进行匹配,然后输出初步的配准结果;(3)人工快速检查子系统读取基础数据及词库,并对其进行预处理;(4)人工快速检查子系统对前述初步的配准结果进行数据筛选,并应用不同的检查策略;(5)进行人工匹配,核查结果。
2.如权利要求1所述的一种可持续优化地名数据库快速分级配准方法,其特征在于 所述步骤(2)中,点匹配的内容为名称、区划代码完全相同;若无,去除地名要素前缀之后 的单位名称、区划代码完全相同;若无,单位的名称要素、区划代码相同,或单位地址、区划 代码相同,大厦名称相同。
3.如权利要求1所述的一种可持续优化地名数据库快速分级配准方法,其特征在于 所述步骤(2)中区域匹配的内容为单位地址邻近,小区名称相同或者包含;若无,按所在 的社区/村的行政中心匹配若无,按所在的道路匹配;若无,按所在的街道/镇/乡的行政 中心匹配。
4.如权利要求1所述的一种可持续优化地名数据库快速分级配准方法,其特征在于 所述步骤(4)中,对初步的配准结果按匹配方法进行筛选,对于点匹配进行抽查或快速浏 览检查,对于区域匹配进行重点检查。
全文摘要
本发明公开一种可持续优化地名数据库快速分级配准方法,包括全自动配准子系统和人工快速检查子系统,步骤为(1)全自动配准子系统读取基础数据及词库,并对其进行预处理;(2)全自动配准子系统读取待配准数据和配准参考数据,并依据先点匹配、再区域匹配的配准原则进行匹配,然后输出初步的配准结果;(3)人工快速检查子系统读取基础数据及词库,并对其进行预处理;(4)人工快速检查子系统对前述初步的配准结果进行数据筛选,并应用不同的检查策略;(5)进行人工匹配,核查结果。此种配准方法可同时提高配准的质量及效率。
文档编号G06F17/30GK101887462SQ20101023193
公开日2010年11月17日 申请日期2010年7月14日 优先权日2010年7月14日
发明者周辉腾, 徐敬仙, 杨槐 申请人:厦门精图信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1