一种地址比较的方法及设备的制造方法

文档序号:9471445阅读:286来源:国知局
一种地址比较的方法及设备的制造方法
【技术领域】
[0001] 本发明涉及地理信息技术领域,尤其涉及一种地址比较的方法及设备。
【背景技术】
[0002] 在民政部门、公安部门、房管局等国家单位的备案档案中,存在有大量的手工填写 的地址信息。这些地址信息包括身份证中的地址信息、户口本中的地址信息、公司的地址信 息、房屋产权登记的地址信息等。由于填写地址信息时,不同填写人遵循的填写方法不尽相 同,因此对于同一地址,可能存在多种不同的书写表述方式。
[0003] 在房屋管理、人口管理等多种业务中,需要将这些书写不一致的地址,根据是否描 述的是同一地址,进行判定,将所有填写地址映射到标准的地址库中,或者为其进行统一的 编号或者规范为同一种写法。
[0004] 现有技术中针对地址进行比较方法包括有手工比较纠正方法、空间位置比较方法 和地址匹配方法,其中,手工比较纠正方法方法需要人为逐条比对,存在工作量大,准确度 低的缺点;空间位置比较方法需要的前期工作比较大,且实施起来比较困难,对于精确到户 的地址一致性准确度低;地址匹配方法是通过地址匹配技术,进行地址关联的方法,通过地 址匹配技术,进行地址关联,首先需要建立一个标准地址库,然后将待关联地址,与标准地 址库中最相近的地址进行关联。地址匹配技术,一般使用文本字符串相近度等算法实现此 功能。这个方法应用广泛,但是其匹配的结果是按照文本相似性计算的,通常具有很高模糊 度,而非表述是否一致性的计算,因此,部分地址关联的不正确,存在准确度低下的问题,因 此,亟需一种快速准确的地址比较方法。

【发明内容】

[0005] 本发明的目的是提供一种地址比较的方法及设备,以解决现有的地址比较效率低 且准确性低的问题。
[0006] 本发明的目的是通过以下技术方案实现的:
[0007] -种地址比较的方法,包括:
[0008] 分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结 果;
[0009] 分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各 地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址 信息的各地址元素类型的地址元素组合规则;
[0010] 基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地 址元素组合规则;
[0011] 基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得 到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址 信息的相似度比较结果。
[0012] 这样,在对地址一致性进行比较时,在提取的公共地址元素组合规则中,通过地址 元素类型的逐级比较能够减少缺失部分可选地址元素类型时产生的文本相似度差异,而且 比较速度快、比较结果准确度高,还能够确定待比较地址双方之间的范围差异。
[0013] 可选的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素 的分词结果,具体包括:
[0014] 按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括 多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
[0015] 可选的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址 信息的各地址元素类型,具体包括:
[0016] 分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中 的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
[0017] 可选的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一 条公共地址元素组合规则,具体包括:
[0018] 对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分 析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出 来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。
[0019] 可选的,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息 提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原 始地址信息的相似度比较结果,具体包括:
[0020] 基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进 行关键信息提取,得到两条目标地址信息;
[0021] 对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每 一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始 地址信息的相似度比较结果。
[0022] 一种地址比较的设备,包括:
[0023] 分词模块,用于分别对两条原始地址信息进行分词,得到各自对应的包括多个地 址元素的分词结果;
[0024] 筛选模块,用于分别基于获得的每一条原始地址信息的分词结果,确定相应的原 始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述 每一条原始地址信息的各地址元素类型的地址元素组合规则;
[0025] 提取模块,用于基于获得的两条原始地址信息各自对应的地址元素组合规则,提 取出一条公共地址元素组合规则;
[0026] 匹配模块,用于基于所述公共地址元素组合规则对所述两条原始地址信息进行关 键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到 两条原始地址信息的相似度比较结果。
[0027] 这样,在对地址一致性进行比较时,在提取的公共地址元素组合规则中,通过地址 元素类型的逐级比较能够减少缺失部分可选地址元素类型时产生的文本相似度差异,而且 比较速度快、比较结果准确度高,还能够确定待比较地址双方之间的范围差异。
[0028] 可选的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素 的分词结果时,所述分词模块具体用于:
[0029] 按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括 多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
[0030] 可选的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址 信息的各地址元素类型时,所述筛选模块具体用于:
[0031] 分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中 的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
[0032] 可选的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一 条公共地址元素组合规则时,所述提取模块具体用于:
[0033] 对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分 析,将两条原始地址信息各自对应的地址元素组合规则中都存在
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1