一种地址比较的方法及设备的制造方法_2

文档序号:9471445阅读:来源:国知局
的地址元素类型提取出 来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。 [0034] 可选的,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息 提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原 始地址信息的相似度比较结果时,所述匹配模块具体用于:
[0035] 基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进 行关键信息提取,得到两条目标地址信息;
[0036] 对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每 一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始 地址信息的相似度比较结果。
【附图说明】
[0037] 图1为本发明实施例中地址比较方法流程示意图;
[0038] 图2为本发明实施例中地址比较设备结构示意图。
【具体实施方式】
[0039] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0040] 由于现有技术中进行地址一致性鉴别时,一般通过使用文本字符串相近度等算法 来实现,但是地址一致性匹配的结果通常具有很高模糊度,造成部分地址关联不正确,因 此,本发明实施例中提供一种地址比较方法,该方法主要通过将原始地址信息划分为多个 地址元素,对每个地址元素,划分其地址元素类型,基于原始地址信息的各地址元素类型确 定各原始地址信息所遵循的地址元素组合规则,对各原始地址信息所遵循的地址元素组合 规则进行分析,提取公共地址元素组合规则,基于公共地址元素组合规则对原始地址信息 进行关键信息提取,得到目标地址信息,对目标地址信息进行地址元素的逐个比较,实现从 大范围到小范围的逐级比较,从而最终确定两个地址是否一致,以及确定他们之间的位置 差异在何种范围内。
[0041] 参阅图1所示,本发明实施例中提供一种地址比较的方法,具体流程如下所示:
[0042] 步骤100 :分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元 素的分词结果。
[0043] 具体的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素 的分词结果,具体过程为:按照预设的地址分词库分别对两条原始地址信息进行分词,得到 各自对应的包括多个地址元素的分词结果,地址分词库中存储有多个标准地址元素。
[0044] 其中,地址元素一般是指最小拆分的地址单元,例如,北京市,海淀区,致真大厦、 学知桥等具有较强地理属性的词条。
[0045] 例如,输入的两条原始地址信息分别为A地址和B地址,其中A地址为北京市西城 区1号,B地址为北京市海淀区知春嘉园小区201。按照预设的地址分词库,将A地址拆分 为"北京市"、"西城区"和"1号"三个地址元素,将B地址拆分为"北京市"、"海淀区"、"知 春嘉园小区"和"201"四个地址元素。
[0046] 步骤101 :分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地 址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合每一条原 始地址信息的各地址元素类型的地址元素组合规则。
[0047] 具体的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址 信息的各地址元素类型,具体过程为:分别基于获得的每一条原始地址信息的分词结果,分 别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址 元素的地址元素类型。
[0048] 例如,通过分析A地址拆分的"北京市"、"西城区"和"1号"三个地址元素,各地址 元素的后缀,辨别各地址元素的地址元素类型,将北京市西城区1号,转换为"市区编 号"的地址元素类型结构,同理,将北京市海淀区知春嘉园小区201转换为"市"区"小 区"编号"的各地址元素类型结构。接着,在预设的地址元素组合规则库中,筛选出符合 A地址的地址元素类型的地址元素组合规则和符合B地址的地址元素类型的地址元素组合 规则。预设的地址元素组合规则库是根据当地地址构成规律设定的多条规则中。
[0049] 例如,预先配置的多条地址元素组合规则如下所示:
[0050] 规则1 :"市" "区" "街道" "编号";
[0051] 规则2 :"市"区"小区"编号";
[0052] 规则 3 : " 市 " " 区 " "编号";
[0053] 由于A地址的地址元素类型结构为:"市"区"编号",该地址元素类型结构 符合地址元素组合规则3,B地址的地址元素类型结构为:"市"区"小区"编号", 该地址元素类型结构符合地址元素组合规则2。
[0054] 步骤102 :基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出 一条公共地址元素组合规则。
[0055] 具体的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一 条公共地址元素组合规则,具体过程为:
[0056] 对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分 析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出 来,得到一条公共地址元素组合规则,该地址元素组合规则为多个地址元素类型的组合。
[0057] 例如,针对A地址的地址元素组合规则3和B地址的地址元素组合规则2,进 行地址元素类型分析,将地址元素组合规则3和地址元素组合规则2中都存在的地址 元素类型提取出来,得到一条公共地址元素组合规则,这里的公共地址元素组合规则为 "市" _ "区" _ "小区"。
[0058] 步骤103 :基于公共地址元素组合规则对上述两条原始地址信息进行关键信息提 取,得到两条目标地址信息,并对两条目标地址信息进行地址元素匹配,得到两条原始地址 信息的相似度比较结果。
[0059] 具体的,基于公共地址元素组合规则对所述两条原始地址信息进行关键信息提 取,得到两条目标地址信息,并对两条目标地址信息进行地址元素匹配,得到两条原始地址 信息的相似度比较结果,具体执行:
[0060] 基于公共地址元素组合规则中的地址元素类型,对两条原始地址信息进行关键信 息提取,得到两条目标地址信息;
[0061] 对两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条 地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址 信息的相似度比较结果。
[0062] 例如,基于公共地址元素组合规则"市" "区",对A地址和B地址进行关键信息 提取,得到两条目标地址信息,分别为A'和B',其中:A'为北京市西城区,B'为北京市海淀
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1