一种基于标准地址矩阵加权映射比对地址匹配的方法与流程

文档序号:23396232发布日期:2020-12-22 14:04阅读:210来源:国知局
一种基于标准地址矩阵加权映射比对地址匹配的方法与流程

本发明涉及数据处理领域,具体而言,本发明涉及多址接入方法、用于多址接入的发射方法、用于多址接入的发射机和接收机。



背景技术:

标准地址库地址包含省、市、区县、乡镇、社区、街路巷、建筑物、门牌号等层级具有格式化的地址信息库。通过人工采集不断完善地址库中的地址信息,将新建和废弃的地址进行更新。通过地址与场所、房屋、企业、实体等各类信息进行对应和建立关系;如此以来地址即可作为通用且具有权威的标识信息,如酒店位置是否准确、是否有工商登记,可以通过采集的地址与标准地址的匹配情况判断是否合理。如何将一个普通地址与标准地址进行匹配,得出一个合理且有效的结果,是一个需要迫切解决的问题。



技术实现要素:

为了寻找更为有效的基于标准地址矩阵加权映射比对地址匹配的实现方案,本发明提供了一种基于标准地址矩阵加权映射比对地址匹配的方法,其包括如下步骤:

基于省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分读取的待匹配地址,编码所述拆分后的待匹配地址生成待匹配地址序列;

调用预置的n行7列的标准地址矩阵,并将所述待匹配地址序列与所述标准地址矩阵中的每行标准地址序列对应匹配,如果匹配一致,则匹配度为1,若否,则匹配度为0,进而生成n行7列的匹配度矩阵,其中,所述n行7列中的n为大于1的自然数,7列对应的属性依次为省、市、县、镇、街路巷、建筑物、门牌号;

采用预设的属性权重参数调整所述n行7列匹配度矩阵并计算得到与所述每行标准地址序列对应的行匹配度,其中所述行匹配度为所述每行标准地址序列中经过调整的各个匹配度之和;

提取行匹配度最大所映射的标准地址并返回所述标准地址。

优选地,所述基于省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分读取的待匹配地址之前包括如下步骤:

预置n行7列的标准地址矩阵。

优选地,所述预置n行7列的标准地址矩阵包括如下步骤:

采集预置区域地面建筑的物理地址数据,使用省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分所述采集的物理地址数据;

按照预设编码规则编码拆分后的所述采集的物理地址数据,映射得到n行7列的标准地址矩阵。

优选地,所述预设编码规则为所述省、市、县按照《中华人民共和国行政区划代码》gbt2260-2007编码,所述镇、街路巷、建筑物、门牌号为自定义编码。

优选地,所述使用省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分所述采集的物理地址数据为通过jieba中文分词组件拆分。

优选地,所述待匹配地址序列与所述标准地址矩阵中的每行标准地址序列对应匹配包括如下步骤:

将编码后所述待匹配地址序列中的省、市、县、镇、街路巷、建筑物、门牌号分别与所述每行标准地址序列中7列属性之省、市、县、镇、街路巷、建筑物、门牌号的属性值相匹配。

优选地,所述7列预设的属性权重参数包括如下:

省的属性权重参数为0.6;市的属性权重参数为1.4;县的属性权重参数为3.6;镇的属性权重参数为8.1;街路巷的属性权重参数为15.5;建筑物的属性权重参数为34.2;门牌号的属性权重参数为6.3。

与现有技术相比,本发明一种基于标准地址矩阵加权映射比对地址匹配的方法具有如下有益效果:

本发明一种基于标准地址矩阵加权映射比对地址匹配的方法通过对物理地址数据进行统一格式化并建立7列预设的属性权重参数,为地址匹配提供了基础数据库,同时对比待匹配地址与标准地址矩阵,获取匹配相似度最高的标准地址,能够有效判断待匹配地址是否合理,对待匹配地址不合理不合法的分析提供了初选数据。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例一种基于标准地址矩阵加权映射比对地址匹配的方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

请参阅图1,本发明实施例一种基于标准地址矩阵加权映射比对地址匹配的方法,其包括如下步骤:

步骤s101:基于省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分读取的待匹配地址,编码拆分后的待匹配地址生成待匹配地址序列;其中,待匹配地址为一任意普通地址。

在一些实施方式中,基于省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分读取的待匹配地址为通过jieba中文分词组件拆分,其中,jieba中文分词组件为python编程中的一个python包,其支持精确模式、全模式以及搜索引擎模式三种分词模式。

优选地,编码拆分后的待匹配地址生成待匹配地址序列包括如下步骤:

将待匹配地址中的省、市、县按照《中华人民共和国行政区划代码》gbt2260-2007编码,将待匹配地址中的镇、街路巷、建筑物、门牌号按照自定义编码。

示例地,假设待匹配地址为“四川省广元市旺苍县白水镇便民东路24号3栋2单元303”则其对应的编码可以为“51、08、21、003、004、100、00303”,其中,51、08、21分别对应于《中华人民共和国行政区划代码》gbt2260-2007中的四川省广元市旺苍县;003、004、100、00303为用户自定义编码。

在一些实施方式中,用户自定义编码采用十进制编码,其具体位数可以参照待编码的地址数量,本发明实施例对此不做限制。

在一些实施方式中,基于省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分读取的待匹配地址之前包括如下步骤:

预置n行7列的标准地址矩阵。

优选地,预置n行7列的标准地址矩阵包括如下步骤:

采集预置区域地面建筑的物理地址数据,使用省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分采集的物理地址数据;

按照预设编码规则编码拆分后的采集的物理地址数据,得到n行7列的标准地址矩阵。

在一些实施方式中,采集预置区域地面建筑的物理地址数据为接收录入的地址。示例地,物理地址数据为住宿、网吧、办公楼、居民楼、停车场等众多场所的物理地址信息。

值得注意的是,考虑到本发明实施例是将任意普通地址与标准地址矩阵的相匹配,因此,预设编码规则与编码拆分后的待匹配地址生成待匹配地址序列是一样的规则,也即预设编码规则为省、市、县按照《中华人民共和国行政区划代码》gbt2260-2007编码,镇、街路巷、建筑物、门牌号为自定义编码。同理,使用省、市、县、镇、街路巷、建筑物、门牌号七个维度拆分采集的物理地址数据优选为通过jieba中文分词组件拆分。

在一些实施方式中,一个物理地址数据标准化之后如果缺失父级地址,那么需从左到右找到第一个未缺失的段地址开始匹配。同时,如果物理地址数据的父级出现残缺而下级有匹配则可以通过已知数据或者行政区划或者其他方式补全。

步骤s103:调用预置的n行7列的标准地址矩阵,并将所述待匹配地址序列与所述标准地址矩阵中的每行标准地址序列对应匹配,如果匹配一致,则匹配度为1,若否,则匹配度为0,进而生成n行7列的匹配度矩阵,其中,所述n行7列中的n为大于1的自然数,7列对应的属性依次为省、市、县、镇、街路巷、建筑物、门牌号。

具体地,待匹配地址序列与标准地址矩阵中的每行标准地址序列对应匹配包括如下步骤:

将编码后待匹配地址序列中的省、市、县、镇、街路巷、建筑物、门牌号分别与每行标准地址序列中7列属性之省、市、县、镇、街路巷、建筑物、门牌号的属性值相匹配。

示例地,如果编码后待匹配地址序列之省为51,标准地址序列中省属性之属性值也为51,则匹配度为1,否则匹配度为0。

在一些实施方式中,如果一个待匹配地址在标准地址矩阵中未匹配到相应的地址,则需提示管理员进行审核,如果该待匹配地址是一个合法的地址则需更新标准地址矩阵。

步骤s105:采用预设的属性权重参数调整所述n行7列匹配度矩阵并计算得到与所述每行标准地址序列对应的行匹配度,其中所述行匹配度为所述每行标准地址序列中经过调整的各个匹配度之和。

优选地,预设的属性权重参数包括如下:省的属性权重参数为0.6;市的属性权重参数为1.4;县的属性权重参数为3.6;镇的属性权重参数为8.1;街路巷的属性权重参数为15.5;建筑物的属性权重参数为34.2;门牌号的属性权重参数为6.3。

示例地,当n行7列匹配度矩阵中的属性为省的匹配度为1时,采用7列预设的属性权重参数调整n行7列匹配度矩阵则为用1与省的属性权重参数0.6做乘法,进而得到调整后的匹配度为0.6。

在一些实施方式中,7列预设的属性权重参数的基于以下步骤确认:

按照词频确认省、市、县、镇、街路巷、建筑物、门牌号的初次权重;

根据省、市、县、镇、街路巷、建筑物、门牌号的实际权重得到省、市、县、镇、街路巷、建筑物、门牌号的属性权重参数。

在一些实施方式中,省、市、县、镇、街路巷、建筑物、门牌号的初次权重为0.6、0.7、1.2、2.1、3.1、5.7、0.9。省、市、县、镇、街路巷、建筑物、门牌号的实际权重为1-7,则可以得到省的属性权重参数为0.6、市的属性权重参数为1.4、县的属性权重参数为3.6、镇的属性权重参数为8.1、街路巷的属性权重参数为15.5、建筑物的属性权重参数为34.2以及门牌号的属性权重参数为6.3。

步骤s107:提取行匹配度最大所对应的标准地址并返回所述标准地址。

在一些实施方式中,本发明实施例优选应用于根据用户搜索自动返回标准地址。

与现有技术相比,本发明实施例一种基于标准地址矩阵加权映射比对地址匹配的方法具有如下有益效果:

本发明实施例一种基于标准地址矩阵加权映射比对地址匹配的方法通过对物理地址数据进行统一格式化并建立7列预设的属性权重参数,为地址匹配提供了基础数据库,同时对比待匹配地址与标准地址矩阵,获取匹配相似度最高的标准地址,能够有效判断待匹配地址是否合理,对待匹配地址不合理不合法的分析提供了初选数据。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1