行政区划归属识别方法、装置、存储介质及计算机设备与流程

文档序号:16919141发布日期:2019-02-19 19:12阅读:378来源:国知局
行政区划归属识别方法、装置、存储介质及计算机设备与流程

本发明涉及数据处理技术领域,尤其涉及一种行政区划归属识别方法、装置、存储介质及计算机设备。



背景技术:

随着以计算机网络、卫星技术、光缆为代表的现代通讯技术和现代化交通的飞速发展,人类的活动空间迅速扩大、社会交往日益频繁,地名作为人们在社会交往中使用最频繁、用途最广泛的工具之一,一方面其社会价值和社会地位不断提高,表现为地名使用范围越来越大,频率越来越高,使用的手段越来越多,另一方面,也对地名称谓的统一,书写的一致性提出了更加严格的要求。地名称谓的不一致、书写和译写的不统一、一地多名、一名多地(重名)、一名多写(一个地名多种书写形式)等不规范问题,不仅不利于经济建设、国际交往和人们的日常生活,而且给现代化的交通、邮政、通讯及外交、国防等事业造成不便和损失。

当前的行政区划归属识别的技术一般以关键字完全匹配或正则匹配,容易出现漏识别或误识别的情况,识别效果不佳。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种行政区划归属识别方法,能够有效提升行政区划归属识别效果。

本发明的另一个目的在于提出一种行政区划归属识别装置。

本发明的另一个目的在于提出一种非临时性计算机可读存储介质。

本发明的另一个目的在于提出一种计算机程序产品。

本发明的另一个目的在于提出一种计算机设备。

为达到上述目的,本发明第一方面实施例提出的行政区划归属识别方法,包括:对待识别地址数据进行分词处理,得到多个分词;根据预设索引表确定各所述分词对应的编码信息和对应的第一权重,其中,所述第一权重用于描述对应的分词的权重分布;根据所述编码信息和所述第一权重对所述待识别地址数据的行政区划归属进行识别。

本发明第一方面实施例提出的行政区划归属识别方法,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

为达到上述目的,本发明第二方面实施例提出的行政区划归属识别装置,包括:分词模块,用于对待识别地址数据进行分词处理,得到多个分词;确定模块,用于根据预设索引表确定各所述分词对应的编码信息和对应的第一权重,其中,所述第一权重用于描述对应的分词的权重分布;识别模块,用于根据所述编码信息和所述第一权重对所述待识别地址数据的行政区划归属进行识别。

本发明第二方面实施例提出的行政区划归属识别装置,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

为达到上述目的,本发明第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种行政区划归属识别方法,所述方法包括:本发明第一方面实施例提出的行政区划归属识别方法。

本发明第三方面实施例提出的非临时性计算机可读存储介质,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

为达到上述目的,本发明第四方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行一种行政区划归属识别方法,所述方法包括:对待识别地址数据进行分词处理,得到多个分词;根据预设索引表确定各所述分词对应的编码信息和对应的第一权重,其中,所述第一权重用于描述对应的分词的权重分布;根据所述编码信息和所述第一权重对所述待识别地址数据的行政区划归属进行识别。

本发明第四方面实施例提出的计算机程序产品,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

本发明第五方面还提出一种计算机设备,该计算机设备包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行:对待识别地址数据进行分词处理,得到多个分词;根据预设索引表确定各所述分词对应的编码信息和对应的第一权重,其中,所述第一权重用于描述对应的分词的权重分布;根据所述编码信息和所述第一权重对所述待识别地址数据的行政区划归属进行识别。

本发明第五方面实施例提出的计算机设备,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明一实施例提出的行政区划归属识别方法的流程示意图;

图2是本发明另一实施例提出的行政区划归属识别方法的流程示意图;

图3是本发明一实施例提出的行政区划归属识别装置的结构示意图;

图4是本发明另一实施例提出的行政区划归属识别装置的结构示意图;

图5是本发明一个实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的行政区划归属识别方法的流程示意图。

本实施例以行政区划归属识别方法被配置为行政区划归属识别装置中来举例说明。

本实施例中行政区划归属识别方法可以被配置在行政区划归属识别装置中,行政区划归属识别装置可以设置在服务器中,或者也可以设置在电子设备中,本发明实施例对此不作限制。

本实施例以行政区划归属识别方法被配置在服务器中为例。

本发明实施例中的行政区划归属识别方法可以应用在云服务器中,对此不作限制。

需要说明的是,本发明实施例的执行主体,在硬件上可以例如为服务器或者电子设备中的中央处理器(centralprocessingunit,cpu),在软件上可以例如为服务器或者电子设备中的相关的后台服务,对此不作限制。

随着以计算机网络、卫星技术、光缆为代表的现代通讯技术和现代化交通的飞速发展,人类的活动空间迅速扩大、社会交往日益频繁,地名作为人们在社会交往中使用最频繁、用途最广泛的工具之一,一方面其社会价值和社会地位不断提高,表现为地名使用范围越来越大,频率越来越高,使用的手段越来越多,另一方面,也对地名称谓的统一,书写的一致性提出了更加严格的要求。地名称谓的不一致、书写和译写的不统一、一地多名、一名多地(重名)、一名多写(一个地名多种书写形式)等不规范问题,不仅不利于经济建设、国际交往和人们的日常生活,而且给现代化的交通、邮政、通讯及外交、国防等事业造成不便和损失。

当前的行政区划归属识别的技术一般以关键字完全匹配或正则匹配,容易出现漏识别或误识别的情况,识别效果不佳。

为了解决上述技术问题,本发明实施例中提供一种行政区划归属识别方法,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

参见图1,该方法包括:

s101:对待识别地址数据进行分词处理,得到多个分词。

本发明实施例中的待识别地址数据为需要对其进行行政区划归属识别的地址数据,例如,山东烟台牟平西游坊宁海街道,具体地,该待识别地址数据可以为非标准地址数据。

本发明实施例中的标准地址数据可以具体为关键字完全匹配,或者,正则匹配过程中完全匹配的地址数据,则相对应地,非标准地址数据可以为关键字不完全匹配,或者,正则匹配过程中不完全匹配的地址数据。

作为一种示例,参见上述,山东烟台牟平西游坊宁海街道可以为非标准地址数据,而对应的标准地址数据可以例如为,山东省烟台市牟平区西游坊镇宁海路,对此不作限制。

本发明实施例在具体执行的过程中,可以基于分词库中的各级行政区划的名称和对应的简称,对待识别地址数据进行分词处理。

通过基于直接基于预先建立的分词库中的各级行政区划的名称和对应的简称,对待识别地址数据进行分词处理,能够有效保障分词处理精准度,并保障分词处理效率。

其中的行政区划是行政区域划分的简称,是国家为了进行分级管理而实行的区域划分。

其中的分词库是预先建立的,分词库中的数据为国家统计局网站公开的五级行政区划数据,具体地,本发明实施例中,可以在对待识别地址数据进行分词处理,得到多个分词之前,获取标准五级行政区划数据,标准五级行政区划数据包括:各级行政区划的名称和编码信息;对各级行政区划的名称进行预处理,得到名称对应的简称;依据各级行政区划的名称和对应的简称建立分词库。

各级行政区划的名称例如上述的山东省、烟台市、牟平区等。

编码信息为12位数字,格式为:ppccyytttvvv,pp表示省编码,cc表示市编码,yy表示区县编码,ttt表示镇、街道编码,vvv表示村、社区编码。对于省级行政区划,只有pp有效,编码信息的其余字段填0,市级行政区划只有pp和cc有效,编码信息的其余字段填0,以此类推。

山东省对应的简称可以例如为,齐鲁、东鲁、海右、海岱等,烟台市对应的简称可以例如为,港城、登州、东莱、芝罘等,对此不作限制。

本发明实施例中,通过获取标准五级行政区划数据,标准五级行政区划数据包括:各级行政区划的名称和编码信息;对各级行政区划的名称进行预处理,得到名称对应的简称;依据各级行政区划的名称和对应的简称建立分词库,将各级行政区划的名称和对应的简称均纳入分词的考量范畴,能够有效提升对非标准地址数据进行分词的精准度。

作为一种示例,对上述“山东烟台牟平西游坊宁海街道”进行分词,得到的多个分词为:山东烟台牟平西游坊宁海街道,而后,可以触发后续步骤。

s102:根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布。

其中的预设索引表也是预先建立的。

本发明实施例中,为了有效保障识别效率,可以在对待识别地址数据进行分词处理,得到多个分词之前,根据预设规则分别为各级行政区划的名称和对应的简称分配第一权重;根据各级行政区划的名称、对应的简称,以及各级行政区划的编码信息建立预设索引表。

其中,第一权重用于描述对应的分词的权重分布。

第一权重与匹配到的分词库中的,各级行政区划的名称和对应的简称的第一权重相对应。

例如,分词库中包含山东省烟台市牟平区西游坊镇宁海路的第一权重分别为a,b,c,d,则分词得到的山东烟台牟平西游坊宁海街道的第一权重分别对应为a,b,c,d。

本发明实施例中,为了使得权重的配置更符合实际的地址数据使用场景需求,可以将预设规则配置为:将匹配为各级行政区划的名称的分词的权重设置高于匹配为各级行政区划的简称的分词,将匹配为较高级别行政区划的分词的权重设置高于匹配为较低级别行政区划的分词。

例如,若各级行政区划的名称例如上述的山东省、烟台市、牟平区等,山东省对应的简称可以例如为,齐鲁、东鲁、海右、海岱等,烟台市对应的简称可以例如为,港城、登州、东莱、芝罘等,则为前述进行权重分配时,可以将山东省、烟台市、牟平区的第一权重依次设置为由高到低,将山东省的第一权重设置为高于对应的简称:齐鲁、东鲁、海右、海岱的第一权重,将较常使用的简称的第一权重设置为高于不经常使用的简称的第一权重。

通过预先根据预设规则分别为各级行政区划的名称和对应的简称分配第一权重;根据各级行政区划的名称、对应的简称,以及各级行政区划的编码信息建立预设索引表,通过将各级行政区划的名称和对应的简称权重纳入行政区划归属识别,且该权重的配置更符合实际的地址数据使用场景需求,因此,从使用场景需求的角度保障了行政区划归属识别的精准度。

s103:根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别。

本发明实施例在具体执行的过程中,参见图2,s103可以包括:

s201:针对各分词对应的编码信息,进行五级行政区划的切分处理,得到各级行政区划对应的编码。

参见上述示例,各分词为:山东烟台牟平西游坊宁海街道,分词得到的山东烟台牟平西游坊宁海街道的第一权重分别对应为a,b,c,d,假设山东的编码信息为110000000000,烟台的编码信息为110100000000,牟平的编码信息为110107000000,西游坊的编码信息为110107190000,宁海街道的编码信息为110107192100,则针对各分词对应的编码信息,进行五级行政区划的切分处理,得到各级行政区划对应的编码为:山东省的编码11,烟台市的编码01,牟平区的编码07,西游坊的编码19,宁海街道的的编码21。

s202:基于第一权重,确定各级行政区划对应的编码的第二权重,并确定所匹配的各级行政区划的匹配数量,其中,各级行政区划对应的编码,具有对应的第二权重,第二权重用于描述各级行政区划对应的编码的权重分布。

s203:根据匹配数量对各级行政区划对应的第二权重进行调整,并从调整后的第二权重中选取满足预设条件的目标第二权重。

s204:确定目标第二权重所指示的目标行政区划,并将目标行政区划作为待识别地址数据所归属的行政区划。

作为一种示例,初始化一个五级行政区划的权重累计的权重累计表,该权重累计表为kv表,其中的k为各级行政区划的编码信息,如pp、ttt等,v为该行政区划的累计权重,而后,遍历所有的分词,查找上述的预设索引表,若未查找到,则继续下一个分词,否则,取出该分词对应的编码信息,遍历其中的所有编码信息,及权重,对编码信息进行五级行政区划的切分,将每一级的行政区划对应的编码信息,以及对应的权重累加至权重累计表的相应key值,基于权重累计表,取出每一级行政区划中权重最高的作为目标行政区划,表示该目标行政区划有最多的分词匹配成功。

例如,以“山东烟台牟平西游坊宁海街道”为例,分词结果为:山东/烟台/牟平/西游坊/宁海街道,遍历分词结果,首先是山东,匹配到山东省的缩写,于是就为山东省对应的行政区划累计一次省级缩写命中的权重。其次是烟台,匹配到烟台市的缩写,于是就为烟台市本身以及烟台市所归属的上一级行政区划(山东省)累计一次市级缩写命中的权重。再次是牟平,匹配到牟平区的缩写,于是就为牟平区本身以及其所属所有上级行政区划累计一次区级缩写命中的权重。以此类推。

本实施例中,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

图3是本发明一实施例提出的行政区划归属识别装置的结构示意图。

参见图3,该装置300包括:

分词模块301,用于对待识别地址数据进行分词处理,得到多个分词。

确定模块302,用于根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布。

识别模块303,用于根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别。

可选地,一些实施例中,识别模块303,具体用于:

针对各分词对应的编码信息,进行五级行政区划的切分处理,得到各级行政区划对应的编码;

基于第一权重,确定各级行政区划对应的编码的第二权重,并确定所匹配的各级行政区划的匹配数量,其中,各级行政区划对应的编码,具有对应的第二权重,第二权重用于描述各级行政区划对应的编码的权重分布;

根据匹配数量对各级行政区划对应的第二权重进行调整,并从调整后的第二权重中选取满足预设条件的目标第二权重;

确定目标第二权重所指示的目标行政区划,并将目标行政区划作为待识别地址数据所归属的行政区划。

可选地,一些实施例中,参见图4,还包括:

获取模块304,用于获取标准五级行政区划数据,标准五级行政区划数据包括:各级行政区划的名称和编码信息;

预处理模块305,用于对各级行政区划的名称进行预处理,得到名称对应的简称;

第一建立模块306,用于依据各级行政区划的名称和对应的简称建立分词库;

分词模块301,具体用于:

基于分词库中的各级行政区划的名称和对应的简称,对待识别地址数据进行分词处理。

分配模块307,用于根据预设规则分别为各级行政区划的名称和对应的简称分配第一权重;

第二建立模块308,用于根据各级行政区划的名称、对应的简称,以及各级行政区划的编码信息建立预设索引表。

可选地,一些实施例中,待识别地址数据为非标准地址数据。

需要说明的是,前述图1-图2实施例中对行政区划归属识别方法实施例的解释说明也适用于该实施例的行政区划归属识别装置300,其实现原理类似,此处不再赘述。

本实施例中,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

图5是本发明一个实施例提出的计算机设备的结构示意图。

该计算机设备可以是手机、平板电脑等。

参见图5,本实施例的计算机设备50包括:壳体501、处理器502、存储器503、电路板504、电源电路505,电路板504安置在壳体501围成的空间内部,处理器502、存储器503设置在电路板504上;电源电路505,用于为计算机设备50各个电路或器件供电;存储器503用于存储可执行程序代码;其中,处理器502通过读取存储器503中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行:

对待识别地址数据进行分词处理,得到多个分词;

根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布;

根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别。

需要说明的是,前述图1-图2实施例中对行政区划归属识别方法实施例的解释说明也适用于该实施例的计算机设备50,其实现原理类似,此处不再赘述。

本实施例中的计算机设备,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当存储介质中的指令由终端的处理器执行时,使得终端能够执行一种行政区划归属识别方法,方法包括:

对待识别地址数据进行分词处理,得到多个分词;

根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布;

根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别。

本实施例中的非临时性计算机可读存储介质,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行一种行政区划归属识别方法,方法包括:

对待识别地址数据进行分词处理,得到多个分词;

根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布;

根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别。

本实施例中的计算机程序产品,通过对待识别地址数据进行分词处理,得到多个分词,并根据预设索引表确定各分词对应的编码信息和对应的第一权重,其中,第一权重用于描述对应的分词的权重分布,以及根据编码信息和第一权重对待识别地址数据的行政区划归属进行识别,能够有效提升行政区划归属识别效果。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1