本技术涉及数据处理,具体涉及一种中文地址行政区划标准化方法、系统及设备。
背景技术:
1、中文地址是由多个地址要素实体按照一定排序规则组合而成的用于描述空间位置信息的短文本自然语言字符串。中文地址作为一类能够关联不同数据源的重要信息,已经成为各种经济活动中重要的基础空间数据以及各类政企事务信息传递的重要载体,同时也已经渗透在个人生活的众多方面。
2、由于中文具有内涵多义性和形式多样性,由中文和特殊字符混合组成的中文地址不仅包含地名信息还可能包含关于空间信息的非标准描述,这使得中文地址作为一种非规范的自然语言字符串和一种非结构化的描述性数据,存在形式复杂多样及计算机难以理解处理等问题;除此之外,由于地址数据的采集方式不同、记录方式不统一、要素命名标准不一致等原因,使得中文地址数据存在要素不完整、表达不统一、易引起歧义等问题。这些问题极大影响中文地址数据的整体质量,使其不能直接用于匹配、统计、分析,最终会影响地址数据的流通性和潜在价值,阻碍地址数据的研究应用,难以满足信息化发展的需求。
技术实现思路
1、为了解决上述问题,本技术提出了一种中文地址行政区划标准化方法,包括:
2、根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;
3、构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;
4、根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;
5、获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;
6、获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。
7、在本技术的一种实现方式中,根据所述地址要素对,得到各级别行政区划对应的地址要素集合,具体包括:
8、根据所述地址要素对,获取各级别行政区划分别对应的单级别地址要素集合;
9、针对每个单级别地址要素集合,确定所述单级别地址要素集合中的地址要素数量,根据所述地址要素数量,确定所述单级别地址要素集合对应行政区划的索引编号区间;
10、根据所述索引编号区间,对所述单级别地址要素集合对应的行政区划进行索引编号,以得到各级别行政区划对应的地址要素集合。
11、在本技术的一种实现方式中,构建所述地址要素集合对应的状态空间,具体包括:
12、确定所述地址要素集合中各行政区划对应的索引编号,根据所述索引编号,建立与所述索引编号等价的逻辑向量;
13、根据所述逻辑向量,构建所述地址要素集合对应的状态空间。
14、在本技术的一种实现方式中,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型,具体包括:
15、针对各级别行政区划地址要素集合对应的状态空间,将所述状态空间划分为若干个状态子空间;
16、根据所述层次隶属关系,确定所述状态子空间与其相邻级别行政区划对应的状态空间之间的第一映射关系,以根据所述第一映射关系,确定相邻级别行政区划之间的第二映射关系;
17、根据所述第二映射关系,构建相邻级别行政区划之间的映射关系模型。
18、在本技术的一种实现方式中,根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵,具体包括:
19、根据所述映射关系模型,确定所述行政区划对应的弱层次关联矩阵;
20、根据所述弱层次关联矩阵,确定所述行政区划中的指定行政区划是否隶属于所述行政区划对应的相邻级别行政区划;
21、若是,则对所述弱层次关联矩阵进行迭代计算,以得到所述行政区划对应的层次关联矩阵。
22、在本技术的一种实现方式中,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构,具体包括:
23、对所述原始地址字符进行分词,以得到由所述原始地址字符对应的多个地址元素所构成的地址元素序列,并将所述多个地址元素依次与所述地址要素集合进行匹配;
24、在存在相匹配的地址要素集合的情况下,获取所述地址要素集合中与所述地址要素相匹配的指定地址要素,并将所述指定地址要素添加到所述原始地址字符的原始地址结构中;
25、在不存在相匹配的地址要素集合的情况下,则根据所述地址元素序列中位于当前地址要素之后的其他地址要素,得到所述原始地址字符对应的原始地址结构。
26、在本技术的一种实现方式中,根据所述层次关联矩阵,对所述原始地址结构进行更新之前,所述方法还包括:
27、获取满足所述缺失补全条件的目标值以及所述目标值对应的目标地址元素;
28、确定所述目标地址元素所在的地址元素集合,根据所述地址元素集合中的索引编号,生成所述行政区划对应的逻辑矩阵。
29、在本技术的一种实现方式中,根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构,具体包括:
30、根据所述层次关联矩阵和所述逻辑矩阵,构建所述行政区划对应的编号补全矩阵;其中,所述编号补全矩阵是由地址要素对所属行政区划在其对应的地址要素集合中的索引编号构成的;
31、获取所述编号补全矩阵中各元素对应的地址要素对,以构建所述行政区划对应的行政区划补全矩阵;
32、根据所述行政区划补全矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。
33、本技术实施例提供了一种中文地址行政区划标准化系统,所述系统包括:
34、行政区划要素匹配模块,用于根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;
35、行政区划层次关联模块,用于构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;
36、还用于根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;
37、行政区划识别转换模块,用于获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;
38、行政区划标准补全模块,用于获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。
39、本技术实施例提供了一种中文地址行政区划标准化设备,所述设备包括:
40、至少一个处理器;
41、以及,与所述至少一个处理器通信连接的存储器;
42、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
43、根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;
44、构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;
45、根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;
46、获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;
47、获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。
48、通过本技术提出的一种中文地址行政区划标准化方法能够带来如下有益效果:
49、结合逻辑动态系统的状态转移模式和分词算法,提出中文地址行政区划标准化补全的匹配关联模型和相关实现算法,通过将使用非规范自然语言字符串描述位置信息的非结构化中文地址转化为包含完整行政区划的标准地址结构,可以解决中文地址表述中存在的行政区划隶属关系排列错误、行政区划特征词省略、部分行政区划缺失等行政区划不规范的问题。