一种地区名称标准化处理和清洗方法及系统与流程

文档序号:32399841发布日期:2022-12-02 18:39阅读:40来源:国知局
一种地区名称标准化处理和清洗方法及系统与流程

1.本发明涉及数据处理技术领域,具体的说是一种地区名称标准化处理和清洗方法及系统。


背景技术:

2.地址数据是公共地理框架数据的重要组成部分,是对地址信息的结构化描述与标识,是专业或社会经济信息与地理空间信息通过地理编码或地址匹配进行挂接的媒介与桥梁。数据处理是对数据进行分析和加工的技术过程,包括对不规范数据的清洗和统一标准化过程。
3.地址数据渗透在生活工作的方方面面,地区分析是各类商业分析、政务数据分析的重要分析维度和关注焦点,如分析各地市的网点数量、各区县市的网络零售规模、各地区的经济发展水平。虽然,国家有关部门也有相关的地区标准,但地区标准也存在不一致情况,如民政部的行政区划标准、统计局的统计用地区标准、各省市内部标准等,并且地区更名是常态情况,部门间标准也未能保持统一。同时,在电商大数据等互联网数据采集、政府各单位数据汇聚、各企业业务数据汇聚的过程中,由于没有统一的标准和命名方式,会出现各种地区标准、格式的地区名称以及地区的历史曾用名称,无法进行有效的统一。以电商大数据采集为例,有商家经营地、发货地、商品产地、目的地、所在地、经销地、生产地址、企业工商注册地、企业住所、企业登记机关等地址地区信息,格式非常多样,使用原始数据无法进行统一的地区分析。
4.因此,对于地区分析,需要解决地区标准化清洗的问题。


技术实现要素:

5.本发明针对目前技术发展的需求和不足之处,提供一种地区名称标准化处理和清洗方法及系统。
6.首先,本发明的一种地区名称标准化处理和清洗方法,解决上述技术问题采用的技术方案如下:
7.一种地区名称标准化处理和清洗方法,包括如下步骤:
8.s1、使用行政区划分类标准作为地区标准;
9.s2、根据地区标准,获取每个省份、地市、区县的别名集,所述别名集包括标准名称、常用名称子集、曾用名称子集,并对每个地区之间的隶属关系、行政级别进行处理和记录;
10.s3、针对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典;
11.s4、检测别名词典,消除别名词典中的相同名称,得到最终别名词典。
12.可选的,执行步骤s2,根据地区标准,处理得到每个省份、地市、区县的别名集,并对每个地区之间的隶属关系、行政级别进行处理和记录,具体操作包括:
13.s2.1、根据地区标准,得到每个省份、地市、区县的标准名称;
14.s2.2、根据省份、地市、区县的标准名称,获取其常用名称,保存在地区常用名称子集中;
15.s2.3、根据省份、地市、区县的标准名称,获取其历史曾用名,保存在地区曾用名称子集中;
16.s2.4、对每个地区之间的隶属关系进行编码记录,同时,对每个地区之间的行政级别进行标记记录。
17.可选的,执行步骤s3的具体操作包括:
18.s3.1、针对省份的标准名称、省份的常用名称子集与曾用名称子集分别生成别名词条,并保存在别名词典中;
19.s3.2、针对地市的标准名称、地市的常用名称子集与曾用名称子集、地市所属省份的标准名称与地市的标准名称、地市所属省份的标准名称与地市的常用名称子集/曾用名称子集、地市所属省份的简称与地市的标准名称、地市所属省份的简称与地市的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中;
20.s3.3、针对区县的标准名称、区县的常用名称子集与曾用名称子集、区县所属省份的标准名称与区县的标准名称、区县所属省份的简称与区县的常用名称子集/曾用名称子集、区县所属地市的标准名称与区县的标准名称、区县所属地市的简称与区县的常用名称子集/曾用名称子集分别生成别名词条,同时,针对区县所属省份的标准名称、区县所属地市的标准名称、区县的标准名称,区县所属省份的简称、区县所属地市的简称、区县的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中。
21.优选的,针对省份、地市、区县的行政级别,对别名词典中的地区名称进行标记。
22.其次,本发明的一种地区名称标准化处理和清洗系统,解决上述技术问题采用的技术方案如下:
23.一种地区名称标准化处理和清洗系统,其结构包括:
24.设定模块,用于将行政区划分类标准设定为地区标准;
25.获取记录模块,用于地区标准,获取每个省份、地市、区县的别名集,所述别名集包括标准名称、常用名称子集、曾用名称子集,并对每个地区之间的隶属关系、行政级别进行处理和记录;
26.组合处理模块,用于针对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典;
27.检测清洗模块,用于检测别名词典,消除别名词典中的相同名称,得到最终别名词典。
28.可选的,所涉及获取记录模块获取地区别名集,并对每个地区之间的隶属关系、行政级别进行处理和记录,具体过程如下:
29.根据地区标准,得到每个省份、地市、区县的标准名称;
30.根据省份、地市、区县的标准名称,获取其常用名称,保存在地区常用名称子集中;
31.根据省份、地市、区县的标准名称,获取其历史曾用名,保存在地区曾用名称子集中;
32.对每个地区之间的隶属关系进行编码记录,同时,对每个地区之间的行政级别进行标记记录。
33.可选的,所涉及组合处理模块对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典,具体过程如下:
34.针对省份的标准名称、省份的常用名称子集与曾用名称子集分别生成别名词条,并保存在别名词典中;
35.针对地市的标准名称、地市的常用名称子集与曾用名称子集、地市所属省份的标准名称与地市的标准名称、地市所属省份的标准名称与地市的常用名称子集/曾用名称子集、地市所属省份的简称与地市的标准名称、地市所属省份的简称与地市的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中;
36.针对区县的标准名称、区县的常用名称子集与曾用名称子集、区县所属省份的标准名称与区县的标准名称、区县所属省份的简称与区县的常用名称子集/曾用名称子集、区县所属地市的标准名称与区县的标准名称、区县所属地市的简称与区县的常用名称子集/曾用名称子集分别生成别名词条,同时,针对区县所属省份的标准名称、区县所属地市的标准名称、区县的标准名称,区县所属省份的简称、区县所属地市的简称、区县的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中。
37.优选的,所涉及组合处理模块得到别名词典后,还基于省份、地市、区县的行政级别,对别名词典中的地区名称进行标记。
38.本发明的一种地区名称标准化处理和清洗方法及系统,与现有技术相比具有的有益效果是:
39.(1)本发明旨在建立地区的别名词典,实现多源异构背景下各种非标准化地区名称的快速标准化处理和清洗,提升地址数据的规范性和质量;
40.(2)使用本发明的别名词典,可以对地区分布进行统一的统计分析,指导决策的制定。
附图说明
41.附图1是本发明实施例一的方法流程图;
42.附图2是本发明实施例二的模块连接框图。
43.附图中各标号信息表示:
44.1、设定模块,2、获取记录模块,3、组合处理模块,4、检测清洗模块。
具体实施方式
45.为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
46.实施例一:
47.结合附图1,本实施例提出一种地区名称标准化处理和清洗方法,包括如下步骤:
48.s1、使用行政区划分类标准作为地区标准。
49.s2、根据地区标准,获取每个省份、地市、区县的别名集,所述别名集包括标准名称、常用名称子集、曾用名称子集,并对每个地区之间的隶属关系、行政级别进行处理和记录,具体操作包括:
50.s2.1、根据地区标准,得到每个省份、地市、区县的标准名称;
51.s2.2、根据省份、地市、区县的标准名称,获取其常用名称,保存在地区常用名称子集中;
52.s2.3、根据省份、地市、区县的标准名称,获取其历史曾用名,保存在地区曾用名称子集中;
53.s2.4、对每个地区之间的隶属关系进行编码记录,同时,对每个地区之间的行政级别进行标记记录,如省级记为1,城市级记为2,区县级记为3。
54.s3、针对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典,具体操作包括:
55.s3.1、针对省份的标准名称、省份的常用名称子集与曾用名称子集分别生成别名词条,并保存在别名词典中;以“云南省”为例,标准名称为“云南省”,常用名称子集与曾用名称子集为“云南”,将词条“云南省”、“云南”保存在别名词典;
56.s3.2、针对地市的标准名称、地市的常用名称子集与曾用名称子集、地市所属省份的标准名称与地市的标准名称、地市所属省份的标准名称与地市的常用名称子集/曾用名称子集、地市所属省份的简称与地市的标准名称、地市所属省份的简称与地市的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中;以“文山壮族苗族自治州”为例,

标准名称生成的别名词条为“文山壮族苗族自治州”,

常用名称子集与曾用名称子集生成的别名词条为“文山”、“文山州”、“文山自治州”,

所属省份的标准名称与自身的标准名称生成的别名词条为“云南省文山壮族苗族自治州”,

所属省份的标准名称与自身的常用名称子集/曾用名称子集生成的别名词条为“云南省文山”、“云南省文山州”、“云南省文山自治州”,

所属省份的简称与自身的标准名称生成的别名词条为“云南文山壮族苗族自治州”,

地市所属省份的简称与自身的常用名称子集/曾用名称子集生成的别名词条为“云南文山”、“云南文山州”、“云南文山自治州”,共计生成12个别名词条保存在别名词典中;
57.s3.3、针对区县的标准名称、区县的常用名称子集与曾用名称子集、区县所属省份的标准名称与区县的标准名称、区县所属省份的简称与区县的常用名称子集/曾用名称子集、区县所属地市的标准名称与区县的标准名称、区县所属地市的简称与区县的常用名称子集/曾用名称子集分别生成别名词条,同时,针对区县所属省份的标准名称、区县所属地市的标准名称、区县的标准名称,区县所属省份的简称、区县所属地市的简称、区县的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中;以“云南省的富宁县”为例,

标准名称生成的别名词条为“富宁县”,

常用名称子集与曾用名称子集生成的别名词条为“富宁”,

所属省份的标准名称与自身标准名称生成的别名词条为“云南省富宁县”,

所属省份的简称与自身常用名称子集/曾用名称子集生成的别名词条为“云南富宁”,

所属地市的标准名称与自身标准名称生成的别名词条为“文山壮族苗族自治州富宁县”,

所属地市的简称与自身常用名称子集/曾用名称子集生成的别名词条为“文山富宁”、“文山州富宁”、“文山自治州富宁”,

所属省份的标准名称、所属地市的标准名称、自身标准名称生成的别名词条为“云南省文山壮族苗族自治州富宁县”,

所属省份的简称、所属地市的简称、自身常用名称子集/曾用名称子集生成的别名词条为“云南文山富宁”、“云南文山州富宁”、“云南文山自治州富宁”,将
①‑⑧
生成的别名词条保存在别名词典中;
58.s3.4、针对省份、地市、区县的行政级别,对别名词典中的地区名称进行标记。
59.s4、检测别名词典,消除别名词典中的相同名称,得到最终别名词典。
60.针对步骤s4,需要补充的是,虽然地区行政级别可能不同,但是名称相同的地区还是有的,如鼓楼区,南京市有鼓楼区、福州市也有鼓楼区,再如中山,大连市有中山区,广东省有中山市。
61.实施例二:
62.结合附图2,本实施例提出一种地区名称标准化处理和清洗系统,其结构包括:设定模1、获取记录模块2、组合处理模块3、检测清洗模块4。
63.通过设定模块1,将行政区划分类标准设定为地区标准。
64.获取记录模块2通过地区标准获取每个省份、地市、区县的别名集,所述别名集包括标准名称、常用名称子集、曾用名称子集,并对每个地区之间的隶属关系、行政级别进行处理和记录,具体过程如下:
65.根据地区标准,得到每个省份、地市、区县的标准名称;
66.根据省份、地市、区县的标准名称,获取其常用名称,保存在地区常用名称子集中;
67.根据省份、地市、区县的标准名称,获取其历史曾用名,保存在地区曾用名称子集中;
68.对每个地区之间的隶属关系进行编码记录,同时,对每个地区之间的行政级别进行标记记录。
69.组合处理模块3针对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典,具体过程如下:
70.针对省份的标准名称、省份的常用名称子集与曾用名称子集分别生成别名词条,并保存在别名词典中;
71.针对地市的标准名称、地市的常用名称子集与曾用名称子集、地市所属省份的标准名称与地市的标准名称、地市所属省份的标准名称与地市的常用名称子集/曾用名称子集、地市所属省份的简称与地市的标准名称、地市所属省份的简称与地市的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中;以“文山壮族苗族自治州”为例,

标准名称生成的别名词条为“文山壮族苗族自治州”,

常用名称子集与曾用名称子集生成的别名词条为“文山”、“文山州”、“文山自治州”,

所属省份的标准名称与自身的标准名称生成的别名词条为“云南省文山壮族苗族自治州”,

所属省份的标准名称与自身的常用名称子集/曾用名称子集生成的别名词条为“云南省文山”、“云南省文山州”、“云南省文山自治州”,

所属省份的简称与自身的标准名称生成的别名词条为“云南文山壮族苗族自治州”,

地市所属省份的简称与自身的常用名称子集/曾用名称子集生成的别名词条为“云南文山”、“云南文山州”、“云南文山自治州”,共计生成12个别名词条保存在别名词典中;
72.针对区县的标准名称、区县的常用名称子集与曾用名称子集、区县所属省份的标准名称与区县的标准名称、区县所属省份的简称与区县的常用名称子集/曾用名称子集、区县所属地市的标准名称与区县的标准名称、区县所属地市的简称与区县的常用名称子集/曾用名称子集分别生成别名词条,同时,针对区县所属省份的标准名称、区县所属地市的标准名称、区县的标准名称,区县所属省份的简称、区县所属地市的简称、区县的常用名称子集/曾用名称子集分别生成别名词条,并保存在别名词典中;以“云南省的富宁县”为例,

标准名称生成的别名词条为“富宁县”,

常用名称子集与曾用名称子集生成的别名词条为“富宁”,

所属省份的标准名称与自身标准名称生成的别名词条为“云南省富宁县”,

所属省份的简称与自身常用名称子集/曾用名称子集生成的别名词条为“云南富宁”,

所属地市的标准名称与自身标准名称生成的别名词条为“文山壮族苗族自治州富宁县”,

所属地市的简称与自身常用名称子集/曾用名称子集生成的别名词条为“文山富宁”、“文山州富宁”、“文山自治州富宁”,

所属省份的标准名称、所属地市的标准名称、自身标准名称生成的别名词条为“云南省文山壮族苗族自治州富宁县”,

所属省份的简称、所属地市的简称、自身常用名称子集/曾用名称子集生成的别名词条为“云南文山富宁”、“云南文山州富宁”、“云南文山自治州富宁”,将
①‑⑧
生成的别名词条保存在别名词典中;
73.基于省份、地市、区县的行政级别,对别名词典中的地区名称进行标记。
74.检测清洗模块4通过检测别名词典,消除别名词典中的相同名称,得到最终别名词典。需要补充的是:虽然地区行政级别可能不同,但是名称相同的地区还是有的,如鼓楼区,南京市有鼓楼区、福州市也有鼓楼区,再如中山,大连市有中山区,广东省有中山市。
75.综上可知,采用本发明的一种地区名称标准化处理和清洗方法及系统,旨在建立地区的别名词典,实现多源异构背景下各种非标准化地区名称的快速标准化处理和清洗,提升地址数据的规范性和质量。
76.以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1