地址标准化方法和装置的制造方法

文档序号:10687147阅读:176来源:国知局
地址标准化方法和装置的制造方法
【专利摘要】本发明公开了一种地址标准化方法,所述方法包括:当获取到待标准化地址时,从所述待标准化地址中提取关键词;根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;将所述地址分词与预设地址库进行对比,得到对比结果;根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。本发明还公开了一种地址标准化装置。本发明实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址处理的效率。
【专利说明】
地址标准化方法和装置
技术领域
[0001]本发明涉及通讯地址技术领域,尤其涉及一种地址标准化方法和装置。
【背景技术】
[0002]通讯地址技术的应用领域非常广泛,与人们的日常生活也息息相关,如邮政领域的信件往来需要对通讯地址进行识别和处理、地理编码系统中首先需对通讯地址进行标准化、银行业务系统中需对地址数据进行存储、识别、更新等处理。通讯地址技术还可用于网络、电子商务、电子地图等等。
[0003]通讯地址的不规范或者不标准,将会给人们带来诸多的不便。例如:由于用户地址的不规范,邮政系统需要投入大量的人力和物力去解决如何识别正确的、标准的通讯地址,否则将会造成错误投递、重复投递的情况,而随着邮政业务数据的增长,这种投入将相应地进行扩大,这种情况对邮政系统来说将难以承受。银行业务系统中也存在着用户地址的不规范问题,倘若银行业务系统没有对用户地址进行标准化的处理(事实上很多银行业务系统确实没有对用户地址进行标准化处理,用户地址的录入和更新都是人为的进行操作),随着业务系统的数据量增大,不同数据库的不兼容性,银行业务系统将面临着处理速度较慢、效率低下,业务系统数据混乱的现象,很容易造成客户的损失和流失。因此,将通讯地址标准化,使其转化为地理信息服务的基础成果,为大众的生产生活提供支撑,已成为一项迫切的需要。

【发明内容】

[0004]本发明的主要目的在于提供一种地址标准化方法和装置,旨在解决现有通讯地址不规范或者不标准导致通讯地址处理精确度低,以及处理效率低下的问题。
[0005]为实现上述目的,本发明提供的一种地址标准化方法,所述地址标准化方法包括:
[0006]当获取到待标准化地址时,从所述待标准化地址中提取关键词;
[0007]根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
[0008]将所述地址分词与预设地址库进行对比,得到对比结果;
[0009]根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
[0010]优选地,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤之后,还包括:
[0011 ]确定所述关键词的优先级;
[0012]所述将所述地址分词与预设地址库进行对比,得到对比结果的步骤包括:
[0013]根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
[0014]按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
[0015]优选地,所述根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词的步骤之后,还包括:
[0016]解析所述地址分词,确定所述地址分词是否完全划分;
[0017]若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
[0018]优选地,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤包括:
[0019]当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
[0020]在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
[0021]优选地,所述根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址的步骤之后,还包括:
[0022]对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
[0023]此外,为实现上述目的,本发明还提供一种地址标准化装置,所述地址标准化装置包括:
[0024]提取模块,用于当获取到待标准化地址时,从所述待标准化地址中提取关键词;
[0025]划分模块,用于根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
[0026]对比模块,用于将所述地址分词与预设地址库进行对比,得到对比结果;
[0027]补全模块,用于根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
[0028]优选地,所述地址标准化装置还包括:
[0029]确定模块,用于确定所述关键词的优先级;
[0030]所述对比模块包括:
[0031]确定单元,用于根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
[0032]对比单元,用于按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
[0033]优选地,所述地址标准化装置还包括:
[0034]解析模块,用于解析所述地址分词,确定所述地址分词是否完全划分;
[0035]所述补全模块,还用于若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
[0036]优选地,所述提取模块包括:
[0037]预处理单元,用于当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
[0038]提取单元,用于在所述预处理后的待标准化地址中提取所述待标准化地址的关键
Τ.κ| ο
[0039]优选地,所述地址标准化装置还包括:
[0040]分类模块,用于对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
[0041]本发明通过当获取到待标准化地址时,根据所述待标准化地址中的关键词划分所述待标准化地址,以得到所述待标准化地址的地址分词,并将所述地址分词与预设地址库进行对比,根据对比结果补全所述待标准化地址,以得到标准化地址。实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址处理的效率。
【附图说明】
[0042]图1为本发明地址标准化方法的第一实施例的流程示意图;
[0043]图2为本发明地址标准化方法的第二实施例的流程示意图;
[0044]图3为本发明地址标准化方法的第三实施例的流程示意图;
[0045]图4为本发明地址标准化装置的第一实施例的功能模块示意图;
[0046]图5为本发明地址标准化装置的第二实施例的功能模块示意图;
[0047]图6为本发明实施例中对比模块的一种功能模块示意图;
[0048]图7为本发明地址标准化装置的第三实施例的功能模块示意图。
[0049]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
【具体实施方式】
[0050]应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0051 ]本发明提供一种地址标准化方法。
[0052]参照图1,图1为本发明地址标准化方法第一实施例的流程示意图。
[0053]在本实施例中,所述地址标准化方法包括:
[0054]步骤SlO,当获取到待标准化地址时,从所述待标准化地址中提取关键词;
[0055]当获取到待标准化的地址时,解析所述待标准化地址,从所述待标准化地址中提取关键词。需要说明的是,所述关键词为所述待标准化地址中具有代表性的词,包括省级关键词、地区级关键词、县级关键词、乡级关键词、村级关键词、街巷名关键词、住宅小区关键词、门楼地址关键词和兴趣点关键词。其中,所述省级关键词包括但不限于市(直辖市)、省、市(省会)、自治区和特别行政区;所述地区级关键词包括但不限于地区、盟、自治州和(地级)市;所述县级关键词包括但不限于县、自治州、旗、自治旗和(市辖)区;所述乡级关键词包括但不限于乡、镇和街道办;所述村级关键词包括但不限于村、庄、屯和里;所述街巷名关键词包括但不限于路、大道、道、大街、街、巷、胡同、条和里;所述住宅小区关键词包括但不限于区、园、村、坊、庄、居、寓、苑、小区、弄和公寓;所述门楼地址关键词包括但不限于号、号楼、楼、宿舍、斋、馆和堂;所述兴趣点关键词包括但不限于大厦、广场、饭店、中心、大楼、楼、场、广场、馆、酒店、局和城。
[0056]如当所获取待标准化地址为“河北唐山市路北区丽景逸翠园I号楼202室”,则解析所述待表标准化地址,得到的关键词为“市、区、园、楼和室”。
[0057]步骤S20,根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
[0058]当得到所述待标准化地址的关键词时,根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词。当得到所述待标准化地址“河北唐山市路北区丽景逸翠园I号楼202室”的关键词“市、区、园、楼和室”时,根据所述关键词关键词为“市、区、园、楼和室”划分所述待标准化地址,得到所述待标准化地址的地址分词为“河北唐山市”、“路北区,,、“丽景逸翠园”、“I号楼”和“202室” ο
[0059]进一步地,所述步骤S20之后,还包括:
[0060]步骤a,解析所述地址分词,确定所述地址分词是否完全划分;
[0061]步骤b,若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
[0062]进一步地,当得到所述待标准化的地址分词时,解析所述待标准化的地址分词,确定所述待标准化的地址分词是否全部已经完全划分。若所述待标准化的地址分词存在未完全划分的地址分词,则表明所述未完全划分的地址分词中缺少对应的关键词,则根据预设补全规则补全所述未完全划分的地址分词,以再次划分所述未完全划分的地址分词。如当得到的地址分词为“河北唐山市”时,确定所述“河北唐山市”的地址分词属于未完全划分的地址分词,则按照预设补全规则补全所述未完全划分的地址分词“河北唐山市”,得到补全之后的地址分词为“河北省唐山市”,并重新在所述“河北省唐山市”的地址分词中提取关键词“省”和“市”,得到对应的不能再划分的地址分词为“河北省”和“唐山市”。其中,所述预设补全规则为通过一般的地级市的命名规则去判断该地址分词是否需要补充对应的关键词。如“深圳南山区”,则按照预设补全规则补全后得到的是“深圳市南山区”。
[0063]若所述地址分词中未存在未完全划分的地址分词,即全部地址分词都已完全划分,则执行步骤S30。
[0064]步骤S30,将所述地址分词与预设地址库进行对比,得到对比结果;
[0065]步骤S40,根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
[0066]当得到所述待标准化地址的地址分词时,根据所述地址分词与预设地址库进行对比,得到对比结果。所述预设地址库中存储有大量的地址数据。如当得到的地址分词为“河北唐山市”、“路北区”、“丽景逸翠园”、“I号楼”和“202室”时,将所述地址分词“河北唐山市”、“路北区”、“丽景逸翠园”、“I号楼”和“202室”与预设地址库中的地址进行对比,得到的对比结果为地址分词“河北唐山市”应为“河北省唐山市”,所述“路北区”和所述“丽景逸翠园”之间少了 “建华东道”,所述“I号楼”和所述“202室”之间少了 “2单元” ο
[0067]根据所述对比结果确定所述待标准化地址缺少的地址分词,将所述待标准化地址所缺少的地址分词补充至所述待标准化地址中,以补全所述待标准化地址,使所述待标准化地址转化成标准化地址。如根据所述对比结果补全所述待标准化地址“河北唐山市路北区丽景逸翠园I号楼202室”,得到标准化地址为“河北省唐山市路北区建华东道丽景逸翠园I号楼2单元202室”。
[0068]本实施例通过当获取到待标准化地址时,根据所述待标准化地址中的关键词划分所述待标准化地址,以得到所述待标准化地址的地址分词,并将所述地址分词与预设地址库进行对比,根据对比结果补全所述待标准化地址,以得到标准化地址。实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址的处理效率。
[0069]参照图2,图2为本发明地址标准化方法的第二实施例的流程示意图,基于第一实施例提出本发明地址标准化方法的第二实施例。
[0070]在本实施例中,所述地址标准化方法还包括:
[0071 ]步骤S50,确定所述关键词的优先级;
[0072]当得到所述待标准化地址的关键词时,确定所述关键词的优先级。需要说明的是,所述关键词的优先级根据国家行政区域划分标准确定,即根据国家行政区域的大小确定。如确定所述省级关键词为一级关键词,所述地区级关键词为二级关键词,所述县级关键词为三级关键词,所述乡级关键词为四级关键词,所述村级关键词为五级关键词,所述街巷名关键词、所述住宅小区关键词、所述门楼地址关键词、所述兴趣点关键词为六级关键词。其中,所述一级关键词的优先级高于二级关键词,所述二级关键词的优先级高于三级关键词,以此类推,其余的在此不再赘述。需要说明的是,所述待标准化地址并不会包括所有级别的关键词,如可能不包括三级关键词,也可能不包括五级关键词等。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“I号楼”和“202室”为六级关键词。
[0073]所述步骤S30包括:
[0074]步骤S31,根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
[0075]当确定所述待标准化地址的关键词的优先级后,根据所述关键词的优先级的高低确定所述地址分词的优先级的高低。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“I号楼”和“202室”为六级关键词后,则确定所述“河北唐山市”的优先级高于所述“路北区”的优先级,所述“路北区”的优先级高于所述“丽景逸翠园”、所述“I号楼”和“202室”的优先级。
[0076]步骤S32,按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
[0077]当确定所述地址分词的优先级的高低后,按照所述地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,即先将优先级最高的地址分词与所述预设地址库进行对比,在所述预设地址库中除去不属于所述优先级最高的地址分词的地址,得到第一地址库,然后再将次优先级的地址分词与所述第一地址库进行对比,在所述预设地址库中除去不属于所述次优先级的地址分词的地址,得到第二地址库,以此类推,直到将所述地址分词对比完毕。如先将“河北唐山市”与所述预设地址库进行对比,在预设地址库中筛选出只包含“河北省唐山市”的地址库,作为第一地址库;其次将“路北区”与第一地址库进行对比,在第一地址库筛选出只包含“河北省唐山市路北区”的第二地址库;再者将“丽景逸翠园”、“I号楼”和“202室”与第二地址库进行对比,得到对比结果,即得到所述待标准化地址中所缺少的地址分词。
[0078]本实施例通过根据键词的优先级的高低确定所述地址分词的优先级高低,然后按照地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,使所述待标准化地址转化成标准化地址。提高了所述待标准化地址转化成标准化地址的效率。
[0079]参照图3,图3为本发明地址标准化方法的第三实施例的流程示意图,基于第一实施例提出本发明地址标准化方法的第三实施例。
[0080]在本实施例中,所述地址标准化方法还包括:
[0081]步骤S60,对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
[0082]当使所述待标准化地址转化成标准化地址后,对所述标准化地址进行分类,将属于同一类别的地址存储于同一文件夹中。如将属于广东省的地址存储于广东省文件夹中,将属于广东省深圳市的地址存储于广东省文件夹中的深圳市的一级子文件夹中,将属于广东省深圳市南山区的地址存储于深圳市的一级子文件夹中的二级子文件夹中。需要说明的是,并不需要对所述标准化地址进行过于详细的分类,为了防止过于累赘,一般省级文件夹下面只会存在三个子文件夹。
[0083]进一步地,所述步骤SlO还包括:
[0084]步骤d,当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
[0085]步骤e,在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
[0086]进一步地,当获取到待标准化地址时,对所述待标准化地址进行预处理,即删除所述待标准化地址中多余的空格,将所述待标准化地址所包含的数字或者字母的全角字符转换为半角字符,以得到预处理后的待标准化地址。当得到预处理后的待标准化地址时,在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
[0087]本实施例通过对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中,实现了对繁多的地址数据的有效管理。
[0088]本发明进一步提供一种地址标准化装置。
[0089]参照图4,图4为本发明地址标准化装置的第一实施例的功能模块示意图。
[0090]在本实施例中,所述地址标准化装置包括:
[0091]提取模块10,用于当获取到待标准化地址时,从所述待标准化地址中提取关键词;
[0092]当获取到待标准化的地址时,解析所述待标准化地址,从所述待标准化地址中提取关键词。需要说明的是,所述关键词为所述待标准化地址中具有代表性的词,包括省级关键词、地区级关键词、县级关键词、乡级关键词、村级关键词、街巷名关键词、住宅小区关键词、门楼地址关键词和兴趣点关键词。其中,所述省级关键词包括但不限于市(直辖市)、省、市(省会)、自治区和特别行政区;所述地区级关键词包括但不限于地区、盟、自治州和(地级)市;所述县级关键词包括但不限于县、自治州、旗、自治旗和(市辖)区;所述乡级关键词包括但不限于乡、镇和街道办;所述村级关键词包括但不限于村、庄、屯和里;所述街巷名关键词包括但不限于路、大道、道、大街、街、巷、胡同、条和里;所述住宅小区关键词包括但不限于区、园、村、坊、庄、居、寓、苑、小区、弄和公寓;所述门楼地址关键词包括但不限于号、号楼、楼、宿舍、斋、馆和堂;所述兴趣点关键词包括但不限于大厦、广场、饭店、中心、大楼、楼、场、广场、馆、酒店、局和城。
[0093]如当所获取待标准化地址为“河北唐山市路北区丽景逸翠园I号楼202室”,则解析所述待表标准化地址,得到的关键词为“市、区、园、楼和室”。
[0094]划分模块20,用于根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
[0095]当得到所述待标准化地址的关键词时,根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词。当得到所述待标准化地址“河北唐山市路北区丽景逸翠园I号楼202室”的关键词“市、区、园、楼和室”时,根据所述关键词关键词为“市、区、园、楼和室”划分所述待标准化地址,得到所述待标准化地址的地址分词为“河北唐山市”、“路北区,,、“丽景逸翠园”、“I号楼”和“202室” O
[0096]进一步地,所述地址标准化装置还包括:
[0097]解析模块,用于解析所述地址分词,确定所述地址分词是否完全划分;
[0098]补全模块40,用于若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
[0099]进一步地,当得到所述待标准化的地址分词时,解析所述待标准化的地址分词,确定所述待标准化的地址分词是否全部已经完全划分。若所述待标准化的地址分词存在未完全划分的地址分词,则表明所述未完全划分的地址分词中缺少对应的关键词,则根据预设补全规则补全所述未完全划分的地址分词,以再次划分所述未完全划分的地址分词。如当得到的地址分词为“河北唐山市”时,确定所述“河北唐山市”的地址分词属于未完全划分的地址分词,则按照预设补全规则补全所述未完全划分的地址分词“河北唐山市”,得到补全之后的地址分词为“河北省唐山市”,并重新在所述“河北省唐山市”的地址分词中提取关键词“省”和“市”,得到对应的不能再划分的地址分词为“河北省”和“唐山市”。其中,所述预设补全规则为通过一般的地级市的命名规则去判断该地址分词是否需要补充对应的关键词。如“深圳南山区”,则按照预设补全规则补全后得到的是“深圳市南山区”。
[0?00]若所述地址分词中未存在未完全划分的地址分词,即全部地址分词都已完全划分,则执行对比模块30。
[0101]对比模块30,用于将所述地址分词与预设地址库进行对比,得到对比结果;
[0102]补全模块40,用于根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
[0103]当得到所述待标准化地址的地址分词时,根据所述地址分词与预设地址库进行对比,得到对比结果。所述预设地址库中存储有大量的地址数据。如当得到的地址分词为“河北唐山市”、“路北区”、“丽景逸翠园”、“I号楼”和“202室”时,将所述地址分词“河北唐山市”、“路北区”、“丽景逸翠园”、“I号楼”和“202室”与预设地址库中的地址进行对比,得到的对比结果为地址分词“河北唐山市”应为“河北省唐山市”,所述“路北区”和所述“丽景逸翠园”之间少了 “建华东道”,所述“I号楼”和所述“202室”之间少了 “2单元” ο
[0104]根据所述对比结果确定所述待标准化地址缺少的地址分词,将所述待标准化地址所缺少的地址分词补充至所述待标准化地址中,以补全所述待标准化地址,使所述待标准化地址转化成标准化地址。如根据所述对比结果补全所述待标准化地址“河北唐山市路北区丽景逸翠园I号楼202室”,得到标准化地址为“河北省唐山市路北区建华东道丽景逸翠园I号楼2单元202室”。
[0105]本实施例通过当获取到待标准化地址时,根据所述待标准化地址中的关键词划分所述待标准化地址,以得到所述待标准化地址的地址分词,并将所述地址分词与预设地址库进行对比,根据对比结果补全所述待标准化地址,以得到标准化地址。实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址的处理效率。
[0106]参照图5,图5为本发明地址标准化装置的第二实施例的功能模块示意图,基于第一实施例提出本发明地址标准化装置的第二实施例。
[0107]在本实施例中,所述地址标准化装置还包括:
[0108]确定模块50,用于确定所述关键词的优先级;
[0109]当得到所述待标准化地址的关键词时,确定所述关键词的优先级。需要说明的是,所述关键词的优先级根据国家行政区域划分标准确定,即根据国家行政区域的大小确定。如确定所述省级关键词为一级关键词,所述地区级关键词为二级关键词,所述县级关键词为三级关键词,所述乡级关键词为四级关键词,所述村级关键词为五级关键词,所述街巷名关键词、所述住宅小区关键词、所述门楼地址关键词、所述兴趣点关键词为六级关键词。其中,所述一级关键词的优先级高于二级关键词,所述二级关键词的优先级高于三级关键词,以此类推,其余的在此不再赘述。需要说明的是,所述待标准化地址并不会包括所有级别的关键词,如可能不包括三级关键词,也可能不包括五级关键词等。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“I号楼”和“202室”为六级关键词。
[0110]参照图6,图6为本发明实施例中对比模块的一种功能模块示意图。
[0111]所述对比模块30包括:
[0112]确定单元31,用于根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
[0113]当确定所述待标准化地址的关键词的优先级后,根据所述关键词的优先级的高低确定所述地址分词的优先级的高低。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“I号楼”和“202室”为六级关键词后,则确定所述“河北唐山市”的优先级高于所述“路北区”的优先级,所述“路北区”的优先级高于所述“丽景逸翠园”、所述“I号楼”和“202室”的优先级。
[0114]对比单元32,用于按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
[0115]当确定所述地址分词的优先级的高低后,按照所述地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,即先将优先级最高的地址分词与所述预设地址库进行对比,在所述预设地址库中除去不属于所述优先级最高的地址分词的地址,得到第一地址库,然后再将次优先级的地址分词与所述第一地址库进行对比,在所述预设地址库中除去不属于所述次优先级的地址分词的地址,得到第二地址库,以此类推,直到将所述地址分词对比完毕。如先将“河北唐山市”与所述预设地址库进行对比,在预设地址库中筛选出只包含“河北省唐山市”的地址库,作为第一地址库;其次将“路北区”与第一地址库进行对比,在第一地址库筛选出只包含“河北省唐山市路北区”的第二地址库;再者将“丽景逸翠园”、“I号楼”和“202室”与第二地址库进行对比,得到对比结果,即得到所述待标准化地址中所缺少的地址分词。
[0116]本实施例通过根据键词的优先级的高低确定所述地址分词的优先级高低,然后按照地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,使所述待标准化地址转化成标准化地址。提高了所述待标准化地址转化成标准化地址的效率。
[0117]参照图7,图7为本发明地址标准化装置的第三实施例的功能模块示意图,基于第一实施例提出本发明地址标准化装置的第三实施例。
[0118]在本实施例中,所述地址标准化装置还包括:
[0119]分类模块60,用于对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
[0120]当使所述待标准化地址转化成标准化地址后,对所述标准化地址进行分类,将属于同一类别的地址存储于同一文件夹中。如将属于广东省的地址存储于广东省文件夹中,将属于广东省深圳市的地址存储于广东省文件夹中的深圳市的一级子文件夹中,将属于广东省深圳市南山区的地址存储于深圳市的一级子文件夹中的二级子文件夹中。需要说明的是,并不需要对所述标准化地址进行过于详细的分类,为了防止过于累赘,一般省级文件夹下面只会存在三个子文件夹。
[0121]进一步地,所述提取模块10包括:
[0122]预处理单元,用于当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
[0123]提取单元,用于在所述预处理后的待标准化地址中提取所述待标准化地址的关键
Τ.κ| ο
[0124]进一步地,当获取到待标准化地址时,对所述待标准化地址进行预处理,即删除所述待标准化地址中多余的空格,将所述待标准化地址所包含的数字或者字母的全角字符转换为半角字符,以得到预处理后的待标准化地址。当得到预处理后的待标准化地址时,在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
[0125]本实施例通过对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中,实现了对繁多的地址数据的有效管理。
[0126]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如R0M/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0127]以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1.一种地址标准化方法,其特征在于,所述地址标准化方法包括: 当获取到待标准化地址时,从所述待标准化地址中提取关键词; 根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词; 将所述地址分词与预设地址库进行对比,得到对比结果; 根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。2.如权利要求1所述的地址标准化方法,其特征在于,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤之后,还包括: 确定所述关键词的优先级; 所述将所述地址分词与预设地址库进行对比,得到对比结果的步骤包括: 根据所述关键词的优先级的高低确定所述地址分词的优先级高低; 按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。3.如权利要求1所述的地址标准化方法,其特征在于,所述根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词的步骤之后,还包括: 解析所述地址分词,确定所述地址分词是否完全划分; 若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。4.如权利要求1所述的地址标准化方法,其特征在于,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤包括: 当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址; 在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。5.如权利要求1至4任一项所述的地址标准化方法,其特征在于,所述根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址的步骤之后,还包括: 对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。6.一种地址标准化装置,其特征在于,所述地址标准化装置包括: 提取模块,用于当获取到待标准化地址时,从所述待标准化地址中提取关键词; 划分模块,用于根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词; 对比模块,用于将所述地址分词与预设地址库进行对比,得到对比结果; 补全模块,用于根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。7.如权利要求6所述的地址标准化装置,其特征在于,所述地址标准化装置还包括: 确定模块,用于确定所述关键词的优先级; 所述对比模块包括: 确定单元,用于根据所述关键词的优先级的高低确定所述地址分词的优先级高低; 对比单元,用于按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。8.如权利要求6所述的地址标准化装置,其特征在于,所述地址标准化装置还包括: 解析模块,用于解析所述地址分词,确定所述地址分词是否完全划分; 所述补全模块,还用于若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。9.如权利要求6所述的地址标准化装置,其特征在于,所述提取模块包括: 预处理单元,用于当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址; 提取单元,用于在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。10.如权利要求6至9任一项所述的地址标准化装置,其特征在于,所述地址标准化装置还包括: 分类模块,用于对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
【文档编号】G06F17/30GK106055650SQ201610378657
【公开日】2016年10月26日
【申请日】2016年5月31日
【发明人】张锐
【申请人】深圳市永兴元科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1