一种通讯地址识别、标准化的系统的制作方法

文档序号:6432124阅读:138来源:国知局
专利名称:一种通讯地址识别、标准化的系统的制作方法
技术领域
本发明涉及到一种通讯地址的处理技术,尤其涉及到一种通讯地址识别、标准化的系统。
背景技术
通讯地址技术的应用领域非常广泛,与人们的日常生活也息息相关,如邮政领域的信件往来需要对通讯地址进行识别和处理、地理编码系统中首先需对通讯地址进行标准化、银行业务系统中需对地址数据进行存储、识别、更新等处理。通讯地址技术还可用于网络、电子商务、电子地图等等。通讯地址的不规范或者不标准,将会给人们带来诸多的不便。例如由于用户地址的不规范,邮政系统需要投入大量的人力和物力去解决如何识别正确的、标准的通讯地址,否则将会造成错误投递、重复投递的情况,而随着邮政业务数据的增长,这种投入将相应地进行扩大,这种情况对邮政系统来说将难以承受。银行业务系统中也存在着用户地址的不规范问题,倘若银行业务系统没有对用户地址进行标准化的处理(事实上很多银行业务系统确实没有对用户地址进行标准化处理,用户地址的录入和更新都是人为的进行操作),随着业务系统的数据量增大,不同数据库的不兼容性,银行业务系统将面临着处理速度较慢、效率低下,业务系统数据混乱的现象,很容易造成客户的损失和流失。以上一些问题和现象都可通过通讯地址技术来进行处理和解决。建国以来,随着我国行政区域的确定,中文通讯地址已形成一定的规律和特点;从另外一个角度来讲,由于我国历史文化悠久、地大物博,中文通讯地址存在着大量的地址同名的现象。中文通讯地址的特点和规律可概括如下1)、通讯地址信息具有层次性、等级性或者说行政区域性,如省、市、区、路,“广东省深圳市南山区深南大道”;省、县、乡镇、村,“四川省乐至县双河场乡冷家坝村”等等。2)、不同级别的地址数据(地名)会存在着同名的现象,容易引起歧义和误解。如给出的通讯地址为“安徽芜湖”,人们难以区分是“安徽省芜湖市”,还是“安徽省芜湖县”。
3、同一个地址元数据(地名)会有多种表达方式,存在地址别名的现象,如“广西壮族自治区”,可以是写成“桂”,“广西”,或“广西自治区”。针对上述的现象和问题,现有技术也提供了一些解决思路和方法。如专利申请号为200910156650. 4,专利名称为“一种基于模糊匹配的中文地理编码确定方法”的专利文献提供了这样的一种解决思路读入描述性中文地址信息(中文地址信息参考中国行政区域划分标准,设定标准录入模式),以行政区域为断点,采用正向最大搜索方法,对读入的地址进行切分,得到原始地址元素数组;然后将原始地址元素数组通过地址词典进行标准化,可得到标准的地址。现有的这种技术方案更多的依赖于输入地址的准确度,对于不同级别的地址数据存在同名的现象较难以处理,处理过程和方法较为简陋,精确度相对来说不是很闻。本发明正是基于以上存在的一些现象和问题,以及现有技术的不足之处,提供了一种新的通讯地址识别、标准化的解决思路和方法。
发明内容
为了解决现有技术的不足之处,以及通讯地址存在的一些现象如不同级别的地址数据存在同名的现象造成地址难以处理,提高通讯地址处理的精确度,和大数据量环境下业务处理系统的吞吐率、召回率。本发明提供一种通讯地址识别、标准化的系统。为了实现本发明目的,本发明提供一种通讯地址识别和标准化的系统,所述的一种通讯地址识别和标准化的系统包括·通讯地址输入模块、地址元数据字典模块、地址识别和标准化模块、通讯地址输出模块;所述的通讯地址输入模块用于接收用户输入的通讯地址,并把所述用户输入的通讯地址传送给所述的地址识别和标准化模块;所述地址识别和标准化模块与所述的通讯地址输入模块、所述的地址元数据字典模块和所述的通讯地址输出模块相连接,用于接收所述通讯地址输入模块传送的所述用户输入的通讯地址,对所述用户输入的通讯地址进行识别和标准化,并产生标准化的通讯地址;所述的地址元数据字典模块用于存储地址元数据,接收并响应所述地址识别和标准化模块的控制命令;所述的通讯地址输出模块用于接收所述地址识别和标准化模块的控制命令,并输出标准化的通讯地址。本发明提高了通讯地址处理的精确度,在大数据量的处理环境下,本发明同样能够适用,通讯地址处理的吞吐率、召回率较高。本发明的处理过程,占用内存空间较少,地址元数据字典易于更新和维护。应当理解,以上总体说明和以下详细说明都是说明性和实例性的,旨在提供对所要求的本发明的进一步说明。


所包含的附图用于提供对本发明的进一步理解,其被并入说明书并构成其一部分,

了本发明的实施例,并与说明书一起用于理解本发明的原理。图I是本发明一种通讯地址识别和标准化的系统结构图。图2是本发明较佳实施例的地址元数据字典模块结构图。图3是本发明较佳实施例的Trie树原理结构示意图。图4是本发明较佳实施例的地址识别和标准化模块结构图。图5是本发明另一较佳实施例的地址识别和标准化模块结构图。图6是本发明另一较佳实施例的地址元数据字典模块结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。如图I所示,为本发明一种通讯地址识别和标准化的系统结构图。所述的一种通讯地址识别和标准化的系统包括通讯地址输入模块100、地址识别和标准化模块300、地址元数据字典模块200和通讯地址输出模块400。所述的通讯地址输入模块100用于接收用户输入的通讯地址,并把所述用户输入的通讯地址传送给所述的地址识别和标准化模块300 ;所述地址识别和标准化模块300与所述的通讯地址输入模块100、所述的地址元数据字典模块200和所述的通讯地址输出模块400相连接,用于接收所述通讯地址输入模块100传送的所述用户输入的通讯地址,对所述用户输入的通讯地址进行识别和标准化,并产生标准化的通讯地址。所述的地址元数据字典模块200用于存储地址元数据数据,接收并响应所述地址识别和标准化模块300的控制命令;所述的通讯地址输出模块400用于接收所述地址识别和标准化模块300的控制命令,并输出标准化的通讯地址。所述的地址元数据字典模块200,如图2本发明较佳实施例的地址元数据字典模块结构图所示。所述的地址元数据字典模块200包括分级地址元数据字典210和地址别名元数据字典220。所述的分级地址元数据字典210用于存储分级地址元数据,分级地址元数据字典可为四级分级地址元数据字典或六级分级地址元数据字典。所述的四级分级地址元数据字典按行政区域来划分。在本发明实例中提供一种四级分级地址模型用以构成四级分级地址元数据字典,如“表I、四级分级地址模型(a) ”所示。省,自治区,直辖市将作为四级分级地址模型的第一级;副省级城市,地级市,直辖市辖·区,县,自治县,县级市,旗,自治州,地区将划分四级分级地址模型的第二级;副省级城市辖区,地级市辖区将为四级分级地址模型的第三级;乡镇,道路,自然村,相关编号,建筑物的名字将成为四级分级地址模型的第四级。此种分级模型较常应用于身份证和一般书写上的通讯地址。表I、四级分级地址模型(a)
权利要求
1.一种通讯地址识别和标准化的系统,其特征在于所述的一种通讯地址识别和标准化的系统包括通讯地址输入模块、地址元数据字典模块、地址识别和标准化模块、通讯地址输出模块; 所述的通讯地址输入模块用于接收用户输入的通讯地址,并把所述用户输入的通讯地址传送给所述的地址识别和标准化模块; 所述地址识别和标准化模块与所述的通讯地址输入模块、所述的地址元数据字典模块和所述的通讯地址输出模块相连接,用于接收所述通讯地址输入模块传送的所述用户输入的通讯地址,对所述用户输入的通讯地址进行识别和标准化,并产生标准化的通讯地址; 所述的地址元数据字典模块用于存储地址元数据,接收并响应所述地址识别和标准化模块的控制命令; 所述的通讯地址输出模块用于接收所述地址识别和标准化模块的控制命令,并输出标准化的通讯地址。
2.如权利要求I所述的一种通讯地址识别和标准化的系统,其特征在于所述的地址识别和标准化模块包括地址切分模块、地址标注模块、权值模块和地址标准化模块; 所述的地址切分模块用于接收所述通讯地址输入模块传送的所述用户输入的通讯地址,利用地址元数据字典模块,对所述用户输入的通讯地址进行切分,并生成切分的地址元数据组; 所述地址标注模块用于利用所述地址元数据字典模块对所述切分的地址元数据组进行标注,并生成标注的地址元数据组; 所述权值模块用于对所述标注的地址元数据组,计算其相应的权值并输出权值最大的地址元数据组; 所述地址标准化模块用于利用所述地址元数据字典模块对所述权值最大的地址元数据组进行标准化,生成标准化的通讯地址,并发生控制命令给所述的通讯地址输出模块。
3.如权利要求2所述的一种通讯地址识别和标准化的系统,其特征在于所述的切分可采用向右最大匹配算法对所述用户输入的通讯地址进行匹配和切分。
4.如权利要求I或2所述的一种通讯地址识别和标准化的系统,其特征在于所述的地址元数据字典模块包括分级地址元数据字典和地址别名元数据字典。
5.如权利要求4所述的一种通讯地址识别和标准化的系统,其特征在于所述的分级地址元数据字典用于存储分级地址元数据,可为四级分级地址元数据字典或六级分级地址元数据字典。
6.如权利要求5所述的一种通讯地址识别和标准化的系统,其特征在于所述的分级地址元数据字典可采用Trie树存储结构。
7.如权利要求6所述的一种通讯地址识别和标准化的系统,其特征在于所述的Trie树存储结构可采用双数组的方法实现。
8.如权利要求4所述的一种通讯地址识别和标准化的系统,其特征在于所述的地址别名元数据字典用于存储地址的别名元数据,所述的地址别名元数据字典与所述的分级地址元数据字典中的元数据具有映射关系。
9.如权利要求2所述的一种通讯地址识别和标准化的系统,其特征在于所述权值模块可采用动态规划算法计算并输出权值最大的地址元数据组。
10.如权利要求9所述的一种通讯地址识别和标准化的系统,其特征在于所述动态规划算法可采用维特比(Viterbi)算法来实现。
11.如权利要求2所述的一种通讯地址识别和标准化的系统,其特征在于所述的地址识别和标准化模块还包括一修正模块;所述修正模块利用所述地址元数据字典模块,对权值最大的地址元数据组判定是否一致;倘若不一致,对所述权值最大的地址元数据组的标注进行修订;生成修订后的地址元数据组并输出给所述地址标准化模块。
12.如权利要求11所述的一种通讯地址识别和标准化的系统,其特征在于所述地址元数据字典模块还包括一地址元数据修正字典,用于存储所述的约束条件数据。
全文摘要
本发明提供一种通讯地址识别、标准化的系统,用于解决通讯地址识别和标准化的问题。所述通讯地址识别、标准化的系统包括通讯地址输入模块、地址元数据字典模块、地址识别和标准化模块、通讯地址输出模块;所述地址识别和标准化模块与所述的通讯地址输入模块、所述的地址元数据字典模块和所述的通讯地址输出模块相连接,用于接收所述通讯地址输入模块传送的所述用户输入的通讯地址,对所述用户输入的通讯地址进行识别和标准化,并产生标准化的通讯地址;所述的地址元数据字典模块用于存储地址元数据,接收并响应所述地址识别和标准化模块的控制命令。本发明提高了通讯地址处理的精确度,通讯地址处理的吞吐率、召回率较高。
文档编号G06F17/30GK102955832SQ20111025561
公开日2013年3月6日 申请日期2011年8月31日 优先权日2011年8月31日
发明者王国印, 贾西贝 申请人:深圳市华傲数据技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1