一种通信地址查询邮政编码的系统及终端的制作方法

文档序号:6509023阅读:293来源:国知局
一种通信地址查询邮政编码的系统及终端的制作方法
【专利摘要】本发明提供一种通信地址查询邮政编码的系统,该系统包括通信地址输入子系统和邮政编码查询子系统;所述地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址;所述邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。本发明通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。另外,本发明还提供一种通信地址查询邮政编码的终端。
【专利说明】一种通信地址查询邮政编码的系统及终端
【技术领域】
[0001]本发明涉及邮政编码查询领域,尤其涉及一种通信地址查询邮政编码的系统及终端。
【背景技术】
[0002]随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。电子商务和物流行业都离不开通信地址(又称为通讯地址,简称为地址)和邮编,这些数据都需要用户提供,当前一些电子商务网站和物流行业的主要的做法如下:让用户手工输入完整的地址和地址对应的邮编;通过下拉列表提供省,省下面地级市和地级市下面的区县,这些比较固定的地址让用户选择,余下的地址和邮编由用户手工输入;保留用户输入的地址和邮编,方便下次再次使用,即如果本次输入的地址和邮编之前已经有了一份,直接选中,就避免了让用户重复输入。
[0003]上述做法主要存在的问题如下:很多情况下用户未必知道自己输入的地址对应的邮编;由于基于拼音的输入法和汉语本身存在的缺陷(汉字存在多音字,多个汉字拥有相同的读音,多数基于拼音的输入法都是基于统计的语言模型),再加上地址中存在的一些生僻字的原因会导致输入的地址存在错别字;由于地名存在别名现象,即同一个地名有多种叫法,例如“广东省”的别名有“广东”和“粤”,因此他们识别不了对同一个地名的不同描述;有些情况下用户无法输入完整的地址,当输入的时候一脸茫然和无助;由于地址存在变更和搜集不完全的问题,这些网站的数据往往得不到更新。
[0004]当前一些其他的网站能够解决第一个问题,即帮助用户得到地址对应的邮编。但是他们往往采用数据库技术来实现的系统,对于低于区县级别的地址,往往采用字串模糊查询(like %XXX%)的方式参与检索,由于性能的原因此种方式对于大数据量的查询效率很差。另外基于数据库实现的查询使得用户的输入格式和内容受到了很大的限制,比如:
用户首先选择省级行政区(包括省、特别行政区、自治区和直辖市)的名字,其次是选择地级行政区(包括地级市、自治州、地区和盟)级别的名字,然后再县级行政区(包括市辖区、县、旗、特区、林区、自治县和自治旗等)级别的名字,最后用户输入乡镇级别及村庄道路等。查询的输入过程非常机械。
[0005]另外基于数据库的查询模式,要求地址格式全部满足四级,即省级,地级市级,区县级,然后是其他具体地址。但是并不是所有的地址都满足此种情况,例如直辖市下和省与直辖县或省直辖县级市之间就没有地级市级,一些特殊的地级市没有区县级,如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市;他们的解决办法,起个其他的名字代替,例如“直辖区县”,“市辖区”,“省直辖县”等,但是查询的结果中一般也包含这些非真正地址的数据。
[0006]所以需要一种实现帮助用户输入提示,给出完整的参考地址,并将待查询地址进行标准化的精确查询邮政编码的系统。
【发明内容】

[0007]为此,本发明为了解决上述缺陷之一。
[0008]因而,本发明提供一种通信地址查询邮政编码的系统及终端,通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。
[0009]所以,本发明一个实施例提供一种通信地址查询邮政编码的系统,该系统包括通信地址输入子系统和邮政编码查询子系统;所述地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址;所述邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。
[0010]优选地,所述确定待查询的通信地址还可以包括:用户可以不选择提示列表中的地址,仅根据用户输入文本确定待查询的通信地址。
[0011]所述实时提示包括:随着用户输入本文的每一次增加来自动改变提示内容;
所述提示内容的实现步骤具体为:获取当前用户输入的地址文本并进行预处理,删除
多余的空格;进行地址切分获得地址元数据,并标注所有的地址等级;通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;检索索引地址文件,获得提示列表地址内容。
[0012]优选地,所述预处理还包括:将数字或字母的全角字符转换为半角字符;所述预处理过程中字典采用基于双数组的Trie树数据结构进行存储。
[0013]所述提示列表地址包括:获得的提示列表地址根据最接近的标准地址按降序排列。
[0014]所述将待查询的通信地址进行标准化包括以下具体步骤:获取用户确定的待查询通信地址并进行预处理;进行地址切分获得地址元数据,并标注所有的地址等级;通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;解析Query查询语句并检索索引文件与之比对,获得最接近的通信地址;进行地址补全生成标准化通信地址,并返回该标准化通信地址对应的邮政编码。
[0015]优选地,所述对应的邮政编码根据标注地址的最低地址等级值来确定。
[0016]所述返回该标准化通信地址对应的邮政编码还可以包括:选择确定的邮政编码查询结果,用户可以获取地图定位;或通过二维码将邮政编码查询结果发送到移动终端设备上。
[0017]优选地,所述地址切分采用二元模型的分词方法;所述命名实体识别技术识别出地名实体标注结果中每一个地名元数据最可能的地址等级。
[0018]本发明另一个实施例提供一种通信地址查询邮政编码的终端,所述终端包括:用户输入提示单元和邮政编码查询单元,其中,所述用户输入提示单元,用以实时提示用户输入并接收用户最终确定的待查询通信地址;所述邮政编码查询单元,用以检索出与待查询通信地址最接近的标准化通信地址,并接收与该标准化通信地址对应的邮政编码。本发明通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。
【专利附图】

【附图说明】
[0019]图1是本发明实施例实现的一种通信地址查询邮政编码的系统的流程示意图。
[0020]图2是本发明实施例实现的地址输入子系统的详细流程示意图。
[0021]图3是本发明实施例实现的地址输入子系统的详细流程示意图。
[0022]图4是本发明实施例实现的邮政编码查询子系统中地址补全的实例示意图。
【具体实施方式】
[0023]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0024]本发明提供的一种通信地址查询邮政编码的系统及终端,通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级另IJ,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。
[0025]如图1是本发明实施例实现的一种通信地址查询邮政编码的系统的流程示意图,该系统包括通信地址输入子系统和邮政编码查询子系统,具体包括以下步骤:步骤SllO:地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址。
[0026]步骤SllO的详细流程如图2所示,具体为:步骤Slll:获取用户输入的地址文本,并对获取的地址文本进行预处理操作,预处理主要包括将数字或字母的全角转换成半角字符以及删除多余空格等。
[0027]本输入提示随着用户输入本文的每一次增加来自动改变提示内容,同时亦可以省去实时提示,用户可以在地址输入提示系统中直接输入其要查询的通信地址文本,如果选择实时提示,那么获得的提示列表地址是根据最接近的标准地址按降序排列的。
[0028]步骤S112:将地址文本进行地址切分。
[0029]由于全文索引采用的分词方式是二元模型,也就是说索引里最长的汉语词长为2,中文地名的长度一般多数超过2,把识别出来的每一个确定的地址元数据,生成PhraseQuery查询语法来过滤掉相邻两个地址元数据中前一个地址元数据最后一个字和后一个地址元数据第一个字组成的词。例如用户输入的文本:广东省深圳市,经过地名识别后,构造的PhraseQuery查询语法为:“广东省” “深圳市”,即将每一个地名元数据用半角的双引号括起来。这样就可以过滤掉“省深”两字构成的词所带来的查询结果,大大提高精确率。
[0030]基于字典的分词通常有正向(从左向右)匹配和逆向(从右向左)匹配。通常情况下逆向匹配比正向匹配切分错误率低一半,对于解决交叉歧义有优势,交叉歧义定义为:ABC三个连续汉字,AB和BC均可以成为词;一般情况下汉语中BC组成词的概率更大些。地址切分是基于地址元数据字典采用逆向最大匹配算法从右到左扫描用户输入的地址文本,来实现地址的切分,为了提高搜索的速度,字典采用基于双数组(Double Array)的Trie树数据结构来存储。
[0031]步骤S113:进行地址标注。
[0032]在本步骤中需要使用地址元数据,这些数据可以从维基百科和国家统计局有关中国行政区划的地址元数据,以及通过地址切分和识别技术从完整的通信地址中获得。地址元数据包含的数据主要有:省级行政区名(包括省、自治区、直辖市和特别行政区)、地级行政区名(地级市、自治州、地区、盟)、县级行政区名(包含市辖区、县级市、县、自治县、旗、自治旗、特区和林区)、乡级行政区名(包括乡、镇、街道、苏木、区公所),其他地址数据(包括道路名、村庄名、小区名、建筑物名和广场名)等。
[0033]地址元数据字典应包含地名的各种别名,其格式定义为:地址元数据字典由多行构成,每一行成为一个词条(Term),每一个Term应该包含地名和地名对应的地址等级(level),其中地名为key,地址等级为key的属性或value。地址元数据字典每一个Term包含2项,即地名和地名对应的地址等级(level),他们之间用半角的分号“;”隔开,有的地名包含多个地址等级(比如一些标准版地址的别名也是其他标准版地址的别名),不同的地级等级之间用半角的逗号“,”隔开。人们在书写地址的时候通常的格式有如下几种:
省级行政区一地级行政区一县级行政区一乡级行政区一其他(此格式经常用在互联网中的地址),例如:安徽省阜阳市太和县关集镇陈桥村委会胡小寨村;
省级行政区一县级行政区一乡级行政区一其他(当县级行政区为县级市、县、自治县、旗、自治旗、特区和林区,可以省略地级行政区,此格式经常用在身份证 上),例如:安徽省太和县关集镇陈桥村委会胡小寨村;
省级行政区一地级行政区一乡级行政区一其他(此格式主要是用在地级行政区下没有县级行政区的情况,如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市),例如:广东省东莞市樟木头镇九明村;
省级行政区一地级行政区一县级行政区一其他,例如:广东省深圳市南山区高新南环路29号留学生创业大厦;
省级行政区一县级行政区一其他(此格式主要用在直辖市下的地址,或者没有地级市的地址,如海南省除了三亚市、三沙市和海口市之外全是省直辖县级市或者省直辖县),例如:上海市浦东新区南京西路1500号。据以上5点,为了处理上的方便,一般将地址划分为5个等级,如下表I所示:
【权利要求】
1.一种通信地址查询邮政编码的系统,其特征在于,该系统包括通信地址输入子系统和邮政编码查询子系统; 所述地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址; 所述邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。
2.根据权利要求1所述的系统,其特征在于,所述确定待查询的通信地址还可以包括:用户可以不选择提示列表中的地址,仅根据用户输入文本确定待查询的通信地址。
3.根据权利要求1所述的系统,其特征在于,所述实时提示包括: 随着用户输入本文的每一次增加来自动改变提示内容; 所述提示内容的实现步骤具体为: 获取当前用户输入的地址文本并进行预处理,删除多余的空格; 进行地址切分获得地址元数据,并标注所有的地址等级; 通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句; 检索索引地址文件,获得提示列表地址内容。
4.根据权利要求3所述的系统,其特征在于,所述预处理还包括: 将数字或字母的全角字符转换为半角字符;所述预处理过程中字典采用基于双数组的Trie树数据结构进行存储。
5.根据权利要求1所述的系统,其特征在于,所述提示列表地址包括:获得的提示列表地址根据最接近的标准地址按降序排列。
6.根据权利要求1所述的系统,其特征在于,所述将待查询的通信地址进行标准化包括以下具体步骤: 获取用户确定的待查询通信地址并进行预处理; 进行地址切分获得地址元数据,并标注所有的地址等级; 通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句; 解析Query查询语句并检索索引文件与之比对,获得最接近的通信地址; 进行地址补全生成标准化通信地址,并返回该标准化通信地址对应的邮政编码。
7.根据权利要求1所述的系统,其特征在于,所述对应的邮政编码根据标注地址的最低地址等级值来确定。
8.根据权利要求6所述的系统,其特征在于,所述返回该标准化通信地址对应的邮政编码还可以包括:选择确定的邮政编码查询结果,用户可以获取地图定位;或通过二维码将邮政编码查询结果发送到移动终端设备上。
9.根据权利要求3或6所述的系统,其特征在于,所述地址切分采用二元模型的分词方法;所述命名实体识别技术识别出地名实体标注结果中每一个地名元数据最可能的地址等级。
10.一种通信地址查询邮政编码的终端,其特征在于,所述终端包括用户输入提示单元和邮政编码查询单元;所述用户输入提示单元,用以实时提示用户输入并接收用户最终确定的待查询通信地址;所述邮政编码查询单元,用以检索出与待查询通信地址最接近的标准化通信地址,并接收与该标准化通信地址对应的邮政编码。
【文档编号】G06F17/30GK103440312SQ201310377867
【公开日】2013年12月11日 申请日期:2013年8月27日 优先权日:2013年8月27日
【发明者】王国印, 贾西贝 申请人:深圳市华傲数据技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1