物流系统中地址信息的处理方法及装置与流程

文档序号:11590395阅读:304来源:国知局

本申请涉及物流技术领域,特别是涉及物流系统中地址信息的处理方法及装置。



背景技术:

随着物流行业的飞速发展,物流包裹的数量也飞速增长,物流包裹能送达的地址范围也越来越大。包裹数量和地址信息的增长要求对目的地址信息进行及时准确的处理和分送,否则将导致大量的包裹滞留。可见,在各种处理环节中,对通讯地址的解析至关重要。

通常来说,地址存在行政区划层级。例如,对于省—市—区(县)—乡镇这一层级链中,不同的级别包括:第一级地址即行政区划层级链中的第一级“省”;第二级地址即行政区划层级链中的第二级“市”;第三级地址即行政区划层级链中的第三级“区(县)”;第四级地址即行政区划层级链中的第四级“乡镇”。又如,对于地址“浙江省杭州市余杭区五常街道”,其中“浙江省”是“省级”,“杭州市”是“市级”,“余杭区”是“区/县级”,“五常街道”是“乡镇级”。

由于包裹的地址通常由用户输入,示例的前四级地址中,有时用户输入地址的可能会缺失某一级。还有些输入的地址可能包含错误的地址信息,或者因为不规范的输入产生解析歧义的地址信息。例如“五常”是一个街道的名称,即五常街道,而它同时也是黑龙江省的一个省辖县级市——五常市,五常市下还有一个“五常镇”。一旦用户使用简写“五常”,就很难区分到底是“五常市”,还是“五常镇”,甚至是另外一个省份的“五常街道”。例如,用户仅仅输入“余杭五常”,实际的地址应该为“浙江省杭州市余杭区五常街道”,而不是“浙江省杭州市余杭区五常镇”,更不是“黑龙江省哈尔滨市五常市五常镇”。若地址质量很难保证,后续物流系统就可能无法正常工作,甚至丢失包裹。

为提高用户输入地址的正确性,目前主要的方法是在用户输入时对用户输入的通信地址进行格式化。在需要用户输入地址的过程中进行地址化,通常使用js(javascript)控件,由用户来选择已经化的地址信息四级地址,而不是直接由用户输入。然而这种方法,不仅大大增加了交互的复杂度,还将化的过程放在用户端或者客服前端,由用户承受复杂的交互过程或等待过程,而且在输入的过程中必须借助电子设备进行选择。

另一种化用户输入地址的方法需要使用gps功能,例如,依赖移动设备的全球定位系统(gps,globalpositioningsystem)功能获得的地理位置信息。然而,如果用户没有gps设备,或者没有开启gps功能,则无法准确解析用户地址。

因此,需要一种新的技术方案进行用户输入地址的化,即减少用户的操作复杂程度,同时减少对设备的依赖程度,以帮助物流行业能够更准确的分析出用户的地址,给用户提供更精准、快捷的服务。



技术实现要素:

本申请提供了一种物流系统中地址信息的处理方法及装置,就物流流域中关于地址化的问题,能够提供更准确、方便的对用户输入地址的解析,为基于地址信息的服务提供准确性的保障。

本申请提供了如下方案:

一种物流系统中地址信息的处理方法,包括:

查询并获得地址数据信息,所述地址数据信息包括地名和所述地名的地址区划层级关系链,所述地址区划层级关系链包括从高到低的行政区划隶属关系;

针对每一个地名,建立与该地名对应的索引标识,所述索引标识包括该地名和该地名在所述地址区划层级关系链的级别;

设置所述索引标识对应的索引值为该地名的地址区划层级关系链上从最高级别到该地名为止的地名;

存储所述索引标识以及所述索引标识对应的索引值,以根据待查询地址信 息,查询包含所述待查询地址信息的索引标识,从而获得该索引标识相对应的索引值所包含的地名作为所述待查询地址的完整地址信息。

本申请还提供了一种物流系统中地址信息的处理装置,包括:

数据查询单元,用于查询并获得地址数据信息,所述地址数据信息包括地名和所述地名的地址区划层级关系链,所述地址区划层级关系链包括从高到低的行政区划隶属关系;

索引设置单元,用于针对每一个地名,建立与该地名对应的索引标识,所述索引标识包括该地名和该地名在所述地址区划层级关系链的级别;设置所述索引标识对应的索引值为该地名的地址区划层级关系链上从最高级别到该地名为止的地名;

存储单元,用于存储所述索引标识以及所述索引标识对应的索引值,以根据待查询地址信息,查询包含所述待查询地址信息的索引标识,从而获得该索引标识相对应的索引值所包含的地名作为所述待查询地址的完整地址信息。

根据本申请提供的具体实施例,本申请公开了以下技术效果:

通过本申请,能够简化用户操作,缩短用户获取服务的路径。即用户只需要输入部分文本地址,利用建立的含有地址信息的索引标识以及索引标识对应的索引值,即能够获得输入地址信息对应的地址化的准确、完整的地址信息。利用索引标识和对应的索引值,能够根据上下文地址文本信息,解决存在的地址信息歧义。

在一些实施例中,能够对用户输入的地址信息进行归一化。例如,将用户输入的不规范的地名转换成唯一的地址表示,从而有利于对用户地址的精确定位。比如,用户输入“浙江杭州余杭”,输出的完整地址信息为归一化之后的结果“浙江省杭州市余杭区”。

在一些实施例中,还能够对用户输入的地址信息进行补全。比如用户只录入“杭州五常”或者“杭州市五常街道”,可以获得补全的完整地址信息“浙江省杭州市余杭区五常街道”。

在一些实施例中,本申请提供的方案,能够对用户输入的错误的地址进行 纠正,增强系统的鲁棒性。例如,用户输入的“杭州于杭区五常”,可以纠正为“浙江省杭州市余杭区五常街道”,又如用户输入“浙江省杭州海淀区五常”,可以自动纠正为“浙江省杭州市余杭区五常街道”。

同时,本申请提供的技术方案,无需依赖其他服务,如gps服务,便可以独立提供服务。

通过更准确的解析用户输入的地址信息,从而解决物流流域中关于地址化的问题,为基于地址的工作提供基础的服务和保障。

当然,实施本申请的任一产品并不一定需要同时达到以上所述的优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法的流程图;

图2是本申请实施例提供的另一方法的流程图;

图3是本申请实施例提供的地址化的状态转换图;

图4是本申请实施例提供的另一方法的流程图;

图5是本申请实施例提供的第一装置的示意图;

图6是本申请实施例提供的第二装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的其他实施例,都属于本申请保护的范围。

在以下的实施例中,地址区划层级以四级为例,即省、市、区/县、街道进行说明,而非限定。本申请的方案可以应用于更多或更少的地址区划层级。例如,省、市、区/县、乡/镇/街道、村委会/社区等更多级地址。

参见图1所示,图1是本申请实施例提供的方法的流程图。图1所示的物流系统中地址信息的处理方法包括以下操作。

s101,查询并获得地址数据信息,地址数据信息包括地名和地名的地址区划层级关系链,地址区划层级关系链包括从高到低的行政区划隶属关系。

可以从不同的信息来源查询并获得地址数据信息。以中国为例,可以从统计局网站活着其它公开信息得到多级行政区划地址数据,以文件的形式持久化到磁盘保存,文件格式如下所示:

“北京,110000

北京,110000,北京市,110100

北京,110000,北京市,110100,东城区,110101

北京,110000,北京市,110100,东城区,110101,东华门街道,110101001

北京,110000,北京市,110100,东城区,110101,景山街道,110101002

北京,110000,北京市,110100,东城区,110101,交道口街道,110101003

北京,110000,北京市,110100,东城区,110101,安定门街道,110101004

北京,110000,北京市,110100,东城区,110101,北新桥街道,110101005

北京,110000,北京市,110100,东城区,110101,东四街道,110101006

北京,110000,北京市,110100,东城区,110101,朝阳门街道,110101007

北京,110000,北京市,110100,东城区,110101,建国门街道,110101008

北京,110000,北京市,110100,东城区,110101,东直门街道,110101009

北京,110000,北京市,110100,东城区,110101,和平里街道,110101010

北京,110000,北京市,110100,东城区,110101,前门街道,110101011

北京,110000,北京市,110100,东城区,110101,崇文门外街道,110101012

北京,110000,北京市,110100,东城区,110101,东花市街道,110101013

北京,110000,北京市,110100,东城区,110101,龙潭街道,110101014

北京,110000,北京市,110100,东城区,110101,体育馆路街道,110101015

北京,110000,北京市,110100,东城区,110101,天坛街道,110101016

北京,110000,北京市,110100,东城区,110101,永定门外街道,110101017“

其中,文字和数字分别对应:省、省行政编码、地级市、地级市行政编码、区/县、区/县行政编码、乡镇、乡镇行政编码。

可以对收集到的数据进行预处理,例如,对以上数据进行行政区划编码过滤掉,只保留中文地址作为地名,并且对词条进行去除后缀转简称处理,比如省的后缀有比如省的后缀有:省、市(直辖市)、自治区,地级行政区的后缀有:市、自治州、州、地区,区/县级的后缀有:县、自治县、区、市,乡镇级的后缀有:乡、镇、街道、街道办事处、办事处、街道办、办等,得到一个全称转简称的词典文件。例如,“浙江省”简称“浙江”、“杭州市”简称“杭州”、“内蒙古自治区”简称“内蒙古”。

从而获得含有地名的词典文件。

通过上述信息,可以地址数据信息包括地名和地名的地址区划层级关系链,地址区划层级关系链包括从高到低的行政区划隶属关系。

s102,针对每一个地名,建立与该地名对应的索引标识,索引标识包括该地名和该地名在地址区划层级关系链的级别。

例如,针对上述每一行数据中的每一个地名建立“乡镇”、“区/县”、“地级市”的索引。具体地,“北京,110000,北京市,110100,东城区,110101,东华门街道,110101001”,首先去除行政编码,变为“北京,北京市,东城区,东华门街道”,然后根据地名在地址区划层级关系链的级别建立三个索引标识(key):town_东华门;district_东城;city_北京。其中,索引标识包括地名(如东华门)和该地名在其地址区划层级关系链的级别(town,代表镇)。

索引标识中的地名可以采用如上描述的地址词典中的简称,即去除后缀的地名。由于用户输入可能存在规范的情况,甚至常常不会输入地名的全称。比如用户会输入“杭州”,而不是“杭州市”,输入“余杭”,而不是“余杭区”,输入“五常”,而不是“五常街道”或“五常镇”,通过之间在索引标识中使用简称更能和用户输入进行匹配,从而可以增加搜索的召回率。

上述前缀示例中的前缀,即该地名在其地址区划层级关系链的级别是为了 区分行政级别。例如,“town_五常”是杭州市余杭区的“五常街道”,前缀是“town”,然而黑龙江省哈尔滨市下的一个县级市也叫“五常市”,其前缀为“district”,通过在索引标识中设置地名在其地址区划层级关系链的级别可以更准确的标识地名从而查询获得对应的索引值。若用户输入的是黑龙江五常市,那么根据索引标识“district_五常”将找到“黑龙江省哈尔滨市五常市”而不是“浙江省杭州市余杭区五常街道”。

s103,设置索引标识对应的索引值为该地名的地址区划层级关系链上从最高级别到该地名为止的地名。

对应的索引值分别为:

索引标识“town_东华门”对应的索引值为“北京,北京市,东城区,东华门街道”。

索引标识“district_东城”对应的索引值为“北京,北京市,东城区”。

索引标识“city_北京”对应的索引值为“北京,北京市”。

更多的示例如“索引标识索引值”:

town_三里堡河南省/开封市/禹王台区/三里堡街道

town_老西门上海/上海市/黄浦区/老西门街道

district_红安湖北省/黄冈市/红安县/

town_延川陕西省/延安市/延川县/延川镇

town_曾口四川省/巴中市/巴州区/曾口镇

town_晨明黑龙江省/伊春市/南岔区/晨明镇

town_春港湖北省/黄冈市/黄梅县/春港街道

district_旺苍四川省/广元市/旺苍县/

city_上饶江西省/上饶市//

town_木什新疆维吾尔自治区/喀什地区/疏附县/木什乡

town_广水湖北省/随州市/广水市/广水街道

town_道虎沟河北省/承德市/平泉县/道虎沟乡

town_毛尖山安徽省/安庆市/岳西县/毛尖山乡

town_四平经济开发区吉林省/四平市/铁东区/四平经济开发区

town_淅河湖北省/随州市/曾都区/淅河镇

town_乐英四川省/雅安市/天全县/乐英乡

town_石油新村新疆维吾尔自治区/乌鲁木齐市/新市区/石油新村街道

town_任港江苏省/南通市/崇川区/任港街道

town_托喀依新疆维吾尔自治区//阿拉尔市/托喀依乡

town_白元河南省/洛阳市/伊川县/白元乡

town_东杜尔基国营农场内蒙古自治区/兴安盟/突泉县/东杜尔基国营农场

town_白关甘肃省/陇南市/礼县/白关乡,湖南省/株洲市/芦淞区/白关镇

s104,存储索引标识以及索引标识对应的索引值,以根据待查询地址信息,查询包含待查询地址信息的索引标识,从而获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息。

通过上述实施例,用户只需要输入部分文本地址,利用建立的含有地址信息的索引标识以及索引标识对应的索引值,即能够获得输入地址信息对应的地址化的准确、完整的地址信息。利用索引标识和对应的索引值,能够根据上下文地址文本信息,解决存在的地址信息歧义。

在一种实施例中,还包括:识别是否存在相同的索引标识,具有不同的索引值;响应于存在相同的索引标识具有不同的索引值,存储一个索引标识以及索引标识对应的多个不同的索引值。

例如,索引标识“town_长寿”存在多个索引值,即不同的行政区域具有相同的地名:“湖南省/岳阳市/平江县/长寿镇,湖北省/荆门市/钟祥市/长寿镇,黑龙江省/哈尔滨市/尚志市/长寿乡,河北省/石家庄市/新乐市/长寿街道”。可以将多个索引值进行合并,即存储一个索引表示,以及其对应的多个索引值或多个索引值列表。

更多示例如下:

town_汪集甘肃省/临夏回族自治州/东乡族自治县/汪集乡,湖北省/武汉市/新洲区/汪集街道

town_繁城河南省/漯河市/临颍县/繁城镇,山西省/忻州市/繁峙县/繁城镇

town_银河河南省/郑州市/新郑市/银河街道,江西省/萍乡市/芦溪县/银河镇

town_白兔四川省/达州市/渠县/白兔乡,江苏省/镇江市/句容市/白兔镇

town_长寿湖南省/岳阳市/平江县/长寿镇,湖北省/荆门市/钟祥市/长寿镇,黑龙江省/哈尔滨市/尚志市/长寿乡,河北省/石家庄市/新乐市/长寿街道

具体存储上述方法所构建的倒排索引(即以低级地址而非高级地址作为索引标识)时,可以以数字代替索引值,再将数字于具体的索引值进行对应。例如:

town_长寿31,32,33

district_红安3

town_白兔25,26

其中,“31”对应的索引值为“湖南省/岳阳市/平江县/长寿镇”;“32”对应的索引值为“湖北省/荆门市/钟祥市/长寿镇”;“33”对应的索引值为“黑龙江省/哈尔滨市/尚志市/长寿乡”;“3”对应的索引值为“湖北省/黄冈市/红安县”;“25”对应的索引值为“四川省/达州市/渠县/白兔乡”。

以下实施例描述了如何利用构建的索引标识及索引值对用户输入的进行地址的查询,从而获得完整地址信息。

参见图2所示,图2是本申请实施例提供的另一方法的流程图。该方法还包括以下操作。

s201,读取待查询的地址信息。

地址信息可以是连续的中文字串,通常可能是没有分隔符把各个有意义的最小语义单元分割开。比如通过处理用户地址串进行分词,从“北京市海淀区”中,“北京市”、“海淀区”是最小的具有地址语义的单元,而“京市”、“市海”、“淀区”、“北”、“京”、“市”等这些是没有地址语义的。

在一种实施例中,读取待查询的地址信息,包括:读取待查询的地址信息中属于地名的最低级别的地名。本领域技术人员可以采用不同的分词方法从连续的中文字串中获得分割开的地名,如“北京市”“海淀区”。

s202,查询包含待查询的地址信息的索引标识。

s203,获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息。

例如,用户输入地址为“余杭区竹海水韵小区”,通过上述s202和s203操作获得地址化结果,即完整的地址信息为“浙江省杭州市余杭区竹海水韵小区”。具体流程:

初始状态:province未填充,city未填充,district未填充,town未填充。首先,将地址分词为“余杭区/竹海水韵小区”,然后根据“余杭区”查询包含待查询的地址信息“余杭区”索引标识,即“district”和“余杭区”的简称“余杭”组成的索引标识“district_余杭”,利用索引标识在倒排索引中查找,然后匹配获得索引标识对应的索引值“浙江省/杭州市/余杭区”,检测当前的province、city、district都处于未填充的状态,则将索引值包含的地名作为待查询地址的完整地址信息,即三个项填充:province=浙江省,city=杭州市,district=余杭区,从而获得化结果。

查询完整地址信息,以进行地址化的过程,可以描述为有穷自动机,或称有穷状态自动机。有穷状态自动机是由有限个状态组成的,在有限个输入的情况下,在这些状态中转移并期望最终达到终止状态。有穷指自动机的状态个数是有限的。有穷状态自动机根据确定性可以分为“确定有穷状态自动机”(dfa-deterministicfiniteautomaton)和“非确定有穷自动机”(nfa-non-deterministicfiniteautomaton)。本申请可以描述为使用dfa(确定有穷状态自动机或称确定有限自动机)来解决地址化的问题。

具体地,地址等级“省、地级市、区/县、乡镇”分别被看做是一种状态,每一种状态表示一个地址化等级。如图3所示,一共有6个状态,s和e分别表示开始和结束状态,1、2、3、4分别表示省、地级市、区/县、乡镇四种地址状态。待查询的地址信息中包含的值为当前值。当待查询的地址信息中包含 多个地名信息,可以根据不同的地址级别填充不同的当前值。每一种状态的具体处理方法如下:

状态s:初始状态,即省、地级市、区/县、乡镇四种字段为空。若待查询的地址信息中包含省的地名信息(省的当前值),则进入s1:province=省的当前值。若待查询的地址信息中包含地级市的地名信息(市的当前值),则进入s2:city=市的当前值。若待查询的地址信息中包含区的地名信息(区的当前值),则进入s3:district=区的当前值。若待查询的地址信息中包含乡镇的地名信息(乡镇的当前值),则进入s4:town=乡镇的当前值。

状态1:省(province)。11:忽略当前值,province不做修改。

状态2:地级市(city)。12:用市的当前值查询包含该市的地名的索引标识,在倒排链中查找,如果找到该索引标识,则比较索引值中的province省的地名信息(高于市的地名)是否于状态1中确定下来的province是否相等,如果相等则校验成功,city=市的当前值,否则,忽略该市的当前值,即待查询的地址信息中包含的市信息有误。22:忽略当前值,city不作修改。

状态3:区/县。13:用区县当前值查询包含该区县的地名的索引标识,如果找到该索引标识,则比较索引标识对应的索引值中的province与状态1中确定下来的province是否相等,若相等,则district=区县的当前值,同时由于待查询地址信息中,却少市的信息,则使用索引值上市级地址作为city的当前值。若不相等,则忽略当前值,即待查询的地址信息中包含的区县信息有误。

23:用区县当前值查询包含该区县的地名的索引标识,去倒排链中查找,如果找到该索引标识,则分别比较索引值中的province、city与状态1、2中确定下来的province、city是否相等,如果相等则校验成功,district=区县的当前值,否则,忽略当前值。33:忽略当前值,district不作修改。

状态4:乡镇。14:用乡镇的当前值查询包含该乡镇的地名的索引标识,如果找到该索引标识,则比较索引标识对应的索引值中的province与状态1中确定下来的province是否相等,如果相等则校验成功,town=乡镇的当前值,district=倒排链中查出的区县值(倒排链即索引值),city=倒排链中查出 的市值,否则,忽略区县的当前值。

24:用乡镇的当前值查询包含该乡镇的地名的索引标识,如果找到该索引标识,如果找到,则比较索引标识对应的索引值中的province、city与状态1、状态2中确定下来的province、city是否相等,如果相等则校验成功,town=乡镇的当前值,district=倒排链中查出的区县值,否则,忽略区县的当前值。

34:用乡镇的当前值查询包含该乡镇的地名的索引标识,如果找到该索引标识,如果找到,则比较索引标识对应的索引值中的province、city、district与状态1、状态2、状态3中确定下来的province、city、district是否相等,如果相等则校验成功,town=乡镇的当前值,否则,忽略乡镇的当前值。44:忽略当前值,town不作修改。

状态e:结束状态。在以下状态中,由于待查询的地址信息中出现没有地址信息或者无法匹配的情况,则地址不完整:

se:四级地址为空

1e:四级地址中只填充province,地址不完整

2e:四级地址中只填充province、city,地址不完整

3e:四级地址中只填充province、city、district,地址不完整

在4e状态中:四级地址填充province、city、district、town,为完整的地址。

以上状态描述为全面而详细的状态转换。在以下实施例中,可以有不同具体实施方式,可能包含部分的状态和状态转移,即能够获得完整地址信息。

在一种实施例中,读取待查询的地址信息,其中,待查询的地址信息中包含多个地名信息,多个地名信息具有连续的高低不同级别的行政区划隶属关系;识别多个地名信息中的地名和每个地名的高低级别顺序;查询包含最低级别的地名的索引标识;识别多个地名信息中的高于最低级别的地名是否均与所获得的索引值所包含的地名信息一致;响应于多个地名信息中的高于最低级别的地名均与所获得的索引值所包含的地名信息一致,以多个地名信息作为待查询地址的完整地址信息。

在上述实施例中,可以通过先查询最低级别的地名的索引标识,由于最低级别的地名的索引标识对应的索引值包含高级地址,从而可以通过比较高于最低级别的地名与所获得的索引值所包含的地名信息是否一致,在一致时以待查询的地址信息中的多个地名信息作为待查询地址的完整地址信息。

在一种实施例中,读取待查询的地址信息,其中,待查询的地址信息中包含多个地名信息,多个地名信息具有高低不同级别的行政区划隶属关系;识别多个地名信息中的地名和每个地名的高低级别顺序;分别查询包含多个地名的索引标识;识别多个索引标识对应的索引值所包含的地名信息是否一致;响应于多个索引标识对应的索引值所包含的地名信息均一致;以包含最低级别地名的索引值所包含的地名信息作为待查询地址的完整地址信息。

在上述实施例中,可以通过先查询每个地名的索引标识,从而可以通过比较每个地名与所获得的索引值所包含的地名信息是否一致。当一致时,由于最低级别的地名的索引标识对应的索引值包含高级地址,则可以以包含最低级别地名的索引值所包含的地名信息作为待查询地址的完整地址信息。

在一种实施例中,待查询的地址信息中包含多个地名信息,多个地名信息具有高低不同级别的行政区划隶属关系,该方法还包括:识别多个地名信息中的地名和每个地名的高低级别顺序;查询包含待查询的地址信息的索引标识,包括:查询包含最低级别的地名的索引标识;

获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息,包括:

按照由低级到高级的顺序,识别多个地名信息中的至少一个高于最低级别的地名是否与所获得的索引值所包含的地名信息一致;响应于多个地名信息中的至少一个高于最低级别的地名与所获得的索引值所包含的地名信息一致,以该索引值所包含的地名作为待查询地址的完整地址信息。

在上述实施例中,可以通过先查询包含最低级别的地名的索引标识,从而可以比较一个或多个高于最低级别的高级别地名与所获得的索引值所包含的地名信息是否一致。当一致时,由于最低级别的地名的索引标识对应的索引值包含完整的高级地址,则可以以包含最低级别地名的索引值所包含的地名信息 作为待查询地址的完整地址信息。

在一种实施例中,待查询的地址信息中包含多个地名信息,多个地名信息具有高低不同级别的行政区划隶属关系,该方法还包括:识别多个地名信息中的地名和每个地名的高低级别顺序;查询包含待查询的地址信息的索引标识,包括:查询包含最低级别的地名的索引标识;

获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息,包括:识别多个地名信息中的高于最低级别的地名是否均与所获得的索引值所包含的地名信息一致;响应于多个地名信息中的高于最低级别的地名均与所获得的索引值所包含的地名信息一致,以该索引值所包含的地名作为待查询地址的完整地址信息。

在上述实施例中,可以通过先查询包含最低级别的地名的索引标识,从而可以比较全部高于最低级别的高级别地名与所获得的索引值所包含的地名信息是否一致。当一致时,由于最低级别的地名的索引标识对应的索引值包含高级地址,则可以以包含最低级别地名的索引值所包含的地名信息作为待查询地址的完整地址信息。

在一种实施例中,当包含最低级别的地名的索引标识对应于多个不同的索引值;在获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息的操作中,具体可以包括:识别多个索引值中的目标索引值,其中,目标索引值包含多个地名信息中的至少一个高于最低级别的地名;以目标索引值所包含的地名作为待查询地址的完整地址信息。

参见图4,图4是本申请实施例提供的另一方法的流程示意图。通过查询并获得国际数据或国内数据,获得四级地址数据,从而建立词典和倒排索引(索引标识和索引值)。对用户输入的地址文本进行地址分词,获得对结果作为待查询的地址信息,按照上述dfa状态转换,利用索引标识和索引值获得化结果,即完整地址信息。

参见图5所示,图5是本申请实施例提供的第一装置的示意图。本发明提供的一种物流系统中地址信息的处理装置,包括:

数据查询单元501,用于查询并获得地址数据信息,地址数据信息包括地 名和地名的地址区划层级关系链,地址区划层级关系链包括从高到低的行政区划隶属关系;

索引设置单元502,用于针对每一个地名,建立与该地名对应的索引标识,索引标识包括该地名和该地名在地址区划层级关系链的级别;设置索引标识对应的索引值为该地名的地址区划层级关系链上从最高级别到该地名为止的地名;

存储单元503,用于存储索引标识以及索引标识对应的索引值,以根据待查询地址信息,查询包含待查询地址信息的索引标识,从而获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息。

在一种装置实施例中,该装置还包括:

识别单元504,用于识别是否存在相同的索引标识具有不同的索引值;

存储单元503,还用于响应于存在相同的索引标识具有不同的索引值,存储一个索引标识以及索引标识对应的多个不同的索引值。

参见图6所示,图6是本申请实施例提供的第一装置的示意图。在一种装置实施例中,该装置还包括:

查询地址读取单元601,用于读取待查询的地址信息;

索引查询单元602,用于查询包含待查询的地址信息的索引标识;

查询结果获取单元603,用于获得该索引标识相对应的索引值所包含的地名作为待查询地址的完整地址信息。

在一种装置实施例中,相对于图5,与图6相类似,该装置还包括:查询地址读取单元601,用于读取待查询的地址信息,其中,待查询的地址信息中包含多个地名信息,多个地名信息具有连续的高低不同级别的行政区划隶属关系;识别单元504,还用于识别多个地名信息中的地名和每个地名的高低级别顺序;装置还包括:

索引查询单元602,用于查询包含最低级别的地名的索引标识;

查询结果获取单元603,用于识别多个地名信息中的高于最低级别的地名是否均与所获得的索引值所包含的地名信息一致;响应于多个地名信息中的高于最低级别的地名均与所获得的索引值所包含的地名信息一致,以多个地名信 息作为待查询地址的完整地址信息。

在一种装置实施例中,相对于图5,与图6相类似,该装置还包括:

查询地址读取单元601,用于读取待查询的地址信息,其中,待查询的地址信息中包含多个地名信息,多个地名信息具有高低不同级别的行政区划隶属关系;识别单元504,还用于识别多个地名信息中的地名和每个地名的高低级别顺序;该装置还包括:

索引查询单元602,用于分别查询包含多个地名的索引标识;

查询结果获取单元603,用于识别多个索引标识对应的索引值所包含的地名信息是否一致;响应于多个索引标识对应的索引值所包含的地名信息均一致,以包含最低级别地名的索引值所包含的地名信息作为待查询地址的完整地址信息。

在一种装置实施例中,其中,待查询的地址信息中包含多个地名信息,多个地名信息具有高低不同级别的行政区划隶属关系;

识别单元504,还用于识别多个地名信息中的地名和每个地名的高低级别顺序;

索引查询单元602,还用于查询包含最低级别的地名的索引标识;

查询结果获取单元603,还用于按照由低级到高级的顺序,识别多个地名信息中的至少一个高于最低级别的地名是否与所获得的索引值所包含的地名信息一致;响应于多个地名信息中的至少一个高于最低级别的地名与所获得的索引值所包含的地名信息一致,以该索引值所包含的地名作为待查询地址的完整地址信息。

在一种装置实施例中,待查询的地址信息中包含多个地名信息,多个地名信息具有高低不同级别的行政区划隶属关系;

识别单元504,还用于识别多个地名信息中的地名和每个地名的高低级别顺序;

索引查询单元602,还用于查询包含最低级别的地名的索引标识;

查询结果获取单元603,还用于识别多个地名信息中的高于最低级别的地名是否均与所获得的索引值所包含的地名信息一致;响应于多个地名信息中的 高于最低级别的地名均与所获得的索引值所包含的地名信息一致,以该索引值所包含的地名作为待查询地址的完整地址信息。

在一种装置实施例中,包含最低级别的地名的索引标识对应于多个不同的索引值;查询结果获取单元603,还用于识别多个索引值中的目标索引值,其中,目标索引值包含多个地名信息中的至少一个高于最低级别的地名;以目标索引值所包含的地名作为待查询地址的完整地址信息。

在一种装置实施例中,查询地址读取单元601,用于读取待查询的地址信息中属于地名的最低级别的地名。

通过本申请提供的技术方案,能够在知道部分准确的地址信息的情况下,将缺失的地址信息补全,将录入错误的地址纠正过来,不规范的输入化,从而获得完整的地址信息。通过采用从倒排索引链查找的方法来简化地址化的复杂逻辑流程,以空间换地址化的时间,同时简化了用户的操作复杂程度。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本申请所提供的物流系统中地址信息的处理方法及装置,进行了详 细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1