一种地址数据处理方法及其装置与流程

文档序号:20875242发布日期:2020-05-26 16:25阅读:174来源:国知局
一种地址数据处理方法及其装置与流程
本申请涉及计算机
技术领域
,尤其涉及一种地址数据处理方法及其装置。
背景技术
:政府部门为了完成基础信息采集工作,需要将实有人口、实有房屋、实有单位映射到地址上。按照以往的方法,政府部门会发动基层人员采用人工采集的方式来确定地址,随后将地址手动输入到数据库中。这种方式的缺点是显而易见的:人工采集成本高,数据更新周期长,容易存在纰漏(比如,缺少经纬度等),并且数据覆盖有限,检索召回率低。举例来说,某省公安厅发动全省警力耗费两年仅采集维护了7000万标准地址。而随着互联网的兴起,人们经常利用互联网提供便利,例如,可利用购物网站/app进行购物,利用导航网站/app进行导航,利用点评网站/app搜索商家,而这些网站/应用包含大量的地址信息。基于此,可以考虑借助于互联网来解决这一问题,也就是说,利用互联网数据来完善地址数据库。这种方式不仅可以有效补充地址数据库,还降低了人力成本。但是来自多个数据源的地址数据格式均不相同,如何将多个数据源的地址数据转换为统一格式的地址数据是目前急需解决的技术难点。技术实现要素:本申请的主要目的在于提供一种地址数据处理方法及其装置,旨在解决以上提到的多个数据源的格式转换的问题。本申请的示例性实施例提供一种地址数据处理方法,所述方法包括:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。本申请的另一示例性实施例提供一种地址数据处理装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。本申请的另一示例性实施例提供一种地址数据处理方法,所述方法包括:接收来自用户的地址请求;通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据,其中,所述地址数据库包括按照标准模式生成的多个标准地址数据。本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请的示例性实施例的地址数据处理方法,可将多个数据源的地址数据转换为同一格式的地址数据,以便于对地址数据统一管理。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请的示例性实施例的地址数据处理系统的场景图;图2是根据本申请的示例性实施例的地址数据处理方法的示意图;图3是根据本申请的示例性实施例的地址数据处理系统的框架图;图4是本申请的示例性实施例的地址数据处理装置的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在介绍本申请的示例性实施例前,为了方便本领域技术人员更好的理解本申请,首先对本申请中涉及的术语进行解释。多源异构地址数据是指来自多个数据源并且格式各不相同的地址数据,在本申请中,多源异构地址数据包括但不限于人工采集的地址数据以及来自不同app的地址数据,例如,购物类app的收发货地址,导航类app的导航地址。模式(schema)是指数据库对象的集合,所谓的数据库对象包括各种对象,例如,表、视图、存储过程、索引等。应注意,数据库中可包括不同的schema,通常利用用户名称命名schema,例如,在本申请中的购物地址schema、导航地址schema以及官方地址schema。地址数据库是指存储地址数据的仓库,可利用输入的地址信息(也称作地址片段)在地址数据库中查询,最终可返回完整的地址信息,例如,当输入“阿里巴巴”时,地址数据库可返回“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区”。地址查询(地址query)是指输入至地址数据库以查询完整地址信息的地址片段。根据本申请的示例性实施例,为了能够利用互联网数据来完善已有的地址数据库,并对不同来源的地址数据均执行规范化处理,使得不同来源的地址数据格式统一,具体来说,可将多个数据源的地址数据转换为标准地址数据,所述标准地址数据是指标准化的结构化地址数据;利用标准地址数据建立地址数据库。以下结合附图,详细说明本申请各实施例提供的技术方案。图1是示出应用于本申请的示例性实施例的地址数据处理的场景图。如图1所示,所述数据处理系统包括作为数据提供方的服务器组100和处理服务器组100提供的数据的服务器200。应注意,所述数据处理系统还可包括其它装置,例如,通信基站,但为了避免由于公知的方法、过程、组件和电路来模糊本实施例,在此将省略与本发明的构思无关的部件。虽然在图1中示出的服务器组100可包括服务器101、服务器102和服务器103,而服务器200的数量为一个,但应注意服务器的数量仅为示例性的,在实际使用中用户可根据需求增加服务器的数量。服务器101至103可将存储在各自数据库中的地址数据发送到服务器200,其中,不同服务器发送的地址数据可能会由于存储格式的不同导致地址数据的格式各不相同。因此,服务器200在接收到来自服务器101至103的地址数据后,可根据本申请的示例性实施例的地址数据处理方法对地址数据进行处理。为了更清楚地描述根据本申请的示例性的地址数据处理方法,以下将参照图2详细说明根据本申请的示例性的地址数据处理方法。图2示出了根据本申请的示例性实施例的地址数据处理方法的流程图。所述方法可由图1中的服务器200执行。在执行步骤s210之前,所述方法可获取来自多个数据源的地址数据,具体来说,所述方法可根据数据源的不同采用不同方式获取地址数据,例如,针对来自不同app的地址数据,可利用不同app的应用程序编程接口(applicationprogramminginterface,api)来爬取预定区域内的poi数据,而针对上门采集的地址数据,可通过访问存储这些地址的数据库来获取地址数据。随后,所述方法继续执行步骤s210。在步骤s210,将多个数据源的地址数据转换为结构化地址数据。其中,所述多个数据源的地址数据可以是如图1中所示出的服务器101至103所提供的数据,多个数据源提供的地址数据的格式各不相同。以下面的表1为例,表1中包括三种不同schema存储的地址数据。表1如表1所示,按照第一schema、第二schema和第三schema提供的三种地址数据的表示方式完全不同,即使表示同一地址,地址数据也不相同,其中,第一schema可以指示购物类app中所存储的地址数据,所述地址数据为了便于迅速分发快递通常会包括邮编信息;第二schema可以指示导航类app所存储的地址数据,导航类数据会对地址划分兴趣点(pointofinterest,poi)以便进行数据分析,因此,导航类数据通常会包括poi信息;第三schema可以指示上门采集的数据,这类数据对地址的详细程度要求较高,因此通常会包括例如具体门牌号等信息。由上可知,由于地址数据在多个数据源中的作用不同,所以地址数据包含的信息量不同,此外,多个数据源在不同的数据库中的数据格式也不同。基于此,所述方法可对接收到的地址数据根据来源不同按照不同方式执行筛选。例如,针对购物类app,可仅保留预定时间段(例如,365天)内的订单中存在的地址数据,随后,可筛除海外以及虚拟类目订单中包括的地址数据,最后筛除带有“电联”、“短信”、“代收”等协助配送的信息。在步骤s210中,可利用各种序列标注模型对多个数据源的地址数据执行命名实体识别,从而生成结构化地址数据,其中,所述序列标注模型包括但不限于条件随机场算法(conditionalrandomfieldalgorithm,crf)、隐马尔可夫模型(hiddenmarkovmodel,hmm)等。例如,可将表1中以第一schema存储的地址数据转换为“prov=四川省city=成都市district=武侯区town=桂溪街道road=天府大道subroad=天府二街poi=希顿国广场poilabel=gardensubpoi=项目部”。随后,在步骤s220中,将结构化地址数据按照标准schema转换为标准地址数据,其中,标准schema包括构成标准地址数据的各个字段以及各个字段对应的数据类型。也就是说,在将结构化地址数据转换为标准地址数据之前,可预先确定标准地址数据包含的地址参数,其中,在本申请中,所述地址参数可被称作字段,随后根据预先确定的字段,生成标准schema。最后,可将结构化地址数据按照标准schema存储,例如,标准schema可包括表2中示出的字段。字段字段值prov省city地级市district县区town街道/乡镇community社区/村road道路subroad辅路roadno门牌号subroadno辅路门牌号poi兴趣点subpoi子兴趣点houseno楼栋号cellno单元号floorno楼层号roomno房间号表2在对地址数据执行处理的过程中,可存在不同来源的地址数据可能表示同一地址的情况。针对这种情况,可对多个数据源的地址数据执行互补去重操作,其中,所述互补去重操作是指同一地址的多个数据源的地址数据经过其处理后最终仅保留一条地址信息最完整的地址数据。举例来说,购物类app提供的地址数据缺少poi信息和经纬度信息,导航类app提供的地址数据缺少邮编信息和乡镇地址信息,而上门收集的地址信息缺少poi信息、邮编信息、经纬度信息等信息,则在对购物类app提供的某一地址数据执行处理后,生成标准地址数据,如果接收到来自导航类app提供的针对同一地址的导航地址数据后,可利用导航地址数据对标准地址数据中缺少的字段(例如,邮编地址和乡镇地址信息)进行补充,从而完善标准地址数据,同时删除导航地址数据。也就是说,在对某一地址数据按照标准schema转换成标准地址数据后,若其它数据源提供该地址的地址数据,则在接收到其它数据源的地址数据后利用其它数据源提供的地址数据对标准地址数据中缺少的字段进行补充,同时删除其它数据源的关于该地址的地址数据。若接收到的地址数据与标准地址数据不是同一地址的数据,则将接收的地址数据按照如上所述的方法转换为标准地址数据。根据本申请的示例性实施例,所述方法还可包括利用标准地址数据生成地址数据库。也就是说,将按照标准schema转换的标准地址数据存储在同一数据库中,从而形成地址数据库。根据本申请的示例性实施例,在接收到来自用户的地址请求后,可对地址请求中包含的地址信息进行结构化解析,从而得到结构化地址数据,随后,利用结构化地址数据搜索地址数据库,并返回完整的标准地址数据。举例来说,当用户输入“一环路北一段实验外国语学校”后,对“一环路北一段实验外国语学校”执行结构化解析,解析结果为“road=一环路北一段poi=实验外国语学校”,例如,解析结果搜索地址数据库,获得与其对应的标准地址数据“四川省成都市金牛区一环路北一段134号成都市实验外国语学校”,还可根据标准schema的格式,返回poi类型为“科教文化服务;学校;中学”以及经纬度信息“104.048082,30.684744”和邮件信息“610036”。为了更好地提供检索服务,还可进一步利用模糊检索方式对地址请求进行检索。例如,可在对地址请求可中包含的地址信息进行结构化解析,随后对解析获得的各个字段进行组合,利用组合字段对地址数据库进行检索,从而获得与组合字段对应的标准地址数据。最后,可利用与组合字段对应的权重值按照公式1生成检索分数,随后利用检索分数对标准地址数据进行排序,其中,公式1如下所示:其中,g表示标准地址数据的检索分数,hit_w表示标准地址数据中所包含的字段的权重,m表示标准地址数据中所包含的字段的个数。group_w表示预定的组合字段的权重,也就是说,根据本申请的示例性实施例的方法可预先设置多种字段组合方式,随后,分别对所述多种字段组合方式分别赋予权重,这样,在对某一标准地址数据计算检索分数时,可先确定该标准地址数据对应的字段组合方式,随后确定该字段组合方式对应的权重值,后面可对应以下表3分别计算每个字段对应的权重值。举例来说,当地址请求为“poi=复旦大学&prov=上海&city=上海&road=邯郸路&roadno=220号”时,可确定字段组合方式为“prov+city+road+roadno+poi”。随后,根据本申请示例性实施例,可按照如下表3对标准schema中的各个字段赋予权重值。在利用字段对地址数据库进行检索的过程中,可采用单字检索(例如,分别对“复旦大学”中的每个字进行检索)或者可采用多字检索(例如,对“复旦大学”进行检索)。表3举例来说,在利用“复旦大学”对地址数据库进行检索的过程中,若某一标准地址数据中包括“复旦大学”,则通过表3确定该标准地址数据的权重值为0.2。根据本申请的示例性实施例,提供一种地址数据处理方法,所述方法包括:接收来自用户的地址请求;通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据,其中,所述地址数据库包括按照标准模式生成的多个标准地址数据。可选地,通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据包括:通过对地址请求中包含的地址信息进行结构化解析,获取与所述地址信息对应的结构化地址数据;利用所述结构化地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据。综上所述,本申请的示例性实施例的地址数据处理方法可将多个数据源的地址数据转换为同一格式的地址数据,便于对地址数据的统一管理。更进一步地,利用同一格式的标准地址数据生成地址数据库,这样可方便用户执行地址数据检索以及地址数据分析。更进一步地,可根据标准schema对schema中的每个字段以及字段组合设置权重,并可按照检索分数向用户提供检索结果,这样可向用户提供分析后的检索结果,使得检索更加人性化。下面将参照图3进一步描述根据本申请的示例性实施例的地址数据处理系统的框架图。虽然在图3中示出,数据源包括购物类网站/app、导航类网站/app、点评类网站/app以及人力采集的数据源,但是本领域技术人员应理解本申请适用于可获取地址数据的所有数据源,包括但不限于自各种应用对应的服务器的地址数据、来自各种网站对应的服务器的地址数据以及上门采集的地址数据。如图3所示,可将多个数据源的地址数据执行数据标准化处理,其中,所述数据标准化处理包括将购物类网站/app、导航类网站/app、点评类网站/app以及人力采集的数据源的地址数据转换为结构化地址数据,随后将结构化地址数据按照标准schema转换为标准地址数据,其中,标准schema包括构成标准地址数据的各个字段以及各个字段对应的数据类型。在此过程中,可确定多个数据源的地址数据是否是表示同一地址的地址数据,若是,则可利用其它数据源的地址数据对已有的标准地址数据中缺少的字段进行补充,也就是说,可对标准地址数据执行互补操作,从而生成包括标准地址数据的地址数据库。随后,可通过所述地址数据库获取用户所需的地址,例如,用户在输入地址请求后,可对所述地址请求执行结构化分析,随后利用结构化地址数据来搜索地址数据库。为了更清楚地明白本申请的示例性实施例的发明构思,以下将参照图4描述本申请的示例性实施例的地址数据处理装置的框图。本领域普通技术人员将理解:图4中的装置仅示出了与本示例性实施例相关的组件,所述装置中还包括除了图4中示出的组件之外的通用组件。图4示出本申请的示例性实施例的地址数据处理装置的框图。参考图4,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。具体来说,所述处理器执行以下操作:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。可选地,所述处理器在实现步骤将多个数据源的地址数据转换为结构化地址数据包括:通过对多个数据源的地址数据执行命名实体识别,将多个数据源的地址数据转换为结构化地址数据。可选地,所述处理器在实现步骤将结构化地址数据按照标准模式schema转换为标准地址数据后还包括:确定接收的地址数据与标准地址数据是否是同一地址的数据;若是,则利用所述地址数据对标准地址数据中的字段进行补充。可选地,所述处理器在实现步骤利用所述地址数据对标准地址数据中的字段进行补充包括:将所述地址数据转换为结构化地址数据;利用所述结构化地址数据对标准地址数据中的空缺字段进行补充。可选地,若接收的地址数据与标准地址数据不是同一地址的数据,所述处理器可将接收的地址数据转换为标准地址数据。可选地,所述处理器在实现步骤生成标准格式的结构化地址数据作为标准地址数据后还包括:利用标准地址数据生成地址数据库。可选地,所述处理器在实现步骤在利用标准地址数据生成地址数据库后还包括:接收来自用户的地址请求;通过对地址请求中包含的地址信息进行结构化解析,获取与所述地址信息对应的结构化地址数据;利用所述结构化地址数据搜索地址数据库,确定标准地址数据。可选地,所述处理器在实现步骤利用结构化地址数据搜索地址数据库确定标准地址数据包括:利用结构化地址数据中包含的字段所构成的多种字段组合对地址数据库进行检索,获取与所述多种字段组合对应的多个标准地址数据。可选地,所述处理器在实现步骤获取与所述多种字段组合对应的标准地址数据后包括:根据与所述多个标准地址数据分别对应的检索分数,对所述多个标准地址数据进行排序,其中,所述检索分数是通过每个字段组合的权重值以及字段组合中的每个字段的权重值确定的。可选地,所述处理器在实现步骤在将多个数据源的地址数据转换为结构化地址数据前还包括:获取多个数据源的地址数据;对多个数据源的数据根据数据源进行数据有效性筛选。综上所述,本申请的示例性实施例的地址数据处理装置可将多个数据源的地址数据转换为同一格式的地址数据,便于对地址数据的统一管理。更进一步地,利用同一格式的标准地址数据生成地址数据库,这样可方便用户执行地址数据检索以及地址数据分析。更进一步地,可根据标准schema对schema中的每个字段以及字段组合设置权重,并可按照检索分数向用户提供检索结果,这样可向用户提供分析后的检索结果,使得检索更加人性化。需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1