Poi数据处理方法及其装置、poi检索方法及其装置制造方法

文档序号:6486477阅读:178来源:国知局
Poi数据处理方法及其装置、poi检索方法及其装置制造方法
【专利摘要】本发明公开了一种POI数据处理方法及其装置、POI查询方法及其装置,以为从不同来源网站的POI数据提供更合理、高效的数据处理方式。数据处理方法包括:从来源网站获取源POI数据;按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据;将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。
【专利说明】POI数据处理方法及其装置、POI检索方法及其装置
【技术领域】
[0001]本发明涉及电子地图【技术领域】,尤其涉及一种POI (Point Of Interest,兴趣点)数据处理方法及其装置、POI检索方法及其装置。
【背景技术】
[0002]目前,越来越多的用户在电子地图中查询POI,数据库中存储的POI数据为POI查询提供数据支撑。目前,对数据库中的POI数据进行更新主要通过两种方式实现:一种方式是进行数据实采,根据实采得到的数据对数据库中存储的POI数据进行更新,但是数据实采耗费的时间较长、效率较低;另一种方式是从互联网上的各个生活类信息网站(后续称为来源网站)上获取POI数据,只要获取的数据包括POI的名称和地址,即可将该条数据确定为一条POI数据,该种方式虽然效率较高,但是从不同来源网站获取的POI数据中,有可能存在重复性数据,即多条POI数据实际描述的是同一 Ρ0Ι,如针对望京方恒的肯德基店,在网站A上的POI数据为“肯德基望京方恒店”,在网站B上的POI数据为“望京方恒大厦肯德基”,在网站C上的POI数据为“望京华堂商场对面肯德基电话12345678”,这三个网站的三条POI数据实际描述的是同一家肯德基店,但是描述方式、属性不同。目前,对从各来源网站上获取的重复性POI数据进行处理的方式主要包括以下两种:
[0003]方式1、识别出从不同来源网站上获取的多条重复性POI数据(即该多条POI数据实际是对同一 POI进行描述),从该多条重复性POI数据中保留一条质量相对较好的POI数据(如属性信息较全、地理位置描述较准确的POI数据),将其余的POI数据删除。方式1,对重复性POI数据进行处理较为简单,且效率较高,但是保留的POI数据并不一定包含POI的所有属性描述,其他的POI数据描述的部分属性在该保留的POI数据中并没有包含,因此,单纯的保留一条相对较好的POI数据,会造成POI的其他有用的属性信息丢失。
[0004]方式2、将从多个来源网站获取的多条重复性POI数据进行融合处理,融合成一条POI数据。方式2相对于方式I而言,虽然保留了多条POI数据的属性信息,但是由于不同来源网站的POI数据对字段属性进行描述的方式可能不一致,即使多条POI数据都包含同一字段属性,但是由于每条POI数据对该字段属性的描述方式不一致,因此,将多条不同来源网站的重复性POI数据融合成一条POI数据难度较大、耗时太长、效率较低,尤其是随着POI数据量的快速增长,其缺点显得尤为明显。

【发明内容】

[0005]本发明实施例提供一种POI数据处理方法及其装置、POI检索方法及其装置,针对从不同来源网站的POI数据提供更合理、高效的数据处理方式,既保全了 POI的属性信息,又建立了描述同一 POI的多条POI数据的关联性,为后续展示POI数据提供更灵活的方式。
[0006]一种兴趣点POI数据处理方法,包括:
[0007]从来源网站获取源POI数据;
[0008]按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;
[0009]从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一 POI的标准POI数据;
[0010]将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一 POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。
[0011]本发明实施例,基于前述兴趣点POI数据处理方法,还提供一种兴趣点POI数据处理装置,该装置包括:
[0012]POI数据获取单元,用于从来源网站获取源POI数据;
[0013]数据处理单元,用于按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中;
[0014]确定单元,用于从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一 POI的标准POI数据;
[0015]关联建立单元,用于将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一 POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。
[0016]本发明实施例提供的POI数据处理方法,首先,在从来源网站获取到源POI数据时,按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据;其次,从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一 POI的标准POI数据;最后,将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一 POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。采用本发明技术方案,针对描述同一POI的重复性POI数据分别进行了保留,从而保全该POI的所有属性信息,另外,还对重复性POI数据建立关联性,因此当后续用户检索POI时,可以根据用户的需求,只展示该POI对应的多条POI数据中的一条,也可以展示多条相互关联的POI数据,提高展示POI数据的灵活性。
[0017]一种兴趣点POI检索方法,包括:
[0018]接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词;
[0019]从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到的;
[0020]根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一 POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。
[0021]基于前述兴趣点POI检索方法,本发明实施例还提供一种兴趣点POI检索装置,该装置包括:
[0022]接收单元,用于接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词;
[0023]检索单元,用于从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到的;[0024]检索结果展示单元,用于根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一 POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。本发明实施例提供的POI检索方法,在接收到用户输入的POI检索关键词时,一方面,直接从数据库中存储的标准POI数据中查找与POI检索关键词对应的多条关联的标准POI数据,由于数据库中存储的标准POI数据是直接对从来源网站上获取的原始数据进行处理得到的数据,因此包含POI的属性信息较为全面,检索成功率较高;再一方面,针对根据POI检索关键词检索到的标准POI数据,从数据库中获取与该标准POI数据相关联的关联POI数据,并根据用户的需求展示关联POI数据中的一条或多条,从而提高展示POI数据的灵活性。
【专利附图】

【附图说明】
[0025]图1为本发明实施例中处理从不同来源网站获取的POI数据的方法流程图;
[0026]图2为本发明实施例中建立标准POI数据之间关联关系的方法流程图;
[0027]图3为本发明实施例中获取描述的POI与当前POI数据所描述的POI之间的球面距离低于距离阈值的POI的方法流程图;
[0028]图4为本发明实施例中列举的具体实例来描述在数据库中建立POI数据之间的关联关系之一;
[0029]图5为本发明实施例中建立的关联族表;
[0030]图6为本发明实施`例中列举的具体实例来描述在数据库中建立POI数据之间的关联关系之二;
[0031]图7为本发明实施例中,在图5所示的关联簇表中添加新记录后的关联簇表;
[0032]图8为本发明实施例中对图7所示的关联簇表进行去重处理后所得到的关联簇表;
[0033]图9为本发明实施例中检索POI的方法流程图;
[0034]图10为本发明实施例中处理POI数据的装置的结构示意图之一;
[0035]图11为本发明实施例中处理POI数据的装置的结构示意图之二 ;
[0036]图12为本发明实施例中检索POI的装置的结构示意图。
【具体实施方式】
[0037]针对现有技术存在的技术问题,本发明实施例提供一种兴趣点POI数据处理方法和兴趣点POI检索方法,针对从不同来源网站的POI数据提供更合理、高效的数据处理方式,既保全了 POI的属性信息,又将描述同一 POI的多条POI数据关联起来,为后续展示POI数据提供更灵活的方式。
[0038]下面结合说明书附图对本发明技术方案进行详细的描述。
[0039]参见图1,为本发明实施例中处理从不同来源网站获取的POI数据的方法流程图,该方法包括:
[0040]步骤101、从来源网站获取源POI数据。
[0041]步骤102、按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中。[0042]步骤103、从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一 POI的标准POI数据。
[0043]步骤104、将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。
[0044]本发明实施例中,在数据库中针对不同的来源网站配置对应的数据文件,对从该来源网站得到源POI数据进行处理得到的标准POI数据,将该标准POI数据存储至该来源网站对应的数据文件中,因此,上述方法流程的步骤101中,将所述标准POI数据存储至数据库中,具体是指将该标准POI数据存储到数据库中与该标准POI数据的来源网站所对应的数据文件中。本发明实施例中,数据文件的结构为jsonline,数据文件中的每条标准POI数据的格式采用json,每个数据文件转换成每行一个json数据的jsonline的格式。
[0045]由于多来源网站获取的POI数据类型、数据格式多样,包含的属性字段、数据组织格式等也不一致,所以需要为每一个来源网站的POI数据配置相应的数据适配器,通过配置的数据适配器对相应来源网站获取的源POI数据的数据格式进行解析,并按照预设的标准POI属性字段,对解析出的源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据。本发明实施例中,统一数据格式可以至少包括以下四个属性字段信息:Ρ0Ι数据标识字段、attr字段、meta字段和POI数据修改时间字段,其中:attr字段至少包括POI名称字段、POI经度字段和POI纬度字段,meta字段包括POI数据来源网站域名字段和地图版本字段。优选地,为更进一步的对POI数据的属性进行完善,上述attr字段还包括以下一个或多个属性字段信息=POI地址字段、POI电话字段、POI的城市名字段和POI类型字段。本发明实施例中,预设的标准POI数据可如下表1所示,但并不仅限于表1所示的一种,在此不一一列举:
【权利要求】
1.一种兴趣点POI数据处理方法,其特征在于,包括: 从来源网站获取源POI数据; 按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中; 从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一POI的标准POI数据; 将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一 POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。
2.根据权利要求1所述的方法,其特征在于,所述预设的标准化POI属性字段,至少包括以下字段信息=POI数据标识字段、attr字段、meta字段和POI数据修改时间字段,其中:attr字段至少包括POI名称字段、POI经度字段和POI纬度字段,meta字段包括POI数据来源网站域名字段和地图版本字段。
3.根据权利要求2所述的方法,其特征在于,所述attr字段还包括以下字段信息:Ρ0Ι地址字段,和/或POI电话字段,和/或POI所在城市的城市名字段,和/或POI类型字段。
4.根据权利要求2所述的方法,其特征在于,存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一 POI的标准POI数据,具体包括: 从数据库中,确定出预选标准POI数据,所述预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI之间的球面距离低于设定距离阈值; 确定预选标准POI数据描述的POI与所述待关联的标准POI数据的描述的POI的相似度,若相似度大于或等于设定相似度阈值,则确定所述预选标准POI数据为与所述待关联的标准POI数据描述同一 POI的标准POI数据。
5.根据权利要求4所述的方法,其特征在于,确定预选标准POI数据描述的POI与所述待关联标准POI数据描述的POI的相似度,具体包括: 计算所述预选标准POI数据中的POI名称与所述待关联标准POI数据中的POI名称的名称相似度; 计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度; 对所述名称相似度与所述坐标相似度进行加权归一化处理,得到预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI的相似度。
6.根据权利要求5所述的方法,其特征在于,计算所述预选标准POI数据中的POI名称与所述待关联的标准POI数据中的POI名称的名称相似度,具体包括: 对所述预选标准POI数据中的POI名称进行分词处理,得到第一名称片段集合; 对所述待关联的标准POI数据中的POI名称进行分词处理,得到第二名称片段集合; 确定出所述第一名称片段集合与所述第二名称片段集合中的重叠的名称片段; 将重叠名称片段的长度与预选标准POI数据中的POI名称的字符串长度的比值,确定为第一名称子相似度; 将重叠名称片段的长度与所述待关联的标准POI数据中的POI名称的字符串长度的比值,确定为第二名称子相似度; 将所述第一名称子相似度和第二名称子相似度代入下列公式,得到所述名称相似度:
7.根据权利要求5所述的方法,其特征在于,计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度,具体包括: 根据所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标,计算出两个坐标点的球面距离; 根据下式,确定出所述坐标相似度:
Prob_Lat_Long (POI1, POI2) =e ^dist (xl’y1’x2’y2)/529.8] 式中,Prob_Lat_Long(P0I1, POI2)表示坐标相似度,dist(x1, Y1, x2, y2)表示预选标准POI数据描述的PO1的坐标点(X1, Y1)与所述待关联的标准POI数据描述的POI2的坐标点(x2, y2)的球面距离。
8.根据权利要求1所述的方法,其特征在于,描述同一POI的标准POI数据的ID对应关系存储在所述数据库的一个关联簇中,则将所述待关联的标准POI数据和确定的与所述待关联POI数据描述同一 POI的标准POI数据的数据库ID的对应关系存储至所述数据库中,具体包括: 当所述数据库中关联簇包含所述`确定出的标准POI数据的ID但是不包含所述待关联的标准POI数据的ID时,将所述待关联的标准POI数据的ID添加到所述关联簇中; 当所述数据库中关联簇中不包含所述待关联的标准POI数据的ID和所述确定出的标准POI数据的ID时,建立新关联簇,并为该新关联簇分配唯一簇ID,将所述待关联的标准POI数据的ID与所述确定出的标准POI数据的ID存储到所述新关联簇中。
9.根据权利要求8所述的方法,其特征在于,还包括: 建立所述待关联的标准POI数据的ID与其所在关联簇的簇ID的对应关系,并将该对应关系作为一条记录存储到预设的关联簇表中。
10.一种兴趣点POI检索方法,其特征在于,包括: 接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词; 从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到的; 根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一 POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。
11.根据权利要求10所述的方法,其特征在于,所述相关对应关系为描述同一POI的所有标准POI数据的数据库ID的对应关系;或者, 所述相关对应关系为标准POI数据的数据库ID与该标准POI数据所在关联簇的簇ID的对应关系,所述关联簇中包含所述标准POI数据的数据库ID、所有与所述标准POI数据描述同一 POI的其他标准POI数据的数据库ID。
12.根据权利要求10或11所述的方法,其特征在于,所述POI检索请求中还包含检索结果展不指令; 将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户,具体包括: 当根据所述检索结果展示指令确定展示获取到的部分标准POI数据时,从获取到的标准POI数据与检索到的标准POI中选取部分标准POI数据展示给用户; 当根据所述检索结果展示指令确定展示获取到的所有标准POI数据时,将获取到的所有标准POI数据与检索到的标准POI数据展示给用户。
13.一种兴趣点POI数据处理装置,其特征在于,包括: POI数据获取单元,用于从来源网站获取源POI数据; 数据处理单元,用于按照预设的标准POI属性字段,对所述源POI数据的属性字段进行标准化处理,得到待关联的标准POI数据,并将所述待关联的标准POI数据存储至数据库中; 确定单元,用于从所述数据库存储的标准POI数据中,确定与所述待关联的标准POI数据描述同一 POI的标准POI数据; 关联建立单元,用于将所述待关联的标准 POI数据和确定的与所述待关联POI数据描述同一 POI的标准POI数据的数据库ID的对应关系存储至所述数据库中。
14.根据权利要求13所述的装置,其特征在于,所述确定单元,具体用于: 从数据库中,确定出预选标准POI数据,所述预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI之间的球面距离低于设定距离阈值; 确定预选标准POI数据描述的POI与所述待关联的标准POI数据的描述的POI的相似度,若相似度大于或等于设定相似度阈值,则确定所述预选标准POI数据为与所述待关联的标准POI数据描述同一 POI的标准POI数据。
15.根据权利要求14所述的装置,其特征在于,所述确定单元确定预选标准POI数据描述的POI与所述待关联标准POI数据描述的POI的相似度,具体用于: 计算所述预选标准POI数据中的POI名称与所述待关联标准POI数据中的POI名称的名称相似度; 计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度; 对所述名称相似度与所述坐标相似度进行加权归一化处理,得到预选标准POI数据描述的POI与所述待关联的标准POI数据描述的POI的相似度。
16.根据权利要求15所述的装置,其特征在于,所述确定单元,计算所述预选标准POI数据中的POI名称与所述待关联的标准POI数据中的POI名称的名称相似度,具体用于: 对所述预选标准POI数据中的POI名称进行分词处理,得到第一名称片段集合; 对所述待关联的标准POI数据中的POI名称进行分词处理,得到第二名称片段集合; 确定出所述第一名称片段集合与所述第二名称片段集合中的重叠的名称片段; 将重叠名称片段的长度与预选标准POI数据中的POI名称的字符串长度的比值,确定为第一名称子相似度; 将重叠名称片段的长度与所述待关联的标准POI数据中的POI名称的字符串长度的比值,确定为第二名称子相似度;将所述第一名称子相似度和第二名称子相似度代入下列公式,得到所述名称相似度:.Simiiarilv PO1.xSimiiarily POl、
17.根据权利要求16所述的装置,其特征在于,所述确定单元计算所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标的坐标相似度,具体用于: 根据所述预选标准POI数据中的POI坐标与所述待关联的标准POI数据中的POI坐标,计算出两个坐标点的球面距离; 根据下式,确定出所述坐标相似度:
Prob_Lat_Long (POI1, POI2) =e ^dist (xl’y1’x2’y2)/529.8] 式中,Prob_Lat_Long(P0I1, POI2)表示坐标相似度,dist(x1, Y1, x2, y2)表示预选标准POI数据描述的POI1的坐标点(X1, Y1)与所述待关联的标准POI数据描述的POI2的坐标点(x2, y2)的球面距离。
18.根据权利要求14所述的装置,其特征在于,描述同一POI的标准POI数据的ID对应关系存储在所述数据库的一个关联簇中; 所述关联建立单元,具体用于:当所述数据库中关联簇包含所述确定出的标准POI数据的ID但是不包含所述待关联的标准POI数据的ID时,将所述待关联的标准POI数据的ID添加到所述关联簇中;以及,当所述数据库中关联簇中不包含所述待关联的标准POI数据的ID和所述确定出的标准POI数据的ID时,建立新关联簇,并为该新关联簇分配唯一簇ID,将所述待关联的标准POI数据的ID与所述确定出的标准POI数据的ID存储到所述新关联族中。
19.根据权利要求18所述的装置,其特征在于,还包括: 记录单元,用于建立所述待关联的标准POI数据的ID与其所在关联簇的簇ID的对应关系,并将该对应关系作为一条记录存储到预设的关联簇表中。
20.一种兴趣点POI检索装置,其特征在于,包括: 接收单元,用于接收用户输入的POI检索请求,所述POI检索请求中包含POI检索关键词; 检索单元,用于从数据库中检索与所述POI检索关键词相关的标准POI数据,所述标准POI数据是按照预设的标准POI属性字段,对来源网站获取的源POI数据的属性字段进行标准化处理得到; 检索结果展示单元,用于根据数据库中存储的相关对应关系,从所述数据库中获取与所述检索到的标准POI数据描述同一 POI的其他标准POI数据,并将获取到的标准POI数据与所述检索到的标准POI数据中的部分或全部展示给所述用户。
21.根据权利要求20所述的装置,其特征在于,所述相关对应关系为描述同一POI的所有标准POI数据的数据库ID的对应关系;或者, 所述相关对应关系为标准POI数据的数据库ID与该标准POI数据所在关联簇的簇ID的对应关系,所述关联簇中包含所述标准POI数据的数据库ID、所有与所述标准POI数据描述同一 POI的其他标准POI数据的数据库ID。
22.根据权利要求20或21所述的装置,其特征在于,所述POI检索请求中还包含检索结果展示指令; 所述检索结果展示单元,具体用于: 当根据所述检索结果展示指令确定展示获取到的部分标准POI数据时,从获取到的标准POI数据与检索到的标准POI中选取部分标准POI数据展示给用户; 当根据所述检索结果展示指令确定展示获取到的所有标准POI数据时,将获取到的所有标准POI数据与检索到的标准 POI数据展示给用户。
【文档编号】G06F17/30GK103514199SQ201210214208
【公开日】2014年1月15日 申请日期:2012年6月25日 优先权日:2012年6月25日
【发明者】董克钦 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1