兴趣点数据融合方法和系统的制作方法

文档序号:9564583阅读:576来源:国知局
兴趣点数据融合方法和系统的制作方法
【技术领域】
[0001]本发明涉及地理信息处理领域,特别涉及一种兴趣点数据融合方法和系统。
【背景技术】
[0002]POI (Point of Interest,兴趣点)数据是地理信息系统的数据类型之一,广泛应用于导航和周边生活服务领域。由于Ρ0Ι存在图上采集、不同服务商的用户上传等,导致同一个Ρ0Ι会存在名称、地址、经纬度都不同,Ρ0Ι属性值部分相同或者部分相似的情况普遍存在。
[0003]目前的情况是,随着LBS (Locat1n Based Service,基于位置的服务)生活服务行业迅猛发展,Ρ0Ι数据的数量迅速增长,一家数据提供方的数据就在千万数量级别。为了提高数据质量,往往需要融合多来源多合作方的数据,做成一份数据。传统的方法,数据处理速度和处理准确度亟待提高,由于数据量大,准确度的任何提升都能大幅节约人工干预的成本。

【发明内容】

[0004]本发明实施例提供一种兴趣点数据融合方法和系统。可有效解决数据处理速度慢、数据处理准确性和容错性不足的问题。
[0005]根据本发明的一个方面,提供一种兴趣点数据融合方法,包括:
[0006]当获得新的目标兴趣点Ρ0Ι数据时,提取出目标Ρ0Ι数据的经纬度;
[0007]在预定的第η层经纬度网格中,确定以目标Ρ0Ι数据的经纬度为中心的区域R ;
[0008]将在第η层经纬度网格中被区域R覆盖的网格作为候选网格;
[0009]在Ρ0Ι集合中提取出与候选网格相关联的Ρ0Ι信息,以作为候选Ρ0Ι信息;
[0010]判断在候选Ρ0Ι信息中,是否存在与目标Ρ0Ι数据相重复的Ρ0Ι信息;
[0011]若在候选Ρ0Ι信息中不存在与目标Ρ0Ι数据相重复的Ρ0Ι信息,则将目标Ρ0Ι数据存入Ρ0Ι集合;
[0012]若在候选Ρ0Ι信息中存在与目标Ρ0Ι数据相重复的Ρ0Ι信息Μ,则将目标Ρ0Ι数据与Ρ0Ι信息Μ融合,并将融合后的信息存入Ρ0Ι集合,以对Ρ0Ι信息Μ进行更新。
[0013]在一个实施例中,在Ρ0Ι集合中提取出与候选网格相关联的Ρ0Ι信息,以作为候选Ρ0Ι信息的步骤包括:
[0014]判断候选网格Gi是否为底层网格,其中1彡i彡N,N为候选网格总数;
[0015]若网格Gi是底层网格,则将Ρ0Ι集合中与候选网格Gi相关联的Ρ0Ι信息作为候选Ρ0Ι信息;
[0016]若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将Ρ0Ι集合中与所述子网格相关联的Ρ0Ι信息作为候选Ρ0Ι信息。
[0017]在一个实施例中,判断在候选Ρ0Ι信息中,是否存在与目标Ρ0Ι数据相重复的Ρ0Ι信息的步骤包括:
[0018]对于候选P0I信息中的每个候选P0I信息Cj,判断目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1彡j彡M,Μ为候选Ρ0Ι信息总数,相似度Final Score同目标P0I数据与候选P0I信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;
[0019]若目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标Ρ0Ι数据与候选Ρ0Ι信息Cj重复;
[0020]若目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标Ρ0Ι数据与候选Ρ0Ι信息Cj不重复。
[0021]在一个实施例中,上述方法还包括:利用下列公式
[0022]FinalScore = (nameScore+phoneScore)*weightl+(distanceScore+addressScore)氺weight2
[0023]计算相似度FinalScore,其中weightl和weight2预先设置的权值,名称相似度nameScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的名称、类型相关联,电话相似度phoneScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的电话信息相关联,距离相似度distanceScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的经纬度相关联,地址相似度addressScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的地址相关联。
[0024]在一个实施例中,将目标Ρ0Ι数据与Ρ0Ι信息Μ融合的步骤包括:
[0025]对于目标Ρ0Ι数据与Ρ0Ι信息Μ中的名称信息,将长度最长的名称信息作为融合后的名称信息;
[0026]对于目标Ρ0Ι数据与Ρ0Ι信息Μ中的地址信息,将长度最长的地址信息作为融合后的地址信息;
[0027]对于目标Ρ0Ι数据与Ρ0Ι信息Μ中的电话信息,将两个电话信息共同作为融合后的电话信息。
[0028]在一个实施例中,将目标Ρ0Ι数据与Ρ0Ι信息Μ融合的步骤还包括:
[0029]记录目标Ρ0Ι数据的来源标识。
[0030]在一个实施例中,在预定的第η层经纬度网格中,确定以目标Ρ0Ι数据的经纬度为中心的区域R的步骤包括:
[0031]在预定的第η层经纬度网格中,生成以目标Ρ0Ι数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
[0032]根据本发明的另一方面,提供一种兴趣点数据融合系统,包括输入单元、提取单元、区域确定单元、候选网格确定单元、候选信息确定单元、识别单元和融合存储单元,其中:
[0033]输入单元,用于输入新的目标兴趣点Ρ0Ι数据;
[0034]提取单元,用于当输入单元获得目标Ρ0Ι数据时,提取出目标Ρ0Ι数据的经纬度;
[0035]区域确定单元,用于在预定的第η层经纬度网格中,确定以目标Ρ0Ι数据的经纬度为中心的区域R ;
[0036]候选网格确定单元,用于将在第η层经纬度网格中被区域R覆盖的网格作为候选网格;
[0037]候选信息确定单元,用于在Ρ0Ι集合中提取出与候选网格相关联的Ρ0Ι信息,以作为候选POI信息;
[0038]识别单元,用于判断在候选Ρ0Ι信息中,是否存在与目标Ρ0Ι数据相重复的Ρ0Ι信息;
[0039]融合存储单元,用于根据识别单元的判断结果,若在候选Ρ0Ι信息中不存在与目标Ρ0Ι数据相重复的Ρ0Ι信息,则将目标Ρ0Ι数据存入Ρ0Ι集合;若在候选Ρ0Ι信息中存在与目标Ρ0Ι数据相重复的Ρ0Ι信息M,则将目标Ρ0Ι数据与Ρ0Ι信息Μ融合,并将融合后的信息存入Ρ0Ι集合,以对Ρ0Ι信息Μ进行更新。
[0040]在一个实施例中,候选信息确定单兀包括识别模块、第一信息确定模块和第二信息确定模块,其中:
[0041]识别模块,用于判断候选网格Gi是否为底层网格,其中1彡i彡N,N为候选网格总数;
[0042]第一信息确定模块,用于根据识别模块的判断结果,若网格Gi是底层网格,则将Ρ0Ι集合中与候选网格Gi相关联的Ρ0Ι信息作为候选Ρ0Ι信息;
[0043]第二信息确定模块,用于根据识别模块的判断结果,若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将POI集合中与所述子网格相关联的Ρ0Ι信息作为候选Ρ0Ι信息。
[0044]在一个实施例中,识别单元具体对于候选Ρ0Ι信息中的每个候选Ρ0Ι信息Cj,判断目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1彡j彡M,Μ为候选Ρ0Ι信息总数,相似度FinalScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;若目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标Ρ0Ι数据与候选Ρ0Ι信息Cj重复;若目标Ρ0Ι数据与候选Ρ0Ι信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标Ρ0Ι数据与候选Ρ0Ι信息Cj不重复。
[0045]在一个实施例中,识别单元具体利用下列公式
[0046]FinalScore = (nameScore+phoneScore)*weightl+(distanceScore+addressScore)氺weight2
[0047]计算相似度FinalScore,其中weightl和weight2预先设置的权值,名称相似度nameScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的名称、类型相关联,电话相似度phoneScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的电话信息相关联,距离相似度distanceScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的经纬度相关联,地址相似度addressScore同目标Ρ0Ι数据与候选Ρ0Ι信息Cj的地址相关联。
[0048]在一个实施例中,融合存储单元具体在将目标Ρ0Ι数据与Ρ0Ι信
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1