一种poi信息差分方法和装置制造方法

文档序号:6501752阅读:144来源:国知局
一种poi信息差分方法和装置制造方法
【专利摘要】本发明提供了一种POI信息差分方法和装置,所述方法包括如下步骤:将待差分POI信息拆解成多个第一特征词;将多个第一特征词进行组合,并通过搜索引擎查询获取POI集合;计算POI集合中每个POI信息与待差分POI信息之间的第一相似度;根据所述第一相似度来选择一个或者多个POI信息作为待差分POI信息的差分结果。本发明将待差分POI信息拆解成多个特征词,将该特征词进行有效组合,查询相关POI集合,计算集合中的POI与待差分POI信息之间的相似度,并根据相似度来输出差分结果,该POI信息的差分方法利用这些拆分后的特征词,能组合出更多的查询条件,从而查询出更多可能的结果,提高了系统的匹配率。
【专利说明】一种P01信息差分方法和装置

【技术领域】
[0001] 本发明涉及Ρ0Ι差分领域,特别是涉及一种Ρ0Ι信息差分方法和装置。

【背景技术】
[0002] 在现阶段作业员对第三方POI (Point of Interest,兴趣点)库进行差分,主要是 提取Ρ0Ι名称与Ρ0Ι地址的主体词,对电话进行格式化,之后利用名称与地址的主体词,以 及电话、类型、坐标这些信息,去原始库中查找相关信息;在查询的结果中寻找相似度高的 Ρ0Ι作为匹配的结果;其中相似度主要依赖名称的主体与地址的主体相似度计算;计算的 方法主要采用编辑距离、Jaccard相似性系数等方法。现有的这种差分方法,每天每人只能 差分出100-200条Ρ0Ι,随着第三方Ρ0Ι信息急剧增多,传统的差分方法已经严重的影响地 理信息数据的生产。
[0003] 现有的Ρ0Ι差分的方法中通常情况下都是通过人为的建立第三方Ρ0Ι库与原始库 类别对照关系或者人为对第三方Ρ0Ι库进行类别标注,来解决第三方P0I库与原始库类别 不统一带来的误差,但是这种方式非常笼统,有一定误差,不利于缩小匹配范围;同时Ρ0Ι 坐标主要来自第三方Ρ0Ι库,但是通常第三方库的坐标都有一定偏差,而且大多数第三方 P0I库中都不包含坐标,同样不利于缩小匹配范围;在相似度的计算方法上,主要依赖地址 与名称拆分后的主体相似度,这种方法用于计算地址的相似度并不准确,因为地址是分地 理级别,在不同区会出现主体重名现象,而且不同地址才分后的地址级别权重应该是变化 的;同时只靠名称主体、地址主体、类别与坐标去缩小匹配的范围会照成部分匹配数据的遗 漏。
[0004] 总之,现有的Ρ0Ι差分系统匹配率低,耗费时间长,增加了后续操作的难度。


【发明内容】

[0005] 本发明的目的是提供一种Ρ0Ι信息差分方法和装置,提高了 Ρ0Ι差分匹配率,减少 了耗费时间。
[0006] 为了解决上述技术问题,本发明提供了一种Ρ0Ι信息差分方法,包括如下步骤:
[0007] 将待差分Ρ0Ι信息拆解成多个第一特征词;
[0008] 将多个第一特征词进行组合,并通过搜索引擎查询获取Ρ0Ι集合;
[0009] 计算Ρ0Ι集合中每个Ρ0Ι信息与待差分Ρ0Ι信息之间的第一相似度;
[0010] 根据所述第一相似度来选择一个或者多个Ρ0Ι信息作为待差分Ρ0Ι信息的差分结 果。
[0011] 优选地,所述计算Ρ0Ι集合中每个Ρ0Ι信息与待差分Ρ0Ι信息之间的第一相似度, 进一步包括:
[0012] 为Ρ0Ι信息中的各个第二特征词分别分配一权重;
[0013] 计算各个第二特征词与已有Ρ0Ι查询库的第二相似度;
[0014] 将Ρ0Ι信息中各个第二特征词分配的权重和其对应的第二相似度的乘积进行求 和运算,得到运算结果;
[0015] 将该运算结果作为所述Ρ0Ι信息与待差分Ρ0Ι信息之间的第一相似度。
[0016] 优选地,所述Ρ0Ι信息的第二特征词为名称、地址、电话、类别中的一种或者多种;
[0017] 当第二特征词为名称时,该名称与已有Ρ0Ι查询库的第二相似度为:该名称与已 有Ρ0Ι查询库的匹配结果;
[0018] 当第二特征词为地址时,该地址与已有Ρ0Ι查询库的第二相似度为:将该地址根 据级别划分为多个子地址,为每个子地址分配一权重,将每个子地址同已有Ρ0Ι查询库进 行匹配来获取子相似度,并将每个子地址的权重与对应匹配的子相似度的乘积进行求和运 算,得到的结果;
[0019] 当第二特征词为电话时,该电话与已有Ρ0Ι查询库的第二相似度为:该电话与已 有Ρ0Ι查询库的匹配结果;
[0020] 当第二特征词为类别时,该类别与已有Ρ0Ι查询库的第二相似度为:该类别与已 有Ρ0Ι查询库的匹配结果。
[0021] 优选地,采用如下公式进行计算该地址的第二相似度scoreadfc : η
[0022] scoreαΜ. level,; k^l
[0023] 其中n为地址划分的级别总数;levelk为不同级别的子地址匹配的子相似度;a k 为子地址对应级别的权重

【权利要求】
1. 一种POI信息差分方法,其特征在于,包括如下步骤: 将待差分P0I信息拆解成多个第一特征词; 将多个第一特征词进行组合,并通过搜索引擎查询获取P0I集合; 计算P0I集合中每个P0I信息与待差分P0I信息之间的第一相似度; 根据所述第一相似度来选择一个或者多个P0I信息作为待差分P0I信息的差分结果。
2. 根据权利要求1所述的P0I信息差分方法,其特征在于,所述计算P0I集合中每个 P0I信息与待差分P0I信息之间的第一相似度,进一步包括: 为P0I信息中的各个第二特征词分别分配一权重; 计算各个第二特征词与已有P0I查询库的第二相似度; 将P0I信息中各个第二特征词分配的权重和其对应的第二相似度的乘积进行求和运 算,得到运算结果; 将该运算结果作为所述P0I信息与待差分P0I信息之间的第一相似度。
3. 根据权利要求2所述的P0I信息差分方法,其特征在于,所述P0I信息的第二特征词 为名称、地址、电话、类别中的一种或者多种; 当第二特征词为名称时,该名称与已有P0I查询库的第二相似度为:该名称与已有P0I 查询库的匹配结果; 当第二特征词为地址时,该地址与已有P0I查询库的第二相似度为:将该地址根据级 别划分为多个子地址,为每个子地址分配一权重,将每个子地址同已有P0I查询库进行匹 配来获取子相似度,并将每个子地址的权重与对应匹配的子相似度的乘积进行求和运算, 得到的结果; 当第二特征词为电话时,该电话与已有P0I查询库的第二相似度为:该电话与已有P0I 查询库的匹配结果; 当第二特征词为类别时,该类别与已有P0I查询库的第二相似度为:该类别与已有P0I 查询库的匹配结果。
4. 根据权利要求3所述的P0I信息差分方法,其特征在于,采用如下公式进行计算该地 址的第二相似度scoreaddr :
其中η为地址划分的级别总数;levelk为不同级别的子地址匹配的子相似度;a k为子 地址对应级别的权重,
5. 根据权利要求3所述的P0I信息差分方法,其特征在于,当第二特征词为地址时,并 且该地址与已有P0I查询库同时存在坐标时,还计算该地址与已有P0I查询库距离,根据计 算的距离来得到第三相似度,将该第三相似度与该地址根据划分的子地址计算的相似度进 行比较,选择其中一个作为该地址与已有P0I查询库的第二相似度。
6. 根据权利要求5所述的P0I信息差分方法,其特征在于,所述第三相似度采用如下公 式进行计算: scoread&_2 = dist/dist_kind,其中,dist为所述地址与已有P0I查询库进行查询的距 离,dist_kind为给不同类预定的最大长度。
7. 根据权利要求3-6中任何一项所述的POI信息差分方法,其特征在于,所述POI信息 中的第二特征词为名称、地址、电话和类别的组合时,该P0I信息与待差分P0I信息之间的 第一相似度score为: score = a *scorename+^ · socreaddress+x · socrephone+δ · socrekind, 其中,α、β、x、δ为分配的权重,且α+β + χ + δ =1 ;scorename为名称第二相似度, scoreadfc地址第二相似度,scoreph_为电话第二相似度,scorekind为类别第二相似度。
8. -种P0I信息差分装置,其特征在于,包括: 特征词拆解模块,用于将获取的待差分P0I信息拆解成多个第一特征词; P0I集合获取模块,用于将多个第一特征词进行组合并通过搜索引擎查询获取P0I集 合; 相似度确定模块,用于计算P0I集合中每个P0I信息与待差分P0I信息之间的第一相 似度; 输出模块,用于根据第一相似度来选择一个或者多个P0I信息作为待差分P0I信息的 差分结果。
9. 根据权利要求8所述的P0I信息差分装置,其特征在于,所述相似度确定模块进一步 包括, 权重分配子模块,用于为P0I信息中的各个第二特征词分别分配一权重; 相似度计算子模块,用于计算每个第二特征词与已有P0I查询库的第二相似度; 求和运算子模块,用于将P0I信息中各个第二特征词分配的权重和其对应的第二相似 度的乘积进行求和运算; 运算结果输出子模块,用于输出作为第一相似度的该运算结果。
10. 据权利要求9所述的P0I信息差分装置,其特征在于,所述相似度计算子模块进一 步包括: 当第二特征词为名称时,该名称与已有P0I查询库的第二相似度为:该名称与已有P0I 查询库的匹配结果; 当第二特征词为地址时,该地址与已有P0I查询库的第二相似度为:将该地址根据级 别划分为多个子地址,为每个子地址分配一权重,将每个子地址同已有P0I查询库进行匹 配来获取子相似度,并将每个子地址的权重与对应匹配的子相似度的乘积进行求和运算, 得到的结果; 当第二特征词为电话时,该电话与已有P0I查询库的第二相似度为:该电话与已有P0I 查询库的匹配结果; 当第二特征词为类别时,该类别与已有P0I查询库的第二相似度为:该类别与已有P0I 查询库的匹配结果。
【文档编号】G06F17/30GK104102667SQ201310125396
【公开日】2014年10月15日 申请日期:2013年4月11日 优先权日:2013年4月11日
【发明者】罗丽俊 申请人:北京四维图新科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1