一种挖掘互联网中的兴趣点poi数据的方法和装置的制造方法_4

文档序号:9489498阅读:来源:国知局
到了名称相同的Ρ0Ι数据,根据所述多个主域的置信度 值进行评分;
[0070] 当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖 掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据进行记录。
[0071]A2、如A1所述的方法,其中,根据所述多个主域的置信度值进行评分包括:
[0072] 将所述多个主域的置信度值进行累加得到评分。
[0073]A3、如A1所述的方法,其中,从所述多个主域中选择一个主域包括:从所述多个主 域中选择置信度值最高的主域。
[0074]A4、如A1所述的方法,其中,该方法进一步包括:获取各主域的置信度值。
[0075]A5、如A4所述的方法,其中,所述获取各主域的置信度值包括:
[0076] 预设一个Ρ0Ι数据集合;
[0077] 对于一个主域,运用所述Ρ0Ι数据集合对从该主域中挖掘到的Ρ0Ι数据进行测试, 如果所述Ρ0Ι数据集合中的一条Ρ0Ι数据可在该主域挖掘到的Ρ0Ι数据中找到与其名称相 同的Ρ0Ι数据,则对比两条Ρ0Ι数据的经炜度,当所述两条Ρ0Ι数据的经炜度距离在预设范 围内时,将此条在该主域中挖掘到的Ρ0Ι数据记为可信Ρ0Ι数据;
[0078] 统计该主域中的可信Ρ0Ι数据总数X,以及统计所述Ρ0Ι数据集合中与该主域中挖 掘到的Ρ0Ι数据名称相同的Ρ0Ι数据总数Y,该主域的置信度值等于X/Y;
[0079] 将该主域的置信度值保存到置信度数据库中。
[0080]A6、如A5所述的方法,所述获取各主域的置信度值包括:
[0081] 从所述置信度数据库获取各主域的置信度值。
[0082]A7、如A1-A6中任一项所述的方法,其中,该方法进一步包括:
[0083] 如果从一个主域中挖掘到了多个名称相同的Ρ0Ι数据,则对比名称相同的各Ρ0Ι 数据的经炜度,如果其中两条Ρ0Ι数据的经炜度距离在预设范围内,则将其合并为一条Ρ0Ι 数据。
[0084] 本发明还公开了B8、一种挖掘互联网中的兴趣点Ρ0Ι数据的装置,其中,该装置包 括:
[0085] 数据挖掘单元,适于从各主域中挖掘Ρ0Ι数据;其中,一条Ρ0Ι数据包括名称和经 炜度;
[0086] 评分单元,当从多个主域中都挖掘到了名称相同的Ρ0Ι数据时,适于根据所述多 个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从 该选择的主域中挖掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据进行记录。
[0087]B9、如B8所述的装置,其中,
[0088] 所述评分单元,适于将所述多个主域的置信度值进行累加得到评分。
[0089]B10、如B8所述的装置,其中,
[0090] 所述评分单元,适于从所述多个主域中选择置信度值最高的主域。
[0091]B11、如B8所述的装置,其中,该装置进一步包括:
[0092] 置信度值获取单元,适于获取各主域的置信度值。
[0093]B12、如B11所述的装置,其中,
[0094] 所述置信度值获取单元,适于预设一个Ρ0Ι数据集合;对于一个主域,运用所述 Ρ0Ι数据集合对从该主域中挖掘到的Ρ0Ι数据进行测试,如果所述Ρ0Ι数据集合中的一条 POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数 据的经炜度,当所述两条P0I数据的经炜度距离在预设范围内时,将此条在该主域中挖掘 到的P0I数据记为可信P0I数据;统计该主域中的可信P0I数据总数X,以及统计所述P0I 数据集合中与该主域中挖掘到的P0I数据名称相同的P0I数据总数Y,该主域的置信度值等 于X/Y;将该主域的置信度值保存到置信度数据库中。
[0095]B13、如B12所述的装置,其中,
[0096] 所述置信度值获取单元,从所述置信度数据库获取各主域的置信度值。
[0097]B14、如B8-B13中任一项所述的装置,其中,该装置进一步包括:
[0098] 去重单元,当从一个主域中挖掘到了多个名称相同的Ρ0Ι数据时,适于对比名称 相同的各Ρ0Ι数据的经炜度,如果其中两条P0I数据的经炜度距离在预设范围内,则将其合 并为一条P0I数据。
【主权项】
1. 一种挖掘互联网中的兴趣点POI数据的方法,其中,该方法包括: 从各主域中挖掘POI数据;其中,一条POI数据包括名称和经炜度; 如果从多个主域中都挖掘到了名称相同的POI数据,根据所述多个主域的置信度值进 行评分; 当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到 的POI数据作为最后挖掘到的POI数据进行记录。2. 如权利要求1所述的方法,其中,根据所述多个主域的置信度值进行评分包括: 将所述多个主域的置信度值进行累加得到评分。3. 如权利要求1所述的方法,其中,从所述多个主域中选择一个主域包括:从所述多个 主域中选择置信度值最高的主域。4. 如权利要求1所述的方法,其中,该方法进一步包括:获取各主域的置信度值。5. 如权利要求4所述的方法,其中,所述获取各主域的置信度值包括: 预设一个POI数据集合; 对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果 所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的 POI数据,则对比两条POI数据的经炜度,当所述两条POI数据的经炜度距离在预设范围内 时,将此条在该主域中挖掘到的POI数据记为可信POI数据; 统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到 的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y ; 将该主域的置信度值保存到置信度数据库中。6. -种挖掘互联网中的兴趣点POI数据的装置,其中,该装置包括: 数据挖掘单元,适于从各主域中挖掘POI数据;其中,一条POI数据包括名称和经炜 度; 评分单元,当从多个主域中都挖掘到了名称相同的POI数据时,适于根据所述多个主 域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选 择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。7. 如权利要求6所述的装置,其中, 所述评分单元,适于将所述多个主域的置信度值进行累加得到评分。8. 如权利要求6所述的装置,其中, 所述评分单元,适于从所述多个主域中选择置信度值最高的主域。9. 如权利要求6所述的装置,其中,该装置进一步包括: 置信度值获取单元,适于获取各主域的置信度值。10. 如权利要求9所述的装置,其中, 所述置信度值获取单元,适于预设一个POI数据集合;对于一个主域,运用所述POI数 据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数 据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的 经炜度,当所述两条POI数据的经炜度距离在预设范围内时,将此条在该主域中挖掘到的 POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计所述POI数据 集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于
【专利摘要】本发明公开了一种挖掘互联网中的兴趣点POI数据的方法和装置。方法包括:从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;如果从多个主域中都挖掘到了名称相同的POI数据,根据所述多个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。该技术方案采用置信度评分方式,可以从挖掘到的POI数据中剔除错误、多余的POI数据,提高POI数据挖掘的准确率,提升用户体验。
【IPC分类】G06F17/30
【公开号】CN105243136
【申请号】CN201510642603
【发明人】马健, 王智广
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2016年1月13日
【申请日】2015年9月30日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1