一种挖掘互联网中的兴趣点poi数据的方法和装置的制造方法_2

文档序号:9489498阅读:来源:国知局
根据其来源主域的置信度值进行评分。
[0030]表1
[0031]
[0032] 步骤S130,当评分超过预设值时,从多个主域中选择一个主域,将从该选择的主域 中挖掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据进行记录。
[0033] 在确定了挖掘到的Ρ0Ι数据为可信数据后,由于对于名称相同的Ρ0Ι数据,只能选 取挖掘到的多个Ρ0Ι数据中的一个进行记录,而各Ρ0Ι数据的经炜度不同,此时需要进行 合理地选择,从多个主域中选择一个主域,将从该选择的主域中挖掘到的Ρ0Ι数据作为最 后挖掘到的Ρ0Ι数据进行记录。以1中的四条数据为例,如果依照网站知名度选取了WWW. meituan.com,评分超过预设值,则将数据来源为www.meituan.com对应的Ρ0Ι数据作为最 后挖掘到的Ρ0Ι数据进行记录。
[0034] 可见,图1所示的方法,采用置信度评分方式,对从各主域中挖掘到的同名称Ρ0Ι 数据进行评价,由于对于一条P0I数据,最终只能确定唯一的经炜度,将置信度评分超过预 设值时,从多个主域中选择一个主域。将从该选择的主域中挖掘到的P0I数据作为最后挖 掘到的Ρ0Ι数据,可以从挖掘到的Ρ0Ι数据中剔除错误、多余的Ρ0Ι数据,提高Ρ0Ι数据挖 掘的准确率,提升用户体验。
[0035] 在本发明的一个实施例中,根据多个主域的置信度值进行评分包括:将多个主域 的置信度值进行累加得到评分。
[0036]
进行表示,其中score(N)表示名称为N的Ρ0Ι数 据根据其来源的各个主域的置信度值得到的评分,ak为该名称为N的Ρ0Ι数据所在的第k个主域的置信度。得到该Ρ0Ι的评分后,将该评分与预设值进行比对,根据经验,可以将评 分阈值设定为1. 6,即当score(N) > 1. 6时,认为该名称为N的Ρ0Ι数据为可信的。
[0037] 表2示出了多个主域的置信度值。以表1和表2为例,名称为"lobby大 堂(星光大道店)"的Ρ0Ι数据根据其数据来源的主域的置信度值累加得到的评分为 0. 82709312+0. 953818791 = 1. 78091191D1. 6,则认为这四条Ρ0Ι数据为可信的Ρ0Ι数据。
[0038]表2
[0039]
[0040] 在本发明的一个实施例中,从多个主域中选择一个主域包括:从多个主域中选择 置信度值最高的主域。以前述实施例为例,名称为"lobby大堂(星光大道店)"的Ρ0Ι数 据已被判定为可信,但由于该名称对应的Ρ0Ι数据有四条,查找表2可知,主域名todgo.com 的置信度为〇· 953818791,大于主域名meituan.com的置信度0· 82709312,而表2中不包含 主域名hao224.com的置信度,此时,将主域名todgo.com中挖掘到的Ρ0Ι数据"名称:lobby 大堂(星光大道店);地址:杭州市滨江区星光大道1号楼227号(味千拉面对面);经炜 度:(120. 20895421,30. 20760484) "作为最后挖掘到的Ρ0Ι数据进行记录。
[0041] 在本发明的一个实施例中,图1所示的方法进一步包括:获取各主域的置信度值。
[0042] 具体地,获取各主域的置信度值包括:预设一个Ρ0Ι数据集合;对于一个主域,运 用Ρ0Ι数据集合对从该主域中挖掘到的Ρ0Ι数据进行测试,如果Ρ0Ι数据集合中的一条Ρ0Ι 数据可在该主域挖掘到的Ρ0Ι数据中找到与其名称相同的Ρ0Ι数据,则对比两条Ρ0Ι数据 的经炜度,当两条Ρ0Ι数据的经炜度距离在预设范围内时,将此条在该主域中挖掘到的Ρ0Ι 数据记为可信Ρ0Ι数据;统计该主域中的可信Ρ0Ι数据总数X,以及统计Ρ0Ι数据集合中与 该主域中挖掘到的Ρ0Ι数据名称相同的Ρ0Ι数据总数Y,该主域的置信度值等于X/Y;将该 主域的置信度值保存到置信度数据库中。
[0043] 其中,获取各主域的置信度值包括:从置信度数据库获取各主域的置信度值。
[0044] 不同主域所采用的Ρ0Ι数据生成方式不一样,所以数据质量也会有很大差别。为 了获取一个主域的置信度值,在具体实施过程中,可以使用一批高质量的P0I数据(千万量 级)作为标准进行度量,即预设一个Ρ0Ι数据集合,如果Ρ0Ι数据集合中的一条P0I数据可 在该主域挖掘到的Ρ0Ι数据中找到与其名称相同的Ρ0Ι数据,则进一步对比两条Ρ0Ι数据 的经炜度,当经炜度距离在预设范围内时,将此条在该主域中挖掘到的Ρ0Ι数据记为可信 Ρ0Ι数据,根据经验,可将预设范围优选为200米。在该对比过程结束后,统计该主域中的可 信Ρ0Ι数据总数X,以及统计Ρ0Ι数据集合中与该主域中挖掘到的Ρ0Ι数据名称相同的Ρ0Ι 数据总数Y,该主域的置信度值等于X/Y。表2中示出的多个主域的置信度值就是以此方法 得到的。得到多个主域的置信度值后,可以将其保存到置信度数据库中,此时获取各主域的 置信度值就可以利用从置信度数据库获取各主域的置信度值来完成。
[0045] 在本发明的一个实施例中,图1所示的方法进一步包括:如果从一个主域中挖掘 到了多个名称相同的Ρ0Ι数据,则对比名称相同的各Ρ0Ι数据的经炜度,如果其中两条Ρ0Ι 数据的经炜度距离在预设范围内,则将其合并为一条Ρ0Ι数据。
[0046] 以表1为例,名称为"lobby大堂(星光大道店)"的Ρ0Ι数据,在域名ha〇224.com 中可以挖掘到两条名称相同的Ρ0Ι数据,但这两条数据的经炜度不同。通过人工验证可以 很容易地看出这两条Ρ0Ι数据实质描述的为同一Ρ0Ι信息,然而面对挖掘到的大量Ρ0Ι数 据不可能利用人工一一筛选,本实施例提供了一种简单有效的Ρ0Ι数据合并方式。通过对 比这两条名称相同的Ρ0Ι数据的经炜度可以发现,二者距离仅为0. 3米。考虑大量Ρ0Ι数据 的情况,可以采取本实施例提供的策略,即如果中从一个主域中挖掘到的两条P0I数据的 经炜度距离在预设范围内,则将其合并为一条Ρ0Ι数据。根据经验,可以将该预设范围设定 为200米。事实上,还存在相类似的几种情况:在同一主域中的挖掘到多个名称与经炜度相 同的POI数据,则可以毫无疑义地将其合并为同一条POI数据;在不同主域中有时也会挖掘 到多个名称与经炜度相同的P0I数据,这是因为不同主域间存在抄袭的情况,实质上这些 名称与经炜度相同的P0I数据就是同一P0I数据,也可以将其毫无疑义地将其合并为同一 条P0I数据。此外,也存在在不同主域中挖掘到多个名称相同,经炜度相近的P0I数据,此 时可以考虑到由于网页P0I信息多数是由人工编辑,如果不同主域中存在名称相同且经炜 度相近但不相同的P0I信息,并且所产生P0I信息的主域比较可靠,那么这些P0I信息可能 描述的是同一条P0I信息,也可以采取与本实施例中类似的方法,通过预设范围加以判断。
[0047] 图2为本发明一个实施例的一种挖掘互联网中的兴趣点Ρ0Ι数据的装置结构图, 如图2所示,该挖掘互联网中的兴趣点Ρ0Ι数据的装置200包括:
[0048] 数据挖掘单元210,适于从各主域中挖掘Ρ0Ι数据;其中,一条Ρ0Ι数据包括名称 和经炜度;其中,本发明的技术方案中所称"主域"是指,互联网中可获取到的一级域名及 该一级域名对应的各级域名。例如一级域名baidu.com,以及其对应的二级域名zhidao. baidu.com、三级域名open,weigou.baidu.com等。
[0049] 评分单元220,当从多个主域中都挖掘到了名称相同的POI数据时,适于根据多个 主域的置信度值进行评分;当评分超过预设值时,从多个主域中选择一个主域,将从该选择 的主域中挖掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据进行记录。
[0050] 如表1所示,每一行代表了一条Ρ0Ι数据的各项信息,包括名称、地址、经炜度和挖 掘来源。表1所示的Ρ0Ι数据名称均为lobby大堂(星光大道店),对比表中所列出的此 四条Ρ0Ι数据的地址可以发现,其描述的是同一个地址,此四条P0I数据实际可以归为一条 Ρ0Ι数据。首先需要解决的问题是,此四条Ρ0Ι数据是否为可信数据。如果仅在一个或少 数可信度较低的主域挖掘到名称相同的Ρ0Ι数据,这些挖掘到的P0I数据也未必是正确的。 因此评分单元220对挖掘到的名称相同的Ρ0Ι数据根据其来
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1