一种挖掘互联网中的兴趣点poi数据的方法和装置的制造方法_3

文档序号:9489498阅读:来源:国知局
源主域的置信度值进行评分, 在确定了挖掘到的Ρ0Ι数据为可信数据后,由于对于名称相同的Ρ0Ι数据,只能选取挖掘到 的多个Ρ0Ι数据中的一个进行记录,而各Ρ0Ι数据的经炜度不同,此时需要进行合理地选 择,从多个主域中选择一个主域,将从该选择的主域中挖掘到的Ρ0Ι数据作为最后挖掘到 的Ρ0Ι数据进行记录。以1中的四条数据为例,如果依照网站知名度选取了WWW.meituan. com,评分超过预设值,则将数据来源为www.meituan.com对应的P0I数据作为最后挖掘到 的Ρ0Ι数据进行记录。
[0051] 可见,图2所示的装置,采用置信度评分方式,对从各主域中挖掘到的同名称Ρ0Ι 数据进行评价,由于对于一条Ρ0Ι数据,最终只能确定唯一的经炜度,将置信度评分超过预 设值时,从多个主域中选择一个主域。将从该选择的主域中挖掘到的Ρ0Ι数据作为最后挖 掘到的Ρ0Ι数据,可以从挖掘到的Ρ0Ι数据中剔除错误、多余的Ρ0Ι数据,提高Ρ0Ι数据挖 掘的准确率,提升用户体验。
[0052] 在本发明的一个实施例中,图2所示的装置中,评分单元220,适于将多个主域的 置信度值进行累加得到评分。具体地 表示名称为N的Ρ0Ι数据根据其来源的各个主域的置信度值得到的评分,ak为该名称为N的Ρ0Ι数据所在的第k个主域的置信度。得到该Ρ0Ι的评分后,将该评分与预设值进行比 对,根据经验,可以将评分阈值设定为1. 6,即当score(N) > 1. 6时,认为该名称为N的Ρ0Ι 数据为可信的。详细实施方式与前述对应方法的实施例中相同,在此不再赘述。
[0053] 在本发明的一个实施例中,图2所示的方法中,评分单元220,适于从多个主域中 选择置信度值最高的主域。详细实施方式与前述对应方法的实施例中相同,上文已详细说 明,在此不再赘述。
[0054] 在本发明的一个实施例中,图2所示的装置进一步包括:置信度值获取单元,适于 获取各主域的置信度值。具体地,置信度值获取单元,适于预设一个Ρ0Ι数据集合;对于一 个主域,运用Ρ0Ι数据集合对从该主域中挖掘到的Ρ0Ι数据进行测试,如果Ρ0Ι数据集合中 的一条Ρ0Ι数据可在该主域挖掘到的Ρ0Ι数据中找到与其名称相同的Ρ0Ι数据,则对比两 条Ρ0Ι数据的经炜度,当两条Ρ0Ι数据的经炜度距离在预设范围内时,将此条在该主域中挖 掘到的Ρ0Ι数据记为可信Ρ0Ι数据;统计该主域中的可信Ρ0Ι数据总数X,以及统计Ρ0Ι数 据集合中与该主域中挖掘到的Ρ0Ι数据名称相同的Ρ0Ι数据总数Y,该主域的置信度值等于 X/Y;将该主域的置信度值保存到置信度数据库中。其中,置信度值获取单元,从置信度数据 库获取各主域的置信度值。置信度值获取单元获取各主域的置信度值的详细实施方式与前 述对应方法的实施例中相同,上文已详细说明,在此不再赘述。
[0055] 在本发明的一个实施例中,上述装置进一步包括:
[0056] 去重单元,当从一个主域中挖掘到了多个名称相同的Ρ0Ι数据时,适于对比名称 相同的各Ρ0Ι数据的经炜度,如果其中两条Ρ0Ι数据的经炜度距离在预设范围内,则将其合 并为一条Ρ0Ι数据。去重单元的详细实施方式与前述对应方法的实施例中相同,上文已详 细说明,在此不再赘述。
[0057] 综上所述,本发明的技术方案,首先从各主域中挖掘包括名称和经炜度的Ρ0Ι数 据,如果从多个主域中都挖掘到了名称相同的Ρ0Ι数据,基本可以确定其实质描述的是同 一条Ρ0Ι数据的信息,可以对其先进行合并处理。由于对于一条Ρ0Ι数据,最终只能确定唯 一的经炜度,则将挖掘到的名称相同的Ρ0Ι数据根据从置信度数据库中获取的多个主域的 置信度值进行评分,当评分超过预设值时,从多个主域中选择一个主域,具体可以选取置信 度最高的主域,将从该选择的主域中挖掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据进行记 录。该技术方案采用置信度评分方式,可以从挖掘到的Ρ0Ι数据中剔除错误、多余的Ρ0Ι数 据,提高Ρ0Ι数据挖掘的准确率,提升用户体验。
[0058] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
[0059] 需要说明的是:
[0060] 在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。 各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求 的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种 编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发 明的最佳实施方式。
[0061] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0062] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0063] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任 何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开 的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代 特征来代替。
[0064] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0065]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的挖掘互联网中的兴趣点 Ρ0Ι数据的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执 行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机 程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或 者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或 者以任何其他形式提供。
[0066] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在 未列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这 样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来 实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件 项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。
[0067]本发明公开了A1、一种挖掘互联网中的兴趣点Ρ0Ι数据的方法,其中,该方法包 括:
[0068] 从各主域中挖掘Ρ0Ι数据;其中,一条Ρ0Ι数据包括名称和经炜度;
[0069] 如果从多个主域中都挖掘
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1