一种挖掘互联网中的兴趣点poi数据的方法和装置的制造方法

文档序号:9489498阅读:436来源:国知局
一种挖掘互联网中的兴趣点poi数据的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别涉及一种挖掘互联网中的兴趣点Ρ0Ι数据的方法 和装置。
【背景技术】
[0002]POI(PointofInterest),即兴趣点,是地理信息系统中重要的信息,甚至可以称 为整个地图导航产业的基石。在地理信息系统中,一条Ρ0Ι数据可以是一栋房子,一个商 铺,一个邮筒,一个公交站等。传统的地理信息采集方法需要地图测绘人员采用精密的测绘 仪器去获取一个Ρ0Ι的经炜度,然后再标记下来。
[0003] 而在互联网中,实现了将测绘得到的底图数据制成电子地图,自然地,在电子地图 中可以根据P0I数据的经炜度将其在电子地图中加以标注。现有的生活服务类平台大多拥 有自己的Ρ0Ι数据库,可以为用户提供服务型Ρ0Ι数据,但Ρ0Ι数据库只能涵盖部分Ρ0Ι数 据,在海量网页中依然存在着许多未被收录的Ρ0Ι数据,由此产生了对P0I进行数据挖掘的 需求。
[0004] 然而,不同的网页所提供的Ρ0Ι数据的质量参差不齐,具体表现对于相同名称Ρ0Ι 数据,各个网页提供的该Ρ0Ι数据的经炜度可能不同,而Ρ0Ι的经炜度恰恰是P0I数据中的 重要指标,需要解决从获取到的Ρ0Ι数据中确定可信度高的P0I数据。

【发明内容】

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的挖掘互联网中的兴趣点Ρ0Ι数据的方法和装置。
[0006] 依据本发明的一个方面,提供了一种挖掘互联网中的兴趣点Ρ0Ι数据的方法,包 括:从各主域中挖掘Ρ0Ι数据;其中,一条Ρ0Ι数据包括名称和经炜度;如果从多个主域中 都挖掘到了名称相同的Ρ0Ι数据,根据所述多个主域的置信度值进行评分;当评分超过预 设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的P0I数据作为最 后挖掘到的Ρ0Ι数据进行记录。
[0007] 可选地,根据所述多个主域的置信度值进行评分包括:将所述多个主域的置信度 值进行累加得到评分。
[0008] 可选地,从所述多个主域中选择一个主域包括:从所述多个主域中选择置信度值 最高的主域。
[0009] 可选地,该方法进一步包括:获取各主域的置信度值。
[0010] 可选地,所述获取各主域的置信度值包括:预设一个Ρ0Ι数据集合;对于一个主 域,运用所述Ρ0Ι数据集合对从该主域中挖掘到的Ρ0Ι数据进行测试,如果所述Ρ0Ι数据集 合中的一条Ρ0Ι数据可在该主域挖掘到的Ρ0Ι数据中找到与其名称相同的P0I数据,则对 比两条Ρ0Ι数据的经炜度,当所述两条Ρ0Ι数据的经炜度距离在预设范围内时,将此条在该 主域中挖掘到的Ρ0Ι数据记为可信Ρ0Ι数据;统计该主域中的可信Ρ0Ι数据总数X,以及统 计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的 置信度值等于Χ/Υ;将该主域的置信度值保存到置信度数据库中。
[0011] 可选地,所述获取各主域的置信度值包括:从所述置信度数据库获取各主域的置 信度值。
[0012] 可选地,该方法进一步包括:如果从一个主域中挖掘到了多个名称相同的Ρ0Ι数 据,则对比名称相同的各Ρ0Ι数据的经炜度,如果其中两条Ρ0Ι数据的经炜度距离在预设范 围内,则将其合并为一条Ρ0Ι数据。
[0013] 依据本分发明的另一个方面,提供了一种挖掘互联网中的兴趣点Ρ0Ι数据的装 置,包括:数据挖掘单元,适于从各主域中挖掘Ρ0Ι数据;其中,一条Ρ0Ι数据包括名称和经 炜度;评分单元,当从多个主域中都挖掘到了名称相同的Ρ0Ι数据时,适于根据所述多个主 域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选 择的主域中挖掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据进行记录。
[0014] 可选地,所述评分单元,适于将所述多个主域的置信度值进行累加得到评分。
[0015] 可选地,所述评分单元,适于从所述多个主域中选择置信度值最高的主域。
[0016] 可选地,该装置进一步包括:置信度值获取单元,适于获取各主域的置信度值。
[0017] 可选地,所述置信度值获取单元,适于预设一个Ρ0Ι数据集合;对于一个主域,运 用所述Ρ0Ι数据集合对从该主域中挖掘到的Ρ0Ι数据进行测试,如果所述Ρ0Ι数据集合中 的一条Ρ0Ι数据可在该主域挖掘到的Ρ0Ι数据中找到与其名称相同的Ρ0Ι数据,则对比两 条Ρ0Ι数据的经炜度,当所述两条Ρ0Ι数据的经炜度距离在预设范围内时,将此条在该主域 中挖掘到的Ρ0Ι数据记为可信Ρ0Ι数据;统计该主域中的可信Ρ0Ι数据总数X,以及统计所 述Ρ0Ι数据集合中与该主域中挖掘到的Ρ0Ι数据名称相同的Ρ0Ι数据总数Υ,该主域的置信 度值等于Χ/Υ;将该主域的置信度值保存到置信度数据库中。
[0018] 可选地,所述置信度值获取单元,从所述置信度数据库获取各主域的置信度值。
[0019] 可选地,该装置进一步包括:去重单元,当从一个主域中挖掘到了多个名称相同的 Ρ0Ι数据时,适于对比名称相同的各Ρ0Ι数据的经炜度,如果其中两条Ρ0Ι数据的经炜度距 离在预设范围内,则将其合并为一条Ρ0Ι数据。
[0020] 由上述可知,本发明的技术方案,首先从各主域中挖掘包括名称和经炜度的Ρ0Ι 数据,如果从多个主域中都挖掘到了名称相同的Ρ0Ι数据,基本可以确定其实质描述的是 同一条Ρ0Ι数据的信息,由于对于一条Ρ0Ι数据,最终只能确定唯一的经炜度,则将挖掘到 的名称相同的Ρ0Ι数据根据多个主域的置信度值进行评分,当评分超过预设值时,从多个 主域中选择一个主域,将从该选择的主域中挖掘到的Ρ0Ι数据作为最后挖掘到的Ρ0Ι数据 进行记录。该技术方案采用置信度评分方式,可以从挖掘到的Ρ0Ι数据中剔除错误、多余的 Ρ0Ι数据,提高Ρ0Ι数据挖掘的准确率,提升用户体验。
【附图说明】
[0021] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0022] 图1示出了根据本发明一个实施例的一种挖掘互联网中的兴趣点Ρ0Ι数据的方法 流程图;
[0023] 图2示出了根据本发明一个实施例的一种挖掘互联网中的兴趣点Ρ0Ι数据的装置 结构图。
【具体实施方式】
[0024] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0025] 图1示出了根据本发明一个实施例的一种挖掘互联网中的兴趣点Ρ0Ι数据的方法 流程图,如图1所示,该方法包括:
[0026] 步骤S110,从各主域中挖掘Ρ0Ι数据;其中,一条Ρ0Ι数据包括名称和经炜度。
[0027] 本发明的技术方案中所称"主域"是指,互联网中可获取到的一级域名及该一级域 名对应的各级域名。例如一级域名baidu.com,以及其对应的二级域名zhidao.baidu.com、 三级域名open,weigou.baidu.com等。
[0028] 步骤S120,如果从多个主域中都挖掘到了名称相同的Ρ0Ι数据,根据多个主域的 置信度值进行评分。
[0029] 表1示出了若干挖掘到的Ρ0Ι数据。如表1所示,每一行代表了一条Ρ0Ι数据的 各项信息,包括名称、地址、经炜度和挖掘来源。表1所示的Ρ0Ι数据名称均为lobby大堂 (星光大道店),对比表中所列出的此四条Ρ0Ι数据的地址可以发现,其描述的是同一个地 址,此四条Ρ0Ι数据实际可以归为一条Ρ0Ι数据。首先需要解决的问题是,此四条Ρ0Ι数据 是否为可信数据。如果仅在一个或少数可信度较低的主域挖掘到名称相同的P0I数据,这 些挖掘到的Ρ0Ι数据也未必是正确的。因此在本步骤中,对挖掘到的名称相同的Ρ0Ι数据
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1