检测兴趣点poi数据准确性的方法及装置的制造方法

文档序号:8922610阅读:643来源:国知局
检测兴趣点poi数据准确性的方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体而言,本发明涉及一种检测兴趣点POI数据准确性的方法及装置。
【背景技术】
[0002]在地理信息系统中,一个POI (Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据通常包括地址信息和名称信息。
[0003]传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取一个POI的经玮度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,很难根据数量很少的POI数据来绘制地图供地理信息系统进行展示。
[0004]互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。
[0005]然而,互联网上充斥着大量虚假的POI数据,比如博客网页内容中包含“原文地址:http://xxx.XXX.xxx/xxx”,虽然包含“地址”字样,但该地址是网络地址或者说是URL (Uniform Resoure Locator,统一资源定位器),并不是POI数据中的地理地址信息;从而导致收集到的POI数据中包含虚假的POI数据的比例较高。目前,还没有检测POI数据准确性的方法,导致现有收集的POI数据的准确性较低。
[0006]因此,有必要提供一种检测POI数据准确性的方法及装置,以提高收集到的POI数据的准确性。

【发明内容】

[0007]本发明的目的旨在至少解决上述技术缺陷之一,特别是从互联网中提取到的大量POI数据准确性较低的问题。
[0008]本发明的技术方案根据一个方面,提供了一种检测兴趣点POI数据准确性的方法,包括:
[0009]提取POI数据提供网站中的多个POI数据;
[0010]定位官网的地址信息页面,并从所述地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0011]将所述多个POI数据与所述名称地址对进行一一比对;
[0012]当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0013]本发明的技术方案根据另一个方面,提供了一种检测兴趣点POI数据准确性的装置,包括:
[0014]POI数据提取模块,用于提取POI数据提供网站中的多个POI数据;
[0015]名称地址对提取模块,用于定位官网的地址信息页面,并从所述地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0016]比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对;
[0017]第一准确POI确定模块,用于当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0018]本方案的实施例中,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,从整体上提高了收集准确的POI数据的效率;进一步地,可提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。
[0019]此外,该技术方案中,对于patten集合,若其中任一 URL对应的网页包括的任一个POI数据为准确的POI数据,则将该patten集合涉及的所有POI数据都确定为准确的POI数据,实现了在保证POI数据较为准确的基础上收集到更多的POI数据的目的,进一步从整体上提升了收集准确的POI数据的效率。
[0020]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0021]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0022]图1a为本发明中检测兴趣点POI数据准确性的方法一个实施例的流程示意图;
[0023]图1b为本发明中包括多个POI数据的单个网页的示意图;
[0024]图1c和图1d都为本发明中官网的局部网页或页面的示意图;
[0025]图2为本发明中检测兴趣点POI数据准确性的装置一个实施例的框架结构示意图;
[0026]图3为本发明中POI数据提取模块201的内部结构的框架示意图;
[0027]图4和图5都为本发明中名称地址对提取模块202的内部结构的框架示意图;
[0028]图6为本发明中比对模块203的内部结构的框架示意图。
【具体实施方式】
[0029]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0030]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0031]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0032]本发明的发明人注意到,一般官网提供的信息是比较权威的,那么可以认为官网提供的地址信息和名称信息一般也是正确的。官网,即官方网站,一般是指由某组织与个人建立的最具权威、最有公信力、或唯一指定网站,其最大的特点是权威。
[0033]本发明的发明人考虑到,可以利用官网提供的包括地址信息和名称信息的名称地址对的权威性,来检测从POI数据提供网站中提取出的POI数据的准确性;例如,POI数据与官网的名称地址对相匹配,则确认该POI数据为准确的POI数据。本发明的方法可以大大提尚收集到的POI数据的准确性,有利于提尚收集到准确的POI数据的几率,从而提尚基于准确的POI数据的服务的水准,增加使用这些服务的用户的体验。
[0034]下面结合附图具体介绍本发明实施例的技术方案。
[0035]图1a为本发明中检测兴趣点POI数据准确性的方法一个实施例的流程图。
[0036]SlOl:提取POI数据提供网站中的多个POI数据;S102:定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对;S103:将提取自POI数据提供网站的多个POI数据与提取自官网的多个名称地址对进行一一比对;S104:当任一 POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0037]本发明中上述检测兴趣点POI数据准确性的方法,相当于利用提取自官网的具有权威性和正确性的名称地址对,来检测提取自POI数据提供网站的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,使得可以收集到更多的准确的POI数据,从而整体上提高了收集准确的POI数据的效率。
[0038]本发明实施例的技术方案中,可以预先尽可能多地收集多个官网的网络地址。网络地址可以包括URL。
[0039]具体地,可以获取互联网上的多个首页URL,根据首页URL所在的主域对URL进行聚类,如果一个主域中包含的不同的首页URL数量小于设定的阈值,则选择用户关注度最高的首页URL作为这个网站的官网的网络地址。用户关注度可以包括:访问量、每次访问的浏览时长等。
[0040]例如,“北京王府中西医结合医院”的网站首页URL:http://www.rimh.cn/,其主域rimh.cn下的首页URL数量较少,可以选择一个用户关注度最高的首页URL作为该网站的官网。
[0041]优选地,若主域下包含了大量的首页URL,例如首页URL的数目超过了设定的阈值,则确定该主域属于泛域,将其下的多个首页URL分别作为多个官网的网络地址。
[0042]比如,主域1688.com下包含了如下大量的首页URL:
[0043]http: / / ahwan j iuyuan.1688.com/
[0044]http://zgjlfl.1688.com/
[0045]http: //b jninedeer.1688.com/
[0046]................
[0047]将主域1688.com下的所有首页URL分别作为多个官网的网络地址。
[0048]基于上述多个官网的网络地址,下面具体介绍流程示意图如图1a所示的检测兴趣点POI数据准确性的方法,包括如下步骤:
[0049]SlOl:提取POI数据提供网站中的多个POI数据。
[0050]本发明的发明人发现,互联网
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1