用于确定网页页面中包括兴趣点poi数据的方法及装置的制造方法

文档序号:8381095阅读:410来源:国知局
用于确定网页页面中包括兴趣点poi数据的方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体而言,本发明涉及一种用于确定网页页面中包括兴趣点POI数据的方法及装置。
【背景技术】
[0002]在地理信息系统中,一个POI (Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据包括地址信息和POI名称。
[0003]传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取每个POI的经玮度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,地理信息系统很难根据数量很少的POI数据来提供高水平的服务。
[0004]互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。但是互联网上充斥着大量虚假的POI数据,比如博客网页内容中包含“原文地址:http://xxx.XXX.xxx/xxx”,虽然包含“地址”字样,但该地址是网络地址或者说是URL (Uniform ResoureLocator,统一资源定位器),并不是POI数据中的地理地址信息;从而导致收集到的POI数据中虚假的POI数据的比例较高。

【发明内容】

[0005]本发明针对现有技术的缺点,提出一种用于确定网页页面中包括兴趣点POI数据的方法和装置,用以解决现有技术存在的收集较多虚假的POI数据问题。
[0006]本发明根据一个方面,提供了一种用于确定网页页面中包括兴趣点POI数据的方法,包括:
[0007]从互联网中获取多个POI数据;
[0008]爬取包括地址信息的多个网页页面;
[0009]将所述多个POI数据中的地址信息及所述多个网页页面包含的地址信息分别归一化为经玮度信息;
[0010]基于同一经玮度信息,在所述多个POI数据的经玮度信息与多个网页页面中经玮度信息中进行匹配;
[0011]对于具有相同经玮度信息的POI数据及网页页面,根据该POI数据对应的POI名称在该网页页面中进行查找,确定该网页页面中是否包括该POI数据的POI名称;
[0012]当该网页页面中包括该POI数据的POI名称时,确定该网页页面包括该兴趣点POI数据。
[0013]本发明根据另一个方面,还提供了一种用于确定网页页面中包括兴趣点POI数据的装置,包括:
[0014]POI数据获取模块,用于从互联网中获取多个POI数据;
[0015]网页页面爬取模块,用于爬取包括地址信息的多个网页页面;
[0016]经玮度信息归一化模块,用于将所述多个POI数据中的地址信息及所述多个网页页面包含的地址信息分别归一化为经玮度信息;
[0017]经玮度信息匹配模块,用于基于同一经玮度信息,在所述多个POI数据的经玮度信息与多个网页页面中经玮度信息中进行匹配;
[0018]网页页面包括POI名称确定模块,用于对于具有相同经玮度信息的POI数据及网页页面,根据该POI数据对应的POI名称在该网页页面中进行查找,确定该网页页面中是否包括该POI数据的POI名称;
[0019]网页页面包括POI数据确定模块,用于当该网页页面中包括该POI数据的POI名称时,确定该网页页面包括该兴趣点POI数据。
[0020]本发明的技术方案中,将地址信息归一化为经玮度信息,可以滤除非地理的地址信息,由于经玮度的唯一性,基于经玮度信息的匹配结果的准确性,远高于现有的基于文本信息的匹配结果的准确性,从而有利于后续避免收集到虚假地址信息的POI数据;在?01数据的经玮度信息与网页页面中的经玮度信息相匹配的基础上,进一步确定网页页面中是否包括POI数据的POI名称,来准确判断POI数据是否被包含在同一网页页面中,有利于后续根据网页页面所记载内容的权威性和准确性,来确定收集到的POI数据的准确性,进而为大批量地收集互联网中的准确度较高的POI数据提供可靠保证。
[0021]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0022]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0023]图1a为本发明实施例的用于确定网页页面中包括兴趣点POI数据的方法的流程示意图;
[0024]图1b为本发明实施例的包括多个POI数据的网页的示意图;
[0025]图2为本发明实施例的用于确定网页页面中包括兴趣点POI数据的装置的内部结构的框架示意图;
[0026]图3为本发明实施例的POI数据获取模块的内部结构的框架示意图。
【具体实施方式】
[0027]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0028]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0029]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0030]图1a为本发明中用于确定网页页面中包括兴趣点POI数据的方法的流程示意图。
[0031]SlOl:从互联网中获取多个POI数据;S102:爬取包括地址信息的多个网页页面;S103:将多个POI数据中的地址信息及多个网页页面包含的地址信息分别归一化为经玮度信息;S104:基于同一经玮度信息,在多个POI数据的经玮度信息与多个网页页面中经玮度信息中进行匹配;S105:对于具有相同经玮度信息的POI数据及网页页面,根据该POI数据对应的POI名称在该网页页面中进行查找,确定该网页页面中是否包括该POI数据的POI名称;S106:当该网页页面中包括该POI数据的POI名称时,确定该网页页面包括该兴趣点POI数据。
[0032]本发明的上述用于确定网页页面中包括兴趣点POI数据的方法,将地址信息归一化为经玮度信息,可以滤除非地理位置的地址信息,由于经玮度的唯一性,基于经玮度信息的匹配结果的准确性,远高于现有的基于文本信息的匹配结果的准确性,从而有利于后续避免收集虚假地址信息的数据;在POI数据的经玮度信息与网页页面中的经玮度信息相匹配的基础上,进一步确定网页页面中是否包括POI数据的POI名称,来准确判断POI数据是否被包含在同一网页页面中,有利于后续根据网页页面所记载内容的权威性和准确性,来确定收集到的POI数据的准确性,进而为大批量地收集互联网中的准确度较高的POI数据提供可靠保证。
[0033]下面具体介绍流程示意图如图1a所示的用于确定网页页面中包括兴趣点POI数据的方法,包括如下步骤:
[0034]SlOl:从互联网中获取多个POI数据。
[0035]具体地,利用网络爬虫类的程序,从互联网中爬取多个包括POI数据的网页;随后从多个包括POI数据的网页中提取多个POI数据。POI数据包括地址信息和POI名称;优选地,POI数据还可以包括联系方式、邮编和网络标签等等。
[0036]本发明的发明人发现,在互联网中存在这样一些网页,它们中每个网页的内容包含有一个或者多个POI数据,POI数据中的地址信息包括“地址”等字样的地址关键词;并且这些网页的页面结构特征URL格式,以及POI数据在网页中的位置和格式是有规律性的。也就是说可以通过一种统一的方法快捷地从这些网页上提取出POI数据。
[0037]较佳地,可以从互联网中,爬取包括“地址”等地址关键词的多个网页对应的多个URL (Uniform Resoure Locator,统一资源定位器);对爬取得到的多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合。
[0038]更优地,对于众多包括地址关键词的网页中,只包括一个POI数据的网页,获取所有只包括一个POI数据的网页的URL ;对获取的所有URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合。
[0039]例如,众多包括地址关键词的网页中,URL为http://www.aibang.com/detail/1537772035-1606201508的网页中只包括“爱普生(中国)有限公司”这一 P
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1