一种地图兴趣点poi数据的挖掘方法和装置的制造方法

文档序号:8943111阅读:621来源:国知局
一种地图兴趣点poi数据的挖掘方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据挖掘技术领域,具体涉及一种地图兴趣点POI数据的挖掘方法和
目.ο
【背景技术】
[0002]POI (兴趣点,Point of Interest)是指用户感兴趣或对用户来说有实际用途的特定的地理位置点;在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
[0003]传统的地理信息采集方法是需要地图测绘人员采用精密的测绘仪器去获取各兴趣点的经玮度,然后再标记下来,这种方式费时费力。由于互联网上存在着各种各样的POI数据,如果能从互联网上挖掘这些数据则会大大节省人力和时间。
[0004]然而,互联网上的POI数据是各种各样的,其中充斥着大量的脏数据、无效数据和错误数据。为了保证POI数据的准确性,需要对从互联网上挖掘出的POI数据进行进一步的处理。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种地图兴趣点POI数据的挖掘方法和相应的装置。
[0006]依据本发明的一个方面,提供了一种地图兴趣点POI数据的挖掘方法,该方法包括:
[0007]挖掘POI数据提供网站中的POI数据,得到POI数据集;
[0008]提取一个或多个政府网站中包含的地理位置数据;
[0009]通过从所述一个或多个政府网站中提取出的地理位置数据,验证所述POI数据集中的POI数据的正确性。
[0010]可选地,所述POI数据集中的每条POI数据包括:Ρ0Ι名称和POI地址;每条地理位置数据包括:地址信息和名称信息;
[0011]所述提取一个或多个政府网站中包含的地理位置数据,通过从所述一个或多个政府网站中提取出的地理位置数据,验证所述POI数据集中的POI数据的正确性包括:
[0012]先从政府网站中挖掘出地址信息;
[0013]对于每个地址信息,判断所述POI数据集中是否存在与该地址信息相同的POI地址;
[0014]如果存在,从该地址信息的来源网页中提取对应的名称信息;
[0015]对比该名称信息,和与该地址信息相同的POI地址对应的POI名称,若相同,则确定对应的POI数据正确,若不同,则确定对应的POI数据有误。
[0016]可选地,在所述确定对应的POI数据有误之后,该方法进一步包括:
[0017]利用该名称信息替换对应的POI数据中的POI名称,将替换后的对应的POI数据作为正确的POI数据。
[0018]可选地,在所述挖掘POI数据提供网站中的POI数据之前,该方法进一步包括:
[0019]挖掘包含POI数据相关关键词的多个网页;
[0020]根据所述多个网页的URL格式对网页进行聚类;
[0021]选取包含有效POI数据较多的聚类,作为POI数据提供网站。
[0022]可选地,所述挖掘POI数据提供网站中的POI数据,得到POI数据集包括:
[0023]对于一个POI数据提供网站,根据该POI数据提供网站中的网页结构特点制定挖掘POI数据的模板;
[0024]将所述模板应用于该POI数据提供网站中的所有网页,挖掘该POI数据提供网站中的POI数据,得到POI数据集。
[0025]可选地,在所述提取一个或多个政府网站中包含的地理位置数据之前,该方法进一步包括:挖掘站点的后缀为gov.cn”的政府网站。
[0026]可选地,所述从政府网站中挖掘出地址信息包括:
[0027]创建地址数据库,该地址数据库中包括:全国的省、市、县(区)、乡镇和道路的地址数据;
[0028]对政府网站中的网页内容做切词处理;
[0029]对于一个网页中的一个文本段,如果切词后得到的所有子词均命中所述地址数据库,则挖掘出该文本段作为地址信息。
[0030]可选地,所述对于每个地址信息,判断所述POI数据集中是否存在与该地址信息相同的POI地址包括:
[0031]解析该地址信息的经玮度;
[0032]解析所述POI数据集中的POI地址的经玮度;
[0033]对比该地址信息的经玮度和POI地址的经玮度;
[0034]如果存在与该地址信息的经玮度相同的POI地址的经玮度,则确定所述POI数据集中存在与该地址信息相同的POI地址。
[0035]可选地,所述从该地址信息的来源网页中提取对应的名称信息包括:
[0036]如果该地址信息的来源网页中包含多个对应经玮度相同的名称信息,则计算该地址信息与每个名称信息在网页中的文本距离,取与该地址信息之间文本距离最小的名称信息作为所述对应的名称信息。
[0037]依据本发明的另一个方面,提供了一种地图兴趣点POI数据的挖掘装置,该装置包括:
[0038]挖掘单元,适于挖掘POI数据提供网站中的POI数据,得到POI数据集;
[0039]验证单元,适于提取一个或多个政府网站中包含的地理位置数据;以及适于通过从所述一个或多个政府网站中提取出的地理位置数据,验证所述POI数据集中的POI数据的正确性。
[0040]可选地,所述POI数据集中的每条POI数据包括:Ρ0Ι名称和POI地址;每条地理位置数据包括:地址信息和名称信息;
[0041]所述验证单元,适于先从政府网站中挖掘出地址信息;对于每个地址信息,判断所述POI数据集中是否存在与该地址信息相同的POI地址;如果存在,从该地址信息的来源网页中提取对应的名称信息;对比该名称信息,和与该地址信息相同的POI地址对应的POI名称,若相同,则确定对应的POI数据正确,若不同,则确定对应的POI数据有误。
[0042]可选地,所述验证单元在确定对应的POI数据有误之后,进一步适于利用该名称信息替换对应的POI数据中的POI名称,将替换后的对应的POI数据作为正确的POI数据。
[0043]可选地,所述挖掘单元,进一步适于挖掘包含POI数据相关关键词的多个网页;根据所述多个网页的URL格式对网页进行聚类;选取包含有效POI数据较多的聚类,作为POI数据提供网站。
[0044]可选地,所述挖掘单元,适于对于一个POI数据提供网站,根据该POI数据提供网站中的网页结构特点制定挖掘POI数据的模板;将所述模板应用于该POI数据提供网站中的所有网页,挖掘该POI数据提供网站中的POI数据,得到POI数据集。
[0045]可选地,所述验证单元在提取一个或多个政府网站中包含的地理位置数据之前,进一步适于挖掘站点的后缀为gov.cn”的政府网站。
[0046]可选地,所述验证单元,适于创建地址数据库,该地址数据库中包括:全国的省、市、县(区)、乡镇和道路的地址数据;以及适于对政府网站中的网页内容做切词处理;对于一个网页中的一个文本段,如果切词后得到的所有子词均命中所述地址数据库,则挖掘出该文本段作为地址信息。
[0047]可选地,所述验证单元,适于对于每个地址信息,解析该地址信息的经玮度;解析所述POI数据集中的POI地址的经玮度;以及适于对比该地址信息的经玮度和POI地址的经玮度;如果存在与该地址信息的经玮度相同的POI地址的经玮度,则确定所述POI数据集中存在与该地址信息相同的POI地址。
[0048]可选地,所述验证单元,适于对于一个地址信息,在该地址信息的来源网页中包含多个对应经玮度相同的名称信息时,计算该地址信息与每个名称信息在网页中的文本距离,取与该地址信息之间文本距离最小的名称信息作为与该地址信息对应的名称信息。
[0049]由上述可知,本发明提供的技术方案通过从一个或多个政府网站中提取出的地理位置数据,验证从POI数据提供网站中挖掘出的POI数据的正确性,实现了对POI数据的过滤,使得最终得到的POI数据具有较高的准确性。本方案将政府网站“数据准确率高但挖掘难度大”的特点和POI数据提供网站“数据量大、数据挖掘难度低但数据准确率低”的特点相结合,以从POI数据提供网站挖掘得到的POI数据作为初始POI数据,以政府网站中包含的地理位置数据作为标准数据,实现了地图兴趣点POI数据的挖掘方案的高效率、高质量和高产量,克服了现有技术中从互联网挖掘出的P
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1