检测兴趣点poi数据准确性的方法及装置的制造方法_3

文档序号:8922610阅读:来源:国知局
自同一 POI数据提供网站,而同一 POI数据提供网站提供的各POI数据的准确性水平几乎是一致的;因此,该优选实施例的方法可以实现在保证POI数据较为准确的基础上收集到更多的POI数据的目的,从整体上提升了收集准确的POI数据的效率。
[0083]基于上述检测兴趣点POI数据准确性的方法,本发明实施例还提供了一种检测兴趣点POI数据准确性的装置,该装置内部结构的框架示意图如图2所示,包括:Ρ0Ι数据提取模块201、名称地址对提取模块202、比对模块203和第一准确POI确定模块204。
[0084]其中,POI数据提取模块201用于提取POI数据提供网站中的多个POI数据。
[0085]名称地址对提取模块202用于定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对。
[0086]比对模块203用于将多个POI数据与名称地址对进行一一比对。
[0087]第一准确POI确定模块204用于当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0088]更优的,POI数据提取模块201的内部结构的框架示意图如图3所示,进一步包括:URL获取单元301、聚类单元302、提取模板生成单元303和POI数据提取单元304。
[0089]其中,URL获取单元301用于获取包括地址关键词的多个网页对应的多个URL。
[0090]聚类单元302用于对多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合。
[0091]提取模板生成单元303用于基于属于同一 pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板。
[0092]POI数据提取单元304用于基于POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。
[0093]更优的,如图2所示,本发明实施例的检测POI兴趣点准确性的装置,该装置还包括:第二准确POI确定模块205。
[0094]第二准确POI确定模块205用于当属于任一 pattern集合中的任一 URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一 URL对应网页包括的POI数据均为准确的POI数据。
[0095]进一步,名称地址对提取模块202的内部结构的框架示意图如图4所示,包括:地址关键词判断单元401和第一地址信息页面确定单元402。
[0096]其中,地址关键词判断单元401用于对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词。
[0097]第一地址信息页面确定单元402用于将包括地址关键词的网页确定为官网的地址信息页面。
[0098]或者,名称地址对提取模块202的内部结构的框架示意图如图5所示,包括:销文本链接查找模块501、第二地址信息页面确定单元502和名称地址对提取单元503。
[0099]其中,锚文本链接查找模块501用于从官网中的多个网页中查找包含地址关键词的锚文本链接。
[0100]第二地址信息页面确定单元502用于将锚文本链接指向的网页确定为地址信息页面。
[0101]名称地址对提取单元503用于从锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。
[0102]更优的,比对模块203的内部结构的框架示意图如图6所示,包括:经玮度转化单元601和比对单元602。
[0103]其中,经玮度转化单元601用于对多个POI数据的地址信息与名称地址对中的地址信息进行归一化处理,将其分别转化为多个POI数据的经玮度信息及名称地址对的经玮度信息。
[0104]比对单元602用于将多个POI数据的经玮度信息及名称信息,与名称地址对的经玮度信息及名称信息进行一一比对。
[0105]上述POI数据提取模块201、名称地址对提取模块202、比对模块203、第一准确POI确定模块204和第二准确POI确定模块205,POI数据提取模块201中的URL获取单元301、聚类单元302、提取模板生成单元303和POI数据提取单元304,名称地址对提取模块202中的地址关键词判断单元401和第一地址信息页面确定单元402、或者锚文本链接查找模块501、第二地址信息页面确定单元502和名称地址对提取单元503,以及比对模块203中的经玮度转化单元601和比对单元602功能的具体实现方法,可以参考上述如图1所示的方法流程步骤的具体内容,此处不再赘述。
[0106]本发明实施例的技术方案中,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,使得可以收集到更多的准确的POI数据,从而整体上提高了收集准确的POI数据的效率;从而提高基于准确的POI数据的服务的水准,增加使用这些服务的用户的体验。
[0107]而且,该技术方案中,对于patten集合,若其中任一 URL对应的网页包括的任一个POI数据为准确的POI数据,则将该patten集合涉及的所有POI数据都确定为准确的POI数据,可以在保证POI数据较为准确的基础上,收集到更多的POI数据,从整体上提升了收集准确的POI数据的效率。
[0108]本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、⑶-ROM、和磁光盘)、ROM (Read-Only Memory,只读存储器)、RAM (Random Access Memory,随即存储器)、EPROM (Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM (Electrical Iy ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
[0109]本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0110]本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0111]以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
[0112]本发明提供了 Al、一种检测兴趣点POI数据准确性的方法,包括:
[0113]提取POI数据提供网站中的多个POI数据;
[0114]定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0115]将所述多个POI数据与所述名称地址对进行一一比对;
[0116]当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0117]A2、根据权利要求Al所述的检测POI兴趣点准确性的方法,其特征在于,提取POI数据提供网站中的多个POI数据,包括:
[0118]获取包括地址关键词的多个网页对应的多个URL ;
[0119]对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern 集合;
[0120]基于属于同一 pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板;
[0121]基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。
[0122]A3、根据权利要求Al或A2所述的检测POI兴趣点准确性的方法,其特征在于,该方法还包括:
[0123]当属于任一 pattern集合中的任一 URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一 URL对应网页包括的POI数据均为准确的POI数据。
[0124]A4、根据权利要求A1-A3任一项所述的检测POI兴趣点准确性的方法,其特征在于,定位官网中的地址信息页面,包括:
[0125]对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词;
[0126]将包括所述地址关键词的网页确定为官网的地址信息页面。
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1