检测兴趣点poi数据准确性的方法及装置的制造方法_4

文档序号:8922610阅读:来源:国知局
[0127]A5、根据权利要求A1-A4任一项所述的检测POI兴趣点准确性的方法,其特征在于,定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对,包括:
[0128]从官网中的多个网页中查找包含地址关键词的锚文本链接;
[0129]将所述锚文本链接指向的网页确定为地址信息页面;
[0130]从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。
[0131]A6、根据权利要求A1-A5任一项所述的检测POI兴趣点准确性的方法,其特征在于,将所述多个POI数据与所述名称地址对进行一一比对,包括:
[0132]对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经玮度信息及所述名称地址对的经玮度信息;
[0133]将多个POI数据的经玮度信息及名称信息,与所述名称地址对的经玮度信息及名称信息进行一一比对。
[0134]本发明还提供了 A7、一种检测兴趣点POI数据准确性的装置,包括:
[0135]POI数据提取模块,用于提取POI数据提供网站中的多个POI数据;
[0136]名称地址对提取模块,用于定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0137]比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对;
[0138]第一准确POI确定模块,用于当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0139]AS、根据权利要求A7所述的检测POI兴趣点准确性的装置,其特征在于,所述POI数据提取模块进一步包括:
[0140]URL获取单元,用于获取包括地址关键词的多个网页对应的多个URL ;
[0141]聚类单元,用于对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合;
[0142]提取模板生成单元,用于基于属于同一 pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板;
[0143]POI数据提取单元,用于基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。
[0144]A9、根据权利要求A7或AS所述的检测POI兴趣点准确性的装置,其特征在于,该装置还包括:
[0145]第二准确POI确定模块,用于当属于任一 pattern集合中的任一 URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一 URL对应网页包括的POI数据均为准确的POI数据。
[0146]A10、根据权利要求A7-A9任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述名称地址对提取模块,包括:
[0147]地址关键词判断单元,用于对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词;
[0148]第一地址信息页面确定单元,用于将包括所述地址关键词的网页确定为官网的地址信息页面。
[0149]All、根据权利要求A7-A10任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述名称地址对提取模块,包括:
[0150]锚文本链接查找模块,用于从官网中的多个网页中查找包含地址关键词的锚文本链接;
[0151]第二地址信息页面确定单元,用于将所述锚文本链接指向的网页确定为地址信息页面;
[0152]名称地址对提取单元,用于从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。
[0153]A12、根据权利要求A7-A11任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述比对模块,包括:
[0154]经玮度转化单元,用于对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经玮度信息及所述名称地址对的经玮度信息;
[0155]比对单元,用于将多个POI数据的经玮度信息及名称信息,与所述名称地址对的经玮度信息及名称信息进行一一比对。
【主权项】
1.一种检测兴趣点POI数据准确性的方法,其特征在于,包括: 提取POI数据提供网站中的多个POI数据; 定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对; 将所述多个POI数据与所述名称地址对进行一一比对; 当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。2.根据权利要求1所述的检测POI兴趣点准确性的方法,其特征在于,提取POI数据提供网站中的多个POI数据,包括: 获取包括地址关键词的多个网页对应的多个URL ; 对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合; 基于属于同一 pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板; 基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。3.根据权利要求1或2所述的检测POI兴趣点准确性的方法,其特征在于,该方法还包括: 当属于任一 pattern集合中的任一 URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一 URL对应网页包括的POI数据均为准确的POI数据。4.根据权利要求1-3任一项所述的检测POI兴趣点准确性的方法,其特征在于,定位官网中的地址信息页面,包括: 对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词; 将包括所述地址关键词的网页确定为官网的地址信息页面。5.根据权利要求1-4任一项所述的检测POI兴趣点准确性的方法,其特征在于,定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对,包括: 从官网中的多个网页中查找包含地址关键词的锚文本链接; 将所述锚文本链接指向的网页确定为地址信息页面; 从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。6.根据权利要求1-5任一项所述的检测POI兴趣点准确性的方法,其特征在于,将所述多个POI数据与所述名称地址对进行一一比对,包括: 对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经玮度信息及所述名称地址对的经玮度信息; 将多个POI数据的经玮度信息及名称信息,与所述名称地址对的经玮度信息及名称信息进行--比对。7.—种检测兴趣点POI数据准确性的装置,其特征在于,包括: POI数据提取模块,用于提取POI数据提供网站中的多个POI数据; 名称地址对提取模块,用于定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对; 比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对; 第一准确POI确定模块,用于当任一 POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。8.根据权利要求7所述的检测POI兴趣点准确性的装置,其特征在于,所述POI数据提取模块进一步包括: URL获取单元,用于获取包括地址关键词的多个网页对应的多个URL ; 聚类单元,用于对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合; 提取模板生成单元,用于基于属于同一 pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板; POI数据提取单元,用于基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。9.根据权利要求7或8所述的检测POI兴趣点准确性的装置,其特征在于,该装置还包括: 第二准确POI确定模块,用于当属于任一 pattern集合中的任一 URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一 URL对应网页包括的POI数据均为准确的POI数据。10.根据权利要求7-9任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述名称地址对提取模块,包括: 地址关键词判断单元,用于对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词; 第一地址信息页面确定单元,用于将包括所述地址关键词的网页确定为官网的地址信^菅、曲.。
【专利摘要】本发明提供了一种检测兴趣点POI数据准确性的方法及装置,该方法包括:提取POI数据提供网站中的多个POI数据;定位官网的地址信息页面,并从地址信息页面中提取包括地址信息及名称信息的名称地址对;将多个POI数据与名称地址对进行一一比对;当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。本发明的技术方案中,利用官网上具有权威性的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,从整体上提高了收集准确的POI数据的效率。
【IPC分类】G06F17/30
【公开号】CN104899243
【申请号】CN201510146590
【发明人】王智广
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2015年9月9日
【申请日】2015年3月31日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1