检测兴趣点poi数据准确性的方法及装置的制造方法_2

文档序号:8922610阅读:来源:国知局
上还存在这样一类网站,这类网站提供了大量的公司、企业、餐厅等等POI数据,比如一些黄页网站提供了大量的公司的POI数据,还有类似“爱帮网”的网站也提供了大量的服务类的POI数据,本申请文件中称这类网站为POI数据提供网站。
[0051]POI数据提供网站中的POI数据的数量庞大,提供POI数据的网页的页面结构特征、URL格式,以及POI数据在网页中的位置和格式是有规律性的。例如,提供POI数据的网页在页面结构特征上是相同的,这些网页的URL具有相同结构特征,提供的POI数据在格式和位置上都是相同的。也就是说可以通过一种统一的方法方便的从POI数据提供网站上提取出POI数据。
[0052]具体地,从POI数据提供网站中,获取包括“地址”等地址关键词的多个网页对应的多个URL。对获取的多个URL进行pattern (模式)聚类,将具有相同结构特征的URL聚类为同一 pattern集合。
[0053]较佳地,对于POI数据提供网站中众多的包括地址关键词的网页中,只包括一个POI数据的网页,获取所有只包括一个POI数据的网页的URL ;对获取的所有URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合。
[0054]例如,作为POI数据提供网站之一的爱帮网中,URL为http://www.aibang.com/detail/1537772035-1606201508的网页中只包括“爱普生(中国)有限公司”这一 POI数据、URL 为 http://www.aibang.com/detail/152928073-419169481 的网页中只包括“北京王府中西医结合医院”这一 POI数据,这两个URL具有相同的结构特征www.aibang.com/detail/*,其中*为通配符表示任意字符;因此,可以将这两个URL聚类到同一 pattern集合中;也就是说,该pattern集合中所有的URL都具有同一结构特征www.aibang.com/detail/氺。
[0055]较佳地,对于POI数据提供网站中众多的包括地址关键词的网页中,包括多个POI数据的网页,获取所有包括多个POI数据的网页的URL ;对获取的所有URL进行pattern聚类,将具有相同结构特征的URL聚类为同一 pattern集合。
[0056]例如,URL为 http://www.dianping.com/search/category/2/0/r2578 的网页,如图1b所示,该网页中包括“俏巴妹(朝外S0H0尚都店)”、“渝乡人家(国贸店)”和“建国饭店咖啡厅”等多个POI数据,获取所有结构特征符合WWW.dianping.com/search/category/*的URL,其中*为通配符表示任意字符;对获取的所有URL进行pattern聚类,聚类得到的同一 pattern集合中的URL都具有结构特征www.dianping.com/search/category/*ο
[0057]基于属于同一 pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板。较佳地,对于属于同一 pattern集合中每个URL,根据该URL对应的网页中多个POI数据的格式和位置,生成与该pattern集合相应的POI提取模板。
[0058]基于生成的POI提取模板,从上述同一 pattern集合中多个URL对应的多个网页中提取多个POI数据。较佳地,对于上述同一 pattern集合中每个URL,针对该URL对应的网页,根据生成的POI提取模板中的POI数据的格式、以及多个POI数据在网页中的位置,从该网页中提取多个POI数据。
[0059]S102:定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对。
[0060]具体地,根据上述预先收集的官网的网络地址查找到官网后,可以采用多种方法定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对。
[0061]一种定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对的方法包括:
[0062]对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词;将包括地址关键词的网页确定为官网的地址信息页面。
[0063]例如,对官网中的多个网页进行文本内容解析,若解析结果中包含大量的“XXX店”、“XXX分公司”、“XXX餐厅”等地址关键词,则将包括这些地址关键词的网页确定为官网的地址信息页面。
[0064]再如,如图1c所示的“庆丰包子”官网下的相关网页(该网页的URL为http://WWW.qing-feng.com/daohang.htm)中包含了大量的“XXX店”的地址关键词,因此可以将该网页确定为官网的地址信息页面。
[0065]之后,从确定出的地址信息页面中提取包括地址信息及名称信息的名称地址对。名称地址对中的地址信息及名称信息是从同一地址信息页面中提取的。
[0066]另一种定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对的方法包括:
[0067]从官网中的多个网页中查找包含地址关键词的锚(anchor)文本链接;将查找出的锚文本链接指向的网页确定为地址信息页面。地址关键词可以包括:联系我们和联系方式;锚文本具体包括:链接名称、与链接名称对应的URL ;链接名称可以是“联系我们”或“联系方式”等等;锚文本链接具体可以是锚文本中的URL所对应的链接。
[0068]例如,如图1d所示的“北京王府中西医结合医院”官网(该官网的URL为http://WWW.rimh.cn/)页面,从该页面的右上角查找到锚文本中的链接名称“联系我们”,进而查找到“联系我们”所对应的URL,进一步确定出该URL所对应的链接;将确定出的链接指向的网页确定为地址信息页面。
[0069]之后,从锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。名称地址对中的地址信息及名称信息是从同一地址信息页面中提取的。
[0070]此外,根据上述预先收集的官网的网络地址查找到官网后,还可以从官网的首页URL对应的网页上提取包括地址信息及名称信息的名称地址对。
[0071]具体地,预先获取全国的省、市、县(区)、乡镇、道路等包括地址信息和名称信息,并根据获取的地址信息和名称,创建地址名称信息库。
[0072]对官网的首页URL对应的网页的文字内容做分词处理,得到分词结果;对于分词结果中的每个词,若可以从地址名称信息库中查找到该词,则从地址名称信息库中获取与该词相关的地址信息和名称信息;根据获取的地址信息和名称信息,生成包括该地址信息及名称信息的名称地址对。
[0073]如 http://www.rimh.cn/comcontent_detail3/&i = l&comContentld = Lhtml这一 URL对应的网页中的文本片段“北京市昌平区北七家镇王府街I号”,分词后得到分词结果:“北京市”、“昌平区”、“北七家镇”、“王府街”和“I号”,这些词都可以在地址名称信息库中查到,则从地址名称信息库中获取与这些词相关的地址信息和名称信息,生成名称地址对。
[0074]S103:将提取自POI数据提供网站的多个POI数据与提取自官网的多个名称地址对进行比对。
[0075]具体地,对提取自POI数据提供网站的多个POI数据中的地址信息、以及提取自官网的多个名称地址对中的地址信息,都进行归一化处理。
[0076]较佳地,将多个POI数据中的地址信息分别转化为多个POI数据的经玮度信息;将多个名称地址对中的地址信息分别转化为多个名称地址对的经玮度信息。
[0077]将多个POI数据的经玮度信息及名称信息,与名称地址对的经玮度信息及名称信息进行一一比对。具体地,对于每个POI数据,判断各名称地址对中,是否存在经玮度信息及名称信息分别与该POI数据的经玮度信息及名称信息相一致的名称地址对,若是,则确定该POI数据的地址信息及名称信息与名称地址对相匹配,否则,忽略该POI数据。
[0078]S104:当任一 POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0079]具体地,若在上述步骤S103中确定出任一 POI数据包括的地址信息及名称信息与名称地址对相匹配,则在本步骤中,确定该POI数据为准确的POI数据。
[0080]更优的,当属于任一 pattern集合中的任一 URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一 URL对应网页包括的POI数据均为准确的POI数据。
[0081]例如,当URL (http://www.aibang.com/detail/1537772035-1606201508)对应的网页中包括的“爱普生(中国)有限公司”的POI数据为准确的POI数据时,确定该URL所属的pattern集合中的每一 URL对应网页包括的POI数据(即爱帮网所提供的所有POI数据)都为准确的POI数据。
[0082]显然,检测一个POI数据是否准确的工作量,远小于对一个patten集合所涉及的海量POI数据逐一检测是否准确的工作量;从而该优选实施例的方法中,若patten集合所涉及的一个POI数据为准确的POI数据,则将该patten集合所涉及的所有POI数据都确定为准确的POI数据,大大减少了检测POI数据准确性的工作量,提高了检测效率;而且,同一 patten集合中的URL具有相同的结构特征,所涉及的POI数据通常源
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1