一种确定网站目录页的方法及装置制造方法

文档序号:6489619阅读:168来源:国知局
一种确定网站目录页的方法及装置制造方法
【专利摘要】本发明提供了一种确定网站目录页的方法及装置,其中确定网站目录页的方法包括:A.获取目录页的锚文本词集合以及非目录页的锚文本词集合;B.利用所述目录页的锚文本词集合以及所述非目录页的锚文本词集合,确定当前页面属于目录页的可能性,并在所述可能性超过设定阈值时将当前页面确定为目录页。通过上述方式,本发明能够提高在网站中挖掘目录页时的召回率和准确率。
【专利说明】一种确定网站目录页的方法及装置
【【技术领域】】
[0001]本发明涉及数据挖掘技术,特别涉及一种确定网站目录页的方法及装置。
【【背景技术】】
[0002]随着互联网的发展,网站的规模越来越大,网站内包含了大量网页。一个结构良好的网站,其内部的网页通常以树型结构分布,树中的父节点页面,可以称之为目录页。
[0003]目录页是能够体现网站结构层次的网页,确定网站的目录页,不仅有利于对网站中的网页进行分类,从而提高网站管理的效率或者改进搜索引擎收录网页的质量,并且由于目录页一般具有导航作用,是网站包含的大量网页中重要性较高的网页,因此在搜索引擎计算互联网上的网页的权威性时,提取网站的目录页参与计算,可以使得互联网上的各网页得到更合理的权威性值。
[0004]现有技术在确定网站中的目录页时,通常仅通过页面的URL形式进行判断。例如一个URL以“/”结束,或者以“index, html”结束,就将该URL对应的页面作为目录页。采用这种方法在网站中挖掘目录页时召回率和准确率均比较低。

【发明内容】

[0005]本发明所要解决的技术问题是提供一种确定网站目录页的方法及装置,以提高在网站中挖掘目录页时的召回率和准确率。
[0006]本发明为解决技术问·题而采用的技术方案是提供一种确定网站目录页的方法,其特征在于,所述方法包括:A.获取目录页的锚文本词集合以及非目录页的锚文本词集合;B.利用所述目录页的锚文本词集合以及所述非目录页的锚文本词集合,确定当前页面属于目录页的可能性,并在所述可能性超过设定阈值时将当前页面确定为目录页。
[0007]根据本发明之一优选实施例,所述步骤A包括:获取标注好的目录页样本及非目录页样本;从网站中提取所述目录页样本对应的锚文本,并对所述目录页样本对应的锚文本进行分词,得到目录页的锚文本词集合,以及,从网站中提取所述非目录页样本对应的锚文本,并对所述非目录页样本对应的锚文本进行分词,得到非目录页的锚文本词集合;统计目录页的锚文本词集合中每个词的词频,以及,统计非目录页的锚文本词集合中每个词的词频。
[0008]根据本发明之一优选实施例,所述步骤B包括:从网站中提取当前页面对应的锚文本;对提取的当前页面对应的锚文本进行分词;采用下列公式计算当前页面属于目录页
的可能性
【权利要求】
1.一种确定网站目录页的方法,其特征在于,所述方法包括: A.获取目录页的锚文本词集合以及非目录页的锚文本词集合; B.利用所述目录页的锚文本词集合以及所述非目录页的锚文本词集合,确定当前页面属于目录页的可能性,并在所述可能性超过设定阈值时将当前页面确定为目录页。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括: 获取标注好的目录页样本及非目录页样本; 从网站中提取所述目录页样本对应的锚文本,并对所述目录页样本对应的锚文本进行分词,得到目录页的锚文本词集合,以及,从网站中提取所述非目录页样本对应的锚文本,并对所述非目录页样本对应的锚文本进行分词,得到非目录页的锚文本词集合; 统计目录页的锚文本词集合中每个词的词频,以及,统计非目录页的锚文本词集合中每个词的词频。
3.根据权利要求2所述的方法,其特征在于,所述步骤B包括: 从网站中提取当前页面对应的锚文本; 对提取的当前页面对应的锚文本进行分词; 采用下列公式计算当前页面属于目录页的可能性:
4.根据权利要求3所述的方法,其特征在于,从网站中提取当前页面对应的锚文本的步骤包括: 从网站中提取当前页面对应的所有锚文本。
5.根据权利要求3所述的方法,其特征在于,从网站中提取当前页面对应的锚文本的步骤包括: 从网站中提取当前页面对应的锚文本中出现次数最多的锚文本。
6.一种确定网站目录页的装置,其特征在于,所述装置包括: 获取单元,用于获取目录页的锚文本词集合以及非目录页的锚文本词集合; 确定单元,用于利用所述目录页的锚文本词集合以及所述非目录页的锚文本词集合,确定当前页面属于目录页的可能性; 输出单元,用于在所述可能性超过设定阈值时将当前页面确定为目录页。
7.根据权利要求6所述的装置,其特征在于,所述获取单元包括: 样本获取单元,用于获取标注好的目录页样本及非目录页样本; 集合获取单元,用于从网站中提取所述目录页样本对应的锚文本,并对所述目录页样本对应的锚文本进行分词,得到目录页的锚文本词集合,以及,从网站中提取所述非目录页样本对应的锚文本,并对所述非目录页样本对应的锚文本进行分词,得到非目录页的锚文本词集合; 统计单元,用于统计目录页的锚文本词集合中每个词的词频,以及,统计非目录页的锚文本词集合中每个词的词频。
8.根据权利要求7所述的装置,其特征在于,所述确定单元包括: 提取单元,用于从网站中提取当前页面对应的锚文本; 分词单元,用于对提取的当前页面对应的锚文本进行分词; 计算单元,用于采用下列公式计算当前页面属于目录页的可能性:
9.根据权利要求8所述的装置,其特征在于,所述提取单元从网站中提取当前页面对应的锚文本的方式包括: 从网站中提取当前页面对应的所有锚文本。
10.根据权利要求8所述的装置,其特征在于,所述提取单元从网站中提取当前页面对应的锚文本的方式包括: 从网站中提取当前页面对应的锚文本中出现次数最多的锚文本。
【文档编号】G06F17/30GK103714075SQ201210376070
【公开日】2014年4月9日 申请日期:2012年9月29日 优先权日:2012年9月29日
【发明者】张冲 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1