一种网页分类方法及装置的制作方法

文档序号:6564360阅读:112来源:国知局
专利名称:一种网页分类方法及装置的制作方法
技术领域
本发明涉及分类技术,尤其涉及一种网页分类方法及装置。
背景技术
随着Internet的普及和飞速发展,网络信息成爆炸性增长, 一方面满足了 用户对信息的需求,另一方面也产生了一些问题,如何根据网页内容把网页自 动分到不同的语义类别,以提高用户的体验,是目前搜索引擎面临解决的一个 问题。
来实现,其主要实现过程为首先从网页中提取正文,然后对网页的正文进行 文本分类处理,得到的分类类别即为该网页的分类类别,下面详细描述对网页 正文进行文本分类处理的具体过程,包括步骤
步骤SIO、对网页的正文进行分词处理,去掉其中的停用词,根据预先构 建的特征词表从余下的词汇中提取特征词汇;
所述特征词表4安照tf-idf方法构建。
步骤Sll、查询各个类别的先验概率,以及查询各特征词汇在不同类别的 文本中的权值;
词汇的权值用于表征词汇在各个类别的文本中出现的概率,某一词汇在不
步骤S12、按照预先设置的分类算法对网页的正文进行分类,分类的算法 有很多种,如贝叶斯分类器,SVM (支持向量机分类器)等,下面以贝叶斯分 类器为例,对分类的具体过程进行说明
按照贝叶斯分类7>式P(C, I F )oo尸(C: )fj尸O I C,)分别计算网页正文的文本属
于各个类别的概率,贝叶斯分类公式中尸(q ir)为文本v属于类别q的概率,
尸(。)为类别q的先验概率,户(v,IG)为特征词汇/在类别q中的权值,户(CJF)最
大值对应的类别即为网页正文的归属类别。
然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信 息,例如锚文本、链接关系、垃圾广告等,在上述提取网页正文的过程中,很 可能会把广告、导航信息等误提取为正文,从而影响分类的准确率和召回率, 并且根据网页正文中的特征词汇确定网页类别的计算量很大,导致时间开销很 大,不利于在线分类海量网页。

发明内容
本发明提供一种网页分类方法及装置,用以解决现有技术中采用从网页正 文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较 大的问题。
本发明方法包括 一种网页分类方法,包括步骤
A、 从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的 分类关4定词;
B、 从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查 找到的语句组合形成特征文本;
C、 对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述 网页的类别。
较佳的,所述步骤A中还包括步骤
判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本 信息,若是,从网页对应的锚文本中选取分类锚文本,否则,将该网页的标题字段确定为分类锚文本。
较佳的,若下载网页爬虫阶段记录了所述网页的锚文本信息,则选取其中 出现次数最多的锚文本〗故为该网页的分类锚文本。
较佳的,所述确定分类锚文本中包含的分类关键词的过程为 对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类 锚文本的分类关键词。
较佳的,对特征文本进行文本分类处理的过程为
对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表 从余下的词中提取特征词汇;
按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类 别文本中的权值确定出所述特征文本的类别。
一种网页分类装置,包括
分类锚文本选取模块,用于从网页对应的锚文本中选取分类锚文本; 分类关键词确定模块,用于确定分类锚文本中包含的分类关键词; 查找模块,用于从网页的全部内容中查找包含至少一个所述分类关键词的
语句,将查找到的语句组合形成特征文本;
特征文本分类模块,用于对所述特征文件进行分类处理,将该特征文本的
类别确定为所述网页的类别。 较佳的,还包括
判断模块,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述 网页的锚文本信息,若是,触发分类锚文本选取模块从网页对应的锚文本中选 取分类锚文本,否则,触发标题字段提取模块提取网页的标题字段;
标题字段提取模块,用于提取网页的标题字段,将其做为该网页的分类锚 文本发送给分类关键词确定模块。
本发明有益效果如下
本发明技术方案通过从网页对应的锚文本中选取分类锚文本,从网页的全
部内容中查找包含至少 一个分类锚文本中的分类关键词的语句,将查找到的语 句组合形成特征文本,对该特征文本进行文本分类处理,将该特征文本的类别 确定为所述网页的类别。与现有技术相比,本发明技术方案省却了从网页内容 中提取正文的步骤,简化了分类处理的过程,并且由于网页对应的锚文本通常 反映了网页内容的中心思想,因此利用网页对应的锚文本中包含的分类关键词 确定出的特征文本能够更加贴切的反映该网页的内容,从而大大提高了分类的 准确率和召回率,同时减小了分类处理过程中的计算量。


图1为本发明网页分类方法的流程图; 图2为本发明网页分类装置的结构框图。
具体实施例方式
本发明技术方案的主要设计构思是针对现有技术中采用从网页正文中提 取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问 题,而提出一种实现网页分类的技术方案,该方案通过从网页对应的锚文本中 选取分类锚文本,从网页的全部内容中查找包含至少一个分类锚文本中的分类 关键词的语句,将查找到的语句组合形成特征文本,对该特征文本进行文本分 类处理,将该特征文本的类别确定为所述网页的类别。与现有技术相比,本发 明技术方案省却了从网页内容中提取正文的步骤,简化了分类处理的过程,并 且由于网页对应的锚文本通常反映了网页内容的中心思想,因此利用网页对应 的锚文本中包含的分类关键词确定出的特征文本能够更加贴切的反映该网页 的内容,从而大大提高了分类的准确率和召回率,同时减小了分类处理过程中 的计算量。
下面将结合各个附图对本发明技术方案的具体实施过程进行进一步详细 的阐述。
请参阅图1,该图为本发明网页分类方法的流程图,其主要实现过程为 步骤SIO、判断待分类的网页是否存在对应的锚文本信息,若存在,执行
步骤Sll,否则,执行步骤S12。
搜索引擎在网页下栽过程中下载网页爬虫的阶段是否记录了该网页的锚
文本信息。
步骤Sll、从该网页对应的锚文本中选取出现次数最多的锚文本做为该网 页的分类锚文本,l丸行步骤S13。
步骤S12、提取该网页的标题字段,将其做为该网页的分类锚文本,执行 步骤S13。
步骤S13、确定分类锚文本中包含的分类关键词;
本步骤中分类锚文本中包含的分类关键词的具体过程为对分类锚文本进 行分词处理,去掉其中的停用词,余下的词汇即为该分类锚文本的分类关键词。
步骤S14、从网页的全部内容中查找至少包含一个所述分类关键词的语句, 将查找到的语句组合形成特征文本。
步骤S15、对所述特征文本进行文本分类处理,将该特征文本的类别确定 为所述网页的类别。
本步骤中,对特征文本进行文本分类处理的具体过程为
1) 对特征文本进行分词处理,去掉其中的停用词,根据预先构建的特征 词表从余下的词汇中提取特征词汇;
所述特征词表通过tf-idf方法在训练阶段构建。
2) 查询训练阶段得到的各个类别的先验概率,以及查询训练阶段得到的 各特征词汇在不同类别的文本中的权值;
其中,"。"类ISST,尸(。为类别C,的先验概率,
zv m、词/在类别Cj中出现的次数 A""'1、广
P(V'la)=类别Cj中出现词的总数'尸(v,IG)为特扯词〉匚/在类别^
中的4又值;
词汇的权值用于表征词汇在各个类别的文本中出现的概率,某一词汇在不
3)按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在 各类别文本中的4又值确定出所述特征文本的类别。
分类算法有很多种,如贝叶斯分类器,SVM (支持向量机分类器)等,下 面以贝叶斯分类器为例,对分类的具体过程进行说明
按照贝叶斯分类公式尸(q I r)oo尸(C》f[P(v, I C,)分别计算特征文本属于各个
类别的概率,贝叶斯分类公式中p(qir)为文本v属于类别。的概率,P(C》为
类别q的先验概率,P(v,IG)为特征词汇/在类别q中的权值,P(CJK)最大值对
应的类别即为特征文本的归属类别。
相应于本发明上述网页分类方法,本发明进而提出了一种网页分类装置, 请参阅图2,该图为本发明网页分类装置的结构框图,其主要包括分类锚文本 选取模块20、分类关键词确定模块30、查找模块40和特征文本分类模块50, 其中各个模块的主要作用如下
分类锚文本选取模块20,用于从网页对应的锚文本中选取分类锚文本,通 常从该网页对应的锚文本中选取出现次数最多的锚文本做为该网页的分类锚 文本。
分类关键词确定模块30,用于确定分类锚文本中包含的分类关键词,其具 体实现过程为对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇 即为该分类锚文本的分类关键词。
查找模块40,用于从网页的全部内容中查找包含至少一个所述分类关键词 的语句,将查找到的语句组合形成特征文本。
特征文本分类模块50,用于对所述特征文件进行分类处理,该特征文本的 类别即为所述网页的类别,其中对特征文本进行文本分类处理的具体过程为
首先对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表 从余下的词中提取特征词汇,然后按照预先设定的分类算法,根据各类别文本 的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。
较佳的,所述网页分类装置进一步包括判断模块60和标题字段提取模块 70,其中,
判断模块60,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所 述网页的锚文本信息,若是,触发分类锚文本选取模块20从网页对应的锚文 本中选取分类锚文本,否则,触发标题字段提取模块70提取网页的标题字段;
标题字段提:^4莫块70,用于提取网页的标题字段,将其做为该网页的分类 锚文本发送给分类关键词确定模块30。
有关本发明装置中的其他相关技术实现细节请参照本发明上述方法原理 中的相应技术实现细节描述,这里不再给以过多赘述。
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种网页分类方法,其特征在于,包括步骤A、从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词;B、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本;C、对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。
2、 如权利要求l所述的方法,其特征在于,所述步骤A中还包括步骤 判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,从网页对应的锚文本中选取分类锚文本,否则,将该网页的标题 字段确定为分类锚文本。
3、 如权利要求2所述的方法,其特征在于,若下载网页爬虫阶段记录了 所述网页的锚文本信息,则选取其中出现次数最多的锚文本做为该网页的分类 锚文本。
4、 如权利要求1或2所述的方法,其特征在于,所述确定分类锚文本中 包含的分类关键词的过程为对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类 锚文本的分类关键词。
5、 如权利要求1所述的方法,其特征在于,对特征文本进行文本分类处 理的过程为对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表 从余下的词中提取特征词汇;按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类 别文本中的权值确定出所述特征文本的类别。
6、 一种网页分类装置,其特征在于,包括分类锚文本选取模块,用于从网页对应的锚文本中选取分类锚文本;分类关键词确定模块,用于确定分类锚文本中包含的分类关键词;查找模块,用于从网页的全部内容中查找包含至少一个所述分类关键词的 语句,将查找到的语句组合形成特征文本;特征文本分类模块,用于对所述特征文件进行分类处理,将该特征文本的 类别确定为所述网页的类别。
7、如权利要求6所述的装置,其特征在于,还包括判断模块,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述 网页的锚文本信息,若是,触发分类锚文本选取模块从网页对应的锚文本中选 取分类锚文本,否则,触发标题字段提取模块提取网页的标题字段;标题字段提取模块,用于提取网页的标题字段,将其做为该网页的分类锚 文本发送给分类关键词确定模块。
全文摘要
本发明公开了一种网页分类方法及装置,用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问题。所述方法包括步骤从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词,从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本,对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别;所述系统包括分类锚文本选取模块、分类关键词确定模块、查找模块和特征文本分类模块。本发明大大提高了分类的准确率和召回率,同时减小了分类处理过程中的计算量。
文档编号G06F17/30GK101178714SQ20061016746
公开日2008年5月14日 申请日期2006年12月20日 优先权日2006年12月20日
发明者勖 文 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1