基于训练集的网页分类方法

文档序号:6481758阅读:169来源:国知局
专利名称:基于训练集的网页分类方法
技术领域
本发明是针对任意中文网页进行网页内容自动分类方法的研究,主要研究如何构建训 练集并利用向量比较法准确地对未知网页进行分类,设计了网页自动分类模型和算法,涉 及文档特征提取及特征权值计算等技术领域。
背景技术
随着互联网技术的飞速发展和普及,Web上的网页信息量迅猛地增加,人们已经步入 了一个信息丰富的时代。面对如此丰富的Web信息,人们往往感到无所适从,如何有效査找 到所需资源成为人们关注的问题。作为用户最常用的网上信息检索工具(如baidu和 google),关键词搜索引擎存在诸如查准率低、信息冗余大等缺点。由于中文网页自动分 类技术上的不成熟,大多数目录搜索引擎采用人工分类的方法,如YAHOO。虽然査准率有一 定的提高,却存在时效性差、分类结果不一致、数据库规模小等弊端,单纯的使用人工分 类代价昂贵而且是不现实的。因此,中文网页自动分类便成了快速且有效地组织网络上海 量信息的一个重要技术。
针对未知的中文网页进行自动分类具备一定的难度,有如下原因 第一、 中文网页使用中文编辑,不像英语单词之间存在自然的间隔,中文需要进行分
词的处理,而且分词的效果能够显著地影响分类效果。 第二、 网页格式的多样化。多种格式并存,而且同一格式的网页也存在多个标准,同
时由于网页的写作风格及内容变化都很大,因此如何解析不同格式、不同风格
的网页成为网页预处理的一个难点。 第三、 分类主题的模糊。互联网的知识系统发展异常迅猛,各种新的知识结构不断的
涌现,如果训练语料库得不到及时更新,就会导致网页无法分类或者分类准确
率大幅下降。
第四、 网页去噪。网页中存在大量与页面主题无关的噪音信息,如何提高去噪算法的
性能是有待研究的问题。
第五、 网页结构信息。网页含有丰富的结构信息,除纯文本以外,还有其他一些内容
对分类有贡献。如Head和Title标注网页的标题和段落子标题,meta标记中的 na鹏属性值和content属性值是对网页主题的描述,网页中的超链接指向的内 容有可能是与网页主题相关的内容,也有可能是噪声,如何区分和提取是难点所在。
由上可见,中文网页的自动分类系统的设计和实现存在很多的问题和很大的难度,因 此我们对此进行了研究。

发明内容
技术问题本发明的目的是建立一种基于训练集的网页分类方法,即对未知分类网页 同训练集比较以得到该网页对应分类的方法,并设计网页的向量表示模型和向量的特征提取算法、距离向量比较算法,通过对网页分类确定可以对用户上网访问行为做更深入的分 析。
技术方案本发明的基于训练集的网页分类方法包括3个部分,分别是网页内容处理、 网页向量表示和网页向量比较 网页内容处理部分
Al.)根据网页URL自动获取到该网页源码内容,
A2.)利用正则表达式过滤掉网页内容中的图片,超链接等噪音信息,提取出有效 的文本信息,
A3.)将过滤后的网页文本,经分词处理,
A4.)对分词后的文本进行过滤,将虚词,助词等词条过滤,留下能概括文本内容 的关键词; 网页向量表示部分-
该部分又分为向量特征词维数约减,特征词特征值确定2个过程, 特征词维数约减
Bl.)训练集中所有分词汇总,训练集在上一步操作后,提交过来的形 式是分好词的文本,文本按照不同分类分别存放在不同的文件夹中,按需要将所有文本通 过批处理进行汇总;这样就有了所有分类的关键词词条,
B2.)词条长度筛选,将所有词条的长度限制到2到5之间,不在此长度范围内的 词条视为对分类作用不大甚至起干扰作用,将这些词条剔除,
B3.)对词条唯一性做限定,将总词汇文本中的所有词条频数限制到一次,以提高 计算速度,和减少计算错误,
B4.)分别计算每个词条在不同分类中出现的频数,然后将所有频数求和,特征项 选取算法结束,
B5.)计算每对不同的词条类别之间四种关系频数,然后按照《2计算方法得到每 对词条的维数约减权值,
B6.)将权值按降序排序,取前1000个词条作为特征项,完成特征项的确定; 特征词特征值确定 B7.)获取特征项,
B8.)根据特征项的数量动态创建数据表, B9.)在训练集中计算包含特征项的文档数, B10.)统计总文本数量,总类别数量,各类所含文本数量, Bll.)计算特征项在每个文中的频数,并用矩阵形式处理, B12.)根据不同文本,计算特征项的特征值,完成文本的向量表示, B13.)向量表示算法结束; 网页向量比较部分
Cl.)获取测试文本X的特征向量,
C2.)从训练集中取出一个文本特征向量Ti,
C3.)计算两个特征向量的相似度sim (X, Ti),
C4.)判断是否同训练集中所有向量计算完毕,是则执行C5),否则跳到步骤C2)继续执行,
C5.)将计算的相似度计算结果进行快速排序,取出相似度最高的K个文本, C6.)把这k个文本的相似度按类别累加, C7.)取相似度最大值Si以及对应的类别Ci, C8.)标识该文本可能属于Ci类, C9.)分类算法结束。
有益效果基于训练集的网页分类方法,即对未知分类网页同训练集比较以得到该 网页对应分类的方法,并设计网页的向量表示模型和向量的特征提取算法、距离向量比较 算法,通过对网页分类确定可以对用户上网访问行为做更深入的分析。
用户是网络的直接使用者,同时也是对网络服务质量好坏判断的最终审判者。传统的 网络服务在给用户带来巨大便捷的同时,也存在着不足,如不能对用户主动提供所需信息。 用户行为分析,可以把隐藏在用户行为之下的信息,如用户的兴趣爱好,用户的领域,用 户的访问频率等进行归纳总结,通过对用户行为的学习,使网络服务更加有针对性地面向 特定用户,优先或主动返回用户所需的基本信息。
利用基于训练集的网页分类方法可以对用户浏览web记录进行分类分析,可获得用户 利用网络经常关注哪方面的信息,从事哪方面工作,和喜欢在哪些网站上进行消费活动等 用户行为信息。这对于提高网络服务质量,完善网络管理都是很重要的。
传统的网页分类方法都是利用人工处理,这种方法准确率能够很好保证,而对于网页 数量过大的时候这种处理方法的低效率就会暴露出来,更无法达到实时的效果。而基于训 练集的网页分类方法能将分类过程自动化,且采用的方法在准确率上有一定保证。


图1是网页分类功能图。图中给出了分类的各个处理过程。
图2是网页向量的特征项确定方法流程图。图中给出了特征项确定方法的具体处理过程。
图3是网页向量的特征项的特征值确定方法流程图。图中给出了特征项的特征值确定 方法的具体处理过程。
图4是向量比较方法流程图。图中给出了向量比较方法的具体处理过程。
具体实施例方式
本发明提出了一种有效对网页自动分类的技术框架,并且详细设计了分类算法,如附
图1所示。从图中可以看出,系统分为三个部分,分别是网页内容处理、网页向量表示 和网页向量比较。
这里需要指出2个文本术语。训练集指大量已知分类的网页源码集合,源码用文本形 式存储,并按照对应文类分别存储在不同文件夹中,这些文本最终都经过处理转换成对应 向量的形式表示。特征提取是指网页向量的每一个元素的确定过程,其中元素是能体现网 页内容的关键词词条,元素的值为词条对分类重要性的权值计算结果。每一个网页都有自 己的向量表示。
本发明的关键方法在向量表示部分和向量比较部分,向量表示部分主要包含两个方法网页向量的特征项确定方法和特征项的特征值确定方法;向量比较部分的主要方法是待
测网页向量同训练集向量比较的方法。
网页向量的特征项确定方法:特征选择的基本依据是特征对分类结果的作用大小,利用 统计量来度量。特征选择的结果还要保证不改变原有特征空间的性质,将特征空间的维数 降低到理想范围内。由于将基于原有上面的原则,我们选择了统计方法,认为网页中的中 文关键词同类别之间满足分布。这一统计量值越高,关键词同类别之间的独立性越小,相 关性越强,即关键词对该类别的贡献越大。将处理后的训练集中的所有关键词聚集到一个
文本中,并计算每个关键词同类别的4种关系频数l.关键词i在类别j中出现的频数Wu, 2.关键词i在类别j外的其他类别中出现的频数w。 , 3.除关键词i外所有词条在类别
沖出现的频数"21 , 4.除关键词i外的所有词条在类另llj外其他类别中出现的频数/^ 。然 后通过公式
计算出统计量。其中n是所有关键词的频数总和。对每对关键词i和类别j都计算;^2的值,
取出结果较大的前1000个词作为特征,即完成了向量特征的确定。
特征项的特征值确定方法:完成了特征项的选择后,就要给选出的特征项赋以权重,用 来描述文档的内容和特征在文本中的重要性。对于网页形式的特殊文档,由于其结构特点 和特征对应的类别信息,我们在TFWDF的权重计算方法的基础上,计算出更精确的统计量, 以描述特征项对于网页内容的重要性。本方法是把特征项i在文档J的的出现的频数2T;.,
和特征项i与文档j的反比文档频数log(! + 0.01),通过公式-
7^,xlog(! + 0.01)
Z(7^.xlog(! + 0.01))
计算得到特征权值。其中 是训练集中网页文本",中
出现特征项。的文本数。
向量比较的方法利用K最近邻算法,将待测向量同训练集中每个文本进行比较,计算 他们的相似度,找出K个最相似的训练文本。并在此基础上给每个文本类打分,分值是K个 训练文本中属于该类的文本与测试文本之间的相似度之和,然后按分值进行排序。取分值
大者作为比较结果。具体计算公式为Kf,。)= J]"附(J,《XK《,。)—a。其
《£鹏中》为待测网页向量,S为训练集中网页向量,C为类别集中的元素,
;y/附(么《)-^^, K《,。)大小的在(0, 1}之间取值(当S属于c时取l ;否则为O),
以下详细介绍该设计的各个部分功能实现方法。
1. 网页内容处理模块
功能该部分先获取指定网页源码,并利用正则表达式提取出源码的中文部分,再把
提取后的中文文本进行分词处理以文本形式存储。
接口该部分将分词后的网页文本提供给下一功能模块。
2. 网页向量表示模块
功能部分首先通过训练集得到网页向量的表示。再将提交来的每一网页文本经过计 算生成向量,并存储到数据库中。
接口该功能部分为网页向量比较模块,提供要比较的数据。数据库中每条记录表示 一个向量,行代表不同的网页文本,列代表向量的特征,存储的数据值为每个特征词在该 网页文本中的计算出的权值。
该层主要包含两个方法网页向量的特征项确定方法和特征项的特征值确定方法。通 过首先确定向量的每个元素,即网页内容中的关键词,再对特征词对于网页内容的重要性 进行计算并赋以相应权值,完成网页的向量表示。
网页向量的特征项确定方法。方法处理过程如附图2。
(1) 训练集中所有分词汇总,训练集在上一步操作后,提交过来的形式是分好词的 文本,文本按照不同分类分别存放在不同的文件夹中,按需要将所有文本通过 批处理进行汇总。这样就有了所有分类的关键词词条,但是用这么多的关键词 做为特征项计算量太大,计算出的结果也不会因为特征项的数量大而精确,因 此需要将特征项进行维数约减,将特征词减少到一定范围以提高计算速度。
(2) 词条长度筛选,将所有词条的长度限制到2到5之间,不在此长度范围内的词 条视为对分类作用不大甚至起干扰作用,将这些词条剔除。
(3) 对词条唯一性做限定,由于文本数量庞大,同样词条出现的概率也很大,但是 用于计算的词条只用计算一次就好,因此还得将总词汇文本中的所有词条频数 限制到一次,以提高计算速度,和减少计算错误。
(4) 分别计算每个词条在不同分类中出现的频数,然后将所有频数求和。
(5) 计算每对不同的词条类别之间四种关系频数。然后按照;j^计算方法得到每对
词条的权值。
(6) 将权值按降序排序,取前1000个词条作为特征项,完成特征项的确定。
(7) 特征项选取算法结束。
特征项的特征值确定方法。方法流程如附图3所示。
(1) 获取特征项。
(2) 根据特征项的数量动态创建数据表。
(3) 在训练集中计算包含特征项的文档数。
(4) 统计总文本数量,总类别数量,各类所含文本数量。(5) 计算特征项在每个文中的频数,并用矩阵形式处理。
(6) 根据不同文本,计算特征项的特征值,完成文本的向量表示。
(7) 向量表示算法结束。 3.网页向量比较模块
功能该部分功能是将上一模块处理后的待测网页向量同训练集中的所有向量进行比 较,经过特定算法计算出待测网页向量同训练集中所有网页向量的结果。找到同训练集中 最相似的向量,其对应的分类即为待测文档分类。
接口将最终分类结果存储到数据库中。
该部分是分类系统的核心部分,包含向量比较方法。
向量比较方法。方法流程如附图4所示。
(1) 获取测试文本X的特征向量。
(2) 从训练集中取出一个文本特征向量Ti。
(3) 计算两个特征向量的相似度sim (X, Ti)。
(4) 判断是否计算完毕是则执行(5),否则跳到步骤(2)继续执行。
(5) 将计算的相似度计算结果进行快速排序,取出相似度最高的K个文本。
(6) 把这k个文本的相似度按类别累加。
(7) 取相似度最大值Si以及对应的类别Ci。
(8) 标识该文本可能属于Ci类。
(9) 分类算法结束。
4.网页自动分类系统的应用
对于网页自动分类具有很广泛的意义和应用价值。主要可以应用在 中文网页自动分类聚类研究; 中文WEB网页特征研究;
信息检索技术研究;
为专业主题性搜索引擎做铺垫;
Internet信息获取利用形式分析。
本方法在为我们开发建设的网页自动分类系统中的逆向引擎部分有设计利用。系统通 过B/S形式再结合正/逆引擎的支持,实现通过类别査找相关URL,和给定URL获知其分类。 经抽样检测,基于alexa排名网的全球url和中文url排名,本系统的覆盖率分别达到50% 和97%。分类准确率我们仍然需要继续提高,对训练集的界定还需要更加严密的划分,类 别的定制也有待向3级到4级的趋势发展,以保证覆盖率更全更广泛。
系统的使用环境搭建简单,只需要在windows环境下,并配备Net2. 0框架,和oracle 9i或以上版本,连接上internet,就能运行本系统。系统的使用方便,结合简明的B/S 构架,用户能根据提示进行相关査找操作。系统的实时性也能做到依照用户自己要求及时 和定时更新url数据库。
权利要求
1.一种基于训练集的网页分类方法,其特征在于该方法包括3个部分,分别是网页内容处理、网页向量表示和网页向量比较网页内容处理部分A1.)根据网页URL自动获取到该网页源码内容,A2.)利用正则表达式过滤掉网页内容中的图片,超链接等噪音信息,提取出有效的文本信息,A3.)将过滤后的网页文本,经分词处理,A4.)对分词后的文本进行过滤,将虚词,助词等词条过滤,留下能概括文本内容的关键词;网页向量表示部分该部分又分为向量特征词维数约减,特征词特征值确定2个过程,特征词维数约减B1.)训练集中所有分词汇总,训练集在上一步操作后,提交过来的形式是分好词的文本,文本按照不同分类分别存放在不同的文件夹中,按需要将所有文本通过批处理进行汇总;这样就有了所有分类的关键词词条,B2.)词条长度筛选,将所有词条的长度限制到2到5之间,不在此长度范围内的词条视为对分类作用不大甚至起干扰作用,将这些词条剔除,B3.)对词条唯一性做限定,将总词汇文本中的所有词条频数限制到一次,以提高计算速度,和减少计算错误,B4.)分别计算每个词条在不同分类中出现的频数,然后将所有频数求和,特征项选取算法结束,B5.)计算每对不同的词条类别之间四种关系频数,然后按照χ2计算方法得到每对词条的维数约减权值,B6.)将权值按降序排序,取前1000个词条作为特征项,完成特征项的确定;特征词特征值确定B7.)获取特征项,B8.)根据特征项的数量动态创建数据表,B9.)在训练集中计算包含特征项的文档数,B10.)统计总文本数量,总类别数量,各类所含文本数量,B11.)计算特征项在每个文中的频数,并用矩阵形式处理,B12.)根据不同文本,计算特征项的特征值,完成文本的向量表示,B13.)向量表示算法结束;网页向量比较部分C1.)获取测试文本X的特征向量,C2.)从训练集中取出一个文本特征向量Ti,C3.)计算两个特征向量的相似度sim(X,Ti),C4.)判断是否同训练集中所有向量计算完毕,是则执行(C5),否则跳到步骤C2)继续执行,C5.)将计算的相似度计算结果进行快速排序,取出相似度最高的K个文本,C6.)把这k个文本的相似度按类别累加,C7.)取相似度最大值Si以及对应的类别Ci,C8.)标识该文本可能属于Ci类,C9.)分类算法结束。
全文摘要
基于训练集网页自动分类方法,分类过程由特征选取,特征权值确定,文本向量比较等方法的结合。基于分类体系的自动分类法主要是根据事先建立好的类别模型即训练集,将待分类文档归入相应类别。随着多媒体技术的发展,网页信息的内容形式也丰富多彩,不仅包括文本信息,还包括很多的结构信息,以及声音、图形、图像等其他形式信息。但是,由于基于文本的网页仍然占有较大的比例,因此基于网页文本分类仍然占主导地位。本方法有可靠的理论支持、良好的可扩展性和准确性,且易于与运营商相关的应用接口对接。
文档编号G06F17/30GK101609450SQ200910030709
公开日2009年12月23日 申请日期2009年4月10日 优先权日2009年4月10日
发明者于伟涛, 张顺颐, 琛 汤, 攀 王 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1