一种基于分布式计算的网页分类算法

文档序号:6534922阅读:274来源:国知局
一种基于分布式计算的网页分类算法
【专利摘要】本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。
【专利说明】一种基于分布式计算的网页分类算法
【技术领域】
[0001 ] 本发明涉及信息服务网络领域内的网页分类。
【背景技术】
[0002]近年来随着互联网的普及,网络信息呈指数级增长,因特网已发展成全球性的巨大的信息服务网络而其站点遍布全球。它已成为人们搜索和获取信息的重要手段。而面对如此海量而又内容复杂的网络信息,很多时候无法准确定位自己想要的信息,人们正面临着“信息爆炸“而”知识贫乏”的矛盾,因此迫切的需要能从大规模信息资源中提取符合要求的精炼的知识的方法和手段。通过网页的分类,可以从海量的网络信息中迅速、准确的获取用户感兴趣的信息,因此可以应对网络信息复杂导致的“知识贫乏”的问题。
[0003]然而随着网络信息的指数级增长,大多数传统的网页分类算法的处理速度无法应对网络中信息的增长速度,因此很多分类算法在实际应用的效率并不高。

【发明内容】

[0004]本发明基于分布式计算的网页分类算法主要是对朴素贝叶斯分类算法进行改进,增加类中特征词的关联关系、特征词在文档中的位置信息以及动态词库,最后在分布式的环境下对网页分类算法进行实现。
[0005]基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。
[0006]本发明给出的技术方案为:
一种基于分布式计算的网页分类算法,其特征在于,包括步骤如下:
步骤一,分类模型的建立 (I)网页预处理。
[0007]网页的预处理是对网页正文部分进行切词处理。
[0008](2)特征词关联信息。
[0009]通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息,步骤为:首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系,其关联关系为是否出现在相同文档中,然后在最初的分类器中匹配相应的特征词,取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分,求得集合中关于文档信息的特征词的子集,最后将数据存入最终的分类器。
[0010](3)特征词位置信息。
[0011]首先根据计算特征词权值得到网页中的高频词,再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度,最后根据该值对特征词的权值进行修改,得到更精确的特征词对类别的重要程度。
[0012]步骤二,网页分类过程(I)网页预处理。
[0013]网页的预处理是对网页正文部分进行切词处理。
[0014](2)计算网页归属类别。
[0015]以朴素贝叶斯分类为基础,计算所有类的条件概率进而求得不同类对待分类网页的后验概率,最后取可以得到最大后验概率的类作为该网页的归属类别。类别的条件概率计算公式如下:
【权利要求】
1.一种基于分布式计算的网页分类算法,其特征在于,包括步骤如下: 步骤一,分类模型的建立; (1)网页预处理; 网页的预处理是对网页正文部分进行切词处理; (2)特征词关联信息; 通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息,步骤为:首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系,其关联关系为是否出现在相同文档中,然后在最初的分类器中匹配相应的特征词,取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分,求得集合中关于文档信息的特征词的子集,最后将数据存入最终的分类器; (3)特征词位置信息; 首先根据计算特征词权值得到网页中的高频词,再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度,最后根据该值对特征词的权值进行修改,得到更精确的特征词对类别的重要程度; 步骤二,网页分类过程; (1)网页预处理; 网页的预处理是对网页正文部分进行切词处理; (2)计算网页归属类别; 以朴素贝叶斯分类为基础,计算所有类的条件概率进而求得不同类对待分类网页的后验概率,最后取可以得到最大后验概率的类作为该网页的归属类别;类别的条件概率计算公式如下:
I^l, ~m
一^ W-一'_L 十 _L 着一 Pid.CjI = 2Jg—y Jtl (O
εκ.i=i k.τ 其中Cj表示类;d表示待分类的网页;d’表示特征词子集;K’表示和网页数据进行计算后的前k个的集合;T表示d’中的特征词在分类模型中的权值;S表示所有权值和;V表示所有特征词数量和;Fi表示d中的词频;D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频;根据d中的特征词对分类模型中类别&下所有特征词子集进行计算,从分类模型中可以得到T、S和V,再根据特征词词频Fi计算出网页对Cj中所有子集的匹配结果,这里如公式(I)所示,对网页中i个特征词进行计算后累加得到;再取结果中前k个进行累加作为该类别的条件概率,从而得到类别的后验概率;类别的后验概率越大说明网页对该类别所属程度越大,进而得到类别的归属类别; (3)动态词库; 在上述分类完成后,根据特征词在文档中出现的频率记录高频词,在这些高频词中判断是否有未识别的特征词,若有未识别的特征词,则将信息记录在动态词库中,信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词;在以后的分类过程中将动态词库与分类模型结合使用,首先在分类模型中对特征词进行匹配,若匹配不到则在动态词库中进行寻找,若在动态词库中匹配得到,则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值,为分类过程服务,若在动态词库中没有相应匹配则记录相应信息。
【文档编号】G06F17/27GK103744958SQ201410004646
【公开日】2014年4月23日 申请日期:2014年1月6日 优先权日:2014年1月6日
【发明者】蒋昌俊, 陈闳中, 闫春钢, 丁志军, 王鹏伟, 孙海春, 邓晓栋, 王昕
申请人:同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1