基于网页链接分析和支持向量机的网页文本分类算法研究的制作方法

文档序号:9453090阅读:351来源:国知局
基于网页链接分析和支持向量机的网页文本分类算法研究的制作方法
【技术领域】:
[0001] 本发明涉及基于网页链接分析和支持向量机的网页文本分类算法研究,属于网页 分类技术领域。
【背景技术】:
[0002] 随着计算机与通讯技术的快速发展,互联网迅速普及应用,网络上的网页正以几 何级数的速度增长。面对这些爆炸式增长的海量网络信息,如何从中快速、有效地获得有 用的、感兴趣的信息变得越来越重要。因此,有效地组织和管理网页资源,缩短用户获取 所需信息的时间,成为了目前急需解决的问题。网页分类技术应运而生,并逐渐成为继文 本分类之后机器学习领域的研究热点。
[0003] 传统上的网页分类是先由人工判断类别,即在分析网页的内容之后,人工手动选 择一个合适的类别。但是,这种人工分类的做法存在着许多缺点:一是在网页文本数量急 剧增长的情况下,用人工分类方法来进行分类变得不切实际,需要耗费大量的人力资源; 二是人工对网页文本进行分类无法保证较高的分类准确率,主要是由于每个人的经验知 识等主观因素不同,分类结果可能会出现不一致的情况。因此,急需一种有效的方法对网 页文本进行管理,由此网页文本自动分类技术开始显示出其优越性。
[0004] 网页文本自动分类技术来源于文本自动分类技术,其目标和文本分类技术一致, 即在预先定义的网页分类体系下,把待分类的网页准确归属到一个或多个相应的类别。 常用的网页文本分类算法有以下几种:knn算法、NB(NaiveBayes)算法、支持向量机 (SVM)、遗传算法(GA)、R〇cchi〇算法等。这些网页文本自动分类技术仍然存在着许多问题, 如网页文本特征空间的维数过高,导致存储空间大,分类速度慢;网页中包含有大量网站 标记、广告等噪声信息,严重干扰了对网页类别的确定,从而降低了分类的准确率;同时网 页中不同位置的信息表达网页的能力不同,对分类的准确性有一定的影响。因此,迫切需 要找到一种有效的网页文本分类技术,来减少分类的时间,并提高分类的准确率。

【发明内容】

[0005] 针对上述问题,本发明要解决的技术问题是提供基于网页链接分析和支持向量机 的网页文本分类算法研究。
[0006] 本发明的基于网页链接分析和支持向量机的网页文本分类算法研究,它的具体步 骤为:一、把大量网页分为训练集和测试集两部分,一般要求训练接总网页数的40%左右, 测试集取剩下的部分;二、对网页(包括训练集和测试集)进行预处理,主要是对网页进行 分词,将网页内的文本切割为单个的词语,去除网页中对分类无关的噪音信息,去除停用词 等;三、结合特征词(网页内所有能表示网页内容的词)的位置特征,计算训练集中每个网 页内特征词的词频;四、结合特征词的在网页文本中的位置分布,计算出训练集中每个网页 内特征词的权重(通过TF-IDF函数);五、根据每个类中各网页的文本特征向量,计算测试 集中每个类的特征向量;六、结合每个网页内特征词的权重,计算训练集中每个网页的文本 特征向量;七、计算各类中每个网页与类的特征向量的文本相似度(采用余弦夹角公式),确定相似度最小值为阀值;八、通过阀值确定最大TF-IDF值,最大程度减少特征词的数量; 九、通过支持向量机训练出初始分类器,对测试集网页的文本特征向量进行分类;十、同时 计算测试网页分类后与此类特征向量的相似度,若相似度大于阀值,则不需改变分类器,若 相似度小于阀值,则重新确定特征词和特征向量,获得新的支持向量分类器,返回步骤九。
[0007] 作为优选,本发明由于网页的半结构化,不同位置的信息对网页信息的描述能力 存在差异,故将分别根据网页中的标题,超链接文本,具有强调标记和网页正文中的特征词 的词频给予不同的权重,分别进行加权,特征词的词频计算如下:
[0008]
[0009] 其中,a为不同位置的系数,tfn指对应位置的词频
[0010]
[0011] 采用基于TF-IDF特征向量的文本相似度,文档dj和文档dk的主题相关度表示为:
[0012]
[0013] 本发明的有益效果为:
它利用空间向量模型和支持向量机的方法,具有分类时间 短,召回率高,内存需求少,学习速度快的特点。
【附图说明】:
[0014] 为了易于说明,本发明由下述的具体实施及附图作以详细描述。
[0015] 图1为本发明中web文本分类系统的结构框图,
[0016] 图2为本发明实施例中改进前的SVM分类结果表示意图,
[0017] 图3为本发明实施例中改进后的文本分类结果表示意图,
[0018] 图4为本发明中实施例的两种分类方法的准确率曲线图,
[0019] 图5为本发明中实施例的两种分类方法召回率曲线图,
[0020] 图6为本发明中实施例的两种分类方法的F-measure曲线图,
[0021] 图7为本发明实施例中召回率对比曲线图,
[0022] 图8为本发明实施例中准确率对比曲线图,
[0023] 图9为本发明实施例中F值的对比曲线图。
【具体实施方式】:
[0024]为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体 实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范 围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的 概念。
[0025] 如图1所示,本【具体实施方式】采用以下技术方案:它的具体步骤为:一、把大量网 页分为训练集和测试集两部分,一般要求训练接总网页数的40%左右,测试集取剩下的部 分;二、对网页(包括训练集和测试集)进行预处理,主要是对网页进行分词,将网页内的 文本切割为单个的词语,去除网页中对分类无关的噪音信息,去除停用词等;三、结合特征 词(网页内所有能表示网页内容的词)的位置特征,计算训练集中每个网页内特征词的词 频;四、结合特征词的在网页文本中的位置分布,计算出训练集中每个网页内特征词的权重 (通过TF-IDF函数);五、根据每个类中各网页的文本特征向量,计算测试集中每个类的特 征向量;六、结合每个网页内特征词的权重,计算训练集中每个网页的文本特征向量;七、 计算各类中每个网页与类的特征向量的文本相似度(采用余弦夹角公式),确定相似度最 小值为阀值;八、通过阀值确定最大TF-IDF值,最大程度减少特征词的数量;九、通过支持 向量机训练出初始分类器,对测试集网页的文本特征向量进行分类;十、同时计算测试网页 分类后与此类特征向量的相似度,若相似度大于阀值,则不需改变分类器,若相似度小于阀 值,则重新确定特征词和特征向量,获得新的支持向量分类器,返回步骤九。
[0026] 进一步的,本发明由于网页的半结构化,不同位置的信息对网页信息的描述能力 存在差异,故将分别根据网页中的标题,超链接文本,具有强调标记和网页正文中的特征词 的词频给予不同的权重,分别进行加权,特征词的词频计算如下:
[0027] n=i
[0028] 其中,a为不同位置的系数,tfn指对应位置的词频
[0029]
[0030] 采用基于TF-IDF特征向量的文本相似度,文档dj和文档dk的主题相关度表示为:
[0031
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1