一种基于改进SVM的网页分类系统的制作方法

文档序号:16134799发布日期:2018-12-01 00:48阅读:148来源:国知局

本发明创造涉及网络检测领域,具体涉及一种基于改进svm的网页分类系统。

背景技术

网络技术的发展和推广,使我们进入了一个信息极其丰富的时代,在这种时代背景下,搜索引擎以其高效和便捷的特性获得了人们的青睐,成为主流的信息获取方式。虽然搜索引擎可以为我们从海量数据中找出所需的信息,但是在实际应用时仍存在一些问题,其中比较突出的就是查询结果的主题漂移问题,当用户提交查询词后,返回的结果往往有很多主题无关的网页,这严重影响了搜索质量,所以对网页进行分类就显得十分重要。

支持向量机是一种十分有效的分类算法,网页中的文本内容包含了丰富的信息,利用支持向量机对网页进行分类可以提高分类的准确性,针对传统的采用支持向量机进行网络分类时存在的训练收敛较慢和分类精度不高的缺点,本发明提出一种基于改进svm的网页分类系统,采用改进的粒子群算法对svm中的参数进行优化,并采用优化后的支持向量机进行网页分类,有效的提高了网页分类的效率。



技术实现要素:

针对上述问题,本发明旨在提供一种基于改进svm的网页分类系统。

本发明创造的目的通过以下技术方案实现:

一种基于改进svm的网页分类系统,包括网页处理模块、参数优化模块、svm训练模块、网页分类模块和分类评估模块,所述网页处理模块用于将网页数据集中的网页转换成向量形式,并对转换后的网页进行特征提取和处理,从而得到训练网页样本集和测试网页数据集,所述参数优化模块采用改进的粒子群算法对支持向量机中的参数进行优化,所述svm训练模块通过训练网页样本集对svm分类器进行训练,得到将不同类别的网页进行分割的最优分类面,所述网页分类模块基于所述最优分类面对测试网页数据集进行分类,从而得到网页分类结果,所述分类评估模块用于判断网页分类结果的准确率,当准确率较低时通过调整网页处理模块的参数对网页数据集中的网页进行重新处理。

本发明创造的有益效果:本发明提供一种基于改进的svm的网页分类系统,采用改进的粒子群算法对支持向量机中的参数进行优化,有效的提高了支持向量机的训练收敛速度,并且提高了支持向量机的分类精度,从而提高了网页分类的精度。

附图说明

利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。

图1是本发明结构示意图;

附图标记:

网页处理模块1;参数优化模块2;svm训练模块3;网页分类模块4;分类评估模块5;网页预处理单元11;特征提取单元12;特征处理单元13。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1,本实施例的一种基于改进svm的网页分类系统,包括网页处理模块1、参数优化模块2、svm训练模块3、网页分类模块4和分类评估模块5,所述网页处理模块1用于将网页数据集中的网页转换成向量形式,并对转换后的网页进行特征提取和处理,从而得到训练网页样本集和测试网页数据集,所述参数优化模块2采用改进的粒子群算法对支持向量机中的参数进行优化,所述svm训练模块3通过训练网页样本集对svm分类器进行训练,得到将不同类别的网页进行分割的最优分类面,所述网页分类模块4基于所述最优分类面对测试网页数据集进行分类,从而得到网页分类结果,所述分类评估模块5用于判断网页分类结果的准确率,当准确率较低时通过调整网页处理模块1的参数对网页数据集中的网页进行重新处理。

优选地,所述网页处理模块1包括网页预处理单元11、特征提取单元12和特征处理单元13,所述网页预处理单元11用于去除网页数据集中网页的噪声污染,接着去除网页中的html标签和停用词并提取网页的词干,从而将网页转换成向量形式,所述特征提取单元12用于对预处理后的网页进行特征提取,所述特征处理单元13用于对提取得到的特征变量进行归一化处理,并将归一化处理后的特征变量分为训练网页样本集和测试网页数据集。

本优选实施例提供一种基于改进的svm的网页分类系统,采用改进的粒子群算法对支持向量机中的参数进行优化,有效的提高了支持向量机的训练收敛速度,并且提高了支持向量机的分类精度,从而提高了网页的分类精度。

优选地,参数优化模块2采用改进的粒子群算法对支持向量机中的参数进行优化,具体步骤为:

s1,初始化支持向量机和粒子群的相关参数,包括惩罚参数、核函数参数、粒子群群规模、粒子维数和迭代次数;

s2,计算粒子的适应度值;

s3,寻找个体最优位置和全局最优位置;

s4,计算每个粒子的惯性权重ω的数值,并对粒子产生扰动;

s5,更新迭代次数;

s6,判断是否达到最大迭代次数,如果没有达到最大迭代次数,则转至步骤2,如果达到最大迭代次数,则输出最优解,即优化的支持向量机的参数。

本优选实施例采用改进的粒子算法对支持向量机的参数进行优化,有效的解决了传统支持向量机存在的训练收敛较慢和分类精度不高的缺点。

优选地,参数优化模块2采用改进的粒子群算法对支持向量机的参数进行优化,则对粒子群算法的改进为:

1)设tmax为最大迭代次数,t为当前迭代次数,wo为初始权重,we为最终权重,则改进的惯性权重函数w的计算公式为:

2)设t是当前的迭代次数,tmax是最大迭代数,cmax是初始设定的加速因子的最大值、cmin是初始设定的加速因子的最小值,则改进的加速因子加速因子c1和c2的计算公式为:

本优选实施例采用改进的权重因子能够有效的扩大算法的搜索空间和能力,加强了全局搜索能力的同时也使得局部寻优能力变强,此外,改进的权重因子使得算法面对复杂问题时,在迭代末期依然能够有效的进行局部搜索,避免了算法陷入局部最小值;采用改进的加速因子计算方法,解决了粒子容易陷入局部最小值的问题,使得粒子能够搜索到最优解。

优选地,所述支持向量机采用的核函数为k(xi,xj),则k(xi,xj)的计算公式为:

k(xi,xj)=[(xi·xj)+1]a[exp(-‖xi-xj‖22]b[tanh(δ(xi·xj)+β]c

式中,a、b和c为各项的调节系数,α、δ和β为核参数,i,j=1,2,…,n,n表示样本数。

本优选实施例的核函数综合了局部核函数和全局核函数的特性,拥有较强的学习能力和较强的泛化能力,能够有效的提高支持向量机的性能,从而提供了网页分类系统的精度。

最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1