基于最小二乘支持向量机的文本分类方法

文档序号:6563816阅读:857来源:国知局
专利名称:基于最小二乘支持向量机的文本分类方法
技术领域
本发明涉及文本分类方法,特别是基于最小二乘支持向量机的文 本分类方法。
背景技术
随着Internet的广泛应用及WWW技术的快速发展,文本分类技 术成为WEB挖掘的一个重要分支。目前常用的文本分类方法主要有: 基于模糊聚类的中文文本自动分类方法、朴素贝叶斯(NaiveBayes) 方法、KNN方法、神经网络算法和支持向量机(SVM)经典文本分 类算法。这些方法虽能够进行比较准确的文本分类,但在分类时间和 召回率方面已不能适应当今Internet发展的速度。

发明内容
本发明的目的是克服上述不足问题,提供一种基于最小二乘支持 向量机的文本分类方法。该方法利用最小二乘法与传统支持向量机的 方法的相结合,具有分类时间短,召回率高,内存需求少,学习速度 快的特点。
本发明为实现上述目的所采用的技术方案是 一种基于最小二乘 支持向量机的文本分类方法,将进行过文本预处理后的文本信息,利
用最小二乘方法来拟合用传统的支持向量机方法所得到的分类超平 面,从而得到最优的超平面,实现文本分类。
所述在文本预处理过程中,所进行的特征抽取采用属性约简方 法,提取相对重要的属性。
所述使用传统的支持向量机时采用二次函数y=io^作为事先给
定的非线性映射。
本发明分类方法的特点利用最小二乘法来拟合由传统的支持向 量机得到的超平面,该发明的优点是可以在短时间内达到高效的分类
效果和召回率,特别适用于有多链接的Internet网页及大规模搜索引 擎。
具体实施例方式
下面结合具体实施方式
对本发明作进一步详细说明,但不限于具 体实施例。
按照下列方法对文本进行分类,首先对文本进行预处理,预处理 的过程采用属性约简技术,从众多的属性中挑选出对于文本分类影响 因素大的属性。并将文本信息做成向量形式,向量中的每个元素对应 着一个属性值。然后利用支持向量机方法得到分类的超平面,最后利 用最小二乘法拟合得到的最优超平面,实现文本分类过程。
具体实现步骤如下
1.设训练样本集为(x,j;,), /=h 2......,","为训练样本的个数,A为表示文本信息的向量,乂.e(l,-l)是输入样本x,.的类标记(期望输出)。
2. 通过事先给定的非线性影射7=^把输入向量1映射到一个 高维特征空间Z,在这个空间中构造最优分类超平面,将此问题归结 为 一个带约束的二次规划问题
min ||co||2/2 s.t. ;^(欣;+6)21,/=7,2,…/。
3. 利用最小二乘法来判断最优分类超平面。若样本集线性可分, d维空间中线性判别函数g(x"cyjc+6,分类面方程为wxf6=0。利用 最小二乘法来判断最优的超平面,用mathematic软件的findfit函数判 断最优分类超平面。
权利要求
1.基于最小二乘支持向量机的文本分类方法,其特征是将进行过文本预处理后的文本信息,利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面,从而得到最优的超平面,实现文本分类。
2、 根据权利要求1所述的基于最小二乘支持向量机的文本分类 方法,其特征是在文本预处理过程中,所进行的特征抽取采用属性 约简方法,提取相对重要的属性。
3、 根据权利要求1所述的基于最小二乘支持向量机的文本分类方法,其特征是使用支持向量机时采用二次函数作为事先给定的非线性映射。
4. 根据权利要求1所述的基于最小二乘支持向量机的文本分类 方法,其特征是构造分类超平面时,利用二次规划模型<formula>formula see original document page 2</formula><formula>formula see original document page 2</formula>
全文摘要
本发明提供了一种文本分类方法,基于最小二乘支持向量机的文本分类方法,先将文本信息进行预处理,将其转化为向量形式。然后利用支持向量机方法对处理后的文本向量构造超平面。最后利用最小二乘法对得到的分类超平面进行拟合,从而找出最优的分类超平面,实现文本分类过程。本发明基于最小二乘支持向量机的文本分类方法具有分类时间短,召回率高,内存需求少,学习速度快的特点。尤其适用于当今有多链接的Internet网页及大规模搜索引擎。
文档编号G06F17/30GK101350017SQ20081001288
公开日2009年1月21日 申请日期2008年8月20日 优先权日2008年8月20日
发明者盛秀英 申请人:盛秀英
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1