一种基于改进的SVM中文文本分类方法与流程

文档序号:12666940阅读:389来源:国知局
一种基于改进的SVM中文文本分类方法与流程

本发明属于数据挖掘技术领域,特别涉及一种基于改进的SVM中文文本分类方法。



背景技术:

文本分类方法是一种有指导的分类方法,它用一个已标好类别的文本数据集(即训练集)来训练分类器,然后用训练好的分类器对未标识类别的文本进行分类,现有的分类方法及缺陷是:

(1)贝叶斯方法和K邻近算法等传统的机器学习方法都是基于经验风险最小化而实现,推广性能不够理想;

(2)传统的支持向量机(SVM,Support Vector Machine)方法是基于结构风险最小化原理的一种新的模式识别方法,具有小样本,良好的推广性能,全局最优等特点,但是在现实操作中,普遍存在样本不平衡的分类问题,此时,传统的支持向量机方法会存在较高的误判率,有待改进。



技术实现要素:

本发明的目的,在于提供一种基于改进的SVM中文文本分类方法,其可提高文本分类精度。

为了达成上述目的,本发明的解决方案是:

一种基于改进的SVM中文文本分类方法,包括如下步骤:

步骤1,对中文文本预处理,得到特征项集合;

步骤2,对特征项集合进行特征选择,得到精简后的特征项集合;

步骤3,对精简后的特征项集合计算权重;

步骤4,构建文本向量,将文本中的每个关键词语作为向量空间中的一个维度,而维度上的值是该关键词语的权重;

步骤5,采用加权支持向量机构建分类器;

步骤6,对待分类文本采用步骤1-4进行处理,得到文本向量,将文本向量输入步骤5构建的分类器,得到分类结果。

上述步骤1中,对中文文本预处理包括中文分词和去停用词两个过程。

上述步骤2的具体内容是:构造一个评估函数对特征项集合中的所有特征项进行评估,然后按照评估值降序排序,根据设定的阈值或特征项数目的要求选择前面的那些特征项,得到精简后的特征项集合。

上述评估函数采用开方检验函数,假设特征项t和类别Ci之间符合一阶自由度的x2分布,其计算公式如下:

其中,N为所有的文本数,A为包含特征项t且属于类别Ci的文本数目,B为包含特征项t且不属于类别Ci的文本数目,C为不包含特征项t且属于类别Ci的文本数目,D为不包含特征项t且不属于类别Ci的文本数目;

然后,将每个特征项t的x2统计值从大到小排个序,选取前若干个作为精简后的特征项集合。

上述步骤3中,采用反比文档频率进行权重计算,权重IDF的计算公式是:

IDF=log(Dall/Dt)

其中,Dall为文章总数,Dt为该词出现的文章数量。

上述步骤5的详细内容是:

设有训练样本集表示为其中,i=1,2,…,m,yi∈{0,1,2,3,4,5,6,7,8,9},表示第i个文本的向量,yi为分类标记;基于加权支持向量机的文本分类模型表示如下:

其中,ζi≥0,i=1,2,…,l,l表示样本个数,为核函数;Si>0表示样本重要性权值,如果0<Si<1表示样本不重要;Si=1表示一般重要;如果Si>1表示很重要;样本类别权值为σ≥1,属于相同类别的样本具有相同的类别权值;

对权重IDF值的计算公式构造拉格朗日函数如下:

其中,αi,βi为拉格朗日乘子,i=1,2,…,l;

最终得到最优分类器:

其中,为径向基核函数。

采用上述方案后,本发明通过在传统基于向量机的文本分类方法上增加了加权步骤,能够有效改善目前多类中文文本分类中样本不平衡的情况,将改进后的加权支持向量机文本分类方法应用于企事业单位的日常文件分类中,提高了分类精度,确保某些重要类别文件(如财务类别文件)不外泄,在一定程度上保障了数据安全。

附图说明

图1是本发明训练阶段的流程图;

图2是本发明分类阶段的流程图。

具体实施方式

以下将结合附图,对本发明的技术方案进行详细说明。

本发明提供一种基于改进的SVM中文文本分类方法,文本分类是将文本文档与规定好的类别进行匹配的过程,包含有训练和分类两个阶段,其中,训练阶段的流程图如图1所示,分类阶段的流程图如图2所示,这两个阶段的处理除了最后一步不相同,其它的处理步骤完全相同,最后一个步骤,在训练阶段是分类算法利用输入的数据进行分类器的构建,在分类阶段是利用训练好的分类器进行分类处理;所述分类方法包括如下步骤:

(一)训练阶段

步骤1,中文文本预处理,包括中文分词和去停用词两个过程。

中文分词,指的是对一个用汉语表达的语句,分析其包含的有意义的词或词组,最后把这些词从中文语句中提取出来,这样原来的中文语句变成一个个单独的词;

去停用词,一般是指去除文本中出现频率很高,但实际意义又不大的词,如常见的“的”、“在”、“和”、“接着”之类,还有一些是使用过于频繁的单词,如“我”、“就”、“啊”和“吧”等等,以及各种的标点符号,避免分词后有过多的干扰。

该步骤可以使用中科院的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)分词系统,ICTCLAS分词系统充分利用了词典匹配、统计分析这两种分词方法的优点,既能发挥词典匹配法分词速度快、效率高的特点,又能利用统计分析法结合上下文识别新词、消除歧义的优点。

步骤2,特征选择

文本预处理后以特征项集合的形式存在,此时特征项集合中的特征项数量非常的多,需要对特征项集合进行降维处理,即特征选择。通过构造一个评估函数(本实施例采用开方检验函数)对特征项集合中的所有特征项进行评估,然后按照评估值降序排序,根据设定的阈值或特征项数目的要求选择前面的那些特征项。

开方检验:假设特征项t和类别Ci之间符合一阶自由度的x2分布,特征项t对于类别Ci的x2统计值越高,特征项t和类别Ci的相关性越强,类别区分度越大,反之的类别区分度越小,其计算公式如下:

其中,N为所有的文本数,A为包含特征项t且属于类别Ci的文本数目,B为包含特征项t且不属于类别Ci的文本数目,C为不包含特征项t且属于类别Ci的文本数目,D为不包含特征项t且不属于类别Ci的文本数目。

然后,将每个特征项t的x2统计值从大到小排个序,选取前若干个作为精简后的特征项集合。

步骤3,权重计算

本发明采用反比文档频率(inverse document frequency,IDF)来进行权重计算,某一特定词的IDF值,是一个词普遍重要性的度量,用总文件数除以包含该词的文章数量,再将得到的商取对数(log)。IDF值的计算公式是:

IDF=log(Dall/Dt)

其中,Dall为文章总数,Dt为该词出现的文章数量。

步骤4,文本表示

为了便于计算机处理文本,采用向量空间模型将文本表示成计算机方便处理的形式。在文本向量空间中,每个关键词语即为向量空间中的一个维度,而维度上的值是该关键词语的权重,权重代表了该关键词语的重要程度。

步骤5,构建分类器

本发明中采用改进后的支持向量机方法——加权支持向量机作为构建分类器的方法,用于解决样本不平衡情形下的分类问题。除了各类别样本数量的悬殊,类别的重要程度不同也会导致样本的不平衡。例如:针对公司单位的文本的分类问题,“财务文件”的重要程度显然比“运动会文件”重要程度高。在保证分类精度的同时,应尽量避免对重要类别的误判。

步骤如下:

①加权支持向量机给训练样本加以类别权值,体现不同类别的重要性。通过增加重要文件类别权重,可以有效地减少该类别中被错分的样本数。

②另外,考虑到每个文本的重要程度也不尽相同,即它们对分类的贡献也不相同,通过给个文本加以样本权重,提高了每个文本被正确分类可能性,减少了重要文本被误分类的可能性,从而提高了分类精度。

具体算法及推导如下:

设有训练样本集表示为其中,i=1,2,…,m,yi∈{0,1,2,3,4,5,6,7,8,9},表示第i个文本的向量,yi为分类标记(本实施例中类别个数为10),例如yi=1表示第i个文本属于第2个类别。基于加权支持向量机的文本分类模型表示如下:

其中,ζi≥0,i=1,2,…,l,l表示样本个数,为核函数。Si>0表示样本重要性权值,如果0<Si<1表示样本不重要;Si=1表示一般重要;如果Si>1表示很重要。样本类别权值为σ≥1,属于相同类别的样本具有相同的类别权值。加权支持向量机与标准支持向量机相比,最突出的优点是它模糊化了对样本错分的惩罚,即对每个样本的松弛变量乘以样本对应的重要性权值和类别权值。

对IDF值的计算公式构造拉格朗日函数如下:

其中,αi,βi为拉格朗日乘子,i=1,2,…,l。

最终得到最优分类器:

其中,为径向基核函数。

(二)分类阶段

对一个待分类的文本,首先利用训练阶段中的步骤1-4对文本进行处理,得到一个相应的文本向量X,然后将X输入到步骤5所构建的分类器f()中,就能得到X所对应的分类结果f(X),从而得到文本的类别。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1