一种优化训练样本集的knn文本分类方法

文档序号:6551539阅读:347来源:国知局
一种优化训练样本集的knn文本分类方法
【专利摘要】本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。
【专利说明】一种优化训练样本集的KNN文本分类方法

【技术领域】
[0001] 一种优化训练样本集的KNN文本分类方法,基于裁剪优化训练集的K最近邻结点 算法对文本进行分类,属于文本挖掘,自然语言处理等领域。

【背景技术】
[0002] 随着互联网络上大量信息不断的涌现出来,给信息的查询以及检索带来了很大的 不便,而人们对获得信息的快捷性以及信息的简洁性的需求与日俱增。面对这个问题,文本 分类技术就被提出了出来。它能够对海量信息进行有序整理组织,能够在隐藏的、未知的大 量文本信息中帮助用户发现有用的、潜在的知识。
[0003] 文本分类技术的出现立即获得了人们广泛的关注,同时也成为了研究的热点。文 本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。20世纪90年代以 前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行 分类。分类非常费时,效率过低。90年代以来,众多的统计方法和机器学习方法应用于自动 文本分类。
[0004] 爆炸式增长的文本信息给文本分类的精度与速度提出了新的标准和挑战。随着分 类技术在各个领域的广泛应用,毫无疑问,对文本分类技术研究的重要意义越来越明确的 显现。
[0005] 国外对于文本自动分类的研究开展较早,20世纪50年代末,Η. P. Luhn对文本自 动分类进行了开创性的研究,将词频统计思想应用于文本自动分类。I960年,Maro发表 了关于自动分类的第一篇论文,随后,K. Spark、G. Salton、R. M. Needham、Μ· E. Lesk以及 K. S. Jones等学者在这一领域进行了很成功的研究,到目前为止,国外基本经历了以下四个 文本分类的主要阶段,分别为:
[0006] 第一阶段(1958-1964):针对文本自动分类的可行性研究;
[0007] 第二阶段(1965-1974):文本自动分类的实验阶段;
[0008] 第三阶段(1975-1998):文本自动分类的实际应用阶段;
[0009] 第四阶段(1990至今):因特网文本自动分类研究阶段。
[0010]目前比较主要的文本分类方法有以下三个类别:基于规则的文本分类方法,基于 统计的文本分类方法,以及基于连接的文本分类方法。
[0011] 常见的基于规则的分类方法有决策树、关联规则等;基于统计的分类方法有朴素 贝叶斯、KNN方法等;基于连接的分类方法有神经网络等。
[0012] 对于每一个文档与其类别的二元组〈di,Ci> e DXC,判断其结果,如果结果为1,这 表示文档屯属于类别Ci ;如果结果为0,则表示文档屯不属于类别Ci。其中,屯代指文档集 合D中的一个文档,C= {Cl,c2,...,Cn}是预先定义好的类别集合。文本分类的目的就是找 出将文本进行分类的函数Φ :DXC - {1,0},这个函数就是文本分类器。
[0013] 在文本分类的特征提取阶段,传统的互信息MI特征提取方法虽然有着对类别和 特征之间的连接性能够增强的特点,但是对低频词的处理效果并不好,在处理单个特征的 时候容易陷入局部最优。
[0014] 在文本分类的分类阶段,传统KNN分类算法的基本思想是:先计算待分类样本与 已知类别的训练样本之间的距离或相似度,找到距离或相似度与待分类样本数据最近的K 个邻居;再根据这些邻居所属的类别来判断待分类样本数据的类别。如果待分类样本数据 的K个邻居都属于一个类别,那么待分类样本也属于这个类别。
[0015] KNN是空间向量模型中最好的算法之一,KNN算法最大的优点在于简单,不需要训 练学习,但是KNN -种惰性的分类方法,只有需要分类时才建立分类器,需要将样本集中的 每个样本都要遍历一次,计算量大(比如要建立一个文本分类器,若有上万个类别,即使每 个类别只有30个训练样本数据,要判断出一个新的待分类样本的类别,也需要至少做30万 次的比较),并且KNN易受样本空间密度的影响,分类效率较低。


【发明内容】

[0016] 本发明针对现有技术的不足之处提供一种优化训练样本集的KNN文本分类方法, 解决传统KNN文本分类方法的效率和准确率低的问题,并且在特征提取步骤将互信息值引 入到遗传算法之中,能够结合两种提取方法的优点,使得特征提取结果更为可靠,使整个文 本分类能够更好的应用于文本信息挖掘系统。
[0017] 为了解决上述技术问题,本发明采用如下技术方案:
[0018] -种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤:
[0019] (1)对训练用文本数据和待分类文本数据进行文本预处理;
[0020] (2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;
[0021] (3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征 提取;
[0022] (4)对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算 法进行训练分类,构造文本分类器;
[0023] (5)将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的 分类结果。
[0024] 作为优选,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为 向量空间模型表示,具体步骤如下:
[0025] (21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的 权重,计算公式为:
[0026]

【权利要求】
1. 一种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤: (1) 对训练用文本数据和待分类文本数据进行文本预处理; (2) 将预处理后的训练用文本数据和待分类文本数据分别进行文本表示; (3) 对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提 取; (4) 对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进 行训练分类,构造文本分类器; (5) 将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类 结果。
2. 根据权利要求1所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述 步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体 步骤如下: (21) 使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权 重,计算公式为:
其中,表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)dj 中出现的频率数目,N是文档(训练用文本数据或待分类文本数据)的总数目,队是指文档 (训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目,η为文本 特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到η, tfkj表示的是第k个文本特征词在文本七中出现的频率数目; (22) 将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量,具体 表示为, v (dj) = (w! (dj), w2 (dj), . . . , wn (dj)), 其中,n表示文本特征提取所用的文本特征词数目,% (cQ表示第j个文本特征词在文 档(训练用文本数据或待分类文本数据)Φ中的权值,j为1到η的任意值; (23) 计算训练用文本数据特征的平均互信息值MIavg(w),计算公式为:

其中,P(w Λ c J表示训练样本集中既属于特征词w又属于类别Ci的概率,P(w)表示 包含特征词w在训练用文本数据中出现的概率,P(Ci)表示训练用文本数据中属于类别Ci 的文本数据的概率,MI (w,Ci)表示单个类别下的互信息值,MIavg(w)为平均互信息值; (24) 将训练用文本数据的特征平均互信息值加入到步骤(22)训练用文本数据向量表 示的最后一维度,具体表示为, v (di) = (ψ1 (di), w2 (di), . . . , wn (di), MIn+1 (di)), 其中,n表示文本特征提取所用的特征词数目,% (cQ表示第j个文本特征词在文档φ 中的权值,MIn+1 (cQ表示特征的平均互信息值,j为1到η的任意值。
3. 根据权利要求1所述的一种优化训练样本集的ΚΝΝ文本分类方法,其特征在于,所述 步骤(3)中,对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征 提取,具体步骤如下: (31) 采用浮点数编码方式分别对文本表示的训练用文本数据和待分类文本数据进行 染色体编码; (32) 将编码后的训练用文本数据和待分类文本数据的文本特征词进行初始化,包括设 置迭代次数,随机生成部分个体作为初始种群; (33) 计算初始种群中的每一条染色体的适应度; (34) 判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果 是,则输出最优解,否则,执行步骤(35); (35) 使用比例法进行选择,将选择算子作用于种群; (36) 使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群; (37) 随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词 权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
4. 根据权利要求3所述的一种优化训练样本集的ΚΝΝ文本分类方法,其特征在于,所述 步骤(35)中,比例法的公式为:
其中,Fit(Si)为每一条染色体81的适应度,P(Si)为最终 81被选择的概率,j为从j = 1开始直到η,η为遗传算法染色体总数。
5. 根据权利要求1所述的一种优化训练样本集的ΚΝΝ文本分类方法,其特征在于,所述 步骤(4)中,使用经过优化样本集的ΚΝΝ算法进行训练分类的步骤如下: (41) 对训练用文本数据进行裁剪,得到裁剪样本文本数据训练集; (42) 采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样 本文本数据之间的相似度; (43) 选取与待分类文本数据之间相似度最高的Κ个已知类别样本文本数据; (44) 根据Κ个已知类别样本文本数据判断待分类文本数据的类别。
6. 根据权利要求5所述的一种优化训练样本集的ΚΝΝ文本分类方法,其特征在于,所述 步骤(42)中,相似度的计算公式为:
其中,Simd dp表示文本屯和4之间的相似程度,η表示文本的特征词数目,wki和 wkj分别表示文本屯和七的第k个特征词的权值,Sim(屯,dp值越大表示两个文本之间的 相似度越高,反之,两个文本之间的区别越大。
7. 根据权利要求5所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述 步骤(41)中,得到裁剪样本文本数据训练集的步骤如下: (411) 将训练用文本数据分为类内样本文本数据和边界样本文本数据; (412) 裁剪类内样本文本数据; (413) 裁剪边界样本文本数据。
8. 根据权利要求7所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述 步骤(412)中,类内样本文本数据裁剪的步骤如下: (4121) 计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量 距离类中心向量最远的向量:^和训练用文本数据中的每一个已知类别样本文本数据的平 均密度P ; (4122) 计算出每次的增量9 = ,η为初始设置同类别下文本数据分割增量区 间个数; (4123) 如果计算类间增量小区域<^;; + V>内的训练用文本数据中的每 一个已知类别样本文本数据下增量内的样本文本数据的平均密度Pi和标准密度P Vi, 其中Ψ是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越 近时取值越大; (4124) 判断Pi > P Vi是否成立,成立则裁剪小区域内邻域最多的样本,并转到步骤 (4125),否则;;=^ +▽,计算下一个增量空间并转到步骤(4123); (4125) 依次遍历完所有增量空间。
9. 根据权利要求7所述的一种基于KNN算法的文本分类方法,其特征在于,所述步骤 (413)中,边界样本裁剪文本数据的步骤如下: (4131) 计算出所有边界样本文本数据ε邻域范围的平均样本个数AVG; (4132) 计算单个边界样本文本数据的邻域内样本个数|Νε (X) |,如果|Νε (X) | >AVG, 则对边界样本文本数据进行裁剪并转到步骤(4133),否则直接转到步骤(4133); (4133) 依次遍历完所有边界样本文本数据。
【文档编号】G06F17/30GK104063472SQ201410305607
【公开日】2014年9月24日 申请日期:2014年6月30日 优先权日:2014年6月30日
【发明者】屈鸿, 谌语, 绍领, 解修蕊, 黄利伟 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1