基于WordNet以及潜在语义分析的文本分类方法_2

文档序号：9326999阅读：来源：国知局

[0036]图3示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的输入输出框图。图4示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要流程图。图5(a) (b)示出了根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一个简单样例。
[0037]如图3所示，根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法包括文本预处理、特征提取、以及遗传算法(GA)三个部分，它们的功能如下:
[0038]文本预处理，将文本数据集初步处理，一般为分词，去停用词两个基本处理，本方法引入WordNet对文本中单词进行消歧义处理以及以上位概念词代替原词。(D表示文档)。
[0039]特征提取，先过滤掉词频太低的单词构成子集，然后采用潜在语义分析(LSA)的方法对处理后的文本集做特征提取，在文本集的所有概念词中，根据差异，选取前100个单词作为结果。(D1...Dni表示文档，W1...Wn表示单词，D 表示单词W j在文档D i中的词频，
I < i < m，I < j < η)。多处用
[0040]遗传算法(GA)，这部分通过对分类器效果的检验，调整特征矩阵中的单词项，训练分类器并检测，逐步获得效果最佳的分类器。
[0041]具体地，通过给出由根据本发明一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的示例，详细解释每一步工作及结果:
[0042]如图4所示，在文本预处理和特征提取完成后，依图中序号，依次进行训练SVM分类器、测试分类效果并调整特征矩阵、调整WordNet参数，完成这3步循环，找到效果最佳的特征矩阵，最后训练出分类效果最佳的分类器。
[0043]基于WordNet及潜在语义分析的文本分类方法的算法伪码:
[0044]输入:文本集，未分类的文本，H值(层数)
[0045]输出:分类结果
[0046]Init:
[0047]1.预处理(消歧义，分词，去停用词)
[0048]2.for (H = I, H<L, H++) {//L 为设定值
[0049]3.生成特征矩阵Ml(*);
[0050]4.以LSA处理特征矩阵得到特征矩阵M2 ;
[0051]5.训练SVM分类器；
[0052]6.测试分类器效果，得到Fl-measure值；
[0053]7.GA算法调整特征矩阵M2，回到步骤5 ;}
[0054]8.经过步骤2的循环后，得到效果最佳的特征矩阵Mn ;
[0055]9.以Mn训练SVM分类器；
[0056]10.对未分类的文本进行分类，得到分类结果；
[0057]其中第三步生成特征矩阵Ml的算法伪码如下:
[0058]输入:预处理后的文本集，H值(层数)，没有体现权利要求书的内容
[0059]输出:特征矩阵M
[0060]Init:
[0061]1.读取文本Tl中的单词，通过WordNet对文本集中单词W取其同义词S和上位词(a..)下位词(b..)，层数差小于等于H ;
[0062]2.计算 S，a，b 与 W 的相似度(si, s2, s3)；
[0063]3.对应Tl，W的词频+1，S的词频+sl，a的词频+s2，b的词频+s3 ；
[0064]4.回到步骤1，读取下一个单词，若为空，则读取T2;
[0065]5.所有文本处理完后，生成单词X文本的词频矩阵；
[0066]6.将词频少于K的单词过滤掉，得到子矩阵Ms ; (K可设定，将子矩阵Ms的维度降低到1000或者500)
[0067]7.以LSA算法对Ms降维，得到特征矩阵M ;
[0068]8.输出特征矩阵M ;
[0069]图5 (a)和图5 (b)对本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一个简单举例。使用简单的数据表格举例。首先相对于一般的文本分类方法获得初始的单词-文档的词频矩阵，本发明考虑了单词的同义词和上下位词后，以相似度为权重，增加词频，如图5(a)的下图(为了方便对比，以一般的单词-文档的词频矩阵为基础)，然后，如图5 (b)所示，先过滤掉词频较低的单词项，剩余的组成子集SI，而后以LSA方法对SI做降维处理，得到维度为100的特征矩阵。
[0070]我们以此特征矩阵训练SVM分类器并检验分类器的效果，之后回到子集SI，选择其中的向量替换之前的特征矩阵中的向量，重新训练SVM分类器，重复这一步，之后可得到效果最佳的特征矩阵。我们还对选取同义词和上下位词的范围做了限制，即参数H(同义词及上下位词距文档中单词的层数< H)，同样以遗传算法对H及对应的词频矩阵做寻优处理，最终获得不同H下的分类效果最佳的特征矩阵，从而训练得到分类效果最佳的SVM分类器。
[0071]上面已经参考附图对根据本发明实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法进行了详细描述。如前所述，本发明考虑文本中单词的同义词及上下位词，同义词及上下位词根据相似度增加各自词频，从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取，我们通过对WordNet调用参数的调整获得多个特征矩阵，使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取，得到更好的特征矩阵，从而提高了分类效果。
[0072]但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
[0073]本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
【主权项】
1.基于WordNet以及潜在语义分析的文本分类方法，包括: 文本预处理；特征提取；训练SVM分类器。其特征在于: 在文本预处理阶段，调用WordNet对文本中单词消除歧义，并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词，以相似度作为权重，增加文本中单词的同义词和上下位词的词频，得到考虑同义词和上下位词的词频矩阵；在特征提取阶段，首先过滤掉词频矩阵中词频低的单词，剩下的单词组成子集，子集维度为500-1000之间，而后采用潜在语义分析对子集矩阵进行降维，得到特征矩阵，之后通过遗传算法根据分类结果Fl-measure的值对特征矩阵进行调整，得到分类效果最佳的特征矩阵； Fl-measure用于评价分类器效果，Flneasure = 2rp/(r+p)，其中r为查全率，p为查准率；训练SVM分类器与预处理和特征提取构成一个整体循环，通过调整参数H和特征矩阵，得到分类效果最佳的分类器。
【专利摘要】基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明考虑文本中单词的同义词及上下位词，同义词及上下位词根据相似度增加各自词频，从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取，我们通过对WordNet调用参数的调整获得多个特征矩阵，使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取，得到更好的特征矩阵，从而提高了分类效果。
【IPC分类】G06F17/30
【公开号】CN105045913
【申请号】CN201510502389
【发明人】赵旭, 李建强, 刘璐, 许泽文, 莫豪文
【申请人】北京工业大学
【公开日】2015年11月11日
【申请日】2015年8月14日

完整全部详细技术资料下载

当前第2页1 2