一种文本分类方法与流程

文档序号：15386060发布日期：2018-09-08 00:34阅读：1466来源：国知局

本发明涉及文本分类领域，特别地，涉及一种文本分类方法。

背景技术：

随着网络技术的快速发展，海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向，是解决文本信息发现的常用方法。在文本分类的过程中，关键词的权重起到决定性的作用，它能快速反映一篇文档主题内容或与文档所在领域高度相关的词语，帮助人们在搜寻所需的信息时能够迅速地定位到相应的文档。目前获取关键词或特征词的方式有4种：(1)用映射或变换的方法把原始特征变换为较少的新特征；(2)从原始特征中挑选出一些最具代表性的特征；(3)根据专家的知识挑选最有影响的特征；(4)用数学的方法进行选取，找出最具分类信息的特征，这种方法是一种比较精确的方法，人为因素的干扰较少，尤其适合于文本自动分类挖掘系统的应用。

基于此，现提供一种基于改进的tfidf算法的文本分类的方法，该方法结合文本分类的实际情况，结合传统的特征词权重的计算方法，分析了传统tf-idf算法在特征词权重计算上的不足，即传统的tfidf算没有考虑特征词在类内和内间的分布，导致一些区分度不强的特征词赋予了较大的权重。针对传统的tfidf算法的不足，结合特征词权重对文本分类的实际影响，本发明对传统tfidf算法公式进行了修改，剔除干扰特征性在内间的影响，同时加入了类内离散度的概念，实现了文本分类精确度的要求。

技术实现要素：

为了解决背景技术中存在的不足，本发明目的在于提供一种文本分类方法，通过该方法使得分类的文本更加准确，具有进步性的分类处理能力，同时满足大部分不同文本的分类要求，有利于文本分类，实用性强，易于推广。

为解决上述问题，本发明采用如下技术方案：

一种文本分类方法，包括如下步骤，

步骤1：从文件库选取若干篇文章筛选出文本的指标集，并将指标集进行归类划分为不同的指标库；

步骤2：对指标库进行归一化处理得到文本分类指标矩阵；

步骤3：选取需分类的文本，对文本进行预处理，提取特征词，对文本进行分词和分字处理，去除中性词；

步骤4：计算特征词的权重值；

步骤5：根据权重值选取步骤2中的本分类指标矩阵对词和字进行文本分类处理，完成文本分类。

所述步骤1中的筛选文本的指标集的具体过程为：

步骤1.1：文件库为已经分类号的文本类型的文件库，从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选；

步骤1.2：步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字；

步骤1.3：对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。

所述步骤1中划分为不同的指标库的具体过程为：

步骤1.4：对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分；

步骤1.5：同时划分算出每个指标集在文本类型中的权重值。

所述步骤2中归一化处理的具体过程为：

设m个待测数据，n指权重值，得到矩阵(aij)m×n，其中aij为第i个指标所对应的第j个因素的评价值，将其归一化之后得到矩阵(aij)m×n’。

所述步骤骤4中的具体过程为:

首先，计算第j个状态下的第i个因素占其指标的比重值：

其中，j＝1,2…n，i为因素个数，j为状态个数；

其次，计算第j个指标的信息熵：

其中，k＝1，j＝1,2…n，

然后，计算第j个指标的熵权；

其中，i代表每个因素，j代表每个因素所对应的状态，n为总的状态数；

最后，将均衡函数引入变权公式得到指标的变权重数值，式(4)为均衡函数，将其引入变权公式后变权重表达式为式(5)；

其中，m代表各个因素，i为正整数，α为平衡因子，取1/2，xm为变元；

其中，w′i为第i指标的变权重系数；m为指标所对应的二层指标个数；xi为第i个指标标准化之后的值；wi为第i个综合状态量的常权重系数。

上述方案还包括步骤5中完成分类后，认为进行对已分类的文本进行认为判断，把人为分类判断与机器分类进行对比同时统计机器分类准确率，当分类少于1000篇或者准确率低于96％时，人为对文本分类后把该文档执行步骤1，进行更新步骤1的指标库；当当分类大于1000篇或者准确率不低于96％时，人为分类判断停止，步骤5中执行的分类结果则为最终的分类结果。

本发明采用上述技术方案，本发明有如下显著效果：

本发明通过根据现有已经分类的文本进行筛选指标集，并根据指标集进行划分指标库，同时计算指标库的在不同文本中权重值，再进行列出分类矩阵，从而使得分类模型更加准确更加好，同时在前期通过人为的判断进行更新指标库，使得分类的文本更加准备，实用性强，易于推广。

附图说明

图1是本发明的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

一种文本分类方法，如图1所示，包括如下步骤，

步骤1：从文件库选取若干篇文章筛选出文本的指标集，并将指标集进行归类划分为不同的指标库。筛选文本的指标集的具体过程为：

步骤1.1：文件库为已经分类号的文本类型的文件库，从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选。选取的文本的数量根据需要而定，一般5000篇-10000篇得到的分类的准确率已经达到95.8％，如果需要进行更高的准确率，可以选取更多的文本数量进行筛选。

步骤1.2：步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字。主要选取划分该文本被划分为哪个类型的文本起到的一些词或者字。比如一些植物名称或者动物名称等，主要是自然科学类。

步骤1.3：对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。对有影响的词或字都进行汇总，不管影响的大小均进行汇总。一些中性词，如“的、么、了”等直接去掉。

划分为不同的指标库的具体过程为：

步骤1.4：对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分；

步骤1.5：同时划分算出每个指标集在文本类型中的权重值。

步骤2：对指标库进行归一化处理得到文本分类指标矩阵。归一化处理的具体过程为：

设m个待测数据，n指权重值，得到矩阵(aij)m×n，其中aij为第i个指标所对应的第j个因素的评价值，将其归一化之后得到矩阵(aij)m×n’。该矩阵就是为分类文本的模型，输出的结果为分类文本类型的输出值，根据输出值进行与现有的类型比较得到分类结果。

步骤3：选取需分类的文本，主要是对需要分类的文本进行获取。对文本进行预处理，将原始语料格式化为规范样式，便于后续的处理。提取特征词，从文本抽取出反映主题的特征，并确定特征项的权重。对文本进行分词和分字处理，去除中性词，其中还有一些标调符号等均去掉。

步骤4：计算特征词的权重值。具体过程为: