一种计算机文本分类体系、系统及其文本分类方法与流程

文档序号：12124427阅读：来源：国知局

技术特征：

1.一种计算机文本分类体系，其特征在于，包括：

文本预处理模块、文本的形式化模块，文本权值计算模块、模型训练模块、噪声降低模块；

所述文本预处理模块适于将输入文本中的标点符号、空格去除，对所述输入文本的语法错误进行纠正，分割成词语集合，以及对所述词语集合进行停用词去除，所述停用词去除被分为两步:第一步，对所述词语集合进行分类，将所述词语集合分为通用输入词语集合以及专业输入词语集合；第二步，对所述通用输入词语集合采取利用固定的停用词列表进行分析过滤，将所述通用输入词语集合转换成去除停用词的所述通用输入词语集合，对所述专业输入词语集合采用相对熵来度量其包含的信息量，根据信息量的多少对所述专业输入词语集合进行降序排序，将排序在后2％的所述专业输入词语集合中的词语去除，构成去除停用词的所述专业输入词语集合，将所述去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合；即形成精简词语集合；

所述文本的形式化模块适于将所述精简词语集合转换成计算机能识别的形式化模型，首先根据所述输入文本的词语出现的顺序将所述精简词语集合表示为词语有序序列，并且将所述词语有序序列表示成状态变迁系统，所述状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型，所述词语有序序列的词语映射为所述状态变迁系统的状态，所述词语有序序列中相邻的词语表示为其映射的所述状态变迁系统的状态之间的变迁关系；

所述文本权值计算模块适于对所述状态变迁系统进行处理转换成状态标签变迁系统，所述状态标签变迁系统由所述状态变迁系统以及所述状态变迁系统中的状态上的标签组成；即计算所述词语有序序列中的词语在所述输入文本中的分布律，并计算所述输入文本的长度，计算两者的比值，作为局部系数，计算所述词语有序序列中的词语的信息增益，作为全局系数，将所述局部系数乘以所述全局系数得到所述词语有序序列中的词语的权重，将所述词语有序序列中的词语的权重作为所述状态变迁系统中的状态上的标签，从而得到所述状态标签变迁系统；

所述模型训练模块适于根据所述词语有序序列中的词语的权重将所述状态变迁系统的状态进行进一步地升序排序，形成词语权重序列，对所述词语权重序列扩展维数，加入具有变迁关系的状态，构成词语向量空间模型，并且根据支持向量机分类器对所述词语向量空间模型进行处理并进行降维，得到词语类别的序列集合；即所述词语类别的序列集合由词语组成的序列组成，一个类别的词语属于一个序列，并且一个序列中的词语按所述词语的权重的降序排序；

所述噪声降低模块对所述词语类别的序列集合进行清除噪声数据，并且确保不改变所述词语类别的序列集合的结构；即所述清除噪声数据的步骤为首先将所述词语类别的序列集合进行初始化，并且结合所述状态变迁系统的状态之间的变迁关系，得到近邻列表，共享所述输入文本中的分布律，计算所述近邻列表的频度，根据所述近邻列表的频度计算阈值，将权重低于阈值的所述词语类别的序列集合中的词语去除。

2.一种计算机文本分类系统，其特征在于，包括：

依次相连的文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。

3.根据权利要求2所述的计算机文本分类系统，其特征在于，

所述文本预处理模块适于将输入文本中的标点符号、空格去除，分割成词语集合，以及去除无意义的词语；即

形成精简词语集合。

4.根据权利要求3所述的计算机文本分类系统，其特征在于，

所述文本特征提取模块适于从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表。

5.根据权利要求4所述的计算机文本分类系统，其特征在于，

所述文本训练处理模块适于对映射表进行处理；即

随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵。

6.根据权利要求5所述的计算机文本分类系统，其特征在于，

所述分类处理模块适于根据词语权重矩阵，且利用SVM分类算法设置分类的类别区间，将所述精简词语集合中的词语进行分类，得到词语分类向量集合，即

一个类别的词语属于所述词语分类向量集合中的同一个向量。

7.根据权利要求6所述的计算机文本分类系统，其特征在于，

所述文本种类标记模块用于对词语分类向量集合进行标记，建立词语的类别标记表，该类别标记表中用特殊的符号值作为词语类别的标记值，并将该标记值加入词语分类向量集合，以得到标记过的词语分类向量集合。

8.根据权利要求7所述的计算机文本分类系统，其特征在于，

所述效果完善模块适于对标记过的词语分类向量集合进行错误统计，以提高分类处理的正确率。

9.一种计算机文本分类方法，其特征在于，包括：

步骤S1，文本预处理；

步骤S2，文本特征提取；

步骤S3，文本训练；

步骤S4，分类处理；

步骤S5，文本种类标记；以及

步骤S6，效果完善。

10.根据权利要求9所述的计算机文本分类方法，其特征在于，

所述步骤S1中文本预处理的方法包括：

步骤S11，对输入文本进行预处理，即

去除输入文本中的标点符号、空格，分割成词语集合；

步骤S12，将无意义的词语去除；以及

步骤S13，形成精简词语集合；

步骤S2中文本特征提取，即

从精简词语集合中产生出特征词语子集，并获取特征词语与该特征词语出现的频率之间的映射表，其方法包括：

步骤S21，通过分支限界搜索算法搜索以产生特征词语初子集；

步骤S22，用基于遗传算法的评价函数对产生的特征词语初子集进行评价，得到评价值，并将所述评价值与停止的阈值进行比较，若所述评价值大于停止的阈值，则停止搜索，否则就继续搜索，经过评价能过滤产生新的特征词语子集；

步骤S23，利用互信息法计算特征词语出现的频率，综合特征词语出现的频率，以得到所述特征词语与特征词语出现的频率之间的映射表；

所述步骤S3中文本训练的方法包括：

随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵；

所述步骤S4中分类处理的方法包括：

根据所述词语权重矩阵，利用SVM分类算法设置分类的类别区间，将精简词语集合中的词语进行分类，得到词语分类向量集合；即

一个类别的词语属于所述词语分类向量集合中的同一个向量；

所述步骤S5中文本种类标记的方法包括：

对所述词语分类向量集合进行标记，建立词语的类别标记表，词语的类别标记表中用特殊的符号值作为词语类别的标记值，将该标记值加入词语分类向量集合得到标记过的词语分类向量集合；

所述步骤S6中效果完善的方法，即

对标记过的词语分类向量集合进行错误统计，且统计的过程为一个随机的样本抽取过程，其方法包括：

将所述标记过的词语分类向量集合中的标记过的词语分类向量提取，并根据词语的分布律进行排序，排序在前30％的区域为重点抽取的区域，对抽取的样本的分类效果进行测试，并且利用冗余参数进行调整；

若调整的频率过高，则重新返回所述步骤S2，以对所述阈值进行修改重新进行特征提取，直到将调整的频率降到安全范围内。

完整全部详细技术资料下载

当前第2页1 2 3