基于不确定推理的文本层次分类方法与装置的制作方法

文档序号：6336950阅读：410来源：国知局

专利名称：基于不确定推理的文本层次分类方法与装置的制作方法
技术领域：
本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，特别是涉及一种基于证据推理的无标题文本的分类方法和装置。
背景技术：
随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电子化文档的快速增长，对文档的分类管理效率及性能提出了更高要求。一方面海量的文档导致单层目录导航不再高效，需要更加科学的多层次目录分类系统进行文档分类管理。另一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以，文本的自动层次分类技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目录分类上，文本多层次分类技术还处在初步探索阶段，分类的准确度和性能仍是需要解决的关键问题。目前探索的层次分类方法的解决方案可以分为两种(1)自顶向下的方法(top-down level-based)现有的大部分层次分类方法都采用这种模式，其特点是在类别树的每一层都构建一个或者多个分类器，每个分类器在所在层像单层文本分类一样工作。一个文本从根节点开始，逐层向下分类，直至到达叶子节点。这种方法具有明显的优点将大的分类问题转化为小的子问题，能较好地降低时间和空间复杂度。然而这种方法也有明显的缺点如果一个文本被分入了错误的父类，将不可能分入正确的叶子类。(2)大爆炸方法(big-bang)这种方法在整个分类过程中只构造一个分类器。并用来对文本进行分类。虽然克服了方法1所述的缺点，但方法的时间空间开销一般比较大，不适合在对时间要求较高的场合比如网络上使用。在没有一种方法能保证100%的正确率的前提下，近可能提高分类准确率就成了分类算法追求的目标。利用特征进行分类的模式下，特征包含的信息是模糊的，不确定的。比如“电脑” 一词即可能出现在计算机类的文本中，也可能出现在生物科技类的文本，很难确定一个特征词只出现在一个文本类中，不出现在其他类中，这就是当前的分类算法热衷于使用概率来描述特征的区分度的原因。

发明内容
本发明的目的在于提供一种新的中文文本层次分类方法和装置，用于提高对中文文本分类的准确程度。本发明利用不确定推理理论即证据推理和模糊数的相关理论，充分挖掘特征中的不确定信息，改善分类的准确度。本发明是这样来实现的一种基于不确定推理的文本层次分类方法，包括a)从训练文本中提取特征；b)确定分类问题的辨识框架和焦元；c)利用特征的权重构造基本可信度分配函数(BPA)；d)根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；e)利用信度分布根据分类规则对待分类文本进行分类。本发明还提供一种文本层次分类装置，包括
a)文本预处理模块Ul，用于将文本预处理成算法需要的TF及BINARY向量形式；b)特征抽取、分类器训练模块U2，用于对文本预处理模块Ul处理的文本特征的抽取、训练分类器；即用于利用TF*IDF方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；c)分类模块U3，用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类，并评价分类效率与准确性。与现有文本层次分类技术相比，本发明具有以下优点通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。

图1是本发明实施例中文本层次分类方法的流程图；图2是本发明实施例中分类器训练的流程图；图3是本发明实施例中分类模块的流程图；图4是本发明实施例中测试文本的分类结果判定的流程图；图5A、5B是本发明实施例中测试宏平均值及微平均值与每个类选取的特征数之间的关系图；图6是实现本发明的文本层次分类方法的装置的结构具体实施例方式以下结合附图对本发明作具体说明。应该指出，所描述的实施例仅仅视为说明的目的，而不是对本发明的限制。实施例1本发明的实施例1提供了一种文本层次分类方法，如图1所示，包括以下步骤步骤101 从训练文本中提取特征；步骤102 确定分类问题的辨识框架和焦元，利用特征的权重构造基本可信度分配函数(BPA)；步骤103 根据基本可信度分配函数和待分类文本的特征权重合成测试文本的信度分配；步骤104 利用信度分布根据分类规则对待分类文本进行分类。以下进一步详细的说明本发明实施例的文本层次分类方法中的各个细节问题。1、语料选择本实施例采用的语料为中文文本分类语料库-TanCorpVl. 0，该语料库分为两个层次，第一层12个类别，第二层60个类别，共有文本14150篇，具体层级结构及文本数见表1。实验时选取每个类别其中的70%作为训练语料，剩下的30%作为测试语料。表 权利要求
一种基于不确定推理的文本层次分类方法，其特征在于，所述方法包括如下步骤从训练文本中提取特征；确定分类问题的辨识框架和焦元集合；利用特征的权重构造基本可信度分配函数(BPA)；根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配；利用信度分布根据分类规则对待分类文本进行分类。
2.如权利要求1的方法，其特征在于，所述从训练文本中提取特征包括对文本进行分词，统计词频，将文本表示成TF向量和BINARY向量，计算文本中词的 TF*IDF值，根据权重提取特征；文本中特征的权重包括其中，WWi, fj)为文本Cli中特征fj的权重，TFWi, fj)为文本Cli中特征fj的频数， IDF(fj)为特征。的反文档频率。
3.如权利要求1的方法，其特征在于，确定分类问题的辨识框架和焦元集合，是将所有的叶子节点类的集合确定为分类问题的辨识框架；将除根节点外的所有节点类的集合作为分类问题的焦元集合；焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确定该分配给该大类的哪个子类的信度。
4.如权利要求1的方法，其特征在于，所述根据特征的权重构造基本可信度分配函数包括
5.如权利要求1的方法，其特征在于，所述利用信度分布根据分类规则对待分类文本进行分类包括由待分类文本的TF向量按下述公式生成待分类文本的特征证据权重其中，％为待分类文本中特征。的权重，TFj为待分类文本中特征。出现的频数；利用证据权重对基本可信度分配加权，再利用递推合成算法得到待分类文本属于焦元集合中所有类的信度分布；由信度分布根据分类规则对待分类文本进行分类。
6.如权利要求5的方法，其特征在于，所述根据分类规则进行分类包括利用信度分布计算待分类文本属于每个层次的所有类的概率；利用待分类文本属于每个层次的所有类的概率根据分类规则在每个层次上分类。
7.如权利要求6的方法，其特征在于，所述利用信度分布计算待分类文本属于每个层次的所有类的概率包括将分配给父类的信度根据Pignistic概率分配方法分配给其子类，构造子类的信度的三角模糊数的表述形式，并逆模糊化为概率；一个父类的信度等于分配给其所有子类的的
8.如权利要求6的方法，其特征在于，所述分类规则包括如果下一层次概率最大的类别属于上一层次的概率最大的类别，则接受上下两个层次上的分类结果，按各层次最大概率分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，但上一层次的最大概率大于预先设定的阀值时，将上一层次按最大概率分类，再在该类别中按照概率最大原则分类；如果下一层次概率最大的类别不属于上一层次的概率最大的类别，同时上一层次的最大概率不大于预先设定的阀值，按照下一层次的概率最大原则确定文本的上下层次分类结果。
9.一种基于不确定推理的文本层次分类装置，其特征在于，包括文本预处理模块U1，用于将文本预处理成算法需要的TF及BINARY向量形式；特征抽取、分类器训练模块U2，用于对文本预处理模块Ul处理的文本特征的抽取、训练分类器；即用于利用TF*IDF方法提取文本特征，对文本降维，并利用特征权重构造基本可信度分配函数；分类模块U3，用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行分类，并评价分类效率与准确性。
10.如权利要求9的文本层次分类装置，其特征在于，所述文本预处理模块Ul包括分词单元，用于对输入的文本进行分析，输出分词的结果词列表；系统词典生成单元，用于统计文本集合中出现的词，并统一编号；文本向量生成单元，用于根据系统词典对每个文本进行分析，生成文本的TF向量及 BINARY 向量。
11.如权利要求9的文本层次分类装置，其特征在于，所述特征抽取、分类器训练模块 U2包括类文本向量生成单元，用于统计每个类，包括叶子节点类和非叶子节点类的文本TF向量及BINARY向量；特征抽取单元，用于根据特征权重计算公式和权重阀值抽取一定数目的特征；特征BPA函数生成单元，用于根据类的文本特征权重向量生成各特征的基本可信度分配(BPA)函数。
12.如权利要求9的文本层次分类装置，其特征在于，所述分类模块U3包括特征证据权重生成单元，用于对待分类文本表示成特征的TF向量形式，并生成归一化的特征证据权重；证据合成单元，用于根据特征抽取、分类器训练模块模块生成的BPA函数和特征证据权重对证据进行合成，生成待分类文本属于各类别的信度分布；概率计算单元，用于根据证据合成单元生成的信度分布，利用Pignistic概率以及三角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率；分类结果判定单元，用于根据概率计算单元输出的待分类文本属于各类别的概率，一用分类规则判定待分类文本的最终分类结果；分类精度评价单元，用于对待分类文本集的分类结果按照通用的评价标准评价分类进度；最优特征数生成单元，用于根据多次具体的分类精度评价值的优劣生成特征提取时的最优特征权重阀值及特征数。
全文摘要
本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域，涉及一种基于不确定推理的文本层次分类方法和装置。包括a)从训练文本中提取特征；b)确定分类问题的辨识框架和焦元；c)利用特征的权重构造基本可信度分配函数；d)利用特征的基本可信度分配函数合成测试文本的信度分布；e)利用信度分布根据分类规则进行分类。本发明具有以下优点通过将非叶子类构造成虚拟的叶子类参与分类，很好的区分了父类与子类之间的不同特征；利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数，在分类时充分地利用了不确定信息，提高了分类的准确程度。
文档编号G06F17/30GK101976270SQ201010562470
公开日2011年2月16日申请日期2010年11月29日优先权日2010年11月29日
发明者冯向前, 姜乃松, 沈玲玲, 王海, 王艳军, 钱钢申请人:南京师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钱钢;王海;沈玲玲;姜乃松;冯向前;王艳军
技术所有人：南京师范大学
我是此专利的发明人

上一篇：电动汽车电池服务模式的制作方法
上一篇：一种隐藏数字电视无授权节目的方法及一种数字电视系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。