基于不确定推理的文本层次分类方法与装置的制作方法

文档序号:6336950阅读:410来源:国知局
专利名称:基于不确定推理的文本层次分类方法与装置的制作方法
技术领域
本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域,特别是涉及一种基于证据推理的无标题文本的分类方法和装置。
背景技术
随着在行业内部网络或者因特网上的各种技术类、办公类以及其他电 子化文档的快速增长,对文档的分类管理效率及性能提出了更高要求。一方面海量的文档 导致单层目录导航不再高效,需要更加科学的多层次目录分类系统进行文档分类管理。另 一方面单纯依靠手工对大量文档进行分类已经显得不切实际。所以,文本的自动层次分类 技术的研究有很强的实际应用意义。然而目前比较成熟的研究与应用大多在文档的单层目 录分类上,文本多层次分类技术还处在初步探索阶段,分类的准确度和性能仍是需要解决 的关键问题。目前探索的层次分类方法的解决方案可以分为两种(1)自顶向下的方法(top-down level-based)现有的大部分层次分类方法都采 用这种模式,其特点是在类别树的每一层都构建一个或者多个分类器,每个分类器在所在 层像单层文本分类一样工作。一个文本从根节点开始,逐层向下分类,直至到达叶子节点。 这种方法具有明显的优点将大的分类问题转化为小的子问题,能较好地降低时间和空间 复杂度。然而这种方法也有明显的缺点如果一个文本被分入了错误的父类,将不可能分入 正确的叶子类。(2)大爆炸方法(big-bang)这种方法在整个分类过程中只构造一个分类器。并用 来对文本进行分类。虽然克服了方法1所述的缺点,但方法的时间空间开销一般比较大,不 适合在对时间要求较高的场合比如网络上使用。在没有一种方法能保证100%的正确率的前提下,近可能提高分类准确率就成了 分类算法追求的目标。利用特征进行分类的模式下,特征包含的信息是模糊的,不确定的。 比如“电脑” 一词即可能出现在计算机类的文本中,也可能出现在生物科技类的文本,很难 确定一个特征词只出现在一个文本类中,不出现在其他类中,这就是当前的分类算法热衷 于使用概率来描述特征的区分度的原因。

发明内容
本发明的目的在于提供一种新的中文文本层次分类方法和装置,用于 提高对中文文本分类的准确程度。本发明利用不确定推理理论即证据推理和模糊数的相关理论,充分挖掘特征中 的不确定信息,改善分类的准确度。本发明是这样来实现的一种基于不确定推理的文本层次分类方法,包括a)从训练文本中提取特征;b)确定分类问题的辨识框架和焦元;c)利用特征的权重构造基本可信度分配函数(BPA);d)根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分 配;e)利用信度分布根据分类规则对待分类文本进行分类。本发明还提供一种文本层次分类装置,包括
a)文本预处理模块Ul,用于将文本预处理成算法需要的TF及BINARY向量形式;b)特征抽取、分类器训练模块U2,用于对文本预处理模块Ul处理的文本特征的抽取、训练分类器;即用于利用TF*IDF方法提取文本特征,对文本降维,并利用特征权重构造 基本可信度分配函数;c)分类模块U3,用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文 本进行分类,并评价分类效率与准确性。与现有文本层次分类技术相比,本发明具有以下优点通过将非叶子类构造成虚拟的叶子类参与分类,很好的区分了父类与子类之间的 不同特征;利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的 分类可信度表示为一个三角模糊数,在分类时充分地利用了不确定信息,提高了分类的准 确程度。


图1是本发明实施例中文本层次分类方法的流程图;图2是本发明实施例中分类器训练的流程图;图3是本发明实施例中分类模块的流程图;图4是本发明实施例中测试文本的分类结果判定的流程图;图5A、5B是本发明实施例中测试宏平均值及微平均值与每个类选取的特征数之 间的关系图;图6是实现本发明的文本层次分类方法的装置的结构具体实施例方式以下结合附图对本发明作具体说明。应该指出,所描述的实施例仅 仅视为说明的目的,而不是对本发明的限制。实施例1本发明的实施例1提供了一种文本层次分类方法,如图1所示,包括以下步骤步骤101 从训练文本中提取特征;步骤102 确定分类问题的辨识框架和焦元,利用特征的权重构造基本可信度分 配函数(BPA);步骤103 根据基本可信度分配函数和待分类文本的特征权重合成测试文本的信 度分配;步骤104 利用信度分布根据分类规则对待分类文本进行分类。以下进一步详细的说明本发明实施例的文本层次分类方法中的各个细节问题。1、语料选择本实施例采用的语料为中文文本分类语料库-TanCorpVl. 0,该语料库分为两个层 次,第一层12个类别,第二层60个类别,共有文本14150篇,具体层级结构及文本数见表1。 实验时选取每个类别其中的70%作为训练语料,剩下的30%作为测试语料。表 权利要求
一种基于不确定推理的文本层次分类方法,其特征在于,所述方法包括如下步骤从训练文本中提取特征;确定分类问题的辨识框架和焦元集合;利用特征的权重构造基本可信度分配函数(BPA);根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配;利用信度分布根据分类规则对待分类文本进行分类。
2.如权利要求1的方法,其特征在于,所述从训练文本中提取特征包括对文本进行分词,统计词频,将文本表示成TF向量和BINARY向量,计算文本中词的 TF*IDF值,根据权重提取特征;文本中特征的权重包括其中,WWi, fj)为文本Cli中特征fj的权重,TFWi, fj)为文本Cli中特征fj的频数, IDF(fj)为特征。的反文档频率。
3.如权利要求1的方法,其特征在于,确定分类问题的辨识框架和焦元集合,是将所有 的叶子节点类的集合确定为分类问题的辨识框架;将除根节点外的所有节点类的集合作为 分类问题的焦元集合;焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确 定该分配给该大类的哪个子类的信度。
4.如权利要求1的方法,其特征在于,所述根据特征的权重构造基本可信度分配函数 包括
5.如权利要求1的方法,其特征在于,所述利用信度分布根据分类规则对待分类文本 进行分类包括由待分类文本的TF向量按下述公式生成待分类文本的特征证据权重其中,%为待分类文本中特征。的权重,TFj为待分类文本中特征。出现的频数; 利用证据权重对基本可信度分配加权,再利用递推合成算法得到待分类文本属于焦元 集合中所有类的信度分布;由信度分布根据分类规则对待分类文本进行分类。
6.如权利要求5的方法,其特征在于,所述根据分类规则进行分类包括 利用信度分布计算待分类文本属于每个层次的所有类的概率;利用待分类文本属于每个层次的所有类的概率根据分类规则在每个层次上分类。
7.如权利要求6的方法,其特征在于,所述利用信度分布计算待分类文本属于每个层 次的所有类的概率包括将分配给父类的信度根据Pignistic概率分配方法分配给其子类,构造子类的信度的 三角模糊数的表述形式,并逆模糊化为概率;一个父类的信度等于分配给其所有子类的的
8.如权利要求6的方法,其特征在于,所述分类规则包括如果下一层次概率最大的类别属于上一层次的概率最大的类别,则接受上下两个层次 上的分类结果,按各层次最大概率分类;如果下一层次概率最大的类别不属于上一层次的 概率最大的类别,但上一层次的最大概率大于预先设定的阀值时,将上一层次按最大概率 分类,再在该类别中按照概率最大原则分类;如果下一层次概率最大的类别不属于上一层 次的概率最大的类别,同时上一层次的最大概率不大于预先设定的阀值,按照下一层次的 概率最大原则确定文本的上下层次分类结果。
9.一种基于不确定推理的文本层次分类装置,其特征在于,包括文本预处理模块U1,用于将文本预处理成算法需要的TF及BINARY向量形式; 特征抽取、分类器训练模块U2,用于对文本预处理模块Ul处理的文本特征的抽取、训 练分类器;即用于利用TF*IDF方法提取文本特征,对文本降维,并利用特征权重构造基本 可信度分配函数;分类模块U3,用于根据特征抽取、分类器训练模块U2生成的分类器对待分类文本进行 分类,并评价分类效率与准确性。
10.如权利要求9的文本层次分类装置,其特征在于,所述文本预处理模块Ul包括 分词单元,用于对输入的文本进行分析,输出分词的结果词列表;系统词典生成单元,用于统计文本集合中出现的词,并统一编号; 文本向量生成单元,用于根据系统词典对每个文本进行分析,生成文本的TF向量及 BINARY 向量。
11.如权利要求9的文本层次分类装置,其特征在于,所述特征抽取、分类器训练模块 U2包括类文本向量生成单元,用于统计每个类,包括叶子节点类和非叶子节点类的文本TF向 量及BINARY向量;特征抽取单元,用于根据特征权重计算公式和权重阀值抽取一定数目的特征; 特征BPA函数生成单元,用于根据类的文本特征权重向量生成各特征的基本可信度分 配(BPA)函数。
12.如权利要求9的文本层次分类装置,其特征在于,所述分类模块U3包括特征证据权重生成单元,用于对待分类文本表示成特征的TF向量形式,并生成归一化 的特征证据权重;证据合成单元,用于根据特征抽取、分类器训练模块模块生成的BPA函数和特征证据 权重对证据进行合成,生成待分类文本属于各类别的信度分布;概率计算单元,用于根据证据合成单元生成的信度分布,利用Pignistic概率以及三 角模糊数的知识计算待分类文本属于各叶子节点类和非叶子节点类的概率; 分类结果判定单元,用于根据概率计算单元输出的待分类文本属于各类别的概率,一 用分类规则判定待分类文本的最终分类结果;分类精度评价单元,用于对待分类文本集的分类结果按照通用的评价标准评价分类进度;最优特征数生成单元,用于根据多次具体的分类精度评价值的优劣生成特征提取时的 最优特征权重阀值及特征数。
全文摘要
本发明涉及利用数据挖掘技术进行中文文本处理的信息技术领域,涉及一种基于不确定推理的文本层次分类方法和装置。包括a)从训练文本中提取特征;b)确定分类问题的辨识框架和焦元;c)利用特征的权重构造基本可信度分配函数;d)利用特征的基本可信度分配函数合成测试文本的信度分布;e)利用信度分布根据分类规则进行分类。本发明具有以下优点通过将非叶子类构造成虚拟的叶子类参与分类,很好的区分了父类与子类之间的不同特征;利用基本可信度分配函数分配给非叶子类的信度以及pignistic概率将文本的分类可信度表示为一个三角模糊数,在分类时充分地利用了不确定信息,提高了分类的准确程度。
文档编号G06F17/30GK101976270SQ201010562470
公开日2011年2月16日 申请日期2010年11月29日 优先权日2010年11月29日
发明者冯向前, 姜乃松, 沈玲玲, 王海, 王艳军, 钱钢 申请人:南京师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1