基于概率主题词的两级组合文本分类方法

文档序号:6554823阅读:201来源:国知局
专利名称:基于概率主题词的两级组合文本分类方法
技术领域
本发明涉及模式识别和自然语言处理技术领域,是一种基于概率主题词的串行组合文本分类方法。
背景技术
文本分类(Text Categorization)是多种自然语言处理技术的综合应用之一,实现对文本的计算机自动分类能够更好的帮助我们去组织和利用目前的浩瀚文本信息。同时,文本分类方法涉及到模式识别中的很多基本问题,例如分类器设计问题,高维特征问题等等。因此,文本分类技术的研究具有重要的实用价值和理论意义。
衡量文本分类方法的好坏一般要考虑到两个因素。一个是分类结果的正确率,往往也是最主要的因素。另一个是利用这种方法实现的系统的效率,即系统完成分类任务所需要的时间消耗,这方面的要求主要是网上实时系统的需要。以往的研究中,多种分类方法已经应用到文本分类任务中,例如K近邻方法,支持向量机方法,贝页斯方法等等。值得注意的是,文本分类问题中的特征数非常庞大,在应用这些分类方法之前,一般都要有特征提取的过程。由于文本分类中的高维特征空间及各个分类器本身的缺陷,单一的分类器很难能够在正确率和效率两方面都有明显的优势,进而这些分类方法很难在实际应用中发挥作用。

发明内容
为了解决现有技术单一的分类器很难在正确率和效率两方面都有明显的优势的缺陷,本发明的目的在于弥补单一分类器的不足,提出组合的分类方法,实现一种基于概率主题词的两级组合文本分类方法。
本发明提供基于概率主题词的两级组合文本分类方法,基本思想是基于分级的组合分类方法的。在这种组合的方法里,我们把两个分类器应用到分类的不同阶段,本发明的分类步骤如下第一阶段文本分类步骤基于朴素贝叶斯分类方法,利用概率主题词(PTW)特征对测试文本分类,利用拒绝条件判断是否属于朴素贝叶斯分类;第二阶段文本分类步骤除第一阶段文本分类方法和文本分类之外,基于传统的特征提取方法提取出特征词。
所述第一阶段文本分类的判断拒绝条件步骤判断一篇文档是否可以用第一个分类方法分类,采用两个拒绝条件利用计算文档属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目大小。
本发明的有益效果本发明从研究文本中的主题词作用和规律入手,在语料库学习方法中,本发明定义统计意义的主题词,通过统计方法在语料库中提取统计主题词;利用这些统计主题词对文本进行分类。利用拒绝条件,对那些拒绝的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。本发明采用“两级组合”的思想来进行文本的分类,与单一分类方法不同,在本发明方法中,充分考虑到了主题词在文本分类过程中的重要作用。并且用一种合理的方式将两个阶段的分类方法结合起来,从而又充分利用了两个分类方法各自的优点,使得应用本发明方法的分类系统能够获得更好的分类效果。另外,第一个阶段的分类方法所用的概率主题词数目非常有限,但能够分类的文本数目却很多,因此,本发明的组合分类方法实现的系统在正确率及效率方面整个系统的效率相对单一分类方法的系统有了很大的提高。
本发明的方法在两个不一样的测试语料中在效率和正确率两方面,与现有的单一分类方法相比较都具有较大的优势。


通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中图1是本发明的基于概率主题词的两级组合文本分类系统框架2是本发明第一级分类器在两个语料库训练文本中的正确率和召回率的示意3是采用本发明宏平均F1值评测标准的实验结果具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本发明的限制。
根据本发明,提出的基于概率主题词的两级组合文本分类方法,在人工进行分类的时候,人们如果判断一个文本属于哪一类,往往只是观察文本中某些关键的词就可以得到正确的判断。这些关键的词一般被叫做主题词,很多分类词典中就是包括了这些主题词。然而,给出一个严格的关于主题词的形式定义是不可能的。在语料库学习方法中,可以定义一种统计意义上的主题词,命名为“概率主题词”(Probabilistic TopicWord,PTW)。然后通过统计的方法在语料库中提取这种词。然后先利用这些“统计主题词”对文本进行分类。利用适当的拒绝条件,对那些拒绝的文本即不能用这种方法的进行分类的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。也就是说,本发明实现了一种两级的组合方式分类方法。
下面参考附图来描述根据本发明的优选实施例。
图1是本发明的基于概率主题词的两级组合文本分类方法框架图,它的系统主要由四部分构成第一级的概率主题词特征提取;第一级的贝叶斯分类器;第二级的信息增益特征词提取;第二级的分类器。第二级的分类器可以选择贝叶斯分类器、K近邻分类器、支持向量机分类器等中的任一分类器。
具体步骤为提取概率主题词步骤1从测试文本训练语料中抽取概率主题词(PTW);分类步骤2利用概率主题词和朴素贝叶斯分类方法进行第一级分类提取特征词。
拒绝条件步骤3如果第一级分类结果被拒绝条件拒绝,则进行下面的步骤4,否则,接受分类结果。接受文本应该具有下面两个特征,首先它属于具有最大后验概率的类别的概率值大于某个阈值;其次该文本中提取出来的概率主题词要达到一定数目。
信息增益特征词提取步骤4利用信息增益特征提取方法提取训练语料库中的信息增益特征词(IG)。这些信息增益特征词的数目一般要远远多于上面提取出来的概率主题词。
获取分类步骤5基于拒绝条件步骤3,对那些被拒绝分类的文本利用信息增益特征词进行第二级分类,得到第二级分类结果。
本发明基于概率主题词的两级组合文本分类方法,可以分为第一级分类过程和第二级分类过程两部分,具体步骤如下第一级分类步骤包括a)提取概率主题词;b)以概率主题词为特征,利用朴素贝叶斯分类器对文本进行分类;c)确定两个拒绝条件;d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类器进行分类;第二级分类步骤包括aa)提取信息增益特征词;bb)利用一种分类方法对被拒绝的文本进行分类;所述第一级分类过程中步骤a)中利用词属于每个类别中的后验概率提取主题词;所述第一级分类过程中步骤b)中通过这些概率主题词特征计算文本的后验概率,概率值最大的类别为分类的可能结果;所述第一级分类过程中步骤c)中两个拒绝规则是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的;所述第一级分类过程中步骤d)中如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程;所述第二级分类过程中步骤aa)利用传统的特征提取方法,例如信息增益或者文档频率,提取特征词;所述第二级分类过程中步骤bb)这个阶段的分类器可以是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器。实际应用中,我们可以选择其中的任一个分类器;根据本发明,基于概率主题词的的两级组合文本分类方法,系统的实现可以按照上述的装置依次顺序连接。
下面详细说明本发明方法所涉及的各个细节问题。
1.概率主题词的定义和提取本发明仅仅利用少部分的概率主题词就可以对文本进行正确的分类。首先,我们给出概率主题词的定义。
定义如果一个词t的类别后验概率满足条件p(ci|t)>θ,θ∈(0.5,1)时,我们称这个词为置信度为θ的概率主题词。
给出了定义后,通过这个定义提取概率主题词,即通过统计训练语料得到每个词的类别后验概率值。在实现的系统中,θ取值为0.6。词t的类别后验概率可由下面两个公式计算得到P(ci|t)=P(t|ci)P(ci)P(t)]]>P(t|ci)=1+Σk=1ditf(tk)|V|+Σj=1|V|Σk=1ditf(tjk)]]>其中,tf(tjk)为词t在属于类ci的文档Dk中的频率,di是训练语料中类别ci中的所有文档数目。|V|是训练语料词典V中的词数目。
2.第一级文本分类方法—朴素贝叶斯分类方法本发明的基本思想是利用特征项和分类的联合概率来估计给定文档的分类概率。纯粹贝叶斯假设文本是基于词的unigram模型,即文本中词的出现依赖于文本类别,但不依赖于其他词及文本的长度,也就是说,词与词之间是独立的。
本发明采用文档采用TF向量表示法,即文档向量的分量为相应的单词在该文档中出现的频度,则文档Doc属于ci类的概率为
P(ci|Doc)=P(ci)ΠP(tj|cj)TF(tj·Doc)ΣmP(cm)Πti∈VP(ti|Cm)TF(ti·Doc)]]>P(tj|ci)=1+TF(tj,ci)|V|+ΣiTF(ti,ci)]]>其中P(ci)为一个文档属于ci类的概率,P(tj|ci)是对在ci类文档中特征tj出现的条件概率的拉普拉斯概率估计,TF(tj,ci)是ci类文档中特征tj出现的频度,|V|为单词词典集的大小,等于文档表示中所包含的不同特征的总数目,TF(tj,Doc)是在文档Doc中特征tj出现的频度。
3.两个拒绝条件本发明判断一个文本是否能够用第一级的分类方法进行分类需要相应的拒绝条件,本发明给出两个不同的拒绝条件第一个是判断由上面贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值。
第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件。
所述第一个拒绝条件如果文本属于具有最大后验概率的类别的概率值小于某个阈值,则拒绝分类。阈值的大小由调节参数uThreshold决定,此参数可以通过训练语料得到比较合适的值。
P(wmax|x)<uThreshold·{P(wmax|x)}+Σi=1,i≠maxmp(wi|x)]]>所述第二个拒绝条件如果文本中提取出来的概率主题词的数目满足下面的不等式时,则拒绝分类。不等式中的参数μi和σi可由训练语料得到|n1-nD·μi|>nD·2σi下面详细说明一下这两个拒绝条件拒绝条件在多级组合分类方法中起着关键的作用第一个拒绝条件是一个很明显的条件,可以应用到所有基于概率的分类方法上面。通过调节参数uThreshold的值,可以使得系统的拒绝率达到任何想要的值。
第二个拒绝条件是我们针对概率主题词这一特殊特征设计的特殊拒绝条件。本发明假设待测试文本(该文本属于ci类)所包含的所有词nD与实际包括的概率主题词nT满足某种线性关系,即nT=ki×nD。通过观测语料不难发现,ki值满足正态分布。于是nT也是一个满足正态分布的变量。通过训练语料,我们不难获得ki分布的两个参数均值μi和方差值σi。于是,第二个拒绝条件的含义就比较明显了,它要求提取出的待测文本中概率主题词的数目不能偏离实际包括的概率主题词数目太多。
利用上面两个条件,第一级分类方法在训练语料库中所取得的测试结果,如图2所示。
4.第二级特征提取如果待测文本被第一级的分类方法拒绝后,本发明需要提取另外的词作为第二级里面分类方法的特征。通过比较研究,信息增益提取方法能够在中文文本分类中取得比较不错的效果,所以在第二阶段的特征词提取中应用特征增益提取方法。
依据某特征项ti为整个分类所能提供的信息量,即不考虑任何特征的熵和考虑该特征后的熵的差值,来衡量该特征项的重要度。
Gain(ti)=Entropy(S)-ExpectedEntropy(Sti)]]>={-Σj=1MP(cj)×logP(cj)}-{P(ti)×[-Σj=1MP(cj|ti)×logP(cj|ti)]]]>+P(ti‾)×[-Σj=1MP(cj|t‾)×logP(cj|ti‾)]}]]>其中P(cj)表示cj类文档在语料中出现的概率,P(ti)表示语料中包含词条ti的文档的概率,P(cj|ti)表示文档包含词条ti时属于cj类的条件概率, 表示语料中不包含词条ti的文档的概率, 表示文档不包含词条ti时属于cj的条件概率,M表示类别数。
5.第二级文本分类方法第二级的分类方法可以选择任意一种以前应用到文本分类上面的分类方法。在实现的系统中,分别应用朴素贝叶斯(NB)、K近邻(KNN)及支持向量机(SVM)分类方法,作为本发明第二级里面的分类方法的实施例a.朴素贝叶斯分类方法已经在上面介绍。
b.K近邻(KNN)是著名的模式识别统计学方法,是比较好文本分类算法之一,其算法大概思想是给定一个测试文档,系统在训练集中查找离它最近的K个邻居,并根据这些邻居的分类来给测试文档的候选分类评分。把邻居文档和测试文档的相似度作为邻居文档所在分类的权重,如果这K个邻居中的部分文档属于同一个分类,则K近邻(KNN)分类中的每个邻居的权重求和作为该候选类别和测试文档的相似度。通过对所有候选分类评分的排序,然后给出一个阈值,就可以判定测试文档的分类。
c.支持向量机(SVM)是在统计理论基础上发展起来的一种新的通用学习方法,它在结构风险最小化原理的近似实现,因为它同时是最小化经验风险和VC维的界。在文本分类任务中,这种分类方法得到了很大的应用,相关的研究工作非常多。
6.实验结果为了将本文的两级组合分类方法和传统的单一分类方法相比较,我们使用一定的训练和测试语料分别对这两种分类方法进行训练和测试。为了验证这种组合方法的有效性,使用了两个不同的语料库。第一个语料库为人民日报新闻语料,总文档数目在3千篇左右。在这个语料库中,所有文档一共被分为经济、政治、电脑、体育、教育和法律六大类。另一个是从Internet收集的网页内容语料,这个语料库的规模较大,总文档数目在3万篇左右。在这个语料库中,所有文档一共被分为体育、科学、新闻、健康、金融和娱乐六大类。
图2所示,本发明实施例第一级分类器在两个语料库训练文本中的正确率和召回率示意图中Y轴代表训练语料的正确率和回召率;X轴代表调节参数的值(uThreshold);PdCorp代表人民日报新闻语料;IntCorp代表Internet收集的网页内容语料;-*-代表PdCorp的正确率;×代表PdCorp的召回率;-+-代表IntCorp的正确率;○代表IntCorp的召回率。
图2中表示第一级分类器在两个语料库训练文本中的正确率和召回率。在这个分类过程中,采用的特征为概率主题词。概率主题词在人民日报新闻语料和Internet收集的网页内容语料的数目分别为789和6,753。语料提取出来概率主题词的数目相对于两个语料库中的词汇量还是要小很多。在应用两个拒绝条件后,仅仅利用一小部分的概率主题词就能获得这么高的正确率和召回率,足以说明我们的方法在效率方面有很大的优势。
如图3所示,采用本发明方法系统宏平均F1值评测标准的实验结果,我们采用宏平均值MroF1标准对我们的方法性能进行评估以及同单一分类方法的比较。
KNN代表仅利用K近邻分类方法实现的单一分类器,所用的特征就是用传统的信息增益特征提取方法提取的词特征;NB(PTW)+KNN代表两级分类器,第一级用的是朴素贝页斯分类器,第二级用的是K近邻分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW),第二级所用的特征是传统的信息增益特征提取方法提取的词特征;NB代表仅利用朴素贝页斯分类方法实现的单一分类器,所用的特征就是用传统的信息增益特征提取方法提取的词特征;NB(PTW)+NB代表两级分类器,第一级用的是朴素贝页斯分类器,第二级用的也是朴素贝页斯分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW),第二级所用的特征是传统的信息增益特征提取方法提取的词特征;SVM代表仅利用支持向量机分类方法实现的单一分类器,所用的特征就是用传统的信息增益特征提取方法提取的词特征;NB(PTW)+SVM代表两级分类器,第一级用的是朴素贝页斯分类器,第二级用的是支持向量机分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW),第二级所用的特征是传统的信息增益特征提取方法提取的词特征;从图3所示的对比数据,可以看出,在两个不同的语料库中的实验数据表明本发明的两级组合分类方法的正确率都高于相应的单一分类方法。此外,由于第一级里面所用的概率主题词(PTW)特征占所有语料库词表的一小部分,加上朴素贝叶斯方法相对于其他分类方法效率要高很多,所以系统的整体效率也有很大的提高。
上面描述是用于实现本发明及其实施例,各个步骤均为示例,本领域普通技术人员可以根据实际情况确定要使用的实际步骤,而且各个步骤有多种实现方法,均应属于本发明的范围之内。因此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
权利要求
1.一种基于概率主题词的两级组合文本分类方法,其特征在于,所述方法包括第一级文本分类基于朴素贝叶斯分类方法,利用概率主题词特征对测试文本分类,利用拒绝条件判断是否属于朴素贝叶斯分类;第二级文本分类对于第一阶段文本分类方法不能分类的文本,基于传统的特征提取方法提取出特征词,再利用这些特征词以及文本分类方法进行第二次文本分类。
2.根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类的判断拒绝条件是判断一篇文档是否可以用第一个分类方法分类,采用两个拒绝条件利用计算文档属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目大小。
3.根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类步骤包括a)提取概率主题词;b)以概率主题词为特征,利用朴素贝叶斯分类器对文本进行分类;c)确定两个拒绝条件;d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类器进行分类。
4.根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第二级文本分类步骤包括aa)提取信息增益特征词;bb)利用一种分类方法对被拒绝的文本进行分类。
5.根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类步骤a,利用词属于每个类别中的后验概率提取主题词。
6.根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类步骤b,通过这些概率主题词特征计算文本的后验概率,概率值最大的类别为分类的可能结果。
7.根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类步骤c,两个拒绝规则是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的。
8.根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于所述第一级文本分类步骤d,如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程。
9.根据权利要求4所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第二级文本分类步骤aa,利用传统的特征提取方法信息增益或者文档频率提取特征词。
10.根据权利要求4所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第二级文本分类步骤bb,这个阶段的分类器是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器,可以选择其中的任一个分类器。
11.根据权利要求2所述基于概率主题词的两级组合文本分类方法,其特征在于,所述拒绝条件是第一个是判断由贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值;如果文本属于具有最大后验概率的类别的概率值小于某个阈值,则拒绝分类;第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件;如果文本中提取出来的概率主题词的数目满足给定的不等式时,则拒绝分类。
全文摘要
本发明涉及自然语言处理及模式识别领域,公开基于概率主题词的两级组合文本分类方法,一级分类基于朴素贝叶斯分类方法,利用概率主题词特征和拒绝条件判断对测试文本分类;二级分类再基于传统特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。本发明分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本发明两级组合与传统单一分类相比,能够大大减少时间消耗并能提高系统分类正确率。
文档编号G06F17/27GK101059796SQ20061001174
公开日2007年10月24日 申请日期2006年4月19日 优先权日2006年4月19日
发明者宗成山, 李寿山 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1