基于类别之间相关性学习的中文文本分类方法

文档序号：6565028阅读：197来源：国知局

专利名称：基于类别之间相关性学习的中文文本分类方法
技术领域：
本发明属于中文文本分类算法研究领域，特别涉及一种采用词项与类别之间的辨别指数选取特征、基于类别之间相关性学习的中文文本分类方法。
背景技术：
随着中国出版业的迅速发展，电子格式的中文文档数量不断攀升。文档分类的工作愈发繁琐，因此，利用先进的机器学习和模式分类方法辅助传统的人工分类变得十分必要。中文文本分类方法主要有特征选择和分类算法两部分构成。文档集的特征一般采用词袋模型(Bag-of-Words)和文档向量模型(Vector Space Model)的形式表示，其关键区别在于权重的计算方式不同，词袋模型的权重是用概率表示由词生成文档的概率，文档向量模型的权重可以看作是词项频率统计的函数映射。文档的表示必须选取具有代表性的词项作为特征索引。词项的粒度可以选择字、词、短语、概念、N-Gram以及其它规律性模式，根据频率统计选择特征，并对剩余特征项计算不同权重用于文档表示。将文档集中所有文档的表示向量接连起来即可构成文档集的特征表示，但是此类特征表示方法容易遭遇维数灾难，同时也面临着小样本问题。因此，在文本分类中，常采用概念索引(Concept Index)、互信息量(Mutual Information)、信息增益(Information Gain)、交叉熵(Cross Entropy)、CHI统计(CHI Statistics)和几率比(Odds Ratio)等方法来降低特征向量的维数。常用的分类方法有贝叶斯、K近邻、决策树和SVM方法。但是，以上现有的方法效果仍不尽如人意。其原因除了客观上训练样本的不均勻分布和样本文档类别间的复分性之外，更可能的原因有以下特征选择的硬判决割断了文档连续词项之间的语义关联；文本分类算法中大多忽略了不同类别文档之间的相关性，而类别之间的相关性对于改善文本分类性能有着积极作用。目前，最新的主流算法主要有以下几种(I)Z. Guo 等(Z. Guo，L Lu，S. Xi and F. Sun，An effective dimension reduction approach to Chinese document classification using genetic algorithm. Lecture Notes in Computer Science，5552/2009 :480_489，2008)提出基于遗传算法的中文文档分
类方法；(2)M. Y. Jia 等(M. Y. Jia, D. Q. Zheng, B. R. Yang and Q. X. Chen, Hierarchical text categorization based on multiple feature selection and fusion of multiple classifiers approaches. International Conference on Fuzzy Systems and Knowledge Discovery, 2009)提出基于多特征选择和多分类器的层次文本分类方法；(3) Cheng 等(X. Cheng, S. Tan and L. Tang, Using dragpushing to refine concept index for text categorization, Journal of Computer Science and Technology, 21 (4) :592_596，2006)采用 Concept Index 方法进行文本分类。以上算法均需采用SVM等方法训练构造分类器，算法运行量大，运行所需时间很长，在实际应用中存在诸多局限。因此，研究如何在考虑同类别文档之间的相关性的情况下提高分类精确度且同时降低算法复杂度的中文文本分类算法是一个极具实际意义的课题。

发明内容
本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于类别之间相关性学习的中文文本分类方法。该方法在特征选择环节，分别统计全部词项与类别的辨别指数并将其作为权重筛选特征词项，同时在一对多分类框架下，计算出不同类别文档之间的相关性矩阵，对于新文本的分类精确度提高，同时计算复杂度降低，运行所需时间减少，具有很好的应用前景。本发明的目的通过以下的技术方案实现基于类别之间相关性学习的中文文本分类方法，具体包括以下步骤(1)训练过程(1-1)特征选择对于所有的中文词项，存在一本标准词典，词典中包含完备的词项集合，词项集合的全部词项依据拼音音序的先后顺序构成词项索引。特征选择的目标即是从词典中挑选具有代表性的词项构成特征词项，同样依据拼音音序构成特征索引。具体过程是读入所有的训练文档，对文档进行分词。将训练文档分词后，根据标准词典中的词项索引顺序依次统计出每个词项的词频。挑选出训练文档中出现频繁的词项，构成粗选择后的特征子集，根据粗选择特征子集中各个词项与类别之间有关概率的指数，进一步确定精选择后的代表性词项，所有类别中的代表性词项构成特征集合，并且根据拼音音序构成特征索引；(1-2)训练文档的表示将每一个训练文档用一个向量表示，向量的维数即特征选择后词项索引大小，向量中的每一个元素由tfidf(term frequency-inverse document frequency，词频-逆向文本频率)权重和辨别指数权重的乘积构成，tfidf是文档中词项的词频和类别中词项的文频的统计表示，辨别指数权重是根据步骤(1-1)所述的有关频率的指数所做的一个平滑函数，值在0-1之间；(1-3)训练文档类别之间的相关性学习首先将多类之间的文本分类问题分解为多个两类文本分类问题，即对于某一类别ck，将属于类别Ck的训练样本作为正样本，不属于类别Ck的训练样本作为负样本，然后采用脊回归方法训练两类分类器；对所有类别文档分别训练即得到一组两类分类器，同时计算类别之间的相关性构成已知样本训练码矩阵CM，其中码矩阵的第k行第k'列表示类别Ck和(V之间的相关性；(2)新文档的类别判定过程(2-1)新文档的表示假设语料中的文档分为K个类别，对于一个新文档，它的类别未知，将其投影到所有的K个类别，并对应于步骤(1-1)提取的特征词项按拼音音序构成的特征词项索引，将新文档用矩阵形式表示，矩阵的行表示所有可能K个类别的索引，矩阵的列代表特征词项索引，元素值采用步骤(1-2)所述训练文档中值的计算方法表示；(2-2)新文档的类别判定将步骤(2-1)中得到的表示新文档的矩阵投影到步骤 (1-3)所得到的那组两类分类器中，并根据已知样本训练码矩阵CM计算新文档属于每个类别的相似度，将相似度最大的类别赋予新文档，作为其判定类别。
所述步骤(1-1)具体包括以下步骤(1-1-1)特征粗选择读入全部训练文档，对于词项tj;将出现、的文档数量除以训练集合中所有文档数量得到、在整个训练集合中的相对文频Total-Rel-DFj，当 Total-Rel-DFj大于阈值α，则说明t」在全部文档中出现频繁，将t」归入集合Term1 ；然后对于已知类别的某一类ck，将该类中包含、的文档个数除以该类总的文档数量得到、在该类中的相对文频Class-Rel-DFjk,当Class-Rel-DFjk大于阈值β，则说明t」在该类中出现频繁，将、归入集合Term2 ；取Term1和Term2的交集，即得到特征粗选择后的词项子集 Term' = ITerm1，Term2I ；(1-1-2)特征精选择设t是步骤(1-1-1)得到的特征粗选择后词项子集Term' 中的一个候选词项，对于一个已知的类别g，计算t与g之间的辨别指数W(t，g)，W(t，g)的计算公式如下
权利要求
1.基于类别之间相关性学习的中文文本分类方法，其特征在于，具体包括以下步骤(1)训练过程(1-1)特征选择对于所有的中文词项，存在一本标准词典，词典中包含完备的词项集合，词项集合的全部词项依据拼音音序的先后顺序构成词项索引，特征选择的目标即是从词典中挑选具有代表性的词项构成特征词项，同样依据拼音音序构成特征索引，具体过程是读入所有的训练文档，对文档进行分词，将训练文档分词后，根据标准词典中的词项索引顺序依次统计出每个词项的词频；挑选出训练文档中出现频繁的词项，构成粗选择后的特征子集，根据粗选择特征子集中各个词项与类别之间有关概率的指数，进一步确定精选择后的代表性词项，所有类别中的代表性词项构成特征集合，并且根据拼音音序构成特征索引；(1-2)训练文档的表示将每一个训练文档用一个向量表示，向量的维数即特征选择后词项索引大小，向量中的每一个元素由tfidf权重和辨别指数权重的乘积构成，tfidf是文档中词项的词频和类别中词项的文频的统计表示，辨别指数权重是根据步骤(1-1)所述的有关频率的指数所做的一个平滑函数，值在0-1之间；(1-3)训练文档类别之间的相关性学习首先将多类之间的文本分类问题分解为多个两类文本分类问题，即对于某一类别ck，将属于类别Ck的训练样本作为正样本，不属于类别 ck的训练样本作为负样本，然后采用脊回归方法训练两类分类器；对所有类别文档分别训练即得到一组两类分类器，同时计算类别之间的相关性构成已知样本训练码矩阵CM，其中码矩阵的第k行第k'列表示类别Ck和(V之间的相关性；(2)新文档的类别判定过程(2-1)新文档的表示假设语料中的文档分为K个类别，对于一个新文档，它的类别未知，将其投影到所有的K个类别，并对应于步骤(1-1)提取的特征词项按拼音音序构成的特征词项索引，将新文档用矩阵形式表示，矩阵的行表示所有可能K个类别的索引，矩阵的列代表特征词项索引，元素值采用步骤(1-2)所述训练文档中值的计算方法表示；(2-2)新文档的类别判定将步骤(2-1)中得到的表示新文档的矩阵投影到步骤(1-3) 所得到的那组两类分类器中，并根据已知样本训练码矩阵CM计算新文档属于每个类别的相似度，将相似度最大的类别赋予新文档，作为其判定类别。
2.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-1)具体包括以下步骤(1-1-1)特征粗选择读入全部训练文档，对于词项、，将出现、的文档数量除以训练集合中所有文档数量得到、在整个训练集合中的相对文频Total-Rel-DFj，当 Total-Rel-DFj大于阈值α，则将t」归入集合Term1 ；然后对于已知类别的某一类ck，将该类中包含、的文档个数除以该类总的文档数量得到、在该类中的相对文频Class-Rel-DFjk, 当Class-Rel-DFjk大于阈值β，则将t」归入集合Term2 ；取Term1和Term2的交集，即得到特征粗选择后的词项子集Term' = (Term1, TermJ ；(1-1-2)特征精选择设t是步骤(1-1-1)得到的特征粗选择后词项子集Term'中的一个候选词项，对于一个已知的类别g，计算t与g之间的辨别指数W(t，g)，W(t，g)的计算公式如下
3.根据权利要求2所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-1)中的阈值α、β、Y以最终选出完全词项集合中10% -20%数量的词项为确定标准。
4.根据权利要求2所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-1-2)中辨别指数的有效阈值范围在0.6-0. 9之间，阈值选择需以分类性能做一个参照，取最高分类性能的对应阈值控制输出特征词项的数目。
5.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-2)中训练文档的表示方法具体如下设所有训练文档共有K个类别，每个类别ck对应有Nk个文档(1彡k彡K)，则类别Ck中的第i (1彡i彡Nk)个文档Dk,i用以下方式表不Dk,i —〈dk,i,i，dkjlt2' · · ·，dkji>n>其中m表示特征索引的大小，即是步骤(1-1-2)中得到的代表性词项的个数；Cl1^j由以下公式表示Cik,^. = tfIdfarDk,,) .Fdajjg (Dk,,)))其中
6.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-3)具体方法如下(1-3-1)对于某一类别ck，将属于类别Ck的训练文档作为正样本，类别标记记为1，反之作为负样本，类别标记记为-1，根据步骤(1-2)所得到的表示每个训练文档的向量，将所有的训练文档接连起来构成矩阵X，而对应的转变后的类别标记可以构成向量y ；(1-3-2)每一类中最佳投影采用脊回归方法求得
7.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(2-1)新文档的表示方法具体如下对于给定新文档A，在类别未知的前提下，对应于某可能类别ck，新文档表示如下Ak —〈，1，ak，2，· · ·，ak，n〉其中，η是步骤(1-2)中的特征词项索引的大小，对应于所有可能的类别l<k<K，新文档表示成为KXn大小的矩阵，其中第k行的第j个元素ay的值由以下公式计算
8.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(2-2)中新文档类别判定的算法具体如下根据步骤(2-1)，新文档A表示为 A = {A1;A2，...，AK}，给定一组投影向量户=他，p2，...，pj和码矩阵CM，新文档的表示和判定通过以下步骤实现(2-2-1)将新文档中的K个向量表示分别投影于对应的两类分类器，得到变换向量集合 Q = IQ1, Q2, ...，Qk，...，QK}，其中，对于类别 ck 有& =sgn(<4,Pi >)；(2-2-2)计算新文档A属于类别Ck的相似度，如下
全文摘要
本发明公开了一种基于类别之间相关性学习的中文文本分类方法，首先对文档进行分词，通过统计词频进行特征粗选择，然后根据词项和类别之间的辨别指数进一步确定具有代表性的词项构成精选择后的特征词项。根据特征词项索引，训练文档采用tfidf权重和辨别指数权重共同表示。接着，分别构建一组对应于不同投影向量的两类分类器，并训练得到表示两两类别之间相关性的码矩阵。最后，将新文档的多向量表示投影到所有两类分类器，引入码矩阵，计算每个类别与文档的相似度，将相似度最大输出作为新文档的类别判定结果。本发明基于类别之间的相关性学习结果进行新文档的分类，在保证分类性能的同时，提升算法的运行效率。
文档编号G06F17/30GK102332012SQ20111026882
公开日2012年1月25日申请日期2011年9月13日优先权日2011年9月13日
发明者何崑, 吴娴, 张东明, 杨兴锋申请人:南方报业传媒集团

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴娴;杨兴锋;张东明;何崑
技术所有人：南方报业传媒集团
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。