一种面向类间交叠的两类文本分类方法

文档序号:6584152阅读:157来源:国知局
专利名称:一种面向类间交叠的两类文本分类方法
技术领域
本发明涉及文本信息分析与处理技术领域,尤其是涉及一种面向类间交叠的两类 文本分类方法。
背景技术
随着Internet的普及和迅速发展,作为网络数据的主要形式的文本数据大量涌 现,文本分类已经成为处理海量数据的有效组织和管理方式。文本分类是将待分类样本 集合与预先指定类别集合之间建立一个映射。根据预先指定类别数量不同,分为两类分类 和多类分类。其中,两类分类针对正负两个类的分类问题,通常需要一个人工标注的训练 集,包括正例和负例样本,在此基础上分类器进行学习,调整参数,建立适应于分类任务的 模板,最终实现对样本的正确自动分类。目前,基于统计机器学习方法成为文本分类的主 流技术,研究主要围绕文本表示模型、特征选择、分类模型等方面进行分类方法的提出与改 进。近年来,国内外研究者开始注重分析训练样本集合对分类性能的影响因素,力图通过对 其优化处理提高分类性能。研究发现,类间交叠程度是导致分类器性能下降的重要决定因 素。为了提高类间交叠下分类器的性能,目前的处理方法主要是通过对训练样本集合中的 “噪声”样本的去除来提高分类器性能,这些方法都没有继承被删除的训练样本所包含的有 效信息,如果识别过程中遇到与裁掉训练样本相近的样本,则很有可能被识别错误。

发明内容
有鉴于此,本发明的目的在于提供一种面向类间交叠的两类文本分类方法,该方 法不裁减任何训练样本,能够最大程度保持原有信息完整性,有利于增强对类模糊样本的 识别能力,当类间交叠程度较高时,本发明的方法能够保证文本分类准确性。为达到上述目的,本发明的方法包括以下步骤a.类间交叠区域训练样本识别采用类间交叠区域训练样本识别方法形成类标号为A和B的两类训练样本向量, 将类标号为A和B的两类训练样本向量分别划分为类标号分别为A1、A2和B 1、B2四类,其 中A2、B2分别为类A和类B的处于交叠区域的训练样本的类标号,AUB1分别两类剩余训 练样本的类标号;b.分类器构建bl.第一层分类器构建将类标号分别为A2、B2的训练样本向量集合合并,定义其 类标号为C,在具有Al、B1和C三个类标号的训练样本向量集合上构建第一层最近邻分类 器;b2.第二层分类器构建在类标号分别为A2、B2的训练样本集合上,提取相邻两个 词性为动词或名词构成的二元词串作为特征,类标号分别为A2、B2的训练样本集合上构建 第二层支持向量机分类器;C.测试样本分类
cl.第一层分类测试样本进入第一层分类器,第一层分类器判别测试样本的类 标号为C,则输入第二层分类器,否则类标号转换后直接输出作为结果,此处的类标号转换 方法为若判别测试样本为A1类,则输出类标号为A,若测试样本判别为B1类,则输出类标 号为B;c2.第二层分类对在cl步骤中被判别为类标号C的测试样本,采用第二层分类 器对其进行分类,类标号转换后直接输出作为结果,此处的类标号转换方法为若判别测试 样本为A2类,则输出类标号为A,判别为B2类,则输出类标号为B。进一步,所述类间交叠区域训练样本识别方法具体包括如下步骤以词作为特征,采用传统特征选择方法,提取最优特征,计算权重,形成训练样本 向量;对训练样本集合中每个样本向量,利用KNN(k = 3)算法计算与其最近的3个训练样 本向量;利用判别准则,判断是否为类间交叠区域的训练样本;其中,传统特征选择方法为 选择信息增益、互信息、文本证据权中任一种方法;判别准则为若某训练样本向量,与其 余弦相似度最高的三个训练样本向量所在类标号中,有两个与该样本向量类标号相反,则 其属于类间交叠区域训练样本。本发明的有益效果是本发明从信息粒度的角度分析了造成文本分类错误的原因,在没有删除任何训练 样本的前提下,通过进一步处理类间交叠区域训练样本来提高分类器性能,尤其在类间交 叠程度较高时的分类器性能;提出一种识别类间交叠区域训练样本识别方法,能够提取各 类处于类间交叠区域的样本;构建不同于一般方法中的两层分类器,本发明方法中的第二 层分类器构建在两类处于类间交叠区域的样本上,而非所有训练样本上;考虑到第二层分 类器的训练样本之间相似性较大,样本数目较小,在第二层分类器的特征选择上,采用包含 更多语义的二元词串作为特征,支持向量机作为分类方法;最后,输出结果为两层分类器分 类结果之和。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并 且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可 以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书以及附图 中所特别指出的结构来实现和获得。


附图为本发明面向类间交叠的两类文本分类方法的操作流程示意图。
具体实施例方式从信息粒度的角度分析,在粗粒度世界中,样本之间差异性小,对对象理解上存在 模糊,在文本分类上体现为处于粗粒度世界训练样本集合,提供的分类先验知识不足,使得 构建的分类决策模糊,导致分类结果出现错误。若测试样本处于类间交叠区域,即样本类别 性不明显,那么,人们在没有先验知识的情况下,该类样本是很难被准确识别。本发明中,将 训练样本集合重新进行划分,将其转换到细粒度世界下,这样能够加大样本之间的差异性, 增加分类先验知识,有利于降低分类决策的模糊度,提高分类器性能。这里,将处于类交叠 区域的样本称为“弱样本”,将它们的集合称为“弱样本类”。
下面结合附图和实施例对本发明作进一步描述。本发明实施时具体步骤如下步骤S11 第一层特征提取。以词作为第一层特征,利用传统特征选择方法从训练 样本集合中提取最优特征,计算权重,形成训练样本向量集合;步骤S12 类间交叠区域训练样本识别。计算每个训练样本向量与其它训练样本 向量的相似度,利用判别准则,判断其是否处于类间交叠区域内,并重新划分训练样本向量 集合,将原来类标号为A和B的两类训练样本向量分别划分为类标号分别为Al、A2和B1、 B2四类,其中A2、B2分别为类A和类B处于交叠区域的训练样本的类标号,Al、B1分别两 类剩余训练样本的类标号;步骤S13 第一层分类器构建。将类标号分别为A2、B2的训练样本向量集合合并, 定义其类标号为C,在具有Al、B1和C三个类标号的训练样本向量集合上构建第一层最近 邻分类器;步骤S14 第二层特征提取。在类标号分别为A2、B2的训练样本集合上,提取相邻 两个词性为动词或名词构成的二元词串作为特征,形成A2类、B2类的训练样本向量集合;步骤S15 第二层分类器构建。在类别标号为A2、B2的训练样本向量集合上构建 第二层分类器;步骤S16 第一层分类。测试样本进入第一层分类器,若第一层分类器判别样本的 类标号为C,则输入第二层分类器,否则类标号转换后直接输出结果;步骤S17 第二层分类。对被第一层分类器判别为类标号C的测试样本,利用第二 层分类器对其进行分类,类标号转换后输出结果;步骤S18 输出结果。合并第一层分类和第二层分类的结果。实施例所述第一层特征提取中,可以采用信息增益、信息熵、文档频次、交叉熵、文 本证据权等传统的特征提取方法,提取词特征;实施例所述类间交叠区域样本识别中,判别准则为若某训练样本向量,与其余弦 相似度最高的三个训练样本向量所在类标号中,有两个与该样本向量类标号相反,则其属 于类间交叠区域样本。实施例所述第一层分类器采用最近邻方法;实施例所述第二层分类器采用支持向量机;实施例所述第一层分类中,类标号转换规则若测试样本判别为A1类,则输出类 标号为A,若测试样本判别为B1类,则输出类标号为B ;实施例所述第二层分类中,类标号转换规则若判别样本为A2类,则输出类标号 为A,判别为B2类,则输出类标号为B ;下面说明本发明方法所涉及的细节问题。本发明使用向量空间模型作为文本表示模型。3 = Wy2,M;2;...、,WJ表示一
个文本的向量,其中、表示第i个特征项,w,是特征项、的权重。权重计算采用归一化的 TFXIDF。TFXIDF考虑了特征在整个训练样本集中的频率r^,它与第i个特征在第k样本 中出现的绝对频率成正比,与出现在整个文本集中的频率成反比,正好符合了权重计算的 准则,归一化TFX IDF定义式如下 其中,wik表示第k样本的第i个特征的权重,fik表示第k个样本中第i个特征在 此样本出现的次数,N代表训练样本集的文本数目,n表示训练样本集中最优特征集合的数 目,叫表示为在训练样本集中出现特征i的样本数。1.第一层特征与提取本发明中采用的是中文文本分类中常用的词作为第一层特征。第一层特征的提取 可以任意选择一种传统特征选择方法,从训练样本集合中选择最优特征,形成训练样本表 示向量。本发明中分别采用信息增益、文本证据权、互信息作为第一层特征提取的实施例。(1)信息增益法信息增益法是通过一个特征t是否出现在文本中来推算该特征对整个分类所提 供的信息量,定义为特征t在文本出现前后的信息熵之差,定义式如下 (2)文本证据权法文本证据权比较了类Cj出现的概率与在给定特征t下类Cj出现的条件概率之间 的差别,定义式如下 如果特征和类别之间为强相关(P(Cj|t)值大),且类别出现的概率小,说明此特征 类别区分度大,计算出来的文本证据权值大,可选择该特征作为最优特征。(3)互信息法特征t对类别Cj的互信息为二者的互信息量,定义式如下 互信息衡量特征t和类Cj之间独立的统计关系,Ml的值越大,说明特征t和类Cj 的共同出现的程度越大。上述定义式中各个符号表示意义如下用Cl,...,…,...,ck表示文本的k个类; t表示某个特征;P(t)是特征t出现的概率;P 是特征t不出现的概率;P(Cj)是第j类 的出现概率;P(Cj,t)是特征t与类别…共同出现的联合概率,P(Cj,0是特征t不与类别 Cj共同出现的联合概率。2.类间交叠区域训练样本识别类间交叠区域的训练样本识别,是将出现在类间交叠区域的各个类的训练样本抽 取出来,组成相对于所在类的小类别,如图1中的A2、B2。类间交叠区域的训练样本识别方法如下采用一种基于边界点的类间交叠程度度 量,定义样本集中边界点个数占总样本数的比例来度量两类间交叠程度。一般,若样本点P 的k个最近邻点的类标号与点P相同,则点P很可能是类的内点;而若P的k个近邻点中有与其类标签不同的点,则P很可能是类的边界点。类边界点越多,比例越高则类间交叠程度 越高。对所有训练样本进行判别,抽取类间交叠区域的训练样本。具体算法描述如下(1)对训练样本集合中每个样本向量J;,利用3NN算法计算与$最近的3个样本向 量;(2)若样本向量g属于类别A,与g最近的3个样本向量中2个为类别B,则$为A类 的交叠区域样本向量,即A2类,否则为A1类;(3)若样本向量$属于类别B,与g最近的3个样本向量中2个为类别A,则g为B类
的交叠区域样本向量,即B2类,否则为B1类。3.第二层特征提取由于构建第二层分类器的两类训练样本集合A2类、B2类,在第一层特征空间中不 具备可分性,需要更具备语义的特征描述样本来获取最大区分性,因此,本发明中选择相邻 两个词性为动词或名词构成的二元词串作为第二层特征。4.第一层分类器构建本发明方法中,第一层分类器采用最近邻分类方法构建,目的在于保证能够准确 判别测试样本是否属于交叠区域样本类。最近邻分类方法是效果较好的分类方法之一。算法思想训练过程仅存储文本向 量和文本对应的类别,不用进行归纳和分析,即没有使用它们来形成分类器。当待分类文本 到达时,分别计算待分类文本与所有文本之间的距离,选择距离最近的文本,然后检查这些 文本的类别,将待分类文本归入距离最近的一类中。该方法已经被证明是最好的文本分类
算法之一。5.第二层分类器构建本发明方法中,如果测试文本被第一层最近邻分类器判别为类C,即处于交叠区域 的测试样本时,则输入第二层分类器进行判别。由于构建第二层分类器的两类训练样本集合A2类、B2类,在原始特征空间中不具 备空间可分性,因此需要较强区分能力的分类器。同时,交叠区域中的各类样本集合包含样 本数目较少,分类器还需要具备较好的泛化能力。因此,在本发明中采用支持向量机作为第 二层分类器。支持向量机是V. Vapnik提出的一种新的机器学习方法,1998年,Joachimis将其 引入文本分类研究领域,它在解决小样本、非线形及高维模式识别问题中表现出许多特有 的优势。支持向量机的基本思想是针对分两类问题,在高维空间中寻找一个最优分类平面 作为两个类的分割,以保证最小的分类错误率,对于新进来文本使用最优分类平面进行分 类,即在文本空间寻找一个将训练集合中的两个类分割开来的平面,使两个样本类之间的 距离最大。6.第一层分类在本发明中,测试样本进入第一层分类器,若第一层分类器判别样本的类标号为 C,则输入第二层分类器,否则类标号转换后直接输出结果,即测试样本判别为A1类,则输 出类标号为A,测试样本判别为B1类,则输出类标号为B。
7.第二层分类对被第一层分类器判别为类标号C的测试样本,利用第二层分类器对其进行分 类,若判别样本为A2类,则输出类标号为A,判别为B2类,则输出类标号为B。8.输出结果最终,统计第一层分类器和第二层分类器分类正确和错误样本数目,计算分类器 性能。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通 技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案 的精神和范围,均应涵盖在本发明的权利要求范围当中。
权利要求
一种面向类间交叠的两类文本分类方法,其特征在于,该方法包括以下步骤a.类间交叠区域训练样本识别采用类间交叠区域训练样本识别方法形成类标号为A和B的两类训练样本向量,将类标号为A和B的两类训练样本向量分别划分为类标号分别为A1、A2和B1、B2四类,其中A2、B2分别为类A和类B的处于交叠区域的训练样本的类标号,A1、B1分别两类剩余训练样本的类标号;b.分类器构建b1.第一层分类器构建将类标号分别为A2、B2的训练样本向量集合合并,定义其类标号为C,在具有A1、B1和C三个类标号的训练样本向量集合上构建第一层最近邻分类器;b2.第二层分类器构建在类标号分别为A2、B2的训练样本集合上,提取相邻两个词性为动词或名词构成的二元词串作为特征,类标号分别为A2、B2的训练样本集合上构建第二层支持向量机分类器;c.测试样本分类c1.第一层分类测试样本进入第一层分类器,第一层分类器判别测试样本的类标号为C,则输入第二层分类器,否则类标号转换后直接输出作为结果,此处的类标号转换方法为若判别测试样本为A1类,则输出类标号为A,若测试样本判别为B1类,则输出类标号为B;c2.第二层分类对在c1步骤中被判别为类标号C的测试样本,采用第二层分类器对其进行分类,类标号转换后直接输出作为结果,此处的类标号转换方法为若判别测试样本为A2类,则输出类标号为A,判别为B2类,则输出类标号为B。
2.根据权利要求1所述面向类间交叠的两类文本分类方法,其特征在于,所述类间交 叠区域训练样本识别方法具体包括如下步骤以词作为特征,采用传统特征选择方法,提取最优特征,计算权重,形成训练样本向量; 对训练样本集合中每个样本向量,利用KNN算法计算与其最近的3个训练样本向量,其中k =3 ;利用判别准则,判断是否为类间交叠区域的训练样本;其中,传统特征选择方法为选 择信息增益、互信息、文本证据权中任一种方法;判别准则为若某训练样本向量,与其余 弦相似度最高的三个训练样本向量所在类标号中,有两个与该样本向量类标号相反,则其 属于类间交叠区域训练样本。
全文摘要
本发明公开了一种面向类间交叠的两类文本分类方法,该方法首先形成训练样本向量,对类间交叠区域内的训练样本进行识别,判断其是否处于类间交叠区域内;然后,重新划分训练样本向量集合,在新划分的训练样本向量集合上构建第一层分类器;在各类处于类间交叠区域的训练样本集合上,提取相邻两个词性为动词或名词构成的二元词串作为特征,构建第二层分类器;最后对测试样本进行第一层分类,如果满足条件则进入第二层分类器进行识别,最终合并两层分类器结果为最终分类结果;本发明适用于类间交叠程度较高的文本分类、信息过滤和信息监管等领域,能够保证类间交叠程度较高的文本分类准确性。
文档编号G06F17/30GK101876987SQ20091022730
公开日2010年11月3日 申请日期2009年12月4日 优先权日2009年12月4日
发明者席耀一, 李弼程, 林琛, 郭志刚, 陈刚 申请人:中国人民解放军信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1