一种针对主题漂移问题的跨语言文本分类方法

文档序号:6444303阅读:389来源:国知局
专利名称:一种针对主题漂移问题的跨语言文本分类方法
技术领域
本发明涉及一种文本分类方法,特别涉及一种针对主题漂移问题的跨语言文本分类方法,属于信息检索技术领域。
背景技术
互联网的快速发展产生了海量的文本信息,网上的信息由多种语言构成,而用户有时希望对不同语言构成的文档进行统一分类,为解决此问题,跨语言文本分类便应运而生。由于各国经济、政治、文化的不同,不同国家人民的关注也有所不同,从而由不同语言构成的网页的内容也会有所不同,这反映在跨语言文本分类上,就是主题漂移问题。 即对于同一类别不同语言的文档,特征提取得到的特征不尽相同。举个例子,高尔夫球手 Tiger Woods在美国非常受欢迎,经常出现在英文“体育”类别的网页上,而在中文“体育” 类别的网页上出现更多的明星是刘翔、姚明,这样,在特征提取时,可能会在表征英文体育类的特征中出现Tiger Woods,而在表征中文体育类的特征中出现的是刘翔、姚明。主题漂移问题给跨语言文本分类带来了一定的困难,普通分类方法一般均忽视了此问题。

发明内容
本发明的目的是针对现有技术的问题,在跨语言文本分类中考虑主题漂移问题, 从而使跨语言文本分类的结果更加准确与合理。本发明的思想是提出了一种基于类相关性的主题漂移的解决方法。类相关性是用来度量两个类的相关性的,其值越大,说明这两个类越相关。利用这种类相关性,对单语言分类器得到的结果进行校正,提高分类效果。本发明的目的是通过以下技术方案实现的一种针对主体漂移问题的跨语言文本分类方法,该方法的目的是将待分类C语言文档归类到目标语言E的类中,包括以下步骤步骤一、训练C语言文本分类器;步骤二、训练E语言文本分类器;步骤三、计算C语言类和E语言类的相关性矩阵,相关性矩阵表示为A = (Bij)mxn, 其元素%表示C语言类CCi和E语言类CE^之间的相关性,m和η分别为C语言类和E语言类的数目;步骤四、使用机器翻译将待分类C语言文档翻译成E语言,计算翻译后的文档属于 E语言某类的概率;步骤五、使用类相关性矩阵对步骤四的结果进行校正;步骤六、将待分类文档归入概率最高的E语言类。有益效果
3
本发明提供的方法使用类相关性对分类结果进行校正,符合直观理解,有较强的可解释性,解决了跨语言文本分类的主题漂移问题。


图1是本发明的基本原理示意图。
具体实施例方式下面结合附图,详细描述本发明的优选实施方式,以确保对本发明实例的透彻理解。我们假定C语言类有CC1, CC2, . . .,CCm ;E语言类有CE1, CE2, ... , (En。根据需要, 我们要将C语言文档分到E语言类中,也可能将E语言文档分到C语言类中。鉴于这两种情况所用的方法相同,我们只讨论如何将C语言文档分类到E语言类。如图1所示,类CCi和类CE^之间的关联性通过来量化表示,待归类文档D以概率P(CCiID)被归类到类CCi,它的翻译文档D'以概率p(CE」D')被归类到类CEp我们的任务就是把文档D属于类CEj的概率表示为P(CCiID), p(CEj|D')和^iij的函数。具体分类步骤为步骤一、训练C语言分类器。这一步骤又可细分为语料搜集、文本表示、对训练集进行训练得到分类器等过程,常用的分类算法有朴素贝叶斯算法(NaiveBayes),最近邻算法(kNN),支持向量机(Support Vector Machine)等。在本发明中,C语言分类器的训练并不限于某一种特定的分类算法,上述算法都是适用的。步骤二、训练E语言分类器。与上一步骤类似,这一步也可细分为语料搜集、文本表示、对训练集进行训练得到分类器等过程,E语言分类器的训练也并不限于某一种特定的分类算法。步骤三、计算C语言类和E语言类的相关性矩阵;相关性矩阵表示为A = (Bij)mxn, 其元素表示中文类CCi和英文类CE^之间的相关性;相关性矩阵可以通过多种方法获得,例如1)人工标记的二值矩阵对于C语言中的每个类,人工标注其与E语言各个类之间的关联性。一种最简单的标注方式是将该矩阵标注成二值矩阵,即相关取1,不相关取0。本方法简单易行,但是在人工标注类与类之间的相关性时受主观因素的影响较大。2)最大似然估计标记C语言的背景文档集,其中的文档被同时标记为C语言类和E语言类,标记文档集形如χ = ττ, r:. r; ''.Λ..其中Xt是从训练集中提取得到的特征向量;r-是m维向量,它是训练文档关于C语言类的标记,如果一篇文档属于c语言类CCi,则该文档对应的rf第i个分量为1,其余分量为0 是η维向量,它是训练文档关于E语言类的标记,如果一篇文档属于E语言类CEj, 则该文档对应的rl第j个分量为1,其余分量为0。CN 102411636 A
说明书
3/3页设标记文档集χ中被标记为C语言类CCi的文档的数目为M,而在这M篇文档中, 被标记为E语言类CEj的数目为M',则U: . .. 二。本方法的优点是对于相关性矩阵的计算是比较准确的,其缺点是工作量较大,需要对大规模的背景文档集进行人工标注。3)基于聚类的标注给定C语言的背景语料,使用聚类算法(如k-means等)对其进行聚类,聚类的粒度大小要保证结果类的纯度;人工标注聚类结果中的每个小类到E语言类的相关性;该相关性是二值的,即相关取1,不相关取0,从而得到相关性矩阵A。本实施例的优点是能够比较准确地计算相关性矩阵,其不足在于进行人工标注的工作量较大。步骤四、计算C语言文档属于E语言类的概率。给定一篇C语言文档D,可以根据 C语言分类器求出后验概率向量α = ( (0^|0),?(02|0),...,?(0;|0)),其中?(0;|0) 表示文档D属于类CCi的概率。然后,通过机器翻译将文档D翻译为E语言文档D',同样地,对于任意类CEj,我们可以求出后验概率向量p(CEj|D'),也就是文档D'属于类CEj的概率。步骤五、使用类相关性矩阵对步骤四的结果进行校正,将文档D属于类CEj的概率表示为 ρ (CCiID)、ρ (CEj ID')和的函数。修正的方法也可以有多种,用户可以根据实际应用定义各部分的权值,例如;1)将文档D属于类CEj的概率定义为=P(CEjID) = Ap(CEj)D ‘ ) + (1_入) maXip (CCi I Dhij,其中0<参数λ < 1,参数λ起着调节校正力度的作用。定义中 P(CEj)D')表示单语言分类器的分类效果,maXip (CCiID)au是根据类相关性对单语言分类器的校正。2)将文档 D 属于类 CEj 的概率定义为:p (CEj | D) = max {ρ (CEj D ‘ ),maxiP (CCi | D) BijI。此方法训练分类器时不需考虑校正因子λ,但分类效果可能不如实施例1理想。步骤六、归类。把文档D归类到后验概率p(CE」D)最大的那一类,这样,我们就完成了对文档的跨语言分类。应该理解的是,本实施方式只是本发明实施的具体实例,不应该是本发明保护范围的限制。在不脱离本发明的精神与范围的情况下,对上述内容进行等效的修改或变更均应包含在本发明所要求保护的范围之内。
权利要求
1.一种针对主体漂移问题的跨语言文本分类方法,该方法的目的是将待分类C语言文档归类到目标语言E的类中,包括以下步骤步骤一、训练C语言文本分类器;步骤二、训练E语言文本分类器;步骤三、计算C语言类和E语言类的相关性矩阵,相关性矩阵表示为A = (Bij)mxn^7U 素表示C语言类CCi和E语言类CE^之间的相关性,m和η分别为C语言类和E语言类的数目;步骤四、使用机器翻译将待分类C语言文档翻译成E语言,计算翻译后的文档属于E语言某类的概率;步骤五、使用类相关性矩阵对步骤四的结果进行校正;步骤六、将待分类文档归入概率最高的E语言类。
2.根据权利要求1所述的一种跨语言文本分类方法,其特征在于,步骤三中相关性矩阵的计算方法为;对于C语言中的每个类,人工标注其与E语言各个类之间的关联性,将该矩阵标注成二值矩阵,即相关取1,不相关取0。。
3.根据权利要求1所述的一种跨语言文本分类方法,其特征在于,在步骤三中使用最大似然估计法获得相关性矩阵,具体方法为标记C语言的背景文档集,其中的文档被同时标记为C语言类和E语言类,标记文档集形如,τ ·\-.f _ ν -- 1 - -’—> Λ / ; f ■ · ■其中Xt是从训练集中提取得到的特征向量;κ是m维向量,它是训练文档关于C语言类的标记,如果一篇文档属于C语言类CCi,则该文档对应的第i个分量为1,其余分量为 0 ;ri.是η维向量,它是训练文档关于E语言类的标记,如果一篇文档属于E语言类CEp则该文档对应的〔第j个分量为1,其余分量为0 ;设标记文档集X中被标记为C语言类CCi的文档的数目为M,而在这M篇文档中,被标记为E语言类CEj的数目为M',则 二 .=$。
4.根据权利要求1所述的一种跨语言文本分类方法,其特征在于,在步骤三中使用基于聚类的标注方法获得相关性矩阵,具体方法为给定C语言的背景语料,使用聚类算法(如k-means等)对其进行聚类,聚类的粒度大小要保证结果类的纯度;人工标注聚类结果中的每个小类到E语言类的相关性;该相关性是二值的,即相关取1,不相关取0,从而得到相关性矩阵A。
5.根据权利要求1至4任一项所述的一种跨语言文本分类方法,其特征在于,步骤五中所述的校正方法为将文档D属于类CEj的概率定义为P (CEj |D) = Ap(CEj|D' ) + (1_λ) maXip (CCi |D)aij,其中0<参数λ < 1,参数λ起着调节校正力度的作用。
6.根据权利要求1至4任一项所述的一种跨语言文本分类方法,其特征在于,步骤五中所述的校正方法为将文档D属于类CEj的概率定义为P(CEjID) =max{p(CEJ|D'), HiaxiP (CCi ID) Hij] ο
全文摘要
本发明涉及一种针对主体漂移问题的跨语言文本分类方法,该方法的目的是将待分类C语言文档归类到目标语言E的类中,包括以下步骤训练C语言文本分类器;训练E语言文本分类器;计算C语言类和E语言类的相关性矩阵;使用机器翻译将待分类C语言文档翻译成E语言,计算翻译后的文档属于E语言某类的概率;使用类相关性矩阵对步骤四的结果进行校正;将待分类文档归入概率最高的E语言类。本发明使用类相关性对分类结果进行校正,符合直观理解,有较强的可解释性,解决了跨语言文本分类的主题漂移问题。
文档编号G06F17/30GK102411636SQ20111045323
公开日2012年4月11日 申请日期2011年12月30日 优先权日2011年12月30日
发明者孙守成, 戴林 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1