一种跨领域的文本情感分类器的训练方法和分类方法

文档序号:6483597阅读:113来源:国知局

专利名称::一种跨领域的文本情感分类器的训练方法和分类方法
技术领域
:本发明涉及模式识别领域,具体涉及应用该分类器进行的文本分类方法。种跨领域的文本情感分类器的训练方法和
背景技术
:文本情感分类,是指根据对文本的分析确定该文本对某个对象的态度是正面还是负面。现有的文本情感分类方法具有很强的领域或主题依赖性。例如,在教育领域训练的情感分类器在教育领域中表现很好,但是在电影领域或其它领域分类精度就会很差。也就是说,现有的文本情感分类方法在情感挖掘中进行领域移植比较困难。其客观原因主要有两个方面首先,不同领域之间的词语空间存在很大差距,例如"便携的"、"快速的"常常出现在笔记本电脑的评论中,但几乎不会出现在房产评论中;其次,一些情感词语的极性也会发生变化,例如,房产评论中的"这套房子的客厅太小,让人感觉有点憋闷"中的"小"是负面的,但手机评论中的"诺基亚N3100非常小,很适合携带"的"小"是正面的。因此,要想在新领域也取得很好的性能,根据现有技术就不得不为该新领域人工标注一个较大的训练集,并采用这个训练集重新训练一个分类器。但是在实践中,因为这非常耗费精力与时间所以这种做法效率很低,甚至有时不可实现。所以说,研究一种具备移植能力的文本情感分类方法具有重要的现实意义。
发明内容本发明要解决的技术问题是提供一种跨领域的并且精度较高的文本情感分类方法。根据本发明的一个方面,提供了一种跨领域的文本情感分类器训练方法,包括下列步骤1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(tIck),以及类别Ck的概率P(Ck),进而计算新领域的样本&属于类别Ck的概率P(CkIdi);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(tIck)和所述P(ck),在E步根据重新计算的所述P(tIck)和所述P(ck)重新计算所述P(ckIeg。其中,上述步骤3)还包括判断所述P(ckId》在此迭代步骤中是否发生改变,如果发生了改变,转M步,如果未发生改变,则存储结果P(tIck)。其中,上述步骤3)的E步包括31)根据公式尸"W)^")n(^^)r重新计算所述P(Ckldi);其中,|V|表示整个词空间V中所包含的词个数,Ni,t表示样本&中特征wt的出现次数。其中,所述步骤2)还包括将所述P(Ckldi)离散化的步骤;所述步骤3)的所述E步还包括将所述P(Ckldi)离散化的步骤。其中,所述步骤3)的所述M步包括(卜2).2尸(cj《)+义-i;p(cj《)32)根据公式尸(^)=-^_^-计算所述P(Ck);其中入=(卜;1)'|"。|+/1'|""|min{St,1},t表示当前迭代步数,S是控制因子;D。和Dn分别表示源领域与新领域的样本集合;lD。1和|Dn|分别表示D。和Dn中所包含的样本个数。其中,所述步骤3)的所述M步包括33)根据公式尸(化)Y".g^^)+ig(^)+w计算所述Palck);其中,A=>11=1min{St,1},t表示当前迭代步数,S是控制因子;iV;;,表示样本di中特征Wt的出现次数且样本&属于新领域;A^,表示样本&中特征wt的出现次数且样本&属于源领域;IV|表示整个词空间V中所包含的词个数;7,°=K"g,VrcE表示挑选出来的通用情感特征。其中,所述步骤2)的所述计算特征Wt属于类别Ck的样本的概率P(tlck)包括根据如下公式计算所包含的样本个数;A^表示样本di中特征Wt的出现次数且样本di属于源领域;|V|表示整个词空间V中所包含的词个数。其中,所述步骤2)的所述计算类别Ck的概率P(Ck)包括根据如下公式计算—.....——.,其中,|D°|表示源领域的样本的集合D。中尸(q^"',二i;其中,|D°|表示源领域的样本的集合D。中所包含的样本水"。其中,所述步骤l)包括ii)根据公式y;4og确定所述高频领域特征,其中e是非零参数,P。(t)和pjt)分别表示特征Wt在源领域和新领域的样本中的出现概率。其中,所述步骤ll)中所述p。(t)根据如下公式计算,A(O=i:"(^+^,其中N。和Nn分别表示源领域和新领域的样本总数,N。(t)和Njt)分别表示特征Wt在源领域和新领域的样本中出现的样本数目,a为平滑因子。其中,所述步骤ll)中所述Pn(t)根据如下公式计算,^(0=,其中N。禾口Nn分别表示源领域和新领域的样本总数,N。(t)和Njt)分别表示特征Wt在源领域和新领域的样本中出现的样本数目,a为平滑因子。根据本发明的另一方面,还提供了一种跨领域的文本情感分类方法,包括根据上述训练方法所计算的结果P(tICk)对新领域测试集内的文本进行分类。本发明的有益效果在于,根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。图1是根据本发明的优选实施例的跨领域的文本情感分类方法的流程图。具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的跨领域的文本情感分类方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本发明基本思想是寻找领域之间的通用情感特征,并把通用情感词作为源领域通向新领域的一座桥梁,其中通用情感特征为不但在源领域和新领域频繁出现而且出现频率相似的词语。例如财经类例子"招商银行是一家非常优秀的上市公司",电子类例子"HpCompaq(商用笔记本)的性能非常优秀",则"优秀"就可以作为财经类与电子类之间的"通用情感特征"。然后逐步加大新领域的权重,使分类器模型与新领域达到最佳匹配。本发明即利用了源领域的部分可用信息,又充分吸收了新领域的全部信息。根据上述基本思想,如图1所示,本发明一个实施例的跨领域的文本情感分类方法的具体流程如下首先,在源领域和新领域的样本的关键词中,挑选通用情感特征,此过程可以人工实现,也可以通过计算实现。优选的,根据本发明的具体实施例依据频繁共现熵(FrequentlyCo-occurringEntropy,FCE)/w,来挑选通用情感特征,即频率共现熵较高的词语即为通用情感特征,其中乂气+&其中p。(t),pn(t)分别表示特征wt在源领域与新领域的样本中的出现概率在公式(2)和公式(3)中,N。和Nn分别表示源领域与新领域的样本总数。N。(t)和Njt)分别表示特征Wt在源领域与新领域的样本中出现的样本数目,即含有该特征Wt的样本数目。a为平滑因子,根据本发明的一个具体实施例a=0.0001。当然,不进行平滑同样可以实现本发明的基本技术目的。本领域内普通技术人员可以理解,上述公式(1)仅是能够确定通用情感特征的一个例子,也可以对该公式进行适应性修改或采用其它方式确定通用情感特征。例如P是为了防止出现分母为O的情况而采用的非零参数,在本发明的一个实施例中13=1.0。本领域技术人员可以理解,如果能够确定该特征Wt在源领域和新领域的样本中出现的概率并6非完全相等,则在该公式中也可以不采用该参数P。然后,根据上述通用情感特征初始化贝叶斯分类器,亦即计算新领域的样本&属于类别Ck的概率P(Ckldi)的初始值。详细的计算步骤如下根据源领域的样本计算特征wt属于类别ck的样本的概率P(tIck),以及类别ck的概率P(Ck):<formula>formulaseeoriginaldocumentpage7</formula><formula>formulaseeoriginaldocumentpage7</formula>其中,DO表示源领域的样本的集合,|D°|表示DO中所包含的样本个数,A^,表示样本A中特征wt的出现次数且样本&属于源领域,P(Ckld》表示样本&属于类别ck的概率,对于源领域的样本,其或者为l或者为O,V表示整个词空间,|V|表示V中所包含的词个数。本领域普通技术人员可以理解,上述公式(4)和(5)仅是可以采用以实现本发明的目的的一个例子,也可以对该公式进行适应性修改或采用其它方式进行计算。例如,|V|是保证分母不为0的参数,可以在其前面添加系数。则公式(4)可以是<formula>formulaseeoriginaldocumentpage7</formula>随后根据如下公式计算新领域的样本&属于类别ck的概率P(ckIeg的初始值,并进行离散化。离散化具体为取最大值的类别所对应的P(Ckldi)赋值为l,而其它类别所对应的P(Ckldi)赋值为O,即样本di属于P(Ckldi)取最大值的那个类别。本领域技术人员可以理解,在本发明中也可以不进行离散化,认为当P(Ckldi)取最大值时其所对应的类别即为样本di所属类别。<formula>formulaseeoriginaldocumentpage7</formula>其中Ni,t表示样本&中特征wt的出现次数。随后基于EM迭代方法来训练分类器,EM算法是一种公知的迭代算法,在每一次迭代循环过程中交替执行E步和M步两个步骤,当两次迭代之间的参数变化小于预先给定的阈值时算法终止。下述训练分类器的基本思想是对源领域只使用通用情感特征,而对新领域则使用所有特征。随着迭代步数的增加,公式不断增加新领域样本在模型训练中的权重。这样训练出来的分类模型将会与新领域样本达到最大匹配。训练分类器的具体步骤如下根据如下公式(6)、(7)和(8)针对新领域的样本的每个类别循环交替计算EM迭代算法的E步和M步,其中通过在M步中调整控制新旧两个领域的相对权重的因子A来更新P(Ckldi)的值。在E步计算P(Ckldi)的数值后,对其进行离散化。如果某E步所计算的P(Ckldi)与其上个E步所计算的P(Ckldi)的结果不相同,则根据公式(7)、(8)和(6)更新P(Ckldi)的值,再进行类似判断;如果某E步所计算的P(Ckldi)与其上个E步所计算的P(ckId》的结果相同,则算法结束,存储训练所得分类器的P(tIck)。<formula>formulaseeoriginaldocumentpage7</formula><formula>formulaseeoriginaldocumentpage8</formula>其中<formula>formulaseeoriginaldocumentpage8</formula>如果如果w,e^e£其中Ni,t表示样本&中特征wt的出现次数;A^,表示样本&中特征wt的出现次数且样本&属于新领域;D°和Dn分别表示源领域与新领域的样本集合;A。和A。分别表示源领域与新领域的Ck类别的样本中出现特征wt的概率;A用来控制新旧两个领域的相对权重;t表示当前迭代步数;S是控制因子,其根据本发明的一个实施例取O.2;V^表示挑选出来的通用情感特征。与公式(4)类似,本领域普通技术人员可以理解,上述公式(6)、(7)和(8)仅是可以采用以实现本发明的目的的一个例子,也可以对该公式进行适应性修改或采用其它方式进行计算。根据训练所得分类器的P(tlck),利用公式(6)即可计算新领域的文本的P(Ckldi),进行离散化后,该P(Ckldi)取值为l所对应的类别即为该文本所述类别。本发明对三个中文情感语料集教育评论(Edu)、财经评论(Sto)和电脑评论(Comp)进行了实验模拟。教育评论中含有1012篇负面评论与254篇正面评论;财经评论中含有683篇负面评论与364篇正面评论;电脑评论中含有390篇负面评论与544篇正面评论。在该实施例中通用情感词设定为200个,S设定为0.2。评价指标采用精度。对比方法采用贝叶斯情感分类方法。实验模拟结果如表1所示,其中Edu->Sto表示在教育评论上进行训练,在财经评论上进行测试,O.6704表示贝叶斯方法测试结果的精度,也就是采样贝叶斯方法的正确率。实验结果表明本发明的情感分类方法具有较高移植能力。在对新领域测试集进行测试时,本发明的平均精度达到了82.6%,要高出贝叶斯情感分类方法22个百分点。<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。权利要求一种跨领域的文本情感分类器的训练方法,包括下列步骤1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。2.根据权利要求1所述的训练方法,其特征在于,所述步骤3)还包括判断所述P(ckId》在此迭代步骤中是否发生改变,如果发生了改变,转M步,如果未发生改变,则存储结果P(tlck)。3.根据权利要求1或2所述的训练方法,其特征在于,所述步骤3)的所述E步包括31)根据公式p"w)^")n(i"r"重新计算所述p(Ckidi);其中,|V|表示整个词空间V中所包含的词个数,Ni,t表示样本&中特征Wt的出现次数。4.根据权利要求1或2所述的训练方法,其特征在于,所述步骤2)还包括将所述P(Ckldi)离散化的步骤;所述步骤3)的所述E步还包括将所述P(Ckldi)离散化的步骤。5.根据权利要求1或2所述的训练方法,其特征在于,所述步骤3)的所述M步包括32)根据公式户(^)=_^^-计算所述P(Ck);其中A=min{St,1},t表示当前迭代步数,S是控制因子;D°和Dn分别表示源领域与新领域的样本集合;D°|和Dl分别表示D。和Dn中所包含的样本个数。6.根据权利要求1或2所述的训练方法,其特征在于,所述步骤3)的所述M步包括、_G-".(化。.w,)+义.(w;;)+i33)根据公式,"、—".^。《)+;^K)+w计算所述P(tl。;'=1,-=1其中,A=min{St,1},t表示当前迭代步数,S是控制因子;^;;表示样本&中特征wt的出现次数且样本&属于新领域;《。表示样本&中特征wt的出现次数且样本&属于源领域;V|表示整个词空间V中所包含的词个数;=fw'^,Vfce表示挑逸出来的通用情感特征。7.根据权利要求1或2所述的训练方法,其特征在于,所述步骤2)的所述计算特征Wt属于类别ck的样本的概率P(tlck)包括根据如下公式计算其中,|D°|表示源领域的样本的集合DO中所包含的样本个数;M')表示样本di中特征wt的出现次数且样本&属于源领域;V|表示整个词空间V中所包含的词个数。8.根据权利要求1或2所述的训练方法,其特征在于,所述步骤2)的所述计算类别ck的概率P(Ck)包括根据如下公式计算|Z)。|其中,|D°|表示源领域的样本的集合0°中所包含的样本个数。9.根据权利要求1或2所述的训练方法,其特征在于,所述步骤1)包括11)根据公式乂=1尸确定所述高频领域特征,其中e是非零参数,P。(t)和pjt)分别表示特征Wt在源领域和新领域的样本中的出现概率。10.根据权利要求9所述的训练方法,其特征在于,所述步骤11)中所述p。(t)根据如下公式计算,《W-^^,其中N。和Nn分别表示源领域和新领域的样本总数,N。(t)和Nn分别表示特征Wt在源领域和新领域的样本中出现的样本数目,a为平滑因子。11.根据权利要求9所述的训练方法,其特征在于,所述步骤11)中所述Pn(t)根据如下公式计算,《(0=|^^,其中^和1分别表示源领域和新领域的样本总数,N。a)和Nn(t)分别表示特征Wt在源领域和新领域的样本中出现的样本数目,a为平滑因子。12.—种跨领域的文本情感分类方法,包括根据权利要求1或2所述的训练方法所计算的结果P(tlck)对新领域的文本进行分类。全文摘要本发明提供一种跨领域的文本情感分类器的训练方法,包括下列步骤1)在源领域和新领域样本的关键词中挑选通用情感特征;2)根据源领域的样本,计算特征wt属于类别ck的样本的概率P(t|ck),以及类别ck的概率P(ck),进而计算新领域的样本di属于类别ck的概率P(ck|di);3)基于EM迭代方法训练所述分类器,其中在M步根据源领域和新领域样本以及所述通用情感特征重新计算所述P(t|ck)和所述P(ck),在E步根据重新计算的所述P(t|ck)和所述P(ck)重新计算所述P(ck|di)。根据本发明的文本情感分类方法对新领域的文本进行分类的精度较高。文档编号G06K9/62GK101770580SQ200910076428公开日2010年7月7日申请日期2009年1月4日优先权日2009年1月4日发明者程学旗,谭松波申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1