一种基于句子间情绪转移概率的句子级情绪分类方法_2

文档序号:8487897阅读:来源:国知局
欢”的概率为40%,而从“渴望”转移到“讨厌”的概率为60%,那么,利用上述句子间情绪转移概率,对文本句子A和文本句子B进行优化分类,通过比较文本句子B最终被标上“喜欢”的概率和最终被标上“讨厌”的概率之间的大小来判断出文本句子B最终会被标上哪个情绪标签。其中,文本句子B最终被标上“喜欢”的概率的计算方法是利用文本句子间的情绪标签从“渴望”转移到“喜欢”的概率乘以文本句子B经过分类器的预分类处理后被标上“喜欢”的概率,也即40%乘以55% ;文本句子B最终被标上“讨厌”的概率的计算方法是利用文本句子间的情绪标签从“渴望”转移到“讨厌”的概率乘以文本句子B经过分类器的预分类处理后被标上“讨厌”的概率,也即60% *45%;由上可知,上述例子中文本句子B最终被标上“讨厌”的概率大于最终被标上“喜欢”的概率,所以文本句子B最终会被标上“讨厌”的情绪标签。
[0033]参见图2所示,基于已标注情绪标签的句子级文本集计算句子间情绪转移概率的过程包括:
[0034]步骤S201:记录每组已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系。
[0035]例如,当某组已标注情绪标签的句子级文本中的前后两个文本句子的情绪标签分别为“渴望”和“喜欢”,那么,该组已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系为“渴望-喜欢”。其中,“渴望-喜欢”是一种情绪对应关系,而“渴望-讨厌”则是另一种情绪对应关系,为了简便起见,在此就不对所有的情绪对应关系进行一一列举了。
[0036]步骤S202:按照情绪对应关系的种类对N组已标注情绪标签的句子级文本进行分类,得到多类句子级文本类;每一类句子级文本类包括一组或多组已标注情绪标签的句子级文本。
[0037]例如,将上述N组已标注情绪标签的句子级文本中情绪对应关系为“渴望-喜欢”的句子级文本分成一类,将“渴望-讨厌”的句子级文本分成另一类,以此类推。
[0038]步骤S203:计算每类句子级文本类中含有的句子级文本的数量占句子级文本集中含有的句子级文本的总量的比例,得到每类句子级文本类的句子间情绪转移概率。
[0039]例如,计算上述N组已标注情绪标签的句子级文本中情绪对应关系为“渴望-喜欢”的句子级文本的数量占句子级文本集中含有的句子级文本的总量的比例,从而得到句子情绪从“渴望”到“喜欢”的句子间情绪转移概率。
[0040]本发明实施例中,在利用分类器对待标注情绪标签的句子级文本进行预分类后,也即,在对待标注情绪标签的句子级文本自身的情绪特征进行分析后,还利用预先计算的句子间情绪转移概率对预标注情绪标签的句子级文本进行优化分类,从而得到最终的优化分类结果,可见,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。
[0041]最后,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0042]以上对本发明所提供的一种基于句子间情绪转移概率的句子级情绪分类方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种基于句子间情绪转移概率的句子级情绪分类方法,其特征在于, 利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本; 利用预先基于所述已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对所述预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。
2.根据权利要求1所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述已标注情绪标签的句子级文本集包括N组已标注情绪标签的句子级文本,其中,N为正整数,每组所述已标注情绪标签的句子级文本均包括两个已标注情绪标签的文本句子。
3.根据权利要求2所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述N组已标注情绪标签的句子级文本为不小于1000组的已标注情绪标签的句子级文本。
4.根据权利要求2所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,用于对所述已标注情绪标签的文本句子进行标注的情绪标签包括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子只被标注上一种情绪标签。
5.根据权利要求4所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述M种情绪标签为8种情绪标签,所述8种情绪标签为尚兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。
6.根据权利要求4或5所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,基于所述已标注情绪标签的句子级文本集计算所述句子间情绪转移概率的过程包括: 记录每组所述已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系; 按照所述情绪对应关系的种类对所述N组已标注情绪标签的句子级文本进行分类,得到多类句子级文本类;每一类所述句子级文本类包括一组或多组所述已标注情绪标签的句子级文本; 计算每类所述句子级文本类中含有的句子级文本的数量占所述句子级文本集中含有的句子级文本的总量的比例,得到每类所述句子级文本类的所述句子间情绪转移概率。
7.根据权利要求1所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,基于所述已标注情绪标签的句子级文本集建立所述分类器的过程为: 在所述已标注情绪标签的句子级文本集上执行机器学习分类算法,得到所述分类器。
8.根据权利要求7所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述机器学习分类算法为最大熵分类算法。
【专利摘要】本申请公开了一种基于句子间情绪转移概率的句子级情绪分类方法,该方法包括利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;利用预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。本申请公开的方法中,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104809232
【申请号】CN201510236584
【发明人】李寿山, 汪蓉, 周国栋
【申请人】苏州大学
【公开日】2015年7月29日
【申请日】2015年5月11日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1