一种基于认知结构模型的文本情感类型识别方法及装置制造方法

文档序号：6508152阅读：567来源：国知局

一种基于认知结构模型的文本情感类型识别方法及装置制造方法
【专利摘要】本发明公开了一种基于认知结构模型的文本情感类型识别方法及装置，该方法包括：对于输入的海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建情感维度词典；对所构建的情感维度词典进行求精，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，得到相应的情感类型。本发明的上述方案设计思路、可解释性、使用灵活性及有效性上均明显优于已有方法，可用于商务智能、社情舆情、决策评估等领域面向文本的情感分析与识别。
【专利说明】一种基于认知结构模型的文本情感类型识别方法及装置
【技术领域】
[0001]本发明属于计算机科学技术中的观点挖掘和情感分析领域，尤其涉及一种基于情感的认知结构模型，采用统计方法构建情感维度词典，自动识别出文本中的多种情感类型的方法及其装置。
【背景技术】
[0002]观点挖掘和情感分析在社会公共安全、商务智能、社情舆情等领域具有十分重要的应用价值。近年来，社会媒体(人人网、科学网、博客、微博、微信等)在互联网中的蓬勃发展导致了用户产生的内容在数量上呈爆炸式增长。用户产生的内容中通常包含一定量的情感，能够为社会、经济、政治、文化相关的多个领域应用提供关键信息和决策支持。
[0003]目前观点挖掘和情感分析方法主要是识别观点的正负极性和文本中多种情感类型。识别观点正负极性的方法主要包括文档级、语句级、基于情感对象特征的识别方法。Turney (ACL, 2002)提出一种利用非监督学习方法计算词之间的互信息(PMI)来判断整个文档的正负极性。Pang等(ACL，2002)提出采用多种机器学习方法分类每篇电影评论的正负极性。Wiebe等(Computational Linguistics, 2004)通过大量数据集学习线索和特征，区分主观观点和客观事实，并在语句级判断观点的正负极性。张长利等(JASIST，2009)提出利用词之间的依赖关系分析中文语句的正负倾向性。Hu等(SIGKDD，2004)利用频繁挖掘算法获得情感对象特征，再利用语义词典确定情感词的正负极性，从而输出针对每个情感对象特征的相关正负评论。
[0004]文本中情感类型的识别目前以分类方法为主。Mishne (SIGIR，2005)提出一种基于特征的学习方法分类博文中的情感类型。Alm等(ACL，2005)提出利用与Mishne相似的方法分类叙事文本中的基本情感类型。Mostafa在博士论文(2008)中提出用大量手工标注的数据，基于主要的情感变量，计算语句中几乎所有词的情感变量值，进而计算出整个语句的情感。其中，Mostafa公开的方案不但需要大量人力标注数据，而且不加区分地计算句子中出现的词，因而导致该方法的效率和性能较低。

【发明内容】

[0005]本发明要解决的技术问题是:给定大量的文本数据集，结合情感认知理论，自动识别出文本中所包含的主要情感类型。
[0006]为了识别文本中丰富的情感类型，同时尽可能避免手工标注等费时费力的方法，本发明提出了一种基于认知结构模型的文本情感类型识别方法，其包括:
[0007]步骤1、对于输入的海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建不同的情感维度词典；其中，每个情感维度词典具有一个确定的情感维度值；
[0008]步骤2、对所构建的情感维度词典进行求精得到高质量的情感维度词典，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；[0009]步骤3、基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，生成相应的情感类型。
[0010]本发明还公开了一种基于认知结构模型的文本情感类型识别装置，其包括:
[0011]情感维度词典构造模块，其用于对于输入的海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建情感维度词典；其中，不同的情感维度词典具有各自的情感维度值；
[0012]情感维度词典求精模块，其用于对所构建的情感维度词典进行求精得到高质量的情感维度词典，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；
[0013]情感类型产生模块，其用于基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，生成相应的情感类型。
[0014]与现有技术相比，本发明提出的基于认知结构模型来识别文本情感类型的方法由于利用了情感的认知结构理论，不但可以输出丰富的情感类型，而且所需标注的数据量非常少。因此，在输出结果的可解释性、使用灵活性及有效性方面较已有方法具有明显的优势。
[0015]基于认知心理学领域成熟的情感认知结构模型，自动识别文本中所包含的主要情感类型；
[0016]采用统计方法，基于句法依存关系和通用语义词典，通过少量的标注数据自动构建情感维度词典；
[0017]赋予文本情感分析更深层次的认知结构关联，从而给情感类型的输出一个更加精细的符合认知心理学模型的合理解释。
【专利附图】

【附图说明】
[0018]图1是本发明中基于认知结构模型的文本情感类型的识别方法流程图；
[0019]图2是利用本发明提出的文本情感类型生成过程的示例图。
【具体实施方式】
[0020]为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。
[0021]本发明以认知心理学中经典的情感认知结构模型(以OCC认知结构模型为代表[Ortony, Clore&Collins，1988])为理论基础，建立自动识别文本中情感类型的方法。该模型可以描述多种不同情感类型的认知结构，在情感的计算建模中有着非常广泛的应用。模型中每个情感类型的出现都由一定的条件触发，这些条件可以用不同的情感维度值来表达，其中“合意性(Desirability) ”、“褒贬性(Praise-/Blame_worthiness) ” 和“可能性(Likelihood) ”是该模型中三个最为重要的情感维度变量。“合意性”与主体的目标相关联，“褒贬性”与行为是否符合社会道德标准相关联，而“可能性”则表示对事件发生的期望。
[0022]在情感认知结构理论中，每个情感维度变量有不同的取值。“合意性”维度的取值包括“合意的(Desirable) ”和“不合意的(Undesirable) ”。当某些事件的发生有利于最终目标的实现时，这种情况对于主体而言是合意的；反之则是不合意的。类似地，“褒贬性”维度的取值有“值得称赞的(Praiseworthy) ”和“应受责备的(Blameworthy)”。“可能性”维度有“可能的(Likely)”和“确定的”这两个取值。情感维度变量的不同取值及其组合可以生成不同的情感类型。例如，如果“合意的”事件的可能性是“确定的”，引发“高兴”情感；否则引发“希望”。如果个体“值得表扬的”行为带来合己意的行为后果，则导致“骄傲”情感的产生。本发明的工作可以生成六种主要情感类型:高兴(Joy)、悲伤(Distress)、希望(Hope)、恐惧(Fear)、骄傲(Pride)和羞耻(Shame)。
[0023]为此，本发明提出了一种基于认知结构模型的文本情感类型的识别方法。该方法中，文本中情感类型的分析识别基于认知理论中的情感认知结构模型，模型中主要通过情感维度值来确定情感类型，因此，建立文本情感类型识别系统的关键是自动构建高质量的情感维度词典。
[0024]图1示出了本发明中基于认知结构模型的文本情感类型的识别方法流程图。如图1所示，该方法包括:
[0025]步骤1、面向海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建情感维度词典；
[0026]步骤2、对所构建的情感维度词典进行求精，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；
[0027]步骤3、基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，生成多种主要的情感类型。
[0028]下面详细介绍上述各个步骤。
[0029]步骤1、情感维度词典的建立:
[0030]情感维度词典是基于句法依存关系和通用语义词典，采用统计的方法自动构建的。输入是海量的文本和关于某个情感维度值的种子词，输出是针对这个情感维度值建立起来的情感维度词典。这里情感维度值可以是“合意的“(Desirable) ”、“不合意的(Undesirable) ”、“值得称赞的(Praiseworthy) ”、“应受责备的(Blameworthy) ”和“可能的(Likely) ”。具体步骤如下:
[0031]步骤1.1、手工挑选少量高质量的每种情感维度种子词，作为初始的情感维度词典输入；情感维度词典包括DICrDICpDICpDIC；和DIQ，分别表示合意的情感维度词典、不合意的情感维度词典、值得称赞的情感维度词典、应受责备的情感维度词典和可能的情感维度词典；
[0032]步骤1.2、针对情感维度词典中每个新加入的情感维度词，基于通用语义词典，找出其同义词和反义词，并将其同义词和反义词分别放入相应的情感维度词典候选集中；
[0033]步骤1.3、利用句法依存关系(如:conj_and、conj_or、prep_in、parataxis 等)从输入的海量文本中找出与所述相应的情感维度词典中已有的情感维度词具有依存关系的新情感维度词，放入相应的情感维度词典候选集中；
[0034]步骤1.4、利用评分函数对相应的情感维度词典候选集进行评价与过滤，选取其中评分大于阈值的候选集中的情感词，放入相应的情感维度词典中；
[0035]步骤1.5、不断重复步骤1.2-1.4，直到不再有新的情感维度词加入；
[0036]步骤1.6、利用通用语义词典中的派生以及还原关系扩充情感维度词典。
[0037]其中，步骤1.4中所述的评分函数如下表示:
【权利要求】
1.一种基于认知结构模型的文本情感类型识别方法，其包括:步骤1、对于输入的海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建不同的情感维度词典；其中，每个情感维度词典具有一个确定的情感维度值；步骤2、对所构建的情感维度词典进行求精得到高质量的情感维度词典，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；步骤3、基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，生成相应的情感类型。
2.如权利要求1所述的识别方法，其特征在于，步骤I中情感维度词典包括合意的情感维度词典、不合意的情感维度词典、值得称赞的情感维度词典、应受责备的情感维度词典和可能的情感维度词典。
3.如权利要求1所述的识别方法，其特征在于，步骤I具体包括:步骤1.1、输入每种情感维度种子词，作为初始的情感维度词典输入；步骤1.2、针对每个情感维度词典中新加入的情感维度词，基于通用语义词典，找出其同义词和反义词，并将其同义词和反义词放入相应的情感维度词典候选集中；步骤1.3、利用句法依存关系，从输入文本中找出与所述每个情感维度词典中已有的情感维度词具有依存关系的新情感维度词，放入相应的情感维度词典候选集中；步骤1.4、利用评分函数对所述情感维度词典候选集进行评价与过滤，选取其中评分大于阈值的候选集中的情感词，放入相应的情感维度词典中；步骤1.5、不断重复步骤1.2-1.4，直到不再有新的情感维度词加入；步骤1.6、利用通用语义词典中的派生以及还原关系扩充每个情感维度词典。
4.如权利要求3所述的识别方法，其特征在于，步骤1.4中的评分函数既考虑当前情感维度词典候选集中待评价的候选词与其对应的情感维度词典中的词共现的次数，也考虑与其对应的情感维度词典在所有情感维度词典中所占的情感词的比例。
5.如权利要求3所述的识别方法，其特征在于，步骤1.4中所述评分函数如下表示:
6.如权利要求1所述的识别方法，其特征在于，步骤2中所述语义不一致性是指同一个词在同一情感维度值上具有相互矛盾的取值；情感倾向不一致性是指一个词同时具有正负情感倾向上相互冲突的情感维度值。
7.如权利要求1所述的识别方法，其特征在于，步骤2中基于通用语义词典中的同义和反义关系，去除语义不一致和情感倾向不一致的词。
8.如权利要求1、6-7所述的识别方法，其特征在于，步骤2中对于当前待求精的情感词根据下式求其计算得分，以过滤语义不一致和情感倾向不一致的词:
9.如权利要求1所述的识别方法，其特征在于，步骤I中，所述该句法依存关系包括语义相近或者相反的词。
10.一种基于认知结构模型的文本情感类型识别装置，其包括:情感维度词典构造模块，其用于对于输入的海量开源文本，基于通用语义词典和句法依存关系，采用统计方法自动构建不同的情感维度词典；其中，每个情感维度词典具有一个确定的情感维度值；情感维度词典求精模块，其用于对所构建的情感维度词典进行求精得到高质量的情感维度词典，求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤；情感类型产生模块，其用于基于求精后得到的高质量的情感维度词典，结合情感认知结构模型中情感维度值与情感类型的对应关系，生成相应的情感类型。
【文档编号】G06F17/27GK103440235SQ201310363414
【公开日】2013年12月11日申请日期:2013年8月20日优先权日:2013年8月20日
【发明者】毛文吉, 曾大军, 皇甫璐雯, 王磊申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛文吉;曾大军;皇甫璐雯;王磊
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。