基于依存关系来识别语句情感的设备和方法

文档序号:6357867阅读:169来源:国知局
专利名称:基于依存关系来识别语句情感的设备和方法
技术领域
本发明涉及计算语言学中的情感识别技术,更具体地说,本发明涉及一种用于识别语句所表达的情感种类的设备和方法。
背景技术
计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的训练模型,来分析、处理自然语言,并借助于计算机硬件和软件的交互作用来实现语句的转换、分析和处理,从而达到利用机器来模拟人的部分乃至全部语言能力的目的。语言的情感在人与人的交互中起着非常重要的作用,它能够影响人的理性思维、感知、决策和学习能力。基本上,情感可以分为高兴、悲伤、生气、惊讶、仇恨和恐惧等。当今, 人机接口技术遇到的最大挑战之一就是如何设计更加智能的人机接口,使得人和机器的交互能够像人和人的交互那样自然、可信。这种人机接口要求计算语言学中的机器能够识别、理解和处理人的情感,甚至表达情感。研究人员试图通过多种途径识别用户的情感,比如通过面部表情、语音、生理特征和文本等。虽然基于文本化的语句来识别用户情感不能像从表情、语音和生理特征识别情感那么直接和准确,但是文本形式(或类似文本的形式)是特别重要的一种输入和输出语句的方式,而目前绝大多数的人机交互应用都基于文本输入方式,所以基于文本的情感识别方法能够作为其它情感识别方法的有益补充,提高情感识别的准确率。目前,与文本形式相关的情感识别方法主要包括基于关键词的方法、词汇相关度的方法、利用大规模现实世界知识的方法。其中,基于关键词的方法是最基础、最主流的方法,它根据情感关键词等来判断语句的情感。基于词汇相关度的方法比基于关键词的方法更成熟一点,该方法给任意词分配对应特定情感的相关度,所述相关度可以是一个概率值,例如,词语“事故”有80 %的概率指示负面情感,常见的有“交通事故”、“安全生产事故”等。利用大规模现实世界知识的方法采用一个非常大的常识库,如OMCS(Open MindCommonsense,开放常识库)。该常识库中有关于现实世界各种情况、事件、人物和活动的知识,其中一部分是情感相关的知识(大约占10% )。利用大规模现实世界知识的方法就是利用情感常识进行情感计算。例如,公开号为CN101782898的中国专利申请《一种情感词倾向性的分析方法即公开了一种情感词倾向性的分析方法,包括抓取网络上带有星级的评论信息;抽取评论信息中的情感词;通过将利用星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和,获取情感词的倾向性。上述以情感词为基础进行语句情感识别的方式存在以下缺点I、以关键情感词为基础的方法仅依赖于表层信息,对于不含情感词汇和表达否定意义的语句通常都无能为力。比如句子“我躲过了一场车祸”,如果仅根据关键词“车祸”,该句会被错误地识别成负面情感,但是该句中动词“躲过”改变了整句的情感倾向,实际上该句表达的是一种正面情感。
2、当语句中含有相反情感倾向的关键词时,以关键情感词为基础的方法难于做出正确的判断。比如句子“敌人残忍地杀害了热心的老村长”,该句中“残忍”是负面情感词,而“热心”是正面情感词。基于关键词的情感识别方法难于准确识别该类句子表达的情感。3、中文多义词比较多,情感词汇中也有多义词。对于多义的情感关键词,基于关键词的方法不管是否含有情感,或含有何种情感,都只是简单地把它识别成预定的某种情感。t匕如“简单”,在句子“这个改进方案也太简单了”中表达一个负面的情感,但在句子“请简单地介绍一下你自己”中,它没有明显的情感倾向。但是上述两种情感在基于关键词的识别方法中将被识别为一种情感。因此,需要一种能够改进关键词识别方式中存在的上述缺陷的技术方案。

发明内容
本发明并不受限于必然解决上述技术问题,其目的在于提供一种能够基于语句中 各个词语的依存关系来抽取出语句的核心结构,从而识别语句情感的设备及其方法。根据本发明的一方面,提供一种基于依存关系来识别语句情感的设备,所述设备可包括存储单元,用于存储情感模型库,其中,在所述情感模型库中,从语料中预先获得的各个词语搭配条目被映射到对应的情感标签;依存关系分析单元,用于基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系;核心结构抽取单元,用于基于由依存关系分析单元分析出的依存关系来抽取所述输入语句的核心结构;语句情感识别模块,用于基于由核心结构抽取单元抽取出的核心结构以及由依存关系分析单元分析出的依存关系来生成所述核心结构的词语搭配条目,并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。核心结构抽取单元可在基于分析出的依存关系来抽取核心结构时还依据所述输入语句的句型结构。所述核心结构可以是动宾结构或主谓结构或被动结构。当核心结构抽取单元抽取核心结构时,还可统计核心结构中核心词的否定词个数,当否定词个数为奇数时,对搜索的情感标签进行置反。当核心结构抽取单元抽取核心结构时,还可统计核心结构中核心词的修饰词。语句情感识别模块可基于知识库来扩展生成的词语搭配条目。语句情感识别模块可按照生成的全部词语搭配条目的优先级别来搜索对应的情感标签。根据本发明的另一方面,提供一种基于依存关系来生成语句情感模型库的方法,所述方法可包括从语料收集语句,并手动标注每个语句的情感标签;基于构成每个语句的各个词语的词性组成来分析所述每个语句中各个词语的依存关系;基于依存关系来抽取所述每个语句的核心结构;基于核心结构以及依存关系来生成所述核心结构的词语搭配条目列表,并将所述每个语句的情感标签映射到生成的各个词语搭配条目;针对所有语句来统计每个词语搭配条目与各个情感标签映射的概率,并将概率值最大的情感标签确定为所述每个词语搭配条目对应的情感标签。根据本发明的另一方面,提供一种基于依存关系来识别语句情感的方法,所述方法可包括基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系;基于分析出的依存关系来抽取所述输入语句的核心结构;基于抽取出的核心结构以及分析出的依存关系来生成所述核心结构的词语搭配条目,并从情感模型库中搜索与所生成的词语搭配条目对应的情感标签,其中,在所述情感模型库中,从语料中预先获得的各个词语搭配条目被映射到对应的情感标签。基于分析出的依存关系来抽取核心结构的步骤还可包括依据所述输入语句的句型结构来抽取核心结构。抽取核心结构的步骤还可包括统计核心结构中核心词的否定词个数,当否定词个数为奇数时,对搜索的情感标签进行置反。


通过下面结合附图进行的对实施例的描述,本发明的上述和/或其它目的和优点将会变得更加清楚,其中图I是示出根据本发明示例性实施例的语句情感识别设备的框图;图2是示出根据本发明示例性实施例的语句情感识别方法的流程图;图3是示出根据本发明示例性实施例的语句依存关系的示图;图4示出根据本发明示例性实施例的核心结构抽取处理的流程图;图5示出根据本发明示例性实施例的否定词统计处理的流程图;图6示出根据本发明示例性实施例的动补关系处理的流程图;图7示出根据本发明示例性实施例的把字句处理过程的流程图;图8示出根据本发明示例性实施例的被字句处理过程的流程图;图9示出根据本发明示例性实施例的兼语句处理过程的流程图;图10示出根据本发明示例性实施例的复杂句处理过程的流程图;以及图11示出根据本发明示例性实施例的产生词语搭配条目并从情感模型库搜索对应的情感标签的处理的流程图。
具体实施例方式现将详细说明本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。根据本发明示例性实施例的语句情感识别设备基于语句的依存关系来抽取语句的核心结构,并基于所述核心结构和依存关系来生成相关的词语搭配条目,从而在事先训练得到的情感模型库中搜索与上述词语搭配条目对应的情感标签,作为所述语句表达的情感。图I是示出根据本发明示例性实施例的语句情感识别设备的框图。如图I所示,根据本发明示例性实施例的语句情感识别设备包括存储单元10,用于存储情感模型库,其中,在所述情感模型库中,从语料中预先获得的各个词语搭配条目被映射到对应的情感标签;依存关系分析单元20,用于基于构成输入语句的各个词语的词性组成来分析所述语句中各个词语的依存关系;核心结构抽取单元30,用于基于由依存关系分析单元20分析出的依存关系来抽取所述语句的核心结构;语句情感识别模块40,用于基于由核心结构抽取单元30抽取出的核心结构以及由依存关系分析单元20分析出的依存关系20来生成所述、核心结构的词语搭配条目,并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。作为可选部件,图I所示的语句情感识别设备还可包括词语划分单元50,用于对输入的语句进行词语划分,并输出划分的各个词语;词性标注单元60,用于对由词语划分单元50划分的各个词语进行词性标注,以获得所述各个词语的词性组成,并将所述词性组成提供给依存关系分析单元20。 作为示例,可通过通用的处理器或专门的情感模型库生成模块来生成所述情感模型库,在所述情感模型库中,预先从语料获得的各个词语搭配条目被分别映射到统计后对应的情感标签,其中,情感标签被用于表示情感种类,例如,所述情感种类可包括平静、喜悦、生气、愤怒、后悔、同情、悲哀、忧愁、紧张、焦急、烦闷、恐惧、惊讶、喜爱、期望、失望、委屈、内疚、厌恶、贪欲、嫉妒、傲慢、惭愧、鄙视、疑惑,中性。上述26种情感标签是在中国著名心理学家林传鼎提出的18种情感分类的基础上修改而成。应理解上述分类仅仅是示例性的,并不构成对本发明的限制。以下来描述上述情感模型库的一种示例性训练生成方式,然而,本发明并不受限于情感模型库的具体训练过程,任何可生成词语搭配条目与对应的情感标签的映射关系的方式均可被用于生成情感模型库。具体说来,训练情感模型是指从已标注情感的语料库中学习情感知识,即将语言中的各个词语搭配条目映射到特定情感,产生相应的映射关系,比如映射关系“杀害姑娘I愤怒”,其中,“杀害姑娘”指示特定的词语搭配条目,而“愤怒”指示与上述词语搭配条目对应的情感标签。这种映射关系的确定需要基于大量样本的分析和统计,以下将描述针对中文语句的样本来训练生成情感模型库的示例。I、收集语料从中学语文课本等标准语言资料上选取中文语句,为了建立可靠的情感模型,选取的语句需达到一定的数量,例如,可选择大概200万句左右。2、手动情感标注对选取的各个语句进行手动情感标注,例如,可将表示上述26种情感之一的情感标签赋予选取的各个语句。3、语句处理3. I、词语划分对各个语句进行词语划分。例如,对于中文句子“敌人残忍地杀害了热心的老村长”,词语划分后的输出结果为“敌人残忍地杀害了热心的老村长”。3. 2、词性标注对以上划分的各个词语标注词性,以上面的句子“敌人残忍地杀害了热心的老村长”为例,其词性标注后的形式为“敌人/n残忍/a地/u杀害/V 了 /u热心/a的Al老/a村长/n”,其中,n指示名词、a指示副词或形容词、u指示助词、v指示动词。3. 3、依存句法分析根据依存句法来分析语句中各个词语之间的依存关系。所述依存句法是指分析语句的中心词及词语之间的依存关系来揭示其句法结构。按照依存句法,一个语句只有一个成分是独立的,语句中的其它成分直接依存于某一成分,而且任何一个成分都不能依存于两个或两个以上的成分。如果成分A直接依存于成分B,而成分C在语句中位于A和B之间,那么成分C或者依存于A,或者依存于B,或者依存于A和B之间的某一成分。依存分析中没有非终结符,词与词之间直接发生依存关系,构成一个依存对,其中一个是支配词,另一个是从属词,依存关系用弧表示,从支配词指向从属词,每个依存弧上有一个叫做关系类型的标记。例如,上述语句的依存关系分析结果可被存储为XML格式,其中,word id指示词语的索引,cont指示词语的内容,pos指示词语的词性,parent指示词语所依赖的支配词的索引,relation指示词语与其支配词的依存关系
<doc>
〈sent id=”l”>
〈word id=”0” cont=,,敌人” pos=,,n” parent=”3” relation=,,SBV” /> 〈word id=”l” cont=”残忍” pos=”a” parent=”2” relation-5DF5 /> 〈word id=”2” cont=,,地” pos=,,u” parent=,,3” relation=,,ADV” /> 〈word id=”3” cont=,,杀害” pos=”v” parent=,,-1” relation=,,HED” /> 〈word id=”4” cont=” 了 ” pos=,,u” parent=,,3” relation=,,MT” />
〈word id=,,5” cont=,,热心” pos=’,a” parent=’,6” relation=,’DE” /> 〈word id=”6” cont=’,的” pos=,,u” parent=’,8” relation=”ATT” /> 〈word id=”7” cont=,,老” pos=,,a” parent=’,8” relation=,’ATT” /> 〈word id=”8” cont=,’村长” pos=”n” parent=,,3” relation=’,VOB” /> 〈word id=”9” cont=,,。” pos=,,w” parent=”-2” relation=”W” /> </sent>
〈sent id=,’2,,>
</sent>
</doc>3. 4、核心结构抽取该操作用于抽取语句中表达主要情感的核心结构,并作为优选步骤,同时登记核心结构的修饰词或否定词等信息。由于语句的主要情感是由核心结构表达的,所以可通过识别核心结构的情感状态来识别语句的情感。例如,对中文语句来说,语句的核心结构是句子的动宾结构。如果句中没有动宾结构,则该句可能是为了描述一种状态或陈述一个事实,此时,该句的主谓结构是其核心结构。例如,对于上述例句,由于有动宾结构V0B,从而抽取动宾结构“杀害村长”作为句子的核心结构。关于核心结构的数据可被存储为以下形式
权利要求
1.一种基于依存关系来识别语句情感的设备,包括 存储单元,用于存储情感模型库,其中,在所述情感模型库中,从语料中预先获得的各个词语搭配条目被映射到对应的情感标签; 依存关系分析单元,用于基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系; 核心结构抽取单元,用于基于由依存关系分析单元分析出的依存关系来抽取所述输入语句的核心结构; 语句情感识别模块,用于基于由核心结构抽取单元抽取出的核心结构以及由依存关系分析单元分析出的依存关系来生成所述核心结构的词语搭配条目,并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。
2.如权利要求I所述的设备,其中,核心结构抽取单元在基于分析出的依存关系来抽取核心结构时还依据所述输入语句的句型结构。
3.如权利要求I所述的设备,其中,所述核心结构是动宾结构或主谓结构或被动结构。
4.如权利要求I所述的设备,其中,当核心结构抽取单元抽取核心结构时,还统计核心结构中核心词的否定词个数,当否定词个数为奇数时,对搜索的情感标签进行置反。
5.如权利要求I所述的设备,其中,当核心结构抽取单元抽取核心结构时,还统计核心结构中核心词的修饰词。
6.如权利要求I或5所述的设备,其中,语句情感识别模块基于知识库来扩展生成的词语搭配条目。
7.如权利要求6所述的设备,其中,语句情感识别模块按照生成的全部词语搭配条目的优先级别来搜索对应的情感标签。
8.一种基于依存关系来生成语句情感模型库的方法,包括 从语料收集语句,并手动标注每个语句的情感标签; 基于构成每个语句的各个词语的词性组成来分析所述每个语句中各个词语的依存关系; 基于依存关系来抽取所述每个语句的核心结构; 基于核心结构以及依存关系来生成所述核心结构的词语搭配条目列表,并将所述每个语句的情感标签映射到生成的各个词语搭配条目; 针对所有语句来统计每个词语搭配条目与各个情感标签映射的概率,并将概率值最大的情感标签确定为所述每个词语搭配条目对应的情感标签。
9.一种基于依存关系来识别语句情感的方法,包括 基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系; 基于分析出的依存关系来抽取所述输入语句的核心结构; 基于抽取出的核心结构以及分析出的依存关系来生成所述核心结构的词语搭配条目,并从情感模型库中搜索与所生成的词语搭配条目对应的情感标签, 其中,在所述情感模型库中,从语料中预先获得的各个词语搭配条目被映射到对应的情感标签。
10.如权利要求9所述的方法,其中,基于分析出的依存关系来抽取核心结构的步骤还包括依据所述输入语句的句型结构来抽取核心结构。
11.如权利要求9所述的方法,其中,抽取核心结构的步骤还包括统计核心结构中核心词的否定词个数,当否定词个数为奇数时,对搜索的情感标签进行置反。
全文摘要
提供一种基于依存关系来识别语句情感的设备和方法,其中,所述设备包括存储单元,用于存储情感模型库,其中,在所述情感模型库中,从语料中预先获得的各个词语搭配条目被映射到对应的情感标签;依存关系分析单元,用于基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系;核心结构抽取单元,用于基于由依存关系分析单元分析出的依存关系来抽取所述输入语句的核心结构;语句情感识别模块,用于基于由核心结构抽取单元抽取出的核心结构以及由依存关系分析单元分析出的依存关系来生成所述核心结构的词语搭配条目,并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。
文档编号G06F17/30GK102737013SQ201110090099
公开日2012年10月17日 申请日期2011年4月2日 优先权日2011年4月2日
发明者习志冁, 周志斌, 周进华, 唐亮, 杨庆, 陈汉文, 颜晓蔚, 龚兴盛 申请人:三星电子(中国)研发中心, 三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1