多模态智能情绪感知系统的制作方法

文档序号:11200007阅读:1253来源:国知局
多模态智能情绪感知系统的制造方法与工艺

本发明涉及情绪识别技术领域,尤其涉及一种多模态智能情绪感知系统。



背景技术:

目前的技术如下:

1.基于视觉和语音的智能性别、情绪识别检测系统及方法,该系统包括,基于图像的情绪和性别识别模块,用以根据人脸图像进行车内人员的情绪识别,以及根据人脸进行车内人员的性别识别;基于语音的情绪和性别识别模块,用以根据人的语音进行车内人员的情绪识别,以及根据语音进行车内人员的性别识别;融合模块,用以将所述性别识别的结果进行匹配和情绪识别的结果进行融合,并发送到个性化智能语音交互系统;个性化智能语音交互系统,可进行语音交互。该发明通过融合图像和语音的识别结果,提升性别/情绪识别的精准度,通过个性化语音交互系统提升驾驶体验,提升驾驶安全性,通过语音交互,增加车载设备使用的乐趣和信息服务精准性。

2.一种用于智能机器人的情绪识别方法及系统,该系统包括:交互信息获取步骤,获取用户输入的多模态交互信息:交互信息解析步骤,对多模态交互信息进行解析,分别根据多模态交互信息确定出至少两种情绪信息,得到情绪信息集合;情绪识别步骤,根据情绪信息集合,确定出用户的当前情绪。相较于现有技术,本方法能够使得情绪识别结果更加准确可靠,这样也就可以避免在用户言行不一等情况下情绪识别结果错误的问题。

3.一种穿戴设备识别语义的方法与系统,该发明公开了一种穿戴设备识别语义的方法与系统。该方法通过获取用户发出的语音和发出语音时的生理数据参数;识别所述语音的文字,根据所述生理数据参数识别出用户情绪;通过所述文字和所述用户情绪识别出语义。本发明在识别语音语义过程中,将用户发出的语音与发出语音时用户的情绪相结合,能准确的识别语义,极大的提高了用户的体验。

目前最相近的已有技术方案是基于视觉和语音的智能性别、情绪识别检测系统及方法,该系统包括,基于图像的情绪和性别识别模块,用以根据人脸图像进行车内人员的情绪识别,以及根据人脸进行车内人员的性别识别;基于语音的情绪和性别识别模块,用以根据人的语音进行车内人员的情绪识别,以及根据语音进行车内人员的性别识别;融合模块,用以将所述性别识别的结果进行匹配和情绪识别的结果进行融合,并发送到个性化智能语音交互系统;个性化智能语音交互系统,可进行语音交互。该发明通过融合图像和语音的识别结果,提升性别/情绪识别的精准度,通过个性化语音交互系统提升驾驶体验,提升驾驶安全性,通过语音交互,增加车载设备使用的乐趣和信息服务精准性。(专利名称:基于视觉和语音的智能性别、情绪识别检测系统及方法)。

但是目前技术存在如在缺陷:

1.集成度差:现有的技术采集的信号比较单一,测量多种信号需要连接多种不同的设备。不能做到多种信息的同时采集,即不能够感知受试者当前情绪状态下的多种能够表征情绪的信息。

2.准确性低:依靠单模态的信号不能准确地识别出真实的情绪,会出现表里不一的情况。譬如,一个人的表情信息有可能会受到主观因素的影响,容易伪装,此时仅仅依靠面部表情信息来感知一个人的情绪状态,得到的结果往往是相悖的。事实上一个人的情绪状态会通过多种信号表征出来,融合多模态信息进行情绪感知所得结果才会更加客观、精确。而这也正是现有技术中所缺少的。

3.忽略了情绪强度的测量:现有的技术往往只注重于情绪类型的识别,而忽略了情绪强度的测量。在不同的情境下,同一种情绪类型的情绪强度会有不同。情绪的变化不仅仅是情绪类型的转换,也包括情绪强度的变化。忽略了情绪强度的测量将不能够对情绪的变化做到实时精确的感知。

4.忽略了人体行为对情绪感知的影响:现有技术多是利用主观判断、表情信息、语音信息等来识别情绪,而忽略了人体行为信息与情绪的映射关系。比如,当人体的上臂伸展程度较大时,可推断该人当前的情绪状态应为积极的。而当一个人的上臂摆动幅度比较大并且重心前移的时候,可推断该人当前的情绪状态是恐惧的。事实上不同的人体行为在一定程度上也表征着不同的情绪。

5.忽略了生理信号对情绪感知的影响:现有技术大都忽略了生理信号对情绪感知的影响。现有技术中的基于主观判断、面部表情以及语音信息的情绪识别简单直观,测量简单,但是其结果往往受主观因素影响,容易伪装,有时不能够真实地反应受试者当时的情绪状态。而生理信号的变化只受人的自主神经系统和内分泌系统支配,不受人的主观控制,因而采用生理信号进行情绪感知得到的结果更加客观,相对精确。



技术实现要素:

本发明提供了一种多模态智能情绪感知系统,包括采集模块、识别模块、融合模块,所述采集模块将采集到的信息传输给所述识别模块,所述采集模块包括视频采集装置、语音采集装置、动作捕捉装置以及生理信号采集装置,所述识别模块包括基于表情的情绪识别单元、基于语音的情绪识别单元、基于行为的情绪识别单元、以及基于生理信号的情绪识别单元,所述识别模块中的各情绪识别单元对多模态信息进行识别,从而获得情绪分量,所述情绪分量包含情绪类型和情绪强度,所述融合模块将所述识别模块的情绪分量进行融合实现人体情绪的准确感知;

所述基于表情的情绪识别单元通过对采集到的视频或者图像,提取有效的动态表情特征或静态表情特征,训练出人脸表情与情绪的映射模型,在训练好的模型基础上,通过分类器对表情特征进行识别从而得到表情的情绪分量;

基于语音的情绪识别单元从实时采集的语音信号中提取能够表征情绪变化的特征参数,通过对表达情绪的有效参数的提取、分析,进而通过分类器进行情绪的判别,得到语音的情绪分量;

基于行为的情绪识别单元通过分析和提取与情绪相关的行为特征,将其量化为表征情绪的参数,得到人体动作与情绪的映射模型,在识别的过程中,通过对固定长度的运动序列进行动作识别,得到不同的行为特征的数值,将其放入映射模型中从而得到了行为的情绪分量;

基于生理信号的情绪识别单元用于对通过接触或非接触式方式采集的用户生理信号,滤除生理信号中的噪声后,利用经典模态分解和希尔伯特-黄变换算法提取心电、脉搏、肌电、皮肤电、脑电和呼吸信号的生理信号的特征,通过线性融合的方法对上述特征进行特征融合,并用信息增益率对特征进行选择,最后,通过分类器对特征进行识别得到基于生理信号的情绪分量。

作为本发明的进一步改进,所述基于表情的情绪识别单元包括:

表情特征提取模块,用于对采集到的视频或者图像进行预处理操作,从预处理后的图像或者视频中提取有效的表情特征;

训练映射模型模块,用于利用提取到的有效的表情特征训练出情绪模型;

分类器判别情绪模块,用于利用训练好的情绪模型,选取分类器进行情绪类型判别和情绪强度的计算,得到表情的情绪分量。

作为本发明的进一步改进,在表情特征提取模块中,对采集到的视频序列进行关键帧提取,在检测到视频序列的关键帧后,将单个表情的一段完整的视频序列分割出来,对分割后的视频片段进行预处理操作,对预处理后的视频序列提取动态特征或者静态特征,从而提取有效的表情特征;

在训练映射模型模块中,对提取到的动态特征或静态特征,采用特征降维方法进行特征降维去取特征间的相关性,并对降维后的特征用relieff特征选择方法进行特征选择加权,使得加权后的综合特征更加具有区分能力。

作为本发明的进一步改进,在表情特征提取模块中,关键帧提取的特征是视频序列的三维空间梯度的幅值特征或是光流应变幅值。

作为本发明的进一步改进,在所述表情特征提取模块中,所述预处理操作包括对分割后的视频片段进行人脸检测、人眼定位、根据人眼进行配准、旋转至水平、剪切归一化人脸、直方图均衡化,所述预处理操作包括上述操作的一种或几种。

作为本发明的进一步改进,所述基于语音的情绪识别单元包括:

语音提取分析模块,对采集到的语音信号进行预处理,并从中提取能够表征情绪变化的特征参数;

分类器判断模块,针对表征情绪变化的特征参数,通过分类器进行情绪的判别,得到语音情绪分量;

在所述语音提取分析模块中,对采集到的语音信号进行采样、量化,使之变成数字信号,然后对语音信号进行分帧、加窗的预处理,对原始特征向量集合进行降维,得到简约向量集,降低网络模型的复杂性,降低训练时间;

在所述分类器判断模块中,采用分类器的分类识别算法进行分类识别,从而得到语音的情绪识别分量。

作为本发明的进一步改进,所述基于行为的情绪识别单元包括:

行为特征提取模块,提取动作捕捉数据中与情绪相关的行为特征,行为特征包括人体重心的倾向、人体各肢体与重心的相对位置、人体的动作及速率;

特征参数量化模块,将提取到的与情绪相关的行为特征进行量化,形成表征情绪的参数;

映射模型单元,建立人体动作与情绪的映射关系模型;

分类识别模块,利用分类器对当前的行为信息进行识别,并将其作为参数传入映射模型单元中得到行为的情绪分量。

作为本发明的进一步改进,所述基于生理信号的情绪识别单元包括:

生理信号去噪模块,通过小波变换和自适应滤波器去除采集到的生理信号中的噪声;

生理信号特征提取模块,采用经典模态分解和希尔伯特-黄变换算法提取生理信号中的特征;

特征融合及选择模块,采用线性融合的方法对提取到的信号特征进行特征融合,并利用信息增益率对特征进行选择;

分类器识别模块,将特征放入分类器中得到生理信号的情绪分量。

作为本发明的进一步改进,所述分类器包括支持向量机、k近邻、决策树、随机森林、隐马尔可夫、神经网络算法。

作为本发明的进一步改进,该多模态智能情绪感知系统还包括显示模块,所述显示模块对采集到的信息进行实时显示,并显示最终识别出来的情绪类型和情绪强度。

本发明的有益效果是:本发明所提供的多模态智能情绪感知系统不再像现有的情绪识别方法依靠主观判断或者单一模态进行情绪识别,本发明融合了表情、语音、行为以及生理信号等多模态进行情绪识别,实际使用时能够自由灵活组合,可以是基于单个生理特征的智能感知系统,也可以是基于多个模态生理特征的任意组合的智能感知系统,相较于现有技术,本发明可以更加准确地识别出情绪,有效检测出用户在表里不一的情况下的真实情绪。

附图说明

图1是本发明的原理框图。

图2是本发明的基于表情的情绪识别单元的原理框图。

图3是本发明的基于语音的情绪识别单元的原理框图。

图4是本发明的基于行为的情绪识别单元的原理框图。

图5是本发明的基于生理信号的情绪识别单元的原理框图。

具体实施方式

如图1所示,本发明公开了一种多模态智能情绪感知系统,包括采集模块、识别模块、融合模块,所述采集模块包括视频采集装置、图像采集装置、语音采集装置、动作捕捉装置以及生理信号采集装置,该采集模块可以为接触式采集,也可以为非接触式采集。所述识别模块包括基于表情的情绪识别单元、基于语音的情绪识别单元、基于行为的情绪识别单元、以及基于生理信号的情绪识别单元。通过识别模块可获得各个情绪识别单元的情绪分量,情绪分量包含了情绪类型和情绪强度。融合模块是将识别模块中各情绪识别单元的情绪分量进行融合实现人体情绪的准确感知。显示模块是将采集到的信息进行实时显示,并显示最终识别出来的情绪类型和情绪强度。

基于面部表情的情绪识别单元通过对采集到的视频或者图像,提取有效的动态表情特征或静态表情特征,训练出人脸表情与情绪的映射模型,在训练好的模型基础上,通过分类器对表情特征进行识别从而得到表情情绪分量。

基于语音的情绪识别单元采用声音采集装置实时采集语音信号,并从中提取能够表征情绪变化的特征参数,通过对表达情绪的有效参数的提取、分析,进而通过分类器进行情绪的判别,得到语音情绪分量。

基于行为的情绪识别单元通过分析和提取与情绪相关的行为特征,将其量化为表征情绪的参数,得到人体动作与情绪的映射模型。在识别的过程中,通过对固定长度的运动序列进行动作识别,得到不同的行为特征的数值,将其放入映射模型中从而得到了行为情绪分量。

基于生理信号的情绪识别单元通过接触或非接触式方式采集用户生理信号,滤除生理信号中的噪声后,利用经典模态分解和希尔伯特-黄变换算法提取心电、脉搏、肌电、皮肤电、脑电和呼吸信号等生理信号的特征。通过线性融合的方法对上述特征进行特征融合,并用信息增益率对特征进行选择。最后,通过分类器对特征进行识别得到基于生理信号情绪分量。

本发明所描述的多模态情绪智能感知系统在实际应用时可以是基于单个生理特征的智能感知系统,也可以是基于多个模态生理特征的任意组合的智能感知系统。

本发明可通过穿戴式获取用户的多模态信息,这些多模态信息包含:表情信息、语音信息、行为信息以及生理信息。其中,用户的表情信息可通过视频采集装置(如摄像头)获取,用户的语音信息可通过语音采集装置(如麦克风)获取,用户的行为信息可通过动作捕捉装置(如穿戴式动作捕捉装置,基于光影或视频技术的动作捕捉装置)获取,用户的生理信息可通过生理信号采集装置(如接触式智能手环,非接触式雷达等)采集。

当系统采集到上述多模态信息后,识别模块中的各情绪识别单元对相应的信息进行处理。

如图2所示,所述基于表情的情绪识别单元包括:

表情特征提取模块,用于对采集到的视频或者图像进行预处理操作,从预处理后的图像或者视频中提取有效的表情特征;

训练映射模型模块,用于利用提取到的有效的表情特征训练出情绪模型;

分类器判别情绪模块,用于利用训练好的情绪模型,选取分类器进行情绪类型判别和情绪强度的计算,得到表情的情绪分量。

在表情特征提取模块中,对采集到的视频序列进行关键帧提取,关键帧提取的特征可以是视频序列的三维空间梯度的幅值特征,亦或是光流应变幅值,当然,并不局限于这些。在检测到视频序列的关键帧后,则可以将单个表情的一段完整的视频序列分割出来。对分割后的视频片段可以进行人脸检测、人眼定位、根据人眼进行配准、旋转至水平、剪切归一化人脸、直方图均衡化等预处理操作。预处理操作可以是这些操作中的一种或几种,当然也可以是其他合理的预处理操作。对预处理后的视频序列提取动态特征或者静态特征,本实施例中,我们优选动态特征,并采用特征降维方法(例如pca(主成分分析))进行特征降维去取特征间的相关性,并对降维后的特征优选公认较好的relieff特征选择方法进行特征选择加权。使得加权后的综合特征更加具有区分能力。relieff算法从训练集d中随机选择一个样本r,然后从和r同类的样本中寻找最近邻样本h,称为nearhit,从和r不同类的样本中寻找最近邻样本m,称为nearmiss。它的更新每个特征权重的规则:如果r和nearhit在某个特征上的距离小于r和nearmiss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。最后是将提取到的综合特征放进分类器进行情绪的分类识别。以此得到基于面部表情的情绪识别分量。融入到最终的融合模块进行最终的情绪判定。

如图3所示,所述基于语音的情绪识别单元包括:

语音提取分析模块,对采集到的语音信号进行预处理,并从中提取能够表征情绪变化的特征参数;

分类器判断模块,针对表征情绪变化的特征参数,通过分类器进行情绪的判别,得到语音情绪分量;

对于语音信息,首先对原语音信号进行预处理操作。由于语音信号是连续信号,我们需要对它进行采样、量化,使之变成数字信号。根据采样定理,我们选定合适的采样频率进行采样使之离散化。之后选择合适的量化精度对采样后的离散信号进行量化。由于语音信号是随时间变化的非平稳信号,不能够用现有的数字信号处理技术进行直接研究。但研究表明语音信号是短时平稳信号,我们对语音信号进行分帧、加窗等预处理操作。特征提取中,采用样本熵及目前比较成熟的声学参数及其统计参数,进行特征融合应用于语音情绪识别。采用pca贡献分析对原始特征向量集合进行降维,得到最简约向量集,降低网络模型的复杂性,降低训练时间。在最终的分类识别中可以采用人工神经网络、支持向量机、动态时间规整算法、隐马尔可夫模型等分类识别算法进行分类识别。以此得到语音的情绪识别分量。融入到最终的融合模块进行最终的情绪判定。

如图4所示,所述基于行为的情绪识别单元包括:

行为特征提取模块,提取动作捕捉数据中与情绪相关的行为特征,行为特征包括人体重心的倾向、人体各肢体与重心的相对位置、人体的动作及速率;

特征参数量化模块,将提取到的与情绪相关的行为特征进行量化,形成表征情绪的参数;

映射模型单元,建立人体动作与情绪的映射关系模型;

分类识别模块,利用分类器对当前的行为信息进行识别,并将其作为参数传入映射模型单元中得到行为的情绪分量。

具体为,对于行为信息,首先对行为信息进行分析提取出与情绪相关的行为特征,包括人体重心的倾向、人体各肢体与重心的相对位置、人体的动作及速率等。将这些特征量化形成可以表征情绪的参数,进而得到人体动作与情绪的映射关系。比如,当人体的上臂伸展程度较大时,可推断该人当前的情绪状态应为积极的。而当一个人的上臂摆动幅度比较大并且重心前移的时候,可推断该人当前的情绪状态时恐惧的。对于人体的不同动作,一个人在跳舞的时候,情绪一般为积极的状态。一个人在走路时,缓慢的行走在大多数情况下该人的情绪智能是开心或是悲伤,当该人快速地行走时,表明该人的情绪色彩很浓厚,所以可能是愤怒或是害怕,而当该人忽快忽慢地行走时,表明该人是受到了某件事情的刺激而变得喜悦,所以其情绪应该是惊喜。在建立动作与情绪之间的映射后,系统利用分类器对当前的行为信息进行识别,判断用户当前的人体重心的倾向程度,人体各肢体相对于人体重心的距离的远近,动作类型,动作的速率快慢等。并将其作为参数传入动作与情绪的关系模型中得到行为情绪分量。

如图5所示,所述基于生理信号的情绪识别单元包括:

生理信号去噪模块,通过小波变换和自适应滤波器去除采集到的生理信号中的噪声;

生理信号特征提取模块,采用经典模态分解和希尔伯特-黄变换算法提取生理信号中的特征;

特征融合及选择模块,采用线性融合的方法对提取到的信号特征进行特征融合,并利用信息增益率对特征进行选择;

分类器识别模块,将特征放入分类器中得到生理信号的情绪分量。

对于生理信息,首先通过小波变换和自适应滤波器去除生理信号中的噪声,采用经典模态分解和希尔伯特-黄变换算法提取生理信号中的特征。希尔伯特-黄算法利用尺度函数和信号自身的特点将信号进行分解和变换得到信号的瞬时幅值和瞬时频率信息,从而更加全面的提取生理信号的特征信息。为使特征集最优化,该系统不仅采用线性融合的方法将特征融合,还用信息增益率对特征进行选择。线性融合可以将多种类特征组合构成综合特征集用于情绪识别中,相较于单一种类特征集,综合特征集包含更全面的信号特征和信息;而基于信息增益率的特征选择方法则可以将无用的特征去除,不仅可以降低特征集的维数提高算法效率,还可以表面“特征冗余”对识别效果的影响。最后,将特征放入分类器中得到生理信号情绪分量。

在得到表情的情绪分量、语音的情绪分量、行为的情绪分量和生理信号的情绪分量后,该系统通过融合模块通过上述不同情绪分量的不同比重进行融合,从而得到最终的情绪类型以及情绪强度。情绪类型包括高兴、惊讶、愤怒、恶心、悲伤、恐惧和平静。

最后,通过无线智能终端或上位机系统,将上述采集信息、情绪类型以及情绪强度进行实时显示,并进行实时分析。

在本发明的采集模块中,采集方式包括:在面部表情采集当中,视频或图像采集装置我们可以采用普通的usb摄像头、3d摄像头等,也可用其他可用视频采集装置代替。行为采集方式中,可以通过穿戴式动作传感器采集,也可通过非接触式的摄像头等方式采集;生理信号采集方式中,可以通过穿戴式接触式设备采集,也可通过非接触式设备如uwb雷达等采集。

表情特征:在面部表情特征提取中,我们可以提取动态的表情特征和静态的表情特征,表情特征可以是纹理特征、几何特征、形状特征等,可以是其中一种特征或多种特征的融合特征,当然,本发明包括但不限于这些特征。

降维方法:常见的特征降维方法有pca、lda、kpca、kfda、isomap、le、lle、lpp等,本发明中所使用到的降维方法可以用这些但不限于这些的特征降维方法来替换。

特征选择有三种基本的方法:嵌入(embed)、封装(wrapper)、过滤(filter)。我们可以采用三种特征选择方法中的任意一种,当然也不局限于这些特征选择方法。

分类器包括支持向量机、k近邻、决策树、随机森林、隐马尔可夫、神经网络等算法,但不限于这些分类方法。

语音信息提取的特征包括mfcc、lpc、cep、mel等特征,但不限于这些特征。

行为特征还包括头部旋转的角度、膝关节角(大腿与小腿所成夹角)、肘关节角(前臂和上臂所成夹角)、躯干向前弯曲的角度,但不限于这些信号。

生理信号还包括皮温、眼电,但不限于这些信号。

本发明所提供的多模态智能情绪感知系统不再像现有的情绪识别方法依靠主观判断或者单一模态进行情绪识别,本发明融合了表情、语音、行为以及生理信号等多模态进行情绪识别,实际使用时能够自由灵活组合,可以是基于单个生理特征的智能感知系统,也可以是基于多个模态生理特征的任意组合的智能感知系统,相较于现有技术,本发明可以更加准确地识别出情绪,有效检测出用户在表里不一的情况下的真实情绪。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1