一种面向机器人的多模态融合情感计算方法及系统与流程

文档序号：16211148发布日期：2018-12-08 07:45阅读：236来源：国知局

本发明涉及信息技术领域，尤其涉及一种面向机器人的多模态融合情感计算方法及系统。

背景技术

从目前来看，多模态融合的相关研究较少，目前的方法并没有做到对多模态信息进行融合，大部分都是语言部分信息。大部分研究存在有如下缺陷：1、局限于某个模态的信息采集与获取；2、仅对语言部分进行识别，无法很好的识别用户情绪；3、非语言信息部分仅对于交互对象的面部表情进行情感计算，而没有将其生理信息、面部表情、肢体语言及视觉信息等多种信号准确融合；4、没有进行语言与非语言多模态信息的融合方法，与对应的情感计算方法；5、机器人基本都没有采用多模态情感计算。

技术实现要素：

本发明要解决的技术问题之一，在于提供一种面向机器人的多模态融合情感计算方法，通过获取用户的多模态信息，包括非语言与语言信息，使用pad模型、occ模型，将多模态信息映射到pad空间上，利用线性回归模型分别对语言信息和非语言信息进行融合之后，再次使用模型进行最终融合，即最终的决策层融合。

本发明要解决的技术问题之一是这样实现的：一种面向机器人的多模态融合情感计算方法，包括如下步骤：

步骤1、获取得到多模态信息，通过实时捕捉与机器人交互的人的语言信息以及非语言信息，包括面部表情、头眼关注、手势和文本；

步骤2、构建不同信息的处理通道进行特征分类与识别，包括语言信息和非语言信息的特征分类与识别；

步骤3、对多模态信息进行处理，通过pad模型与occ模型将信息映射到pad三维空间上；

步骤4、对各个模态信息在决策层融合时进行时序对齐，进行基于时序的情感维度空间的计算。

进一步的，所述步骤2进一步包括：

针对非语言信息，完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别；

针对语言信息，完成自然语言处理，并输出对应的句子成分与语音特征。

进一步的，所述步骤4进一步包括：

步骤41、对非语言信息，使用线性回归模型来对获取的9个pad参数值进行不同时间不同模态的融合预测，使用线性回归器进行融合：

pn＝μ1·p1+μ2·p2+μ3·p3公式1

an＝θ1·a1+θ2·a2+θ3·a3公式2

dn＝σ1·d1+σ2·d2+σ3·d3公式3

其中p1，p2，p3；a1，a2，a3；d1，d2，d3分别为面部、手势、眼部关注度三个模块的pad参数值，pn，an，dn为融合后非语言部分的pad参数值；μ1，μ1，μ1分别为愉悦度线性方程中的常量，θ1，θ2，θ3分别为激活度线性方程中的常量，σ1，σ2，σ3分别为控制度线性方程中的常量；

步骤42、使用一次线性回归模型，将非语言信息和语言信息进行最终的融合，公式如下：

p融合＝μ4·p非语音+μ5·p语音公式4

a融合＝θ4·a非语音+θ5·a语音公式5

d融合＝σ4·d非语音+σ5·d语音公式6。

其中，p融合、a融合和d融合分别为最终融合后的pad参数值，μ4，μ5分别为愉悦度线性方程中的常量，θ4，θ5分别为激活度线性方程中的常量，σ4，σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的pad值，进行最终的融合，得到最终的pad参数值。

本发明要解决的技术问题之二，在于提供一种面向机器人的多模态融合情感计算系统，通过获取用户的多模态信息，包括非语言与语言信息，使用pad模型、occ模型，将多模态信息映射到pad空间上，利用线性回归模型分别对语言信息和非语言信息进行融合之后，再次使用模型进行最终融合，即最终的决策层融合。

本发明要解决的技术问题之二是这样实现的：一种面向机器人的多模态融合情感计算系统，包括：

信息获取模块，用于获取得到多模态信息，通过实时捕捉与机器人交互的人的语言信息以及非语言信息，包括面部表情、头眼关注、手势和文本；

特征分类与识别模块，用于构建不同信息的处理通道进行特征分类与识别，包括语言信息和非语言信息的特征分类与识别；

模型构建模块，用于对多模态信息进行处理，通过pad模型与occ模型将信息映射到pad三维空间上；以及

融合模块，用于对各个模态信息在决策层融合时进行时序对齐，进行基于时序的情感维度空间的计算。

进一步的，所述特征分类与识别模块进一步包括：

针对非语言信息，完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别；

针对语言信息，完成自然语言处理，并输出对应的句子成分与语音特征。

进一步的，所述融合模块进一步包括融合预测模块和决策层融合模块：

所述融合预测模块，用于对非语言信息，使用线性回归模型来对获取的9个pad参数值进行不同时间不同模态的融合预测，使用线性回归器进行融合：

pn＝μ1·p1+μ2·p2+μ3·p3公式1

an＝θ1·a1+θ2·a2+θ3·a3公式2

dn＝σ1·d1+σ2·d2+σ3·d3公式3

其中p1，p2，p3；a1，a2，a3；d1，d2，d3分别为面部、手势、眼部关注度三个模块的pad参数值，pn，an，dn为融合后非语言部分的pad参数值；μ1，μ2，μ3分别为愉悦度线性方程中的常量，θ1，θ2，θ3分别为激活度线性方程中的常量，σσ1，σ2，σ3分别为控制度线性方程中的常量；

所述决策层融合模块，用于使用一次线性回归模型，将非语言信息和语言信息进行最终的融合，公式如下：

p融合＝μ4·p非语音+μ5·p语音公式4

a融合＝θ4·a非语音+θ5·a语音公式5

d融合＝σ4·d非语音+σ5·d语音公式6。

本发明具有如下优点：

1、采用多模态信息融合框架，提供更为更为准确的情感计算方式；

2.使用pad、occ模型的情感计算框架计算pad空间上的情感值使得机器人能更好的识别用户情感，更好地理解了说话者的意图，使得机器人更加人性化。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种面向机器人的多模态融合情感计算方法执行流程图。

图2为本发明一种面向机器人的多模态融合情感计算框架的原理示意图。

具体实施方式

请参阅图1和图2，本发明一种面向机器人的多模态融合情感计算方法，包括如下步骤：

步骤1、获取得到多模态信息，通过实时捕捉与机器人交互的人的语言信息以及非语言信息，包括面部表情、头眼关注、手势和文本；

步骤2、构建不同信息的处理通道进行特征分类与识别，包括语言信息和非语言信息的特征分类与识别；

步骤3、对多模态信息进行处理，通过pad模型(p-pleasure、a-arousal、d-dominance)与occ模型将信息映射到pad三维空间上；

步骤4、对各个模态信息在决策层融合时进行时序对齐，进行基于时序的情感维度空间的计算。

较佳的，所述步骤2进一步包括：

针对非语言信息，完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别；

针对语言信息，完成自然语言处理，并输出对应的句子成分与语音特征。

较佳的，所述步骤4进一步包括：

步骤41、对非语言信息，使用线性回归模型来对获取的9个pad参数值进行不同时间不同模态的融合预测，使用线性回归器进行融合：

pn＝μ1·p1+μ2·p2+μ3·p3公式1

an＝θ1·a1+θ2·a2+θ3·a3公式2

dn＝σ1·d1+σ2·d2+σ3·d3公式3

步骤42、使用一次线性回归模型，将非语言信息和语言信息进行最终的融合，公式如下：

p融合＝μ4·p非语音+μ5·p语音公式4

a融合＝θ4·a非语音+θ5·a语音公式5

d融合＝σ4·d非语音+σ5·d语音公式6。

请参阅图2，本发明的一种面向机器人的多模态融合情感计算系统，包括：

信息获取模块，用于获取得到多模态信息，通过实时捕捉与机器人交互的人的语言信息以及非语言信息，包括面部表情、头眼关注、手势和文本；

特征分类与识别模块，用于构建不同信息的处理通道进行特征分类与识别，包括语言信息和非语言信息的特征分类与识别；

模型构建模块，用于对多模态信息进行处理，通过pad模型与occ模型将信息映射到pad三维空间上；以及

融合模块，用于对各个模态信息在决策层融合时进行时序对齐，进行基于时序的情感维度空间的计算。

较佳的，所述特征分类与识别模块进一步包括：

针对非语言信息，完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别；

针对语言信息，完成自然语言处理，并输出对应的句子成分与语音特征。

较佳的，所述融合模块进一步包括融合预测模块和决策层融合模块：

所述融合预测模块，用于对非语言信息，使用线性回归模型来对获取的9个pad参数值进行不同时间不同模态的融合预测，使用线性回归器进行融合：

pn＝μ1·p1+μ2·p2+μ3·p3公式1

an＝θ1·a1+θ2·a2+θ3·a3公式2

dn＝σ1·d1+σ2·d2+σ3·d3公式3

所述决策层融合模块，用于使用一次线性回归模型，将非语言信息和语言信息进行最终的融合，公式如下：

p融合＝μ4·p非语音+μ5·p语音公式4

a融合＝θ4·a非语音+θ5·a语音公式5

d融合＝σ4·d非语音+σ5·d语音公式6

下面结合一具体实施例对本发明做进一步说明：

本发明通过获取用户的多模态信息，包括非语言信息与语言信息，使用pad模型、occ模型，将多模态信息映射到pad空间上，利用线性回归模型分别对语言信息和非语言信息进行融合之后，再次使用模型进行最终融合，即最终的决策层融合。

本发明的主要技术路线为：

1、通过交互设备实时捕捉与机器人交互的人的语言类信息以及非语言类信息包括面部表情、头眼关注、手势、文本、语音语速等；

2、构建不同信息的处理通道，对每个模态的信息进行特征分类与识别；例如，针对非语言信息，完成对面部表情、头部运动、眼部关注以及兴趣物的识别、身体姿势以及手势的识别。对语言信息，完成自然语言处理，并输出对应的句子成分与语音特征。

3、对多模态信息进行处理，通过pad模型(pleasure-arousal-dominance模型)与occ模型(ortony、clore、和collins模型)将信息映射到pad空间上。pad三个维度，可以解释情感量表中的大部分情感，并且三个维度不限于描述情感的主观体验，它与情感的外部表现、生理唤醒都具有较好的映射关系；例如对面部表情的计算：将用户表情与美国心理学家ekman和friesen通过充分的测试实验所得的基本表情类别相对应，基本表情类别在pad三维情感空间中与pad值对应；在pad三维情感空间(p-pleasure、a-arousal、d-dominance)中愉悦度代表个体情感状态的正负特性，激活度代表个体的神经生理激活水平，优势度代表个体对情景和他人的控制状态。如果pad值距离中心点越远，离散点的强度越高，乐趣和唤醒维度也越高，进而能得出用户当前面部表情对应的pad参数值。

4、对各模态的信息在决策层融合时进行时序对齐，进行基于时序的情感维度空间的计算，具体如下：

对非语言部分信息，我们将获取的9个pad参数值使用线性回归模型来进行不同时间不同模态的融合预测，使用线性回归器进行融合：

pn＝μ1·p1+μ2·p2+μ3·p3公式1

an＝θ1·a1+θ2·a2+θ3·a3公式2

dn＝σ1·d1+σ2·d2+σ3·d3公式3

其中p1，p2，p3；a1，a2，a3；d1，d2，d3分别为面部、手势、眼部关注度三个模块的pad参数值，pn，an，dn为融合后非语言部分的pad参数值。μ1，μ2，μ3分别为愉悦度线性方程中的常量，θ1，θ2，θ3分别为激活度线性方程中的常量，σ1，σ2，σ3分别为控制度线性方程中的常量。最后再使用一次线性回归模型，将非语言信息和语言信息进行最终的融合，公式如下：

p融合＝μ4·p非语音+μ5·p语音公式4

a融合＝θ4·a非语音+θ5·a语音公式5

d融合＝σ4·d非语音+σ5·d语音公式6

为了在人机交互过程中，机器人能够获取用户表情，手势，眼睛关注度，语言等信息，能够理解多模态交互信息，使机器人能够进行情感计算，适应交互需求，本发明提供的上述基于pad、occ模型的情感计算框架，并采用线性回归对多模态信息进行融合计算，提供更为准确的情感计算方式；使得机器人更好的识别用户情感，更好地理解了说话者的意图，使得机器人更加人性化。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：佘莹莹;陈锦;舒杨
技术所有人：厦门大学
我是此专利的发明人

上一篇：一种拉伸变色涤棉氨纶混纺针织面料的制作方法与流程
上一篇：电机刷握的次品分选设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。