一种基于多模态情感识别的虚拟学习环境自然交互方法与流程

文档序号:12801070阅读:306来源:国知局

本发明涉及情感识别、多模态、人机交互技术、虚拟现实、教育等领域,具体涉及一种基于多模态情感识别的虚拟学习环境自然交互方法。



背景技术:

虚拟学习环境是虚拟现实技术与课堂教学的有机结合,通过在虚拟环境中构建课堂教学场景、授课策略、教学内容等,可以打破时间、空间、教学资源的限制,让学生“身临其境”地体验各种教学实验实践过程,加强对各种原理、概念、方法的理解,提升学生的学习兴趣和效果。

虚拟学习环境的建立是一项集成性的、综合性技术,涉及到虚拟现实、机器学习、情感设计、人机交互等多方面的内容,通过计算机生成一个完全逼真的,集视、听、触、情等多种感知的虚拟课堂环境,使学习者有效融人学习场景,给予学习者自然、真实感受的同时,更能从数字化虚拟空间自由获得丰富、准确的信息与知识。这种学习环境非常重视学习者的情感体验,强调为学习者提供符合其特点与需求的实时、互动课程,并重视学习效果以及学习方法的建议与反馈。

情感信息对人们的行为决策具有重大影响,这使得情感计算在虚拟学习环境及人机交互中占有极其重要的作用,直接影响学习环境的沉浸感,决定着虚拟学习环境的实用性和学习效果。人的情感表达一般有语音、面部表情、姿势、文本等多种模态。人脸表情包含了的一定的情感信息,它是人类情感表达的主要方式。语音除了传达了语言信息,同时也可能包含情感信息,如说话声音的快慢与高低。姿势也是情感表达的重要方式,一般情况下,人们会用点头、摇头、挥手等肢体动作来传递情感。随着计算机技术的发展,人脸表情识别、语音交互、姿势识别等单模人机交互方式已经取得了不错的成果。然而在虚拟学习环境中,仅凭人的表情,语音或者姿势等信息难以准确传达人们的真实情感。因此融合语音、表情、姿势的多模态人机交互技术,对虚拟学习环境的构建具有十分重要的意义。通过多模态的情感交互技术,计算机通过传感器来获取学习者的语音、面部表情、姿势动作等多种信息,来观测人的情感变化,理解学习者的学习状态,实时改变教学策略与方法,进而驱动学习者调整学习状态与兴趣。

多模态情感交互利用了每种模态的特性,同时使各种模态相辅相成,大大提高了人机交互的准确性,还使得人机交互变得更加自然、高效。一般认为生气、高兴、伤心、害怕、厌恶、惊奇、中性是人类的七种基本情感。这是情感识别中最常用的分类标准,虚拟学习环境中多模态情感识别主要也是对这七种情感来进行分类。

常用的多模态融合技术有两种类型,分别是特征层融合和决策层融合。特征层融合就是先提取各个模态的特征,再将这些特征创建成一个总的特征向量用于情感识别。决策层融合就是提取各个模态特征后,将其分别输入其各自的分类器,再使用某种规则和方法,将各个分类器的结果进行融合决策,得到融合后的情感信息。

显然,传统基于鼠标、键盘的人机交互方式,严重制约了虚拟学习环境的实用性与真实感,难以满足虚拟学习环境中情感交互需求。2011年,微软公司开发的集图像识别、视频捕捉、语音控制等多种技术于一体的体感器kinect,实现了用户不需要借助任何手持设备,即可与计算机进行自然交互,大幅降低了操作成本,为实现自然人机交互提供了一种有效方法。当前情感计算、人机交互技术已引起世界各国的高度重视,国内外研究者对人脸表情识别、姿势识别、语音识别等单模态情感识别进行了广泛的研究。一些研究者基于穿戴视觉的指示和图标以及语音命令实现双模态人机交互,但很大程度上制约了人机交互的自由性和灵活性。然而,到目前为止,一些公开发表的论文和专利大多着重于单模态情感计算、双模态情感识别及其人机交互应用。在虚拟学习环境中,仅凭人的表情,语音或者姿势等单模态情感识别信息难以准确传达学生的真实情感。而对于如何构建基于表情、语音、姿势的多模态情感识别方法及其虚拟学习环境的自然交互方式目前国内外尚缺少有效研究,尚没有关于该方面的专利申请。所以我们提出了一种基于多模态情感识别的虚拟学习环境自然交互方法,创新性提出一种在虚拟学习环境中融合语音、面部表情、姿势等多模态情感信息,识别学生的学习状态,实时调整虚拟教师的授课策略与行为表达,驱动学习者调整学习状态与兴趣,提高虚拟学习环境的交互实时性与自然性,极大的提高学习效果。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种提高了准确性、高效性和自然性的基于多模态情感识别的虚拟学习环境自然交互方法。本发明的技术方案如下:

一种基于多模态情感识别的虚拟学习环境自然交互方法,其包括以下步骤:

101、获取表征学生表情、语音信息和姿态的彩色图像、深度图像、语音信号和骨骼信息的多模态情感特征;

102、首先对彩色图像和深度图像进行分类人脸检测、预处理和特征提取,用支持向量机svm和adaboost方法混合进行人脸表情识别;

其次对语音情感信息进行预处理和情感特征的提取,利用隐马尔可夫模型对语音情感进行识别;

然后对骨骼信息进行规则化处理得到人体姿势表示向量,用多类支持向量机svm进行姿势情感分类识别;

103、对步骤102的人脸表情识别结果、语音情感识别结果、姿势感情识别结果采用求积规则融合算法在决策层进行融合,根据融合结果来驱动虚拟学习环境中虚拟教师决策模块,选择相应教学策略和行为动作,生成虚拟智能体的表情、语音和姿势在内的情感表现,

进一步的,所述步骤102对彩色图像和深度图像进行人脸检测包括:将所获取的彩色和深度信息通过kinect中的基于harr特征的boosted级联分类器去区分图像区域中的人脸部分和非人脸部分以进行人脸检测。

进一步的,所述对分类人脸检测后的图像进行预处理和特征提取,包括步骤:

对图像进行预处理包括归一化、灰度图转化和直方图均衡化,对预处理后图像分别用gabor小波特征提取方法对彩色图像进行特征提取和用基于深度值统计分布的方法对深度图像进行特征提取;从彩色图中提取出的特征和从对应深度图中提取出的特征拼接在一起,则形成该表情图像的人脸表情特征,还采用pca方法对其进行特征降维。

进一步的,所述得到人脸表情特征后用支持向量机svm和adaboost方法混合进行人脸表情训练、分类和识别,核函数选择径向基函数rbf:

k(x,y)=exp(-γ||x-y||2),γ表示核参数,x表示样本,y表示样本标签值;然后用一对一方法进行构造多类分类器,对n个类别构建n(n-1)/2个分类器,通过投票的方法进行分类判断,再对脸部表情进行训练和识别;利用adaboost训练方法加强svm分类器的分类能力,首先归一化各个svm分类器的权重,对每个分类器计算错误率;若分类错误,更新权重,错误率小的分类器被赋以较小的权值,错误率高的分类器被赋予较大的权值。

进一步的,所述步骤102中语音情感信息进行预处理包括以下步骤:

对语音信号进行预加重、分帧和加窗三种预处理,预加重选用预加重数字滤波器进行处理,分帧通过用可移动有限长度窗口进行加权实现,加窗语音信号sw(n)通过窗函数s(n)和语音信号w(n)相乘得到。

进一步的,对经过预加重、分帧和加窗预处理后的语音信号进行特提取包括:选取了语速、基频特征、能量特征、mfcc特征、共振峰特征进行提取,这些特征融合了声音韵律、声音质量和基于谱的相关特征。

进一步的,步骤102中骨骼信息是通过骨骼追踪技术从深度图分离得到,获取骨骼信息后进行关节点数据规则化处理,用关节点数据构造人体结构向量,以结构向量之间的角度作为主要信息,再选取部分向量之间的模比值作为辅助信息来完成关节点的规则化处理。

进一步的,所述对姿势向量的特征采用支持向量机svm的方法进行训练、分类和识别,核函数选择高斯核函数:

然后用一对一方法进行构造多类分类器,对n个类别构建n(n-1)/2个分类器,通过投票的方法进行分类判断,再对姿势向量的特征进行训练和识别。

进一步的,步骤103对人脸表情识别结果、语音情感识别结果、姿势感情识别结果通过求积规则算法进行融合,得出的最终识别结果即为所识别出的情感状态,人脸表情的识别结果p(mj|s),语音情感的识别结果为p(mj|i),而姿势识别结果为p(mj|w),求积规则算法:

对于每一种情感状态,将人脸表情结果、语音情感识别结果和姿势识别结果做乘积,得出结果pj,即将融合结果归属为j情感状态的概率,选取p1,p2…,p7中结果的最大值,其所对应的情感状态即为融合人脸表情、语音情感识别和姿势识别的多模态识别结果。

本发明的优点及有益效果如下:

1.本发明根据人机交互技术,首次提出一种基于多模态情感识别的虚拟学习环境自然交互方法。采用多模态融合技术,突破了单一模态特征的限制,融合了面部表情,语音和姿势三种模态的特征信息,比现有的双模态人机交互方式更加具有准确性、高效性和自然性。

2.提出了虚拟学习环境的构建方法。构建教师和学生模型,通过多模态情感表现算法,生成虚拟教师的教学策略与行为动作,识别学生的学习状态,实时调整虚拟教师的授课策略与行为表达,生成虚拟智能体的表情、语音和姿势等情感表现,驱动学习者调整学习状态与兴趣,重点考虑老师在课堂上的行为、情感、教学方式以及和学生之间的交互行为特征;虚拟学习环境打破了传统学习环境的各种限制因素,是通过计算机和体感技术形成的新型学习方式,具有较高的实用性与趣味性。

3.构建的虚拟学习环境的交互方式为自然人机交互,通过体感设备kinect对人的多模态情感信息获取来构建虚拟学习环境系统,达到可以生成一个完全逼真的,集视、听、触、情等多种感知的虚拟环境,打破了传统的鼠标、键盘的交互方式,使得人机交互具有自然性、直观性、沉浸性和高效性;并且有良好的运动识别、用户体验和交互体验,并同时面向虚拟教学领域,进而将学习课堂从传统的书本教条式的抽象被动型学习方式成功的转变为虚实结合式的具体主动型学习方式。

4.基于多模态情感识别技术,实现虚拟学习环境自然交互的构建,极大地丰富了虚拟学习环境的内容,也使所构建的虚拟学习环境具有较好智能性、可重构性、可扩展性等特性,有利于应用系统的开发、维护与扩展,极大地增强了虚拟学习环境的实用价值。

附图说明

图1是本发明提供优选实施例基于多模态情感识别的虚拟学习环境自然交互流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

图1是本发明所提出的基于多模态情感识别的虚拟学习环境自然交互流程图,一种基于多模态情感识别的虚拟学习环境自然交互,其主要任务是通过对面部表情、语音和姿势三种情感进行提取特征、分类和识别,然后将三种情感识别结果通过求积规则算法进行融合,把融合结果来驱动虚拟学习环境中虚拟教师决策模块,选择相应教学策略和行为动作,生成虚拟智能体的表情、语音和姿势等情感表现于虚拟学习环境。具体实施方式如下所述:

步骤1:获取表征学生表情、语音和姿态的彩色图像信息、深度信息、语音信号及骨骼信息。

步骤101:本发明提出利用多个kinect设备结合来获取现实场景和使用者的彩色图像信息、深度信息、语音信息和骨骼信息,是一种在时空上以“小”到“大”的扩展和革新。

步骤2:选取步骤1的深度和彩色信息图像来对人脸表情情感进行识别。

步骤201:从深度图和彩色图中用kinect中的基于harr特征的boosted级联分类器去区分图像区域中的人脸部分和非人脸部分以进行人脸检测,kinect可返回三维表示的面部的128个点集合并将这些点映射到图像上。

步骤202:将步骤201得到的面部表情图像进行预处理包括归一化、灰度图转化和直方图均衡化。将脸部图像进行归一化,全部归一化为128×128像素的图像,然后将彩色图像转化为灰度图像。

再用直方图均衡化进行处理来增强面部表情图像的对比度,采用直方图均衡化的映射函数如以下:

其中,s表示原图像中的灰度级,r表示将原始图像中的灰度级映射到另一个灰度级,表示图像中灰度级rk出现的概率。

步骤203:将步骤202处理的彩色图像用基于labor函数的二维labor滤波器在频域不同方向、不同尺度上进行相关特征的提取;然后对深度图利用深度值频率分布做特征提取。二维gabor小波变换核函数:

其中,是高斯包络函数,z=(x,y)表示图像的坐标,μ为gabor滤波器的方向,ν为尺度,ku,v代表滤波器的中心频率,其中表示变换频率,φu∈[0,π)表示变换方向,ku,v可以通过取不同的μ、ν值从不同方向和尺度来描述gabor小波。

步骤204:将从彩色图像中提取出的特征和从对应深度图中提取出的特征拼接在一起,则形成该表情图像的特征。由于提取出的特征维度太高,即需要采用主成分分析法pca对其进行特征降维。

步骤205:对人脸表情的特征采用支持向量机(svm)的方法进行训练、分类和识别。核函数选择径向基函数rbf:

k(x,y)=exp(-γ||x-y||2)(3)

然后用一对一方法进行构造多类分类器,对n个类别构建n(n-1)/2个分类器,通过投票的方法进行分类判断,再对脸部表情进行训练和识别。

利用adaboost训练方法加强svm分类器的分类能力。首先归一化各个svm分类器的权重,对每个分类器计算错误率;若分类错误,更新权重,错误率小的分类器被赋以较小的权值,错误率高的分类器被赋予较大的权值,从而提升了分类器的分类能力,进而使得识别率得到有效的提高。

步骤3:选取步骤1的语音信号信息来进行语音情感识别。

步骤301:对语音信号进行预加重、分帧和加窗三种预处理,为语音信号进行特征提取做好准备工作;预加重选用预加重数字滤波器进行处理,预加重数字滤波器的z传递函数为:

h(z)=1-μz-1

(4)

其中,μ是预加重系数,值为常量,在本发明中取μ=0.95

分帧通过用可移动有限长度窗口进行加权实现的,加窗语音信号sw(n)通过窗函数s(n)和语音信号w(n)相乘得到,如公式(5)所示:

sw(n)=s(n)·w(n)(5)

因对语音信号进行分帧过程中需要加窗,加窗函数选择为汉明窗函数。

步骤302:本发明选取了语速、基频特征、能量特征、mfcc特征、共振峰特征进行提取,这些特征融合了声音韵律、声音质量和基于谱的相关特征,进行语音情感识别会获得更多的语音情感信息,可提高识别性能。

步骤303:选取隐马尔可夫模型hmm来对语音情感的分类及识别,选取模型的高斯混合数确定为7,因本发明中的情感语料数据库中有7种情感状态,针对每种情感训练hmm模型可记为χi(i=1,2,…,7),选取p(o|χi)最大值所对应的情感为语音情感所属类别。

步骤4:选取步骤1的姿势情感信息来进行姿势情感识别。

步骤401:通过骨骼追踪技术从深度图分离得到骨骼信息,获取骨骼信息后进行关节点数据规则化处理,本发明以达·芬奇的“维特鲁威人”为人体结构特征基础,用关节点数据构造人体结构向量,以结构向量之间的角度作为主要信息,再选取部分向量之间的模比值作为辅助信息来完成关节点的规则化处理。

步骤402:本发明对人体结构向量进行统一命名,两个关节点名称以起点在前,终点在后的方式命名人体结构向量,如由右肩和右肘组成的结构向量可称为右肩-右肘。其它向量命名方式一样。

步骤403:根据人体骨骼关节点的变化趋势是一致的,人体结构向量之间的夹角在人体运动过程中的变化大小基本一样,因此可以选择向量间的角度作为关节点规则化处理后的数据。向量角的命名参考人体结构向量的命名方式,比如向量颈部-左肩与向量左肩-左肘的夹角,角度命名为颈部-左肩-左肘,其他角度信息的命名一样。

步骤404:根据骨骼数据点经过步骤402和403规则化处理后具有缩放不变性和平移性,因而对于人体姿势表示向量p,可以使用该时间点上计算得到的向量角和模比值的组合来直接表示。本发明是一个24维的人体姿势表示向量。

步骤405:对姿势向量的特征采用支持向量机(svm)的方法进行训练、分类和识别。核函数选择高斯核函数:

然后用一对一方法进行构造多类分类器,对n个类别构建n(n-1)/2个分类器,通过投票的方法进行分类判断,再对姿势向量的特征进行训练和识别。

步骤5:将步骤2、3和4的识别结果通过求积规则算法进行融合,得出的最终识别结果即为所识别出的情感状态。人脸表情的识别结果,语7音)情感的识别结果为p(mj|i)(j=1,2,…,7),而姿势识别结果为p(mj|w)(j=1,2,…,7)。求积规则算法:

对于每一种情感状态,将人脸表情结果、语音情感识别结果和姿势识别结果做乘积,得出结果pj,即将融合结果归属为j情感状态的概率,选取p1,p2…,p7中结果的最大值,其所对应的情感状态即为融合人脸表情、语音情感识别和姿势识别的多模态识别结果。

步骤6:以自动虚拟教师和学生为应用对象进行虚拟学习环境的交互,将步骤5的融合算法处理结果来驱动虚拟教师决策模块。通过多模态情感表现算法,生成虚拟教师的教学策略与行为动作,识别学生的学习状态,实时调整虚拟教师的授课策略与行为表达,生成虚拟智能体的表情、语音和姿势等情感表现,驱动学习者调整学习状态与兴趣,提高虚拟学习环境的交互实时性与自然性,实现与虚拟学习环境的多模态自然交互,增强虚拟学习环境的实用性,极大的提高学习效果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1