一种融合脸部表情和语音的驾驶员情感实时识别方法与流程

文档序号：14720434发布日期：2018-06-17 13:16阅读：来源：国知局

技术特征：

1.一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，包括如下步骤：

步骤1，获取驾驶员脸部图像和语音信号；所述的脸部图像包括RGB图像和Depth图像；所述的语音信号包括声学信号和说话内容；

步骤2，对驾驶员脸部图像和语音信号进行预处理；

步骤3，基于无监督特征学习和稀疏编码进行特征提取模型的训练；基于说话内容创建单词词典；

步骤4，将步骤2预处理得到的图像、声学信号串接，串接后输入到步骤3训练好的特征提取模型中，得到基于脸部图像和声音信号的情感特征V1；通过查找步骤3中创建的词典得到基于文本的情感特征D；将V1和D串联在一起构建基于驾驶员情感的特征向量F，进行SVM训练，得到SVM模形；

步骤5，驾驶员情感实时识别，包括：获取驾驶员脸部图像和语音信号，利用步骤2预处理的方法进行预处理，然后按照步骤3的方法将脸部图像、声学信号和说话内容进行特征提取，将提取的特征串联后输入到步骤4得到的SVM模型，输出待识别的驾驶员的情感类别。

2.根据权利要求1所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，步骤1和步骤5中所述的获取驾驶员脸部图像和语音信号的实现方法为：通过kinectSDK实时跟踪人脸，同时获取并保存反映驾驶员积极情感或消极情感的脸部图像和语音信号。

3.根据权利要求1所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，步骤2中对所述脸部图像的预处理方法包括：

步骤2.1.1，将RGB图像和Depth图像灰度化生成灰度图像，再对灰度图像大小归一化为40*40；

步骤2.1.2，将灰度化、归一化的RGB图像和Depth图像按照比例相加；

步骤2.1.3，对步骤2.1.2按比例相加后的图像进行均值滤波，得到驾驶员脸部RGB+D的图像X。

4.根据权利要求3所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，步骤2.1.2中所述的按照比例相加具体实现方法为：按照像素大小3:7的比例相加，其中RGB图像占比为3，Depth图像占比为7。

5.根据权利要求1所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特\t征在于，步骤2中对所述语音信号的预处理方法包括：

对声学信号进行预处理；包括高通滤波、分帧、加汉明窗；

对说话内容进行预处理；包括：将一整句说话内容拆分成独立的单词。

6.根据权利要求1所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，步骤3中所述的特征提取模型训练的方法为：将无监督特征学习和稀疏编码串联在一起，按照模型训练算法进行模型参数估计；具体实现方法包括：

步骤3.1.1，首先随机选取无监督学习的权值、稀疏字典和稀疏系数，将步骤2中预处理后的脸部图像和声学信号作为无监督特征学习的输入，无监督特征学习的输出作为稀疏编码的输入，得到稀疏编码的输出；

步骤3.1.2，计算重构误差进行调节权重和稀疏字典，重复步骤3.1.1进行迭代计算，达到迭代次数或目标函数得到最小值时，停止训练，得到模型参数，进而得到驾驶员脸部图像和声学信号的特征提取模型。

7.根据权利要求6所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，所述模型训练算法采用EM算法原理。

8.根据权利要求1所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，步骤3中所述利用说话内容创建单词词典的实现方法包括：利用Apriori算法提取频繁项，利用所述频繁项创建词典。

9.根据权利要求8所述的一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，创建词典的具体实现方法包括：通过人工标定单词的词性，积极词性的单词标记为1，消极词性的单词标记为-1，没有出现在频繁项的单词标记为0，创建单词的词典。

完整全部详细技术资料下载

当前第2页1 2 3