一种基于多尺度时序建模的维度情感识别方法

文档序号:6632480阅读:194来源:国知局
一种基于多尺度时序建模的维度情感识别方法
【专利摘要】本发明公开了一种基于多尺度时序建模的维度情感识别方法,该方法包括以下步骤:对于视频序列中的每帧图像进行人脸检测及跟踪,并提取人脸关键点作为第一类组人脸特征;提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中像素的灰度值作为第二、三、四类组人脸特征;根据单位时间段t内多帧图像的四类组人脸特征进行维度情感初步预测;根据连续N个单位时间段t的情感初步预测结果用线性回归器进行时序及模态融合,输出视频序列的情感预测值。本发明方法对视频序列信号进行不同尺度的时序建模,实现了序列中每一时序单元的精确预测。本发明适用于视频中人脸信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。
【专利说明】一种基于多尺度时序建模的维度情感识别方法

【技术领域】
[0001] 本发明属于视频信号处理领域,具体涉及一种基于多尺度时序建模的维度情感识 别方法,并以此来提高连续维度的情感识别的精度。

【背景技术】
[0002] 近年来,国内外研究人员对连续维度情感识别进行了大量的研究工作,提出了许 多用于情感识别的有效方法。这些方法从处理策略上可以分为基于静态分类器的检测方法 和基于动态分类器的检测方法。基于静态分类器的检测方法,多利用支持向量机(SVM)、神 经网络、Boosting等,且这类分类器多为判别式模型。由于具有较强的区分能力,因此广泛 应用于情感状态识别领域,但这种方法忽略了连续维度情感中不同时刻情感相互联系的事 实,也即忽视了时序建模在分类模型中的关键作用。情感状态是一个逐渐变化的、平滑的过 程,有着很强的上下文相关性,充分考虑情感状态的时序信息将有助于分类精度的提升。基 于动态分类器的检测方法大多采用基于隐马尔科夫(HMM)的分类模型,HMM在序列上下文 信息建模方面有着突出的优势,因而对于时间序列,能够较好的融合序列信号的上下文信 息,融合一定的情感历史信息。然而,HMM只能在单一时间尺度上进行时序建模,且时序建 模的范围有限,并不能完全反应情感时序信息在情感识别中的关键作用。
[0003] 本发明利用深度置信网络实现较小尺度的时序建模,同时利用线性回归进行多模 态及时序的同时融合,实现了较大尺度上的时序建模,进而依靠两级不同尺度上的时序建 模,实现了维度情感的精确预测。


【发明内容】

[0004] 为了解决上述现有技术中存在的连续语音序列的情感信息识别问题,本发明提出 了一种基于多尺度时序建模的维度情感识别方法。
[0005] 本发明提出的一种基于多尺度时序建模的维度情感识别方法,包括以下步骤:
[0006] 步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到 的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征;
[0007] 步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校 正,分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值 作为第二、三、四类组人脸特征;
[0008] 步骤3,分别提取单位时间段t内多帧图像的四类组人脸特征,并将提取得到的四 类组人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测,得到 单位时间段t内视频序列的情感初步预测结果;
[0009] 步骤4,根据所述步骤3提取连续N个单位时间段t内的四类组人脸特征并分别进 行情感初步预测,根据连续N个单位时间段t的情感初步预测结果训练得到情感预测线性 回归器,所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情 感预测值;
[0010] 步骤5,对于连续N个单位时间段t内的测试视频序列,根据所述步骤1-3,得到连 续N个单位时间段t内测试视频序列的情感初步预测结果,将得到的连续N个单位时间段t 内测试视频序列的情感初步预测结果输入至线性回归器进行时序及模态融合,得到每单位 时间段t内测试视频序列的情感预测值。
[0011] 本发明在视频序列中,采用多层时序建模,实现了两个不同实现粒度上的有效建 模,同时融合了多种视觉特征,最终达到了对连续维度情感的有效预测。

【专利附图】

【附图说明】
[0012] 图1是本发明基于多尺度时序建模的维度情感识别方法的流程图。
[0013] 图2是本发明步骤1的流程示意图。
[0014] 图3是本发明步骤2的流程示意图
[0015] 图4是本发明采用的具有时序池化层的深度置信网络的结构示意图。
[0016] 图5是本发明步骤5的流程不意图。

【具体实施方式】
[0017] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0018] 需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附 图中绘示或描述的实现方式,为所属【技术领域】中普通技术人员所知的形式。应该指出,所描 述的实例仅仅视为说明的目的,而不是对本发明的限制。
[0019] 图1是本发明基于多尺度时序建模的维度情感识别方法的流程图,如图1所示,所 述基于多尺度时序建模的维度情感识别方法包括以下步骤:
[0020] 步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到 的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征;
[0021] 如图2所示,所述步骤1中,首先对于视频序列中的第一帧图像进行人脸检测,得 到人脸检测结果(即人脸区域图像)后对于后续每帧图像进行人脸跟踪,跟踪时停止进行 人脸检测;但如果人脸跟踪失败,则需要对于当前帧重新进行人脸检测寻找人脸。在得到每 帧图像的人脸检测或跟踪结果(即人脸区域图像)后,提取得到每帧人脸区域图像对应的 人脸关键点,并将得到的人脸关键点作为第一类组人脸特征,用于描述人脸的形态及头部 运动信息。
[0022] 在本发明一实施例中,采用Haar特征及AdaBoost分类器进行人脸检测;采用均值 漂移算法进行人脸跟踪;由ASM特征点提取得到人脸的关键点,其中,所述人脸关键点包括 眼球点及眼角点、鼻唇中心点、嘴角点三部分。
[0023] 在本发明一实施例中,在所述步骤1得到人脸关键点之后,还对每帧人脸区域图 像的人脸关键点的坐标值进行归一化,即将每帧人脸区域图像的人脸关键点的坐标值减去 所有人脸关键点的坐标均值;之后采用主成分分析法对于所述人脸关键点的坐标值进行降 维,降维之后通过白化处理使所有特征具有单位方差,(以下简称白化处理),其中,降维后 数据的能量保持在降维前数据能量的90%。
[0024] 数据的白化处理是为了使降维后的所有特征都有相同的方差且特征之间的相关 性较低。具体做法为:求得降维后数据的每一维除以各自维度上的标准差,从而使降维后的 数据的每一维的方差为1。
[0025] 步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校 正,分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值 作为第二、三、四类组人脸特征;
[0026] 如图3所示,该步骤中,首先依次对于人脸区域图像进行人脸校正处理,具体包括 旋转校正、尺度缩放、灰度化和归一化,将所述人脸区域图像中所有像素的灰度值作为第二 类组人脸特征;然后分别在经过人脸校正后的人脸区域图像上,根据人脸关键点提取人脸 嘴部区域以及人脸眼睛区域,对于所述人脸嘴部区域和人脸眼睛区域进行大小归一化和灰 度归一化后,将所述人脸嘴部区域和人脸眼睛区域内所有像素的灰度值分别作为第三组和 第四类组人脸特征。
[0027] 具体地,所述步骤2进一步包括以下步骤:
[0028] 步骤21,根据所述人脸关键点中左、右眼睛眼角的关键点进行连线,得到眼角连线 与水平线之间的夹角,根据所述夹角对于所述人脸区域图像进行旋转,使所述夹角变为〇 度;
[0029] 步骤22,对于旋转后的人脸区域图像进行尺度缩放,使所述眼角连线的长度为M 个像素,其中,M可取为50-100 ;
[0030] 步骤23,根据左眼角关键点的位置对于经过尺度缩放的人脸区域图像进行裁剪, 以使得到的人脸区域图像达到第一预定大小;
[0031] 在本发明一实施例中,所述第一预定大小为2MX2M,且左眼角关键点的位置为横纵 坐标分别为〇. 8M和0. 6M。
[0032] 步骤24,对于裁剪得到的人脸区域图像进行灰度化,并将所述人脸区域图像中每 个像素的灰度值减去所述人脸区域图像的像素灰度值均值,并对于归一化后的人脸区域图 像的像素灰度值进行主成分分析降维和白化处理,降维后的特征能量保持在降维前特征总 能量的80%,将降维后的人脸区域图像的所有像素灰度值作为第二类组人脸特征;
[0033] 步骤25,根据嘴部关键点的位置,从归一化后的人脸区域图像中提取得到人脸嘴 部区域图像,并将所述人脸嘴部区域图像归一化至第二预定大小,在本发明一实施例中,所 述第二预定大小为〇. 9MxO. 6M;对于归一化后的人脸嘴部区域图像进行灰度化,将其中每 个像素的灰度值减去整幅人脸嘴部区域图像像素的灰度值均值,并进行主成分分析降维和 白化处理,降维后的特征能量保持在降维前特征总能量的80%,将降维后的人脸嘴部区域 图像的所有像素灰度值作为第三类组人脸特征;
[0034] 步骤26,根据眼睛关键点的位置,从归一化后的人脸区域图像中提取得到人脸眼 睛区域图像,并将所述人脸眼睛区域图像归一化至第三预定大小,在本发明一实施例中,所 述第三预定大小为I. 6MxO. 4M;对于归一化后的人脸眼睛区域图像进行灰度化,将其中每 个像素的灰度值减去整幅人脸眼睛区域图像像素的灰度值均值,并进行主成分分析降维和 白化处理,降维后的特征能量保持在降维前特征总能量的80%,将降维后的人脸眼睛区域 图像的所有像素灰度值作为第四类组人脸特征。
[0035] 这样,对于每帧人脸区域图像,均能够得到四类组人脸特征。
[0036] 步骤3,分别提取单位时间段t内多帧图像的四类组人脸特征,其中,单位时间段t 可取为1?3秒,并将提取得到的四类组人脸特征分别输入到具有时序池化层的深度置信 网络中进行维度情感初步预测,得到单位时间段t内视频序列的情感初步预测结果;
[0037] 如图4所示,所述具有时序池化层的深度置信网络结构包括四层:一个输入层,一 个隐藏层,一个时序池化层和一个线性回归层。其中,所述深度置信网络的激活函数统一采 用sigmoid函数:
[0038]

【权利要求】
1. 一种基于多尺度时序建模的维度情感识别方法,其特征在于,该方法包括以下步 骤: 步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到的人 脸区域图像提取对应的人脸关键点作为第一类组人脸特征; 步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校正, 分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值作为 第二、三、四类组人脸特征; 步骤3,分别提取单位时间段t内多帧图像的四类组人脸特征,并将提取得到的四类组 人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测,得到单位 时间段t内视频序列的情感初步预测结果; 步骤4,根据所述步骤3提取连续N个单位时间段t内的四类组人脸特征并分别进行情 感初步预测,根据连续N个单位时间段t的情感初步预测结果训练得到情感预测线性回归 器,所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情感预 测值; 步骤5,对于连续N个单位时间段t内的测试视频序列,根据所述步骤1-3,得到连续N 个单位时间段t内测试视频序列的情感初步预测结果,将得到的连续N个单位时间段t内 测试视频序列的情感初步预测结果输入至线性回归器进行时序及模态融合,得到每单位时 间段t内测试视频序列的情感预测值。
2. 根据权利要求1所述的方法,其特征在于,所述步骤1中,首先对于视频序列中的第 一帧图像进行人脸检测,得到人脸区域图像后对于后续每帧图像进行人脸跟踪,跟踪时停 止进行人脸检测;但如果人脸跟踪失败,则对于当前帧重新进行人脸检测寻找人脸。
3. 根据权利要求1所述的方法,其特征在于,所述步骤1中,采用Haar特征及AdaBoost 分类器进行人脸检测;采用均值漂移算法进行人脸跟踪;根据ASM特征点提取得到人脸的 关键点。
4. 根据权利要求1所述的方法,其特征在于,所述人脸关键点包括眼球点及眼角点、鼻 唇中心点、嘴角点。
5. 根据权利要求1所述的方法,其特征在于,在所述步骤1得到人脸关键点之后,还对 每帧人脸区域图像的人脸关键点的坐标值进行归一化,之后采用主成分分析法对于所述人 脸关键点的坐标值进行降维,降维之后通过白化处理使所有特征具有单位方差并去相关。
6. 根据权利要求1所述的方法,其特征在于,具体地,所述步骤2进一步包括以下步 骤: 步骤21,根据所述人脸关键点中左、右眼睛眼角的关键点进行连线,得到眼角连线与水 平线之间的夹角,根据所述夹角对于所述人脸区域图像进行旋转,使所述夹角变为〇度; 步骤22,对于旋转后的人脸区域图像进行尺度缩放,使所述眼角连线的长度为M个像 素; 步骤23,根据左眼角关键点的位置对于经过尺度缩放的人脸区域图像进行裁剪,以使 得到的人脸区域图像达到第一预定大小; 步骤24,对于裁剪得到的人脸区域图像进行灰度化和归一化,并对于归一化后的人脸 区域图像的像素灰度值进行主成分分析降维和白化处理,将得到的人脸区域图像的所有像 素灰度值作为第二类组人脸特征; 步骤25,根据嘴部关键点的位置,从归一化后的人脸区域图像中提取得到人脸嘴部区 域图像,并将所述人脸嘴部区域图像归一化至第二预定大小,对于归一化后的人脸嘴部区 域图像进行灰度化和归一化,并进行主成分分析降维和白化处理,将降维后的人脸嘴部区 域图像的所有像素灰度值作为第三类组人脸特征; 步骤26,根据眼睛关键点的位置,从归一化后的人脸区域图像中提取得到人脸眼睛区 域图像,并将所述人脸眼睛区域图像归一化至第三预定大小,对于归一化后的人脸眼睛区 域图像进行灰度化和归一化,并进行主成分分析降维和白化处理,将降维后的人脸眼睛区 域图像的所有像素灰度值作为第四类组人脸特征。
7. 根据权利要求1所述的方法,其特征在于,所述具有时序池化层的深度置信网络结 构包括:一个输入层,一个隐藏层,一个时序池化层和一个线性回归层。
8. 根据权利要求7所述的方法,其特征在于,所述时序池化层抽取各个人脸特征值在 单位时间段t内的最大值、最小值、均值、方差,作为新的特征输入到线性回归层。
9. 根据权利要求7所述的方法,其特征在于,所述线性回归层的结点个数为3,分别对 应PAD三个维度:愉悦度、激活度和优势度。
10. 根据权利要求1所述的方法,其特征在于,所述线性回归器和深度置信网络均采用 随机梯度下降法训练完成,采用最小均方误差函数为损失函数。
【文档编号】G06K9/00GK104361316SQ201410601169
【公开日】2015年2月18日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】陶建华, 巢林林, 杨明浩 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1