对人体面部微笑表情深度卷积神经网络的检测方法_2

文档序号：9844388阅读：来源：国知局

R为彩色图像的红色分量，G为彩色图像的绿色分量，B为彩色图像的蓝色分量。
[0051] 10000幅嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标x，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用(2)式计算五个关键点到中心点的欧式距离：
[0052] di=((xi-x)2+(yi-y)2)0·5 (2)
[0053] 式中i = l，2,3,4,5,分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点，cU分别为五个关键点到中心点的欧式距离，Xl分别为五个关键点的横坐标， yi分别为五个关键点的纵坐标。用(3)式计算上述五个距离的最大距离：
[0054] D=max(di，d2，d3，d4，d5) (3)
[0055] 以（（x_0.75D)，y)为左上角，裁剪成宽为1.?、高为1.7D的矩形，得到嘴巴子图。
[0056] 10000幅嘴巴子图大小归一化:将上述嘴巴子图用双三次插值法归一化为32X32 的图像，像素总个数为322。
[0057] 对10000幅嘴巴子图进行亮度调节:采用自适应亮度调节法，用（4)式计算32 X 32 嘴巴子图的直方图h(x)累加和与像素总个数的比值cdf(x):
[0058]
(4)
[0059] 式中xe [0,255]，在cdf (X)中寻找第一个大于0.01的索引值i low和第一个大于 0.99的索引值ihigh。
[0000]用（5)式得到亮度范围[low,high]:
[0061] low= (i low-1 )/255, high = (ihigh-1 )/255 (5)
[0062] 用(6)式计算调节后的亮度值J
[0063] J= (tmp-low)/(high-low) (6)
[0064] 式中1^=11^(1〇￥，111；[11(11丨811，1))，1为灰度化后的亮度，得到10000幅32\32标准嘴巴图像。
[0065] 2、训练卷积神经网络
[0066]训练卷积神经网络的参数设定为：10000幅训练样本分批训练，每批图像50幅，学习步长设为〇. 8，最大迭代次数为200。
[0067] 将10000幅训练样本预处理后得到的10000幅32 X 32标准嘴巴图像输入卷积神经网络，经前向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数，得到卷积神经网络和10000幅训练样本的多尺度特征，多尺度特征的生成过程按照卷积神经网络进行具体设计。
[0068]本实施例的卷积神经网络的结构为:输入层是10000幅32X32的标准嘴巴图像;C1 层是第一个卷积层，有10个28 X 28的特征图，每个特征图中的1个像素点与输入层的1个5 X 5区域相连接，共(5X5+1 )X 10 = 260个训练参数;S2层是下2采样层，有10个14X14特征图，每个特征图中的1个像素点与C1层相应特征图的1个2X2区域相连接，共IX 10个偏置参数； C3层是第二个卷积层，有12个10X10的特征图，每个特征图中的1个像素点与S2层相应的1 个5 X 5区域相连接，共(5 X 5+1) X 10 X 12 = 3120个参数;S4层为第二个下2采样层，有12个5 X 5的特征图，共1 X 12个偏置参数;F5层是S4中12个5 X 5的特征图以列序为主序依次排列生成的1个300维的多尺度特征。输出层由2个结点1和0组成，F5层与输出层之间全连接，共 300 X 2 = 600个参数；该深度卷积神经网络共260+10+3120+12+600 = 4002个参数，通过前向传播和反向传播反复循环至达到设定的最大迭代次数，确定网络参数。这种网络结构一方面保存了更多的表情细节，另一方面降低了网络的复杂度，减少了运算量。
[0069] 本实施例的多尺度特征的生成过程为:将32 X 32的标准嘴巴图像输入到卷积神经网络的输入层中，经C1层、S2层、C3层和S4层的2次卷积和下2采样，得到12个5 X 5的特征图，以列序为主序依次排列生成的1个300维的多尺度特征。这种通过卷积神经网络自动提取的特征避免了人为选择特征的片面性和复杂性。
[0070] 3、训练支持向量机分类器
[0071 ]支持向量机的核函数选择径向基函数，其参数ga_a = 0.05。
[0072]把10000幅训练样本的多尺度特征输入支持向量机，支持向量机根据多尺度特征寻找最优分类超平面，得到支持向量机分类器，该分类器的输出是1或〇，1为微笑，〇为不微笑;10000幅样本图像的多尺度特征训练支持向量机的时间为30秒。
[0073] 测试步骤如下：
[0074] 1、对测试样本图像进行预处理
[0075] 2995幅测试样本图像的预处理与10000幅训练样本图像的预处理步骤相同。
[0076] 2、用预处理后的2995幅测试样本输入到卷积神经网络中，提取2995幅测试样本的多尺度特征；
[0077]从每个测试样本的C1层得到10个28X28的特征图，S2层得到10个14X14的特征图，C3层得到12个10 X 10的特征图，S4层得到12个5X5的特征图，F5层得到1个300维的多尺度特征。对2995幅样本图像特征提取时间为20秒。
[0078] 3、将2995幅测试样本图像的多尺度特征输入到支持向量机分类器中，得到检测结果，即是否微笑。2995幅测试样本图像的平均分类时间为2.3毫秒/每幅。
[0079] 本实施例中，从2995幅测试样本图像中选2幅测试样本图像结果，见图5、图6,图5 是非正面成像的测试样本人体面部微笑表情的检测结果，支持向量机分类器的输出为1，人体面部呈现微笑表情。图6是人体面部有胡须的测试样本微笑表情的检测结果，支持向量机分类器的输出为〇，人体面部呈现非微笑表情。
[0080] 实施例2
[0081] 本实施例的人脸图像来自多任务人脸标注(the Multi-Task Facial Landmark， MTFL)数据库。该库包括12995幅人脸图像，其中10000幅图像为训练样本，2995幅图像为测试样本。
[0082] 本实施例微笑表情深度卷积神经网络的检测方法由训练步骤和测试步骤组成，训练步骤如下：
[0083] 1、对10000幅训练样本图像进行预处理
[0084] 包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤；
[0085] 10000幅图像灰度化：用（7)式对被训练的样本图像进行灰度化处理，将彩色图像转为10000幅灰度图像：
[0086] I = (R+G+B)/3 (7)
[0087] 式中I为灰度化后的亮度，R为彩色图像的红色分量，G为彩色图像的绿色分量，B为彩色图像的蓝色分量。
[0088] 10000幅嘴巴子图定位：用五个关键点横坐标的平均值作为中心点的横坐标X，用五个关键点纵坐标的平均值作为中心点的纵坐标y，用(8)式计算五个关键点到中心点的曼哈顿距离：
[0089] di= | xi~x I +1 yi~y (8)
[0090] 式中i = l，2,3,4,5,分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点，cU分别为五个关键点到中心点的曼哈顿距离，Xl分别为五个关键点的横坐标， yi分别为五个关键点的纵坐标。
[0091] 用(9)式计算上述五个距离的平均距离：
[0092] D = (di+d2+d3+d4+d5) /5 (9)
[0093] 以（（x_0.76D)，y)为左上角，裁剪成宽为1.54D、高为1.74D的矩形，得到10000幅嘴巴子图。
[0094] 10000幅嘴巴子图大小归一化:将上述嘴巴子图用B样条插值法，归一化为32X32 的图像，像素总个数为322。也可用三次样条插值法，也可用等距插值法，也可用四次样条插值法，还可用拉格朗日插值法等，得到归一化为32X32的图像，像素总个数为322。
[0095] 对10000幅嘴巴子图进行亮度调节:采用分段线性拉伸法对10000幅嘴巴子图进行亮度调节，还可以用直方图均衡化算法对10000幅嘴巴子图进行亮度调节，得到10000幅32 X 32标准嘴巴图像。
[0096] 2、训练卷积神经网络
[0097] 训练卷积神经网络的参数设定为：10000幅训练样本分批训练，每批图像100幅，学习步长设为〇. 5，最大迭代次数为100。
[0098] 将10000幅训练样本预处理后得到的10000幅32 X 32标准嘴巴图像输入卷积神经网络，经前向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数，得到卷积神经网络和训练样本的多尺度特征，多尺度特征的生成过程按照卷积神经网络进行具体设计。
[0099] 本实施例的卷积神经网络的结构与实施例1相同，多尺

完整全部详细技术资料下载

当前第2页1 2 3