基于深度学习的人脸关键点对齐算法

文档序号:9911613阅读:516来源:国知局
基于深度学习的人脸关键点对齐算法
【技术领域】
[0001 ]本发明涉及一种人脸对齐或定位人脸语意关键点的方法。
【背景技术】
[0002] 人脸对齐或者定位人脸语义关键点,对于人脸识别,人脸表情识别,人脸绘制以及 3D人脸模拟等具有重要的意义。因此,近些年这一问题引起越来越多的关注。尤其是现在互 联网上个人照片爆炸式增长,急需全自动的高效的鲁棒的人脸对齐技术。

【发明内容】

[0003] 本发明要解决的技术问题是:在给定人脸上预测若干关键点坐标。
[0004] 为了解决上述技术问题,本发明的技术方案是提供了一种基于深度学习的人脸关 键点对齐算法,设人脸图像X有P个人脸标记点,S g(x)为输入是人脸图像X,以p个人脸标记 点标准坐标为输出的函数,包括以下步骤:
[0005] 建立卷积神经网络,该卷积神经网络学习非线性函数F(x),F(x)为输入是人脸图 像X,输出P个人脸标记点的坐标估计值的函数,利用样本集训练该卷积神经网络,使得F(x) 与3 8(1)两个函数输出间的欧式距离最小,其特征在于:
[0006] 所述卷积神经网络包括全局卷积神经网络和局部卷积神经网络,人脸图像输入全 局卷积神经网络后得到P个人脸标记点的坐标的中间估计值Si,以人脸标记点坐标中间估 计值Si上的p个人脸标记点的坐标中间估计值周围的局部图像为输入,输入局部卷积神经 网络后,得到P个人脸标记点的坐标准确值与坐标中间估计值之间的差值,从而得到人脸关 键点坐标差值△ S2,由局部卷积神经网络输出含有p个人脸标记点的坐标的最终估计值S2 = Si+ASs,所述卷积神经网络经样本集训练后得到的人脸关键点最终估计值&即为F(x)。
[0007] 优选地,所述全局卷积神经网络包括四个进行相同卷积和最大池化操作的卷积神 经子网络一,对同一人脸图像采样得到四种不同分辨率的采样人脸图像,将四幅采样人脸 图像输入四个卷积神经子网络一后,经过卷积和最大池化操作后,形成四个特征表示,学习 由这些特征表示到P个人脸标记点坐标的回归函数,得到含有P个人脸标记点的坐标中间估 计值Su
[0008] 优选地,所述卷积神经子网络一有10层。
[0009] 优选地,所述局部卷积神经网络包括四个进行相同卷积和最大池化操作的卷积神 经子网络二,对同一人脸关键点中间估计值31采样得到四种不同分辨率的采样图像,对每 个采样图像分别取采样图像上P个人脸标记点的坐标中间估计值周围的区域图像作为一个 卷积神经子网络二的输入,即每个卷积神经子网络二的输入为P幅区域图像,分别经过四个 卷积神经子网络二的计算后得到四个特征表示,学习由这些特征表示到P个人脸标记点的 回归函数,得到所述人脸关键点对齐差值A S2。
[0010] 优选地,所述卷积神经子网络二有6层。
[0011] 本发明提供的算法在XM2VTS,LFPW和HELEN三个公共数据集上与包括CFAN和SDM等 其它现有算法相比较,更为高效,鲁棒性更强。
【附图说明】
[0012] 图1为本发明中全局卷积神经网络的网络结构;
[0013] 图2为卷积神经子网络一的网络结构;
[0014] 图3为本发明中局部卷积神经网络的网络结构;
[0015]图4为卷积神经子网络二的网络结构;
[0016]图5为在XM2VTS数据集上,本发明方法与现有技术的对比图;
[0017]图6为在LFPW数据集上,本发明方法与现有技术的对比图;
[0018]图7为在HELEN数据集上,本发明方法与现有技术的对比图,图5至图7中,Our method表示本发明的方法;
[0019] 图8为本发明的效果图。
【具体实施方式】
[0020] 为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0021] 本发明需要解决在给定人脸上预测若干关键坐标点的问题。
[0022]现有一张长为m宽为η的人脸图像,图像像素用矩阵表示为XeRmXn,该人脸图像共 有P个人脸标记点,每个标记点坐标包括横坐标和纵坐标两个值,Sg(x)eR2P表示以该人脸 图像X为输入、以P个人脸标记点标准坐标为输出的函数。本发明提出的基于深度学习的人 脸关键点对齐算法的最终目标就是学习函数3 8(1)的近似函数F(x),使得F(x)尽可能接近Sg (X)。公式如下
f要找到最小化Sg(x)_F(x)的一个函数。而函数 F(x)-般为非线性函数。
[0023]本算法利用卷积神经网络学习非线性函数F(x)。算法一共分为两个阶段:全局卷 积神经网络和局部卷积神经网络。
[0024]第一阶段:全局卷积神经网络,以人脸图像X为输入,输出包含有68个人脸标记点 中间估计值Si。
[0025]结合图1及图2,本发明中的全局卷积神经网络的算法模型一共包含四个并行的卷 积神经子网络一,每个卷积神经子网络一共10层(共用一个输出层)。每个卷积神经子网络 一进行相同的卷积和最大池化操作,不同之处仅体现在输入图像的分辨率上。对于每个卷 积神经子网络一而言,第一层为输入层,四个子网络以四个不同分辨率的人脸图像X为输 入,分辨率分别为:48 X 48,78 X 78,96 X 96,128 X 128。第二层、第四层、第六层和第八层为 卷积层,分别采用大小为8 X 8,6 X 6,6 X 6和4 X 4的卷积核进行卷积操作,分别有60、100、 160和240个特征映射。第三层、第五层和第七层为最大池化层,都是采用大小为2X2的核进 行最大池化操作。第九层为全连接层,共1000个节点。第十层为输出层,共136个节点,每个 节点的值是68个人脸关键点的横纵坐标值的中间估计值。每层都是以上一层为输入,本层 输出为下一层的输入。
[0026]算法流程介绍:
[0027] 步骤1、现有一张任意大小的人脸图像X,采样得到48 X 48,78 X 78,96 X 96,128 X 128四种分辨率的人脸图像下标表示第一阶段,上标表示所属卷积神经子网络 一的序号;
[0028] 步骤2、人脸图像X丨作为第一个卷积神经子网络一的输入,依次进行第二层卷积 层、第三次最大池化层、第四层卷积层等直至第十层输出层的计算,并通过后向反馈调整参 数,最终得到第九层全连接层输出,记为特征表示.爽,上标表示子网络的序号,下标表示第 一阶段;
[0029] 步骤3、第二个卷积神经子网络一以人脸图像#为输入、第三个卷积神经子网络一 以人脸图像 < 为输入和第四个卷积神经子网络一以图像#为输入进行步骤2类似的操作, 得到第九层全连接层的特征表示
[0030] 步骤4、利用步和3中得到的四个卷积神经子网络一的特征表示爲5,学 习由这些特征表示到68个关键点坐标的回归函数& = gl (fC1),式中,gl (□)为回归函数,fCl 由來,兵2、私、和组成,Si为人脸关键点中间估计值,是全局神经网络的最
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1