面向人脸表情识别的迁移卷积神经网络方法与流程

文档序号：16934059发布日期：2019-02-22 20:32阅读：823来源：国知局

本发明涉及图像识别
技术领域：
，具体涉及一种面向人脸表情识别的迁移卷积神经网络方法。
背景技术：
：人脸表情识别是人机交互与情感计算研究中的重要组成部分。随着人工智能的发展和机器人制造体系的成熟，人机交互领域显现出巨大的市场和应用前景。传统的人脸表情识别研究方法主要基于几何特征，对人的眼睛、眉毛、嘴等位置变化特征进行表情识别。都需要人为设定特征，提取特征的信息量相当局限，准确率难以达到应用要求。随着高性能服务器的发展，以卷积神经网络为代表的深度学习算法广泛应用到了计算机视觉、自动驾驶等领域中，取得了很好的效果。基于卷积神经网络的表情识别方法通过数据驱动，构建卷积层从表情数据库中学习提取抽象的特征信息，最后使用全连接层分类。然而，深度卷积网络依赖于数据驱动，很多数据集中的静态面部表情图片太少，在无法得到上百万大规模数据集时，直接训练效果不够理想，容易产生过拟合，识别的泛化效果较差。技术实现要素：为了克服现有技术上的不足，本发明提供了一种面向人脸表情识别的迁移卷积神经网络方法，利用迁移卷积神经网络识别人脸表情，解决了小数据集在大量网络上无法收敛和过拟合的问题。为了解决上述技术问题，本发明提供了一种面向人脸表情识别的迁移卷积神经网络方法，其特征是，包括以下步骤：s1，获取人脸表情图像数据集，将其划分成训练集、验证集与测试集；s2，将迁移网络和卷积神经网络级联构建迁移卷积神经网络模型；迁移卷积网络模型的输入为人脸表情图像数据，输出为人脸表情类别；s3，利用训练集对迁移卷积神经网络模型进行训练，并利用验证集来优化训练好的迁移卷积神经网络模型；s4，通过优化后的迁移卷积神经网络模型，对测试集进行人脸表情识别的准确率测试。进一步的，s1中，获取人脸表情图像数据集包括以下过程：s11，获取ck+和fer2013人脸表情图像数据集；s12，扩展ck+数据集；s13，对ck+和fer2013数据集进行图像归一化。进一步的，迁移网络为inception_v3网络。进一步的，迁移网络包括6个卷积层、3个inception层、2个池化层和1个全连接层，在级联时去除全连接层。进一步的，卷积神经网络包括1个卷积层、1个池化层以及一个全连接层。进一步的，人脸表情类别包括生气、厌恶、恐惧、高兴、悲伤、惊讶和中性。本发明的有益效果包括：1）、本发明对原数据集进行了图像处理，一方面扩展了表情图像数据集的数量，另一方面利用opencv将48x48x1的二维灰度图像转化为229x229x3的三维高分辨率图像，大大减少了表情信息在迁移网络中的丢失的可能性，间接提高了表情识别的效果。2）、本发明将迁移学习方法和卷积神经网络结合，级联构建了所述的迁移卷积神经网络，解决了小数据集在大量网络上无法收敛和过拟合的问题，为深度学习方法在小数据集领域的实际应用提供了方法。3）、本发明在迁移网络后设计了卷积和池化操作，起到了提取表情特征信息和剔除冗余信息的作用，提高了人脸识别的精度。4）本发明构建的网络中采用relu激活函数和学习率衰减的机制，进一步防止了过拟合现象的发生，所述迁移神经网络的泛化效果良好。附图说明图1为本发明方法的流程图；图2为迁移卷积神经网络的网络结构图。具体实施方式下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。本发明的一种面向人脸表情识别的迁移卷积神经网络方法，参见图1所示，包括以下过程：s1，获取人脸表情图像数据集，将其划分成训练集、测试集与验证集。从现有的人脸表情数据库中获取人脸表情图像数据集，并进行数据集预处理，具体包括以下过程：s11，获取ck+和fer2013人脸表情图像数据集。fer2013数据集来自于数据科学竞赛kaggle，该表情库由训练集、测试集与验证集三部分构成，其中训练集共包含28,709张48x48的灰度图像，将人脸表情分为生气、厌恶、恐惧、高兴、悲伤、惊讶和中性这7种，而ck+数据集由cohnkanade表情库扩展而来，图像种类和尺寸大小均相同，包含共988张人脸表情。s12，扩展ck+数据集。将图片数量较小的ck+数据集中的图像进行5次随机裁剪和镜面对称操作，实现了数据集扩展十倍的效果。s13，对ck+和fer2013数据集进行图像归一化。将ck+和fer2013的数据集中的灰度图像进行归一化处理，利用tensorflow框架下的opencv的resize方法将裁剪的ck+数据集中的42x42和fer2013数据集中48x48的二维灰度图转化为229x229x3的三维彩色图像。将经步骤s1处理后的图像按8:1:1的比例随机分为训练集、测试集和验证集。s2，迁移网络和卷积神经网络级联构建迁移卷积神经网络模型；迁移卷积神经网络模型的输入为人脸表情图像数据，输出为人脸表情类别。选择的迁移网络为在image-net数据集上训练好的inception_v3网络，该网络原始解决的是在有数千万图片的image-net数据集上的多物体分类问题。该网络包括6个卷积层、3个inception层、2个池化层和1个全连接层，在级联时去除全连接层，此时输入数据尺寸为299x299x3,输出尺寸为8x8x2048。利用迁移学习的思想，将在image-net数据集上训练好的inception_v3网络迁移到人脸表情识别任务中来，与设计好的卷积神经网络级联构成迁移卷积神经网络。其中卷积神经网络，包括一层卷积层和池化层进行信息的提取和筛除，以及一层全连接层对表情进行分类，输入数据尺寸为8x8x2048，输出尺寸为7x1。所述卷积层的卷积核的大小设置为3x3，步长为1，填充设置为0；所述池化层的卷积核大小设置为2x2，步长为2，填充设置为0；连接层的卷积核大小为1，维数设置为7维。s3、利用训练集对预设的迁移卷积神经网络进行训练，并利用验证集来优化训练好的迁移卷积神经网络模型。利用训练集对所述的迁移卷积神经网络进行训练，再通过训练的学习情况和验证集上的表现对网络中的超参数进行调整，得到最优的网络模型；将经步骤s1处理后的图像按8:1:1的比例随机分为训练集、测试集和验证集。再将训练集数据用批处理的方法在步骤s2所述的迁移卷积网络中进行分批训练，批处理初始量设置为64，反复迭代10000次。其中，每次分批训练时，假定输入的批量数据样本中的一个图形为（x,y），x为输入图像的三维矩阵表示，y为已知的七种表情标签之一，七种表情为生气、厌恶、恐惧、高兴、悲伤、惊讶和中性。x的维数为229x299x3，y的维数为7x1。x首先被喂给参数固定的迁移学习网络部分，输出包含高维图像特征的8x8x2048的特征矩阵，所述特征矩阵再作为卷积神经网络部分的输入，最后输出7x1大小的预测向量，网络计算出该向量与所述标签y之间的损失函数，并通过随机梯度下降法反向调节卷积神经网络部分的权值来优化网络参数。根据训练完成的网络在验证集上的表现来进一步调节网络中的超参数，主要调节迭代次数、批处理量、损失函数、激活函数、学习率以及学习率的衰减率等正则化系数。训练完成的近似最优网络结构中，迭代次数为30000次，批处理量为256，损失函数为softmax，激活函数为relu函数，学习率设置为0.001，学习率的衰减率为0.01。s4、人脸表情识别测试：通过所述最优的网络模型，对测试集的人脸表情图像进行准确率测试。将处理好的ck+和fer2013的测试集中人脸表情图像作为输入样本，将所述样本输入训练好的近似最优的迁移卷积神经网络中进行人脸表情识别，结果显示，所述迁移卷积神经网络在ck+数据集上的准确率为99.6%，在fer2013数据集上的准确率为87.5%，高于其他识别方法，如表1所示，比较了七种方法在fer2013上的识别率。表1现有方法与本发明方法在fer2013数据集上的准确率方法识别率/%svm64.78gabor小波变换67.04%dbn69.77n176.48n273.92dlcnn80.77本发明方法87.50以上所述仅是本发明的优选实施方式，应当指出，对于本
技术领域：
的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘伦豪杰;费峻涛;王家豪
技术所有人：河海大学常州校区
我是此专利的发明人

上一篇：一种单向手推车的制作方法
上一篇：一种铝合金预拉伸板横向残余应力检测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。