基于人工脸的数据增强方法与流程

文档序号:15933764发布日期:2018-11-14 02:03阅读:223来源:国知局

本发明涉及图像识别领域,尤其涉及一种基于人工脸的数据增强方法。

背景技术

人脸表情识别是当前计算机视觉、模式识别、人工智能领域的热点研究课题,人脸表情可以传达非常丰富的情感信息,随着计算机技术在人们日常生活的普及,人脸表情识别在人机交互、家庭娱乐、公共安全甚至医疗等领域的应用前景更加广泛。

传统的人脸表情识别首先提取待测样本的特征,然后和训练样本进行模式分类和匹配,识别效果主要依赖于特征的好坏,人们花大量精力寻找能够有区分度的描述特征,但是在很多方面却遇到了瓶颈,例如人工提取的描述子受光照、形变、角度等环境变化影响较大,抗干扰能力弱,且在不同识别任务中效果不一,移植性差。



技术实现要素:

本发明实施例提供一种基于人工脸的数据增强方法,能够更有效的提取表情特征,提高泛化能力。

本发明实施例采用如下技术方案:

一种基于人工脸的数据增强方法,包括:

获取面部表情图像数据集;

使用人工脸数据增强机制对所述数据集中图像数据进行扩充,对所述数据集中图像数据进行预处理操作;

应用基于roi的方法在深度卷积神经网络上训练所述数据集中图像人脸特征;

根据人脸的面部结构,对所述数据集中单张图像不同区域进行划分,设置不同的兴趣区域,对所述数据集中图像进行扩充。

可选的,所述面部表情图像数据集为包含多张人脸图像的ck+数据集,所述获取面部表情图像数据集包括:

将ck+数据集共按照6:1:3的比例划分训练集、验证集、测试集,并保证每个集合中人物身份不重叠。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

对所述ck+训练集中的所有图像提取面部关键点,使用dlib库检测人脸的68个特征点,每张图像可以用一个68*2的标记矩阵表示。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

所述数据集中图像分为多个表情类别,在同一表情类别中,对图像a使用人工脸数据增强方法进行扩充;

任意选取一张图像b,采用旋转、缩放和规模化等操作,使图像b对应的标记矩阵q尽可能适应图像a对应的标记矩阵p,将图像b映射到图像a上;

通过用图像b除以图像b的高斯模糊,然后乘以图像a的高斯模糊实现图像b的色彩平衡及与图像a相匹配。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

使用标记矩阵生成三种类型遮罩,分别为眼睛+鼻子围成的多边形区域、嘴巴+下巴围成的多边形区域以及全脸区域;

使用遮罩选择图像a和图像b的最终显示部分,将图像b的三种局部特征混合到图像a中,由此生成三张对应的人工脸。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

在一张人脸上融合另一张人脸的眉毛到鼻子部分;

融合另一张人脸的嘴巴+下巴部分;

融合另一张图片的68个特征点所构成全部人脸区域,可以将训练集数据扩充到n*n*3-2n。

可选的,所述对所述数据集中图像数据进行预处理操作包括:

通过基于haar特征的adaboost人脸检测方法对每张人脸图像进行人脸检测,裁剪人脸区域,去除背景影响;

使用opencv视觉库对图像进行空间归一化,调整人脸两眼之间的连线使之保持水平,将人脸对齐到同一位置;

对所有图像进行直方图均衡化,增强图像的对比度,减弱光照造成的图像亮度差的影响;

将所有图像归一化到256*256像素。

可选的,所述应用基于roi的方法在深度卷积神经网络上训练所述数据集中图像人脸特征包括:

根据人脸面部结构,将训练集和验证集人脸图像划分为7个roi兴趣区域,分别为左眼、右眼、鼻子、嘴巴、眼睛+鼻子、鼻子+嘴巴、全脸,切割方案重点关注眼鼻嘴在不同表情中的区别。

可选的,还包括:

使用在imagenet(计算机视觉系统识别项目名称)上预训练的alexnet(专属名词)卷积神经网络模型(alexnet-cnn),在训练集上对参数进行微调,初始学习速率为0.001,训练集roi图像对应的类别标签为原始图像的标签。

可选的,还包括:

测试时将测试图像划分为相同的7个roi区域,使用训练好的alexnet-cnn模型对7张roi图像进行判别;

取票数最多的判别结果作为最后对该测试图像的识别结果。

基于上述技术方案的基于人工脸的数据增强方法,获取面部表情图像数据集,使用人工脸数据增强机制对数据集中图像数据进行扩充,对数据集中图像数据进行预处理操作,应用基于roi的方法在深度卷积神经网络上训练所述数据集中图像人脸特征,根据人脸的面部结构,对数据集中单张图像不同区域进行划分,设置不同的兴趣区域,对数据集中图像进行扩充,从而实现能够更有效的提取表情特征,提高泛化能力。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1为本发明实施例示出的基于人工脸的数据增强方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例针对当前公开数据集数据规模不足,深度学习方法在有限的训练数据集上特征抽取能力不足,导致在实际运用时泛化能力差、鲁棒性低等问题,提出一种新型的基于人工脸的数据增强机制,通过对当前公开的标准数据库进行数据扩展,使cnn在大数据基础上更有效的进行模型训练和参数调优;提取一种改进的基于roi区域的卷积神经网络模型,以面部结构先验知识为基础,引入感兴趣区域roi和投票机制,构建一种针对面部表情分类的深度学习训练改进方案,并在几种主流的深度卷积神经网络模型上测试方法的有效性。

实施例1

如图1所示,本发明实施例提供一种基于人工脸的数据增强方法,包括:

11、获取面部表情图像数据集;

12、使用人工脸数据增强机制对所述数据集中图像数据进行扩充,对所述数据集中图像数据进行预处理操作;

13、应用基于roi(regionofinterest,兴趣区域)的方法在深度卷积神经网络上训练所述数据集中图像人脸特征;

14、根据人脸的面部结构,对所述数据集中单张图像不同区域进行划分,设置不同的兴趣区域,对所述数据集中图像进行扩充。

可选的,所述面部表情图像数据集为包含多张人脸图像的ck+(theextendedcohn-kanadedatabase)数据集,所述获取面部表情图像数据集包括:

将ck+(theextendedcohn-kanadedatabase)数据集共按照6:1:3的比例划分训练集、验证集、测试集,并保证每个集合中人物身份不重叠。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

对所述ck+训练集中的所有图像提取面部关键点,使用dlib库检测人脸的68个特征点,每张图像可以用一个68*2的标记矩阵表示。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

所述数据集中图像分为多个表情类别,在同一表情类别中,对图像a使用人工脸数据增强方法进行扩充;

任意选取一张图像b,采用旋转、缩放和规模化等操作,使图像b对应的标记矩阵q尽可能适应图像a对应的标记矩阵p,将图像b映射到图像a上;

通过用图像b除以图像b的高斯模糊,然后乘以图像a的高斯模糊实现图像b的色彩平衡及与图像a相匹配。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

使用标记矩阵(任意特关键点所围成的标记矩阵)生成三种类型遮罩,分别为眼睛+鼻子围成的多边形区域、嘴巴+下巴围成的多边形区域以及全脸区域;

使用遮罩选择图像a和图像b的最终显示部分,将图像b的三种局部特征混合到图像a中,由此生成三张对应的人工脸。

可选的,所述使用人工脸数据增强机制对所述数据集中图像数据进行扩充包括:

在一张人脸上融合另一张人脸的眉毛到鼻子部分;

融合另一张人脸的嘴巴+下巴部分;

融合另一张图片的68个特征点所构成全部人脸区域,可以将训练集数据扩充到n*n*3-2n(一种类型的遮罩可以将数据集扩充到n*n,两种类型的遮罩可以将数据集扩充到n*n*2-n,同理k种类型的遮罩可以将数据集扩充到k*n*n-(k-1)*n)。

可选的,所述对所述数据集中图像数据进行预处理操作包括:

通过基于haar(专属名词)特征的adaboost(专属名词)人脸检测方法对每张人脸图像进行人脸检测,裁剪人脸区域,去除背景影响;

使用opencv视觉库对图像进行空间归一化,调整人脸两眼之间的连线使之保持水平,将人脸对齐到同一位置;

对所有图像进行直方图均衡化,增强图像的对比度,减弱光照造成的图像亮度差的影响;

将所有图像归一化到256*256像素。

可选的,所述应用基于roi的方法在深度卷积神经网络上训练所述数据集中图像人脸特征包括:

根据人脸面部结构,将训练集和验证集人脸图像划分为7个roi兴趣区域,分别为左眼、右眼、鼻子、嘴巴、眼睛+鼻子、鼻子+嘴巴、全脸,切割方案重点关注眼鼻嘴在不同表情中的区别。

可选的,还包括:

使用在imagenet上预训练的alexnet卷积神经网络模型(alexnet-cnn),在训练集上对参数进行微调,初始学习速率为0.001,训练集roi图像对应的类别标签为原始图像的标签。

可选的,还包括:

测试时将测试图像划分为相同的7个roi区域,使用训练好的alexnet-cnn模型对7张roi图像进行判别;

取票数最多的判别结果作为最后对该测试图像的识别结果。

本发明实施例基于人工脸的数据增强方法,获取面部表情图像数据集,使用人工脸数据增强机制对数据集中图像数据进行扩充,对数据集中图像数据进行预处理操作,应用基于roi的方法在深度卷积神经网络上训练所述数据集中图像人脸特征,根据人脸的面部结构,对数据集中单张图像不同区域进行划分,设置不同的兴趣区域,对数据集中图像进行扩充,从而实现能够更有效的提取表情特征,提高泛化能力。

本发明实施例与通用的基于旋转、遮挡、平移等操作的数据增强方法不同,本发明提出了一种专注于表情特征的人工脸数据增强机制,通过融合不同人脸图像的特征区域对数据集进行扩充,有效的解决了由于当前公开的人脸表情数据集不足,导致深度神经网络模型不能有效的提取表情特征,模型过拟合问题严重,在实际使用时对新数据的泛化能力差等问题。通过探索一种合理有效的数据增强方法,满足卷积神经网络对训练数据量的要求,从而提升模型的鲁棒性和泛化能力。

本发明实施例根据人脸面部结构,将人脸图像设置若干个兴趣区域,使用roi图像训练卷积神经网络模型,主动引导cnn关注与表情变化相关的特征区域,挖掘roi区域之间的分布式表达特,有助于增强对预测目标的信度,同时roi方法还可以看作是一种数据增强方式,此种方法也能在一定程度上提升模型的鲁棒性和泛化能力。

本发明实施例roi数据倍增针对训练阶段,测试阶段最直接的方法是对测试图像直接判别,但是此种方法会浪费模型中记忆的关于roi区域的分布式表达特征,本发明在识别方法上也进行了改进,提出一种基于投票检测的判别方法,通过对测试图像划分相同的roi兴趣区域,使用模型对兴趣区域的判别结果进行投票,选择得票数最多的类别作为最终的识别结果。

实施例2

本实施例详细说明本发明实施例提供的基于人工脸的数据增强方法,该方法包括以下步骤:

201、获取ck+数据集共510张人脸图像,将数据集按照6:1:3的比例划分训练集、验证集、测试集,并保证每个集合中人物身份不重叠。

202、对ck+训练集中的所有图像提取面部关键点,使用dlib库检测人脸的68个特征点,每张图像可以用一个68*2的标记矩阵表示。

203、在同一表情类别中,对图像a使用人工脸数据增强方法进行扩充,任意选取一张图像b,采用旋转、缩放和规模化等操作,使图像b对应的标记矩阵q尽可能适应图像a对应的标记矩阵p,将图像b映射到图像a上。

204、调整图像b的色彩平衡,使之与图像a相匹配,可以通过用图像b除以图像b的高斯模糊,然后乘以图像a的高斯模糊实现。

205、使用标记矩阵生成三种类型遮罩,分别为眼睛+鼻子围成的多边形区域、嘴巴+下巴围成的多边形区域以及全脸区域。

206、使用遮罩选择图像a和图像b的哪些部分应该是最终显示的图像,便可以将图像b的三种局部特征混合到图像a中,由此生成三张对应的人工脸。

207、对数据集中所有图像采用此方法扩充人工脸,在一张人脸上融合另一张人脸的眉毛到鼻子部分;融合另一张人脸的嘴巴+下巴部分;融合另一张图片的68个特征点所构成全部人脸区域,可以将训练集数据扩充到n*n*3-2n。

208、对数据集中的所有图像进行预处理,首先通过基于haar特征的adaboost人脸检测方法对每张人脸图片进行人脸检测,裁剪人脸区域,去除背景影响;使用opencv视觉库对图像进行空间归一化,调整人脸两眼之间的连线使之保持水平,将人脸对齐到同一位置;对所有图像进行直方图均衡化,增强图像的对比度,减弱光照造成的图像亮度差的影响;最后将所有图像归一化到256*256像素。

209、根据人脸面部结构,将训练集和验证集人脸图像划分为7个roi兴趣区域,分别为左眼、右眼、鼻子、嘴巴、眼睛+鼻子、鼻子+嘴巴、全脸,切割方案重点关注眼鼻嘴在不同表情中的区别,roi方法让训练数据又扩充7倍。

210、使用在imagenet上预训练的alexnet卷积神经网络模型(alexnet-cnn),在训练集上对参数进行微调,初始学习速率为0.001,训练集roi图像对应的类别标签为原始图像的标签。

211、测试阶段,同样将测试图像划分为相同的7个roi区域,使用训练好的alexnet-cnn模型对7张roi图像进行判别,取票数最多的判别结果作为最后对该测试图像的识别结果。

本发明实施例基于人工脸的数据增强方法,获取面部表情图像数据集,使用人工脸数据增强机制对数据集中图像数据进行扩充,对数据集中图像数据进行预处理操作,应用基于roi的方法在深度卷积神经网络上训练所述数据集中图像人脸特征,根据人脸的面部结构,对数据集中单张图像不同区域进行划分,设置不同的兴趣区域,对数据集中图像进行扩充,从而实现能够更有效的提取表情特征,提高泛化能力。

本发明实施例与通用的基于旋转、遮挡、平移等操作的数据增强方法不同,本发明提出了一种专注于表情特征的人工脸数据增强机制,通过融合不同人脸图像的特征区域对数据集进行扩充,有效的解决了由于当前公开的人脸表情数据集不足,导致深度神经网络模型不能有效的提取表情特征,模型过拟合问题严重,在实际使用时对新数据的泛化能力差等问题。通过探索一种合理有效的数据增强方法,满足卷积神经网络对训练数据量的要求,从而提升模型的鲁棒性和泛化能力。

本发明实施例根据人脸面部结构,将人脸图像设置若干个兴趣区域,使用roi图像训练卷积神经网络模型,主动引导cnn关注与表情变化相关的特征区域,挖掘roi区域之间的分布式表达特,有助于增强对预测目标的信度,同时roi方法还可以看作是一种数据增强方式,此种方法也能在一定程度上提升模型的鲁棒性和泛化能力。

本发明实施例roi数据倍增针对训练阶段,测试阶段最直接的方法是对测试图像直接判别,但是此种方法会浪费模型中记忆的关于roi区域的分布式表达特征,本发明在识别方法上也进行了改进,提出一种基于投票检测的判别方法,通过对测试图像划分相同的roi兴趣区域,使用模型对兴趣区域的判别结果进行投票,选择得票数最多的类别作为最终的识别结果。

本发明实施例对ck+训练集使用人工脸数据增强方法进行扩充,可以将数据量提升到42k张,同时使用基于roi的训练方法训练cnn,将数据量提升到284k,增强后的数据集训练的卷积神经网络上的性能优于原始数据集,通过roi投票机制对测试集进行识别,在ck+数据集上可以将识别率提升5%左右;同时引入跨数据集实验验证模型的泛化能力,通过在互联网搜集大量带有情感特征的人脸图片,进行人工标注,构建一个区别于正规人脸的自然状态的wild静态面部表情数据集,用于测试cnn模型对随机新数据的识别能力,实验表明在wild数据集上,人工脸数据增强方法和基于roi的神经网络模型可以将识别效果提升约7.5%。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1