基于深度学习和多任务学习的人脸属性预测方法及装置的制造方法_3

文档序号：9646809阅读：来源：国知局

图片或者图片的图像特征，通过一线性变换输出得到新特征。其输出的新特征为C层非线性层的输入。
[0078]C层为非线性层，其通过非线性函数，对卷积层B输入的特征进行非线性的变换，使得其输出的特征有较强的表达能力。非线性层C的输出特征为池化层D的输入。
[0079]D为池化层(Pooling layer)，池化层可以将多个数值映射到一个数值。该层不但可以进一步加强学习到的特征的非线性，而且可以使得输出的特征的空间大小(spatialsize)变小，而从增强学习的特征的平移不变性，即人脸平移，提取的特征保持不变。池化层D的输出特征可以再次作为为卷积层B的输入或者全连接层E的输入。
[0080]如附图2所示，卷积层B，非线性层C和池化层D外面的大框表示B，C，D层可以重复一次或者多次，即卷积层B，非线性层C和池化层D组合可以重复一次或多次，每一次池化层的输出可以作为卷积层B的再次输入。B，C，D三层的多次组合，可以更好的处理输入的图片，使其特征具有最佳的表达能力。
[0081]E层为全连接层，它对池化层D的输入做一个线性变换，把学习得到的特征投影到一个更好的子空间以利于属性预测。全连接层E的输出特征作为非线性层F的输入。
[0082]F层为非线性层，与非线性层C的功能一样，对全连接层E的输入特征进行非线性变换。其输出特征可以作为损耗层G的输入或者再次作为全连接层E的输入。
[0083]如附图2所示，全连接层E和非线性层F外面的大框，表示E层和F层可以重复一次或者多次。
[0084]G层为一个或者多个损耗层，可以是softmax，和/或crossentropy等。其主要负责计算预测的属性类别和/或编码与输入的属性类别和/或编码的误差。
[0085]总体而言，输入层A负责简单处理输入。卷积层B，非线性层C和池化层D的组合负责图片的特征提取。全连接层E和非线性层F是特征到属性类别和/或编码的映射。损耗层G负责计算预测误差。通过上述深度神经网络的多层设计保证提取的特征具有丰富的表达能力，而从更好的预测属性。同时，多个属性类别和编码同时连接损耗层G，确保多个任务同时学习，共享深度网络学到的特征。
[0086]神经网络训练单元，用于通过收集标注单元中形成的训练数据集合，训练神经网络构造单元中的深度神经网络，并部署训练得到的神经网络模型。
[0087]通过向后传递的梯度下降算法，训练得到步骤S4中深度神经网络的网络参数。替换输入层A使得其只输入图片；替换损耗层G，使得其只输入特征，从而部署得到一个输入人脸图片，同时输出人脸多个属性的深度神经网络模型。
[0088]人脸属性预测单元，用于通过神经网络训练单元中的神经网络模型，预测图片中的人脸属性。
[0089]以上对本公开进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域技术人员，依据本公开的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。
【主权项】
1.一种基于深度学习和多任务学习的人脸属性预测方法，其特征在于，该方法包括以下步骤: 51:收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合； 52:检测人脸，以及人脸关键点，通过多个关键点对齐人脸； 53:对类别中具有顺序性的属性进行编码； 54:构造一个深度神经网络； 55:利用步骤S1形成的训练数据集合，训练步骤S4中的深度神经网络，并部署训练得到的神经网络模型； 56:利用步骤S5中的神经网络模型，预测图片中的人脸属性。2.根据权利要求1所述的方法，其特征在于，优选的，步骤S4的深度神经网络依次包括: 输入层，卷积层，非线性层，池化层，全连接层，非线性层，损耗层。3.根据权利要求2所述的方法，其特征在于，卷积层、非线性层和池化层可以重复一次或者多次，在多次情况下，池化层的输出连接下一次的卷积层的输入。4.根据权利要求2所述的方法，其特征在于，全连接层和非线性层可以重复一次或者多次，在多次情况下，非线性层输出连接下一次的全连接层的输入。5.根据权利要求2所述的方法，其特征在于，损耗层可以为一个或者多个。6.根据权利要求2至5任一权利要求所述的方法，其特征在于，所述输入层读入人脸图片，属性类别及属性编码，对人脸图片进行预处理，输出对齐的人脸图片，属性类别和/或属性编码，将经过预处理的人脸图片输出到第一个卷积层，并将经过预处理的属性类别和/或编码输入到损耗层。7.根据权利要求6所述的方法，其特征在于，所述卷积层，非线性层和池化层的组合对预处理过的图片进行特征提取。8.根据权利要求7所述的方法，其特征在于，全连接层和非线性层将提取的图片特征映射到属性类别和/或属性编码。9.根据权利要求2至5任一权利要求所述的方法，其特征在于，损耗层负责计算预测误差。10.一种基于深度学习和多任务学习的人脸属性预测装置，其特征在于，该装置包括以下单元: 收集标注单元，用于收集人脸图片并标注对应的多个属性的类别，形成一个训练数据集合；检测对齐单元，用于检测人脸，以及人脸关键点，通过多个关键点对齐人脸；编码单元，用于对类别中具有顺序性的属性进行编码；神经网络构造单元，用于构造一个深度神经网络；神经网络训练单元，用于利用收集标注单元中形成的训练数据集合，训练神经网络构造单元中的深度神经网络，并部署训练得到的神经网络模型；人脸属性预测单元，用于利用神经网络训练单元中的神经网络模型，预测图片中的人脸属性。11.根据权利要求10所述的装置，其特征在于，神经网络构造单元的深度神经网络依次包括: 输入层，卷积层，非线性层，池化层，全连接层，非线性层，损耗层。12.根据权利要求11所述的装置，其特征在于，卷积层、非线性层和池化层可以重复一次或者多次，在多次情况下，池化层的输出连接下一次的卷积层的输入。13.根据权利要求11所述的装置，其特征在于，全连接层和非线性层可以重复一次或者多次，多次情况下，非线性层输出连接下一次的全连接层的输入。14.根据权利要求11所述的装置，其特征在于，损耗层可以为一个或者多个。15.根据权利要求11至14任一权利要求所述的装置，其特征在于，所述输入层读入人脸图片，属性类别及属性编码，对人脸图片进行预处理，输出对齐的人脸图片，属性类别和/或属性编码，将经过预处理的人脸图片输出到第一个卷积层，并将经过预处理的属性类别和/或编码输入到损耗层。16.根据权利要求15所述的装置，其特征在于，所述卷积层，非线性层和池化层的组合对预处理过的图片进行特征提取。17.根据权利要求16所述的装置，其特征在于，全连接层和非线性层将提取的图片特征映射到属性类别和/或属性编码。18.根据权利要求11至14任一权利要求所述的装置，其特征在于，损耗层负责计算预测误差。
【专利摘要】本发明公开了一种基于深度学习和多任务学习的人脸属性预测方法及装置，该方法主要包括：收集人脸图片并标注对应多个属性的类别，形成一个训练数据集合；检测人脸，以及人脸关键点，并通过多个关键点对齐人脸；对类别中具有顺序的属性进行编码；构造一个深度神经网络；利用训练数据集合，训练深度神经网络，并部署训练得到的神经网络模型，最后利用神经网络模型，预测图片中的人脸属性。本发明通过对多个属性联合训练，只用一个深度网络可以同时预测多个属性，预测效果提高明显。
【IPC分类】G06K9/00
【公开号】CN105404877
【申请号】CN201510900079
【发明人】张伟, 旷章辉
【申请人】商汤集团有限公司
【公开日】2016年3月16日
【申请日】2015年12月8日

完整全部详细技术资料下载

当前第3页1 2 3