一种基于卷积神经网络的多模态特征融合方法及装置与流程

文档序号:17327425发布日期:2019-04-05 21:52阅读:454来源:国知局
一种基于卷积神经网络的多模态特征融合方法及装置与流程

本发明涉及图像处理领域,尤其涉及一种基于卷积神经网络的多模态特征融合方法及装置。



背景技术:

随着科学技术的发展,生物识别技术越来越成熟,人们的生活也越来越依赖于生物特征识别技术,例如:指纹、人脸识别解锁等功能均依赖于生物识别技术。

现有技术中,通常采用单模态的图像特征进行生物特征识别,不同的模态可以理解为在不同场景下得到的图像,例如可见光人脸图像、近红外虹膜图像等。

但是每种模态都具有一定的局限性,若采用某一种模态训练的识别模型,将该识别模型用于对其它模态的图像进行识别时,会影响识别结果的准确性。因此,现在亟待需要一种可以将不同模态进行融合的方式。



技术实现要素:

本发明实施例公开了一种基于卷积神经网络的多模态特征融合方法、装置及系统,解决了现有技术中单一模态识别具有的局限性问题,提高了生物特征识别的准确度。

本发明实施例公开了一种基于卷积神经网络的多模态特征融合方法,包括:

从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;

在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;

在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据所述权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。

可选的,所述异质图像包括:

可见光人脸图像、近红外人脸图像、可见光虹膜图像、近红外虹膜图像,其中,每一种图像对应一种模态。

可选的,在所述异质图像为近红外人脸图像或者可见光人脸图像的情况下,所述从不同的异质图像中提取多个模态的特征,包括:

对输入的所述可见光人脸图像或者近红外人脸图像进行检测,得到人脸的位置信息和关键点的位置信息;

对输入的所述可见光人脸图像或者近红外人脸图像进行预处理;

将预处理后的所述近红外人脸图像或者可见光人脸图像输入到已训练的的人脸图像特征提取模型中,提取近红外光下的人脸特征或者可见光下的人脸特征。

可选的,在所述异质图像为可见光虹膜图像或者近红外虹膜图像的情况下,所述从不同的异质图像中提取多个模态的特征,包括:

分别采用第一方式和第二方式提取所述可见光虹膜图像或者近红外虹膜图像中双眼的相关性特征,得到第一目标特征集和第二目标特征集;

依据第一目标特征集和第二目标特征集的互补性,从第一目标特征集和第二目标特征集中提取虹膜的深度特征。

可选的,所述依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,包括:

分别从每个模态的第一特征集中筛选出具有最大化类间差异和最小化类内差异的特征,得到每个模态的第三特征集;

通过多元变量回归模型对每个模态的第三特征集进行分析,得到每个模态的第二特征集。

本发明实施例还公开了一种基于卷积神经网络的多模态特征融合装置,包括:

多模态特征提取单元,用于从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;

筛选单元,用于在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;

融合单元,用于在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据所述权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。

可选的,所述异质图像包括:

可见光人脸图像、近红外人脸图像、可见光虹膜图像、近红外虹膜图像,其中,每一种图像对应一种模态。

可选的,所述筛选单元,包括:

筛选子单元,用于分别从每个模态的第一特征集中筛选出具有最大化类间差异和最小化类内差异的特征,得到每个模态的第三特征集;

分析子单元,用于通过多元变量回归模型对每个模态的第三特征集进行分析,得到每个模态的第二特征集。

本发明实施例还公开了一种基于卷积神经网络的多模态特征融合系统,包括:

采集端和数据处理端;

所述采集端,用于获取表示不同模态的异质图像;

所述数据处理端,用于从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;

在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;

在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据所述权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。

可选的,所述异质图像包括:

可见光人脸图像、近红外人脸图像、可见光虹膜图像、近红外虹膜图像,其中,每一种图像对应一种模态。

本发明实施例公开了一种基于卷积神经网络的多模态特征融合方法、装置及系统,包括:从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。由此可知,通过将多模态的特征进行融合,并依据该融合的特征对多模态卷积神经网络进行训练,得到用于特征识别的多模态卷积神经网络,这样解决了现有技术中单一模态识别具有的局限性问题,提高了生物特征识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种基于卷积神经网络的多模态特征融合方法的流程示意图;

图2示出了可见光人脸图像或者近红外人脸图像进行特征提取的流程示意图;

图3示出了可见光虹膜图像或者近红外虹膜图像进行特征提取的流程示意图;

图4示出了特征融合的示意图;

图5示出了本发明实施例提供的一种基于卷积神经网络的多模态特征融合装置的结构示意图;

图6示出了本发明实施例提供的一种基于卷积神经网络的多模态特征融合系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参考图1,示出了本发明实施例提供的一种基于卷积神经网络的多模态特征融合方法的流程示意图,在本实施例中,该方法包括:

s101:从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;

本实施例中,异质图像是在不同场景条件下的图像,例如不同的光照、不同的拍摄角度、不同的镜头设置(近距离和远距离)、不同的拍摄场地(办公室、银行、小区等)。

本实施例中以如下的四种图像为例对本方案进行说明,包括:可见光人脸图像、近红外人脸图像、可见光虹膜图像和近红外虹膜图像。

其中,本实施例中,可以采用多种方式对不同模态(例如,人脸或者虹膜)的图像进行特征提取,本实施例中不进行限定。但是,为了清楚的解释本方案的具体实现过程,本实施例中介绍两种方式分别用于对人脸图像和虹膜图像进行特征提取。

实施方式一、如图2所示,针对于近红外人脸图像或者可见光人脸图像,s101包括:

s201:对输入的所述可见光人脸图像或者近红外人脸图像进行检测,得到人脸的位置信息和关键点的位置信息;

s202:对输入的所述可见光人脸图像或者近红外人脸图像进行预处理;

由于拍摄时的光照条件和拍摄角度的不同,样本中的人脸图像和标准的人脸图像有一定的差别,为了消除该差别带来的误差影响,将可见光人脸图像或者近红外人脸图像进行预处理,具体的,包括:

获取标准脸的关键点位置信息和光照条件;

其中,标准脸可以是预先设定的,也可以是将训练集上计算得到的平均脸的关键点位置信息和光照条件作为标准脸。

依据获取到的可见光人脸图像或者近红外人脸图像的位置信息和关键点位置信息,将可见光人脸图像或者近红外人脸图像的关键点位置与标准脸的关键点位置进行对齐。

获取可见光人脸图像或者近红外人脸图像的光照;

通过图像处理算法,将可见光人脸图像或者近红外人脸图像的光照转换为标准脸的光照条件。

其中,将样本的关键点与标准脸的关键点对齐,以及将人脸图像的光照转换为标准脸的光照条件的操作次数不进行限制。并且,进行关键点对齐和光照条件的转换的顺序可以任意调整,本实施例中不进行限定。

s203:将预处理后的所述可见光人脸图像或者近红外人脸图像输入到已训练的人脸图像特征提取模型中,提取近红外光下的人脸特征或者可见光下的人脸特征。

本实施例中,人脸图像特征提取模型是通过标准人脸进行训练后得到的,其中,该模型可以提取的特征包括:身份特征向量和不同属性的特征向量。除此之外,还可以包括:性别特征向量、年龄特征向量。

具体的,人脸图像特征提取模型可以为一个多任务神经网络模型,每个任务表示提取不同的人脸特征,例如为:身份特征、性别特征、年龄特征等。

其中,多任务神经网络的目的是使各子任务的加权损失和最低,为了使各子任务的加权损失和最低,可以采用不同的损失函数对多任务神经网络模型进行优化,具体的,包括:

1、针对身份识别任务

例如可以使用softmax损失函数作为优化目的对多任务神经网络模型进行优化,其中,softmax损失函数如下所示:

其中,n是类别数目,x是输入人脸图像,yidentity∈rn×1是表示人脸图像类别的类别向量,代表神经网络学到的人脸身份分类器第i个节点的输出。

2、针对年龄识别任务

人脸性别估计任务则将人脸图像按性别不同划分为两个类别,该任务可使用以hinge损失为代表的二分类损失函数作为优化目标。其中hinge损失函数如下所示:

其中,ygender∈{-1,+1}是代表人脸图像性别的标签,是神经网络对输入人脸图像性别的预测输出。

人脸年龄估计任务则是指根据人脸图像预测其年龄,这是一个回归任务。该任务可使用以平方损失为代表的一系列回归损失函数作为优化目标。其中,平方损失如下所示:

其中,yage是人脸图像的年龄真实值,是神经网络对输入人脸图像年龄的预测输出。

需要说明的是,上述身份分类、性别分类、年龄估计任务并非所述多任务神经网络的唯一任务组成形式,子任务还可替换为民族分类、发型识别等。多任务神经网络的子任务也不限于三个,可以是任意数目的组合。整个多任务神经网络的优化目标是各子任务的加权和,如下所示:

l=λili+λglg+λala+…

其中,λ是子任务的损失权重。

本实施例中,在得到人脸特征提取模型后,将预处理后的可见光图像或者近红外图像输入到人脸特征提取模型中,提取出可见光下的人脸特征或者近红外光下的人脸特征。

实施例二、如图3所示,在所述异质图像为可见光虹膜图像或者近红外虹膜图像的情况下,s101包括:

s301:分别采用第一方式和第二方式提取所述可见光虹膜图像或者近红外虹膜图像中双眼的相关性特征,得到第一目标特征集和第二目标特征集;

其中,第一方式和第二方式为两种不同的特征提取方式,例如第一方式可以为预设的卷积算法,例如pairwisecnns算法,第二方式可以为传统的特征提取方法,例如定序测量滤波器。

s302:依据第一目标特征集和第二目标特征集的互补性,从第一目标特征集和第二目标特征集中提取虹膜的深度特征。;

不同的特征提取方式均具有优点和缺点,提取到的特征也具有一定的互补性,通过不同方式提取到的特征互补性,提取鲁棒性较好的深度特征。

优选的,可以采用基于maxout激活单元的卷积神经网络模型提取虹膜的深度特征。本实施例中,提取到的深度特征可以更鲁棒的表达虹膜纹理之间的异同。

并且,需要说明的是,假设异质图像包括:可见光人脸图像、近红外人脸图像、可见光虹膜图像、近红外虹膜图像,得到的第一特征集包括:可见光下的人脸特征集合、近红外光下的人脸特征集合、可见光下的虹膜特征集合和近红外光下的虹膜特征集合。

s102:在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;

本实施例中,对于同一个生物体来说,不同模态之间具有一定的关联性,可以依据该关联性,从不同的特征集中筛选出具有一定关联性的特征,具体的,s102包括:

分别从每个模态的第一特征集中筛选出具有最大化类间差异和最小化类内差异的特征,得到每个模态的第三特征集;

通过多元变量回归模型对每个模态的第三特征集进行分析,得到每个模态的第二特征集。

本实施例中,类内差异指的是同一个图像中,不同特征间的相似度,其中不同特征间的相似度可以采用特征间的距离表示;类间差异指的是,不同图像中各个特征之间的距离。其中,同一个图像中,特征间的相似度越大表示类内差异越小;不同图像中,特征间的距离越大,表示类间差异越大。

本实施例中,多元变量回归模型包括:cca(中文全称:典型关联关系,英文全称:canonicalcorrelationanalysis)、pls(中文全称:偏最小二乘法,英文全称:partialleastsquares)或者csr(中文全称:耦合谱回归,英文全称:coupledspectralregression)等。

其中,主要思想是,依据每个模态第三特征集中各个特征之间的相关性,对每个模态的第三特征集进行处理,得到包含每个模态的第二特征集的公共特征空间。

除此之外,为了提高后续多模态卷积神经网络训练的准确性,可以将不同模态的第三特征集中具有相关性的特征点之间的距离d近似等于同类样本具有相关性的特征点之间的距离d。

其中,同类样本之间表示同质的样本之间,例如两个可见光下的人脸图像。

s103:在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据所述权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。

本实施例中,如图4所示,假设f1表示可见光下的人脸特征集合、f2表示近红外光下的人脸特征集合、f3表示可见光下的虹膜特征集合、f4表示近红外光下的虹膜特征集合。将每个特征集合中的特征输入到输入到多模态特征卷积学习层中,得到相应的四个特征矩阵,分别为:w1、w2、w3、w4,然后根据不同模态的权重将w1f1、w2f2、w3f3、w4f4进行串联。

其中,权重的确定可以是技术人员预先设定的,也可以是在训练的过程中根据训练结果确定的。

本实施例中,通过将多模态的特征进行融合,并依据该融合的特征对多模态卷积神经网络进行训练,得到用于特征识别的多模态卷积神经网络,这样解决了现有技术中单一模态识别具有的局限性问题,提高了生物特征识别的准确度。

参考图5示出了本发明实施例提供的一种基于卷积神经网络的多模态特征融合装置的结构示意图,在本实施例中,该装置包括;

多模态特征提取单元501,用于从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;

筛选单元502,用于在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;

融合单元503,用于在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据所述权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。

可选的,所述异质图像包括:

可见光人脸图像、近红外人脸图像、可见光虹膜图像、近红外虹膜图像,其中,每一种图像对应一种模态。

可选的,所述筛选单元,包括:

筛选子单元,用于分别从每个模态的第一特征集中筛选出具有最大化类间差异和最小化类内差异的特征,得到每个模态的第三特征集;

分析子单元,用于通过多元变量回归模型对每个模态的第三特征集进行分析,得到每个模态的第二特征集。

可选的,所述多模态特征提取单元,具体用于:

对输入的所述可见光人脸图像或者近红外人脸图像进行检测,得到人脸的位置信息和关键点的位置信息;

对输入的所述可见光人脸图像或者近红外人脸图像进行预处理;

将预处理后的所述近红外人脸图像或者可见光人脸图像输入到已训练的的人脸图像特征提取模型中,提取近红外光下的人脸特征或者可见光下的人脸特征。

以及

分别采用第一方式和第二方式提取所述可见光虹膜图像或者近红外虹膜图像中双眼的相关性特征,得到第一目标特征集和第二目标特征集;

依据第一目标特征集和第二目标特征集的互补性,从第一目标特征集和第二目标特征集中提取虹膜的深度特征。

通过本实施例的装置,将多模态的特征进行融合,并依据该融合的特征对多模态卷积神经网络进行训练,得到用于特征识别的多模态卷积神经网络,这样解决了现有技术中单一模态识别具有的局限性问题,提高了生物特征识别的准确度。

参考图6,示出了本发明实施例提供的一种基于卷积神经网络的多模态特征融合系统的结构示意图,在本实施例中,该系统包括:

采集端601和数据处理端602;

所述采集端601,用于获取表示不同模态的异质图像;

所述数据处理端602,用于从不同的异质图像中提取多个模态的特征,得到每个模态的第一特征集;

在多模态卷积神经网络中,依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,得到每个模态的第二特征集;

在多模态卷积神经网络的全连接层,确定每个模态的第二特征集的权重,并依据所述权重将多个模态的第二特征集进行融合,以使融合后的第二特征集对用于生物特征识别的多模态卷积神经网络进行训练。

可选的,所述异质图像包括:

可见光人脸图像、近红外人脸图像、可见光虹膜图像、近红外虹膜图像,其中,每一种图像对应一种模态。

可选的,所述数据处理端在执行在所述异质图像为近红外人脸图像或者可见光人脸图像的情况下,所述从不同的异质图像中提取多个模态的特征的步骤时,具体用于:

对输入的所述可见光人脸图像或者近红外人脸图像进行检测,得到人脸的位置信息和关键点的位置信息;

对输入的所述可见光人脸图像或者近红外人脸图像进行预处理;

将预处理后的所述近红外人脸图像或者可见光人脸图像输入到已训练的的人脸图像特征提取模型中,提取近红外光下的人脸特征或者可见光下的人脸特征。

可选的,所述数据处理端在执行所述在所述异质图像为可见光虹膜图像或者近红外虹膜图像的情况下,所述从不同的异质图像中提取多个模态的特征的步骤时,具体包括:

分别采用第一方式和第二方式提取所述可见光虹膜图像或者近红外虹膜图像中双眼的相关性特征,得到第一目标特征集和第二目标特征集;

依据第一目标特征集和第二目标特征集的互补性,从第一目标特征集和第二目标特征集中提取虹膜的深度特征。

可选的,所述数据处理端在执行所述依据不同模态之间的相关性,从每个模态的第一特征集中筛选出符合预设条件的特征,具体用于:

分别从每个模态的第一特征集中筛选出具有最大化类间差异和最小化类内差异的特征,得到每个模态的第三特征集;

通过多元变量回归模型对每个模态的第三特征集进行分析,得到每个模态的第二特征集。

通过本实施例的系统,采集复杂场景下的异质图像,将多模态的特征进行融合,并依据该融合的特征对多模态卷积神经网络进行训练,得到用于特征识别的多模态卷积神经网络,这样解决了现有技术中单一模态识别具有的局限性问题,提高了生物特征识别的准确度,并且实现在受控条件下,对复杂场景下的图像的识别。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1