本发明涉及图像描述符技术领域,具体涉及一种基于卷积自编码器的图像描述符降维方法。
背景技术:
图像描述符是对图像的一种描述,让两幅图像可以通过描述符之间的距离进行相似度比较,在图像检索和图像匹配中起着非常关键的作用。图像检索和图像匹配是计算机视觉中非常重要的应用,通过在海量的图像数据集中检索和匹配与目标图像相似的图像,从而达到搜索和匹配的目的。虽然现有的一些图像描述符可以达到很好的精度,但是有些描述符的维度过高,图像搜索需要花费很长的时间。
技术实现要素:
本发明的目的在于克服现有技术的缺点与不足,提供一种基于卷积自编码器的图像描述符降维方法,该方法是一种端到端的无监督学习的图像描述符降维方法,通过卷积神经网络,实现对图像描述符降维,能够学习到高维描述符中的一种低维表示,并且让低维描述符能够保持原来高维描述符的主要信息。
本发明的目的通过下述技术方案实现:
一种基于卷积自编码器的图像描述符降维方法,包括下述步骤:
(1)输入图像数据,对数据进行归一化处理;
(2)将数据输入卷积自编码器,通过编码器编码,得到一个低维的描述符;
(3)将编码器输出的结果通过解码器解码,输出数据;
(4)通过最小化输出数据与输入数据的重构误差来优化模型参数;
(5)训练好模型后,将编码器的输出作为图像降维后的描述符。
优选地,所述卷积自编码器包括编码器和解码器,其中所述编码器包括三个子块,每个子块都包括一个卷积层cl、一个批正则化层bn和一个参数化修正线性单元prelu激活函数;所述解码器包括三个子块,每个子块都包括一个反卷积层dcl、一个批正则化层bn和一个参数化修正线性单元prelu。
本发明与现有技术相比具有以下的有益效果:
(1)本发明通过最小化输入数据与输出数据的重构误差,学习图像描述符中的一个低维表示,这个低维描述符就是图像降维后的描述符,保留了原来高维描述符中的重要信息,让图像在低维空间中仍然具有很好的区分度;
(2)本发明的编码器和解码器的层数都只有三层,参数量少,对于内存要求较小;整个模型结构采用模块化设计,在模型中加入了批正则化处理,能够使得模型快速收敛;模型激活函数选择一种带参数的修正线性单元,能够学习出更多的非线性特征;
(3)本发明不仅可以应用到图像领域,还可以应用到任何需要使用到数据降维的方法中,包括语音识别,自然语音处理等领域。
附图说明
图1为本发明的流程示意图;
图2为本发明的卷积自编码模型构建示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1~2所示,一种基于卷积自编码器的图像描述符降维方法,包括下述步骤:
(1)输入图像数据,对数据进行归一化处理;
(2)将数据输入卷积自编码器,通过编码器编码,得到一个低维的描述符;
(3)将编码器输出的结果通过解码器解码,输出数据;
(4)通过最小化输出数据与输入数据的重构误差来优化模型参数,从而得到一个能够将高维图像描述符压缩到低维空间的描述符的编码器;
(5)训练好模型后,将编码器的输出作为图像降维后的描述符。
所述卷积自编码器包括编码器和解码器,其中所述编码器包括三个子块,每个子块都包括一个卷积层cl、一个批正则化层bn和一个参数化修正线性单元prelu激活函数;所述解码器包括三个子块,每个子块都包括一个反卷积层dcl、一个批正则化层bn和一个参数化修正线性单元prelu。
本发明提出一种基于卷积自编码器的方法,实现图像描述符的降维。由于图像信息具有局部性,采用卷积神经网络可以很好的保持图像之间的局部信息。而很多图像描述符没有标签,采用监督学习的方法在此并不适合。本发明采用一种无监督学习的自编码器方法,其中自编码器的主要思想如图1所示。自编码主要包括两个部分,一部分是编码器,另一部分是解码器,编码器和解码器都是一个三层的卷积神经网络。
虽然,所有的卷积自编码器思想都如图1所示,但是不同模型的结构设计也存在很大的差异。自编码器包括两个部分,一部分是编码器,另一部分是解码器。而卷积自编码器是指其中的编码器和解码器都是由卷积神经网络搭建而成。卷积神经网络由一层一层卷积层堆积而来,每一层都包含大量的参数,这些模型的参数通过最小化输出值与目标值的均方误差来优化,优化好的模型参数保存起来,以后模型就可以直接使用,不需要再进行训练优化。本发明提出的卷积自编码器具体模型构建细节如图2所示,编码器和解码器都包括三个子块,每个子块都包括三个部分,其中第一个为卷积层可以很好的学习到图像中的局部信息,第二个为批正则化层,能够使模型快速收敛,第三个为参数化修正线性单元,能够学习更多的非线性特征。
编码器和解码器的层数都只有三层,参数量少,对于内存要求较小;整个模型结构采用模块化设计,在模型中加入了批正则化处理,能够使得模型快速收敛;模型激活函数选择一种带参数的修正线性单元,能够学习出更多的非线性特征。
本发明通过最小化输入数据与输出数据的重构误差,学习图像描述符中的一个低维表示,这个低维描述符就是图像降维后的描述符,保留了原来高维描述符中的重要信息,让图像在低维空间中仍然具有很好的区分度;本发明不仅可以应用到图像领域,还可以应用到任何需要使用到数据降维的方法中,包括语音识别,自然语音处理等领域。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。