基于四元数小波变换深度视感知的图像注视点检测方法与流程

文档序号:15935847发布日期:2018-11-14 02:22阅读:215来源:国知局

本发明涉及图像处理、深度学习和计算机视觉等技术领域,具体涉及一种基于四元数小波变换深度视感知的图像注视点检测方法。

背景技术

人类通过视觉系统可以容易的获取图像中的重要信息,而传统的机器视觉很难较好的检测出图像的注视点位置。注视点位置是指,人类在观察图像时,视觉注意机制让人眼在图像上的注视点落在感兴趣的位置上。随着电子产品的普及,面对海量的图像信息,人类越来越需要计算机的辅助快速检测出图像中的注视点。注视点检测方法可以用于目标检测和识别等领域,因此,图像的注视点检测已经成为了研究热点。

图像的注视点检测是心理学与计算机视觉的交叉研究课题之一,在传统的方法中,仅仅通过图像的颜色、亮度等人工构建的底层特征进行注视点的检测时,很难较好的检测出人眼感兴趣的位置,而深度卷积神经网络具有很强大的提取图像特征的能力,可以提取出表征图像注视点信息的高阶特征,因此本发明采用深度卷积神经网络提取的高阶特征进行注视点的检测。图像的四元数小波变换可以产生多个通道、多个方向下的细节子带图,可以较好的反映出图像的细节特征。基于以上分析,本发明提出了一种基于四元数小波变换深度视感知的注视点检测方法,从图像的四元数小波变换产生的细节子带图进行深度学习,并提取出图像中表征注视点信息的特征,用于注视点的检测。



技术实现要素:

本发明提出了一种基于四元数小波变换深度视感知的注视点检测方法,对图像进行四元数小波变换后,产生12幅反映图像细节信息的细节子带图;使用深度卷积神经网络学习表征注视点的特征信息,由于12幅细节子带图包含的数据量较大,为了提高深度卷积神经网络的训练效率,使用1×1卷积核构建的网络对细节子带图进行降低维度的处理,提取出低维度的待训练特征图;使用深度卷积神经网络训练低维度的待训练特征图;用训练好的网络结构提取图像的注视点信息,并进行注视点的检测,得到注视图。

本发明的目的是通过下述技术方案来实现。

基于四元数小波变换深度视感知的注视点检测方法,包括以下步骤:

步骤1,对自然场景图像进行四元数小波一级分解,采用低通滤波器、高通滤波器对图像的行像素、列像素分别进行不同组合方式的滤波处理,获得4个通道,即低通和低通、低通和高通、高通和低通、高通和高通,和三个方向,即水平、垂直、对角上的12幅细节子带图和4个通道上的4幅近似图;

步骤2,使用1×1卷积核构建的降低维度的卷积网络结构,对12幅细节子带图进行降低维度的处理,从12幅细节子带图中提取出可以更好表征图像细节信息的3幅细节特征图,用于提取图像注视点的深度卷积神经网络结构的训练;

步骤3,基于降低维度的卷积网络提取的细节特征图,采用深度卷积神经网络进行训练,建立细节特征图与图像注视点之间的映射网络,并采用训练好的降低维度的卷积网络和深度卷积神经网络进行注视点的检测。

优选地,步骤1进一步包括:本发明中的四元数小波变换是指双树四元数二维离散小波变换,图像的四元数小波变换是由实数小波变换和二维的希尔伯特变换共同构成,通过二维的希尔伯特变换构造四元数小波变换的标准正交基,对图像进行四元数小波变换,可以获得四个通道的小波系数,即12幅细节子带图和4幅近似图。具体通过下述步骤实现:

1)如果用和ψ分别表示四元数小波变换的小波尺度函数和小波基函数,则沿水平方向x、垂直方向y和对角方向xy的希尔伯特变换分别可以表示为:

其中,h表示希尔伯特变换,和公式(1)变换的结果共同构成了一组标准正交基。

2)类似于步骤1),分别对小波函数ψh(x)ψh(y)进行希尔伯特变换,可以构造出四元数小波变换包含的四组标准正交基,可以表示成矩阵g:

3)对图像进行四元数小波变换的一级分解,可以获得四个通道上的小波分解系数,用矩阵f表示:

其中,ll表示通道低通和低通,lh表示通道低通和高通,hl表示通道高通和低通,hh表示通道高通和高通。矩阵f中,第一行表示近似部分的系数矩阵,即4幅近似图;第二、三、四行分别表示水平方向、垂直方向和对角方向上的细节系数矩阵,即12幅细节子带图。

优选地,步骤2进一步包括:步骤1中得出的12幅细节子带图,包含较大的数据量,如果用12幅细节子带图直接训练深度卷积神经网络,需要很长的训练时间,为了提高训练效率,本发明采用1×1卷积核构造的卷积神经网络对12幅细节子带图进行降低维度的操作。

优选地,步骤2进一步包括:构造降低待训练数据维度的卷积神经网络,包括1个输入层,3个卷积层和1个输出层,连接方式为:输入层→卷积层1→卷积层2→卷积层3→输出层,每个卷积层的输出均经过一次批标准化(batchnorm)和激活函数1(relu)后输入到下一相邻层中。输入层将12幅细节子带图输入到降低维度的卷积神经网络中,经过多层卷积处理后,可以得到低维度的待训练特征图。relu函数的表示形式如下:

f(x)=max(0,x)(4)

优选地,步骤3进一步包括,将降低维度后的待训练特征图输入到深度卷积神经网络中,训练该网络,并用训练好的网络结构检测图像注视点。深度卷积神经网络进一步分为提取注视点特征的网络和检测注视点的网络,具体网络结构和实现步骤如下:

1)构造提取注视点特征的网络,包括1个输入层,5个卷积阶段和1个输出层,前两个卷积阶段均包括2个卷积层和1个池化层,接着两个卷积阶段均包括3个卷积层和1个池化层,最后一个卷积阶段仅包括3个卷积层。具体连接方式:输入层→卷积阶段1(卷积层1_1→卷积层1_2→池化层1)→卷积阶段2(卷积层2_1→卷积层2_2→池化层2)→卷积阶段3(卷积层3_1→卷积层3_2→卷积层3_3→池化层3)→卷积阶段4(卷积层4_1→卷积层4_2→卷积层4_3→池化层4)→卷积阶段5(卷积层5_1→卷积层5_2→卷积层5_3)→输出层,每个卷积层的输出均经过激活函数1(relu)后才输入到下一相邻层中。

其中,每一个卷积层均采用小尺度卷积核,相对于大尺度卷积核,小尺度卷积核的卷积过程可以降低网络结构的参数。输入层将待训练的3幅细节特征图输入到提取特征的网络中,经过5个卷积阶段的操作后,输出注视点特征信息。

2)构建检测注视图的网络结构,包括3个反卷积层、1个卷积层和1个输出层,具体连接方式如下描述:将提取注视点特征的网络中的卷积层3_3、卷积层4_3和卷积层5_3输出的特征信息分别输入到不同的反卷积层;再分别经过一次裁切(crop)处理,获得和原图尺寸大小一致的3幅特征图;然后经过1个卷积层后输出1幅表征图像注视点信息的特征图,并经过激活函数2(sigmod)后,输出图像的注视图。

其中,每个卷积层输出的特征信息均不一样,为了提高检测效果,本发明将卷积层3_3、卷积层4_3和卷积层5_3输出的特征信息进行融合,用于检测注视点。由于提取注视点特征时,经过了多个卷积层和池化层,因此不同卷积层输出的特征图的尺寸大小不一致,本发明将卷积层3_3、卷积层4_3和卷积层5_3输出的特征图进行反卷积后再融合处理。融合出的注视点特征信息经过sigmod函数计算每个像素点的显著值,从而获得检测出的注视图。sigmod函数的表示形式如下:

附图说明

图1为本发明基于四元数小波变换深度视感知的注视点检测方法的总体流程图;图2为本发明降低维度的卷积神经网络结构图;图3为本发明深度卷积神经网络结构图;图4为本发明最终注视点检测的结果图。

具体实施方式

下面结合附图及具体实施方式进一步说明本发明,但此种通过附图描述的实施例是示例性的,仅用于解释本发明,不能限制本发明权力范围。

本发明是基于四元数小波变换深度视感知的注视点检测方法,图1是本发明的整体流程框图,其具体实施步骤如下:

1、细节子带图的获取

本发明的四元数小波变换是指对图像进行双树四元数二维离散小波变换,图像经过四元数小波变换后可以产生12幅细节子带图和4幅近似图,从12幅细节子带图中提取图像特征用于注视点的检测。四元数小波变换的具体步骤如下:

1)构造小波函数:用和ψ分别表示四元数小波变换的小波尺度函数和小波基函数,则小波函数沿x方向、y方向和xy方向的希尔伯特变换分别可以表示为:

2)使用希尔伯特变换构造四元数小波变换的标准正交基:类似于步骤1),分别对小波函数进行希尔伯特变换,可以构造出四元数小波变换包含的四组标准正交基,表示成矩阵g:

3)对图像进行四元数小波变换:获得四个通道上的小波分解系数,用矩阵f表示:

矩阵f中,第一行表示近似部分的系数矩阵,即4幅近似图;第二、三、四行分别表示水平方向、垂直方向和对角方向上的细节系数矩阵,即12幅细节子带图,如图1(a)所示,本发明选用的小波系数(细节子带图)是矩阵f中的第二、三、四行。

2、待训练特征图的获取

对12幅细节子带图进行降低维度的处理,减少待训练特征图的维度,提高深度卷积神经网络的训练效率,本发明使用1×1卷积核构建一个降低维度的卷积网络,如图1(b)所示,可以从12幅细节子带图中提取出低维度的待训练特征图,降低维度的卷积网络的层间连接方式如图2所示:输入层→卷积层1→卷积层2→卷积层3→输出层,每个卷积层的输出均经过一次批标准化(batchnorm)和激活函数1(relu)后才输入到下一相邻层中,卷积层1选用1×1×16的卷积核,输入的12幅细节子带图在第一层卷积后输出16层特征图;卷积层2选用1×1×8的卷积核,在第二层卷积后输出8层特征图;卷积层3选用1×1×3的卷积核,在第三层卷积后输出3层特征图;所有的卷积层的步长均为1,每个卷积层输出的数据经过批规范化(batchnorm)处理和激活函数1(relu)操作后才输入到下一相邻层中,降低维度的卷积网络输出的数据是待训练的特征图,输入到深度卷积神经网络中,如图1(c)所示,relu激活函数的表示形式如下:

f(x)=max(0,x)(4)

3、注视图的获取

将降低维度后的待训练特征图输入到深度卷积神经网络中,训练该网络,并用训练好的网络结构检测图像注视点,从而获得注视图。深度卷积神经网络的层间连接方式如图3所示,进一步分为提取注视点特征的网络和检测注视点的网络,具体网络结构和实现步骤如下:

1)构造提取注视点特征的网络,包括1个输入层,5个卷积阶段和1个输出层,前两个卷积阶段均包括2个卷积层和1个池化层,接着两个卷积阶段均包括3个卷积层和1个池化层,最后一个卷积阶段仅包括3个卷积层,具体连接方式:输入层→卷积阶段1(卷积层1_1→卷积层1_2→池化层1)→卷积阶段2(卷积层2_1→卷积层2_2→池化层2)→卷积阶段3(卷积层3_1→卷积层3_2→卷积层3_3→池化层3)→卷积阶段4(卷积层4_1→卷积层4_2→卷积层4_3→池化层4)→卷积阶段5(卷积层5_1→卷积层5_2→卷积层5_3)→输出层,每个卷积层的输出均经过激活函数1(relu)后才输入到下一相邻层中。

提取注视点特征的网络中,每一个卷积层均采用3×3的卷积核,这种小尺度的卷积核,相对于大尺度的卷积核,在进行卷积操作的过程中,可以降低网络结构的参数,第一卷积阶段的所有卷积核均选用3×3×64,第二卷积阶段的所有卷积核均选用3×3×128,第三卷积阶段的所有卷积核均选用3×3×256,第四卷积阶段的所有卷积核均选用3×3×512,第五卷积阶段的所有卷积核均选用3×3×512,所有的池化层均采用2×2的最大池化操作,输入层将降低维度的卷积网络输出的待训练的3幅细节特征图输入到提取注视点特征的网络中,经过5个卷积阶段的操作后,输出注视点特征信息。

2)构建检测注视图的网络结构,包括3个反卷积层、1个卷积层和1个输出层,具体连接方式如下描述:将提取注视点特征的网络中的卷积层3_3、卷积层4_3和卷积层5_3输出的特征信息分别输入到反卷积层1、反卷积层2和反卷积层3中;再分别经过一次裁切(crop)处理,获得和原图尺寸大小一致的3幅特征图;然后经过卷积层6后输出1幅表征图像注视点信息的特征图,并经过激活函数2(sigmod)后,输出图像的注视图。

为了保持输出特征图的尺寸和原图像尺寸一致,本发明采用3个反卷积层分别对卷积层3_3、卷积层4_3和卷积层5_3输出的特征图进行扩大尺寸的操作;再依据原图尺寸大小,对扩大尺寸后的特征图进行裁切处理,获得3幅和原图尺寸大小一致的特征图;然后经过1个1×1×1的卷积核处理后,将3幅特征图融合成1幅表征图像注视点信息的特征图,融合出的注视点特征图经过sigmod函数计算每个像素点的显著值,从而获得检测出的注视图,sigmod函数的表示形式如下:

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1