一种基于可变形卷积层的特征图像提取的方法及装置与流程

文档序号:12035208阅读:716来源:国知局
一种基于可变形卷积层的特征图像提取的方法及装置与流程

本发明涉及人工智能领域,特别是涉及一种基于可变形卷积层的特征图像提取的方法及装置。



背景技术:

随着科技不断的进步,近几年深度学习得到了长远的发展。目前最热门的技术是卷积神经网络,并且基于卷积神经网络的图像检测已经成为国防军事、社会安全、公共交通、商业应用等各个领域的基础性研究课题。迄今为止,最好的图像检测技术都是使用卷积神经网络来实现的。

在进行图像检测的过程中,同一个物体在图像中可能呈现不同的大小、姿态、视角变化甚至是刚性形变,获取的图像中对于同一物体会发生形变。当图像发生形变时,在现有技术中,通常的做法是依靠数据本身的多样性,即事先存储有同一物体在不同远近,不同姿态,甚至是不同光线下该物体的特征图像。现有技术中,通常是依靠数据的多样性来提高在图像检测时的精度以及鲁棒性。

但是在现有技术中,对于发生形变的物体需要存储有大量与该物体相关的特征图像,会使得数据量非常大,不方便存储,并且在进行特征图像的对比时会花费大量的时间。现有的卷积网络架构中,无法根据图像的内容自适应的调整卷积核的感受野,从而会限制对于发生形变的物体的识别精度。



技术实现要素:

本发明的目的是提供一种基于可变形卷积层的特征图像提取的方法,可以有效提高图像识别的精度;本发明的另一目的在于提供一种基于可变形卷积层的特征图像提取的装置,可以有效提高图像识别的精度。

为解决上述技术问题,本发明提供一种基于可变形卷积层的特征图像提取的方法,所述方法包括:

获取目标图像;

通过卷积层中卷积核的采样点从所述目标图像中提取像素值以得到特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值。

可选的,所述卷积核所提取的像素值为:其中,y(s0)是所述特征图像中位置是s0的像素值;w(sn)是所述卷积核在所述目标图像对应位置进行卷积运算的权值;sn是所述采样点在所述卷积核中的位置;x(s0+sn+δsn)是所述目标图像对应位置的像素值;δsn是所述偏移变量。

可选的,所述通过可变形卷积层的采样点从所述目标图像中提取特征图像包括:

通过所述采样点从所述目标图像对应于所述采样点相邻的像素点中,根据双线性插值提取像素值,以得到所述特征图像。

可选的,所述偏移变量为取整后的偏移变量。

可选的,所述偏移变量为预先通过梯度反向传播进行训练的偏移变量。

本发明还提供了一种基于可变形卷积神经网络的特征图像提取的装置,所述装置包括:

获取模块:用于获取目标图像;

提取模块:同于通过可变形卷积层的采样点从所述目标图像中提取特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值。

可选的,所述提取模块具体用于:

通过卷积层中卷积核的采样点从所述目标图像中提取像素值以得到特征图像,所述卷积核所提取的像素值为:其中,y(s0)是所述特征图像中位置是s0的像素值;w(sn)是所述卷积核在所述目标图像对应位置进行卷积运算的权值;sn是所述采样点在所述卷积核中的位置;x(s0+sn+δsn)是所述目标图像对应位置的像素值;δsn是所述偏移变量。

可选的,所述提取模块具体用于:

通过所述采样点从所述目标图像对应于所述采样点相邻的像素点中,根据双线性插值提取像素值,以得到所述特征图像。

可选的,所述提取模块具体用于:

通过可变形卷积层的采样点从所述目标图像中提取特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值,所述偏移变量为取整后的偏移变量。

可选的,所述提取模块具体用于:

通过可变形卷积层的采样点从所述目标图像中提取特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值,所述偏移变量为预先通过梯度反向传播进行训练的偏移变量。

本发明所提供的一种基于可变形卷积层的特征图像提取的方法,可以对卷积核中每个采样点增加一个偏移变量,从而使得卷积神经网络实现了学习图像空间几何形变的能力,可以使得卷积核在当前位置附近随意采样,增加了卷积层在提取特征图像时对于发生了形变的图像的适应性,即可以根据目标图像的内容自适应的调整卷积核的感受野,从而会增加了对于发生形变的物体的识别精度。本发明还提供了一种基于可变形卷积神经网络的特征图像提取的装置,同样具有上述有益效果,在此不再进行赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的第一种特征图像提取方法的流程图;

图2为现有技术中采样点的分布示意图;

图3为本发明实施例中采样点的分布示意图;

图4为本发明实施例所提供的第二种特征图像提取方法的流程图;

图5为双线性插值的示意图;

图6为本发明实施例提供的特征图像提取装置的结构框图。

具体实施方式

本发明的核心是提供一种基于可变形卷积层的特征图像提取的方法。在现有技术中所使用的网络架构,通常是沿用了二十年的基本网络架构,在获取到的目标图像之后,会对目标图像进行基于规则格点位置采样,然后对于采样到的图像值做卷积处理,并将得到的像素值作为图标图像中该位置的输出。

使用数学表达式表示卷积运算:

yl=wlxl+bl

其中l是卷积层索引,即表示为第l个卷积层;x是目标图像中的卷继区域,其大小通常设定为k×k的c通道的像素,当然,卷积区域的长和宽也可以不一致,视具体情况而定;w是卷积权重,其形状是d×k×k×c的权值矩阵,d是滤波器数量。

从模型的角度分析,由于卷积核有固定的几个形状,而卷积操作也有固定的几何结构,所以由其层叠搭建而成的卷积神经网络的几何结构也是固定的,其不具有对于发生形变的图像的建模能力。

而为了使得卷积神经网络可以识别出同一物体在不同条件下以及经过不同程度的变形后的该物体,通常是是依靠数据本身的多样性,即事先存储有同一物体在不同远近,不同姿态,甚至是不同光线下该物体的特征图像。现有技术中,通常是依靠数据的多样性来提高在图像检测时的精度以及鲁棒性。

但是在现有技术中,对于发生形变的物体需要存储有大量与该物体相关的特征图像,会使得数据量非常大,不方便存储,并且在进行特征图像的对比时会花费大量的时间。现有的卷积网络架构中,无法根据图像的内容自适应的调整卷积核的感受野,即卷积核的形状,从而会限制对于发生形变的物体的识别精度。

而本发明实施例所提供的一种基于可变形卷积层的特征图像提取的方法,可以对卷积核中每个采样点增加一个偏移变量,从而使得卷积神经网络实现了学习图像空间几何形变的能力,可以使得卷积核在当前位置附近随意采样,增加了卷积层在提取特征图像时对于发生了形变的图像的适应性,即可以根据目标图像的内容自适应的调整卷积核的感受野,从而会增加了对于发生形变的物体的识别精度。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图2和图3;图1为本发明实施例所提供的第一种特征图像提取方法的流程图;图2为现有技术中采样点的分布示意图;图3为本发明实施例中采样点的分布示意图。

在本发明实施例中,所述方法包括:

s101:获取目标图像。

在本步骤中,获取目标图像的方式有很多种,例如通过摄像模组来直接获取所述目标图像,也可以通过由其它设备传输过来的目标图像,在此不做具体限定。

在本发明实施例中,所述目标图像不仅仅限于通过外接设备获取的包括目标物体的原图像,还可以是已经经过其他卷积层提取过后输出的特征图像。由于在现阶段卷积神经网络中,通常是经过多个卷积层来对所述原图像进行提取,在经过多个卷积层依次进行层层提取之后,得到最终的特征图像。而本发明实施例中,经过添加偏移变量的卷积核所在的卷积层不仅限于作为第一层卷积层对原图像进行提取,而是可以作为任意一层卷积层对目标图像进行提取。其中目标图像不仅仅限于通过外接设备获取的包括目标物体的原图像,还可以是已经经过其他卷积层提取过后输出的特征图像。

更进一步的,整个卷积神经网络中各个卷积层中都可以是下述本发明实施例中的卷积层,当然也可以在整个卷积神经网络中只使用一层或几层,视具体的情况而定,在此不做具体限定。

s102:通过卷积层中卷积核的采样点从目标图像中提取像素值以得到特征图像。

在本发明实施例中,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值。

请参考图2,在使用普通的卷积神经网络提取特征图像中,一般分为两步,第一步是在目标图像中使用如图2所示的规则采样点进行采样;第二步是对采样得到的图像值做卷积并输出该位置的像素值。通过不断循环上述两个步骤来得到最终的特征图像。

其中,规则采样点决定了感受野的大小,感受野越大,卷积神经网络中卷积核每次看到的图像区域也就越大。如图2所示,该卷积核大小为3×3,有9个采样点。

相应的,上述卷积核在提取像素值时所用到的公式通常是:

其中,y(s0)是所述特征图像中位置是s0的像素值;w(sn)是所述卷积核在所述目标图像对应位置进行卷积运算的权值;sn是所述采样点在所述卷积核中的位置;x(s0+sn)是所述目标图像对应位置的像素值。

请参考图3,在本发明实施例中,对于每个采样点,均增加了一个偏移变量δsn,此时采样点的分布不在规则,即卷积核的形状就不再是规则的了,从而感受野的大小与形状也不再规则。此时采样点的位置从原来的sn变成了sn+δsn,实际效果请参考图3。

相应的,在本发明实施例中,卷积核所提取的像素值为:

其中,y(s0)是所述特征图像中位置是s0的像素值;w(sn)是所述卷积核在所述目标图像对应位置进行卷积运算的权值;sn是所述采样点在所述卷积核中的位置;x(s0+sn+δsn)是所述目标图像对应位置的像素值;δsn是所述偏移变量。

在增加了偏移变量δsn之后,整个卷积神经网络拥有了适应图像形变的能力,其中偏移变量δsn还可以是整个卷积神经网络结构的一部分。而为了将卷积神经网络拥有学习图像空间几何形变的能力,可以通过梯度反向传播来训练所述偏移变量δsn。

在进行梯度反向传播来训练参数时,需要用到梯度下降算法。常用的梯度下降算法有批量梯度下降,随机梯度下降,小批量梯度下降等等,在本发明实施例中,所用的梯度下降算法为随机梯度下降。当然也可以使用其他的梯度下降算法,视具体的情况而定,在此不做具体限定。

在所述梯度下降算法中,设定代价函数:

而上述代价函数的梯度为:

在得到上述代价函数的梯度之后,就可以通过下式更新卷积层中的参数θ:

θj=θj-η·▽θj(θ;x(i),y(i));

在上述3个公式中,j(θ)是代价函数,hθ(xi)是卷积神经网络的输出,xi和yi是所述输出的样本值与标签值。

本发明实施例所提供的一种基于可变形卷积层的特征图像提取的方法,可以对卷积核中每个采样点增加一个偏移变量,从而使得卷积神经网络实现了学习图像空间几何形变的能力,可以使得卷积核在当前位置附近随意采样,增加了卷积层在提取特征图像时对于发生了形变的图像的适应性,即可以根据目标图像的内容自适应的调整卷积核的感受野,从而会增加了对于发生形变的物体的识别精度。

在本发明中,由于偏移变量δsn是一个高精度的小数,在添加完偏移变量δsn之后,采样点通常不会落在上述目标图像中各个像素点上,此时需要相应的计算像素值的算法来计算各个采样点所提取的像素值。详细情况将在下述实施例中做详细描述。

请参考图4和图5,图4为本发明实施例所提供第二种特征图像提取方法的流程图;图5为双线性插值的示意图。

请参考图4,本发明实施例所述的方法包括:

s201:获取目标图像。

本步骤与上述实施例中s101相同,具体情况以在上述实施例中做详细描述,在此不再进行赘述。

s202:通过采样点从目标图像对应于采样点相邻的像素点中,根据双线性插值提取像素值,以得到特征图像。

在本发明实施例中,提供两种计算像素值的方法,第一种是直接将所述偏移变量δsn取整,使得采样点可以落在上述目标图像的像素点上,之后就可以计算该点的像素值。但是直接取整的话会造成较大的误差,并且该误差会在迭代的时候不断的积累,最终会影响整个卷积神经网络的识别精度。但是该方法不需要额外的计算步骤,所以运算起来比较快速。

在本步骤中,着重介绍第二种计算像素值的方法,即根据双线性插值提取像素值。

先介绍线性插值,假设已知两点的数据分别是(x0,y0),(x1,y1),计算出某一位置x∈(x0,x1)的y,有以下公式进行计算:

即:

上述的公式可以简化成y=αy0+βy1,权重就是x分别到x0,x1的距离,用于对y0,y1进行加权。

请参考图5,双线性插值本质上就是在两个方向上进行线性插值。

假设已知函数f在p11(x1,y1)、p12(x1,y2)、p21(x2,y1)和p22(x2,y2)四个坐标点的值,这里可以看成是已知四个像素点的像素值。现在是要求出s(x,y)的像素值,就有如下公式:

其中f(a1)是a1(x,y1)的像素值;f(a2)是a2(x,y2)的像素值。然后在y方向上进行插值,就得到:

综合上述公式,可以得到最终双线性插值的公式:

将上述双线性插值结合到我发明实施例中,由于目标图像中取样点只会相邻4个像素点,所以上述公式中分母为1。

设x(s)=x(s0+sn+δsn),则可以得到下述公式:

g(q,s)=g(qx,sx)·g(qy,sy);

其中,q是本发明实施例中输入的目标图像的坐标值;sx是采样点s的横坐标;sy是采样点s的纵坐标;g(q,s)是双线性插值的核函数。

利用梯度反向传播学习偏移变量δsn可以表示为:

其中,y(s0)是所述特征图像中位置是s0的像素值;w(sn)是所述卷积核在所述目标图像对应位置进行卷积运算的权值;sn是所述采样点在所述卷积核中的位置;x(s0+sn+δsn)是所述目标图像对应位置的像素值;δsn是所述偏移变量;x(q)是目标图像中对应像素点的像素值;g(q,s0+sn+δsn)是双线性插值的核函数。

在本发明中,还可以通过其他的方法来计算像素值,在此不做具体限定。

本发明实施例所提供的一种基于可变形卷积层的特征图像提取的方法,可以通过双线性插值的方法精确的得到采样点所处位置的像素值,从而进一步的提高卷积神经网络的图像识别精度。并且给出学习所述偏移变量δsn的方法,使得卷积神经网络可以学习图像空间几何形变的能力,可以根据目标图像的内容自适应的调整卷积核的感受野,从而提高对于发生形变的图像的识别精度。

下面对本发明实施例提供的一种基于可变形卷积神经网络的特征图像提取的装置进行介绍,下文描述的特征图像提取装置与上文描述的特征图像提取方法可相互对应参照。

图6为本发明实施例提供的特征图像提取装置的结构框图,参照图6特征图像提取装置可以包括:

获取模块100:用于获取目标图像;

提取模块200:同于通过可变形卷积层的采样点从所述目标图像中提取特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值。

在本发明实施例中,所述提取模块200可以具体用于:

通过卷积层中卷积核的采样点从所述目标图像中提取像素值以得到特征图像,所述卷积核所提取的像素值为:其中,y(s0)是所述特征图像中位置是s0的像素值;w(sn)是所述卷积核在所述目标图像对应位置进行卷积运算的权值;sn是所述采样点在所述卷积核中的位置;x(s0+sn+δsn)是所述目标图像对应位置的像素值;δsn是所述偏移变量。

在本发明实施例中,所述提取模块200可以具体用于:

通过所述采样点从所述目标图像对应于所述采样点相邻的像素点中,根据双线性插值提取像素值,以得到所述特征图像。

在本发明实施例中,所述提取模块200可以具体用于:

通过可变形卷积层的采样点从所述目标图像中提取特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值,所述偏移变量为取整后的偏移变量。

在本发明实施例中,所述提取模块200可以具体用于:

通过可变形卷积层的采样点从所述目标图像中提取特征图像,所述采样点的实际坐标值是根据预先设置的初始坐标值和预先训练的偏移变量计算得到的所述实际坐标值,所述偏移变量为预先通过梯度反向传播进行训练的偏移变量。

本实施例的特征图像提取装置用于实现前述的特征图像提取方法,因此特征图像提取装置中的具体实施方式可见前文中的特征图像提取方法的实施例部分,例如,获取模块100,提取模块200,分别用于实现上述特征图像提取方法中步骤s101,和s102,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于可变形卷积神经网络的特征图像提取的方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1