基于深度学习的训练方法和装置以及目标跟踪方法和装置与流程

文档序号:18400910发布日期:2019-08-09 23:52阅读:205来源:国知局
基于深度学习的训练方法和装置以及目标跟踪方法和装置与流程

本发明涉及图像处理领域,尤其涉及一种基于深度学习的训练方法和装置以及目标跟踪方法和装置。



背景技术:

目标跟踪一直以来都是计算机视觉领域研究的热点,其应用于人机交互、智能视频监控和交通检测等方面。而单目标跟踪是给出跟踪视频第一帧中目标的边界框,然后预测目标在后续帧中的边界框。目标跟踪可以分为生成式和判别式两种类型。其中生成式方法采用生成模型来描述跟踪目标的表观特征,再进行搜索候选目标以使重构误差达到最小。而判别式方法通过把跟踪的任务转为分类的任务,即通过训练分类器来判别目标和背景,其往往通过imagenet等大规模分类数据集预训练的cnn(convolutionalneuralnetwork,卷积神经网络)来提取特征,这样可以解决缺乏数据的问题。目前基于深度学习的目标跟踪方法就属于判别式方法,其开始领先于生成式方法。在现有技术中,深度学习的目标跟踪中的分类器无法充分利用特征信息,从而无法进一步提升目标跟踪的成功率。



技术实现要素:

本发明的主要目的在于提供一种基于深度学习的训练方法和装置以及目标跟踪方法和装置,旨在解决现有技术中目标跟踪的成功率低的技术问题。

为了解决上述技术问题,本发明提供的技术方案为:

一种基于深度学习的训练方法,包括:获取训练图像;对所述训练图像进行前向传播,获得特征信息;将所述特征信息输入胶囊投影网络,获得胶囊投影;对所述胶囊投影进行反向传播,获得注意力图;根据所述注意力图训练胶囊投影网络。

其中,所述将所述特征信息输入胶囊投影网络,获得胶囊投影的步骤包括:基于胶囊投影网络,获得特征信息的正交投影的公式表示为:

其中,x为特征信息对应的特征向量,l为大于0的自然数,wl为权重矩阵,v为胶囊投影;使vl=plx,pl为胶囊子空间sl的投影矩阵,为伪逆矩阵,∑l为特征向量x的归一化矩阵,为wl的转置,从而获得胶囊投影的长度,其中,胶囊投影的长度对应训练图像的第一分类成绩,所述胶囊投影的长度的公式表示为:

其中,为vl的转置,xt为x的转置,为pl的转置。

其中,所述对所述训练图像进行前向传播,获得特征信息的步骤包括:将所述训练图像依次输入卷积层和全连接层,获得特征信息。

其中,所述对所述胶囊投影进行反向传播,获得注意力图的步骤包括:将胶囊投影依次输入全连接层和卷积层,获得所述训练图像的偏导数,其中,偏导数对应注意力图。

其中,所述获得所述训练图像的偏导数的步骤包括:基于注意力机制,获得训练图像的第二分类成绩的公式表示为:

其中,fc(i)为类别c的第二分类成绩,i表示训练图像上的像素,表示ac的转置,b表示进行一阶泰勒展开后获得的剩余项;

根据第二分类成绩,获得fc(i)的偏导数的公式表示为:

其中,i0为训练图像上需要关注的像素,表示求偏导。

其中,所述根据所述注意力图训练胶囊投影网络的步骤包括:对注意力图进行分类处理,获得第一注意力图和第二注意力图,其中,所述第一注意力图为目标的注意力图,所述第二注意力图为背景的注意力图;

获得所述第一注意力图的正则项值的公式表示为:

获得所述第二注意力图的正则项值的公式表示为:

其中,σ为注意力图的平均值,μ为注意力图的标准差算子,ap为第一注意力图,an为第二注意力图;

通过所述正则项值获得总的损失函数,根据所述总的损失函数训练胶囊投影网络,总的损失函数的公式表示为:

lsum=l+λ·[y·r(y=1)+(1-y)·r(y=0)]

其中,l为交叉熵损失函数,λ为约束参数,y为0或1的自然数,r(y=1)为第一注意力图的正则项值,r(y=0)为第二注意力图的正则项值。

其中,所述根据所述损失函数训练胶囊投影网络的步骤包括:通过损失函数对权重矩阵的进行偏导处理,获得胶囊投影的梯度,根据链式法则和逆矩阵的微分获得胶囊投影的梯度的公式表示为:

其中,表示求偏导,x为特征信息对应的特征向量,xt为x的转置,wl为权重矩阵,为wl的伪逆,的转置。

本发明提供的另一技术方案为:

一种基于所述基于深度学习的训练方法的目标跟踪方法,包括:获取目标图像;对所述目标图像进行前向传播,获得目标特征信息;将所述特征信息输入胶囊投影网络,获得胶囊投影;根据所述胶囊投影获得所述目标图像的分类成绩;根据所述分类成绩判断目标的边界框。

本发明提供的再一技术方案为:

一种基于深度学习的训练装置,包括:第一获取模块,用于获取训练图像;第二获取模块,用于对所述训练图像进行前向传播,获得特征信息;第三获取模块,用于将所述特征信息输入胶囊投影网络,获得胶囊投影;第四获取模块,用于对所述胶囊投影进行反向传播,获得注意力图;训练模块,用于根据所述注意力图训练胶囊投影网络。

本发明提供的又一技术方案为:

一种目标跟踪装置,包括:第一获取模块,取获取目标图像;第二获取模块,对所述目标图像进行前向传播,获得目标特征信息;第三获取模块,将所述特征信息输入胶囊投影网络,获得胶囊投影;第四获取模块,根据所述胶囊投影获得所述目标图像的分类成绩;判断模块,根据所述分类成绩判断目标的边界框。

本发明的实施例通过将特征信息输入胶囊投影网络,获得胶囊投影,通过胶囊投影可以充分利用垂直于胶囊子空间的特征信息,从而提高了胶囊子空间的更新效率,进一步提高了目标跟踪的成功率。而且,通过注意力图训练胶囊投影网络,可使胶囊投影网络不断地学习如何区别训练图像中目标和背景,使得胶囊投影网络逐渐将注意力集中在整个目标区域,从而提高了目标跟踪的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明的一个实施例的基于深度学习的训练方法的流程图。

图2是根据本发明的一个实施例的二维胶囊子空间的示意图。

图3是根据本发明的一个实施例的目标跟踪方法的流程图。

图4是根据本发明的一个实施例的基于深度学习的训练装置的结构框图。

图5是根据本发明的一个实施例的目标跟踪装置的结构框图。

具体实施例

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例的激光清洗方法的基本流程可参考图1,包括如下步骤:

步骤101,获取训练图像。

步骤102,对训练图像进行前向传播,获得特征信息。

在本实施例中,将训练图像依次输入卷积层和全连接层,获得特征信息。

其中,通过卷积层对训练图像进行特征信息提取,通过全连接层对特征信息进行分类。

步骤103,将特征信息输入胶囊投影网络,获得胶囊投影。

在本实施例中,将目标跟踪方法中的最后一个全连接层替换成胶囊投影网络。胶囊投影网络通过学习一组胶囊子空间{s1,s2,s3,...,sl},从而将每个胶囊子空间和特征信息进行关联。假设该胶囊投影网络前的全连接层输出的特征向量x∈rd,我们将x投影到该胶囊子空间上,从而产生l个胶囊投影{v1,v2,v3,...,vl},再根据胶囊投影的长度判断训练图像不同类别的概率,胶囊投影的长度越长,表示某个类别的概率越大。假设该胶囊子空间sl的维度为c,获得特征信息的正交投影的公式表示为:

其中,x为特征信息对应的特征向量,l为大于0的自然数,wl为权重矩阵,v为胶囊投影。

假设vl=plx,pl为胶囊子空间sl的投影矩阵,为伪逆矩阵,∑l为特征向量x的归一化矩阵,为wl的转置,从而获得胶囊投影的长度,其中,胶囊投影的长度对应训练图像的第一分类成绩,胶囊投影的长度的公式表示为:

其中,为vl的转置,xt为x的转置,为pl的转置。

胶囊投影网络里一个非常特殊的属性是图像中某个类别的实例的存在。它的输出数值大小就是类别存在的概率。数学上常说的向量是一个有方向和长度的概念,把胶囊类比于数学向量,它也有所谓的″长度″和″方向″。我们通过学习一组胶囊子空间来表示这一想法,以表示一组类别。一旦学习了胶囊子空间,我们就可以通过在这些胶囊子空间上执行特征向量的正交投影来获得胶囊组。

特别地,我们使用胶囊的长度来判断对应于不同子空间的类别的概率,而它们的方向用于实例化诸如姿势、比例、变形和纹理的类别属性的参数。通过这种方式,可以使用胶囊投影的长度来检测类别的概率,从而防止因外观变化而影响目标跟踪,以及通过将类别的实例化参数编码为胶囊投影的方向来模拟类别的实例化参数的等效性。通过将卷积层提取的特征向量投影到胶囊子空间上来获得胶囊投影。具体地,特征向量被正交分解为胶囊组件,作为胶囊子空间上的投影和垂直于子空间的补充分量。通过分析胶囊投影的梯度,可以沿着包含特征信息的新特征的补充分量迭代地更新胶囊子空间,从而提高目标跟踪的成功率。

胶囊投影网络对任何现有的网络架构都很友好,它建立在一些神经网络生成的嵌入式功能的基础上,并根据不同的类别输出子空间中的投影封装矢量。这使得它可以与现有的网络架构一起使用。由此可知,胶囊投影网络具有很好的兼容性。胶囊投影的长度用于表示类别的概率,并且其方向实例化类别的属性,方向包含训练图像的位置、方向、比例和纹理等属性。通过将特征向量正交投影到胶囊子空间上,从而获得属性的最佳方向。

步骤104,对胶囊投影进行反向传播,获得注意力图。

在本实施例中,将胶囊投影依次输入全连接层和卷积层,获得训练图像的偏导数,其中,偏导数对应注意力图。

其中,在反向传播时没有更新权重。

基于注意力机制,获得训练图像的第二分类成绩的公式表示为:

其中,fc(i)为类别c的第二分类成绩,i表示训练图像上的像素,表示ac的转置,b表示进行一阶泰勒展开后获得的剩余项。

根据第二分类成绩,获得fc(i)的偏导数的公式表示为:

其中,i0为训练图像上需要关注的像素,表示求偏导。

步骤105,根据注意力图训练胶囊投影网络。

对注意力图进行分类处理,获得第一注意力图和第二注意力图,其中,第一注意力图为目标的注意力图,第二注意力图为背景的注意力图。

获得第一注意力图的正则项值的公式表示为:

获得第二注意力图的正则项值的公式表示为:

其中,σ为注意力图的平均值,μ为注意力图的标准差算子,ap为第一注意力图,an为第二注意力图。

在本实施例中,将注意力图分类第一注意力图和第二注意力图,通过调节第一注意力图和第二注意力图的参数,从而使用来自训练图像的约束来帮助提高分类准确度。

具体的,增加ap的均值且减少ap的标准差,使得ap像素强度值大且方差小;减少an的均值且增加an的标准差,使得an的像素强度值小且方差大。从而使分类器提高目标跟踪的概率,同时降低背景跟踪的概率,有利于分类器在训练过程中,准确区分训练图像的目标和背景。

通过所述正则项值获得总的损失函数,根据所述总的损失函数训练胶囊投影网络,总的损失函数的公式表示为:

lsum=l+λ·[y·r(y=1)+(1-y)·r(y=0)]

其中,l为交叉熵损失函数,λ为约束参数,y为0或1的自然数,r(y=1)为第一注意力图的正则项值,r(y=0)为第二注意力图的正则项值。

在本实施例中,通过注意力机制,使分类器在迭代学习的过程中不断强化区分目标和背景的能力,从而使分类器逐渐将注意力集中在整个目标区域。

在本实施例中,通过损失函数对权重矩阵的进行偏导处理,获得胶囊投影的梯度,根据链式法则和逆矩阵的微分获得胶囊投影的梯度的公式表示为:

其中,表示求偏导,x为特征信息对应的特征向量,xt为x的转置,wl为权重矩阵,为wl的伪逆,的转置。

在本实施例中,通过注意力机制,使分类器在迭代学习的过程中不断强化区分目标和背景的能力,从而使分类器逐渐将注意力集中在整个目标区域。

在本实施例中,通过损失函数对权重矩阵的进行偏导处理,获得胶囊投影的梯度,根据链式法则和逆矩阵的微分获得胶囊投影的梯度的公式表示为:

在本实施例中,通过胶囊投影的梯度可以优化损失函数,从而训练胶囊投影网络,获得更好的分类器。

其中,(i-pl)表示对胶囊子空间的正交补码的投影,垂直于胶囊子空间的特征向量x,x包含了没有被胶囊子空间包含的信息,,在训练胶囊投影网络时,x可以充分利用垂直于胶囊子空间的特征向量,从而提高了对胶囊子空间的更新效率,进一步提高目标跟踪的成功率。如图2中所示,特征向量x可分解成胶囊投影v和x,在二维胶囊子空间中,基向量w1沿着x方向更新为w′1,基向量w2沿着x方向更新为w′2。

本发明实施例通过将特征信息输入胶囊投影网络,获得胶囊投影,通过胶囊投影可以充分利用垂直于胶囊子空间的特征信息,从而提高了胶囊子空间的更新效率,进一步提高了目标跟踪的成功率。而且,通过注意力图训练胶囊投影网络,可使胶囊投影网络不断地学习如何区别训练图像中目标和背景,使得胶囊投影网络逐渐将注意力集中在整个目标区域,从而提高了目标跟踪的成功率。

本发明实施例的目标跟踪方法的基本流程可参考图3,包括如下步骤:

步骤201,获取目标图像。

步骤202,对目标图像进行前向传播,获得目标特征信息。

步骤203,将特征信息输入胶囊投影网络,获得胶囊投影。

步骤204,根据胶囊投影获得目标图像的分类成绩。

步骤205,根据分类成绩判断目标的边界框。

图4是根据本发明的一个实施例的基于深度学习的训练装置的结构框图。

从图中可以看出,该训练装置可以具有第一获取模块11、第二获取模块12、第三获取模块13、第四获取模块14以及训练模块15。

第一获取模块11,用于获取训练图像。第二获取模块12,用于对训练图像进行前向传播,获得特征信息。第三获取模块13,用于将特征信息输入胶囊投影网络,获得胶囊投影。第四获取模块14,用于对胶囊投影进行反向传播,获得注意力图。训练模块15,用于根据注意力图训练胶囊投影网络。

在本实施中,第三获取模块13还用于基于胶囊投影网络,获得特征信息的正交投影的公式表示为:

其中,x为特征信息对应的特征向量,l为大于0的自然数,wl为权重矩阵,v为胶囊投影。

假设vl=plx,pl为胶囊子空间sl的投影矩阵,为伪逆矩阵,∑l为特征向量x的归一化矩阵,为wl的转置,从而获得胶囊投影的长度,其中,胶囊投影的长度对应训练图像的第一分类成绩,胶囊投影的长度的公式表示为:

其中,为vl的转置,xt为x的转置,为pl的转置。

在本实施例中,训练模块15还用于对注意力图进行分类处理,获得第一注意力图和第二注意力图,其中,第一注意力图为目标的注意力图,第二注意力图为背景的注意力图。

获得第一注意力图的正则项值的公式表示为:

获得第二注意力图的正则项值的公式表示为:

其中,σ为注意力图的平均值,μ为注意力图的标准差算子,ap为第一注意力图,an为第二注意力图。

通过所述正则项值获得总的损失函数,根据所述总的损失函数训练胶囊投影网络,总的损失函数的公式表示为:

lsum=l+λ·[y·r(y=1)+(1-y)·r(y=0)]

其中,l为交叉熵损失函数,λ为约束参数,y为0或1的自然数,r(y=1)为第一注意力图的正则项值,r(y=0)为第二注意力图的正则项值。

需要说明的,本实施例中基于深度学习的训练装置的具体实现过程和深度学习的训练方法部分相同,具体可参见方法部分的实施例,此处不再赘述。

图5是根据本发明的一个实施例的目标跟踪装置的结构框图。

从图中可以看出,该目标跟踪装置可以具有第一获取模块21、第二获取模块22、第三获取模块23、第四获取模块24以及判断模块25。

第一获取模块21,取获取目标图像。第二获取模块22,对目标图像进行前向传播,获得目标特征信息。第三获取模块23,将特征信息输入胶囊投影网络,获得胶囊投影。第四获取模块24,根据胶囊投影获得目标图像的分类成绩。判断模块25,根据分类成绩判断目标的边界框。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上为对本发明所提供的一种基于深度学习的训练方法和装置以及目标跟踪方法和装置的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施例及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1