一种基于全卷积网络的非限制场景中运动目标快速分割方法与流程

文档序号：12367215阅读：来源：国知局

技术特征：

1.一种基于全卷积网络的非限制场景中运动目标快速分割方法，其特征在于：首先，对视频进行分帧，利用分帧后的结果制作样本图像的Ground Truth集合S；采用通过PASCAL VOC标准库训练的全卷积神经网络对视频各帧中的目标进行预测，获取图像前景目标的深层特征估计子，据此得到所有帧中目标最大类间似然映射信息，实现对视频帧中的前景和背景的初步预测；然后，通过马尔科夫随机场对前景和背景的深层特征估计子进行精细化，从而实现对非限制场景视频中视频前景运动目标的分割。

2.根据权利要求1所述的基于全卷积网络的非限制场景中运动目标快速分割方法，其特征在于：所述方法的具体步骤如下：

Step1、对视频进行分帧，利用分帧后的结果制作样本图像的Ground Truth集合S，采用通过PASCAL VOC标准库训练的全卷积神经网络对视频各帧中的目标进行预测，获取图像前景目标的深层特征估计子，据此得到所有帧中目标最大类间似然映射信息，将视频前景和背景分别标记为0、1，实现对视频帧中的前景和背景的初步预测；

Step2、通过马尔科夫随机场对前景和背景的深层特征估计子进行精细化，建立外观模型和位置模型，融合所有帧中目标最大类间似然映射信息在所有帧中分割目标；

Step3、循环步骤Step1至Step2，直至完成视频中的运动目标分割。

3.根据权利要求2所述的基于全卷积网络的非限制场景中运动目标快速分割方法，其特征在于：所述步骤Step1中，建立全卷积网络，获得各自图像帧的最大类间似然映射信息步骤如下：

Step1.1、对目标视频进行分帧处理，获取具有运动目标的视频帧，挑选目标的若干幅图像组成特征训练样本集，制作目标图像的Ground Truth集合，共同构成运动目标特征的训练集合S；

Step1.2、将VGG-16模型的最后三层，即全连接层用卷积层替换，构成全卷积网络，利用PASCAL VOC标准库训练全卷积网络；

Step1.3、将分好的视频帧作为网络输入，利用训练好的全卷积网络对视频帧中的目标进行预测，获取图像前景目标的深层特征估计子；其中，网络层的数据为h×w×d大小的数组，h、w为空间维度，d为图像的色彩通道，对于网络结构第一层，其输入为原始图像，h×w为图像大小，d为图像的色彩通道，对于网络的其它层，其输出为η_ij＝ξ_ks({X_si+i,sj+j}_0≤i,j≤k)，X_ij是在指定层(i,j)处的数据向量，k为卷积核大小，s为降采样因子，ξ_ks决定网络层的类型；

Step1.4、对全卷积网络得到的特征映射双线性上采样即反卷积对得到的特征映射精炼，在网络结构浅层处减小上采样的步长，得到精炼层的特征映射，将其同网络高层得到的粗略层的特征映射融合得到新的一个特征映射层，再次做上采样得到新的精炼特征映射输出。

4.根据权利要求2所述的基于全卷积网络的非限制场景中运动目标快速分割方法，其特征在于：所述步骤Step2中，将视频帧每一帧过分割为超像素，并为超像素建立表观模型和位置模型，结合所有内-外映射在所有帧中分割目标步骤如下：

Step2.1、将视频帧过分割为超像素集合S，对超像素集合S中每个超像素赋予一个属于{0,1}的标签，分别为前景和背景，建立马尔科夫随机场能量函数对标签做出惩罚，优化标记结果：

$<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>λ</mi> <mi>U</mi> </msup> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>v</mi> </mrow> </munder> <msubsup> <mi>U</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>λ</mi> <mi>V</mi> </msup> <munder> <mo>Σ</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> <mo>&Element;</mo> <msub> <mi>ϵ</mi> <mi>s</mi> </msub> </mrow> </munder> <msubsup> <mi>V</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <msubsup> <mi>l</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>+</mo> <msubsup> <mi>l</mi> <mi>j</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>Σ</mo> <mrow> <mrow> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> </mrow> <mo>&Element;</mo> <msub> <mi>ϵ</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>,</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <msubsup> <mi>l</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>,</mo> <msubsup> <mi>l</mi> <mi>j</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>$

利用图割法，得到将能量函数最小化的标签其中，U^t为一个一元项，它可以根据第t帧的外观模型估计一个超像素是前景或是背景的可能性，V，W为二元项，它们能够平滑空间和时间邻域，变量i∈V，V＝{1,2,...,n}，λ为一权衡参数；

Step2.2、结合内-外映射利用交互分割法建立外观模型U^t自动估计前景和背景，外观模型包含两个在RGB空间内的混合高斯模型，其中一个为前景，另一个为背景，超像素位于前景和背景中的可能性，为所有超像素建立前景模型和背景模型，前景模型超像素的权重定义为背景模型超像素的权重定义为其中β^U为时间上的权重，为超像素属于目标的百分比，反之为超像素不属于目标的百分比；

Step2.3、建立位置模型L^t降低背景颜色和前景颜色相似情况下对分割效果的影响，利用公式argmax_cη^t_p(i,j,c)建立最大类间位置似然，由η^t_p(i,j,c)全连接网络预测层在上一个时刻t的输出，判断像素(i,j)处第c类目标的分类似然，结合最大类间位置似然内-外映射传播法建立位置先验，超像素通过光流传递从第一帧正向传播到最后一帧，超像素帧间传播t+1帧中的位置通过如下公式得到更新：由Φ判断传播质量是否可靠，对不可靠的传递作出惩罚进行降权处理；类似于上述过程，再将超像素通过光流从最后一帧反向传播至第一帧，最后将正向传播和反向传播两步归一化和，建立位置模型，其中，为连接权重，δ为更新速率，δ∈[0,1]，为像素p的光流向量。

5.根据权利要求3所述的基于全卷积网络的非限制场景中运动目标快速分割方法，其特征在于：

所述步骤Step1.2中全卷积网络层数为13层。

完整全部详细技术资料下载

当前第2页1 2 3