融合物体表观信息和运动信息的视频运动物体分割方法与流程

文档序号:17732399发布日期:2019-05-22 02:56阅读:250来源:国知局
融合物体表观信息和运动信息的视频运动物体分割方法与流程

本发明涉及视频图像中物体分割研究领域,特别涉及一种融合物体表观信息和运动信息的视频运动物体分割方法。



背景技术:

对视频中的物体进行分割,一般而言,会用到两种信息:物体本身的表观信息和物体随着时间推移而发生变化的运动信息。表观信息是视频最基本的信息,它反映着当前物体的外观。运动信息则是贯穿于整个视频的信息,记录着物体在时间轴上的变化(位移、形变等)。传统的视频物体分割方法,一般只用了上述两种信息中的一种。对于只提取表观信息的模型来说,当遇到物体颜色和背景难分或者遮挡等情况时,往往会有非常不好的表现;而对于只提取运动信息的模型而言,当遇到物体形变幅度较大或者缺失关键帧的情况时,往往会失效。因此,如何同时利用上述的两种信息来对问题建模,得到更好的分割结果,是视频物体分割技术的一大难点。

近来,随着深度学习技术的蓬勃发展,很多人试图直接用深度模型来对该问题建模,从而解决视频物体分割问题。上述方法虽然在测试中取得了不俗的结果,然而也存在泛化能力不足等问题。归根结底是因为视频对于分割任务而言,实际上是相对冗余的信息。通常一整段视频,只会出现寥寥几个分割目标物体,样本数决定性的不足,就会导致用深度网络直接学习视频信息的时候,很容易出现过拟合的情况。



技术实现要素:

本发明的目的在于克服现有技术的缺点与不足,提供一种融合物体表观信息和运动信息的视频运动物体分割方法,该方法具有实用性强、分割准确率高、泛化能力强的优点。

本发明的目的通过以下的技术方案实现:融合物体表观信息和运动信息的视频运动物体分割方法,包括步骤:

(1)通过用深度特征提取视频的物体表观信息以及运动信息;

(2)对深度表观信息和深度运动信息进行交互编码得到表观-运动信息和运动-表观信息,再将两者融合,得到交互编码后的初始分割图;

(3)视频序列逐帧均进行分割后得到视频分割序列,构建一个能量方程,以使整个视频分割序列的能量总值最小为目标对能量方程进行优化,从而生成一个视频运动物体分割模型;根据该分割模型对初始分割图进一步分割,得到最终分割结构。

本发明通过对物体表观信息和物体运动信息的交互编码,实现将上述两种信息的融合,再经过能量方程的优化,从而生成一个分割准确且泛化能力强的视频运动物体分割模型。相较于一般的深度学习模型,本方法拥有更为强大的泛化能力;而对于传统方法而言,本方法在图像质量以及分割准确率上面都有很大的提升。

优选的,所述步骤(1)中,通过深度显著性分割网络提取视频的物体表观信息。

优选的,所述步骤(1)中,通过深度光流网络提取视频的物体运动信息。

优选的,所述步骤(1)中,物体的表观信息由单帧图片生成,物体的运动信息由相邻两帧图片生成。

优选的,所述步骤(2)中,表观-运动信息是用物体的表观信息来对物体在视频中的运动信息做修正,方法是:先用光流场对视频的前一帧进行位移,然后把位移后的视频帧输入到深度显著性分割网络,得到的深度显著性分割结果便是表观-运动信息。

优选的,所述步骤(2)中,运动-表观信息是用物体的运动信息来对物体在视频中的表观信息做修正,方法是:先用光流场对视频的前一帧分割图进行位移,然后把位移后的分割结果图来修正得到的当前帧的深度显著性分割图。

优选的,所述步骤(3)中,构建能量方程的方法是:将视频分割序列和能量构造成图模型,然后综合自身、相邻节点以及时序上的相邻节点这三个部分进行建模,构造出能量方程。

本发明与现有技术相比,具有如下优点和有益效果:

1、本发明通过用深度特征提取视频的物体表观信息以及物体运动信息,再将表观信息和运动信息交替编码的方式,在提高视频运动物体分割的同时,也增强了模型在该任务上的泛化能力和迁移能力。

2、本发明提出深度表观信息和深度运动信息的交互编码,相较于现有的传统方法而言,在图像质量以及分割结果上面有较大的提升。

3、本发明提出的通过时序信息修正初始分割结果的方法,相较于现有的深度学习方法而言,具有更强的泛化能力。

附图说明

图1是本实施例方法的流程图。

图2是本实施例深度显著性分割网络示意图。

图3是本实施例交互编码流程示意图。

图4是本实施例能量方程优化流程示意图。

图5是采用本实施例方法在davis2016上的部分分割结果图。

图6是采用本实施例方法在segtrack-v2上的部分分割结果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例

参见图1-4,本实施例融合物体表观信息和运动信息的视频运动物体分割方法,主要包括提取视频的物体表观信息、提取视频的物体运动信息、交互编码以及通过构造能量方程优化分割结果等4个步骤,下面结合附图对上述步骤均以实例进行详细说明。

一、提取视频的物体表观信息

该步骤中,搭建并训练一个基于单帧的深度显著性分割网络,获取物体的深度表观信息。如图2所示,深度显著性分割网络一般由两部分组成:编码器和解码器,可以将输入的自然图片转换成0-1分布的显著性分割图。本实施例可采用基于u-net结构的深度学习模型。

1.1编码器一般是多层的深度特征抽取网络,其就如特征金字塔一般的一个下采样过程,把输入的自然图像分层编码。低维特征主要包含图像的局部尖锐的信息,而高层特征主要是图像的整体语义信息。例如结构可采用vgg16的预训练网络,总共有16层卷积层。

1.2解码器一般是多层的深度特征融合网络,呈现一个倒金字塔的上采样结构。主要作用是将编码器编码出来的图像局部和整体特征进行融合,然后进行类似于解码的操作,逐步上采样到和原图大小一致的显著性分割图像。如图2所示,解码器部分是一个和编码器一样大小的网络,也由16层卷积层组成,与池化层所对应的上采样方法用的是最近邻插值,折线箭头的意思是把对应大小的编码器特征图融合到解码器中。

因为显著性检测一般只是一个二类划分,所以它的损失函数是交叉熵,对于单帧图片的分割结果而言,交叉熵的计算公式如下:

其中分别代表的是输入的自然图片和对应的分割结果标签,i和j代表着第j个视频的第i帧。my是显著性分割网络。把当前视频帧输入到训练好的显著性分割网络my,即可得到的深度表观信息:

其中就是单帧的显著性分割结果。

二、提取视频的物体运动信息

该步骤中是通过搭建并训练一个深度光流网络,获取物体的深度运动信息。此处的深度光流网络和深度显著性分割类似,都具有一个下采样和上采样的过程。具体是:先将相邻k帧的连续视频帧输入网络,通过一系列的卷积层和池化层做深度特征抽取,得到图像在时间维度上的特征。然后上采样过程也是逐层把相同大小的特征融合在一起,得到最终的深度光流结果。把相邻k个视频帧输入到训练好的光流网络mp,即可得到的深度运动信息:

其中mp是深度光流网络模型,oi是相邻k帧的光流图。

三、对深度表观信息和深度运动信息进行交互编码

如图3所示,交互编码主要分为以下步骤:

3.1用上面得到的光流oi,算出运动场景中物体的位移,然后把位移加作用到上一帧的显著性分割图中,得到一个由光流中的运动信息矫正的分割结果保留的重叠部分,然后用阈值判断是否该保留之间不重合的部分,实现了用运动信息对表观信息的编码——运动-表观信息。

3.2将从oi中得到的位移作用到视频的上一帧(第j个视频第i-1帧)中,得到一个新的rgb图

3.3将输入深度显著性分割模型my中,得到一个由表观信息限制的光流信息实现了用表观信息对运动信息的编码——表观-运动信息。

3.4最后把融合在一起,如公式(4)所示,就能得到交互编码后的分割图

四、通过构造能量方程优化分割结果

如图4所示,为了同时结合视频的空间信息和时间序列信息来优化和增强分割结果,对视频序列构建了一个能量方程。首先,构建一个能量图g=(v,e),v中的每一个点都对应分割图中的一个像素点,而e则对应它和其它点的边,代表着该点和其它的点之间的能量差值,该步骤的目的是要让整个视频分割序列的能量总值最小。本实施例构建的能量方程如下:

其中p表示构建在g中的每一个节点,q表示与p在空间上邻近的节点,而r表示与p在时间上邻近的节点。设是所有节点的初始能量集合,而lp,lq,lr分别表示p,q,r所拥有的初始能量。ns和nt分别表示与该分割图在空间和时间上面的节点集合。

这是对分割图本身的建模描述,随着对up的优化可以消除一部分噪声。

这是对分割图结构的函数建模,通过空间信息来增强分割的效果。

其中c的作用主要是用于补全细节。

这是对分割图序列的函数建模,通过时序信息来矫正分割的结果。

最后,通过对能量方程e(l)进行优化,可以通过迭代算法对方程求解,最后得到分割结果图l*

l*=argmine(l)(10)

其中,l*就是优化后的分割图中对应像素点的标签,0代表背景,1代表分割对象。

本发明在一些主流的视频物体分割的数据集上,具有较好的分割效果,表1是本发明在davis2016和segtrack-v2上面的表现,在各项指标上都取得了state-of-the-art的效果。

表1本发明在主流数据集上的分割结果

davis(denseannotationvideosegmentation),是现在公认比较权威的视频分割数据集,在其发布的2016版本中,共包含有50个不同的视频,每个视频中只有一个实例。segtrack-v2是一个相对较旧的视频分割数据集,共包含14个不同的视频,视频中的实例个数不等。其中,miou(交并比)和fmeasure(f1度量)是分割结果最主要的两种评估函数。miou主要衡量的是分割区域的精确度,fmeasure主要衡量的是分割图像轮廓的精确度,它们的公式如下:

在miou中m和g分别代表着得到的分割区域和标签中的分割区域,在fmeasure中,p和r分别代表得到的分割图的预测值(precision)和召回值(recall)。

图5、6分别示出了采用本实施例方法在davis2016和segtrack-v2上的部分分割结果,从结果图上可以看到,该方法基本实现了准确的分割,对于物体颜色和背景难分或者遮挡等情况,以及物体形变幅度较大等情况,也具有较好的分割效果。

可通过各种手段实施本发明描述的技术。举例来说,这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案,处理模块可实施在一个或一个以上专用集成电路(asic)、数字信号处理器(dsp)、可编程逻辑装置(pld)、现场可编辑逻辑门阵列(fpga)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案,可用执行本文描述的功能的模块(例如,过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1