一种基于低秩稀疏表达的视频多目标分割方法与流程

文档序号:11730204阅读:223来源:国知局

本发明属于计算机视觉领域,具体涉及一种基于低秩稀疏表达的视频多目标分割方法。



背景技术:

视频目标分割技术就是将视频中既定目标的轮廓抽取出来,它作为图像的预处理过程被广泛应用在行为识别、动作估计、目标识别与跟踪系统中,它是计算机视觉领域中一个备受关注且发展迅速的领域,特别在行为识别中得到了广泛的应用。目前大多数人体行为识别方法都是对单人行为进行识别。系统可以识别的动作类型只局限于简单的几个动作,如跑步、行走和跳跃等。但是在真实场景中,更加经常出现的是交互行为,如打架和握手等。而交互行为的识别一般也是通过对目标检测和跟踪,简单行为的识别,并且结合上下文信息进行推理。这里对目标的检测与跟踪通常为多目标的检测和分割。

对视频中目标的分割通常被认为是一个二分类的问题,其中待分割的目标表示前景,通常用1表示;而其它部分表示背景,通常用0表示。视频目标分割的关键在于时间一致性和空间一致性的表达。时间一致性描述了在连续帧中目标的相似性,空间一致性描述了在一帧图像中目标与背景的分辨能力。目前国内外很多算法几乎都利用了目标的运动估计作为重要的分割特征。这样,运动估计造成的误差会严重影响分割的效果。

现有技术中已有基于低秩稀疏表达的目标精细轮廓跟踪方法,此方法没有利用目标的运动估计,而直接提取图像目标与背景特征,达到了良好的分割效果。但所述方法仅为单目标的分割,很大程度上限制了其应用领域。如果将所述方法进行简单的拷贝,从而实现多目标的分割,这样会由于待分割目标数目的增加而造成计算量的增加。



技术实现要素:

本发明所要解决的技术问题是提供一种基于低秩稀疏表达的视频多目标分割方法,该方法具有计算复杂度低,分割精度高的特点,特别适用于视频图像中多目标在线分割。

本发明解决上述技术问题的技术方案如下:

一种基于低秩稀疏表达的视频多目标分割方法,包括以下步骤:

(1)使用slic算法将视频中第一帧图像分割成n个超级像素s;

(2)提取每个超级像素的l2ecm特征,并建立图像特征矩阵x;

(3)在已知第一帧图像中目标轮廓的情况下,将第一帧图像中所有超级像素s的l2ecm特征进行重新排列,建立模板d,其中

d=[do1do2do3...doidb],其中doi表示模板中第i个目标特征,db表示背景特征;

(4)从视频中第t帧图像开始,根据特征矩阵x求解第t帧图像通过模板d的低秩稀疏表达系数矩阵z,其中,t=2,3,…;

(5)根据前一帧图像的目标信息,分别计算当前帧图像中每个目标的高级语义特征;

(6)结合高级语义特征和低秩稀疏表达系数矩阵z,计算每个目标的显著性概率分布fs(ii);

(7)根据前一帧分割的结果,在yuv空间中分别建立目标与背景的颜色直方图,得到第j个目标的表观特征概率分布函数fc(ui);求解视频中当前图像的各像素之间的相关性ψ(ui,uj,ii,ij):

(8)根据目标的显著性概率分布fs(ii)、表观特征概率分布函数fc(ui)和像素之间的相关性ψ(ui,uj,ii,ij)构造能量函数模型e(u),利用能量最小化方程分别对每个目标进行分割,得到目标区域和背景区域的最优分割结果;

(9)利用得到的目标区域和背景区域来更新模板d,并更新t=t+1,返回步骤(4),处理视频中下一帧图像,直到视频结束。

本发明的有益效果是:本发明从视频中目标的本质特性去分析,得到了视频前后两帧之间目标和背景的关系,能够应用在大多数场景下,该方法不是对单目标分割算法的简单复制,而是通过对分割模板的选择,将多个目标建立在同一个模板矩阵中,在不增加计算复杂度的情况下实现对多目标显著性分割特征的一次性计算,减少了计算时间;在目标显著性特征建立过程中嵌入高级语义特征,能够更好地抑制计算误差,提高了目标分割的精度。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述步骤(2)中提取每个超级像素s的l2ecm特征过程为:

根据每个超级像素,建立原始特征rd为d维的实数空间,表示为:

g(x)=[i(x),|ix(x)|,|iy(x)|,|ixx(x)|,|iyy(x)|]t

其中,|·|为绝对值运算符,i(x)表示图像中任意一点x=(x,y)的像素值,ix(x)和iy(x)分别表示对x和y方向的一阶偏导数,ixx(x)和iyy(x)分别表示对x和y方向的二阶偏导数;

对于一个超级像素s,定义为此超级像素的原始特征,

其中,ns为超级像素s所包含的像素个数,计算gs的协方差矩阵∑s,则∑s是一个d×d的矩阵;将log(∑s)的上三角矩阵进行向量化,得到超级像素s的l2ecm特征,其特征长度为d为原始特征的维度。

采用上述进一步方案的有益效果是其特征维度与超级像素的形状、尺寸无关。

进一步,所述步骤(4)中根据特征矩阵求解第t帧图像通过模板的低秩稀疏表达系数矩阵的具体公式为:

argminz,e(||z||*+p||z||1+α||e||1)

s.t.x=dz+e

其中,x为h×n的矩阵,h为每个超级像素的特征维度;argminz,e表示取使目标函数最小时z与e,s.t.表示约束条件,||·||*表示核范数,||·||1表示范数,e表示噪声,α和β为权重因子,

矩阵z的任意一列表示矩阵x中第i个超级像素与模板d中每个目标的相似性,中的数值越大表示此超级像素与模板中的某个元素越相似。

进一步,所述步骤(6)中每个目标的显著性概率分布的求解过程为:

当前待分割图像中第i个超级像素属于第j个目标的概率为

其中,max(·)表示取向量中的最大值,ti为归一化参数,使得分别赋予第i个超级像素所包含的所有像素中,

基于上一帧第j个目标的中心位置,利用高斯分布建立关于当前帧目标位置的先验地图,表示为:

其中,x表示图像中任意一个像素点的位置,cj表示上一帧中第j个目标的中心位置,d(·,·)表示两点之间的欧式距离,σ2为距离方差,则第j个目标像素级的显著性概率分布函数为:

其中,ii表示当前图像中的第i个像素点的像素值。

采用上述进一步方案的有益效果是:结合高级主义特征能够较好地抑制低秩稀疏表达计算中的误差。

进一步,所述步骤(7)中求解视频中当前图像中各像素之间的相关性ψ(ui,uj,ii,ij),其公式为:

其中,ui表示当前图像中的第i个像素点对应的类别,1表示类别为目标,0表示类别为背景;ε为拉普拉斯平滑系数,exp(·)为指数函数,||·||2为二范数的平方,μ表示当前图像中第i个像素点四邻域像素值的平均值,冲激函数

进一步,所述步骤(8)中能量函数模型e(u)为:

目标区域和背景区域的最优分割结果u*为:

u*=argmine(u)

其中,ω表示第i个像素点的四邻域;λc和λs为经验权重。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

如图1所示,本发明提供了一种基于低秩稀疏表达的视频多目标分割方法,其分割过程为:

(1)图像表达:将t时刻图像分割成n个超级像素s,并提取每个超级像素s的l2ecm特征。那么每帧图像数据就可以从图像空间转化到特征空间中,得到特征矩阵x,其中x为h×n的矩阵,h为每个超级像素的特征维度。

其中,提取每个超级像素的l2ecm特征过程为:

根据每个超级像素,建立原始特征表示为:

g(x)=[i(x),|ix(x)|,|iy(x)|,|ixx(x)|,|iyy(x)|]t

其中,|·|为绝对值运算符,i(x)表示图像中任意一点x=(x,y)的像素值,ix(x)和iy(x)分别表示对x和y方向的一阶偏导数,ixx(x)和iyy(x)分别表示对x和y方向的二阶偏导数;

对于一个超级像素s,定义为此超级像素的原始特征,

其中,ns为超级像素所包含的像素个数,计算gs的协方差矩阵∑s,则∑s是一个d×d的矩阵;将log(∑s)的上三角矩阵进行向量化,得到超级像素s的l2ecm特征,其特征长度为

(2)低秩稀疏表达:在一些实施方式中,已知前一帧图像已经分割出所有目标轮廓的情况下,将前一帧特征矩阵x作为模板

d=[do1do2…dondb],其中doi表示模板中第i个目标特征,db表示背景特征。根据以下公式,求解每帧图像通过模板低秩稀疏线性表达后的系数矩阵z

arginz,e(||z||*+β||z||1+α||e||1)

s.t.x=dz+e

其中,argminz,e表示取使目标函数最小时z与e,s.t.表示约束条件,||·||*表示核范数,||·||1表示范数,e表示噪声,α和β为权重因子。那么矩阵z的任意一列表示矩阵x中第i个超级像素与模板中每个目标的相似性,中的数值越大表示此超级像素与模板中的某个元素越相似。

其中,低秩稀疏优化求解:可以利用增广拉格朗日乘数法分别对各个参数进行迭代计算,迭代过程详见“矩阵的低秩稀疏表达在视频目标分割上的应用”一文。

(3)显著性特征提取

当前待分割图像中第i个超级像素属于第j个目标的概率为:

其中,max(·)表示取向量中的最大值,ti为归一化参数,使得

在一些实施方式中,将高级的语义特征嵌入在目标特征提取过程中可以防止远离目标的像素具有较显著的特征值。由于视频的连续性,当前目标的位置必然会出现在上一帧目标位置的附近,基于上一帧第j个目标的中心位置,利用高斯分布建立关于当前帧目标位置的先验地图,并表示为其中,x表示图像中任意一个像素点的位置,cj表示上一帧中第j个目标的中心位置,d(·,·)表示两点之间的欧式距离,σ2为距离方差。

分别赋予第i个超级像素所包含的所有像素中,并结合高级语义特征,则能够得到针对第j个目标像素级的显著性概率分布函数ii表示当前图像中的第i个像素点的像素值。

(4)能量最小化实现目标分割:

根据上一帧分割的结果,在yuv空间中分别建立目标与背景的颜色直方图,可以得到第j个目标的表观特征概率分布函数fc(ui)。

求解视频中当前图像中像素之间的相关性ψ(ui,uj,ii,ij):

其中,ui表示当前图像中的第i个像素点对应的类别,1表示类别为目标,0表示类别为背景;ε为拉普拉斯平滑系数,exp(·)为指数函数,||·||2为二范数的平方,μ表示当前图像中第i个像素点四邻域像素值的平均值,冲激函数

利用目标显著性特征、目标表观特征和像素之间的相关性构造能量函数模型e(u),再使用最大流-最小割算法求解能量函数模型e(u)得到目标区域和背景区域分割结果u*

u*=argmine(u)

其中,ω表示第i个像素点的四邻域;λc和λs为经验权重。利用能量最小化依次对每个目标进行分割,并根据分割结果更新模板d,从而为下一帧的分割做准备。

本发明从视频中目标的本质特性去分析,得到了视频前后两帧之间目标和背景的关系,所以能够应用在大多数场景下,此方法的创新之处在于:不是对单目标分割算法的简单复制,通过对分割模板的选择,将多个目标建立在同一个模板矩阵中,可能在不增加计算复杂度的情况下实现对多目标显著性分割特征的一次性计算,减少了重复计算的时间;在目标显著性特征建立过程中嵌入高级语义特征,能够更好地抑制计算误差,提高了目标分割的精度。

本发明的有益效果是,计算复杂度低,分割精度高,特别适用于视频图像中多目标在线分割。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1