一种基于在线全变差优化的视频稳定方法与流程

文档序号:12730460阅读:489来源:国知局
一种基于在线全变差优化的视频稳定方法与流程

本发明涉及一种视频稳定方法,具体涉及一种基于在线全变差优化的视频稳定方法,属于视频处理技术领域。



背景技术:

视频作为一个重要的信息载体,与人们的日常生活联系密切,其在媒体娱乐、城市安防等方面有着重要的应用。但是,由于视频拍摄时硬件环境和拍摄人员水平的限制,运动环境下拍摄的视频往往存在画面抖动等问题,影响对视频的进一步处理。

对于视频稳定这一具有较高应用价值的问题,国内外的学者已经做了大量的基础研究。视频稳像技术按照作用机制可分为三类:机械稳像、光学稳像和电子稳像。机械稳像是采用机械设备来保证摄像平台的稳定性。其原理是利用陀螺仪等传感器和伺服系统构成的稳定平台来补偿摄像系统的相对运动,从而将整个光学系统稳定起来,使得到的视频较为稳定。光学稳像则是通过在光路中设置光学元件,根据镜头的抖动方向和位移量对摄像平台的抖动进行补偿,以得到稳定的图像。光学稳像目前已经集成在大部分高端手机和照相机的镜头中,用来补偿拍摄时人体的轻微晃动。电子稳像是应用图像处理的方法来补偿抖动,它对获得的抖动图像序列进行重新修改、排列,减弱或消除了图像序列间不规则的平移、旋转和缩放等失真情况,从而使得视频看起来更稳定,且更加适合于视频处理中的目标检测、目标跟踪和识别等处理操作。机械稳像和光学稳像的优点在于可以在拍摄的过程中尽量防止抖动视频的生成以及减小抖动带来的模糊等问题;缺点在于代价较大,稳像效果不够好,尤其是针对抖动较剧烈的情况,无法满足如今视频稳像的需求。相比而言,电子稳像不需要特定的器械或者元件,具有更精确、更灵活、易操作、体积小、代价低等优点。



技术实现要素:

本发明的目的是针对带有抖动或者晃动的视频数据,提出一种视频稳定方法,使用户获得更为舒适的观看感受。

本发明的思想是通过特征点检测和匹配对抖动视频进行运动估计,计算出帧间变换矩阵,并得到原始抖动视频的相机路径;通过在线全变差优化和线性平滑方法对相机路径进行优化,得到稳定的相机路径;通过原始相机路径与稳定相机路径的变换关系对抖动视频帧进行图像变换后生成稳定的视频。

本发明的目的是通过以下技术方案实现的:

一种基于在线全变差优化的视频稳定方法,包括以下步骤:

步骤一、对于抖动视频,根据相邻两帧多个对应特征点的位置关系,对下述等式(1)进行计算获得相邻两帧的单应性变换矩阵F以得到视频帧之间的运动变换模型:

其中,(x′,y′,1)T和(x,y,1)T分别为二维平面点(x′,y′)和(x,y)的齐次坐标形式;(x′,y′)为抖动视频第t个图像帧It(t=1,2,…,n,n表示图像帧的数量)的特征点(x,y)通过光流法得到的其在第t个图像帧It+1中的对应位置;

作为优选,所述对等式(1)进行求解采用基于随机采样一致算法(RANSAC)和最小二乘法的方法实现。

作为优选,所述特征点为Harris角点或者SIFT特征点。

作为优选,所述特征点的检测采用Shi-Tomasi算法实现。

作为优选,所述所述步骤一中特征点的跟踪采用金字塔Lucas-Kanade光流方法实现。

步骤二、通过下式计算抖动视频的相机路径{C1,C2,…,Ct…,Cn}:

Ct=F1F2…Ft;其中t=2,…,n;

其中,C1=F1=I,I表示单位矩阵;Ft表示视频帧It-1与下一帧It之间的变换矩阵,通过步骤一得到;Ct表示It时的相机路径;

步骤三、通过对下述整体多元全变差优化目标函数E(P)求解获得整体相机路径的优化路径{P1,P2,…,Pt…,Pn}:

其中,P′m={P1,m,P2,m,…,Pt,m,…,Pn,m},C′m={C1,m,C2,m,…,Ct,m,…,Cn,m},表示视频的所有帧在相机路径的第m维参数的集合,m∈{1,M};Pt,m和Ct,m以及P′m,t表示视频的第t帧在相机路径的第m维参数上的取值;C表示通过步骤二得到的原始相机路径,P表示本步骤需要求解的优化后的平滑相机路径,M为相机路径的维数,n为视频的总帧数;λ为Ed(P)和Ev(P)这两项的一个平衡参数,用来控制变分项所占的比重,从而保证优化后的相机路径既保持稳定,同时又不会与原始路径相差太大;

步骤四、通过将步骤三得到的优化路径上某一点的数值取其前后各k点的平均值对相机路径进行平滑,即:

其中,i=k+1,k+2,…,n-k;

当1≤i≤k时,

当n-k<i≤n时,

其中,ωi,t为权重系数;

步骤五、根据步骤四平滑后的相机路径对抖动视频中的图像帧通过以下变换生成稳定帧:

I′t=ItBt

其中,I′t表示稳定帧,Bt为从抖动视频帧到稳定视频帧的变换矩阵,通过平滑后的相机路径与原始相机路径得到:

Bt=Ct-1Pt

有益效果:

对比传统视频稳定方法,本发明方法具有以下优势:

(1)传统的基于估计和平滑2D相机运动的方法在生成稳定视频时,一般会丢失较多的图像信息,导致结果视频具有较大的黑边,而本发明在对原始视频进行处理时使用了保真项,这一点保证了处理结果可以更好地接近原视频,保留更多的视频内容。

(2)传统的基于估计和平滑3D相机运动的方法依赖于三维重建,这种方法计算复杂度较高,且鲁棒性差,而本发明避免使用从运动恢复结构的方法,而是使用帧间单应性变换来描述相机运动,因此提高了计算效率,增加了鲁棒性。

(3)基于2.5D的方法一般将运动平滑和运动补偿分为两部分进行,没有充分考虑视频的全局信息,但是本发明使用全变差方法对视频路径进行优化,减小了抖动视频的全变差,且对能量函数采取了优化的求解方法,计算速度快,达到了实时处理的要求。

综上所述,本发明方法可以更加高效地处理视频序列中的抖动帧,得到稳定的视频。

附图说明:

图1是本发明实施例一种基于在线全变差优化的视频稳定方法流程示意图。

图2是本发明方法与Deshaker和AE视频稳定方法的对比效果示意图,(a)为原始抖动视频帧,(b)为使用AE方法处理后的视频帧,(c)为使用Deshaker方法处理后的视频帧,(d)为使用本发明方法处理后的视频帧。

图3是本发明方法与Deshaker和AE视频稳定方法求得的最优路径对比效果示意图,(a)为x方向上的最优路径对比,(b)为y方向上的最优路径对比。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明。

实施例

一种基于在线全变差优化的视频稳定方法,具体实现步骤如下:

步骤一、计算视频帧之间的运动变换模型

一副图像中,有很多表征图像属性或类别的特征,包括形状特征、颜色特征、纹理特征等。为了得到帧与帧之间的运动变换关系,首先检测出图像帧It(t=1,2,…,n,n表示图像帧的数量)的特征点。在提取特征点时,一般选用Harris角点或者SIFT特征点(D.G.Lowe.Object recognition from local scale-invariant features.In Proc.ICCV,pages 1150–1157,1999.),作为优选,本实施例采用了Shi-Tomasi算法实现特征点的检测。当选取一定数量的特征点之后,通过光流法得到这些特征点在下一帧It+1中的对应位置,为得到较好效果,本实施例采用金字塔Lucas-Kanade光流方法实现。设帧It中某一特征点位置为p(x,y),而下一帧It+1中对应特征点的位置为q(x′,y′),且令两帧之间的变换矩阵为F:

在计算时,特征点的位置坐标采用齐次坐标表示方式,对于二维平面的点(x,y),其齐次坐标形式为(x,y,1)T,按照如下对应关系:

根据相邻两帧多个对应特征点的位置关系,通过基于随机采样一致算法(random sample consensus,RANSAC)和最小二乘法的方法来计算得到单应性变换矩阵F。当然,不限于RANSAC和最小二乘法,本领域技术人员还可使用基于最小平方中值法(Least Median Of Squares,LMEDS)和最小二乘的方法等其他方法求解。提到的这两种都是较为广泛采用的方法,本实施例采用了第一种方法。

步骤二、计算抖动视频的相机路径

相机路径表示的是相机在空间中的移动路径,在计算时采用Grundmann等人提出的方法(Grundmann M,Kwatra V,Essa I.Auto-directed video stabilization with robust L1optimal camera paths[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2011:225-232.)。该方法记原始抖动视频帧It时的相机路径为Ct,而视频帧It与下一帧It+1之间的变换矩阵为Ft+1,则在视频帧It+1时的相机路径为Ct+1。其中Ct+1与Ct之间的关系为:

Ct+1=CtFt+1

定义C1=F1=I,则有

Ct=F1F2…Ft

通过步骤一可以得到相邻帧之间的变换矩阵,然后由此得到整个视频的相机路径{C1,C2,…,Ct,…,Cn},t∈{1,n}。

步骤三、求解整体相机路径的优化路径

在得到抖动视频的相机路径Ct之后,通过一种基于在线全变差优化的方法来对原始相机路径进行优化,以得到平滑的相机路径Pt。该方法的主要处理形式为最小化全变差能量函数。该目标函数含有数据项和变分项,其中第一项为数据项,即保真项,是为了保证原始相机路径和优化相机路径具有较大程度的重合,以避免图像变形过大而损失信息;而变分项,又称为正则项、光滑项,其作用是减小相机路径前后位置的差距,从而使相机路径变得更加平滑和稳定。该函数的具体定义如下:

第一项:数据项

其中,P′m={P1,m,P2,m,…,Pt,m,…,Pn,m},C′m={C1,m,C2,m,…,Ct,m,…,Cn,m},表示视频的所有帧在相机路径的第m维参数的集合;Pt,m和Ct,m表示视频的第t帧在相机路径的第m维参数上的取值;n表示视频帧数;M为相机路径的维数,由于F为三行三列的矩阵,因此M取值为9。为方便计算,我们将此三行三列的矩阵看作含有9个参数的向量。故C′和P′可以看作一个M×n的矩阵,也可以看作一个n维列向量的集合,每一维列向量有M个参数,即相机路径的9个参数。而P′m和C′m均可以看作具有n个参数的行向量。

第二项:变分项

其中,P′m,t表示视频的第t帧在相机路径的第m维参数上的取值。

整体多元全变差优化目标函数为:

其中,λ为这两项的一个平衡参数,用来控制变分项所占的比重,从而保证优化后的相机路径即保持稳定,同时又不会与原始路径相差太大。由于不同视频的参数不同,为了取得较好的结果,λ的取值也需要根据不同的视频进行调整。在本实施例中,其具体取值一般为相机路径Ct所有参数绝对值的平均值。

对于该能量函数,在计算求解时采用Jordan Frecon等人提出的多元全变差最小化的实时近似方法(Frecon J,Pustelnik N,Abry P,et al.On-The-Fly Approximation of Multivariate Total Variation Minimization[J].IEEE Transactions on Signal Processing,2015,64(9):2355-2364.),具体过程如下:

首先将其转化为Fenchel-Rockafellar对偶公式:

此公式满足如下约束:

其中,原目标函数的解与该对偶公式的解的关系为

P′m=C′m+L*um

其中,当m∈{1,…,M}以及t∈{2,…,n-2}时,

当t=1时,

当t=n时,

L*um即为原目标函数的解(优化相机路径)与该对偶公式的解(原始抖动视频相机路径)的差,M,n,t,P′m,C′m,λ与之前的意义相同。

然后根据其对偶公式,通过迭代法不断更新解的上界和下界来得到最终解。

步骤四、相机路径平滑

使用全变差优化方法对相机路径处理之后,会产生微小的“阶梯效应”,即优化后的相机路径会产生阶梯型的突变。所以使用线性平滑方法对优化后的路径进行处理,这样可以消除“阶梯效应”,使相机路径更加平滑。

具体做法是将路径上某一点的数值取其前后各k点的平均值,即:

当i=k+1,k+2,…,n-k时,

当1≤i≤k时,

当n-k<i≤n时,

其中,ω为权重系数。

本实施例中,为取得较好的平滑效果,经过多次试验之后,设置k=3,即采用七点线性平滑方法,且根据七点线性平滑的权重系数设置方法,将权重系数按如下规则进行设置:

当i=1,n时,

当i=2,n-1时,

当i=3,n-2时,

步骤五、图像变换生成稳定帧

通过上述步骤的处理,即可得到稳定的视频路径Pt。通过原始路径Ct和优化路径Pt,求出当前视频路径与对应的稳定视频帧路径之间的变换矩阵,对抖动视频帧进行变形,即可得到稳定后的视频帧。

其中,新的优化路径Pt和原始路径Ct之间的变换关系为:

Pt=CtBt

故Bt=Ct-1Pt,即原始相机路径到新的优化路径之间的变换。然后根据下述公式对原始视频帧It进行变形,即可得到稳定的视频帧。

I′t=ItBt

其中,I′t表示稳定帧。

对视频中的全部视频帧据此处理之后就可以得到一个稳定的视频。

试验结果

1.通过与传统视频稳定方法的对比,来说明本发明的有效性。我们与两个知名的传统视频稳定方法进行了比较,其中一个为http://www.guthspot.se/v ideo/deshaker.html上使用的Deshaker方法,另一个为F.Liu,M.Gleiche等人提出的方法(Liu F,Gleicher M,Wang J,et al.Subspace video stabil ization[J].Acm Transactions on Graphics,2011,30(1):623-636.),且在软件Adobe After Effects cs6及以后版本中被广泛使用,我们称其为AE方法。如图2所示,在结果对比中可以看出,本发明产生的稳定视频中,黑边情况较传统方法有很好的改善。

如图3所示是本发明方法与Deshaker和AE算法求得的最优路径对比图,从(a)(b)图可以看到,无论是x方向还是y方向都可以看到本发明方法得到的最优路径足够平滑。另外,相比Deshaker与AE所得结果,本发明方法在保持相机路径稳定平滑的同时,更接近原始摄像机路径,因此可以保留更多原始视频的信息。

2.在运行效率方面,一般视频稳定方法的关键步骤在于对相机路径的稳定优化。而本发明的关键在于技术方案中步骤三提出的目标函数的最小化求解。此函数的求解采用了实施例中步骤三所提到的求解方法,此方法计算速度快,效率高,从而使本发明方法的整体处理速度大大提高。在时间处理方面,AE和Deshaker处理方法平均每一秒可以处理不到15帧,而本发明方法平均每一秒可以处理25帧以上,计算速度快,达到了实时处理的要求。

以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1