一种基于宽度学习的视频去抖动方法与流程

文档序号:16129914发布日期:2018-12-01 00:11阅读:229来源:国知局

本发明涉及计算机视觉及图像处理领域,尤其涉及一种基于宽度学习的视频去抖动方法。

背景技术

视频去抖动方法,表现为去除视频中存在的抖动,一般包括色调抖动和亮度抖动。视频去抖动方法算法通过添加帧之间的时间连续性去除视频帧之间存在的抖动,输出一个无抖动的时间连续性视频。

在现有技术中,对于视频去抖动,常见的实现方法是基于抖动补偿技术,旨在通过对齐帧之间的色调或者亮度来移除视频中的抖动效应。虽然该方法在一定程度上可以减少视频中存在的抖动效应,但是,该方法必须首先选择若干帧作为关键帧,而从具有抖动的被处理的视频中选取若干帧作为关键帧,这些关键帧本身是否具有时间一致性,难以保证;再者,若选定的关键帧本身存在抖动效应,将其它帧与存在抖动的关键帧对齐,并不能保证可以去除被处理过的视频的抖动。此外,另一种实现方法还可通过最小化含有时间一致性优化项的能量函数来维持视频帧之间的时间一致性,但这类方法主要针对某类特定的应用,限制了视频图像处理方法的泛化能力。例如,常见的该类视频图像处理算法包括:本征图分解、颜色分类、颜色一致、白平衡等。此外,基于特定应用的去除视频抖动的算法并不适用于大多数其它的情况,限制了这一类算法的泛化能力。

针对上述现有方法的不足,如何设计一种新颖的视频去抖动方法,以改善或消除诸多缺陷,使处理过的视频中存在的抖动可被最大限度地去除,是计算机视觉发展过程中的亟待解决的问题。



技术实现要素:

为解决现有视频去抖动方法中存在的不足,本发明提供一种基于宽度学习的视频去抖动方法,可根据输入视频和处理过视频中的特征建立基于宽度学习的去抖动模型从而去除视频抖动。

依据本发明的一个方面,提供一种基于宽度学习的视频去抖动方法,包括以下步骤:

a)根据原始视频的当前待处理帧in、运用基于图像处理方法逐帧处理过的视频的对应帧pn、非学习型处理方法的输出视频的对应帧的上一帧on-1,获得训练集的输入数据xn以及测试集的输入数据fn,其中,xn=[in|pn|on-1],fn=[in|pn];

b)利用映射函数来提取所述输入数据xn的用于实现视频时间连续性的初级特征其中,初级特征表示为:

其中wei和βei表示随机生成的权重和偏差,为映射函数;

c)利用激活函数对所提取的所述初级特征进行特征增强,得到增强特征其中,增强特征表示为:

其中whj和βhi表示随机生成的权重和偏差,ξj为激活函数,表示初级特征在所有帧中的m个共用初级特征;

d)将上述提取到的初级特征以及增强特征联立,得到第n个网络中提取到的所有特征an;

其中表示增强特征在所有帧中的p个共用增强特征;

e)在所述训练集中,构建以视频时间连续性ct和视频内容保真度cf为约束条件的能量函数e,其中,能量函数e定义为表达式:

通过最小角回归法求解满足上述能量函数e的权重ωn,并将权重ωn作为宽度学习网络用来连接特征层与输出层的目标权重;

f)在测试集中,根据目标权重ωn与第n个网络中提取到的所有特征an,获得宽度学习网络的测试集的输出yn:

yn=an·ωn

其中,测试集的输出yn为基于宽度学习的视频去抖动的输出帧。

在其中的一实施例,映射函数为sigmoid函数或tangent函数。

在其中的一实施例,激活函数ξj为sigmoid函数或tangent函数。

在其中的一实施例,权重ωn用于最小化所述测试集的输出帧和前一帧的差异从而计算输出视频相邻帧之间的时间连续性的能量损失代价因子:

ct=||an·ωn-on-1||2

在其中的一实施例,权重ωn用于最小化所述测试集的输出视频的第n个视频帧和处理过视频中的第n个视频帧之间的差异从而计算视频内容保真度的能量损失代价因子:

cf=||an·ωn-pn||2

在其中的一实施例,权重ωn作为宽度学习网络用来连接特征层与输出层的目标权重时,同时满足视频时间连续性和视频内容保真度的约束条件。

在其中的一实施例,逐帧处理过的视频采用的图像处理方法包括颜色分类处理、空间白平衡处理、颜色和谐化处理以及高动态范围映射处理。

采用本发明的基于宽度学习的视频去抖动方法,首先根据原始视频的当前待处理帧、运用基于图像处理方法逐帧处理过的视频的对应帧、非学习型处理方法的输出视频的对应帧的上一帧,获得训练集的输入数据以及测试集的输入数据,然后利用映射函数来提取上述训练集的输入数据的用于实现视频时间连续性的初级特征,接着利用激活函数对初级特征进行特征增强,得到增强特征;然后将上述提取到的初级特征以及增强特征联立,得到第n个网络中提取到的所有特征,在训练集中构建以视频时间连续性和视频内容保真度为约束条件的能量函数,通过最小角回归法求解满足上述能量函数中的权重,并将其作为宽度学习网络用来连接特征层与输出层的目标权重,最后在测试集中根据目标权重与提取到的所有特征获得宽度学习网络的测试集的视频去抖动的输出帧。相比于现有技术,本申请以原始输入视频、处理过的视频以及传统去抖动方法得到的输出视频作为输入,运用逐层不断提取特征所建立的宽度学习网络,并在视频时间连续性和视频内容保真度为约束的条件下,从而得到去除了抖动的输出视频。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,

图1示出本发明的基于宽度学习的视频去抖动方法的流程图;

图2示出用于实现图1的视频去抖动方法的宽度学习网络的架构示意图;

图3a示出原始视频为interview的某一视频帧的示意图;

图3b示出原始视频为cable的某一视频帧的示意图;

图3c示出原始视频为chicken的某一视频帧的示意图;

图3d示出原始视频为checkingemail的某一视频帧的示意图;

图3e示出原始视频为travel的某一视频帧的示意图;以及

图4示出采用图1的视频去抖动方法与现有技术的两种视频去抖动方法在原始视频分别为图3a~图3e时的视频去抖效果的比较示意图。

具体实施方式

为了使本申请所揭示的技术内容更加详尽与完备,可以参照本发明实施例子中的附图,我们将对本发明中实施的技术方案和实现细节进行更加详细的描述。

图1示出本发明的基于宽度学习的视频去抖动方法的流程图,图2示出用于实现图1的视频去抖动方法的宽度学习网络的架构示意图,图3a~图3e分别示出原始视频为interview、cable、chicken、checkingemail以及travel的某一视频帧的示意图,图4示出采用图1的视频去抖动方法与现有技术的两种视频去抖动方法在原始视频分别为图3a~图3e时的视频去抖效果的比较示意图。

本发明的硬件条件为,cpu频率2.40ghz,内存8g的计算机,软件工具为matlab2014b。

参照图1,在该实施例中,本申请的基于宽度学习的视频去抖动方法主要通过以下步骤实现。

首先,在步骤s1中,根据原始视频的当前待处理帧in、运用基于图像处理方法逐帧处理过的视频的对应帧pn、非学习型处理方法(亦即传统处理方法)的输出视频的对应帧的上一帧on-1,获得训练集的输入数据xn以及测试集的输入数据fn,其中,xn=[in|pn|on-1],fn=[in|pn]。

在训练宽度学习网络的测试集数据中,要考虑到对应输出帧on和pn之间的视频内容保真度,以及输出帧on和其前一帧on-1之间的时间连续性,我们首先将原始视频、处理过的视频和原输出视频中的对应帧作为初级特征映射函数的输入xn=[in|pn|on-1],通过映射函数我们得到的第i个初级特征其中可以是任意的激活函数,可以是sigmoid或tangent函数,wei和βei分别是随机生成的具有合适维度的权重和偏差,在第n个用于重构on的神经网络中,如果有m组初级映射特征,我们令来表示第n个视频去抖动的宽度学习网络中的m组初级映射特征,如图2所示。

其次,在步骤s2中,对步骤s1中生成的m组初级特征进行特征增强,再训练得到增强特征其中ξj(·)可以是任意的sigmoid或tangent函数,whj和βhi分别是随机生成的具有合适维度的权重和偏差,在第n个用于重构on的神经网络中,如果有p组增强特征,我们令用来表示第n个视频去抖动的宽度学习网络中的p组增强特征,如图2所示。

在得到第n个视频去抖动的宽度学习网络中的m组初级特征和p组增强特征后,我们令表示第n个去抖动的宽度学习网络中所有提取到的特征。然后,我们通过待求的目标权重ωn将an和输出层on连接起来。在求解出目标权重ωn后的宽度学习网络中,测试集的输出yn=an·ωn。需要指出,在训练集中,输出帧on是由已知的由传统的非学习型去抖动方法得到的,训练宽度学习网络的阶段,唯一的未知数是用来连接特征层与输出层的目标权重ωn。在测试集中,输出帧yn是未知的,利用已经训练好的宽度学习网络可以求解,即,yn=an·ωn。

在步骤s31和步骤s32中,在求解用于实现视频去抖动的宽度学习网络的未知权重ωn的过程中,须同时考虑视频时间连续性和视频内容保真度。

详细而言,考虑视频相邻帧之间的时间连续性时,我们令输出视频相邻帧之间的时间连续性的能量损失代价为ct,其中,目标权重ωn可用于最小化测试集的输出帧和前一帧的差异,从而能够计算上述能量损失代价因子:

ct=||an·ωn-on-1||2

其中,||·||2表示l2范式(向量各元素的平方和然后开方),on-1在训练集中表示用传统的视频去抖动方法得到的第(n-1)帧,在测试集中表示已求解出目标权重ωn的宽度学习网络输出的第(n-1)帧。

类似地,为了保证处理过的视频中的动态场景的内容在输出视频尽可能地保存,考虑视频内容保真度时,我们需要最小化处理过的视频和输出视频之间的差异,并令输出视频和处理过的视频之间的能量损失代价为cf。其中,目标权重ωn可用于最小化测试集的输出视频的第n个视频帧和处理过视频中的第n个视频帧之间的差异,从而能够计算上述视频内容保真度的能量损失代价因子:

cf=||an·ωn-pn||2

其中,pn表示处理过的视频中的第n帧。

在步骤s4中,联立视频时间连续性约束和视频内容保真度差异,构建以视频时间连续性ct和视频内容保真度cf为约束条件的能量函数e,通过最小角回归法求解满足上述能量函数e的权重ωn,并将权重ωn作为宽度学习网络用来连接特征层与输出层的目标权重。能量函数e可表示为:

其中,上述表达式的第一项是用来最小化训练集得到的输出帧an·ωn与使用传统视频去抖动方法得到的输出帧on的差异,提高宽度学习模型的准确度,第二项λ1·‖ωn‖1和第三项λ2·‖ωn‖2都是用来防止过拟合的正则项,其中λ1和λ2分别是l1范式和l2范式的正则项系数。λt和λf分别是视频时间连续性和视频内容保真度的系数。

对上式中的未知量权重ωn,我们可以用最小角回归的方法求解,,从而确定基于宽度学习的视频去抖动模型。如图3a~3e、图4所示,采用图1的视频去抖动方法与现有的视频去抖动方法进行比较时,容易看出,在interview视频、cable视频、chicken视频、checkingemail视频和travel视频上,分别利用现有技术中的lang等人的视频去抖动方法(如曲线2)、现有技术中的bonneel等人的视频去抖动方法(如曲线3)和本申请的视频去抖动方法(如曲线1)得到的输出视频的峰值信噪比(peaksignaltonoiseratio,psnr)数值,如图4中的竖直虚线所示。例如,当图3a~图3e的interview视频、cable视频、chicken视频、checkingemail视频和travel视频中的抖动分别来源于对各自的原始视频运用基于图像的颜色分类、空间白平衡、本征图分解、高动态范围映射和去雾方法进行逐帧处理,却未考虑到相邻帧之间的视频时间一致性。由于psnr的值可以反映输出视频的质量和去抖动效果,因此,psnr值越高,输出视频的质量和去抖动效果也越好。由上图可以看出,本申请的视频去抖动方法(如曲线1)相较于各种基于传统去抖动方法(如曲线2和曲线3),在psnr衡量标准下的去抖表现均要更优一些。

采用本发明的基于宽度学习的视频去抖动方法,首先根据原始视频的当前待处理帧、运用基于图像处理方法逐帧处理过的视频的对应帧、非学习型处理方法的输出视频的对应帧的上一帧,获得训练集的输入数据以及测试集的输入数据,然后利用映射函数来提取上述训练集的输入数据的用于实现视频时间连续性的初级特征,接着利用激活函数对初级特征进行特征增强,得到增强特征;然后将上述提取到的初级特征以及增强特征联立,得到第n个网络中提取到的所有特征,在训练集中构建以视频时间连续性和视频内容保真度为约束条件的能量函数,通过最小角回归法求解满足上述能量函数中的权重,并将其作为宽度学习网络用来连接特征层与输出层的目标权重,最后在测试集中根据目标权重与提取到的所有特征获得宽度学习网络的测试集的视频去抖动的输出帧。相比于现有技术,本申请以原始输入视频、处理过的视频以及传统去抖动方法得到的输出视频作为输入,运用逐层不断提取特征所建立的宽度学习网络,并在视频时间连续性和视频内容保真度为约束的条件下,从而得到去除了抖动的输出视频。

上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作等同替换,只要不脱离本发明的本质核心,这些修改和替换均应落在本发明权利要求书所限定的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1