视频噪点识别方法、装置、设备及计算机可读存储介质与流程

文档序号:18512341发布日期:2019-08-24 09:12阅读:190来源:国知局
视频噪点识别方法、装置、设备及计算机可读存储介质与流程

本发明涉及计算机领域,尤其涉及一种视频噪点识别方法、一种视频噪点识别装置、一种视频噪点识别设备及一种计算机可读存储介质。



背景技术:

近些年短视频应用逐渐兴起壮大,现有技术中的短视频平台每日会接受用户上万的视频更新量,但其中很多视频由于用户的拍摄光线、设备等缘故受到严重的视频噪点,这些视频会严重影响其他用户的观看体验。

现有技术对视频噪点的识别或检测主要分为两步,首先提取视频帧并利用人工提取特征分析视频帧的噪点,然后整合所有提取帧来估计视频的噪点水平。这种仅利用视频帧信息估计视频帧的噪点强度,再利用图像噪点检测算法来估计的方式,往往是建立在“噪点是频域的高频信息”或者“噪点区域在空域上有高方差”的假设的特性上。但是根据对大量视频数据的观测发现,纹理密集型视频帧,例如草坪、沥青路面、美食上的油盐颗粒等视频帧,同样具有以上假设的特性,因而现有技术中的检测技术无法准确分辨出纹理密集型视频帧是否存在噪点问题,准确率大大降低。



技术实现要素:

本发明实施例所要解决的技术问题在于,提供一种视频噪点识别方法、一种视频噪点识别装置、一种视频噪点识别设备及一种计算机可读存储介质,能够区分噪点和密集纹理,解决现有技术中的检测技术准确率低的技术问题。

为了解决上述技术问题,本发明实施例一方面公开了一种视频噪点识别方法,包括

从待识别视频中采样多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

将计算得到的所述帧差图输入深度神经网络进行噪点预测,输出视频分类结果;其中,所述深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;所述深度神经网络输出的不同的分类结果对应不同的视频噪点严重程度;

根据所述视频分类结果输出噪点识别结果。

结合该一方面,在其中一种可能的实现方式中,在所述分别计算每组连续视频帧所对应的帧差图的过程中,针对一组连续视频帧,包括:

确定所述一组连续视频帧中的中间视频帧,并计算所述一组连续视频帧的平均帧;

将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图。

结合该一方面,在其中一种可能的实现方式中,所述将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图,包括:

将所述中间视频帧减去所述平均视频帧后,进行截断处理;

将截断处理后的帧差像素值平移到目标像素区间,得到所述一组连续视频帧所对应的帧差图。

结合该一方面,在其中一种可能的实现方式中,所述将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图,包括:

将所述中间视频帧减去所述平均视频帧后取绝对值,得到所述一组连续视频帧所对应的帧差图。

结合该一方面,在其中一种可能的实现方式中,所述一组连续视频帧包括n帧;所述将所述中间视频帧减去所述平均视频帧后,进行截断处理;将截断处理后的帧差像素值平移到目标像素区间,得到所述一组连续视频帧所对应的帧差图,包括:

通过公式计算得到所述一组连续视频帧所对应的帧差图;

其中,fi,0为中间视频帧,μi为平均视频帧,κ为截断阈值,1≤i≤n,n为正整数。

结合该一方面,在其中一种可能的实现方式中,所述将计算得到的所述帧差图输入深度神经网络进行噪点预测,包括:

将所述帧差图按照预定比例进行收缩,收缩后帧差图的第一边长像素个数在第一范围值中,收缩后帧差图的第二边长像素个数在第二范围值中;

将收缩后的帧差图输入深度神经网络进行噪点预测。

结合该一方面,在其中一种可能的实现方式中,所述第一边长像素个数为400;所述第二边长像素个数为280。

结合该一方面,在其中一种可能的实现方式中,所述利用视频的帧差图作为训练神经网络的输入而训练,包括:

对视频训练集中的每个视频进行采样,采样出视频的多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

将计算得到的所述帧差图以及所述视频对应的人工标签输入预训练神经网络进行训练;所述人工标签用于指示所述视频的噪点严重程度;

通过视频验证集来确定出训练后的预测模型的神经网络。

结合该一方面,在其中一种可能的实现方式中,所述通过视频验证集来确定训练后的预测模型的神经网络之后,还包括:

通过确定出的所述预测模型的神经网络对视频测试集进行噪点预测,根据预测结果以及所述视频测试集对应的人工标签生成视频分类的混淆矩阵。

结合该一方面,在其中一种可能的实现方式中,所述深度神经网络包括通过深度可分离卷积来构建的深度神经网络;所述深度神经网络的输出为3个视频分类结果。

本发明实施例另一方面公开了一种视频噪点识别装置,包括:

采样计算单元,用于从待识别视频中采样多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

预测单元,用于将计算得到的所述帧差图输入深度神经网络进行噪点预测,输出视频分类结果;其中,所述深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;所述深度神经网络输出的不同的分类结果对应不同的视频噪点严重程度;

识别结果输出单元,用于根据所述视频分类结果输出噪点识别结果。

本发明实施例另一方面公开了一种视频噪点识别设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储数据处理代码,所述处理器被配置用于调用所述程序代码,执行上述视频噪点识别方法。

本发明实施例另一方面公开了一种计算机可读存储介质,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行上述视频噪点识别方法。

实施本发明实施例,通过从待识别视频中采样多组连续帧,分别计算每组连续帧所对应的帧差图,将计算得到的该帧差图输入深度神经网络进行噪点预测,输出视频分类结果,其中,该深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;因而利用了视频不同帧的时间信息,考虑到噪点视频中噪点存在浮动的现象,将视频帧差的残差图作为深度神经网络的输入,通过深度神经网络自适应地学习噪点不同于其他纹理密集型区域的特征,可以更加好地区分帧差信息中残余像素是噪声还是密集纹理的位移信息,实现了排除纹理密集区域的干扰,从而大大的提升噪点视频严重程度分类的准确性。另外,利用视频帧差的方法可以极大的减小神经网络的学习难度,使得神经网络的训练更容易收敛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频噪点识别方法的整体架构图;

图2是本发明实施例提供的视频噪点识别方法的流程示意图;

图3是本发明实施例提供的深度神经网络训练的流程示意图;

图4是本发明实施例提供的轻量神经网络的基本结构图;

图5是本发明提供的改进的网络结构图;

图6是本发明实施例提供的视频噪点识别方法的应用场景示意图;

图7是本发明提供的另一实施例的视频噪点识别方法的应用场景示意图;

图8是本发明实施例提供的视频噪点识别装置的结构示意图;

图9是本发明提供的视频噪点识别装置的另一实施例的结构示意图;

图10是本发明实施例提供的视频噪点识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了更好的理解本发明实施例提供的视频噪点识别方法、装置和设备,下面先对本发明实施例视频噪点识别的整体架构进行描述,如图1示出的本发明实施例提供的视频噪点识别方法的整体架构图,针对预训练的深度神经网络,先通过视频库中的训练视频进行训练,具体将训练视频提取帧差,然后将帧差图和人工标签一起作为深度神经网络学习训练的输入,得到训练后的深度神经网络(用于预测噪声或噪点的深度神经网络),最后通过该训练后的深度神经网络对需要进行预测的视频(待识别视频)进行噪点预测,具体也是将预测视频进行提取帧差(其中帧差提取的方式与训练时的一致),然后将帧差图输入训练后的深度神经网络,最后得到视频分类结果,根据该视频分类结果,即可获知该待识别视频的噪点严重程度,从而输出噪点识别结果。

本发明实施例执行该视频噪点识别方法的装置或设备可以包括但不限于服务器等网络设备,台式计算机、膝上型计算机、平板计算机、智能终端等终端设备。该服务器可以为独立服务器,也可以为集群服务器。本发明实施例不做限制。

下面先结合图2示出的本发明实施例提供的视频噪点识别方法的流程示意图,具体说明本发明实施例图1中的如何通过训练后的深度神经网络对需要进行预测的视频(待识别视频)进行噪点预测,可以包括以下步骤:

步骤s200:从待识别视频中采样多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

具体地,可以从待识别视频中随机采样多组连续视频帧,或按照预设规则(比如按照整个视频帧的大小,均匀分布地来采样多组连续视频帧)来采样多组连续视频帧。在其中一种实施方式中,鉴于短视频的应用环境,该短视频中的视频背景变化较小,经过大量的数据试验得出可以采样10组连续视频帧,来分别计算该10组连续视频帧所对应的帧差图。

在所述分别计算每组连续视频帧所对应的帧差图的过程中,针对一组连续视频帧,包括:可以确定所述一组连续视频帧中的中间视频帧,并计算所述一组连续视频帧的平均帧;将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图。

具体地,可以将中间视频帧减去平均视频帧后进行截断处理,将截断处理后的帧差像素值平移到目标像素区间,例如(0,255)像素区间或(0,101)像素区间,等等,从而得到一组连续视频帧所对应的帧差图。或者,可以将中间视频帧减去平均视频帧后取绝对值,不进行截断,得到一组连续视频帧所对应的帧差图。

下面,以将中间视频帧减去平均视频帧后进行截断处理,将截断处理后的帧差像素值平移到目标像素区间,得到一组连续视频帧所对应的帧差图,为例进行说明:

该一组连续视频帧可以包括n帧;在其中一种实施方式中,所述将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图,可以包括:

通过公式1

计算得到所述一组连续视频帧所对应的帧差图;其中,fi,0为中间视频帧,取-,+表示相对中间视频帧前后的视频帧,μi为平均视频帧,κ为截断阈值,1≤i≤n,n为正整数。

例如,n为3,那么fi,-1即为该3帧视频帧中的第一帧,fi,0即为该3帧视频帧中的第二帧,fi,1即为该3帧视频帧中的第三帧。

又如,n为4,那么μi可以为fi,-1即为该3帧视频帧中的第一帧,fi,0即为该3帧视频帧中的第二帧,fi,1即为该3帧视频帧中的第三帧,fi,2即为该3帧视频帧中的第四帧。或者μi可以为fi,-2即为该3帧视频帧中的第一帧,fi,-1即为该3帧视频帧中的第二帧,fi,0即为该3帧视频帧中的第三帧,fi,1即为该3帧视频帧中的第四帧。

通过公式1可知,本发明实施例是对帧差图进行截断处理,该截断处理是指抛弃帧差大于截断阈值的像素差值,利用截断阈值来代替,鉴于视频中虽然噪点在视频连续帧之间有显著差异,但是噪点位置的像素值与周围未受损像素的差值普遍不大,在设定的阈值范围之内,而在帧差图中出现的较大的差值往往是由于位置变化引起的帧间内容不重叠引起,故而本发明实施例将其截断,可以提高帧差图提取效率,提高噪点检测效率。

并且,公式1表明将帧差图增加了截断阈值κ,即将帧差图的像素值进行了平移,平移到了(0,255)之间,从而为(0,255)的像素值空间记录(-255,255)的像素差值(且不缩放这部分差值)保留了空间。

本发明实施例不限于通过上述公式1来计算一组连续视频帧所对应的帧差图,在另一种实施方式中,可以不进行截断和平移,直接将中间视频帧与平均视频帧进行差值运算后取绝对值,如公式2:

ξi=|fi,0-μi|公式2

计算得到所述一组连续视频帧所对应的帧差图;其中,fi,0为中间视频帧,取-,+表示相对中间视频帧前后的视频帧,μi为平均视频帧,1≤i≤n,n为正整数。

在其中一种实施方式中,n可以取值为3、4、5等等。截断阈值κ可以为50、86、127等等。本发明实施例进行对比试验来测试不同的帧差提取方案在参与训练后的效果,可以得出利用三帧做平均可以得到最优的效果,即n为3;以及以50作为截断阈值κ并进行平移效果最佳。

步骤s202:将计算得到的所述帧差图输入深度神经网络进行噪点预测,输出视频分类结果;

具体地,本发明实施例中的深度神经网络可以为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;经过所述深度神经网络进行噪点预测输出的不同的分类结果对应不同的视频噪点严重程度。

步骤s204:根据所述视频分类结果输出噪点识别结果。

实施本发明实施例,通过从待识别视频中采样多组连续帧,分别计算每组连续帧所对应的帧差图,将计算得到的该帧差图输入深度神经网络进行噪点预测,输出视频分类结果,其中,该深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;因而利用了视频不同帧的时间信息,考虑到噪点视频中噪点存在浮动的现象,将视频帧差的残差图作为深度神经网络的输入,通过深度神经网络自适应地学习噪点不同于其他纹理密集型区域的特征,可以更加好地区分帧差信息中残余像素是噪声还是密集纹理的位移信息,实现了排除纹理密集区域的干扰,从而大大的提升噪点视频严重程度分类的准确性。另外,利用视频帧差的方法可以极大的减小神经网络的学习难度,使得神经网络的训练更容易收敛。

下面结合图3至图5详细说明本发明实施例如何对深度神经网络进行训练,如图3示出的本发明实施例提供的深度神经网络训练的流程示意图,可以包括如下步骤:

步骤s300:对视频训练集中的每个视频进行采样,采样出视频的多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

具体地,视频数据库中可以包括视频训练集、视频验证集和视频测试集,比如将该视频数据库中所有视频按照预设比例进行划分,所有视频中占比第一阈值的视频为视频训练集,占比第二阈值的视频为视频验证集,占比第三阈值的视频为视频测试集。该第一阈值、第二阈值和第三阈值的总和为100%,例如该第一阈值为80%、第二阈值为20%以及第三阈值为20%等等。

那么可以将视频数据库中视频训练集用于对预训练神经网络进行训练,具体先对该视频训练集中的每个视频进行采样,采样出视频的多组连续视频帧,然后分别计算每组连续视频帧所对应的帧差图。其中该步骤s300提取帧差的实现过程可以参考上述图2实施例中步骤s200的实现过程。

步骤s302:将计算得到的所述帧差图以及所述视频对应的人工标签输入预训练神经网络进行训练;

具体地,本发明实施例中的人工标签用于指示视频的噪点严重程度;其中视频数据库中的每个视频都可以人工地来标注出标签(即人工标签),以标注视频是属于三种视频分类(严重噪点、还是轻微噪点还是清晰)中的哪种视频分类。本发明实施例将步骤s300得到的帧差图以及该帧差图的视频对应的人工标签一起输入到预训练神经网络中进行训练。

在其中一种实施方式中,为了减少神经网路的计算代价,本发明实施例中的深度神经网络(包括预训练神经网络)包括通过深度可分离卷积来构建的深度神经网络;例如可以选择轻量神经网络(mobilenet)作为网络结构,将分类输出改为三分类(即3个视频分类结果),即根据人工标签来训练(严重噪点,轻微噪点,无噪点)。

mobilenet是为移动和嵌入式设备提出的高效模型。使用深度可分离卷积来构建轻量级深度神经网络。其基于的基本结构如图4所示。第一个步骤是深度可分离卷积(depth-wise),它只有m个3x3的卷积核,m个卷积核与m个输入map一一卷积得到m个map,它起到了提取特征的作用,第二个步骤是逐点卷积(point-wise),实际上就是传统的卷积,只是所有的卷积核都是1x1,一共有m*n个1x1,起到了融合已提取特征的作用。

为了提高准确率并加快训练过程,本发明实施例可以采用在图像网络(imagenet)上预训练的网络进行微调。鉴于图像质量属于底层信息,高层语义信息只起到辅助作用,在其中一种实施方式中,本发明实施例可以对mobilenet进行简化,包括更改mobilenet网络模型,去掉了传统mobilenet网络模型中的最后两个深度分离卷积层,并将最后的分类输出改为3,对应噪点的三分类(严重噪点、轻微噪点、清晰),网络结构如图5所示。

深度可分离卷积由两层构成:深度卷积和逐点卷积。使用深度卷积来针对每一个输入通道用单个卷积核进行卷积,得到输入通道数的深度,然后运用逐点卷积,即应用一个简单的1x1卷积,来对深度卷积中的输出进行线性结合。mobilenets对每层使用批归一化层(batchnormalization或batchnorm,bn)和非线性激活单元(rectifiedlinearunit)。

深度卷积对每个通道可以使用一种卷积核;深度卷积的计算量可以为:dk*dk*m*df*dfdk*dk*m*df*df。

深度卷积相对于标准卷积十分有效,然而其只对输入通道进行卷积,没有对其进行组合来产生新的特征。因此下一层利用另外的层利用1x1卷积来对深度卷积的输出计算一个线性组合从而产生新的特征。

那么深度卷积加上1x1卷积的逐点卷积的结合就叫做深度可分离卷积,最开始在(rigid-motionscatteringforimageclassification.)中被提出。

深度可分离卷积的计算量可以为:dk*dk*m*df*df+m*n*df*dfdk*dk*m*df*df+m*n*df*df,即深度卷积和1x1的逐点卷积的和。

通过将卷积分为滤波和组合的过程得到对计算量的缩减:dk*dk*m*df*df+m*n*df*dfdk*dk*m*df*df=1n+1d2kdk*dk*m*df*df+m*n*df*dfdk*dk*m*df*df=1n+1dk2。mobilenet使用3x3的深度可分离卷积相较于标准卷积少了8到9倍的计算量。

步骤s304:通过视频验证集来确定出训练后的预测模型的神经网络。

具体地,为了防止过拟合,通过视频验证集从训练结果中确定出最佳模型作为预测模型进行保存。也就是说,针对视频验证集,同样对每个视频进行采样,采样出视频的多组连续视频帧,分别计算每组连续视频帧所对应的帧差图(提取帧差的实现过程可以参考上述图2实施例中步骤s200的实现过程),将计算得到的所述帧差图以及所述视频对应的人工标签输入到各个训练后的神经网络,从而确定出效果最佳的模型。

在其中一种实施方式中,将视频训练集处理后的帧差图和人工标签一起输入预训练神经网络进行训练时,可以设置优化方式可以为随机梯度下降(stochasticgradientdescent,sgd),参数可以为学习率1e-3,势能可以为0.9,批尺寸(batchsize)可以为128;并可以设置每处理第一数量值(例如1000)的视频帧即通过视频验证集进行一次验证,根据验证结果与人工标签计算准确率,保留最高准确率的模型。

在其中一种实施方式中,步骤s304之后还可以包括步骤s306:通过确定出的所述最佳模型的神经网络对视频测试集进行噪点预测,根据预测结果以及所述视频测试集对应的人工标签生成视频分类的混淆矩阵。

具体地,还可以在得到训练后的预测模型的神经网络后,通过视频测试集来进行视频预测得到预测结果,然后根据该视频测试集对应的人工标签与预测结果进行比对,生成视频分类的混淆矩阵,以判断该深度神经网络进行视频分类的好坏程度。

在本发明各个实施例中,将计算得到的帧差图输入到深度神经网络还可以包括:

将所述帧差图按照预定比例进行收缩,收缩后帧差图的第一边长像素个数在第一范围值中,收缩后帧差图的第二边长像素个数在第二范围值中;将收缩后的帧差图输入深度神经网络进行噪点预测。

具体地,为了得到固定大小的输入并进一步减少计算量,可以对视频的帧差图进行收缩,可以按照视频本身的大小比例进行收缩,例如将帧差图收缩到第一边长像素个数(即帧差图的长边的像素个数)为400,第二边长像素个数(即帧差图的短边的像素个数)为280。

在其中一种实施方式中,本发明实施例的视频噪点识别方法还可以利用注意力机制,结合强化学习的奖励(最后总的分类是否正确),使深度神经网络在大量的数据中自主的学习到视频帧中存在噪点的区域,并根据这些噪点区域的大小、噪点颗粒大小、位置等信息来进行严重程度分类。

本发明实施例提供的视频噪点识别方法可以应用在多种技术场景中:

例如针对短视频平台的检测人员对用户上传的视频质量进行审核,如图6示出的本发明实施例提供的视频噪点识别方法的应用场景示意图,视频噪点识别设备侧可以按照本发明提取帧差图的方式从视频库中提取帧差图送入预训练的神经网络进行训练,得到训练后的预测模型的神经网络,然后将需要预测的视频提取出帧差图后利用该预测模型进行预测,输出视频分类结果,当根据输出的视频分类结果确认待识别视频不符合播放要求的情况下,则待识别视频识别不通过;当根据输出的视频分类结果确认待识别视频符合播放要求的情况下,则待识别视频识别通过。也就是说,通过本发明的视频噪点识别方法能够客观地判断视频噪点的严重程度,部署上线后可以很好地代替对噪点的人工审核,可自动快速地获知该待识别视频是否识别通过,或者是否审核通过,并可以把审核结果展示给用户。

又如,针对短视频平台按照视频质量的优劣程度来向用户推荐视频,如图7示出的本发明提供的另一实施例的视频噪点识别方法的应用场景示意图,视频噪点识别设备侧可以按照本发明提取帧差图的方式从视频库中提取帧差图送入预训练的神经网络进行训练,得到训练后的预测模型的神经网络,然后将需要预测的视频提取出帧差图后利用该预测模型进行预测,输出视频分类结果,根据视频分类结果对视频按照视频质量进行排序,可以按照质量优到差的顺序将视频推荐给用户。

实施本发明实施例,通过从待识别视频中采样多组连续帧,分别计算每组连续帧所对应的帧差图,将计算得到的该帧差图输入深度神经网络进行噪点预测,输出视频分类结果,其中,该深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;因而利用了视频不同帧的时间信息,考虑到噪点视频中噪点存在浮动的现象,将视频帧差的残差图作为深度神经网络的输入,通过深度神经网络自适应地学习噪点不同于其他纹理密集型区域的特征,可以更加好地区分帧差信息中残余像素是噪声还是密集纹理的位移信息,实现了排除纹理密集区域的干扰,从而大大的提升噪点视频严重程度分类的准确性。另外,利用视频帧差的方法可以极大的减小神经网络的学习难度,使得神经网络的训练更容易收敛,通过本发明实施例,能够客观地判断视频噪点的严重程度,部署上线后可以很好地代替对噪点的人工审核。

为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种视频噪点识别装置,如图8示出的本发明实施例提供的视频噪点识别装置的结构示意图,视频噪点识别装置80包括:采样计算单元800、预测单元802和识别结果输出单元804,其中

采样计算单元800用于从待识别视频中采样多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

预测单元802用于将计算得到的所述帧差图输入深度神经网络进行噪点预测,输出视频分类结果;其中,所述深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;所述深度神经网络输出的不同的分类结果对应不同的视频噪点严重程度;

当根据输出的所述视频分类结果确认所述待识别视频不符合播放要求的情况下,则所述待识别视频识别不通过。

其中,采样计算单元800可以包括:确定计算单元和差值运算单元,其中,

确定计算单元用于确定所述一组连续视频帧中的中间视频帧,并计算所述一组连续视频帧的平均帧;

差值运算单元用于将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图。

在其中一种实施方式中,该一组连续视频帧包括n帧;差值运算单元可以具体:

通过公式计算得到所述一组连续视频帧所对应的帧差图;

其中,fi,0为中间视频帧,μi为平均视频帧,κ为截断阈值,1≤i≤n,n为正整数。

在其中一种实施方式中,预测单元802可以用于将所述帧差图按照预定比例进行收缩,收缩后帧差图的第一边长像素个数在第一范围值中,收缩后帧差图的第二边长像素个数在第二范围值中;将收缩后的帧差图输入深度神经网络进行噪点预测。

在其中一种实施方式中,所述第一边长像素个数为400;所述第二边长像素个数为280。

识别结果输出单元804,用于根据所述视频分类结果输出噪点识别结果。

如图9示出的本发明提供的视频噪点识别装置的另一实施例的结构示意图,视频噪点识别装置80包括采样计算单元800、预测单元802和识别结果输出单元804外,还可以包括训练单元806,用于对视频训练集中的每个视频进行采样,采样出视频的多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

将计算得到的所述帧差图以及所述视频对应的人工标签输入预训练神经网络进行训练;所述人工标签用于指示所述视频的噪点严重程度;

通过视频验证集来确定出训练后的预测模型的神经网络。

训练单元806通过视频验证集来确定训练后的预测模型的神经网络之后,还可以用于:通过确定出的所述预测模型的神经网络对视频测试集进行噪点预测,根据预测结果以及所述视频测试集对应的人工标签生成视频分类的混淆矩阵。

在其中一种实施方式中,所述深度神经网络包括通过深度可分离卷积来构建的深度神经网络;所述深度神经网络的输出为3个视频分类结果。

本发明实施例中的视频噪点识别装置80各单元用于对应执行上述各方法实施例中图1至图5实施例中的视频噪点识别方法的步骤,这里不再赘述。

为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种视频噪点识别设备,下面结合附图来进行详细说明:

如图10示出的本发明实施例提供的视频噪点识别设备的结构示意图,视频噪点识别设备100可以包括处理器101、显示屏102、存储器104和通信模块105,处理器101、显示屏102、存储器104和通信模块105可以通过总线106相互连接。存储器104可以是高速随机存储记忆体(randomaccessmemory,ram)存储器,也可以是非易失性的存储器(non-volatilememory),例如至少一个磁盘存储器,存储器104包括本发明实施例中的flash。存储器104可选的还可以是至少一个位于远离前述处理器101的存储系统。存储器104用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及视频噪点识别程序,通信模块105用于与外部设备进行信息和数据交互;处理器101被配置用于调用该程序代码,执行以下步骤:

从待识别视频中采样多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

将计算得到的所述帧差图输入深度神经网络进行噪点预测,输出视频分类结果;其中,所述深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;所述深度神经网络输出的不同的分类结果对应不同的视频噪点严重程度;

根据所述视频分类结果输出噪点识别结果。

其中,处理器101所述分别计算每组连续视频帧所对应的帧差图的过程中,针对一组连续视频帧,可以包括:

确定所述一组连续视频帧中的中间视频帧,并计算所述一组连续视频帧的平均帧;

将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图。

其中,处理器101将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图,可以包括:

将所述中间视频帧减去所述平均视频帧后,进行截断处理;

将截断处理后的帧差像素值平移到目标像素区间,得到所述一组连续视频帧所对应的帧差图。

其中,处理器101将所述中间视频帧与所述平均视频帧进行差值运算,得到所述一组连续视频帧所对应的帧差图,可以包括:

将所述中间视频帧减去所述平均视频帧后取绝对值,得到所述一组连续视频帧所对应的帧差图。

其中,所述一组连续视频帧包括n帧,处理器101将所述中间视频帧减去所述平均视频帧后,进行截断处理;将截断处理后的帧差像素值平移到目标像素区间,得到所述一组连续视频帧所对应的帧差图,可以包括:

通过公式计算得到所述一组连续视频帧所对应的帧差图;

其中,fi,0为中间视频帧,μi为平均视频帧,κ为截断阈值,1≤i≤n,n为正整数。

其中,处理器101将计算得到的所述帧差图输入深度神经网络进行噪点预测,可以包括:

将所述帧差图按照预定比例进行收缩,收缩后帧差图的第一边长像素个数在第一范围值中,收缩后帧差图的第二边长像素个数在第二范围值中;

将收缩后的帧差图输入深度神经网络进行噪点预测。

其中,所述第一边长像素个数为400;所述第二边长像素个数为2100。

其中,处理器101利用视频的帧差图作为训练神经网络的输入而训练,可以包括:

对视频训练集中的每个视频进行采样,采样出视频的多组连续视频帧,分别计算每组连续视频帧所对应的帧差图;

将计算得到的所述帧差图以及所述视频对应的人工标签输入预训练神经网络进行训练;所述人工标签用于指示所述视频的噪点严重程度;

通过视频验证集来确定出训练后的预测模型的神经网络。

其中,处理器101通过视频验证集来确定训练后的预测模型的神经网络之后,还可以执行:

通过确定出的所述预测模型的神经网络对视频测试集进行噪点预测,根据预测结果以及所述视频测试集对应的人工标签生成视频分类的混淆矩阵。

其中,所述深度神经网络包括通过深度可分离卷积来构建的深度神经网络;所述深度神经网络的输出为3个视频分类结果。

需要说明的是,本发明实施例中视频噪点识别设备中处理器101的执行步骤可参考上述各方法实施例中图1至图5实施例中的视频噪点识别方法的具体实现方式,这里不再赘述。

实施本发明实施例,通过从待识别视频中采样多组连续帧,分别计算每组连续帧所对应的帧差图,将计算得到的该帧差图输入深度神经网络进行噪点预测,输出视频分类结果,其中,该深度神经网络为利用视频的帧差图作为训练神经网络的输入而训练得到的神经网络;因而利用了视频不同帧的时间信息,考虑到噪点视频中噪点存在浮动的现象,将视频帧差的残差图作为深度神经网络的输入,通过深度神经网络自适应地学习噪点不同于其他纹理密集型区域的特征,可以更加好地区分帧差信息中残余像素是噪声还是密集纹理的位移信息,实现了排除纹理密集区域的干扰,从而大大的提升噪点视频严重程度分类的准确性。另外,利用视频帧差的方法可以极大的减小神经网络的学习难度,使得神经网络的训练更容易收敛,通过本发明实施例,能够客观地判断视频噪点的严重程度,部署上线后可以很好地代替对噪点的人工审核。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1