一种基于深度学习的高帧率视频生成方法及系统与流程

文档序号:11931680阅读:375来源:国知局

本发明属于计算机视觉技术领域,更具体地,涉及一种基于深度学习的高帧率视频生成方法及系统。



背景技术:

随着科技的发展,人们获取视频的方式越来越便捷,然而由于硬件的原因,大部分视频都是非专业设备采集到的,帧率一般只有24fps-30fps。高帧率的视频具有极高的流畅度,可以给人们带来更好的视觉体验。如果人们直接将高帧率的视频上传到网上,由于流量消耗增大,人们的成本也随着增加。如果直接上传输低帧率的视频,由于网络线路的原因,视频在传输的过程中难免存在丢帧的问题,视频越大越容易出现这种现象,使得远端的视频质量不能得到有效的保证,这极大地影响了人们的体验。因此有必要在远端采用合理的处理方式对人们上传的视频进行后续处理,使得视频的质量能满足人们的需求甚至进一步提升人们的体验。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的高帧率视频生成方法,其目的在于将低帧率的视频转换为高帧率的视频,由此解决由于低帧率视频在网路传输过程中的丢帧而造成视频质量下降给人们的体验带来影响的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的高帧率视频生成方法,包括以下步骤:

(1)利用一个或多个原始高帧率视频片段生成训练样本集,所述训练样本集中包括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张对照帧,所述两张训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧为所述两张训练帧中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈值;

(2)利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,以获得优化后双通道卷积神经网络;其中,所述双通道卷积神经网络模型为由两个卷积通道融合而成的卷积神经网络,两个卷积通道分别用于输入视频帧子集合中的两张视频帧并分别对输入的视频帧进行卷积,双通道卷积神经网络模型对两个卷积通道的卷积结果进行融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通道卷积神经网络模型;

(3)利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。

本发明的一个实施例中,所述双通道卷积神经网络模型中的每个卷积通道包括k个卷积层,其中k>0,每个卷积层的数学描述为:

Zi(Y)=Wi*Fi-1(Y)+Bi

其中i表示卷积层的层数,输入视频帧为第0层,*代表卷积操作,Fi-1表示第i-1层的输出,Zi(Y)表示第i层卷积操作后的输出,Wi为第i层的卷积核参数,Bi为第i层的偏置参数。

本发明的一个实施例中,在所述卷积通道中,在前k-1个卷积层之后分别接有一个ReLU的激活层以保持网络的稀疏性,其数学描述为:

Fi(Y)=max(0,Zi)。

本发明的一个实施例中,在所述两张视频帧经过最后一个卷积层之后得到的特征响应图采用对应位置值相加的方式进行融合。

本发明的一个实施例中,在所述融合操作得到特征响应图之后接一个Sigmoid激活层以将图片的像素值映射到0-1之间,其数学描述为:

本发明的一个实施例中,采用均值为0,标准差为1的高斯分布初始化卷积核参数,偏置初始化为0,基准学习速率初始化为1e-6,迭代m个周期后基准学习速率缩小10倍,其中m为预设值。

本发明的一个实施例中,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通道卷积神经网络模型,具体为:

利用预测帧与对照帧之间的误差,采用误差反向传播算法来训练所述双通道卷积神经网络;其中采用最小平方误差为我们的优化函数,其数学描述为:

其中i表示第i张样本图片,n表示样本训练集的数量,Yi表示网络预测的视频帧,表示相应视频帧的真实值。

本发明的一个实施例中,所述k取值为3;第一个卷积层有64个9*9的卷积核,步长为1个像素,填充值为4,填充值是指在特征图周边补零的圈数;第二个卷积层有32个1*1的卷积核,步长为1个像素,填充值为0;第三个卷积层有3个5*5的卷积核,步长为1,填充值为2。

按照本发明的另一方面,还提供了一种基于深度学习的高帧率视频生成系统,包括训练样本集生成模块、双通道卷积神经网络优化模块以及高帧率视频生成模块,其中:

所述训练样本集生成模块,用于利用一个或多个高帧率视频片段生成训练样本集,所述训练样本集中包括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张对照帧,所述两张训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧为所述两张训练帧的中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈值;

所述双通道卷积神经网络优化模块,用于利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,获得优化后双通道卷积神经网络;其中,所述双通道卷积神经网络模型为两个通道融合的卷积神经网络,两个通道分别用于输入所述视频帧子集合中的两张视频帧并对输入的视频帧分别进行卷积,双通道卷积神经网络模型的对两个通道卷积的结果进行融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通道卷积神经网络模型;

所述高帧率视频生成模块,用于利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。

本发明的一个实施例中,所述双通道卷积神经网络模型中的每个卷积通道包括k个卷积层,其中k>0,每个卷积层的数学描述为:

Zi(Y)=Wi*Fi-1(Y)+Bi

其中i表示卷积层的层数,输入视频帧为第0层,*代表卷积操作,Fi-1表示第i-1层的输出,Zi(Y)表示第i层卷积操作后的输出,Wi为第i层的卷积核参数,Bi为第i层的偏置参数。

总体而言,通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:

(1)本发明的特征提取和帧的预测都是通过训练样本的监督学习得到,无需人工干预,在大规模数据的场景下能更好地拟合空间差异信息;

(2)本发明的整个过程是端到端的,利用卷积神经网络的自我学习能力,通过自我学习的方式学得模型参数,简洁高效,克服了传统技术在处理视频帧率转换时耗时耗力且效果不明显的特点。

附图说明

图1是本发明的基于深度学习的视频帧率转换方法的流程图,其中Fi表示第i层的输出,Yt-1、Yt、Yt+1表示连续的三帧视频帧,Yt作为真实值用于计算误差,Prediction表示网络预测的视频帧。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明:

卷积神经网络(Convolutional Neural Network,CNN):一种可用于图像分类、回归等任务的神经网络,它的特殊性体现在两个方面,一方面是它的神经元间的连接是非全连接的,另一方面同一层中某些神经元之间的连接的权重是共享的。网络通常由卷积层、池化层和全连接层构成。卷积层和池化层负责提取图像的层级特征,全连接层负责对提取到的特征进行分类或者回归。网络的参数包括卷积核以及全连接层的参数及偏置,参数可以通过反向传导算法从数据中学习得到。

反向传导算法(Backpropagation Algorithm,BP):是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度,这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。该算法主要包含两个阶段:激励的前向、反向传播和权重的更新。

随着大数据时代的到来,视频数据库的规模也越来越大,这个问题的解决也越来越迫切。深度神经网络能够以一种较好的方式模拟人类大脑的工作方式对数据进行分析,近年来,深度学习在计算机视觉的各个领域都取得了成功的应用,但是对于视频帧率的转换问题尚无明显的研究,鉴于传统的视频帧率转换方法过程复杂,时间人力成本较高,本发明提出了一种基于深度学习视频帧率转换方法。该方法整个过程是端到端的,简便且高效,对于视频的抖动、场景切换等问题都具有较强的鲁棒性。

如图1所示,本发明基于深度学习的视频帧率转换方法,可以包括以下步骤:

(1)利用一个或多个原始高帧率视频片段生成训练样本集,所述训练样本集中包括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张对照帧,所述两张训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧为所述两张训练帧中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈值;

具体地,可以提取高帧率视频片段得到视频帧集合,按照一定比例获得训练样本集;

训练样本集是由多个视频帧子集合组成的,所述每个视频帧子集合中包含两张训练帧和一张对照帧。对照帧选取为所述两张训练帧的最中间或靠近最中间的那一帧。一般情况下是指取连续3帧,中间一帧为对照帧,另两帧为训练帧;如果帧率足够高,则也可以取相隔多帧(视帧率而定,不能太多)的两帧作为训练帧,而中间相隔的多帧中可选取中间间隔的任意一帧为对照帧;例如用于训练的高视频帧率为60,该视频有N帧,那么按照间隔一帧取样本训练的方式,从第2至第N-1帧里随机取一帧作为真实值(对照帧),并将该帧相邻的两帧作为训练样本(两个训练帧)输入到网络里面。同理,也可以按照间隔多帧的方式来训练样本,这样可以用于更低帧率的视频,即更低帧率的视频转换为高帧率的视频。

(2)利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,以获得优化后双通道卷积神经网络;其中,所述双通道卷积神经网络模型为由两个卷积通道融合而成的卷积神经网络,两个卷积通道分别用于输入视频帧子集合中的两张视频帧并分别对输入的视频帧进行卷积,双通道卷积神经网络模型对两个卷积通道的卷积结果进行融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通道卷积神经网络模型;

首先要设计并实现一个双通道卷积神经网络,具体地:

所建立的双通道卷积神经网络模型为两个卷积通道融合的卷积神经网络,共包含k个卷积层,k>0,优选为3,分别对两张视频帧图片(训练帧)单独进行卷积。第一个卷积层有64个9*9的卷积核,步长为1个像素,填充值为4,填充值是指在特征图周边补零的圈数。第二个卷积层有32个1*1的卷积核,步长为1个像素,填充值为0。第三个卷层有3个5*5的卷积核,步长为1,填充值为2。卷积层的数学描述为:

Zi(Y)=Wi*Fi-1(Y)+Bi

其中i表示网络的层数,输入图像为第0层,*代表卷积操作,Fi-1表示第i-1层的输出,Zi(Y)表示第i层卷积操作后的输出,Wi为第i层的卷积核参数,Bi为第i层的偏置参数;

在所述3个卷积层中,第1和第2个卷积层之后分别接有一个ReLU的激活层以保持网络的稀疏性,其数学描述为:

Fi(Y)=max(0,Zi)。

两张视频帧图片经过第三个卷积层之后得到的特征响应图采用对应位置值相加的方式进行融合;

在所述融合操作之后,得到的特征响应图后接一个Sigmoid激活层以将图片的像素值映射到0-1之间,其数学描述为:

在训练所述双通道卷积神经网络之前,需要对视频帧中的每个像素值除以255进行归一化处理,归一化后的像素值在0到1之间;

并且,在训练所述双通道卷积神经网络之前,需要初始化卷积神经网络参数采用均值为0,标准差为1的高斯分布初始化卷积核参数,偏置初始化为0,基准学习速率初始化为1e-6,迭代m个周期后基准学习速率缩小10倍,其中m为预设值;例如,m优选2,则在前1—m个迭代周期中,学习速率=1e-6,迭代m个周期后,学习速率=1e-7,并一直保持不变。

具体地,可以利用网络的预测值与对照之间的误差,采用误差反向传播算法来训练双通道卷积神经网络。采用最小平方误差为我们的优化函数,其数学描述为:

其中i表示第i张样本图片,n表示样本训练集的数量,Yi表示网络预测的视频帧,表示相应视频帧的真实值;

(3)利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1