本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法,属于视频恢复和视频增强技术领域。
背景技术:
视频压缩噪声是指由于数据压缩技术对原始视频进行有损压缩而产生的模糊效应、振铃效应、色块效应等影响用户观感体验的噪声。目前常见的数据压缩方法有jpeg,webp和hevc-msp等,这类方法使用不精确的近似表示来编码数据以达到节省传输带宽和空间存储的目的。为了在使用了压缩技术的情况下提高视频的质量,保证用户体验,研究人员们针对压缩噪声的去除进行了很多研究工作。然而,对于视频通话这类特殊的视频压缩噪音的去除工作却没有,而且对于自然视频和图像的恢复效果也有待提高。
视频通话类视频指日常生活中人们通过手机和电脑上的摄像头,进行一对一、一对多或者多对多的远程聊天视频,视频中往往只出现人的正面头部或者上半身。这类视频不单单来源于日常视频通话,如微信视频通话、qq视频通话、facetime视频通话等等,还来源于现在非常流行的网络直播行业。这些视频通话和网络直播所产生的流量十分巨大,传输和存储都需要消耗大量成本,而采取压缩技术虽然节省了传输和存储成本,但会严重影响人们的视频通话或者网络直播的实时体验。目前,对于压缩噪声的去除工作主要集中在针对单帧图像或者自然视频,并没有将视频通话类视频做专门研究。而这类视频往往具有比自然视频更多的先验信息,因为人类讲话和人脸变化尤其是嘴部的运动具有极强的相关性。所以,将语音作为线索对视频通话类视频进行去噪和增强在理论上是完全可行且有必要的。
基于深度卷积神经网络(dcnn)的去除压缩噪声模型是将低质量的视频或者图像作为输入,端到端式地输出对应的高质量的视频或者图像。深度卷积神经网络,是多层感知器的正规化版本。它是由一个输入层和一个输出层以及多个隐藏层组成。每层隐藏层通常包括卷积操作和激活操作,可以表示为σ(w*x+b),其中*表示卷积操作,w、x和b分别表示该层卷积核参数、该层输出和该层的偏置项,σ(·)表示激活函数。在优化阶段,深度卷积神经网络通常通过反向传播来优化每层的参数。随着视频通话和网络直播的发展,人们对视频质量的要求越来越高,而现有的基于深度神经网络的视频增强恢复技术忽视了语音的作用。所以,如何借助语音线索,去除视频通话类视频中的压缩噪声成为了一个亟待解决的问题。尤其是在带宽严重不足和存储空间非常有限的严峻情况下保证用户的体验,那么借助语音线索进行视频增强至关重要。
技术实现要素:
针对现有技术的缺失和不足,本发明提供了一种基于语音线索的视频通话类视频去除压缩噪声的方法。
发明概述:
一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括构建数据集和数据预处理、建立基于语音线索的视频压缩噪声去除模型、训练基于语音线索的视频压缩噪声去除模型和测试基于语音线索的视频压缩噪声去除模型的去噪效果四个部分。
为了训练通用的去噪模型,要进行数据采集和预处理,将采集到的人的讲话视频进行裁剪和有损压缩等操作建立数据集。为了将语音信息引入作为视频恢复的先验知识,建立基于语音线索的视频通话类视频去除压缩噪声的生成式模型。为了求解优化模型的未知参数,对模型进行迭代交替训练。
术语解释:
1、gan,是指generativeadversarialnetwork,即生成对抗网络。gan是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。它至少包含两个模块:生成器(generator)和判别器(discriminator)。二者的相互对抗学习会产生越来越接近真实分布的输出。原始gan理论中,并不要求生成器和判别器都是神经网络,只需要是能拟合相应生成和判别的函数即可。
2、mfcc,是指mel-scalefrequencycepstralcoefficients,即梅尔倒谱系数,也称作梅尔频率倒谱系数。mfcc是在mel标度频率域提取出来的倒谱参数,mel标度描述了人耳频率的非线性特性。它衍生自音讯片段的倒频谱,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示,可以对声音信号有更好的表达,通常作为语音信息的特征表达。
3、h.264,是国际标准化组织(iso)和国际电信联盟(itu)共同提出的继mpeg4之后的新一代数字视频压缩算法,是以h.26x系列为名称命名的视频编解码技术标准之一。h.264是现在所有视频压缩技术中使用最广泛、最流行的视频压缩算法算法。
4、低码率视频,是指视频码率(单位时间传送的数据位数)较低且影响人观看体验的视频,一般视频码率的单位是kbps即千位每秒。码率越高,视频质量越好,码率越低则视频质量越差。例如,本发明实施实例2中所采用的低码率视频的码率为90kbps,这已经严重影响用户的视觉体验,视频质量极差。
5、高质量图像,是指基本不存在或者只存在较少色块效应(blockingartifacts)、模糊(blurring)和振铃效应(ringingeffect)等噪声影响的图像,一般指未经过有损压缩或者压缩程度较小的图像。
6、非同步更新法则,是指在gan训练时,生成器和判别器的更新不是同步进行的,而是先更新判别器多次,得到较好的判别器后再更新一次生成器。
本发明的技术方案如下:
一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括步骤如下:
a、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
b、建立基于语音线索的视频压缩噪声去除模型
基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
c、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
d、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,输出去除了压缩噪声的高质量的视频。
本发明对视频通话类视频压缩噪声的去除包括二个部分,其中第一部分将低码率视频的语音信号进行mfcc特征提取;第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型,完成消除压缩噪声的任务,达到视频增强和视频恢复的目的,提升用户体验。
根据本发明所优选的,所述步骤a,构建数据集和数据预处理,视频通话类视频数据集即原始视频
a、读取n段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行mfcc特征提取,每个单声道语音文件的每个采样区间提取到m维mfcc特征,每个单声道语音文件对应提取到一个n列m行的mfcc特征矩阵a,
c、读取n段视频,采用h.264视频压缩算法对每段视频进行压缩,得到n段低码率低质量的视频,构成集合
d、将原始视频
根据本发明所优选的,所述步骤b,建立基于语音线索的视频压缩噪声去除模型,包括:
e、经过步骤b得到mfcc特征后,将视频的第t帧图像所对应的长度为l的mfcc特征片段
式(ⅰ)中,
f、将低码率低质量视频的第t帧图像
式(ⅱ)中,
g、将步骤e和步骤f得到的两种特征
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像ihigh,将步骤g得到的第t帧图像
y=dimage(xin)(ⅳ)
式(ⅳ)中,xin表示图像真实性判别器dimage的输入图像,
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列
式(v)中,
j、将步骤g得到的生成图像
式(ⅵ)中,t表示一个批次中生成图像的帧数,||·||1表示l1范数即每个像素点之间差的绝对值的平均,
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
式(ⅶ)中,
根据本发明所优选的,所述步骤c,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型g、图像真实性判别器dimage和视频连续性判别器dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型g、图像真实性判别器dimage和视频连续性判别器dvideo的优化器为optimizer1、optimizer2和optimizer3,设置迭代次数为m;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型g、图像真实性判别器dimage和视频连续性判别器dvideo采用非同步更新法则,图像真实性判别器dimage和视频连续性判别器dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型g更新1次。
根据本发明所优选的,所述步骤d,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤c得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征mfcc输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算ssim指标以定量衡量视频恢复的效果,公式如下:
式(ⅷ)中,ssim全称为structuralsimilarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频vx与其真实高清视频vy的相似性,其中f表示视频包含的帧数,s表示每张图像中所截取滑窗的个数,
本发明的有益效果为:
1、本发明将人讲话的语音信号作为视频通话类视频去压缩噪声的重要线索,能够将语音和人脸变化特别是嘴型变化联系起来,得到更好的视频恢复效果。
2、本发明设计了语音编码器,能够很好地将语音特征和图像特征融合在一起,共同作为视频去噪的先验知识。
3、本发明设计了生成式的恢复网络,不仅构建了图片真实性判别器保证恢复单张图片的真实性,而且还构建了视频连续性判别器来保持恢复视频的连续性,这使得恢复的视频更自然更符合人类视觉体验。
附图说明:
图1为本发明基于语音线索的视频通话类视频去除压缩噪声的方法的整体流程图;
图2为本发明语音特征编码器模型内部结构图;
图3为本发明带有生成器网络模型内部结构图;
图4为本发明图像真实性判别器的内部实现结构图;
图5为本发明视频连续性判别器的内部实现结构图;
图6为本发明基于语音线索的视频压缩噪声去除模型的组成框图;
图7(a)为固定码率为90kbps的低码率低质量视频片段示意图;
图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图;
图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于语音线索的视频通话类视频去除压缩噪声的方法,如图1所示,包括步骤如下:
a、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
b、建立基于语音线索的视频压缩噪声去除模型
如图6所示,基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
c、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
d、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,如图1所示虚线框内流程所示,输出去除了压缩噪声的高质量的视频。
本发明对视频通话类视频压缩噪声的去除包括二个部分,其中第一部分将低码率视频的语音信号进行mfcc特征提取;第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型,完成消除压缩噪声的任务,达到视频增强和视频恢复的目的,提升用户体验。
实施例2
根据实施例1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其区别在于:
步骤a,构建数据集和数据预处理,视频通话类视频数据集即原始视频
a、读取n段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行mfcc特征提取,每个单声道语音文件的每个采样区间提取到m维mfcc特征,每个单声道语音文件对应提取到一个n列m行的mfcc特征矩阵a,
c、读取n段视频,采用h.264视频压缩算法对每段视频进行压缩,得到n段低码率低质量的视频,构成集合
d、将原始视频
步骤b,建立基于语音线索的视频压缩噪声去除模型,包括:
e、经过步骤b得到mfcc特征后,将视频的第t帧图像所对应的长度为l的mfcc特征片段
式(ⅰ)中,
f、将低码率低质量视频的第t帧图像
式(ⅱ)中,
g、将步骤e和步骤f得到的两种特征
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像ihigh,将步骤g得到的第t帧图像
y=dimage(xin)(ⅳ)
式(ⅳ)中,xin表示图像真实性判别器dimage的输入图像,
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列
式(v)中,
j、将步骤g得到的生成图像
式(ⅵ)中,t表示一个批次中生成图像的帧数,||·||1表示l1范数即每个像素点之间差的绝对值的平均,
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
式(ⅶ)中,
步骤c,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型g、图像真实性判别器dimage和视频连续性判别器dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型g、图像真实性判别器dimage和视频连续性判别器dvideo的优化器为optimizer1、optimizer2和optimizer3,设置迭代次数为m;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型g、图像真实性判别器dimage和视频连续性判别器dvideo采用非同步更新法则,图像真实性判别器dimage和视频连续性判别器dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型g更新1次。
步骤d,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤c得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征mfcc输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算ssim指标以定量衡量视频恢复的效果,公式如下:
式(ⅷ)中,ssim全称为structuralsimilarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频vx与其真实高清视频vy的相似性,其中f表示视频包含的帧数,s表示每张图像中所截取滑窗的个数,
图7(a)为固定码率为90kbps的低码率低质量视频片段示意图;图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图;图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。
从图7(b)可以看出,本发明的方法可以很好的消除压缩噪音的影响。去噪后的输出视频在视觉体验上比附图7(a)所展示的原始视频有明显提升,并且图像锐度较高,没有模糊效果。
与附图7(c)所展示的真实的高清视频对比,本发明的方法保留了原始视频的图像真实性和视频连续性。通过计算ssim指标,得到将原始高清视频压缩到码率为90kbps的视频与原始高清视频的ssim指标为0.7395,本发明去噪后的视频与原始视频的ssim指标为0.7645,说明本发明能够明显改善原始低码率视频的质量,提升用户体验。