一种基于端到端的水场景音频的生成方法与流程

文档序号:18001527发布日期:2019-06-25 22:54阅读:169来源:国知局
一种基于端到端的水场景音频的生成方法与流程

本发明属于音频处理的技术领域,具体涉及一种基于端到端的水场景音频的生成方法。



背景技术:

随着计算机图形学技术的不断发展,人们对视频及动画的声音质量提出了更高的要求。而水场景,尤其是户外水场景存在于影视、游戏之中,所以开发一种能够自动的根据户外水场景视频去生成对应场景声音的方法显得十分必要。目前,人们大多利用基于物理的方法去生成水场景的声音。

基于物理的水场景声音生成方法主要基于一种理论,即气泡的形成和共振是水声音的最主要的来源。zheng等人在谐波气泡中提出一个基于谐波气泡的水流声音生成方法,通过对声音传播过程的考虑,其生成了包括水龙头流水在内的多种流水声音,但其所生成的结果需要经过繁琐的人为调整,随后,langlois等人在基于复杂声学气泡的水模拟中提出一个基于二相不可压缩流体模拟的声音生成方法被提出,用于改进利用气泡生成的流体声音结果,其液体中的气泡不再采用随机的模型,而是根据流体的状态去产生更加真实的气泡,也使得最终的声音效果更加逼真,但这些方法的主要研究对象都局限于小规模的水流,并且,随着声音结果的不断改良,算法复杂度也在不断的提升,这就使得他们无法应用到户外水场景的声音合成中。

深度学习的声音生成方法,基于视频去生成对应的声音。owens等人在视觉表明声音中提出一个由卷积神经网络(cnn)和长短期记忆单元(lstm)组合而成的神经网络,其通过输入每一帧视频灰度图及其前后帧灰度图像组成的spacetime图的图像特征,输出与视频相对应的声音耳蜗电图,再去声音库中寻找与此图最匹配的声音样本拼接生成最终结果,chen等人在深跨模态视听生成中提出利用gan网络设计了两种转换模式,分别将输入乐器声的对数振幅梅尔频谱图(lms)转换为对应的乐器图,以及将乐器图转换为对应的lms图,再去寻找与lms匹配的乐器声音,这两个算法的深度网络的输出都是类似于图像的谱图,并没有直接生成原始的声音信号,zhou等人在视频到声音:室外视频的声音生成中提出利用samplernn模型对自然场景视频的声音进行了尝试性地生成,通过提取视频图像或者光流图的特征作为rnn的输入,从而直接生成对应的声音信号,然而其在音视频同步性上仍然存在一些问题。



技术实现要素:

本发明的目的在于:针对现有技术的不足,提供一种基于端到端的水场景音频的生成方法,能够实现端到端的户外水场景声音的自动生成,解决为场景配音费时和费力的问题,同时,利用训练所得的模型来生成水场景音频,能够提高生成速度和同步度,从而提高工作效率。

为了实现上述目的,本发明采用如下技术方案:

一种基于端到端的水场景音频的生成方法,包括如下步骤:

步骤一,选取各类水场景视频,并进行预处理;

步骤二,根据预处理后的数据,通过训练获得生成器模型;

步骤三,将无声视频进行预处理,加载到训练好的所述生成器模型,输出与所述无声视频对应的音频;

步骤四,根据所述音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的所述音频。

还需要说明的是:本发明的生成方法中,步骤一中,选取各类水场景视频进行训练,有助于对模型进行优化训练,降低误差,同时,由于视频的图像信息与声音之间有较大的维度差异,通过预处理能够使图像信息与声音在同一个维度;步骤二中,通过对预处理后的数据训练生成器模型,可自动合成与户外水场景视频相同步的流体声音,不需要专业的拟音师来合成同步的水场景声音,也不需要人为的根据不同的场景特征去设计不同的算法来生成各类场景的声音,节约人力物力的同时,提高生成器模型的准确性,满足人们的需求,同时,还需要设置辨别器,用于评估生成器生成结果的好坏,并将评估结果反馈到生成器模型中,生成器模型经过多次的反馈及调整过程,实现对生成器模型进行有效训练,从而提高生成器模型的准确性,给无声视频同步配声音;步骤三中,无声视频不具有声音,需要训练好的生成器模型根据每一秒的无声视频信息向量,生成对应的音频数据,从而完成给无声视频配上声音;步骤四中,由于生成器模型输出的音频数据未必能符合实际水场景,如瀑布场景,需要对音色进行增强,以符合实际水场景需求,同时,为了进一步提高自动化水平,也采用训练好的音色增强器模型对音色进行增强,实现端到端的户外水场景声音的自动生成,训练好的音色增强器模型能够根据声音的包络,直接得到增强后的音频,免去中间的物理方法,如,图象法、比较法、综合法、控制变量法和转化法等,大大提高处理速度,减少用户等待的时间。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤一中,所述预处理的方法,包括如下步骤:

a1、提取视频帧的特征,获取视频的信息;

a2、将每秒视频信息转换为与音频维度相同的向量。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤二中,所述生成器模型的训练方法,包括如下步骤:

b1、输入所述视频信息的向量,通过所述生成器模型输出音频信号;

b2、评估所述音频信号,若不对应,则反馈给所述生成器模型,并重新进行调整,直到输出对应的音频信号;若对应,则继续进行下一个视频信息的训练。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤四中,所述音色增强器模型的训练方法,包括如下步骤:

c1、输入目标音频的包络,通过所述音色增强器模型输出所述音频的序列;

c2、评估所述音频的序列,若不是目标序列,则反馈给所述音色增强器模型,并重新进行调整,直到输出目标音频的序列;若是目标序列,则继续进行下一个音色增强训练。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤四中,所述包络的生成方法,包括如下步骤:

d1、输入一段音频序列gv以及包络的采样间隔lstep;

d2、取音频序列gv中每一个采样间隔lstep内的绝对值的最大值作为这段间隔内的一个包络点pi;

d3、所有采样间隔内的包络点pi连接而成的数组ep,经过线性插值形成长度与gv相同的序列e(1:len),即为音频序列gv所对应的包络,

其中,pi∈gv,interp()表示线性插值,表示连接操作。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤a2中,所述视频信息转换公式为:

g(y1,...,ym)→x1,...,xn,x∈{音频),y∈{视频}

其中y1,...,ym代表所述视频帧的颜色通道信息,每一个通道都是由介于0到255之间的数组成的矩阵,g(y1,...,ym)表示基于视频帧生成的音频信号的值(取值范围为-1到1),x1,...,xn表示视频对应的音频信号的值(变化范围为-1到1)。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤二中,输出所述音频信号所使用的损失函数为:

其中,λ=100,其中,x表示声音真实值,v表示视频帧信息,g表示生成器生成的结果,d表示评估的结果,e表示求均值。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤二中,评估所述音频信号所使用的损失函数为:

其中,v表示视频帧信息,g表示生成器生成的结果,d表示评估的结果,e表示求均值。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,所述水场景音频的生成方法基于gan网络,所述gan网络包括生成器、辨别器及音色增强器。

作为本发明所述的一种基于端到端的水场景音频的生成方法的一种改进,所述水场景音频的生成方法基于gan网络,步骤一中,预处理后的视频帧产生的向量vt可以表示为如下形式:

其中,表示连接操作,vt,q表示第t秒的第q帧所提取的特征,floor表示向下取整;

声音的生成任务可进一步表示为如下形式:

g(v1,v2,...,vδt)→x1,x2,...,xδt

其中,xt={xt,1,xt,2,...,xt,sraudio},t∈{1,2,...,δt}。

本发明的有益效果在于,本发明包括如下步骤:步骤一,选取各类水场景视频,并进行预处理;步骤二,根据预处理后的数据,通过训练获得生成器模型;步骤三,将无声视频进行预处理,加载到训练好的生成器模型,输出与无声视频对应的音频;步骤四,根据音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的音频。在本发明的生成方法中,步骤一中,选取各类水场景视频进行训练,有助于对模型进行优化训练,降低误差,同时,由于视频的图像信息与声音之间有较大的维度差异,通过预处理能够使图像信息与声音在同一个维度;步骤二中,通过对预处理后的数据训练生成器模型,可自动合成与户外水场景视频相同步的流体声音,不需要专业的拟音师来合成同步的水场景声音,也不需要人为的根据不同的场景特征去设计不同的算法来生成各类场景的声音,节约人力物力的同时,提高生成器模型的准确性,满足人们的需求,同时,还需要设置辨别器,用于评估生成器生成结果的好坏,并将评估结果反馈到生成器模型中,生成器模型经过多次的反馈及调整过程,实现对生成器模型进行有效训练,从而提高生成器模型的准确性,给无声视频同步配声音;步骤三中,无声视频不具有声音,需要训练好的生成器模型根据每一秒的无声视频信息向量,生成对应的音频数据,从而完成给无声视频配上声音;步骤四中,由于生成器模型输出的音频数据未必能符合实际水场景,如瀑布场景,需要对音色进行增强,以符合实际水场景需求,同时,为了进一步提高自动化水平,也采用训练好的音色增强器模型对音色进行增强,实现端到端的户外水场景声音的自动生成,训练好的音色增强器模型能够根据声音的包络,直接得到增强后的音频,免去中间的物理方法,如,图象法、比较法、综合法、控制变量法和转化法等,大大提高处理速度,减少用户等待的时间。本发明能够实现端到端的户外水场景声音的自动生成,解决为场景配音费时和费力的问题,同时,利用训练所得的模型来生成水场景音频,能够提高生成速度和同步度,从而提高工作效率。

附图说明

图1为本发明的流程示意图;

图2为本发明的工作示意图;

图3为本发明中水场景及其对应的音频信号的波形图;

图4为本发明中音色增强前后的频谱对比图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。

在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1~4对本发明作进一步详细说明,但不作为对本发明的限定。

实施例1

一种基于端到端的水场景音频的生成方法,包括如下步骤:

步骤一,选取各类水场景视频,并进行预处理;

步骤二,根据预处理后的数据,通过训练获得生成器模型;

步骤三,将无声视频进行预处理,加载到训练好的生成器模型,输出与无声视频对应的音频;

步骤四,根据音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的音频。

还需要说明的是:本发明的生成方法中,步骤一中,选取各类水场景视频进行训练,有助于对模型进行优化训练,降低误差,同时,由于视频的图像信息与声音之间有较大的维度差异,通过预处理能够使图像信息与声音在同一个维度;步骤二中,通过对预处理后的数据训练生成器模型,可自动合成与户外水场景视频相同步的流体声音,不需要专业的拟音师来合成同步的水场景声音,也不需要人为的根据不同的场景特征去设计不同的算法来生成各类场景的声音,节约人力物力的同时,提高生成器模型的准确性,满足人们的需求,同时,还需要设置辨别器,用于评估生成器生成结果的好坏,并将评估结果反馈到生成器模型中,生成器模型经过多次的反馈及调整过程,实现对生成器模型进行有效训练,从而提高生成器模型的准确性,给无声视频同步配声音;步骤三中,无声视频不具有声音,需要训练好的生成器模型根据每一秒的无声视频信息向量,生成对应的音频数据,从而完成给无声视频配上声音;步骤四中,由于生成器模型输出的音频数据未必能符合实际水场景,如瀑布场景,需要对音色进行增强,以符合实际水场景需求,同时,为了进一步提高自动化水平,也采用训练好的音色增强器模型对音色进行增强,实现端到端的户外水场景声音的自动生成,训练好的音色增强器模型能够根据声音的包络,直接得到增强后的音频,免去中间的物理方法,如,图象法、比较法、综合法、控制变量法和转化法等,大大提高处理速度,减少用户等待的时间。

优选的,步骤一中,预处理的方法,包括如下步骤:

a1、提取视频帧的特征,获取视频的信息;

a2、将每秒视频信息转换为与音频维度相同的向量。

上述预处理方法中,步骤a1中,因为完整的水场景视频占用更大的内存空间,不利于获取视频的信息,且计算量较大,所以,通过提取视频帧的特征,能够减少计算量,同时达到获取视频的信息的目的,提高运算速度;步骤a2中,由于视频的图像信息与声音之间有较大的维度差异,不仅计算量很多,还会增加生成器模型的误差,降低水场景声音与视频配对的效果。

优选的,步骤二中,生成器模型的训练方法,包括如下步骤:

b1、输入视频信息的向量,通过生成器模型输出音频信号;

b2、评估音频信号,若不对应,则反馈给生成器模型,并重新进行调整,直到输出对应的音频信号;若对应,则继续进行下一个视频信息的训练。

上述训练方法中,步骤b2中,初始的生成器模型没有经过训练,输出的音频信号未必与频信息的向量一一对应,通过各类水场景视频进行训练,并实时反馈给生成器模型,有助于对模型进行优化训练,降低输出的误差。

优选的,步骤四中,音色增强器模型的训练方法,包括如下步骤:

c1、输入目标音频的包络,通过音色增强器模型输出音频的序列;

c2、评估音频的序列,若不是目标序列,则反馈给音色增强器模型,并重新进行调整,直到输出目标音频的序列;若是目标序列,则继续进行下一个音色增强训练。

上述训练方法中,步骤c2中,初始音色增强器模型没有经过训练,输出的音频序列未必与目标音频的包络对应,通过各类音频的包络进行训练,并实时反馈给音色增强器模型,有助于对模型进行优化训练,降低输出的误差。

优选的,步骤四中,包络的生成方法,包括如下步骤:

d1、输入一段音频序列gv以及包络的采样间隔lstep;

d2、取音频序列gv中每一个采样间隔lstep内的绝对值的最大值作为这段间隔内的一个包络点pi;

d3、所有采样间隔内的包络点pi连接而成的数组ep,经过线性插值形成长度与gv相同的序列e(1:len),即为音频序列gv所对应的包络,

其中,pi∈gv,interp()表示线性插值,表示连接操作。

优选的,步骤a2中,视频信息转换公式为:

g(y1,...,ym)→x1,...,xn,x∈{音频},y∈{视频}

其中y1,...,ym代表所述视频帧的颜色通道信息,每一个通道都是由介于0到255之间的数组成的矩阵,g(y1,...,ym)表示基于视频帧生成的音频信号的值(取值范围为-1到1),x1,...,xn表示视频对应的音频信号的值(变化范围为-1到1)。

优选的,步骤二中,输出音频信号所使用的损失函数为:

其中,λ=100,其中,x表示声音真实值,v表示视频帧信息,g表示生成器生成的结果,d表示评估的结果,e表示求均值。

优选的,步骤二中,评估音频信号所使用的损失函数为:

其中,v表示视频帧信息,g表示生成器生成的结果,d表示评估的结果,e表示求均值。

实施例2

与实施例1不同的是:本实施例的视频预处理中,对于不同输入的视频,其图像尺寸通常都不相同,为了减少计算量以及统一管理,将输入图像缩放成大小为256×256×3的图像,然后将每一秒中的30张256×256×3的图像编码为与音频尺度相对应的1×4096×1。首先,对于每一个视频帧yi,提取其在vgg19网络下的特征向量vi,其维度为1×4096×1。设srvidec和sraudio为视频和音频的采样率,在本发明中为30和44100。对于第t秒的视频,其对应的视频预处理后的向量vt可以表示为如下形式:

其中,表示连接操作,vt,q表示第t秒的第q帧所提取的vgg19特征,floor表示向下取整。所以,在本发明中p=10,q=3。对于拼接中由于四舍五入所导致的最终长度的缺失,本发明均匀的在空缺处补零。如此,原本的视频到音频的转换可以表示为如下形式:

g(v1,v2,...,vδt)→x1,x2,...,xδt

其中,xt={xt,1,xt,2,...,xt,sraudio},t∈{1,2,...,δt}。vt和xt在此时具有相同的维度。

实施例3

与实施例1不同的是:本实施例的水场景音频的生成方法基于gan网络,gan网络包括生成器、辨别器及音色增强器。本发明中的网络依据声音生成的需求对输入输出所进行调整,使得原本的图像网络中每一层卷积的感受野(感受野:在卷积神经网络cnn中,决定某一层输出结果中一个元素所对应的输入层的区域大小)不再适用。在图像网络中,通常使用感受野为3×3的卷积层。而对应于本发明44100维的输入和输出,生成器和辨别器的卷积层的感受野也进行了改变,使用了较大的感受野来完成对应的卷积操作。此外,在卷积过程中,图像中所使用的二维滤波器被舍弃,针对于声音维度的特征,本发明使用了一维滤波器进行卷积,为了去除一些声音结果中不需要的频率信息,在生成器的最后增加了一个滤波器滤掉结果中的部分频率信息,在滤波的过程中保持输出序列的长度不变。生成器和辨别器的具体结构可参考表1和表2

表1

表2

其中,由于卷积层(conv1d)和反卷积层(transconv1d)之后所对应的部分relu、leakrelu以及batchnorm层不涉及卷积核以及对输出尺寸的更改,表中没有对其进行陈列。stride表示卷积或反卷积过程中的卷积步长。“卷积核大小”一栏所对应的三个参数分别指的是感受野的大小,此层的输入通道数以及此层的输出通道数。“输出形状”一列所对应的三个参数分别是指本层batch的大小,输入维度及通道数。为了保证卷积与反卷积过程的对应,在卷积或反卷积的过程中,本发明通过采用不断变化的感受野以及卷积步长使得层内输入与输出之间的转换不存在舍弃维度或者增加维度的过程。

根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1