本申请涉及数据处理领域,特别是涉及一种配音方法和相关装置。
背景技术:
1、针对音频缺失的视频,通常需要对该视频进行配音,来得到配置有音频的视频,以便充分发挥该视频的表现力。当采用人工方式进行视频配音时,通常都需要特定的录音棚、专业的配音演员和一定的配音周期,这会导致人工方式进行视频配音的成本较大。
2、对此,为了控制视频配音的成本和提高视频配音的效率,相关技术主要根据相应的文本来自动合成与待配音视频对应的音频,并将该音频配置给待配音视频以实现自动配音。
3、虽然相关技术中的自动配音方式能够对音频缺失的待配音视频实现自动配音,但是由于自动合成的音频的表现风格通常较为单调乏味,而待配音视频的表现风格通常并不单调,即配置的音频与待配音视频本身的适配性不足,容易让查看配音视频的用户感受到配音视频在视觉和听觉上具有不同的表现风格,从而难以达到完整视频的表现力。
技术实现思路
1、为了解决上述技术问题,本申请提供了一种配音方法和相关装置,针对待配音视频,会对视频帧序列中每个目标视频帧分别对应的目标对象进行三维重建,得到每个目标视频帧分别对应的三维目标对象,基于从三维目标对象获取的视觉风格特征,来得到能够在视觉角度对待配音视频的表现风格进行整体体现的视觉风格序列,使得确定出的音频特征序列能够从听觉角度体现和待配音视频相匹配的表现风格,进而使得根据该音频特征序列配音的已配音视频能够实现视觉和听觉上表现风格的相统一,达到完整视频的表现力。
2、本申请实施例公开了如下技术方案:
3、一方面,本申请实施例提供了一种配音方法,该方法包括:
4、获取待配音视频中包括目标对象的视频帧序列,目标对象为待配音的对象;
5、根据视频帧序列,对目标对象进行三维重建,得到视频帧序列中每个目标视频帧分别对应的三维目标对象;
6、基于从三维目标对象获取的视觉风格特征,生成视频帧序列的视觉风格序列,视觉风格序列中的视觉风格特征基于所对应目标视频帧在待配音视频中的顺序进行排列,视觉风格特征用于标识所对应三维目标对象与发音相关的视觉信息;
7、根据视觉风格序列和用于配音的音素序列,确定待配音视频对应的音频特征序列;
8、根据音频特征序列对待配音视频进行配音,得到已配音视频。
9、另一方面,本申请实施例提供了一种配音装置,该装置包括获取单元,三维重建单元,生成单元,确定单元,配音单元:
10、获取单元,用于获取待配音视频中包括目标对象的视频帧序列,目标对象为待配音的对象;
11、三维重建单元,用于根据视频帧序列,对目标对象进行三维重建,得到视频帧序列中每个目标视频帧分别对应的三维目标对象;
12、生成单元,用于基于从三维目标对象获取的视觉风格特征,生成视频帧序列的视觉风格序列,视觉风格序列中的视觉风格特征基于所对应目标视频帧在待配音视频中的顺序进行排列,视觉风格特征用于标识所对应三维目标对象与发音相关的视觉信息;
13、确定单元,用于根据视觉风格序列和用于配音的音素序列,确定待配音视频对应的音频特征序列;
14、配音单元,用于根据音频特征序列对待配音视频进行配音,得到已配音视频。
15、又一方面,本申请实施例提供了一种计算机设备,计算机设备包括处理器以及存储器:
16、存储器用于存储计算机程序,并将计算机程序传输给处理器;
17、处理器用于根据计算机程序执行以上方面所述的方法。
18、又一方面。本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,计算机程序用于执行以上方面所述的方法。
19、又一方面,本申请实施例提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行以上方面所述的方法。
20、由上述技术方案可以看出,针对需要进行视频配音的待配音视频,获取待配音视频中包括待配音的目标对象的视频帧序列。为了能够更好的获取目标对象在视频帧序列中体现的表现风格,对二维的视频帧序列中每个目标视频帧分别对应的目标对象进行三维重建,得到每个目标视频帧分别对应的三维目标对象。从而在生成视频帧序列的视觉风格序列时,能够避免其他因素的干扰,从三维目标对象中更全面的获取与发音相关的视觉信息,即获取三维目标对象对应的视觉风格特征,视觉风格特征能够从视觉角度体现所对应的目标视频帧的表现风格,从三维目标对象的角度获取视觉信息避免了从二维的视频帧序列无法全面获取目标对象与发音相关的视觉信息这一问题,并基于从每个目标视频帧分别对应的三维目标对象中获取的视觉风格特征,可以生成视频帧序列对应的视觉风格序列,其中,视觉风格序列中的视觉风格特征会基于对应的目标视频帧在待配音视频中的顺序进行排列,由于视觉风格特征能够从视觉角度体现对应的目标视频帧的表现风格,故生成的视觉风格序列能够从视觉角度体现待配音视频整体的表现风格。根据视觉风格序列和用于配音的音素序列,能够确定音频特征序列,并能够通过该音频特征序列对待配音视频进行配音来得到已配音视频,由于视觉风格序列能够从视觉角度体现待配音视频整体的表现风格,故视觉风格序列能够对音频特征序列的生成起到指导作用,使得确定出的音频特征序列能够从听觉角度体现和待配音视频相适配的表现风格,即音频特征序列和待配音视频在表现风格上相适配,从而得到的已配音视频能够实现视觉和听觉上的表现风格的相统一。通过三维目标对象获取的视觉风格特征,来得到能够在视觉角度对待配音视频的表现风格进行整体体现的视觉风格序列,使得确定出的音频特征序列能够从听觉角度体现和待配音视频相匹配的表现风格,进而使得根据该音频特征序列配音的已配音视频能够实现视觉和听觉上表现风格的相统一,达到完整视频的表现力。
1.一种配音方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述视觉风格特征包括所对应三维目标对象的表情特征和姿态特征中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述视觉风格特征包括所对应三维目标对象的表情特征和姿态特征,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述视觉特征序列和所述音素序列,确定所述待配音视频对应的音频特征序列,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述视觉特征序列中所标识目标视频帧的视觉风格特征和发音部位特征,将所述音素序列向所述视频帧序列进行对齐,得到所述音素序列中音素与所述目标视频帧的对应关系,包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述视觉风格序列和用于配音的音素序列,确定所述待配音视频对应的音频特征序列,包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述根据所述视频帧序列,对所述目标对象进行三维重建,得到所述视频帧序列中每个目标视频帧分别对应的三维目标对象,包括:
10.根据权利要求1所述的方法,其特征在于,所述三维目标模型中去除了所对应目标视频帧中的目标对象的身份特征。
11.一种配音装置,其特征在于,所述装置包括获取单元,三维重建单元,生成单元,确定单元,配音单元:
12.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序在被计算机设备执行时实现执行权利要求1-10中任意一项所述的方法。
14.一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-10中任意一项所述的方法。