一种利用音频生成视频的方法及装置

文档序号:34716963发布日期:2023-07-07 16:44阅读:95来源:国知局

本发明涉及计算机,尤其涉及一种利用音频生成视频的方法及装置。


背景技术:

1、课堂是教师授课和学生获取知识的重要场所。随着社会的不断发展及信息技术的发展,网络课堂教学质量变得越发重要。用信息化技术对网络教学视频进行处理,不仅可以帮助教师丰富教学手段,还可以帮助学生提高上课的注意力,从而帮助学生提升学习效率。如果用不同的说话风格和人物去生成相同的教学内容视频中,可以实现对不同种类学生的因材施教,将会对学生的学习绩效提升更有意义。

2、传统的方法依赖于像2d地标或3d人脸模型这样的中间表示来桥接音频输入和视频输出之间的间隙,由于中间表示导致的信息丢失,可能导致原始音频信号与人脸变形之间的语义不匹配。

3、另外,专利申请号为202211508415.0的发明专利申请公开了一种语音生成视频的方法和装置,其主要技术方案为:确定语音输入操作对应的语音数据;根据语音数据,从针对目标对象配置的多个预设形象中确定目标形象;获取基于语音提取姿势数据的第一模型,并通过第一模型确定语音数据的初始姿势数据;获取目标形象对应的标准姿势数据,并根据标准姿势数据对初始姿势数据进行重定向,得到目标姿势数据;确定目标形象对应的用于基于姿势合成视频的第二模型,并将目标姿势数据输入第二模型中,生成目标形象的目标视频。虽然能够应用,但是需要提前配置预设形象以及多个模型转换,增加了操作复杂度。


技术实现思路

1、本发明提供一种利用音频生成视频的方法及装置,用以解决现有技术中原始音频信号与人脸变形之间的语义不匹配的缺陷,生成了表情和唇部动作与语音一致的视频。

2、第一方面,本发明提供一种利用音频生成视频的方法,包括:从目标音频中提取出目标音频特征;对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。

3、根据本发明提供的一种利用音频生成视频的方法,所述从目标音频中提取出目标音频特征,包括:将所述目标音频输入至预设语音识别网络模型,以提取所述目标音频的目标音频特征。

4、根据本发明提供的一种利用音频生成视频的方法,所述预设语音识别网络模型为deepspeech2网络;所述deepspeech2网络包括依次连接的3个卷积层,7个循环层和1个全连接层。

5、根据本发明提供的一种利用音频生成视频的方法,对目标图像进行人脸解析获取人脸解析图像,包括:采用bisenet网络对目标图像进行人脸解析,获取人脸解析图像;所述bisenet网络的网络结构包括spatial path和context path;所述spatial path包括三层,每层包括一个步幅为2的卷积,随后是批归一化和relu激活函数;所述context path能够快速下采样特征图以获得大感受野,编码高层语义语境信息。

6、根据本发明提供的一种利用音频生成视频的方法,对所述人脸解析图像进行逐像素投射光线,其中任一像素投射的射线具体表现为:

7、r=o+td;

8、其中,r表示射线,o表示将相机坐标设为原点,t表示射线上的点到相机原点的距离,d表示射线的方向。

9、根据本发明提供的一种利用音频生成视频的方法,基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频,对应的实现公式为:

10、

11、其中,t(t)代表累积透光率,tn和tf分别代表光线上的近端和远端,σ(r(t))代表密度,c(r(t),d)代表每一个采样点的颜色,c(r)表示预测的每一个像素颜色。

12、根据本发明提供的一种利用音频生成视频的方法,所述目标音频为教师教学音频。

13、第二方面,本发明还提供一种利用音频生成视频的装置,包括:

14、目标音频特征提取模块,用于从目标音频中提取出目标音频特征;

15、光线点采样模块,用于对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;

16、动态神经辐射场模块,用于将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;

17、视频生成模块,基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。

18、第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述利用音频生成视频的方法的步骤。

19、第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述利用音频生成视频的方法的步骤。

20、本发明提供的利用音频生成视频的方法及装置,将目标音频特征和人脸解析图像投射光线点的空间坐标和方向输入到多层感知机中,获取光线点的颜色和密度,然后再利用体绘制技术生成表情和唇部动作与目标音频一致的视频。

21、进一步地,本发明中直接将音频特征和人像特征输入到神经网络,无需提前配置多个预设形象,而且不需要准备多个模型,不仅节省计算资源,而且还能减少了语义在多个模型之间转换而引发的语义缺失问题。同时还结合教育场景,在deepspeech2的预训练中使用中文教学场景下的音频进行训练,从而达到对音频语义特征提取更为准确的效果。



技术特征:

1.一种利用音频生成视频的方法,其特征在于,包括:

2.根据权利要求1所述的利用音频生成视频的方法,其特征在于,所述从目标音频中提取出目标音频特征,包括:

3.根据权利要求2所述的利用音频生成视频的方法,其特征在于,所述预设语音识别网络模型为deepspeech2网络;

4.根据权利要求1所述的利用音频生成视频的方法,其特征在于,对目标图像进行人脸解析获取人脸解析图像,包括:

5.根据权利要求1所述的利用音频生成视频的方法,其特征在于,对所述人脸解析图像进行逐像素投射光线,其中任一像素投射的射线具体表现为:

6.根据权利要求5所述的利用音频生成视频的方法,其特征在于,基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频,对应的实现公式为:

7.根据权利要求1所述的利用音频生成视频的方法,其特征在于,所述目标音频为教师教学音频。

8.一种利用音频生成视频的装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述利用音频生成视频的方法的步骤。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述利用音频生成视频的方法的步骤。


技术总结
本发明提供一种利用音频生成视频的方法及装置,属于计算机技术领域,所述方法包括:从目标音频中提取出目标音频特征;对目标图像进行人脸解析获取人脸解析图像,并对所述人脸解析图像进行逐像素投射光线以进行光线点的采样;将光线点的空间坐标和方向以及所述目标音频特征输入到多层感知机,获取光线点的颜色和密度;基于光线点的颜色和密度,利用体绘制技术渲染出与所述目标音频匹配的目标人脸视频。本发明提供的利用音频生成视频的方法及装置,将目标音频特征和人脸解析图像投射光线点的空间坐标和方向输入到多层感知机中,获取光线点的颜色和密度,然后再利用体绘制技术生成表情和唇部动作与目标音频一致的视频。

技术研发人员:廖盛斌,李一鸣
受保护的技术使用者:华中师范大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!