虚拟形象口型驱动模型的训练及其驱动方法、装置和设备与流程

文档序号:33179899发布日期:2023-02-04 04:42阅读:71来源:国知局
虚拟形象口型驱动模型的训练及其驱动方法、装置和设备与流程

1.本技术涉及网络直播及人工智能技术领域,特别是涉及一种虚拟形象口型驱动模型的训练方法、虚拟形象的驱动方法、装置、电子设备和计算机可读存储介质。


背景技术:

2.随着网络直播技术的发展,虚拟形象直播在游戏、电商等业务领域已经有了广泛的应用。
3.在目前的技术中,虚拟形象的口型驱动主要来自人脸表情捕捉设备,其通过摄像头采集主播的人脸图像并据此计算出口型驱动系数,但这种方案需依赖于良好的光照环境和采集角度,其难以准确可靠地驱动虚拟形象的口型,而目前另外一种基于声音的虚拟形象口型驱动技术中,通过分析语音中声韵母或音标的包络幅值,通过对应的预设时序数据进行口型驱动,但这种方案在实际场景中需要针对音标进行时序数据的预设,而通过有限的音标对应的时序数据同样难以准确可靠地驱动虚拟形象的口型。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种虚拟形象口型驱动模型的训练方法、虚拟形象的驱动方法、装置、电子设备和计算机可读存储介质。
5.第一方面,本技术提供了一种虚拟形象口型驱动模型的训练方法。所述方法包括:
6.获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;
7.根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;
8.将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;
9.根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;
10.根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;
11.根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
12.第二方面,本技术提供了一种虚拟形象的驱动方法。所述方法包括:
13.采集主播的音频;将所述音频输入至经训练的虚拟形象口型驱动模型,得到所述虚拟形象口型驱动模型输出的预测口型驱动系数;其中,所述虚拟形象口型驱动模型根据如上所述的方法训练得到;根据所述预测口型驱动系数,驱动所述主播的虚拟形象的口型。
14.第三方面,本技术提供了一种虚拟形象口型驱动模型的训练装置。所述装置包括:
15.样本获取模块,用于获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;
16.样本处理模块,用于根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;
17.样本输入模块,用于将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;
18.第一损失获取模块,用于根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;
19.第二损失获取模块,用于根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;
20.模型训练模块,用于根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
21.第四方面,本技术提供了一种虚拟形象的驱动装置。所述装置包括:
22.音频采集模块,用于采集主播的音频;
23.音频输入模块,用于将所述音频输入至经训练的虚拟形象口型驱动模型,得到所述虚拟形象口型驱动模型输出的预测口型驱动系数;其中,所述虚拟形象口型驱动模型利用如上所述的装置训练得到;
24.口型驱动模块,用于根据所述预测口型驱动系数,驱动所述主播的虚拟形象的口型。
25.第五方面,本技术提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
26.第六方面,本技术提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:采集主播的音频;将所述音频输入至经训练的虚拟形象口型驱动模型,得到所述虚拟形象口型驱动模
型输出的预测口型驱动系数;其中,所述虚拟形象口型驱动模型根据如上所述的方法训练得到;根据所述预测口型驱动系数,驱动所述主播的虚拟形象的口型。
27.第七方面,本技术提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
28.获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
29.第八方面,本技术提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
30.采集主播的音频;将所述音频输入至经训练的虚拟形象口型驱动模型,得到所述虚拟形象口型驱动模型输出的预测口型驱动系数;其中,所述虚拟形象口型驱动模型根据如上所述的方法训练得到;根据所述预测口型驱动系数,驱动所述主播的虚拟形象的口型。
31.上述虚拟形象口型驱动模型的训练方法、虚拟形象的驱动方法、装置、电子设备和计算机可读存储介质,根据包含纯人声的音画同步视频样本中的纯人声音频和纯音乐音频样本合成得到混合音频样本,以及根据音画同步视频样本中的与该纯人声音频对应的视频图像获取对应的口型驱动系数;将混合音频样本输入待训练的虚拟形象口型驱动模型,由模型中的人声信息提取网络提取混合音频样本中的人声部分信息并提供至模型中的口型系数预测网络,由口型系数预测网络根据人声部分信息得到对应的预测口型驱动系数;然后根据人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据该预测纯人声音频与纯人声音频的一致性获取第一模型损失,以及根据预测口型驱动系数与口型驱动系数的一致性,获取第二模型损失;根据第一、第二模型损失训练该虚拟形象口型驱动模型。该方案在模型训练中,通过纯音乐与音画同步视频中纯人声音频的混合,获得混合音频,还通过音画同步视频中对应的视频图像获取对应的口型驱动系数,将混合音频作为模型训练输入数据,将前述纯人声音频和口型驱动系数作为模型的监督信息,一方面利用纯人声音频监督模型中人声信息提取网络提供的人声部分信息是否准确,另一方面利用口型驱动系数监督模型中口型系数预测网络输出的预测口型驱动系数是否准确,从而根据对应的第一、第二损失函数对虚拟形象口型驱动模型进行训练,由此可训练得到可基于音频输出虚拟形象口型系数以驱动虚拟形象口型的且能应对嘈杂环境的虚拟形象口型驱动模型,使得该模型能够基于音频且准确可靠地驱动虚拟形象口型,提高对虚拟形象口型驱动的准确性和可靠性。
附图说明
32.图1为本技术实施例中相关方法的应用环境图;
33.图2为本技术实施例中虚拟形象口型驱动模型的训练方法的流程示意图;
34.图3为本技术实施例中部分基本口型的示意图;
35.图4为本技术实施例中待训练的虚拟形象口型驱动模型的示意图;
36.图5(a)为本技术实施例中一种虚拟形象口型驱动模型的示意图;
37.图5(b)为本技术实施例中又一种虚拟形象口型驱动模型的示意图;
38.图6为本技术实施例中虚拟形象的驱动方法的流程示意图;
39.图7为本技术实施例中虚拟形象的口型的示意图;
40.图8为本技术实施例中虚拟形象口型驱动模型的训练装置的结构框图;
41.图9为本技术实施例中虚拟形象的驱动装置的结构框图;
42.图10为本技术实施例中电子设备的内部结构图;
43.图11为本技术另一实施例中电子设备的内部结构图。
具体实施方式
44.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
45.本技术提供的虚拟形象口型驱动模型的训练方法和虚拟形象的驱动方法可以应用于如图1所示的应用环境中。其中,终端可以通过网络与服务器进行通信,具体的,本技术提供的虚拟形象口型驱动模型的训练方法可以由服务器执行,本技术提供的虚拟形象的驱动方法可以由终端执行。其中,服务器可根据本技术提供的虚拟形象口型驱动模型的训练方法训练得到经训练的虚拟形象口型驱动模型,然后可以将该经训练的虚拟形象口型驱动模型发送至终端进行存储和应用,主播的终端可根据本技术提供的虚拟形象的驱动方法驱动主播的虚拟形象的口型。在如图1所示的应用环境中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
46.以下基于如图1所示的应用环境,结合各实施例及相应附图对本技术提供的虚拟形象口型驱动模型的训练方法和虚拟形象的驱动方法进行依次说明。
47.在一个实施例中,如图2所示,提供了一种虚拟形象口型驱动模型的训练方法,该方法可以包括以下步骤:
48.步骤s201,获取纯音乐音频样本,获取包含纯人声的音画同步视频样本。
49.步骤s202,根据音画同步视频样本中的纯人声音频和纯音乐音频样本,合成得到混合音频样本,以及根据音画同步视频样本中的与纯人声音频对应的视频图像,获取纯人声音频对应的口型驱动系数。
50.本实施例中,步骤s201和步骤s202主要是相关样本的获取及其处理的步骤。具体的,在步骤s201中,获取纯音乐音频样本以及包含纯人声的音画同步视频样本。其中,纯音乐音频样本的作用在于作为纯人声的背景声与纯人声音频进行混合,混合后的音频样本将用于模型训练,从而使得训练所获得的模型可以应对嘈杂环境,如主播在播放音乐时,主播
的人声和音乐会被一起采集,这些音乐会对口型识别造成干扰,因此在训练阶段,本技术实施例获取用于作为纯人声的背景声与纯人声音频进行混合的纯音乐音频样本并将其应用于混合音频样本的合成及后续的模型训练。对于纯音乐音频样本,具体的,可以是各种乐器类型、各种音乐风格的纯音乐音频样本等。此外,在步骤s201中,还获取包含纯人声的音画同步视频样本,该包含纯人声的音画同步视频样本可以是单人的纯人声的音画同步视频,该音画同步视频需要包括纯人声音频以及包含发声个体的人像的视频图像,该视频图像中人像的口型与其纯人声音频同步,示例性的,该包含纯人声的音画同步视频样本可以采用来自相关新闻、知识讲堂等栏目的视频样本。
51.由此,在步骤s202中,一方面合成用于作为模型训练输入数据的混合音频样本,另一方面获取用于作为模型训练监督信息的口型驱动系数。其中,对于混合音频样本的合成,根据音画同步视频样本中的纯人声音频和纯音乐音频样本,合成得到混合音频样本,具体的,可以从音画同步视频样本中以如150毫秒、200毫秒为单位提取音频序列,音频序列包含的每段音频基本都是纯净的人声即纯人声音频,由此可获得音画同步视频样本中的纯人声音频,然后将该纯人声音频和纯音乐音频样本进行混合得到混合音频样本,这样可以获得成对的混合音频样本和纯人声音频。其中,对于口型驱动系数的获取,根据音画同步视频样本中的与前述纯人声音频对应的视频图像,获取该纯人声音频对应的口型驱动系数,具体的,可以利用现有的人脸表情捕捉模型对音画同步视频样本中与纯人声音频对应的视频图像中的口型进行识别,从而获得纯人声音频对应的口型驱动系数。
52.其中,对于口型驱动系数其可以包含28个分量,各分量的和可设为1,j表示分量对应的序号,虚拟形象的口型b可以由如图3所示的不同的基础口型blendshape{b0,b1,
……
,b
27
},融合口型驱动系数得到:
53.由于纯人声音频与混合音频样本是成对的,所以经步骤s202可以获得成对的混合音频样本和口型驱动系数,由此混合音频样本可以对应一纯人声音频和口型驱动系数,该混合音频样本将作为模型训练输入数据,与之对应的纯人声音频和口型驱动系数将作为模型训练的两个监督信息。
54.步骤s203,将混合音频样本输入待训练的虚拟形象口型驱动模型,由虚拟形象口型驱动模型中的人声信息提取网络根据混合音频样本提取混合音频样本中的人声部分信息,并提供人声部分信息至虚拟形象口型驱动模型中的口型系数预测网络,由口型系数预测网络根据人声部分信息得到对应的预测口型驱动系数。
55.具体的,如前所述,在嘈杂环境下,如主播在播放音乐,这时候主播的人声和音乐会一起进入麦克风,而该音乐会干扰对口型的识别。因此,结合图4,本技术中待训练的虚拟形象口型驱动模型包含人声信息提取网络和口型系数预测网络,其中,训练由人声信息提取网络完成对混合音频样本中人声部分信息的提取,然后由口型系数预测网络根据人声信息提取网络提取的混合音频样本中人声部分信息预测对应的口型驱动系数(记为预测口型驱动系数),也即训练由人声信息提取网络从输入的音频数据中抽取出人声相关的信息然后将该信息交由口型系数预测网络根据该信息预测得到测口型驱动系数,由此排除非人声
部分信息对口型识别的干扰。具体的,如图4所示,将混合音频样本输入待训练的虚拟形象口型驱动模型,由模型中的人声信息提取网络提取混合音频样本中的人声部分信息,将该人声部分信息提供至模型中的口型系数预测网络,由口型系数预测网络根据人声部分信息得到对应的预测口型驱动系数。对于虚拟形象口型驱动模型,在具体实现中,人声信息提取网络可以基于深度可分离卷积结构的u形网络实现,口型系数预测网络可以基于深度可分离卷积结构的神经网络,包括不限于mobilenet来实现。
56.进一步的,由人声信息提取网络根据混合音频样本提取的人声部分信息可以是混合音频样本中的纯人声音频,也可以是混合音频样本中纯人声音频对应的时频谱。对于提取的人声部分信息的不同,在一些实施例中可以采用具有不同具体结构的虚拟形象口型驱动模型对其进行处理。
57.在一个实施例中,步骤s203中的由虚拟形象口型驱动模型中的人声信息提取网络根据混合音频样本提取混合音频样本中的人声部分信息,并提供人声部分信息至虚拟形象口型驱动模型中的口型系数预测网络,由口型系数预测网络根据人声部分信息得到对应的预测口型驱动系数,可以包括:
58.由人声信息提取网络根据混合音频样本提取混合音频样本中的纯人声音频,并将混合音频样本中的纯人声音频作为人声部分信息提供至口型系数预测网络;由口型系数预测网络根据混合音频样本中的纯人声音频获取对应的时频谱,并根据时频谱得到对应的预测口型驱动系数。
59.本实施例中,由人声信息提取网络根据混合音频样本提取的人声部分信息为混合音频样本中的纯人声音频。具体的,结合图5(a),先由人声信息提取网络根据混合音频样本提取混合音频样本中的纯人声音频,然后人声信息提取网络将提取的混合音频样本中的纯人声音频作为人声部分信息提供至口型系数预测网络。其中,口型系数预测网络可以包括短时傅里叶变换单元和口型系数预测单元,口型系数预测单元可以采用深度可分离卷积结构的神经网络如mobilenet来实现,口型系数预测网络可以基于短时傅里叶变换单元计算获取混合音频样本中的纯人声音频对应的时频谱,然后由口型系数预测网络中的口型系数预测单元根据该混合音频样本中的纯人声音频对应的时频谱预测得到对应的预测口型驱动系数。
60.在另外一个实施例中,步骤s203中的由虚拟形象口型驱动模型中的人声信息提取网络根据混合音频样本提取混合音频样本中的人声部分信息,并提供人声部分信息至虚拟形象口型驱动模型中的口型系数预测网络,由口型系数预测网络根据人声部分信息得到对应的预测口型驱动系数,可以包括:
61.由人声信息提取网络根据混合音频样本获取混合音频样本对应的时频谱,并根据混合音频样本对应的时频谱提取混合音频样本中的纯人声音频对应的时频谱,以及将混合音频样本中的纯人声音频对应的时频谱作为人声部分信息提供至口型系数预测网络;由口型系数预测网络根据混合音频样本中的纯人声音频对应的时频谱得到对应的预测口型驱动系数。
62.本实施例中,由人声信息提取网络根据混合音频样本提取的人声部分信息为混合音频样本中纯人声音频对应的时频谱。具体的,结合图5(b),其中,人声信息提取网络可以包括短时傅里叶变换单元和人声信息提取单元,人声信息提取单元可以采用深度可分离卷
积结构的u形网络来实现,人声信息提取网络可以基于短时傅里叶变换单元计算获取混合音频样本对应的时频谱,然后由人声信息提取网络中的人声信息提取单元根据该混合音频样本对应的时频谱提取该混合音频样本中纯人声音频对应的时频谱,将该混合音频样本中纯人声音频对应的时频谱作为人声部分信息提供至口型系数预测网络,然后由口型系数预测网络根据该混合音频样本中纯人声音频对应的时频谱预测得到对应的预测口型驱动系数。
63.步骤s204,根据人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据预测纯人声音频与纯人声音频的一致性获取第一模型损失。
64.步骤s205,根据预测口型驱动系数与口型驱动系数的一致性,获取第二模型损失。
65.步骤s204和步骤s205是利用前述的混合音频样本对应的纯人声音频和混合音频样本对应的口型驱动系数该两个模型训练的监督信息获取对应的第一、第二模型损失的相关步骤。结合图4,使用音画同步视频样本中的纯人声音频作为人声信息提取网络的输出的监督,使得人声信息提取网络能够准确提取混合音频样本中的人声部分信息,以及使用基于音画同步视频样本中与纯人声音频对应的视频图像获取的口型驱动系数作为口型系数预测网络的输出的监督,使得口型系数预测网络能够准确提取预测口型驱动系数。
66.具体的,在步骤s204中,需要先根据人声信息提取网络提取的人声部分信息获取对应的预测纯人声音频,然后根据预测纯人声音频vi与纯人声音频vo的一致性获取第一模型损失,通过反向传播算法可使得预测纯人声音频接近纯人声音频,从而使得人声信息提取网络能够准确提取混合音频样本中的人声部分信息,示例性的,第一模型损失l1的计算方式可以采用:l1=||v
i-vo||2。
67.对于步骤s204,因提取的人声部分信息的不同,可以采用不同的方式执行步骤s204中的根据人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频。对此,在一个实施例中,步骤s204中的根据人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,可以包括:将人声信息提取网络提取的混合音频样本中的纯人声音频作为对应的预测纯人声音频。也即,参考图5(a),在由人声信息提取网络根据混合音频样本提取的人声部分信息为混合音频样本中的纯人声音频的情况下,可以直接将该人声信息提取网络提取的混合音频样本中的纯人声音频作为对应的预测纯人声音频,然后根据该预测纯人声音频和音画同步视频样本中的纯人声音频获取第一模型损失l1。
68.在另一个实施例中,步骤s204中的根据人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,可以包括:根据人声信息提取网络提取的混合音频样本中的纯人声音频对应的时频谱,得到对应的预测纯人声音频。本实施例中,参考图5(b),在由人声信息提取网络根据混合音频样本提取的人声部分信息为混合音频样本中纯人声音频对应的时频谱的情况下,可以利用逆短时傅里叶变换单元根据该混合音频样本中纯人声音频对应的时频谱计算获得对应的预测纯人声音频,然后根据该预测纯人声音频和音画同步视频样本中的纯人声音频获取第一模型损失l1。
69.对于步骤s205,即使用基于音画同步视频样本中与纯人声音频对应的视频图像获取的口型驱动系数作为口型系数预测网络的输出的监督,使得口型系数预测网络能够准确提取预测口型驱动系数。具体的,如图4至图5(b)所示,可根据口型系数预测网络输出的预
测口型驱动系数与口型驱动系数的一致性获取第二模型损失l2,使得预测口型驱动系数接近口型驱动系数,从而使得口型系数预测网络能够准确提取预测口型驱动系数,示例性的,第二模型损失l2的计算方式可以采用:
70.步骤s206,根据第一模型损失和第二模型损失,训练待训练的虚拟形象口型驱动模型。
71.本步骤中,具体的,可根据第一模型损失l1和第二模型损失l2,计算得到待训练的虚拟形象口型驱动模型的整体模型损失l=l1+l2。基于该整体模型损失l对该待训练的虚拟形象口型驱动模型中的人声信息提取网络和口型系数预测网络进行参数更新,以对该待训练的虚拟形象口型驱动模型进行训练。作为一种实施方式,可以在整体模型损失l小于或等于预设模型损失阈值时判断已完成对该待训练的虚拟形象口型驱动模型的训练,获得经训练的虚拟形象口型驱动模型。
72.本实施例的虚拟形象口型驱动模型的训练方法,根据包含纯人声的音画同步视频样本中的纯人声音频和纯音乐音频样本合成得到混合音频样本,以及根据音画同步视频样本中的与该纯人声音频对应的视频图像获取对应的口型驱动系数;将混合音频样本输入待训练的虚拟形象口型驱动模型,由模型中的人声信息提取网络提取混合音频样本中的人声部分信息并提供至模型中的口型系数预测网络,由口型系数预测网络根据人声部分信息得到对应的预测口型驱动系数;然后根据人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据该预测纯人声音频与纯人声音频的一致性获取第一模型损失,以及根据预测口型驱动系数与口型驱动系数的一致性,获取第二模型损失;根据第一、第二模型损失训练该虚拟形象口型驱动模型。该方案在模型训练中,通过纯音乐与音画同步视频中纯人声音频的混合,获得混合音频,还通过音画同步视频中对应的视频图像获取对应的口型驱动系数,将混合音频作为模型训练输入数据,将前述纯人声音频和口型驱动系数作为模型的监督信息,一方面利用纯人声音频监督模型中人声信息提取网络提供的人声部分信息是否准确,另一方面利用口型驱动系数监督模型中口型系数预测网络输出的预测口型驱动系数是否准确,从而根据对应的第一、第二损失函数对虚拟形象口型驱动模型进行训练,由此可训练得到可基于音频输出虚拟形象口型系数以驱动虚拟形象口型的且能应对嘈杂环境的虚拟形象口型驱动模型,使得该模型能够基于音频且准确可靠地驱动虚拟形象口型,提高对虚拟形象口型驱动的准确性和可靠性。
73.在一些实施例中,步骤s201中的获取纯音乐音频样本,可以包括:获取多种类型的纯音乐音频样本。具体的,可以获取各种乐器、各种音乐风格等不同类型的纯音乐音频样本。步骤s202中的根据音画同步视频样本中的纯人声音频和纯音乐音频样本,合成得到混合音频样本,进一步包括:根据与音频采集场景相适配的混合比例,将多种类型的纯音乐音频样本中的至少两种类型的纯音乐音频样本与音画同步视频样本中的纯人声音频进行混合,得到混合音频样本。
74.具体的,在获得多种类型的纯音乐音频样本后,可将其与音画同步视频样本中的纯人声音频进行混合从而得到混合音频样本。本实施例中,为了便于在模型应用阶段适配
实际的音频采集场景,可以先获取与该音频采集场景相适配的混合比例。其中,音频采集场景是指在虚拟形象口型驱动模型的应用阶段,终端通过麦克风采集音频时所在的具体场景,如直播场景等,混合比例是指用于将作为背景音频的不同的纯音乐音频样本与音画同步视频样本中的纯人声音频进行混合时所采用的比例,与该音频采集场景相适配的混合比例可以由相关人员根据经验设置,也可以采用相关算法对实际场景中采集的音频进行分析后确定等等,本实施例对此不做限定。然后可以根据该混合比例,从多种类型的纯音乐音频样本中挑选至少两种类型的纯音乐音频样本与纯人声音频进行混合,从而得到混合音频样本。例如混合比例为x1:x2:y,可以选取两种不同类型的纯音乐音频样本按照x1:x2:y的幅度比例与纯人声音频进行混合,又如混合比例为x1:x2:x3:y,可以选取三种不同类型的纯音乐音频样本按照x1:x2:x3:y的幅度比例与纯人声音频进行混合等等。由此,本实施例的方案可以生成更适配于实际音频采集场景的混合音频样本用于模型训练,使之能够在如直播等音频采集场景下具有更好的对虚拟形象的口型进行驱动的表现。
75.在一些实施例中,步骤s202中的根据音画同步视频样本中的与纯人声音频对应的视频图像,获取纯人声音频对应的口型驱动系数,可以包括:
76.根据纯人声音频在音画同步视频样本中对应的时间段,获取对应的视频图像序列;根据视频图像序列,得到用于提取口型驱动系数的视频图像;将视频图像输入人脸表情捕捉模型,得到人脸表情捕捉模型输出的视频图像对应的人脸表情系数;根据人脸表情系数,得到纯人声音频对应的口型驱动系数。
77.本实施例中,可以在从音画同步视频样本中提取纯人声音频后,根据该纯人声音频在音画同步视频样本中对应的时间段,获取该时间段对应的视频图像序列,如从音画同步视频样本中提取了某200毫米时间段的纯人声音频,可根据该时间段在音画同步视频样本中提取对应的视频图像序列,该视频图像序列可以多帧视频图像,可以从该视频图像序列中提取最后一帧视频图像作为用于提取口型驱动系数的视频图像,因为纯人声音频通常是按照人的一个发音单位所对应的时间长度从音画同步视频样本中提取的,故该发音单位完成时在该时间段对应的视频图像序列中可由该视频图像序列的最后一帧来表示。接着,将该视频图像输入现有的人脸表情捕捉模型,由现有的人脸表情捕捉模型根据该视频图像中的人脸输出对应的人脸表情系数,这些人脸表情系数可以包含眉毛、眼睛和口型等部分的系数,由此可以根据人脸表情捕捉模型提供的人脸表情系数中的口型部分的系数,得到纯人声音频对应的口型驱动系数本实施例通过使用人脸表情捕捉模型从视频图像中提取与纯人声音频同步的口型驱动系数,避免了复杂的由人工进行的口型驱动系数的设计,提高模型训练效率且兼顾其口型识别的准确性。
78.在一些实施例中,步骤s201中的获取包含纯人声的音画同步视频样本,可以包括:获取采集自纯人声播报场景的视频样本;对视频样本中的视频图像进行人脸跟踪;根据人脸跟踪结果,从视频样本中获取包含纯人声的音画同步视频样本。
79.具体的,在音画同步视频样本的获取阶段,需要尽可能获取单人的纯人声的音画同步视频样本,且该音画同步视频样本中需要包含纯人声及其发声个体的人像,人像的口型与人声同步。本实施例中,可获取采集自纯人声播报场景的视频样本,纯人声播报场景可
以是新闻播报、法律知识讲解等场景,这些场景通常会由某个特定的人持续发声且画面较少进行切换,故通常可以保证发声个体持续在画面当中,而为了更准确地基于此获取包含纯人声的音画同步视频样本,本实施例在获取采集自纯人声播报场景的视频样本后,对该视频样本中的视频图像进行人脸跟踪,获得人脸跟踪结果,该人脸跟踪结果可以表示视频图像当中是否持续有某个发声个体,对于视频样本中人脸跟踪丢失的视频图像可以将其进行丢弃,保留人脸跟踪结果为有某个发声个体的视频图像,由此获得包含纯人声的音画同步视频样本。
80.在一个实施例中,如图6所示,提供了一种虚拟形象的驱动方法,该方法可以由主播的终端执行,该方法可以包括以下步骤:
81.步骤s601,采集主播的音频。
82.本步骤中,主播的终端可以在主播开播后通过麦克风采集主播的音频。
83.步骤s602,将音频输入至经训练的虚拟形象口型驱动模型,得到虚拟形象口型驱动模型输出的预测口型驱动系数。
84.其中,该虚拟形象口型驱动模型根据本技术如上实施例所述的虚拟形象口型驱动模型的训练方法训练得到。具体的,作为一个实施例,结合图5(b),经训练的虚拟形象口型驱动模型可以利用短时傅里叶变换单元计算获得该主播的音频的时频图,然后利用人声信息提取单元根据该主播的音频的时频图提取该主播的音频中纯人声音频的时频图,然后将该主播的音频中纯人声音频的时频图交由口型系数预测网络根据该时频图输出预测口型驱动系数。也即,在虚拟形象口型驱动模型的应用阶段或测试阶段,无需利用逆短时傅里叶变换单元做相关计算。
85.步骤s603,根据预测口型驱动系数,驱动主播的虚拟形象的口型。
86.本步骤中,根据预测口型驱动系数和如图3所示的不同的基础口型blendshape{b0,b1,
……
,b
27
},得到并驱动主播的虚拟形象的口型其中,如图7示出了由此驱动的一种主播的虚拟形象的口型。
87.本实施例的方案,可以将经由本技术提供的虚拟形象口型驱动模型的训练方法所训练获得的虚拟形象口型驱动模型应用于网络直播场景中对主播的虚拟形象的口型进行驱动,可以实现当主播没有对着摄像头或者光照条件比较暗的时候,基于音频在嘈杂环境下准确驱动主播的虚拟形象的口型,克服了目前技术中基于摄像头的虚拟形象口型驱动方案在阴暗光照条件下表现比较差的问题,同时也避免了传统虚拟形象的口型驱动方案在嘈杂环境下无法正常使用的问题,提高了对主播的虚拟形象的口型进行驱动的准确性和可靠性,而且本技术中虚拟形象口型驱动模型采用端到端的设计,同时实现人声部分信息提取和口型驱动,且用于推理的音频序列较短,具有低时延、实时的特点,完善虚拟主播技术。
88.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个
阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
89.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的相关方法的相关装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个相关装置实施例中的具体限定可以参见上文中对于相关方法的限定,在此不再赘述。
90.在一个实施例中,如图8所示,提供了一种虚拟形象口型驱动模型的训练装置,该装置800可以包括:
91.样本获取模块801,用于获取纯音乐音频样本,获取包含纯人声的音画同步视频样本;
92.样本处理模块802,用于根据所述音画同步视频样本中的纯人声音频和所述纯音乐音频样本,合成得到混合音频样本,以及根据所述音画同步视频样本中的与所述纯人声音频对应的视频图像,获取所述纯人声音频对应的口型驱动系数;
93.样本输入模块803,用于将所述混合音频样本输入待训练的虚拟形象口型驱动模型,由所述虚拟形象口型驱动模型中的人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的人声部分信息,并提供所述人声部分信息至所述虚拟形象口型驱动模型中的口型系数预测网络,由所述口型系数预测网络根据所述人声部分信息得到对应的预测口型驱动系数;
94.第一损失获取模块804,用于根据所述人声信息提取网络提取的人声部分信息得到对应的预测纯人声音频,根据所述预测纯人声音频与所述纯人声音频的一致性获取第一模型损失;
95.第二损失获取模块805,用于根据所述预测口型驱动系数与所述口型驱动系数的一致性,获取第二模型损失;
96.模型训练模块806,用于根据所述第一模型损失和第二模型损失,训练所述待训练的虚拟形象口型驱动模型。
97.在一个实施例中,样本输入模块803,用于由所述人声信息提取网络根据所述混合音频样本提取所述混合音频样本中的纯人声音频,并将所述混合音频样本中的纯人声音频作为所述人声部分信息提供至所述口型系数预测网络;由所述口型系数预测网络根据所述混合音频样本中的纯人声音频获取对应的时频谱,并根据所述时频谱得到对应的预测口型驱动系数;第一损失获取模块804,用于将所述人声信息提取网络提取的所述混合音频样本中的纯人声音频作为所述对应的预测纯人声音频。
98.在一个实施例中,样本输入模块803,用于由所述人声信息提取网络根据所述混合音频样本获取所述混合音频样本对应的时频谱,并根据所述混合音频样本对应的时频谱提取所述混合音频样本中的纯人声音频对应的时频谱,以及将所述混合音频样本中的纯人声音频对应的时频谱作为所述人声部分信息提供至所述口型系数预测网络;由所述口型系数预测网络根据所述混合音频样本中的纯人声音频对应的时频谱得到对应的预测口型驱动系数;第一损失获取模块804,用于根据所述人声信息提取网络提取的所述混合音频样本中的纯人声音频对应的时频谱,得到对应的预测纯人声音频。
99.在一个实施例中,样本获取模块801,用于获取多种类型的纯音乐音频样本;样本处理模块802,用于根据与音频采集场景相适配的混合比例,将所述多种类型的纯音乐音频样本中的至少两种类型的纯音乐音频样本与所述音画同步视频样本中的纯人声音频进行混合,得到所述混合音频样本。
100.在一个实施例中,样本处理模块802,用于根据所述纯人声音频在所述音画同步视频样本中对应的时间段,获取对应的视频图像序列;根据所述视频图像序列,得到用于提取口型驱动系数的视频图像;将所述视频图像输入人脸表情捕捉模型,得到所述人脸表情捕捉模型输出的所述视频图像对应的人脸表情系数;根据所述人脸表情系数,得到纯人声音频对应的口型驱动系数。
101.在一个实施例中,样本获取模块801,用于获取采集自纯人声播报场景的视频样本;对所述视频样本中的视频图像进行人脸跟踪;根据人脸跟踪结果,从所述视频样本中获取所述包含纯人声的音画同步视频样本。
102.在一个实施例中,如图9所示,提供了一种虚拟形象的驱动装置,该装置900可以包括:
103.音频采集模块901,用于采集主播的音频;
104.音频输入模块902,用于将所述音频输入至经训练的虚拟形象口型驱动模型,得到所述虚拟形象口型驱动模型输出的预测口型驱动系数;其中,所述虚拟形象口型驱动模型利用如上所述的虚拟形象口型驱动模型的训练装置训练得到;
105.口型驱动模块903,用于根据所述预测口型驱动系数,驱动所述主播的虚拟形象的口型。
106.上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
107.在一个实施例中,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储相关样本数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚拟形象口型驱动模型的训练方法。
108.在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种虚拟形象的驱动方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控
板,还可以是外接的键盘、触控板或鼠标等。
109.本领域技术人员可以理解,图10和图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
110.在一个实施例中,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
111.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
112.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive randomaccess memory,mram)、铁电存储器(ferroelectric randomaccess memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(randomaccess memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static randomaccess memory,sram)或动态随机存取存储器(dynamic randomaccess memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
113.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
114.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
115.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1