说话头视频合成方法、装置、终端设备及可读存储介质与流程

文档序号:31224853发布日期:2022-08-23 18:49阅读:87来源:国知局
说话头视频合成方法、装置、终端设备及可读存储介质与流程

1.本技术属于终端技术领域,尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。


背景技术:

2.说话头视频合成是指根据一段文本和指定的脸部图像,输出对应该文本和该脸部图像的一段说话头的多模态视频(即包含合成的语音和说话时的脸部动作等)。但目前的说话头视频合成方法一般是先根据文本合成语音,并通过复杂的网络模型将合成的语音映射到人脸的嘴部动作序列,导致说话头视频合成的复杂度较高。


技术实现要素:

3.本技术实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质,可以解决现有的说话头视频合成的复杂度较高的问题。
4.第一方面,本技术实施例提供了一种说话头视频合成方法,可以包括:
5.获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
6.确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素;
7.根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音;
8.根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列;
9.根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
10.对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
11.在上述的说话头视频合成方法中,终端设备可以获取目标文本和目标图像,目标图像中包含目标用户的脸部图像;确定目标文本对应的目标音素序列;根据目标音素序列,获取目标文本对应的声学特征,并根据声学特征,得到目标文本对应的合成语音;根据目标音素序列,确定目标文本对应的第一目标嘴部动作序列,并根据声学特征,确定目标文本对应的第二目标嘴部动作序列;根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频;对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频。即本技术实施例中,可以基于语言学知识建立轻量级且准确的文本到音素的映射,以及音素到视素的映射,从而可以通过文本和文本对应的声学特征来预测嘴部动作,降低嘴部动作预测的复杂度,提高说话头视频合成的效率,提升用户体验。
12.在一种可能的实现方式中,在所述确定所述目标文本对应的目标音素序列之后,
所述方法还包括:
13.确定所述目标音素序列中的各目标音素对应的第一时长,并根据所述第一时长确定所述合成语音对应的第二时长;
14.根据所述第二时长,获取所述目标文本对应的头部和眼部动作序列;
15.所述根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频,包括:
16.根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像,得到所述目标用户对应的脸部动作视频。
17.在一个示例中,在所述根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列之前,所述方法还可以包括:
18.获取视频数据集,所述视频数据集包括多条视频数据;
19.对于每一视频数据,确定所述视频数据对应的训练音素序列;
20.确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作;
21.对于每一训练音素,根据所述训练音素对应的各第一初始嘴部动作,确定所述训练音素对应的第一训练嘴部动作;
22.根据各训练音素对应的第一训练嘴部动作,确定各所述训练音素序列对应的第一训练嘴部动作序列;
23.利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列,训练得到第一预测模型,所述第一预测模型用于根据音素序列,预测第一目标嘴部动作序列。
24.在另一个示例中,在所述根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列之前,所述方法还可以包括:
25.获取视频数据集,所述视频数据集包括多条视频数据;
26.对于每一视频数据,确定所述视频数据对应的训练音素序列;
27.根据所述训练音素序列,获取所述视频数据对应的声学特征,并确定所述声学特征对应的第二初始嘴部动作序列;
28.确定所述训练音素序列对应的第一目标嘴部动作序列;
29.根据所述第二初始嘴部动作序列和所述第一目标嘴部动作序列,得到所述声学特征对应的第二训练嘴部动作序列;
30.利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列,训练得到第二预测模型,所述第二预测模型用于根据声学特征,预测第二目标嘴部动作序列。
31.可选的,所述根据所述第二时长,获取所述目标文本对应的头部和眼部动作序列,可以包括:
32.从预设的视频数据集中,获取所述第二时长的头部和眼部动作,并将所述头部和眼部动作组合成所述目标文本对应的头部和眼部动作序列。
33.示例性的,所述根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频,可以包括:
34.对所述第一目标嘴部动作序列和所述第二目标嘴部动作序列进行融合,得到融合后的嘴部动作序列;
35.根据所述融合后的嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频。
36.第二方面,本技术实施例提供了一种说话头视频合成装置,可以包括:
37.文本图像获取模块,用于获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
38.音素序列确定模块,用于确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素;
39.语音合成模块,用于根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音;
40.嘴部动作确定模块,用于根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列;
41.脸部视频合成模块,用于根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
42.说话头视频获取模块,用于对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
43.第三方面,本技术实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,使所述终端设备实现上述第一方面中任一项所述的说话头视频合成方法。
44.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机执行时,使所述计算机实现上述第一方面中任一项所述的说话头视频合成方法。
45.第五方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的说话头视频合成方法。
46.可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
47.图1是一种说话头视频合成方法的示意性流程图;
48.图2是本技术实施例提供的一种说话头视频合成方法的示意性流程图;
49.图3是本技术实施例提供的训练第一预测模型的示意性流程图;
50.图4是本技术实施例提供的训练第二预测模型的示意性流程图;
51.图5是本技术实施例提供的一种说话头视频合成装置的结构示意图;
52.图6是本技术实施例提供的终端设备的结构示意图。
具体实施方式
53.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
54.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
55.如在本技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0056]
另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0057]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0058]
此外,本技术实施例中提到的“多个”应当被解释为两个或两个以上。
[0059]
本技术实施例中提供的说话头视频合成方法中所涉及到的步骤仅仅作为示例,并非所有的步骤均是必须执行的步骤,或者并非各个信息或消息中的内容均是必选的,在使用过程中可以根据需要酌情增加或减少。本技术实施例中同一个步骤或者具有相同功能的步骤或者消息在不同实施例之间可以互相参考借鉴。
[0060]
本技术实施例描述的业务场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
[0061]
请参阅图1,图1示出了一种说话头视频合成方法的示意性流程图。该方法可以应用于终端设备。如图1所示,在需要合成说话头视频时,终端设备可以获取待合成的文本和人脸图像,并通过语音合成(text to speech,tts)和语音转换(voice conversion,vc)技术合成文本对应的目标语音。随后,终端设备可以提取目标语音对应的语音特征,例如可以通过双向长短时记忆网络(bi-directional long short-term memory,blstm)来提取目标语音对应的语音特征,并将语音特征映射到发音时的嘴部动作,以得到文本对应的嘴部动作序列。然后,电子设备可以根据嘴部动作序列和人脸图像,合成人脸动作视频,例如可以采用vid2vid算法根据嘴部动作序列和人脸图像,合成人脸动作视频。最后,电子设备可以在时间维度上,将目标语音和人脸动作视频对齐,得到多模态的说话头视频。
[0062]
即说话头视频合成方法一般是先将文本合成语音,并通过复杂的网络模型将合成的语音映射到人脸的嘴部动作序列,导致说话头视频合成的复杂度较高,降低了说话头视频合成的效率,降低了用户体验。
[0063]
为解决上述问题,本技术实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法中,终端设备可以获取目标文本和目标图像,目标图像中包含目标用户的脸部图像;确定目标文本对应的目标音素序列,目标音素序列中包含一个或多个目标音素;根据目标音素序列,获取目标文本对应的声学特征,并根据声学特征,得到
目标文本对应的合成语音;根据目标音素序列,确定目标文本对应的第一目标嘴部动作序列,并根据声学特征,确定目标文本对应的第二目标嘴部动作序列;根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频;对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频。即本技术实施例中,可以基于语言学知识建立轻量级且准确的文本到音素的映射,以及音素到视素(即嘴部动作)的映射,从而可以通过文本和文本对应的声学特征来预测嘴部动作,降低嘴部动作预测的复杂度,提高说话头视频合成的效率,提升用户体验,具有较强的易用性和实用性。
[0064]
本技术实施例中,终端设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)、桌上型计算机、云端服务器等,本技术实施例对终端设备的具体类型不作任何限制。
[0065]
请参阅图2,图2示出了本技术实施例提供的说话头视频合成方法的示意性流程图。该方法可以应用终端设备。如图2所示,该方法可以包括:
[0066]
s201、获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像。
[0067]
本技术实施例中,当需要合成说话头视频时,终端设备可以获取待合成的目标文本和目标图像。目标文本可以为任一文本。目标用户可以为任一用户。例如,目标文本可以为“明天将会是美好的一天”,目标用户可以为用户a,即所需要合成的说话头视频为用户a说“明天将会是美好的一天”的脸部视频。
[0068]
s202、确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素。
[0069]
s203、根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音。
[0070]
示例性的,在获取目标文本后,终端设备可以对目标文本进行前端分析,确定目标文本对应的目标音素序列。应理解,目标音素序列中包括的音素(以下称为目标音素)可以为一个或多个,具体可以根据目标文本来确定。随后,终端设备可以根据目标音素序列,获取目标文本对应的声学特征,并可以通过声码器,根据声学特征得到目标文本对应的语音(以下称为合成语音)。
[0071]
需要说明的是,本技术实施例对终端设备确定目标文本对应的目标音素序列和终端设备根据目标音素序列确定目标文本对应的声学特征的具体方式不作任何限定,可以根据实际场景具体确定。也就是说,终端设备可以通过现有的任一合成方法,来确定目标文本对应的合成语音。
[0072]
s204、根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列。
[0073]
本技术实施例中,终端设备获取目标文本对应的目标音素序列之后,可以根据语言学知识,将目标音素序列中的各目标音素映射至对应的视素,即粗略确定各目标音素对应的嘴部动作,得到目标文本对应的第一目标嘴部动作序列。也就是说,第一目标嘴部动作序列可以为嘴部动作的粗略预测。
[0074]
示例性的,嘴部动作可以通过嘴部的关键点来进行量化表征。以下将以通过嘴部
的关键点表征嘴部动作为例进行示例性说明。
[0075]
同时,终端设备获取目标文本对应的声学特征之后,可以根据声学特征,确定目标文本对应的第二目标嘴部动作序列,第二目标嘴部动作序列为第一目标嘴部动作序列中未包含的嘴部动作的细节部分。
[0076]
示例性的,终端设备可以将目标文本对应的目标音素序列输入第一预测模型进行预测处理,得到第一预测模型输出的目标音素序列对应的第一目标嘴部动作序列。示例性的,终端设备可以将目标文本对应的声学特征输入至第二预测模型进行预测处理,得到第二预测模型输出的声学特征对应的第二目标嘴部动作序列。
[0077]
请参阅图3,图3示出了本技术实施例提供的训练第一预测模型的示意性流程图。应理解,训练第一预测模型的执行主体可以为本技术实施例中的终端设备,也可以为其他终端设备,在此将以训练第一预测模型的执行主体为本技术实施例中的终端设备为例进行示例性说明。如图3所示,在所述根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列之前,所述方法还可以包括:
[0078]
s301、获取视频数据集,所述视频数据集包括多条视频数据。
[0079]
其中,视频数据集可以包括不同用户说不同文本内容的视频数据,视频数据中的每一条均包括说话的用户的脸部图像。应理解,视频数据集中的每一条视频数据的时长可以为任一数值。
[0080]
s302、对于每一视频数据,确定所述视频数据对应的训练音素序列。
[0081]
终端设备获取视频数据集之后,可以确定每一条视频数据对应的音素序列(以下称为训练音素序列)。本技术实施例对终端设备确定各视频数据对应的训练音素序列的方式不作任何限制,可以由技术人员根据实际场景具体设置。
[0082]
s303、确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作。
[0083]
本技术实施例中,在确定各视频数据对应的训练音素序列后,对每一训练音素序列,终端设备可以确定该训练音素序列中的各训练音素对应的嘴部动作(以下称为第一初始嘴部动作),例如可以通过人工标注方式来确定各训练音素对应的第一初始嘴部动作,即可以通过人工标注各训练音素对应的嘴部关键点。
[0084]
s304、对于每一训练音素,根据所述训练音素对应的各第一初始嘴部动作,确定所述训练音素对应的第一训练嘴部动作。
[0085]
示例性的,对于每一个训练音素,终端设备获取该训练音素对应的第一初始嘴部动作之后,例如获取该训练音素对应的各嘴部关键点(例如各嘴部关键点坐标)后,终端设备可以确定各嘴部关键点对应的平均值,并可以将该平均值确定为该训练音素对应的第一训练嘴部动作的量化值。
[0086]
例如,对于训练音素a,当训练数据a、训练数据b、训练数据c和训练数据d中均包括训练音素a时,终端设备获取训练数据a中训练音素a对应的第一初始嘴部动作a、训练数据b中训练音素a对应的第一初始嘴部动作b、训练数据c中训练音素a对应的第一初始嘴部动作c和训练数据d中训练音素a对应的第一初始嘴部动作d之后,终端设备可以确定第一初始嘴部动作a、第一初始嘴部动作b、第一初始嘴部动作c和第一初始嘴部动作d的平均值,并可以将该平均值确定为训练音素a对应的第一训练嘴部动作。
[0087]
s305、根据各训练音素对应的第一训练嘴部动作,确定各所述训练音素序列对应
的第一训练嘴部动作序列。
[0088]
s306、利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列,训练得到第一预测模型,所述第一预测模型用于根据音素序列,预测第一目标嘴部动作序列。
[0089]
应理解,在确定各训练音素对应的第一训练嘴部动作后,终端设备可以将各训练音素序列中各训练音素的第一训练嘴部动作进行组合,得到各训练音素序列对应的第一训练嘴部动作序列,并可以利用各训练音素序列和各训练音素序列对应的第一训练嘴部动作序列对初始的第一预测模型进行训练,得到训练后的第一预测模型。其中,本技术实施例对第一预测模型的具体结构不作任何限制,可以由技术人员根据实际场景具体设置。
[0090]
请参阅图4,图4示出了本技术实施例提供的训练第二预测模型的示意性流程图。应理解,训练第二预测模型的执行主体可以为本技术实施例中的终端设备,也可以为其他终端设备,在此将以训练第二预测模型的执行主体为本技术实施例中的终端设备为例进行示例性说明。如图4所示,在所述根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列之前,所述方法还可以包括:
[0091]
s401、获取视频数据集,所述视频数据集包括多条视频数据。
[0092]
s402、对于每一视频数据,确定所述视频数据对应的训练音素序列。
[0093]
应理解,s401与前述s301类似,具体内容可以参照前述s301中的描述,s402与前述s302类似,具体内容可以参照前述s302中的描述,为简明起见,在此不再赘述。
[0094]
s403、根据所述训练音素序列,获取所述视频数据对应的声学特征,并确定所述声学特征对应的第二初始嘴部动作序列。
[0095]
本技术实施例中,在确定各视频数据对应的训练音素序列后,对于每一训练音素序列,终端设备可以根据该训练音素序列获取对应的声学特征,并确定该训练音素序列中的各训练音素对应的嘴部动作(以下称为第二初始嘴部动作),例如可以通过人工标注方式来确定各训练音素对应的第二初始嘴部动作,即可以通过人工标注各训练音素对应的嘴部关键点,以此得到该声学特征对应的第二初始嘴部动作序列。
[0096]
s404、确定所述训练音素序列对应的第一目标嘴部动作序列。
[0097]
s405、根据所述第二初始嘴部动作序列和所述训练音素序列对应的第一目标嘴部动作序列,得到所述声学特征对应的第二训练嘴部动作序列。
[0098]
示例性的,对于每一训练音素序列,终端设备可以通过第一预测模型,来预测该训练音素序列对应的第一目标嘴部动作序列。随后,终端设备可以根据第二初始嘴部动作序列和第一目标嘴部动作序列,确定该训练音素序列对应的声学特征所对应的第二训练嘴部动作序列。例如,终端设备可以将第二初始嘴部动作序列中的各第二初始嘴部动作减去第一目标嘴部动作序列中所对应的第一目标嘴部动作,来得到该训练音素序列对应的声学特征所对应的第二训练嘴部动作序列。
[0099]
例如,对于声学特征a,当第二初始嘴部动作序列包括第二初始嘴部动作a1、第二初始嘴部动作b1、第二初始嘴部动作c1、第二初始嘴部动作d1和第二初始嘴部动作e1时,第一目标嘴部动作序列中可以包括第一目标嘴部动作a2、第一目标嘴部动作b2、第一目标嘴部动作c2、第一目标嘴部动作d2和第一目标嘴部动作e2,此时,终端设备可以将第二初始嘴部动作a1减去第一目标嘴部动作a2,得到第二训练嘴部动作a3,将第二初始嘴部动作b1减
去第一目标嘴部动作b2,得到第二训练嘴部动作b3,将第二初始嘴部动作c1减去第一目标嘴部动作c2,得到第二训练嘴部动作c3,将第二初始嘴部动作d1减去第一目标嘴部动作d2,得到第二训练嘴部动作d3,以及将第二初始嘴部动作e1减去第一目标嘴部动作e2,得到第二训练嘴部动作e3。因此,终端设备可以将第二训练嘴部动作a3、第二训练嘴部动作b3、第二训练嘴部动作c3、第二训练嘴部动作d3和第二训练嘴部动作e3进行组合,得到声学特征a对应的第二训练嘴部动作序列。
[0100]
s406、利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列,训练得到第二预测模型,所述第二预测模型用于根据声学特征,预测第二目标嘴部动作序列。
[0101]
应理解,在确定各声学特征对应的第二训练嘴部动作序列后,终端设备可以利用各声学特征和各声学特征对应的第二训练嘴部动作序列对初始的第二预测模型进行训练,得到训练后的第二预测模型。其中,本技术实施例对第二预测模型的具体结构不作任何限制,可以由技术人员根据实际场景具体设置。
[0102]
s205、根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频。
[0103]
本技术实施例中,终端设备获取目标文本对应的第一目标嘴部动作序列(即嘴部动作的粗略信息)和第二目标嘴部动作序列(即嘴部动作的细节信息)后,可以对第一目标嘴部动作序列和第二目标嘴部动作序列进行融合,得到融合后的嘴部动作序列。随后,终端设备可以根据融合后的嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频。
[0104]
需要说明的是,本技术实施例对终端设备根据嘴部动作序列和目标图像,得到脸部动作视频的具体实现方式不作任何限制,可以由技术人员根据实际场景具体确定。例如,可以通过vid2vid算法来确定脸部动作视频。
[0105]
应理解,人在说话时,除了嘴部动作还伴有头部和眼部(如眨眼)的动作,为了实现更自然地说话头视频的合成,还应预测说话时的头部和眼部动作。因此,本技术实施例可以基于头部和眼部动作与语音以及嘴部动作独立的假设,可以收集一个或多个用户(可以包括目标用户,也可以不包括目标用户)真实的视频数据集,在进行脸部动作视频的合成时,终端设备可以在该视频数据集中随机采样,得到自然的头部和眼部动作序列,进而将头部和眼部动作序列以及嘴部动作序列进行融合,得到融合后的动作序列,以根据融合后的动作序列来合成目标文本对应的脸部动作视频。
[0106]
具体地,在确定目标文本对应的目标音素序列之后,终端设备可以确定目标音素序列中的各目标音素对应的第一时长,并根据第一时长确定合成语音对应的第二时长;根据第二时长,获取目标文本对应的头部和眼部动作序列。即终端设备可以从预设的视频数据集中,获取第二时长的头部和眼部动作,并可以将头部和眼部动作组合成目标文本对应的头部和眼部动作序列。随后,终端设备可以根据第一目标嘴部动作序列、第二目标嘴部动作序列、头部和眼部动作序列以及目标图像,得到目标用户对应的脸部动作视频。即可以对第一目标嘴部动作序列、第二目标嘴部动作序列以及头部和眼部动作序列进行融合,得到融合后的动作序列,从而可以根据融合后的动作序列和目标图像,来确定目标文本对应的脸部动作视频。
[0107]
s206、对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
[0108]
本技术实施例中,在得到目标文本对应的合成语音和脸部动作视频后,终端设备可以将合成语音和脸部动作视频在时间维度上进行同步(即对齐),从而得到目标用户对应的说话头视频。
[0109]
本技术实施例中,终端设备可以获取目标文本和目标图像,目标图像中包含目标用户的脸部图像;确定目标文本对应的目标音素序列;根据目标音素序列,获取目标文本对应的声学特征,并根据声学特征,得到目标文本对应的合成语音;根据目标音素序列,确定目标文本对应的第一目标嘴部动作序列,并根据声学特征,确定目标文本对应的第二目标嘴部动作序列;根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频;对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频。即本技术实施例中,可以基于语言学知识建立轻量级且准确的文本到音素的映射,以及音素到视素的映射,从而可以通过文本和文本对应的声学特征来预测嘴部动作,降低嘴部动作预测的复杂度,提高说话头视频合成的效率,提升用户体验。
[0110]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0111]
对应于上文实施例所述的说话头视频合成方法,本技术实施例还提供了一种说话头视频合成装置。请参阅图5,图5示出了本技术实施例提供的一种说话头视频合成装置的结构框图。为了便于说明,仅示出了与本技术实施例相关的部分。
[0112]
如图5所示,该装置可以包括:
[0113]
文本图像获取模块501,用于获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
[0114]
音素序列确定模块502,用于确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素;
[0115]
语音合成模块503,用于根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音;
[0116]
嘴部动作确定模块504,用于根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列;
[0117]
脸部视频合成模块505,用于根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
[0118]
说话头视频获取模块506,用于对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
[0119]
在一种可能的实现方式中,所述装置还可以包括:
[0120]
时长确定模块,用于确定所述目标音素序列中的各目标音素对应的第一时长,并根据所述第一时长确定所述合成语音对应的第二时长;
[0121]
头部动作序列获取模块,用于根据所述第二时长,获取所述目标文本对应的头部和眼部动作序列;
[0122]
所述脸部视频合成模块505,还用于根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像,得到所述目标用户对应的
脸部动作视频。
[0123]
在一个示例中,所述装置还可以包括:
[0124]
第一数据集获取模块,用于获取视频数据集,所述视频数据集包括多条视频数据;
[0125]
第一训练音素序列确定模块,用于对于每一视频数据,确定所述视频数据对应的训练音素序列;
[0126]
初始嘴部动作确定模块,用于确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作;
[0127]
训练嘴部动作确定模块,用于对于每一训练音素,根据所述训练音素对应的各第一初始嘴部动作,确定所述训练音素对应的第一训练嘴部动作;
[0128]
第一训练嘴部动作序列确定模块,用于根据各训练音素对应的第一训练嘴部动作,确定各所述训练音素序列对应的第一训练嘴部动作序列;
[0129]
第一预测模型训练模块,用于利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列,训练得到第一预测模型,所述第一预测模型用于根据音素序列,预测第一目标嘴部动作序列。
[0130]
在另一个示例中,所述装置还可以包括:
[0131]
第二数据集获取模块,用于获取视频数据集,所述视频数据集包括多条视频数据;
[0132]
第二训练音素序列确定模块,用于对于每一视频数据,确定所述视频数据对应的训练音素序列;
[0133]
声学特征获取模块,用于根据所述训练音素序列,获取所述视频数据对应的声学特征,并确定所述声学特征对应的第二初始嘴部动作序列;
[0134]
目标嘴部动作序列确定模块,用于确定所述训练音素序列对应的第一目标嘴部动作序列;
[0135]
第二训练嘴部动作序列确定模块,用于根据所述第二初始嘴部动作序列和所述第一目标嘴部动作序列,得到所述声学特征对应的第二训练嘴部动作序列;
[0136]
第二预测模型训练模块,用于利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列,训练得到第二预测模型,所述第二预测模型用于根据声学特征,预测第二目标嘴部动作序列。
[0137]
在一种可能的实现方式中,所述头部动作序列获取模块,具体用于从预设的视频数据集中,获取所述第二时长的头部和眼部动作,并将所述头部和眼部动作组合成所述目标文本对应的头部和眼部动作序列。
[0138]
示例性的,所述脸部视频合成模块505,还用于对所述第一目标嘴部动作序列和所述第二目标嘴部动作序列进行融合,得到融合后的嘴部动作序列;根据所述融合后的嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频。
[0139]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0140]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上
memory,ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不可以是电载波信号和电信信号。
[0148]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0149]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0150]
在本技术所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0151]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0152]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1