表情重定向训练方法、装置、电子设备和可读存储介质与流程

文档序号:26673609发布日期:2021-09-17 23:27阅读:112来源:国知局
表情重定向训练方法、装置、电子设备和可读存储介质与流程

1.本技术涉及模型控制技术领域,具体而言,涉及一种表情重定向训练方法、装置、电子设备和可读存储介质。


背景技术:

2.表情重定向指的是将用户的表情迁移到其它的形象上,例如在直播场景下,可以将主播的表情迁移到虚拟形象上。在将用户的表情迁移到虚拟形象时,常用的处理方式中一般是希望能够完全准确地将用户表情迁移到虚拟形象上。
3.但是,虚拟形象的样式多种多样,例如可以包括萝莉形象、动物形象、英雄形象等,不同类型的虚拟形象其脸部特征具有个性化特征,脸部各个部分之间的比例关系、脸部特征的大小等均不同。若仅是简单地将用户的表情信息复刻至虚拟形象上,由于虚拟形象与用户的脸部特征的差异以及不同类型的虚拟形象之间的脸部特征差异,使得这种完全复刻方式下迁移得到的表情并不能很好适用于虚拟形象上,使得虚拟形象的表情显得不自然。


技术实现要素:

4.本技术的目的包括,例如,提供了一种表情重定向训练方法、装置、电子设备和可读存储介质,其能够得到能实现表情迁移且保持虚拟形象的个性化特征的重定向模型。
5.本技术的实施例可以这样实现:
6.第一方面,本技术提供一种表情重定向训练方法,所述方法包括:
7.采集训练用户的视频流,所述视频流包含多帧视频帧;
8.针对每个所述视频帧,计算预设的多个表情基模板相对于该视频帧的表情基系数;
9.调整控制虚拟形象表情的控制参数,以使所述虚拟形象的表情与所述视频帧中训练用户的表情一致;
10.基于各所述视频帧对应的表情基系数和控制参数,对构建的网络模型进行训练得到重定向模型。
11.在可选的实施方式中,所述调整控制虚拟形象表情的控制器的控制参数,以使所述虚拟形象的表情与所述视频帧中训练用户的表情一致的步骤,包括:
12.提取所述多帧视频帧中的关键视频帧,其中,各所述关键视频帧包含处于设定状态的目标脸部特征;
13.调整控制虚拟形象表情的控制器的控制参数,以使所述虚拟形象的表情与所述关键视频帧中训练用户的表情一致。
14.在可选的实施方式中,所述调整控制虚拟形象的控制器的控制参数,以使所述虚拟形象的表情与所述关键视频帧中训练用户的表情一致的步骤,包括:
15.确定所述虚拟形象中与所述目标脸部特征对应的目标虚拟特征;
16.获得控制所述目标虚拟特征的目标控制器;
17.调整所述目标控制器的控制参数,以使所述虚拟形象中目标虚拟特征的状态与所述目标脸部特征的状态一致。
18.在可选的实施方式中,所述基于各所述视频帧对应的表情基系数和控制参数,对构建的网络模型进行训练得到重定向模型的步骤,包括:
19.获得各所述关键视频帧的表情基系数中与所述目标脸部特征对应的系数子集;
20.获得所述虚拟形象的控制参数中与所述目标虚拟特征对应的参数子集;
21.基于各所述关键视频帧对应的系数子集和参数子集,对构建的网络模型进行训练得到重定向模型。
22.在可选的实施方式中,所述提取所述多帧视频帧中的关键视频帧的步骤,包括:
23.获得各所述视频帧中包含的指定脸部特征的特征点信息;
24.比对各所述视频帧的指定脸部特征的特征点信息,以确定包含的指定脸部特征满足设定状态的视频帧,并作为关键视频帧。
25.在可选的实施方式中,所述提取所述多帧视频帧中的关键视频帧的步骤,包括:
26.提取各所述视频帧的表情基系数中与指定脸部特征对应的系数子集;
27.比对各所述视频帧的系数子集,以确定包含的指定脸部特征满足设定状态的视频帧,并作为关键视频帧。
28.在可选的实施方式中,所述基于各所述视频帧对应的表情基系数和控制参数,对构建的网络模型进行训练得到重定向模型的步骤,包括:
29.将各所述视频帧对应的表情基系数导入构建的网络模型,得到输出结果;
30.将各所述视频帧对应的控制参数与输出结果进行比对,基于比对结果对所述网络模型的模型参数进行调整后继续训练,直至满足预设条件时得到重定向模型。
31.在可选的实施方式中,所述方法还包括:
32.将所述多帧视频帧中除关键视频帧之外的其他视频帧的表情基系数导入所述重定向模型,输出各所述其他视频帧对应的控制参数;
33.将各所述关键视频和各所述其他视频帧对应的控制参数与相应的表情进行关联,并保存。
34.在可选的实施方式中,所述方法还包括:
35.获取待处理的用户的重定向视频帧,并计算预设的多个表情基模板相对于所述重定向视频帧的重定向模板系数;
36.将所述重定向模板系数导入所述重定向模型,输出重定向控制参数;
37.基于所述重定向控制参数调整控制目标虚拟模型的控制器,以使所述目标虚拟模型的表情与所述待处理的用户的表情一致。
38.第二方面,本技术提供一种表情重定向训练装置,所述装置包括:
39.采集模块,用于采集训练用户的视频流,所述视频流包含多帧视频帧;
40.计算模块,用于针对每个所述视频帧,计算预设的多个表情基模板相对于该视频帧的表情基系数;
41.调整模块,用于调整控制虚拟形象表情的控制参数,以使所述虚拟形象的表情与所述视频帧中训练用户的表情一致;
42.训练模块,用于基于各所述视频帧对应的表情基系数和控制参数,对构建的网络
模型进行训练得到重定向模型。
43.第三方面,本技术提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。
44.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。
45.本技术实施例的有益效果包括,例如:
46.本技术提供一种表情重定向训练方法、装置、电子设备和可读存储介质,通过采集训练用户的多帧视频帧,针对每个视频帧计算预设的多个表情基模板相对于该视频帧的表情基系数,并调整控制虚拟形象表情的控制参数,以使虚拟形象的表情与视频帧中训练用户的表情一致。最后基于视频帧对应的表情基系数和控制参数对构建的网络模型进行训练得到重定向模型。本方案中,首先以表情基模板和表情基系数来表征训练用户不同的表情,可以以规范的信息表征各种不同表情,且通过调整虚拟形象的控制参数的方式,可以得到使虚拟形象的表情与训练用户不同表情对应的控制参数,从而可以训练得到能够实现表情迁移且能够保持虚拟形象的个性化特征的重定向模型,实现适用性好、自然的表情重定向。
附图说明
47.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
48.图1为本技术实施例提供的表情重定向训练方法的应用场景示意图;
49.图2为本技术实施例提供的表情重定向训练方法的流程图;
50.图3为本技术实施例提供的表情基模板的示意图;
51.图4为本技术实施例提供的虚拟形象调整示意图;
52.图5为图2中步骤s130包含的子步骤的流程图;
53.图6为图5中步骤s131包含的子步骤的流程图;
54.图7为图5中步骤s131包含的子步骤的另一流程图;
55.图8为图5中步骤s132包含的子步骤的流程图;
56.图9为图2中步骤s140包含的子步骤的流程图;
57.图10为图2中步骤s140包含的子步骤的另一流程图;
58.图11为本技术实施例提供的表情重定向训练方法中,关联保存方法的流程图;
59.图12为本技术实施例提供的表情重定向训练方法的另一应用场景示意图;
60.图13为本技术实施例提供的表情重定向训练方法中,调整控制方法的流程图;
61.图14为本技术实施例提供的电子设备的结构框图;
62.图15为本技术实施例提供的表情重定向训练装置的功能模块框图。
63.图标:100

服务器;110

存储介质;120

处理器;130

表情重定向训练装置;131


集模块;132

计算模块;133

调整模块;134

训练模块;140

通信接口;200

图像采集设备;300

直播提供端;400

直播接收端。
具体实施方式
64.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
65.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
66.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
67.在本技术的描述中,需要说明的是,在不冲突的情况下,本技术的实施例中的特征可以相互结合。
68.请参阅图1,为本技术实施例提供的表情重定向训练方法的应用场景示意图,该应用场景中包含服务器100以及与服务器100通信连接的图像采集设备200。图像采集设备200可以为一个或多个,图像采集设备200中可包括用于采集二维图像的设备,如照相机,此外,还可包括用于采集深度图像的设备,例如,深度摄像机等。
69.本实施例中,图像采集设备200可将采集的图像信息或视频信息发送至服务器100,通过服务器100对接收到的图像信息或视频信息进行分析处理。
70.结合图2,本技术实施例还提供一种可应用于电子设备的表情重定向训练方法,该电子设备可以为上述的服务器100。该表情重定向训练方法有关的流程所定义的方法步骤可以由所述电子设备实现。下面将对图2所示的具体流程进行详细阐述。
71.步骤s110,采集训练用户的视频流,所述视频流包含多帧视频帧。
72.步骤s120,针对每个所述视频帧,计算预设的多个表情基模板相对于该视频帧的表情基系数。
73.步骤s130,调整控制虚拟形象表情的控制参数,以使所述虚拟形象的表情与所述视频帧中训练用户的表情一致。
74.步骤s140,基于各所述视频帧对应的表情基系数和控制参数,对构建的网络模型进行训练得到重定向模型。
75.本实施例中,可以利用图像采集设备200采集训练用户的一段视频流,其中训练用户可以是任意用户,例如该项目的模特人员等。训练用户可以尽可能地多做不同的表情,例如张嘴、瘪嘴、眨眼、吐舌头等,如此,采集到的视频流包含的多帧视频帧,可以包含多种具有不同表情的视频帧。
76.此外,电子设备中存储有预设的多个表情基模板,各个表情基模板可以是针对脸部的某个脸部特征进行变动的模板,如图3中所示。例如,假设有一个基准模板,该基准模板中各个脸部特征处于自然状态,即无明显的表情表达。而各个表情基模板则在该基准模板
的基础上,对其中的一个脸部特征进行变动后的表情表达。
77.例如,某个表情基模板是对嘴部特征进行变动,该表情基模板中的嘴部特征是处于张大嘴状态,而该表情基模板的除嘴部特征之外的其他脸部特征和基准模板保持一致。又如,某个表情基模板是对眼部特征进行变动,该表情基模板中的眼部特征是处于闭眼状态。
78.由于各个表情基模板均是针对某个脸部特征的表达,因此,多个表情基模板相组合可以进行多种不同的表情的表达。
79.本实施例中,针对采集到的训练用户的每个视频帧,每个视频帧中训练用户的表情则可以利用多个表情基模板进行组合来表征。在利用多个表情基模板相组合进行表征时,可以根据所针对的训练用户的视频帧以及多个表情基模板,计算得到多个表情基系数。各个表情基模板按其对应的表情基系数进行组合后,即可与训练用户的视频帧中的表情状态一致。
80.本实施例的表情重定向是需要将训练用户的表情迁移到虚拟形象上,该虚拟形象可以是如直播应用场景下增加直播趣味性的虚拟形象,例如动物形象、萝莉形象等,如兔子的动画、猫的动画。
81.由于表情基模板的制作是基于人物特征完成的,若基于表情基模板的信息重定向至虚拟形象上,重定向后的虚拟形象的表情非常像真的人物。但是,由于虚拟形象的脸部特征之间的比例关系与实际人物的脸部特征的比例关系并不一致,若是直接以表征人物的表情基模板的信息迁移到虚拟形象上,则并不能完全适用于虚拟形象,使得虚拟形象的表情不自然。
82.因此,本实施例中,可以先手动调整虚拟形象以使虚拟形象与训练用户保持表情一致,再基于此时的控制参数来进行模型的训练,进而可以得到能够表征出表情基系数和控制参数之间映射关系的模型。
83.详细地,本实施例中,可预先将虚拟形象的骨骼点与控制骨骼点的控制器进行绑定。本实施例中,虚拟形象的脸部可包含多个骨骼点,其中,一个骨骼点可以对应一块区域,通过控制某个骨骼点可以实现其对应的一块区域的像素点的迁移。而一个控制器可以与一个或多个骨骼点相绑定,从而可以通过调整控制器的控制参数以实现对其绑定的骨骼点的控制。
84.在得到各个视频帧对应的表情基系数后,针对每个视频帧,设计师可以手动调整控制虚拟形象的控制器的控制参数,从而使得虚拟形象的表情与视频帧中训练用户的表情一致。例如,视频帧中训练用户处于大笑表情,则设计师可以调整控制虚拟形象表情的控制器的控制参数,以将虚拟形象的表情保持与训练用户一致的大笑的表情。
85.作为一种可能的实现方式,在设计界面上具有可以利用鼠标进行直接拖曳的控制点,如图4中所示。设计师可以直接在设计界面上调整各个控制点的位置。电子设备根据设计师的调整信息获得对应的控制器的控制参数,并展示在该控制参数下的虚拟形象。
86.作为另一种可能的实现方式,在设计界面上具有可以直接进行控制参数输入的输入框,设计师可以直接在输入框中输入需要调整的控制器的控制参数。基于得到的控制器的控制参数可以相应地调整虚拟形象的表情,并实时展示在设计界面上。设计师可以边调整控制参数、边观察比对虚拟形象的表情和训练用户的表情是否一致。在确定虚拟形象的
表情与训练用户的表情一致时,可以将此时的控制器的控制参数保存下来。
87.本实施例中,通过以上方式可以得到多组一一对应的表情基系数和控制参数。对于训练用户的某个表情下的视频帧,一组对应的表情基系数和控制参数中,表情基系数结合其表情基模板可以表征训练用户在该视频帧中的表情,而在控制参数的控制下虚拟形象可以与训练用户在该视频帧中的表情一致。
88.在此基础上,利用各个视频帧对应的表情基系数和控制参数,对构建的网络模型进行训练,从而可以得到表征表情基系数和控制参数之间映射关系的重定向模型。本实施例中,所构建的网络模型可以是,但不限于径向基函数网络(radial basis function network,rbf network)。
89.本方案提供的表情重定向训练方案,首先以表情基模板和表情基系数来表征训练用户不同的表情,可以以规范的信息表征各种不同表情,且通过调整虚拟形象的控制参数的方式,可以得到使虚拟形象的表情与训练用户不同表情对应的控制参数,从而可以训练得到能够实现表情迁移且能够保持虚拟形象的个性化特征的重定向模型,实现适用性好、自然的表情重定向。
90.本实施例中,考虑到采集到的训练用户的视频帧中,有些视频帧中训练用户的表情并不明显,若利用这类视频帧作为参考来调整虚拟形象的控制器参数,一则不便于设计师观察表情是否一致,另外还会增加不必要的处理负担。
91.因此,请参阅图5,本实施例中,可以通过以下方式调整虚拟形象的控制器参数。
92.步骤s131,提取所述多帧视频帧中的关键视频帧,其中,各所述关键视频帧包含处于设定状态的目标脸部特征。
93.步骤s132,调整控制虚拟形象表情的控制器的控制参数,以使所述虚拟形象的表情与所述关键视频帧中训练用户的表情一致。
94.本实施例中,所述的关键视频帧可以是包含处于设定状态的目标脸部特征的视频帧,其中,目标脸部特征可以是如嘴部特征、眼部特征、鼻子特征、眉毛特征等。而所述的设定状态可以基于需求进行设定,例如,嘴部特征中嘴部处于大张嘴状态可以确定为处于设定状态、嘴部处于抿嘴状态可以确定为处于设定状态,此外,又如眼部特征中眼睛处于闭眼状态可以确定为处于设定状态、眼睛处于瞪眼状态可以确定为处于设定状态。
95.本实施例中,提取的关键视频帧即为某个脸部特征可以表征较为明显的表情的视频帧。如此,针对性地基于关键视频帧来调整控制虚拟形象表情的控制器的控制参数,可以基于较为明显的信息进行调整,使得调整效果更佳,并且,可以降低处理负担。
96.作为一种可能的实现方式,在确定关键视频帧时,可以基于脸部特征的特征点信息进行确定。详细地,请参阅图6,可以通过以下方式确定关键视频帧。
97.步骤s1311a,获得各所述视频帧中包含的指定脸部特征的特征点信息。
98.步骤s1312a,比对各所述视频帧的指定脸部特征的特征点信息,以确定包含的指定脸部特征满足设定状态的视频帧,并作为关键视频帧。
99.视频帧中训练用户的各个脸部特征的状态是由构成脸部特征的多个特征点来共同决定的,例如,构成嘴部特征的多个特征点的信息在张嘴状态和抿嘴状态下不同。因此,基于脸部特征的特征点信息可以大致确定脸部特征的状态。
100.对于设置的指定脸部特征,例如嘴部特征,则可以获得各个视频帧中的嘴部特征
的特征点信息。可以比对各个视频帧中嘴部特征的特征点信息,例如,可以获得各个视频帧中嘴部特征包含的特征点的位置信息,比对各个视频帧的嘴部特征的特征点的位置信息,则可以确定出嘴部特征处于比较明显状态下的视频帧,例如,处于最大程度的张嘴状态的视频帧、处于最大程度的歪嘴状态的视频帧等。而这些状态的视频帧可以作为满足设定状态的视频帧,可以将这类视频帧作为关键视频帧。
101.作为另一种可能的实现方式,在确定关键视频帧时,还可以基于各个视频帧对应的表情基系数进行确定。详细地,请参阅图7,可以通过以下方式确定关键视频帧。
102.步骤s1311b,提取各所述视频帧的表情基系数中与指定脸部特征对应的系数子集。
103.步骤s1312b,比对各所述视频帧的系数子集,以确定包含的指定脸部特征满足设定状态的视频帧,并作为关键视频帧。
104.由上述可知,可以得到表情基模板相对于各个视频帧的表情基系数。而预设的多个表情基模板可以划分为针对于不同脸部特征的多组,其中,每组表情基模板中可包含一个或多个表情基模板。例如,请参阅图3,其中,可以包含针对鼻子的一组表情基模板、针对眉毛的一组表情基模板、针对眼部的一组表情基模板以及针对嘴部的一组表情基模板等。也即,属于同一组的表情基模板仅针对某个脸部特征进行变动。
105.相应地,获得的表情基系数中则包含多组分别与各组表情基模板对应的系数子集,例如,一组针对鼻子特征变动的表情基模板则具有一组系数子集,该系数子集中的系数与该组表情基模板中的各个表情基模板一一对应。
106.因此,对于指定脸部特征,例如嘴部特征,则可以确定表情基模板中的一组针对嘴部特征变动的表情基模板,并获得该组表情基模板对应的系数子集。
107.获得的各帧视频帧的指定脸部特征的系数子集,可以组合表征出指定脸部特征的状态。结合参阅图3,在一组针对嘴部特征的表情基模板中,分别包括如张嘴、抿嘴、歪嘴等状态,若设置的设定状态为张嘴状态,则在训练用户处于张嘴状态下的视频帧对应的系数子集中,其中,处于张嘴状态的表情基模板的系数应当是最大的。因此,通过比对各个视频帧的系数子集,则可以基于系数子集中与各个表情基模板对应的系数的大小,确定出其中包含的指定脸部特征满足设定状态的视频帧,以作为关键视频帧。
108.本实施例中,通过以上过程可以从多个视频帧中确定出多张存在某个脸部特征处于比较夸张表情的关键视频帧,可以将确定出的关键视频帧抽取出来。
109.在得到关键视频帧的基础上,可以基于关键视频帧来调整虚拟形象的控制器参数,从而保持与关键视频帧中训练用户一致的表情。
110.而由上述可知,关键视频帧为包含处于设定状态的目标脸部特征的视频帧,也即,关键视频帧的脸部特征中可能仅目标脸部特征处于比较明显的表情表达状态。若以关键视频帧的全部脸部特征作为参考进行虚拟形象的调整,一方面可能有些脸部特征状态并不明显,调整效果不好,另一方面,也会造成一些不必要的工作量。
111.因此,请参阅图8,本实施例中,在基于关键视频帧调整虚拟形象的控制器参数时,可以通过以下方式实现:
112.步骤s1321,确定所述虚拟形象中与所述目标脸部特征对应的目标虚拟特征。
113.步骤s1322,获得控制所述目标虚拟特征的目标控制器。
114.步骤s1323,调整所述目标控制器的控制参数,以使所述虚拟形象中目标虚拟特征的状态与所述目标脸部特征的状态一致。
115.本实施例中,训练用户的脸部特征与虚拟形象的虚拟特征是一一对应的。对于每个关键视频帧,可以获得关键视频帧中的目标脸部特征,也即关键视频帧中满足设定状态的脸部特征,例如关键视频帧中的目标脸部特征可为嘴部特征。相应地,可以确定虚拟形象中与目标脸部特征对应的目标虚拟特征,例如虚拟形象的嘴部特征。
116.而由上述可知,虚拟形象脸部各个区域的骨骼点可由不同的控制器进行控制,例如嘴部区域、眼睛区域分别由不同的控制器控制。因此,可以获得控制目标虚拟特征的目标控制器,例如可以获得控制虚拟形象的嘴部特征的目标控制器。
117.如此,则可以仅调整目标控制器的控制参数,以使虚拟形象的嘴部特征的状态与关键视频帧中训练用户的嘴部特征的状态一致。
118.本实施例中,通过仅对与关键视频帧中处于设定状态下的目标脸部特征对应的目标虚拟特征的控制器进行参数调整,针对性地对表情明显的部位进行调整并作一致性比对,可以提高调整的效果且减轻工作量。
119.本实施例中,请参阅图9,在得到一组组对应的表情基系数和控制参数的基础上,基于对应的表情基系数和控制参数训练得到重定向模型时,可以通过以下方式实现:
120.步骤s141a,将各所述视频帧对应的表情基系数导入构建的网络模型,得到输出结果。
121.步骤s142a,将各所述视频帧对应的控制参数与输出结果进行比对,基于比对结果对所述网络模型的模型参数进行调整后继续训练,直至满足预设条件时得到重定向模型。
122.本实施例中,可以将各个视频帧对应的表情基系数作为训练样本,输入至构建的网络模型。此处可以利用所有的视频帧作为训练样本进行训练,也可以采用上述获得的关键视频帧作为训练样本。通过网络模型的处理,可以得到模型的输出结果。
123.而各个视频帧的表情基系数本身具有对应的控制参数,模型训练的目的是使输出结果尽可能地与实际的控制参数一致。因此,可以将各视频帧对应的控制参数与输出结果进行比对,基于比对信息构建损失函数。构建的损失函数可以是最小化函数,通过计算损失函数值以进行损失函数的最小化处理,并在每次迭代后调整网络模型的模型参数后继续训练,直到满足预设条件时得到重定向模型。其中,预设条件可以是如迭代次数达到预设次数、损失函数达到收敛等。
124.在一种可能的实现方式中,若本实施例所采用的网络模型为rbf模型,rbf模型包括依次连接多个网络层,例如包括输入层、隐藏层和输出层。其中,隐藏层可以包括依次连接的rbf函数层和全连接层。通过rbf模型的各个网络层对输入的表情基系数进行处理之后,通过输出层得到输出结果。可以基于上述构建的损失函数的最小化处理作为模型的评价指标,以对各个网络层的模型参数进行调整并经过多次迭代,最终得到满足预设条件的重定向模型。
125.在一种可能的实现方式下,由上述可知,可以抽取出视频帧中的关键视频帧,关键视频帧中存在表情状态较为明显的脸部特征,若以关键视频帧进行模型训练,则可以在降低工作量的基础上,保障模型的准确性。因此,请参阅图10,本实施例中,训练得到重定向模型还可以通过以下方式实现:
126.步骤s141b,获得各所述关键视频帧的表情基系数中与所述目标脸部特征对应的系数子集。
127.步骤s142b,获得所述虚拟形象的控制参数中与所述目标虚拟特征对应的参数子集。
128.步骤s143b,基于各所述关键视频帧对应的系数子集和参数子集,对构建的网络模型进行训练得到重定向模型。
129.本实施例中,针对各个关键视频帧,假设某个关键视频帧中的目标脸部特征为嘴部特征,可以获得表情基模板中针对嘴部特征进行变动的一组表情基模板,并获得该组表情基模板的系数子集。而通过以上基于关键视频帧调整虚拟形象的控制器的控制参数的步骤中,可以得到与关键视频帧的目标脸部特征对应的目标虚拟特征的目标控制器的参数子集。
130.如此,则可以基于一组组的关键视频帧中的目标脸部特征的系数子集以及对应的目标虚拟特征的参数子集,对网络模型进行训练得到重定向模型。
131.在一种应用场景下,本实施例提供的表情重定向训练方法可以应用在离线获得可以进行多种表情的在虚拟形象的迁移的信息。请参阅图11,在该种情形下,该表情重定向训练方法还可包括以下步骤:
132.步骤s210,将所述多帧视频帧中除关键视频帧之外的其他视频帧的表情基系数导入所述重定向模型,输出各所述其他视频帧对应的控制参数。
133.步骤s220,将各所述关键视频和各所述其他视频帧对应的控制参数与相应的表情进行关联,并保存。
134.本实施例中,利用关键视频帧训练得到的重定向模型可以体现表情基系数和控制参数之间的映射关系。因此,对于除关键视频帧之外的其他视频帧,则可以利用训练得到的重定向模型得到与其他视频帧的表情基系数对应的控制参数。
135.而各个关键视频帧和各个其他视频帧中训练用户处于不同的表情,可以将得到的各组控制参数与相应地表情进行绑定。如此,后续在需要虚拟形象展示某个表情时,则仅需基于绑定关系信息查找到所需表情对应的控制参数,将虚拟形象的控制器设置成对应的控制参数即可。
136.在实施时,将控制参数与表情进行绑定的方式,可以通过得到表情的描述信息,例如大笑、抿嘴、大哭等描述信息。将各个表情的描述信息与控制参数进行绑定即可。
137.此外,在另一种应用场景下,本实施例提供的表情重定向训练方法还可以应用于实时地虚拟形象表情控制。例如,在直播场景下,可以基于主播的表情实时控制虚拟形象进行相应表情的展示。
138.在这种情形下,请结合参阅图12,本技术实施例提供的表情重定向训练方法的应用场景中还可包括直播提供端300和直播接收端400,而上述的服务器100可以为直播服务器。直播提供端300和直播接收端400可与直播服务器通信连接。其中,直播提供端300可以为主播在直播时使用的终端设备(如手机、平板电脑、电脑等),直播接收端400可以为观众在观看直播时使用的终端设备(如手机、平板电脑、电脑等)。
139.直播提供端300可以将直播视频流发送至直播服务器,观众可以通过直播接收端400访问直播服务器以观看直播视频。直播服务器还可接收直播提供端300发送的信息并基
于训练得到的重定向模型实现对虚拟形象的控制生成相应直播流,并推送至直播接收端400。
140.请参阅图13,在这种应用场景下,本实施例所提供的表情重定向训练方法还可包括以下步骤:
141.步骤s310,获取待处理的用户的重定向视频帧,并计算预设的多个表情基模板相对于所述重定向视频帧的重定向模板系数。
142.步骤s320,将所述重定向模板系数导入所述重定向模型,输出重定向控制参数。
143.步骤s330,基于所述重定向控制参数调整控制目标虚拟模型的控制器,以使所述目标虚拟模型的表情与所述待处理的用户的表情一致。
144.本实施例中,所述的待处理的用户可以是直播间的主播,获取的重定向视频帧可以是采集的主播的视频帧。同样地,可以计算预设的多个表情基模板相对于主播的视频帧的重定向模板系数,该重定向模板系数的计算方式与上述的表情基系数的计算方式相同,在此不作赘述。
145.利用上述训练得到的重定向模型可以输出与重定向模板系数对应的重定向控制参数。利用该重定向控制参数即可调整控制目标虚拟模型的控制器,从而使目标虚拟模型的表情与主播的表情一致。其中,目标虚拟模型为设置的当前直播间内的虚拟模型,可根据需求进行设置。
146.如此,可以通过预先训练得到重定向模型的方式,在实际应用时,即可直接调用该重定向模型得到控制参数,进而控制虚拟形象实时展示与主播一致的表情。可以增强主播使用虚拟形象进行直播的积极性,丰富了主播直播的生动性。
147.请参阅图14,为本技术实施例提供的电子设备的示例性组件示意图,该电子设备可为图1中所示的服务器100。该电子设备可包括存储介质110、处理器120、表情重定向训练装置130及通信接口140。本实施例中,存储介质110与处理器120均位于电子设备中且二者分离设置。然而,应当理解的是,存储介质110也可以是独立于电子设备之外,且可以由处理器120通过总线接口来访问。可替换地,存储介质110也可以集成到处理器120中,例如,可以是高速缓存和/或通用寄存器。
148.表情重定向训练装置130可以理解为上述电子设备,或电子设备的处理器120,也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述表情重定向训练方法的软件功能模块。
149.如图15所示,上述表情重定向训练装置130可以包括采集模块131、计算模块132、调整模块133和训练模块134。下面分别对该表情重定向训练装置130的各个功能模块的功能进行详细阐述。
150.采集模块131,用于采集训练用户的视频流,所述视频流包含多帧视频帧;
151.可以理解,该采集模块131可以用于执行上述步骤s110,关于该采集模块131的详细实现方式可以参照上述对步骤s110有关的内容。
152.计算模块132,用于针对每个所述视频帧,计算预设的多个表情基模板相对于该视频帧的表情基系数;
153.可以理解,该计算模块132可以用于执行上述步骤s120,关于该计算模块132的详细实现方式可以参照上述对步骤s120有关的内容。
154.调整模块133,用于调整控制虚拟形象表情的控制参数,以使所述虚拟形象的表情与所述视频帧中训练用户的表情一致;
155.可以理解,该调整模块133可以用于执行上述步骤s130,关于该调整模块133的详细实现方式可以参照上述对步骤s130有关的内容。
156.训练模块134,用于基于各所述视频帧对应的表情基系数和控制参数,对构建的网络模型进行训练得到重定向模型。
157.可以理解,该训练模块134可以用于执行上述步骤s140,关于该训练模块134的详细实现方式可以参照上述对步骤s140有关的内容。
158.在一种可能的实现方式中,上述调整模块133具体可以用于:
159.提取所述多帧视频帧中的关键视频帧,其中,各所述关键视频帧包含处于设定状态的目标脸部特征;
160.调整控制虚拟形象表情的控制器的控制参数,以使所述虚拟形象的表情与所述关键视频帧中训练用户的表情一致。
161.在一种可能的实现方式中,上述调整模块133具体可以用于:
162.确定所述虚拟形象中与所述目标脸部特征对应的目标虚拟特征;
163.获得控制所述目标虚拟特征的目标控制器;
164.调整所述目标控制器的控制参数,以使所述虚拟形象中目标虚拟特征的状态与所述目标脸部特征的状态一致。
165.在一种可能的实现方式中,上述训练模块134具体可以用于:
166.获得各所述关键视频帧的表情基系数中与所述目标脸部特征对应的系数子集;
167.获得所述虚拟形象的控制参数中与所述目标虚拟特征对应的参数子集;
168.基于各所述关键视频帧对应的系数子集和参数子集,对构建的网络模型进行训练得到重定向模型。
169.在一种可能的实现方式中,上述调整模块133具体可以用于:
170.获得各所述视频帧中包含的指定脸部特征的特征点信息;
171.比对各所述视频帧的指定脸部特征的特征点信息,以确定包含的指定脸部特征满足设定状态的视频帧,并作为关键视频帧。
172.在一种可能的实现方式中,上述调整模块133具体可以用于:
173.提取各所述视频帧的表情基系数中与指定脸部特征对应的系数子集;
174.比对各所述视频帧的系数子集,以确定包含的指定脸部特征满足设定状态的视频帧,并作为关键视频帧。
175.在一种可能的实现方式中,上述训练模块134具体可以用于:
176.将各所述视频帧对应的表情基系数导入构建的网络模型,得到输出结果;
177.将各所述视频帧对应的控制参数与输出结果进行比对,基于比对结果对所述网络模型的模型参数进行调整后继续训练,直至满足预设条件时得到重定向模型。
178.在一种可能的实现方式中,所述表情重定向训练装置130还包括关联保存模块,该模块具体可以用于:
179.将所述多帧视频帧中除关键视频帧之外的其他视频帧的表情基系数导入所述重定向模型,输出各所述其他视频帧对应的控制参数;
180.将各所述关键视频和各所述其他视频帧对应的控制参数与相应的表情进行关联,并保存。
181.在一种可能的实现方式中,所述表情重定向训练装置130还包括控制模块,该控制模块具体可以用于:
182.获取待处理的用户的重定向视频帧,并计算预设的多个表情基模板相对于所述重定向视频帧的重定向模板系数;
183.将所述重定向模板系数导入所述重定向模型,输出重定向控制参数;
184.基于所述重定向控制参数调整控制目标虚拟模型的控制器,以使所述目标虚拟模型的表情与所述待处理的用户的表情一致。
185.关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
186.进一步地,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的表情重定向训练方法。
187.具体地,该计算机可读存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该计算机可读存储介质上的计算机程序被运行时,能够执行上述表情重定向训练方法。关于计算机可读存储介质中的及其可执行指令被运行时,所涉及的过程,可以参照上述方法实施例中的相关说明,这里不再详述。
188.综上所述,本技术提供的表情重定向训练方法、装置、电子设备和可读存储介质,通过采集训练用户的多帧视频帧,针对每个视频帧计算预设的多个表情基模板相对于该视频帧的表情基系数,并调整控制虚拟形象表情的控制参数,以使虚拟形象的表情与视频帧中训练用户的表情一致。最后基于视频帧对应的表情基系数和控制参数对构建的网络模型进行训练得到重定向模型。
189.本方案中,首先以表情基模板和表情基系数来表征训练用户不同的表情,可以以规范的信息表征各种不同表情,且通过调整虚拟形象的控制参数的方式,可以得到使虚拟形象的表情与训练用户不同表情对应的控制参数,从而可以训练得到能够实现表情迁移且能够保持虚拟形象的个性化特征的重定向模型,实现适用性好、自然的表情重定向。
190.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1