视频合成方法、装置、设备及存储介质与流程

文档序号:31863567发布日期:2022-10-19 07:13阅读:59来源:国知局
视频合成方法、装置、设备及存储介质与流程

1.本公开涉及图像处理技术领域,尤其涉及一种视频合成方法、装置、设备及存储介质。


背景技术:

2.视频合成方法技术可以基于音频生成人物在描述该段音频内容的讲话视频,因此,广泛应用在诸如天气播报,新闻播报,虚拟老师,虚拟主播等领域。
3.现阶段,视频合成方法技术主要包括基于3d的视频合成方法和基于2d的视频合成方法,其中,基于2d的视频合成方法具有推理合成效率高的优点,因此受到广泛应用。基于2d的视频合成方法在训练模型时,通常先将音频和人脸图像对齐,然后将单个音频帧输入音频对应的编码器,并且将单张人脸图像帧输入图像对应的编码器,然后融合两者信息监督训练,训练完成后即可将音频输入模型,使用模型推理合成视频,但是,基于2d的视频合成方法合成的视频会出现抖动问题,导致合成效果不佳。


技术实现要素:

4.为了解决上述技术问题,本公开提供了一种视频合成方法、装置、设备及存储介质。
5.第一方面,本公开提供了一种视频合成方法,该方法包括:
6.获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;
7.利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;
8.利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;
9.针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;
10.将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。
11.第二方面,本公开提供了一种视频合成装置,该装置包括:
12.获取模块,用于获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;
13.第一下采样模块,用于利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;
14.第二下采样模块,用于利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;
15.拼接模块,用于针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音
频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;
16.合成模块,用于将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。
17.第三方面,本公开实施例还提供了一种电子设备,该设备包括:
18.处理器;以及存储程序的存储器,其中,程序包括指令,指令在由处理器执行时使处理器执行根据上述视频合成方法。
19.第四方面,本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据视频合成方法。
20.第五方面,本公开实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述视频合成方法。
21.本公开实施例提供的技术方案与现有技术相比具有如下优点:
22.本公开实施例,能够获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。可见,根据本公开实施例,音频帧序列中每个音频帧对应的图像帧由该音频帧序列中所有音频帧共同决定,即在推理该音频帧对应的图像帧时会充分考虑与该音频帧在时间轴上相邻或者说临近的音频帧,相比于现有技术中音频帧对应的图像帧由该单个音频帧和单张图像帧共同决定,能够提高推理出的图像帧的合理性和平滑性,改善抖动的问题。并且,通过获取每个音频帧对应的多个音频特征图和多个人脸图像特征图,并基于多个音频特征图和多个人脸图像特征图生成多个融合图像帧后,对多个融合图像帧进行拼接处理得到该音频帧对应的图像帧,可使推理出的图像帧语义信息更加丰富,纹理和细节更加逼真,有利于提高视频合成质量。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
24.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
25.图1示出了本公开实施例提供的一种视频合成系统的架构图;
26.图2示出了本公开实施例提供的一种视频合成方法的流程示意图;
27.图3示出了本公开实施例提供的一种下采样前的图像的示意图;
28.图4示出了本公开实施例提供的一种下采样后的图像的示意图;
29.图5示出了本公开实施例提供的一种视频合成过程的逻辑示意图;
30.图6示出了本公开实施例提供的一种对视频合成模型进行训练的流程示意图;
31.图7示出了本公开实施例提供的一种视频合成装置的结构示意图;
32.图8示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
33.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
34.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
35.为了解决上述问题,本公开实施例提供了一种视频合成方法、装置、设备及存储介质。
36.示例性地,图1示出了本公开实施例提供的一种视频合成系统的架构图。
37.如图1所示,该视频合成系统可以包括客户端101和服务器102。客户端101可以通过网络协议如超文本传输安全协议(hyper text transfer protocol over secure socket layer,https)与服务器102建立连接并进行信息交互。其中,客户端101可以包括移动电话、平板电脑、台式计算机、笔记本电脑等具有通信功能的设备,但并不限于此,服务器102可以是云服务器或者服务器集群等具有存储及计算功能的设备,但并不限于此。
38.基于上述架构,本公开实施例所提供的视频合成方法可以由服务器102执行,例如,服务器102可以对生成对抗网络模型进行训练,训练完成的生成对抗网络模型中的生成模型即可作为视频合成模型,服务器102可以利用视频合成模型进行视频合成;该视频合成方法也可以由客户端101执行,例如,客户端101可以对生成对抗网络模型进行训练,训练完成的生成对抗网络模型中的生成模型即可作为视频合成模型,客户端101可以利用视频合成模型进行视频合成;该视频合成方法还可以由服务器102和客户端101彼此配合执行,例如,服务器102可以对生成对抗网络模型进行训练,训练完成的生成对抗网络模型中的生成模型可以作为视频合成模型,客户端101可以通过网络协议、或者拷贝的方式从服务器102获取并安装视频合成模型,从而能够利用视频合成模型进行视频合成。本公开对此不作限定。
39.基于上述架构,下面结合图2至图6对本公开实施例提供的视频合成方法进行说明。
40.图2示出了本公开实施例提供的一种视频合成方法的流程示意图。
41.如图2所示,该视频合成方法可以包括如下步骤。
42.s210、获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐。
43.在本公开实施例中,视频合成方法的执行主体(例如图1中客户端101),可以获取音频,通过视频合成方法对音频进行处理,即可得到人物描述该音频的内容时的讲话视频。
44.具体地,这里所述的音频可以为语音音频,也可以为对文字进行转化而经由机器生成的音频,但并不限于此。
45.具体地,音频帧序列为音频中连续的多个音频帧组成的序列。
46.需要说明的是,音频帧序列中所包括的音频帧的数量,本领域技术人员可根据实际需求设置,对此不作限制。
47.具体地,人脸图像帧序列为包括多个人脸图像帧的序列,人脸图像帧序列中所包含的人脸图像帧的数量与音频帧序列中所包含的音频帧的数量相同且一一对应,相互对应的音频帧和人脸图像帧在时间上对齐,即对应于时间轴上的同一时刻。
48.人脸图像帧的序列中的人脸图像帧可以是任何去除嘴部区域的人脸图像。例如,人脸图像帧可以是拍摄得到的包含人脸的图像去除嘴部区域后的图像,也可以是从视频中提取的一帧图像去除嘴部区域后的图像,但并不限于此。
49.人脸图像帧序列中各帧人脸图像帧可以相同,也可以不同,此处不作限定,其中,这里所述的两帧人脸图像帧不同指的是内容不同,例如,一帧人脸图像帧中是仰头状态,另一帧人脸图像帧中是低头状态,或者,一帧人脸图像帧中人脸正放,另一帧人脸图像帧中人脸倒放等,但是该两帧人脸图像帧的尺度是相同的。
50.音频和人脸图像帧之间可以存在关联关系。例如,音频可以是第一人员发出的音频,人脸图像帧可以是第一人员的人脸图像去除嘴部区域后的图像。
51.音频和人脸图像帧之间也可以不存在关联关系。例如,音频可以是第一人员发出的音频,人脸图像帧可以是第二人员的人脸图像去除嘴部区域后的图像,其中,第二人员可以是不同于第一人员的人员,但并不限于此。
52.s220、利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图。
53.具体地,视频合成模型可以包括cnn(convolutional neural networks,卷积神经网络)、lstm(long short term memory networks,长短期记忆网络)等模型结构,但并不限于此,其训练过程将在后文中进行详细解释,此处先不作赘述。
54.具体地,针对音频帧序列中的每个音频帧,对该音频帧进行多个第一预设尺度的下采样,得到该音频帧对应的多个音频特征图。
55.音频帧对应的多个音频特征图的具体数量m(m为正整数)、以及音频帧对应的多个音频特征图中各音频特征图对应的第一预设尺度,本领域技术人员均可根据实际情况设置,对此不作限定。
56.在一些实施例中,对音频帧进行多个第一预设尺度的下采样,得到该音频帧对应的多个音频特征图可以包括:利用视频合成模型,对音频帧进行s11倍下采样,得到第一个音频特征图;然后在该第一个音频特征图的基础上再次进行s12倍下采样,得到第二个音频特征图;
……
;最后,在第m-1个音频特征图的基础上再次进行s1m倍下采样,得到第m个音频特征图。其中,s11、s12、
……
、s1m可以是任意大于1的整数。
57.在另一些实施例中,对音频帧进行多个第一预设尺度的下采样,得到该音频帧对应的多个音频特征图可以包括:利用视频合成模型,对音频帧进行s21倍下采样,得到第一个音频特征图;对音频帧进行s22倍下采样,得到第二个音频特征图;
……
;最后,对音频帧进行s2m倍下采样,得到第m个音频特征图。其中,s21、s22、
……
、s2m可以是任意大于1的整
数。
58.s230、利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图。
59.具体地,针对人脸图像帧序列中的每个人脸图像帧,对该人脸图像帧进行多个第二预设尺度的下采样,得到该人脸图像帧对应的多个人脸图像特征图。
60.人脸图像帧对应的多个人脸图像特征图的具体数量m(m为正整数)、以及人脸图像帧对应的多个人脸图像特征图中各人脸图像特征图对应的第二预设尺度,本领域技术人员均可根据实际情况设置,对此不作限定。
61.在一些实施例中,对人脸图像帧进行多个第二预设尺度的下采样,得到该人脸图像帧对应的多个人脸图像特征图可以包括:利用视频合成模型,对人脸图像帧进行s11倍下采样,得到第一个人脸图像特征图;然后在该第一个人脸图像特征图的基础上再次进行s12倍下采样,得到第二个人脸图像特征图;
……
;最后,在第n-1个人脸图像特征图的基础上再次进行s1m倍下采样,得到第m个人脸图像特征图。其中,s11、s12、
……
、s1m可以是任意大于1的整数。
62.在另一些实施例中,对人脸图像帧进行多个第二预设尺度的下采样,得到该人脸图像帧对应的多个人脸图像特征图可以包括:利用视频合成模型,对人脸图像帧进行s21倍下采样,得到第一个人脸图像特征图;对人脸图像帧序列进行s22倍下采样,得到第二个人脸图像特征图;
……
;最后,对人脸图像帧序列进行s2m倍下采样,得到第m个人脸图像特征图。其中,s21、s22、
……
、s2m可以是任意大于1的整数。
63.s240、针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧。
64.音频帧对应的多个融合图像帧的具体得到方式有多种,下面就典型示例进行说明,但并不限于此。
65.在一些实施例中,音频帧对应的多个融合图像帧的具体得到方式可以包括:针对音频帧对应的多个音频特征图和多个人脸图像特征图,将具有相同尺度的音频特征图和人脸图像特征图进行融合处理,得到该音频帧对应的多个融合图像帧。
66.音频帧对应的图像帧的具体得到方式有多种,下面就典型示例进行说明,但并不限于此。
67.在一些实施例中,对多个融合图像帧进行拼接处理,得到音频帧对应的图像帧可以包括:将音频帧对应的多个融合图像帧统一至相同尺度,并将该多个统一至相同尺度的融合图像帧进行融合,从而得到该音频帧对应的图像帧。
68.s250、将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。
69.具体地,针对每个音频帧,将该音频帧和其对应的图像帧合成,得到该音频帧对应的视频帧。如此,可得到音频帧序列对应的视频帧序列,即人物描述该音频帧序列的内容时的讲话视频。
70.本公开实施例中,音频帧序列中每个音频帧对应的图像帧由该音频帧序列中所有音频帧共同决定,即在推理该音频帧对应的图像帧时会充分考虑与该音频帧在时间轴上相
邻或者说临近的音频帧,相比于现有技术中音频帧对应的图像帧由该单个音频帧和单张图像帧共同决定,充分考虑了音频帧与相邻音频帧之间的关联性,能够提高推理出的图像帧的合理性和平滑性,改善抖动的问题。并且,通过获取每个音频帧对应的多个音频特征图和多个人脸图像特征图,并基于多个音频特征图和多个人脸图像特征图生成多个融合图像帧后,对多个融合图像帧进行拼接处理得到该音频帧对应的图像帧,可使推理出的图像帧语义信息更加丰富,纹理和细节更加逼真,有利于提高视频合成质量。
71.在本公开另一种实施方式中,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图包括:针对每个音频帧,基于第一预设尺度修改该音频帧的采样个数、采样位数和/或通道数,得到音频特征图。
72.具体地,采样个数(样本数):就是采样的个数。对于采样频率,采样频率是一秒采样的个数,例如48000hz,每秒采样个数为48000。
73.具体地,采样位数(采样格式):采样频率表示每秒采样的个数,那么采样位数用来描述每个采样点。通常使用16bit(2字节),也就是2的16次方,共有65536个不同的度量值,这样采样位数越高,音频度量化的就越精细,音质同样也就越高。简括采样位数就是,例如1s采样了10个采样点,那么区分这10个采样点,就需要给它一个范围值区分,一般以16bit(2字节)的来保存这个值,所以既然每个采样点占2字节,那么所有采样点的总字节=采样个数
×
其所占字节数。即10
×
2=20。若为双通道采样,那么就是2
×
10
×
2=40。
74.具体地,通道数:就是同时有个几个设备在进行音频的采样,最少为1,一般通道数越多,音质越好。
75.具体地,音频帧的大小(字节)=通道数
×
采样个数
×
采样位数。例如,该若音频帧是fltp格式的pcm数据,则一个音频帧中包含1024个采样个数,并且若是双声道的话,那么该音频帧的大小是2
×
1024
×
4=8192字节。因此,可以通过修改通道数、采样个数、和/或采样位数修改音频帧的大小(音频帧的尺度)。
76.如此,针对每个第一预设尺度,确定该第一预设尺度对应的采样个数、采样位数和通道数,并将音频帧当前的采样个数、采样位数和通道数修改为该第一预设尺度对应的采样个数、采样位数和通道数,得到该第一预设尺度对应的音频特征图,从而得到多个第一预设尺度分别对应的多个音频特征图。
77.可以理解的是,通过基于第一预设尺度修改音频帧的采样个数、采样位数和/或通道数,得到该音频帧对应的多个音频特征图,可使音频特征图的获取方式简单,易于实现。
78.在本公开又一种实施方式中,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像序列中每个人脸图像帧对应的多个人脸图像特征图包括:针对每个人脸图像帧,每间隔第一预设行、第一预设列采集关键点,得到人脸图像特征图,其中,第一预设行和第一预设列与第二预设尺度对应。
79.具体地,可根据如下示例来理解下采样。示例性的,图3示出了本公开实施例提供的一种下采样前的图像的示意图。图4示出了本公开实施例提供的一种下采样后的图像的示意图。其中,图4所示的图像由图3所示的图像进行下采样得到。参见图3和图4,每个圆均表示一个像素点,对于下采样前的图像,可以每间隔1行、1列采集关键点(即图4中的黑色填充圆),形成下采样后的图像。
80.如此,针对每个第二预设尺度,确定该第二预设尺度对应的第一预设行、第一预设
列,并将人脸图像帧,每间隔第一预设行、第一预设列采集关键点,得到人脸图像特征图,从而得到多个第二预设尺度分别对应的多个人脸图像特征图。
81.可以理解的是,通过基于第二预设尺度对人脸图像帧,每间隔第一预设行、第一预设列采集关键点,得到该人脸图像的人脸图像特征图,可使人脸图像特征图的获取方式简单,易于实现。
82.在本公开再一种实施方式中,针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,包括:针对音频帧对应的多个音频特征图中的每个音频特征图,将该音频特征图和与其尺度不同的一音频特征图基于采样和卷积进行融合处理,得到该音频特征图对应的音频融合特征图;针对音频帧对应的多个人脸图像特征图中的每个人脸图像特征图,将该人脸图像特征图和与其尺度不同的一人脸图像特征图基于采样和卷积进行融合处理,得到该音频特征图对应的人脸图像融合特征图;将每个音频帧对应的多个音频融合特征图和多个人脸图像融合特征图中具有相同尺度的音频融合特征图和人脸图像融合特征图进行融合处理,以得到多个融合图像帧。
83.具体地,针对两不同音频特征图,与它们分别进行融合处理的音频特征图可以相同也可以不同,对此不作限定。
84.在一些实施例中,针对某一音频特征图,与该音频特征图进行融合处理的音频特征图的获取方式可以如下:利用视频合成模型,从多个音频特征图中,随机选取出一个与该音频特征图的尺度不同的音频特征图。
85.在另一些实施例中,针对某一音频特征图,与该音频特征图进行融合处理的音频特征图的获取方式可以如下:利用视频合成模型,从多个音频特征图中,选取出与该音频特征图的尺度相差最小的音频特征图。
86.具体地,将音频特征图和与其尺度不同的一音频特征图基于采样和卷积进行融合处理可以包括:为方便描述,将进行融合处理的该两个音频特征图分别称为第一音频特征图和第二音频特征图,且第一音频特征图的尺度小于第二音频特征图的尺度,则融合处理具体为:对第一音频特征图进行卷积运算后再进行上采样,以使经过卷积运算后和上采样后的第一音频特征图的尺度与第二音频特征图的尺度相同,然后,对第二音频特征图进行卷积运算;最后,将经过卷积运算后和上采样后的第一音频特征图与经过卷积运算后第二音频特征图进行卷积运算。其中,如前文所述,对音频特征图进行采样即修改音频特征图采样个数、采样位数和/或通道数。
87.具体地,针对两不同人脸图像特征图,与其分别进行融合处理的人脸图像特征图可以相同也可以不同,对此不作限定。
88.在一些实施例中,针对某一人脸图像特征图,与该人脸图像特征图进行融合处理的人脸图像特征图的获取方式可以如下:利用视频合成模型,从多个人脸图像特征图中,随机选取出一个与该人脸图像特征图的尺度不同的人脸图像特征图。
89.在另一些实施例中,针对某一人脸图像特征图,与该人脸图像特征图进行融合处理的人脸图像特征图的获取方式可以如下:利用视频合成模型,从多个人脸图像特征图中,选取出与该人脸图像特征图的尺度相差最小的人脸图像特征图。
90.具体地,将人脸图像特征图和与其尺度不同的一人脸图像特征图基于采样和卷积
进行融合处理可以包括:为方便描述,将进行融合处理的该两个人脸图像特征图分别称为第一人脸图像特征图和第二人脸图像特征图,且第一人脸图像特征图的尺度小于第二人脸图像特征图的尺度,则融合处理具体为:对第一人脸图像特征图进行卷积运算后再进行上采样,以使经过卷积运算后和上采样后的第一人脸图像特征图的尺度与第二人脸图像特征图的尺度相同,然后,对第二人脸图像特征图进行卷积运算;最后,将经过卷积运算后和上采样后的第一人脸图像特征图与经过卷积运算后第二人脸图像特征图进行卷积运算。其中,如前文所述,对人脸图像特征图进行采样即修改人脸图像特征图采样个数、采样位数和/或通道数。
91.示例性的,图5示出了本公开实施例提供的一种视频合成过程的逻辑示意图。参见图5,视频合成模型520包括第一骨干网络521、第二骨干网络523、第一特征金字塔522和第二特征金字塔524。视频合成过程可以包括:获取音频帧序列511和人脸图像帧序列512。利用第一骨干网络521,对音频帧序列511进行五个第一预设尺度的下采样,得到音频帧序列511中每个音频帧对应的五个音频特征图513;利用第二骨干网络523,对人脸图像帧序列512进行五个第二预设尺度的下采样,得到人脸图像帧序列512中每个人脸图像帧对应的五个人脸图像特征图515,为作图方便,图5中仅示出了其中一个音频帧对应的五个音频特征图513和五个人脸图像特征图515。若从上到下该五个音频特征图513的尺度依次增大,则利用第一特征金字塔522,将从上到下第一个音频特征图513进行卷积运算,得到该音频帧对应的一个音频融合特征图514;将从上到下第一个音频特征图513与从上到下第二个音频特征图513基于采样和卷积进行融合处理,得到该音频帧对应的另一个音频融合特征图514;将从上到下第二个音频特征图513与从上到下第三个音频特征图513基于采样和卷积进行融合处理,得到该音频帧对应的又一个音频融合特征图514;将从上到下第三个音频特征图513与从上到下第四个音频特征图513基于采样和卷积进行融合处理,得到该音频帧对应的再一个音频融合特征图514;将从上到下第四个音频特征图513与从上到下第五个音频特征图513基于采样和卷积进行融合处理,得到该音频帧对应的一个音频融合特征图514,如此,可得到该音频帧对应的五个音频融合特征图514。若从上到下该五个人脸图像特征图513的尺度依次增大,则利用第二特征金字塔524,将从上到下第一个人脸图像特征图513进行卷积运算,得到该音频帧对应的一个人脸图像融合特征图516;将从上到下第一个人脸图像特征图513与从上到下第二个人脸图像特征图513基于采样和卷积进行融合处理,得到该音频帧对应的另一个人脸图像融合特征图516;将从上到下第二个人脸图像特征图513与从上到下第三个人脸图像特征图513基于采样和卷积进行融合处理,得到该音频帧对应的又一个人脸图像融合特征图516;将从上到下第三个人脸图像特征图513与从上到下第四个人脸图像特征图513基于采样和卷积进行融合处理,得到该音频帧对应的再一个人脸图像融合特征图516;将从上到下第四个人脸图像特征图513与从上到下第五个人脸图像特征图513基于采样和卷积进行融合处理,得到该音频帧对应的一个人脸图像融合特征图516,如此,可得到该音频帧对应的五个人脸图像融合特征图516。将具有相同尺度的音频融合特征图514和人脸图像融合特征图516进行融合处理,以得到五个融合图像帧517。
92.可以理解的是,基于多个音频特征图得到多个音频融合特征图,每个音频融合特征图都是与其尺度相差最小的音频融合特征图在语义上的迭代,由于考虑了不同尺度信息的融合,能在一定程度上缓解合成视频纹理失真的情况,对于人脸图像融合特征图同理,如
此,可使最终推理出的图像帧的纹理和细节更加逼真。
93.在本公开再一种实施方式中,对多个融合图像帧进行拼接处理,得到音频帧对应的图像帧,包括:针对多个融合图像帧,重复执行以下操作直至尺寸最大的融合图像帧完成拼接:将多个融合图像帧中尺度最小的融合图像帧进行上采样得到第一融合图像帧,并将第一融合图像帧与多个融合图像帧中尺度次小的融合图像帧进行拼接处理,作为新的尺度最小的融合图像帧。
94.其中,第一融合图像帧的尺度和与其后续进行拼接的融合图像帧的尺度相同。
95.具体地,对融合图像帧进行上采样可以包括:每间隔第二预设行、第二预设列插入关键点,其中,第二预设行、第二预设列由上采样的倍数决定。
96.示例性的,继续参见图5,若从上到下该五个融合图像帧517的尺度依次增大,第一次拼接处理:将从上到下第一个融合图像帧517进行上采样得到第一融合图像帧,将第一融合图像帧与从上到下第二个融合图像帧517进行拼接处理,得到新的尺度最小的融合图像帧;第二次拼接处理:将第一次拼接处理得到的新的尺度最小的融合图像帧进行上采样得到新的第一融合图像帧,将新的第一融合图像帧与从上到下第三个融合图像帧517进行拼接处理,得到新的尺度最小的融合图像帧;第三次拼接处理:将第二次拼接处理得到的新的尺度最小的融合图像帧进行上采样得到新的第一融合图像帧,将新的第一融合图像帧与从上到下第四个融合图像帧517进行拼接处理,得到新的尺度最小的融合图像帧;第四次拼接处理:将第三次拼接处理得到的新的尺度最小的融合图像帧进行上采样得到新的第一融合图像帧,将新的第一融合图像帧与从上到下第五个融合图像帧517进行拼接处理,得到音频帧对应的图像帧518。
97.可以理解的是,通过设置逐级将多个融合图像帧中尺度最小的融合图像帧与相邻尺度的融合图像帧进行融合,直至将所有融合图像帧完成融合,使得两融合图像帧进行融合时,尺度小的融合特征图需要上采样的倍数较小,如此,可减少上采样造成的信息损失。并且,将尺度最小的融合图像帧与相邻尺度的融合图像帧进行融合可获得更深层的语义信息,在此基础上再继续上采样,可进一步减少上采样造成的信息损失,从而使得最终推理出的图像帧更合理。并且,在对多个融合图像帧进行拼接处理过程中可进行多次卷积操作,使得语义信息更加丰富。
98.图6示出了本公开实施例提供的一种对视频合成模型进行训练的流程示意图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图6所示,本公开实施例提供的对视频合成模型进行训练可以包括如下步骤。
99.s610、获取样本视频。
100.在本公开实施例中,对视频合成模型进行训练的执行主体(例如图1中服务器102),可以获取样本视频,以对生成对抗网络模型进行训练,从而将训练好的生成对抗网络模型中的生成模型作为视频合成模型。
101.具体地,这里所述的样本视频可以为任意人员发出音频时的视频。例如,样本视频可以由高清摄像机拍摄人员讲话并同步录制语音数据得到,但并不限于此。
102.s620、从样本视频中抽取出样本音频帧序列和样本人脸图像帧序列。
103.具体地,对样本视频进行音频提取可以得到样本音频,音频提取的具体方式可以包括通过ffmpeg等工具进行音频提取,但并不限于此。然后,可以直接从样本音频中抽取出
多个连续的样本音频帧,得到样本音频帧序列,也可以对样本音频进行采样,再对采样后的样本音频抽取出多个连续的样本音频帧得到样本音频帧序列,对此不作限定。
104.具体地,从样本视频中抽取出样本音频帧对应的样本人脸图像帧,得到样本人脸图像帧序列。其中,样本人脸图像帧是人员发出样本音频帧序列指示的音频时的图像,且相互对应的样本音频帧和样本人脸图像帧在时间上对齐,即对应于时间轴上的同一时刻。
105.需要说明的是,样本音频帧序列中所包括的样本音频帧的数量、以及样本人脸图像帧序列中所包括的样本人脸图像帧的数量,本领域技术人员均可根据实际需求设置,对此不作限制。可选地,样本音频帧序列中样本音频帧的数量与视频合成模型所部署至的设备的硬件性能正相关。
106.示例性的,将样本视频进行音频提取后得到样本音频,将样本音频按照每秒25帧完成采样,对采样后的样本音频抽取出3个连续的样本音频帧,得到样本音频帧序列,并将样本视频中的图像按照每秒25帧完成采样,得到一序列样本人脸图像,从该一序列样本人脸图像中抽取出3个连续的样本人脸图像帧,得到样本人脸图像帧序列。如此,样本音频帧序列和样本人脸图像帧序列在时间上对齐,有利于保证后续对生成对抗网络模型进行训练阶段数据的正确性和模型的有效收敛。
107.可选地,该方法还可以包括:在样本音频为人员发出的语音对应的音频时,对样本音频帧序列进行预加重处理。
108.具体地,样本音频帧序列以波形的形式存储,预加重即将波形转化为频谱,对高频部分进行加重。
109.可以理解的是,对于人员发出的语音对应的音频,与低频相比,高频通常具有较小的幅度,而经由机器生成的音频,高频和低频对应的幅值相差较小,因此,在样本音频为人员发出的语音对应的音频时,对样本音频帧序列进行预加重处理,可以提升高频的幅度,使得样本音频帧序列的频谱变得平坦,更贴近经由机器生成的音频对应的音频帧序列,如此,训练得到的视频合成模型能够更好地推理经由机器生成的音频的音频帧对应的图像帧。
110.可选地,样本音频帧序列中相邻两个样本音频帧具有交叠。如此,可使样本音频中的样本音频帧更平稳。
111.其中,这里所述的具有交叠指的是,相邻两样本音频帧中的一个样本音频帧对应人员在t01至t02之间讲话的音频,另一个样本音频帧对应人员在t03至t04之间讲话的音频,t03位于t01和t02之间。
112.同理,音频帧序列中相邻两音频帧也可以具有交叠,此处不再赘述。
113.s630、将样本音频帧序列和第一样本人脸图像帧序列输入生成模型,得到第二样本人脸图像帧序列,其中,第一样本人脸图像帧序列是通过对样本人脸图像帧序列进行预处理得到的,样本音频帧序列、第一样本人脸图像帧序列和第二样本人脸图像帧序列在时间上对齐。
114.具体地,第一样本人脸图像帧序列包括多个第一样本人脸图像帧,第一样本人脸图像帧序列中所包含的第一样本人脸图像帧的数量与样本音频帧序列中所包含的样本音频帧的数量相同且一一对应,相互对应的样本音频帧和第一样本人脸图像帧在时间上对齐,即对应于时间轴上的同一时刻。
115.第一样本人脸图像帧序列的获取方式有多种,下面将就典型示例进行说明,但并
不构成对本公开的限定。
116.在一些实施例中,对样本人脸图像帧序列中的每个样本人脸图像帧进行预处理,得到第一样本人脸图像帧序列。
117.具体地,对样本人脸图像帧进行预处理可以包括:截取样本人脸图像帧中的脸部区域,然后对截取得到的脸部区域进行重采样,以使重采样后的脸部区域满足生成模型对图像的尺度要求,最后,从重采样后的脸部区域上去除嘴部区域,得到第一样本人脸图像帧。
118.可选地,从重采样后的脸部区域上去除嘴部区域之后还可以包括再旋转预设角度,以得到第一样本人脸图像帧。如此,可扩充样本,采用扩充的样本训练生成对抗网络模型,有利于提高最终得到的视频合成模型的可信度。
119.在另一些实施例中,从样本人脸图像帧序列中随机选取一个样本人脸图像帧,并对该样本人脸图像帧进行预处理;将预处理后的样本人脸图像帧复制多个,得到第一样本人脸图像帧序列。
120.具体地,将样本音频帧序列和第一样本人脸图像帧序列输入生成模型后,生成模型对样本音频帧序列和第一样本人脸图像帧序列的处理与视频合成模型对应音频帧序列和人脸图像帧序列的处理类似,此处不再赘述,可参见前文理解。
121.具体地,第二样本人脸图像帧序列包括多个第二样本人脸图像帧,第二样本人脸图像帧是生成模型推理出的图像。样本音频帧序列中样本音频帧、第一样本人脸图像帧序列中的第一样本人脸图像帧、和第二样本人脸图像帧序列中的第二样本人脸图像帧的数量相同且一一对应,相互对应的样本音频帧、第一样本人脸图像帧、和第二样本人脸图像帧在时间上对齐,即对应于时间轴上的同一时刻。
122.s640、利用对抗模型,确定样本人脸图像帧序列与第二样本人脸图像帧序列的差异,其中,差异包括样本人脸图像帧序列和第二样本人脸图像帧序列分别在多个第三预设尺度下的差异。
123.具体地,多个第三预设尺度的具体值本领域技术人员可根据实际情况设置,此处不作限定。
124.具体地,对抗模型中可以包括多个鉴别器,样本人脸图像帧序列和第二样本人脸图像帧序列在不同第三预设尺度下的差异由不同的鉴别器鉴别得到。
125.具体地,对样本人脸图像帧序列和第二样本人脸图像帧序列采用对应的鉴别器比较;对样本人脸图像帧序列和第二样本人脸图像帧序列分别进行多个第三预设尺度的下采样;将下采样后尺度相同的样本人脸图像帧序列和第二样本人脸图像帧序列采用对应的鉴别器比较。如此,可得到样本人脸图像帧序列和第二样本人脸图像帧序列分别在多个第三预设尺度下的差异。
126.示例性的,将样本人脸图像帧序列和第二样本人脸图像帧序列通过1倍对应的鉴别器进行比较,得到1倍对应的差异;对样本人脸图像帧序列和第二样本人脸图像帧序列分别进行2倍、4倍、8倍下采样,将2倍下采样后的样本人脸图像帧序列和2倍下采样后的第二样本人脸图像帧序列通过2倍下采样对应的鉴别器进行比较,得到2倍下采样对应的差异;将4倍下采样后的样本人脸图像帧序列和4倍下采样后的第二样本人脸图像帧序列通过4倍下采样对应的鉴别器进行比较,得到4倍下采样对应的差异;将8倍下采样后的样本人脸图
像帧序列和8倍下采样后的第二样本人脸图像帧序列通过8倍下采样对应的鉴别器进行比较,得到8倍下采样对应的差异。
127.可以理解的是,样本人脸图像帧序列和第二样本人脸图像帧序列的尺度较大,直接对它们进行比较时,进行的是一些更广义的信息(例如轮廓、颜色等)的对比,而将不同第三预设尺度下的样本人脸图像帧序列和第二样本人脸图像帧序列进行比较时,不仅可以对广义的信息进行对比,还可以对细节上的信息进行对比,如此,可使训练得到的视频合成模型推理出的图像帧在广义语义信息和布局细节信息上都有具有极大保真性。
128.s650、基于差异对生成模型和对抗模型进行参数调整,直至样本人脸图像帧序列与第二样本人脸图像帧序列的差异小于预设阈值。
129.具体地,预设阈值的具体值本领域技术人员可根据实际情况设置,此处不作限定。
130.具体地,当样本人脸图像帧序列与第二样本人脸图像帧序列的差异小于预设阈值时,对生成对抗网络模型训练完成,此时,生成对抗网络模型中的生成模型即可作为视频合成模型。
131.本公开实施例中,相较于现有技术中基于单个音频帧和单个图像帧进行推理的方法,本公开实施例可以基于样本音频帧序列和第一样本人脸图像帧序列训练端到端生成对抗网络模型,端到端的训练能够建立不同模态之间的隐式关系,并且增强模型的表达能力和快速学习能力,并且,在推理样本音频帧序列中样本音频帧对应的第二样本人脸图像帧时会充分考虑与该样本音频帧在时间轴上相邻或者说临近的音频帧,能够提高推理出的第二样本人脸图像帧的合理性和平滑性,改善抖动的问题,有利于保证合成视频的稳定性,并且,可使推理出的第二样本人脸图像帧语义信息更加丰富,纹理和细节更加逼真,有利于提高视频合成质量。
132.在本公开再一种实施方式中,音频帧序列中音频帧的数量与视频合成模型所部署至的设备的硬件性能正相关。
133.具体地,设备的硬件性能可以由设备中各硬件的性能参数标识、也可以由设备跑分标识,但并不限于此。
134.在一些实施例中,可以基于设备的硬件性能确定设备的类型,其中,设备的类型包括低端设备、中端设备和高端设备;基于关联关系对照表确定音频帧序列中音频帧的数量、以及人脸图像帧序列中人脸图像帧的数量,其中,关联关系对照表为类型、音频帧序列中音频帧的数量、和人脸图像帧序列中人脸图像帧的数量三者之间的关联关系。
135.可选地,关联关系对照表还可以标识硬件性能与生成对抗网络模型的大小之间的关联关系,此时,还可以基于关联关系对照表确定生成对抗网络模型的大小。
136.示例性的,对于高端设备比如图形处理器(graphics processing unit,gpu),可编程阵列逻辑(field programmable gate array,fpga),音频帧序列中音频帧的数量、以及人脸图像帧序列中人脸图像帧的数量可以为8,并且,使用具有较大的骨干网络的生成对抗网络模型,充分利用硬件的优势,以推理出高清的图像帧,从而实现快速推理的同时具有高精度。对于低端设备比如中央处理器(central processing unit,cpu),移动设备等,音频帧序列中音频帧的数量、以及人脸图像帧序列中人脸图像帧的数量可以为3,并且使用具有较小的骨干网络的生成对抗网络模型,以实现快速推理,有利于实现实时推理。
137.在另一些实施例中,可以基于关联关系曲线,确定设备的硬件性能对应的音频帧
序列中音频帧的数量以及人脸图像帧序列中人脸图像帧的数量,其中,关联关系曲线用于标识硬件性能、音频帧的数量、以及人脸图像帧的数量三者之间的关联关系。可选地,关联关系曲线还可以标识硬件性能与生成对抗网络模型的大小之间的关联关系,此时,还可以基于关联关系曲线确定生成对抗网络模型的大小。
138.可以理解的是,通过设置音频帧序列中音频帧的数量与视频合成模型所部署至的设备的硬件性能正相关,可降低推理延迟。并且,通过设置生成对抗网络模型的大小与所部署至的设备的硬件性能正相关,可使视频合成模型与所要部署至的设备的硬件性能相匹配,对于硬件性能较差的设备可以匹配较小的视频合成模型,降低推理延迟,对于硬件性能较好的设备可以匹配较大的视频合成模型,可确保推理速度并提高推理精度。
139.图7示出了本公开实施例提供的一种视频合成装置的结构示意图。
140.如图7所示,视频合成装置700可以包括:
141.获取模块710,用于获取音频帧序列和人脸图像帧序列,其中,音频帧序列与人脸图像帧序列在时间上对齐;
142.第一下采样模块720,用于利用视频合成模型,对音频帧序列进行多个第一预设尺度的下采样,得到音频帧序列中每个音频帧对应的多个音频特征图;
143.第二下采样模块730,用于利用视频合成模型,对人脸图像帧序列进行多个第二预设尺度的下采样,得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图;
144.拼接模块740,用于针对每个音频帧,利用视频合成模型,基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图,得到该音频帧对应的多个融合图像帧,并对多个融合图像帧进行拼接处理,得到该音频帧对应的图像帧;
145.合成模块750,用于将每个音频帧和与其对应的图像帧合成,得到音频帧序列对应的视频帧序列。
146.在本公开另一种实施方式中,第一下采样模块720包括:
147.第一下采样子模块,用于针对每个音频帧,基于第一预设尺度修改该音频帧的采样个数、采样位数和/或通道数,得到音频特征图。
148.在本公开又一种实施方式中,第二下采样模块730包括:
149.第二下采样子模块,用于针对每个人脸图像帧,每间隔第一预设行、第一预设列采集关键点,得到人脸图像特征图,其中,第一预设行和第一预设列与第二预设尺度对应。
150.在本公开再一种实施方式中,拼接模块740包括:
151.第一融合子模块,用于针对音频帧对应的多个音频特征图中的每个音频特征图,将该音频特征图和与其尺度不同的一音频特征图基于采样和卷积进行融合处理,得到该音频特征图对应的音频融合特征图;
152.第二融合子模块,用于针对音频帧对应的多个人脸图像特征图中的每个人脸图像特征图,将该人脸图像特征图和与其尺度不同的一人脸图像特征图基于采样和卷积进行融合处理,得到该音频特征图对应的人脸图像融合特征图;
153.第三融合子模块,用于将每个音频帧对应的多个音频融合特征图和多个人脸图像融合特征图中具有相同尺度的音频融合特征图和人脸图像融合特征图进行融合处理,以得到多个融合图像帧。
154.在本公开再一种实施方式中,拼接模块740包括:
155.拼接子模块,用于针对多个融合图像帧,重复执行以下操作直至尺寸最大的融合图像帧完成拼接:将多个融合图像帧中尺度最小的融合图像帧进行上采样得到第一融合图像帧,并将第一融合图像帧与多个融合图像帧中尺度次小的融合图像帧进行拼接处理,作为新的尺度最小的融合图像帧。
156.在本公开再一种实施方式中,该装置还可以包括:
157.训练模块,用于训练视频合成模型,训练模块可以包括:
158.获取子模块,用于获取样本视频;
159.抽取子模块,用于从样本视频中抽取出样本音频帧序列和样本人脸图像帧序列;
160.输入子模块,用于将样本音频帧序列和第一样本人脸图像帧序列输入生成模型,得到第二样本人脸图像帧序列,其中,第一样本人脸图像帧序列是通过对样本人脸图像帧序列进行预处理得到的,样本音频帧序列、第一样本人脸图像帧序列和第二样本人脸图像帧序列在时间上对齐;
161.确定子模块,用于利用对抗模型,确定样本人脸图像帧序列与第二样本人脸图像帧序列的差异,其中,差异包括样本人脸图像帧序列和第二样本人脸图像帧序列分别在多个第三预设尺度下的差异;
162.调整子模块,用于基于差异对生成模型和对抗模型进行参数调整,直至样本人脸图像帧序列与第二样本人脸图像帧序列的差异小于预设阈值。
163.在本公开再一种实施方式中,音频帧序列中音频帧的数量与视频合成模型所部署至的设备的硬件性能正相关。
164.本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
165.本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序,计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。
166.本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
167.参考图8,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
168.如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
169.电子设备800中的多个部件连接至i/o接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
170.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,视频合成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行视频合成方法。
171.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
172.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
173.如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
174.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
175.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
176.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
177.以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1