一种视频生成方法、装置、电子设备及存储介质与流程

文档序号:32060941发布日期:2022-11-04 23:08阅读:28来源:国知局
一种视频生成方法、装置、电子设备及存储介质与流程

1.本发明涉及互联网技术领域,特别是涉及一种视频生成方法、装置、电子设备及存储介质。


背景技术:

2.随着互联网技术的快速发展,用户能够获取的资源也越来越多,例如,用户可以在客户端中浏览视频(例如,短视频)。短视频是指时长较短(例如,2分钟)的视频,用户在制作短视频时,可以对拍摄的短视频进行剪辑、添加特效,以及添加文本等编辑操作,进而将编辑后的短视频上传至客户端,以供其他用户浏览。
3.相关技术中,用户可以选取一段音乐作为需要拍摄的短视频的背景音乐,在拍摄短视频的过程中,人物根据背景音乐的节拍变化,多次调整自身的表情,以使得拍摄的短视频中人物的表情变化与背景音乐的节拍变化同步。
4.可见,上述过程中,需要人物多次调整自身的表情以配合背景音乐的节拍变化,用户操作繁琐,会降低视频的生成效率。


技术实现要素:

5.本发明实施例的目的在于提供一种视频生成方法、装置、电子设备及存储介质,以提高视频的生成效率。具体技术方案如下:
6.在本发明实施的第一方面,首先提供了一种视频生成方法,所述方法包括:
7.将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;
8.基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量;其中,所述表情特征向量中的元素与所述待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中所述目标对象的表情特征;所述表情特征向量表示:所述待处理视频中所述目标对象的表情特征随时间变化的幅度;
9.针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;其中,所述目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;所述目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;所述节拍点预测模型为基于样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;
10.计算所述表情特征向量与所述目标节拍特征向量的相似度,作为所述待处理视频与该待处理音频的匹配度;
11.对所述待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;
其中,所述目标音频与所述待处理视频的匹配度最大。
12.可选的,所述目标面部特征包括所述目标对象的面部中至少一个器官的器官状态;
13.所述基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量,包括:
14.针对每一目标视频帧,获取表示该目标视频帧中所述目标对象的面部中至少一个器官的器官状态的器官状态值;基于获取到的器官状态值,确定该目标视频帧对应的表情特征值;基于各目标视频帧各自对应的表情特征值,生成所述待处理视频的表情特征向量;其中,所述表情特征向量中除所述目标视频帧外的其他视频帧对应的表情特征值为预设数值。
15.可选的,所述基于获取到的器官状态值,确定该目标视频帧对应的表情特征值,包括:
16.在所述器官状态值为多个的情况下,计算各器官状态值的加权和,作为该目标视频帧对应的表情特征值。
17.可选的,在所述针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量之前,所述方法还包括:
18.针对每一目标视频帧,在预设的器官状态与情绪标签的对应关系中,确定该目标视频帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签,作为该目标视频帧对应的情绪标签;基于各目标视频帧各自对应的情绪标签,确定所述待处理视频的情绪标签;针对每一预设音频,计算该预设音频的情绪标签和所述待处理视频的情绪标签的相似度;基于各预设音频确定待处理音频,其中,所述待处理音频的情绪标签与所述待处理视频的情绪标签的相似度大于相似度阈值。
19.可选的,所述基于各预设音频确定待处理音频,包括:
20.从各预设音频中,确定对应的情绪标签与所述待处理视频的情绪标签的相似度大于所述相似度阈值的预设音频,作为备选音频;针对每一备选音频,如果该备选音频的时长与所述待处理视频的时长相同,确定该备选音频为待处理音频;如果该备选音频的时长大于所述待处理视频的时长,从该备选音频中提取与所述待处理视频的时长相同的音频片段,得到待处理音频。
21.可选的,在所述将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征之前,所述方法还包括:
22.对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧,作为目标视频帧;
23.或者,
24.对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧;对所述待处理视频中包含所述目标对象的面部图像的视频帧进行采样,得到目标视频帧。
25.可选的,所述面部识别模型的训练过程包括:
26.获取包含所述样本对象的面部图像的样本视频帧,以及表示所述样本视频帧中所述样本对象的面部特征的特征标签;将所述样本视频帧输入至初始结构的面部识别模型,得到所述样本视频帧中所述样本对象的面部特征,作为预测面部特征;计算表示所述特征标签与所述预测面部特征的差异的第一损失函数值;基于所述第一损失函数值对所述初始结构的面部识别模型的模型参数进行调整,直至达到第一预设收敛条件,得到训练好的面部识别模型。
27.可选的,所述节拍点预测模型的训练过程包括:
28.获取样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签;基于初始结构的节拍点预测模型对所述样本音频进行处理,得到包含所述样本音频中的各音频帧是否为节拍点的概率的预测节拍标签;计算表示所述样本节拍标签与所述预测节拍标签的差异的第二损失函数值;基于所述第二损失函数值对所述初始结构的节拍点预测模型的模型参数进行调整,直至达到第二预设收敛条件,得到训练好的节拍点预测模型。
29.在本发明实施的第二方面,还提供了一种视频生成装置,所述装置包括:
30.面部特征预测模块,用于将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;
31.表情特征向量确定模块,用于基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量;其中,所述表情特征向量中的元素与所述待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中所述目标对象的表情特征;所述表情特征向量表示:所述待处理视频中所述目标对象的表情特征随时间变化的幅度;
32.目标节拍特征向量预测模块,用于针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;其中,所述目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;所述目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;所述节拍点预测模型为基于样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;
33.匹配度计算模块,用于计算所述表情特征向量与所述目标节拍特征向量的相似度,作为所述待处理视频与该待处理音频的匹配度;
34.视频生成模块,用于对所述待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;其中,所述目标音频与所述待处理视频的匹配度最大。
35.可选的,所述目标面部特征包括所述目标对象的面部中至少一个器官的器官状态;
36.所述表情特征向量确定模块,具体用于针对每一目标视频帧,获取表示该目标视频帧中所述目标对象的面部中至少一个器官的器官状态的器官状态值;基于获取到的器官状态值,确定该目标视频帧对应的表情特征值;基于各目标视频帧各自对应的表情特征值,生成所述待处理视频的表情特征向量;其中,所述表情特征向量中除所述目标视频帧外的其他视频帧对应的表情特征值为预设数值。
37.可选的,所述表情特征向量确定模块,具体用于在所述器官状态值为多个的情况
下,计算各器官状态值的加权和,作为该目标视频帧对应的表情特征值。
38.可选的,所述装置还包括:
39.第一情绪标签确定模块,用于在所述目标节拍特征向量预测模块执行针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量之前,执行针对每一目标视频帧,在预设的器官状态与情绪标签的对应关系中,确定该目标视频帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签,作为该目标视频帧对应的情绪标签;
40.第二情绪标签确定模块,用于基于各目标视频帧各自对应的情绪标签,确定所述待处理视频的情绪标签;
41.相似度计算模块,用于针对每一预设音频,计算该预设音频的情绪标签和所述待处理视频的情绪标签的相似度;
42.待处理音频确定模块,用于基于各预设音频确定待处理音频,其中,所述待处理音频的情绪标签与所述待处理视频的情绪标签的相似度大于相似度阈值。
43.可选的,所述待处理音频确定模块,具体用于从各预设音频中,确定对应的情绪标签与所述待处理视频的情绪标签的相似度大于所述相似度阈值的预设音频,作为备选音频;针对每一备选音频,如果该备选音频的时长与所述待处理视频的时长相同,确定该备选音频为待处理音频;如果该备选音频的时长大于所述待处理视频的时长,从该备选音频中提取与所述待处理视频的时长相同的音频片段,得到待处理音频。
44.可选的,所述装置还包括:
45.目标视频帧确定模块,用于在所述面部特征预测模块执行将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征之前,执行对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧,作为目标视频帧;
46.或者,
47.对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧;对所述待处理视频中包含所述目标对象的面部图像的视频帧进行采样,得到目标视频帧。
48.可选的,所述装置还包括:
49.第一训练模块,用于获取包含所述样本对象的面部图像的样本视频帧,以及表示所述样本视频帧中所述样本对象的面部特征的特征标签;将所述样本视频帧输入至初始结构的面部识别模型,得到所述样本视频帧中所述样本对象的面部特征,作为预测面部特征;计算表示所述特征标签与所述预测面部特征的差异的第一损失函数值;基于所述第一损失函数值对所述初始结构的面部识别模型的模型参数进行调整,直至达到第一预设收敛条件,得到训练好的面部识别模型。
50.可选的,所述装置还包括:
51.第二训练模块,用于获取样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签;基于初始结构的节拍点预测模型对所述样本音频进行处理,得到包含所述样本音频中的各音频帧是否为节拍点的概率的预测节拍标签;计算表示所述样本节拍标签与所述预测节拍标签的差异的第二损失函数值;基于所述第二损失函数值对所述
初始结构的节拍点预测模型的模型参数进行调整,直至达到第二预设收敛条件,得到训练好的节拍点预测模型。
52.在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
53.存储器,用于存放计算机程序;
54.处理器,用于执行存储器上所存放的程序时,实现上述任一所述的视频生成方法步骤。
55.在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的视频生成方法。
56.在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的视频生成方法。
57.本发明实施例提供的一种视频生成方法,将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中目标对象的面部特征,作为目标面部特征;面部识别模型为基于样本视频帧,以及表示样本视频帧中样本对象的面部特征的特征标签进行训练得到的;基于各目标视频帧中的目标面部特征,确定待处理视频的表情特征向量;表情特征向量中的元素与待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中目标对象的表情特征;表情特征向量表示:待处理视频中目标对象的表情特征随时间变化的幅度;针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;节拍点预测模型为基于样本音频,以及表示样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;计算表情特征向量与目标节拍特征向量的相似度,作为待处理视频与该待处理音频的匹配度;对待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;目标音频与待处理视频的匹配度最大。
58.基于上述处理,待处理视频的表情特征向量可以表示待处理视频中目标对象的表情特征随时间变化的幅度,待处理音频的目标节拍特征向量表示待处理音频的节拍点随时间变化的幅度。相应的,表情特征向量与目标节拍特征向量的相似度则可以表示:目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度的相似度。目标音频与待处理视频的匹配度最大,则目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度较为相似。进而,生成的目标视频中目标对象的表情变化与目标音频的节拍变化同步,即,不需要目标对象多次调整自身的表情以配合音频的节拍变化,进而可以提高视频的生成效率。
附图说明
59.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
60.图1为本发明实施例中提供的一种视频生成方法的流程图;
61.图2为本发明实施例中提供的一种面部识别模型训练方法的流程图;
62.图3为本发明实施例中提供的另一种视频生成方法的流程图;
63.图4为本发明实施例中提供的一种节拍点预测模型训练方法的流程图;
64.图5为本发明实施例中提供的另一种视频生成方法的流程图;
65.图6为本发明实施例中提供的另一种视频生成方法的流程图;
66.图7为本发明实施例中提供的另一种视频生成方法的流程图
67.图8为本发明实施例中提供的一种视频生成装置的结构图;
68.图9为本发明实施例中提供的一种电子设备的结构图。
具体实施方式
69.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
70.参见图1,图1为本发明实施例提供的一种视频生成方法的流程图,该方法可以包括以下步骤:
71.s101:将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中目标对象的面部特征,作为目标面部特征。
72.其中,面部识别模型为基于样本视频帧,以及表示样本视频帧中样本对象的面部特征的特征标签进行训练得到的。
73.s102:基于各目标视频帧中的目标面部特征,确定待处理视频的表情特征向量。
74.其中,表情特征向量中的元素与待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中目标对象的表情特征;表情特征向量表示:待处理视频中目标对象的表情特征随时间变化的幅度。
75.s103:针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量。
76.其中,目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;节拍点预测模型为基于样本音频,以及表示样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的。
77.s104:计算表情特征向量与目标节拍特征向量的相似度,作为待处理视频与该待处理音频的匹配度。
78.s105:对待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频。
79.其中,目标音频与待处理视频的匹配度最大。
80.基于本发明实施例提供的视频生成方法,待处理视频的表情特征向量可以表示待处理视频中目标对象的表情特征随时间变化的幅度,待处理音频的目标节拍特征向量表示待处理音频的节拍点随时间变化的幅度。相应的,表情特征向量与目标节拍特征向量的相似度则可以表示:目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度的相似度。目标音频与待处理视频的匹配度最大,则目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度较为相似。进而,生成的目标视频中目标对象的表情变化与目标音频的节拍变化同步,即,不需要目标对象多次调整自身的表情以配合音频的节拍变化,进而可以提高视频的生成效率。
81.针对步骤s101,待处理视频可以为当前需要添加音频的视频。例如,可以在待处理视频中添加仅包含伴奏声的音频(例如,纯音乐)。或者也可以在待处理视频添加包含人声和伴奏声的音频(例如,歌曲)等。
82.目标对象可以为人物、动物等。目标对象的面部特征表示目标对象的面部中至少一个器官的器官状态。例如,嘴巴张开、眼睛闭合等。
83.一种实现方式中,针对待处理视频中的每一视频帧,电子设备可以将该视频帧输入至预先训练的面部识别模型,得到该视频帧中目标对象的面部特征为预设的各器官状态的概率。进而,电子设备可以从预设的各器官状态中,确定对应的概率大于概率阈值的器官状态,作为该视频帧中目标对象的面部特征。
84.另一种实现方式中,待处理视频包含的各视频帧中,可能存在不包含目标对象的面部图像的视频帧,则不需要确定此类视频帧中目标对象的面部特征。相应的,在步骤s101之前,电子设备可以按照以下方式确定待处理视频中包含目标对象的面部图像的目标视频帧。
85.方式1,
86.对待处理视频中的各视频帧进行目标检测,得到包含目标对象的面部图像的视频帧,作为目标视频帧;
87.针对待处理视频的每一视频帧,电子设备可以对该视频帧进行目标检测,以确定该视频帧中是否包含目标对象的面部图像。如果该视频帧中包含目标对象的面部图像,则电子设备确定该视频帧为目标视频帧。
88.基于上述处理,电子设备可以确定待处理视频中包含目标对象的面部图像的目标视频帧,则后续只需要确定目标视频帧中目标对象的面部特征,可以减少计算量,进一步提高视频生成效率。并且,将待处理视频中包含目标对象的面部图像的每一视频帧确定为目标视频帧,后续,则确定待处理视频中所有包含目标对象的面部图像的目标视频帧中目标对象的面部特征,也就可以基于待处理视频中所有包含目标对象的面部图像的目标视频帧中的目标面部特征,确定待处理视频的表情特征向量,确定出的表情特征向量能够准确的表示待处理视频中目标对象的表情特征随时间变化的幅度,即,可以提高确定出的表情特征向量准确性。
89.方式2,
90.对待处理视频中的各视频帧进行目标检测,得到包含目标对象的面部图像的视频帧;对待处理视频中包含目标对象的面部图像的视频帧进行采样,得到目标视频帧。
91.电子设备可以待处理视频包含的各视频帧进行目标检测,以确定待处理视频中包含目标对象的面部图像的视频帧(可以称为备选视频帧),进而,按照预设的采样间隔,对确定出的备选视频帧进行采样,将采样结果作为目标视频帧。
92.例如,待处理视频中包含目标对象的面部图像的备选视频帧共20帧,电子设备可以在每相邻的两帧备选视频帧中选取一个视频帧,可以得到10帧目标视频帧。
93.基于上述处理,相邻的备选视频帧中目标对象的面部特征可能相同,也就是上一个备选视频帧至下一个备选视频帧中目标对象的面部特征未发生变化,则电子设备可以从备选视频帧中选取目标视频帧,则后续只需要确定目标视频帧中目标对象的面部特征,可以减少计算量,进一步提高视频生成效率。
94.针对每一目标视频帧,电子设备可以将该目标视频帧输入至预先训练的面部识别模型,得到该目标视频帧中目标对象的面部特征为预设的各器官状态的概率。进而,电子设备可以从各预设器官状态中,确定对应的概率大于概率阈值的器官状态,得到该目标视频帧中目标对象的面部特征,作为目标面部特征。概率阈值可以由技术人员根据经验设置,例如,概率阈值可以为0.6,或者概率阈值也可以为0.7,但并不限于此。
95.面部的多个器官可以包括:鼻子、嘴巴、眼睛、眉毛、耳朵和脸颊等。预设的各器官状态可以包括:嘴巴张开为圆形、嘴巴张开为椭圆形、闭眼、瞪眼、挑眉、皱眉等自定义器官状态。
96.或者,预设的各器官状态也可以包括:facs(facial action coding system,脸部活动编码系统)中包含的多个表示人脸器官运动状态的au(action unit,人脸活动单元)。例如,au1表示眉毛前段向下运动,au2表示眉毛后段向上运动,au4表示眉毛压低并向鼻根聚拢,au5表示下眼睑抬起,且上眼睑向上拉向眼窝。
97.面部识别模型可以为cnn(convolutional neural networks,卷积神经网络)模型,或者也可以为vgg16(visual geometry group network-16,视觉几何群网络-16)模型。
98.另外,电子设备还可以对初始结构的面部识别模型的进行训练,得到训练好的面部识别模型。相应的,参见图2,图2为本发明实施例提供的一种面部识别模型训练方法的流程图,该方法可以包括以下步骤:
99.s201:获取包含样本对象的面部图像的样本视频帧,以及表示样本视频帧中样本对象的面部特征的特征标签。
100.s202:将样本视频帧输入至初始结构的面部识别模型,得到样本视频帧中样本对象的面部特征,作为预测面部特征。
101.s203:计算表示特征标签与预测面部特征的差异的第一损失函数值。
102.s204:基于第一损失函数值对初始结构的面部识别模型的模型参数进行调整,直至达到第一预设收敛条件,得到训练好的面部识别模型。
103.样本对象与目标对象属于同一类型,例如,目标对象为人物,则样本对象也为人物;或者,目标对象为动物,则样本对象也为动物。
104.电子设备可以获取包含样本对象的面部图像的样本视频帧,以及表示样本视频帧中样本对象的面部特征的特征标签。例如,预设的各器官状态包括:器官状态1、器官状态2和器官状态3,样本视频帧中样本对象的面部特征包括:器官状态1和器官状态3,则表示样本视频帧中样本对象的面部特征的特征标签为[1,0,1]。
[0105]
电子设备还可以将样本视频帧输入至初始结构的面部识别模型,得到样本视频帧中样本对象的预测面部特征,预测面部特征为:样本视频帧中样本对象的面部特征为预设的各器官状态的概率。例如,预设的各器官状态包括:器官状态1、器官状态2和器官状态3,样本视频帧中样本对象的面部特征为预设的各器官状态的概率为:[0.5,0.3,0.8]。
[0106]
进而,电子设备可以计算表示样本视频帧的特征标签与预测面部特征的差异的第一损失函数值,并基于第一损失函数值对初始结构的面部识别模型的模型参数进行调整,直至达到第一预设收敛条件,得到训练好的面部识别模型。
[0107]
第一预设收敛条件可以为训练次数达到预设次数,或者,第一预设收敛条件也可以为连续预设数目次计算得到的损失函数值均小于预设损失阈值。
[0108]
针对步骤s102,待处理视频的表情特征向量中的元素与待处理视频中的各视频帧一一对应,一个元素表示对应的视频帧中目标对象的表情特征。
[0109]
针对每一目标视频帧,该目标视频帧中目标对象的目标面部特征包括目标对象的面部中至少一个器官的器官状态,不同的器官状态可以用不同的器官状态值表示。电子设备可以根据表示目标视频帧中目标对象的面部中至少一个器官的器官状态的器官状态值,确定待处理视频的表情特征向量。
[0110]
针对每一器官状态,该器官状态的器官状态值可以表示该器官状态的夸张程度。例如,嘴巴张开为圆形的器官状态值为1,表示嘴巴张开为圆形的夸张程度较大,嘴巴张开为椭圆形的器官状态值为0.6,表示嘴巴张开为椭圆形的夸张程度较小,瞪眼的器官状态值为0.9,表示瞪眼的夸张程度也较大,闭眼的器官状态值为0.4,表示闭眼的夸张程度较小。
[0111]
在一些实施例中,目标面部特征包括目标对象的面部中至少一个器官的器官状态,相应的,在图1的基础上,参见图3,步骤s102可以包括以下步骤:
[0112]
s1021:针对每一目标视频帧,获取表示该目标视频帧中目标对象的面部中至少一个器官的器官状态的器官状态值。
[0113]
s1022:基于获取到的器官状态值,确定该目标视频帧对应的表情特征值。
[0114]
s1023:基于各目标视频帧各自对应的表情特征值,生成待处理视频的表情特征向量。
[0115]
其中,表情特征向量中除目标视频帧外的其他视频帧对应的表情特征值为预设数值。
[0116]
针对每一目标视频帧,电子设备获取表示该目标视频帧中目标对象的面部中至少一个器官的器官状态的器官状态值,进而基于获取到的器官状态值,计算该目标视频帧对应的表情特征值。
[0117]
一种实现方式中,针对每一目标视频帧,如果一个目标视频帧中的目标面部特征包括:目标对象的面部中一个器官的器官状态,电子设备可以直接确定该器官状态的器官状态值,作为该目标视频帧对应的表情特征值。
[0118]
另一种实现方式中,步骤s1022可以包括以下步骤:在器官状态值为多个的情况下,计算各器官状态值的加权和,作为该目标视频帧对应的表情特征值。
[0119]
针对每一目标视频帧,如果该目标视频帧中的目标面部特征包括:目标对象的面部中多个器官的器官状态,则电子设备获取每一个器官的器官状态值,得到多个器官状态值,进而电子设备可以计算该多个器官的加权和,得到该目标视频帧对应的表情特征值。
[0120]
由于待处理视频中除目标视频帧外的视频帧(可以称为非目标视频帧)中不包含目标对象的面部图像,电子设备可以直接确定非目标视频帧对应的表情特征值为预设数值(例如,0),用于表示该视频帧中不包含目标对象的面部图像。
[0121]
进而,可以得到表示待处理视频中的表情特征向量,由于表情特征向量中的元素与待处理视频中的视频帧一一对应,一个元素表示对应的视频帧中目标对象的表情特征,则表情特征向量可以表示待处理视频中目标对象的表情特征随时间变化的幅度,例如,表示待处理视频中目标对象的表情越来越夸张。
[0122]
针对步骤s103,待处理音频可以仅包含伴奏声,例如,纯音乐,或者待处理音频也可以包含人声和伴奏声,例如,歌曲等。电子设备可以获取多个待处理音频,并按照本发明
实施例提供的方法,从多个待处理音频中确定出添加至待处理视频中的目标音频。
[0123]
节拍是待处理音频中的伴奏声在时间上的基本单位,节拍点为待处理音频的节拍由前一节拍转换为后一节拍的音频帧。
[0124]
一个待处理音频的目标节拍特征向量中的元素与该待处理音频包含的音频帧一一对应,一个元素表示对应的音频帧为节拍点的概率,则该待处理音频的节拍特征向量可以表示待处理音频的节拍随时间变化的幅度,例如,表示待处理音频的节拍越来越快。
[0125]
针对每一待处理音频,电子设备可以对该待处理音频进行stft(short-time fourier transform,短时傅里叶变换)处理,得到该待处理音频的频谱图。然后,将该待处理音频的频谱图输入至预先训练的节拍点预测模型,得到该待处理音频中的每一音频帧为节拍点的概率,也就是得到该待处理音频的节拍特征向量。
[0126]
节拍点预测模型可以为yolov3(you only look once-v3,基于深度学习的端到端的目标检测算法)模型。或者节拍点预测模型也可以为r-cnn(region convolutional neural networks,区域卷积神经网络)模型。
[0127]
另外,电子设备还可以对初始结构的节拍点预测模型进行训练,得到训练好的节拍点预测模型。相应的,参见图4,图4为本发明实施例提供的一种节拍点预测模型训练方法的流程图,该方法可以包括以下步骤:
[0128]
s401:获取样本音频,以及表示样本音频中的各音频帧是否为节拍点的样本节拍标签。
[0129]
s402:基于初始结构的节拍点预测模型对样本音频进行处理,得到包含样本音频中的各音频帧是否为节拍点的概率的预测节拍标签。
[0130]
s403:计算表示样本节拍标签与预测节拍标签的差异的第二损失函数值。
[0131]
s404:基于第二损失函数值对初始结构的节拍点预测模型的模型参数进行调整,直至达到第二预设收敛条件,得到训练好的节拍点预测模型。
[0132]
电子设备可以获取样本音频,以及用于表示样本音频中的各音频帧是否为节拍点的样本节拍标签。例如,样本音频包含:音频帧1、音频帧2、音频帧3,音频帧4和音频帧5。其中,音频帧3和音频帧5为节拍点,则样本节拍标签为:[0,0,1,0,1]。
[0133]
电子设备可以对样本音频进行stft处理,得到样本音频的频谱图。然后,将样本音频的频谱图输入至初始结构的节拍点预测模型,得到样本音频中的每一音频帧为节拍点的概率,也就是得到样本音频的预测节拍标签。例如,样本音频包含:音频帧1、音频帧2、音频帧3,音频帧4和音频帧5。样本音频中的各音频帧为节拍点的概率(即预测节拍标签)为:[0.1,0.3,0.7,0.2,0.8]。
[0134]
然后,电子设备可以计算表示样本节拍标签与预测节拍标签的差异的第二损失函数值。进而,电子设备可以基于第二损失函数值对初始结构的节拍点预测模型的模型参数进行调整,直至达到第二预设收敛条件,得到训练好的节拍点预测模型。
[0135]
第二预设收敛条件可以与第一预设收敛条件相同,或者第二预设收敛条件也可以与第一预设收敛条件不同。
[0136]
在本发明的一个实施例中,在图3的基础上,参见图5,在步骤s103之前,该方法还可以包括以下步骤:
[0137]
s106:针对每一目标视频帧,在预设的器官状态与情绪标签的对应关系中,确定该
目标视频帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签,作为该目标视频帧对应的情绪标签。
[0138]
s107:基于各目标视频帧各自对应的情绪标签,确定待处理视频的情绪标签。
[0139]
s108:针对每一预设音频,计算该预设音频的情绪标签和待处理视频的情绪标签的相似度。
[0140]
s109:基于各预设音频确定待处理音频。
[0141]
其中,待处理音频的情绪标签与待处理视频的情绪标签的相似度大于相似度阈值。
[0142]
预设的器官状态与情绪标签的对应关系记录有每一器官状态对应的情绪标签。例如,au1对应伤心、沮丧,au2对应惊讶和开心,au4对应生气和伤心,au5对应惊讶等。
[0143]
针对每一目标视频帧,电子设备可以在预设的器官状态与情绪标签的对应关系中,查找该目标视频帧中的目标面部特征所包含至少一个器官的器官状态对应的情绪标签,得到该目标视频帧对应的情绪标签。例如,如果一个目标视频帧中的目标面部特征包括au1,则可以确定该目标视频帧对应的情绪标签为伤心和沮丧。如果一个目标视频帧中的目标面部特征包括au4,则可以确定该目标视频帧对应的情绪标签为生气和伤心。如果一个目标视频帧中的目标面部特征包括au5,则可以确定该目标视频帧对应的情绪标签为惊讶。
[0144]
一种实现方式中,针对每一情绪标签,电子设备可以确定与该情绪标签对应的目标视频帧的数目(可以称为目标数目)。进而,电子设备可以确定对应的目标数目最大的情绪标签,作为待处理视频的情绪标签。
[0145]
另一种实现方式中,电子设备可以计算该情绪标签对应的目标数目与待处理视频包含的目标视频帧的数目的比值。如果计算得到的比值达到预设比值,电子设备可以确定该情绪标签为待处理视频的情绪标签。预设比值可以由技术人员根据经验设置,例如,预设比值可以为0.5,或者,预设比值也可以为0.6,但并不限于此。
[0146]
例如,预设比值为0.5,待处理视频包含的目标视频帧为:视频1,视频帧2和视频3。视频帧1,视频帧1对应的情绪标签为伤心和生气,视频帧2对应的情绪标签为伤心和惊讶,视频帧3对应的情绪标签为惊讶。伤心对应的目标数目与待处理视频包含的目标视频帧的数目的比值为0.67,惊讶对应的目标数目与待处理视频包含的目标视频帧的数目的比值也为0.67,电子设备可以确定待处理视频的情绪标签为伤心和惊讶。
[0147]
预设音频可以包括电子设备能够向用户提供的所有音频。针对每一预设音频,可以预先设置该预设音频的情绪标签。
[0148]
一种实现方式中,针对每一预设音频,电子设备可以确定该预设音频的情绪标签中,与待处理视频的情绪标签相同的情绪标签的数目,作为该预设音频的情绪标签和待处理视频的情绪标签的相似度。
[0149]
另一种实现方式中,针对每一预设音频,电子设备可以按照预设的编码方式对该预设音频的情绪标签进行编码,得到表示该预设音频的情绪标签的特征向量。电子设备还可以按照相同的编码方式对待处理视频的情绪标签进行编码,得到表示待处理视频的情绪标签的特征向量。然后,计算表示该预设音频的情绪标签的特征向量与表示待处理视频的情绪标签的特征向量相似度,作为该预设音频的情绪标签和待处理视频的情绪标签的相似度。
[0150]
预设的编码方式可以为onehot(独热)编码,或者预设编码方式也可以为embedding(词嵌入)编码。
[0151]
一种实现方式中,电子设备可以直接从各预设音频中,确定对应的情绪标签与待处理视频的情绪标签的相似度大于相似度预设阈值的预设音频,得到待处理音频。相似度阈值可以由技术人员根据经验设置,相似度预设阈值可以为0.7,或者相似度预设阈值也可以为0.8,但并不限于此。
[0152]
基于上述处理,可以确定情绪标签与待处理视频的情绪标签相似度较大的待处理音频,则从待处理音频中确定出的目标音频的情绪标签与待处理视频的情绪标签相似度也较大,进而,可以使得到的目标视频中音频的情绪标签与人物的情绪标签相匹配。
[0153]
另一种实现方式中,在图5的基础上,参见图6,步骤s109可以包括以下步骤:
[0154]
s1091:从各预设音频中,确定对应的情绪标签与待处理视频的情绪标签的相似度大于相似度阈值的预设音频,作为备选音频。
[0155]
s1092:针对每一备选音频,如果该备选音频的时长与待处理视频的时长相同,确定该备选音频为待处理音频。
[0156]
s1093:如果该备选音频的时长大于待处理视频的时长,从该备选音频中提取与待处理视频的时长相同的音频片段,得到待处理音频。
[0157]
电子设备可以从各预设音频中,确定对应的情绪标签与待处理视频的情绪标签的相似度大于相似度阈值的预设音频,得到备选音频。然后,针对每一备选音频,电子设备可以判断该备选音频的时长与待处理视频的时长是否相同。如果该备选音频的时长与待处理视频的时长相同,电子设备可以直接确定该备选音频为待处理音频。
[0158]
如果该备选音频的时长大于待处理视频的时长,电子设备可以从该备选音频中提取与待处理视频的时长相同的音频片段,得到待处理音频。
[0159]
例如,如果该备选音频的时长为待处理视频的时长的整数倍,电子设备可以直接按照待处理视频的时长,对该备选音频进行等分剪切,得到多个时长与待处理视频的时长相同的音频片段,作为待处理音频。如果该备选音频的时长不是待处理视频的时长的整数倍,电子设备可以按照待处理视频的时长,从该备选音频的起始位置开始,依次从该备选音频中剪切与待处理视频的时长相同的音频片段,得到待处理音频。
[0160]
针对步骤s104,针对每一待处理音频,电子设备可以基于预设相似度算法,计算待处理视频的表情特征向量与该待处理音频的目标节拍特征向量的相似度,作为待处理视频与该待处理音频的匹配度,匹配度表示目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度的相似度。
[0161]
预设相似度算法可以为余弦相似度算法,或者预设相似度算法也可以为欧式距离算法等。
[0162]
针对步骤s105,电子设备可以从各待处理音频中,确定与待处理视频的匹配度最大的目标音频,则目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度较为相似。进而,电子设备可以对待处理视频与目标音频进行合成处理,得到目标视频,则目标视频中目标对象的表情变化与目标音频的节拍变化同步。
[0163]
参见图7,图7为本发明实施例提供的另一种视频生成方法的流程图。
[0164]
待处理视频为短视频,目标对象为人物。电子设备对待处理视频中的每一视频帧
进行人脸检测,得到待处理视频中包含人脸图像的目标视频帧。针对每一目标视频帧,电子设备对该目标视频帧进行微表情识别,得到该目标视频帧中人物的目标面部特征。也就是电子设备将每一目标视频帧输入至预先训练的面部识别模型,得到该目标视频帧中目标对象的目标面部特征。电子设备基于各目标视频帧中的目标面部特征,确定待处理视频的表情特征向量。
[0165]
音乐库包含多个待处理音频,电子设备可以对待处理音频进行节拍点检测,得到待处理音频的目标节拍特征向量。也就是针对每一待处理音频,电子设备可以基于预先训练的节拍点预测模型,对该待处理音频进行处理,得到该待处理音频的目标节拍特征向量。进而,电子设备可以对待处理视频与待处理音频进行序列匹配,得到目标音频。也就是,针对每一待处理音频,电子设备可以计算该待处理音频的目标节拍特征向量与待处理视频的表情特征向量的相似度,得到该待处理音频与待处理视频的匹配度。电子设备可以从各待处理音频中,确定与待处理视频的匹配度最大的目标音频。
[0166]
进而,电子设备可以进行自动配乐,也就是电子设备可以对待处理视频与目标音频进行合成处理,得到目标视频。
[0167]
基于本发明实施例提供的视频生成方法,待处理视频的表情特征向量可以表示待处理视频中目标对象的表情特征随时间变化的幅度,待处理音频的目标节拍特征向量表示待处理音频的节拍点随时间变化的幅度。相应的,表情特征向量与目标节拍特征向量的相似度则可以表示:目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度的相似度。目标音频与待处理视频的匹配度最大,则目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度较为相似。进而,生成的目标视频中目标对象的表情变化与目标音频的节拍变化同步,即,不需要目标对象多次调整自身的表情以配合音频的节拍变化,进而可以提高视频的生成效率。
[0168]
与图1的方法实施例相对应,参见图8,图8为本发明实施例提供的一种视频生成装置的结构图,所述装置包括:
[0169]
面部特征预测模块801,用于将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;
[0170]
表情特征向量确定模块802,用于基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量;其中,所述表情特征向量中的元素与所述待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中所述目标对象的表情特征;所述表情特征向量表示:所述待处理视频中所述目标对象的表情特征随时间变化的幅度;
[0171]
目标节拍特征向量预测模块803,用于针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;其中,所述目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;所述目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;所述节拍点预测模型为基于样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;
[0172]
匹配度计算模块804,用于计算所述表情特征向量与所述目标节拍特征向量的相
似度,作为所述待处理视频与该待处理音频的匹配度;
[0173]
视频生成模块805,用于对所述待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;其中,所述目标音频与所述待处理视频的匹配度最大。
[0174]
可选的,所述目标面部特征包括所述目标对象的面部中至少一个器官的器官状态;
[0175]
所述表情特征向量确定模块802,具体用于针对每一目标视频帧,获取表示该目标视频帧中所述目标对象的面部中至少一个器官的器官状态的器官状态值;
[0176]
基于获取到的器官状态值,确定该目标视频帧对应的表情特征值;
[0177]
基于各目标视频帧各自对应的表情特征值,生成所述待处理视频的表情特征向量;其中,所述表情特征向量中除所述目标视频帧外的其他视频帧对应的表情特征值为预设数值。
[0178]
可选的,所述表情特征向量确定模块802,具体用于在所述器官状态值为多个的情况下,计算各器官状态值的加权和,作为该目标视频帧对应的表情特征值。
[0179]
可选的,所述装置还包括:
[0180]
第一情绪标签确定模块,用于在所述目标节拍特征向量预测模块803执行针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量之前,执行针对每一目标视频帧,在预设的器官状态与情绪标签的对应关系中,确定该目标视频帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签,作为该目标视频帧对应的情绪标签;
[0181]
第二情绪标签确定模块,用于基于各目标视频帧各自对应的情绪标签,确定所述待处理视频的情绪标签;
[0182]
相似度计算模块,用于针对每一预设音频,计算该预设音频的情绪标签和所述待处理视频的情绪标签的相似度;
[0183]
待处理音频确定模块,用于基于各预设音频确定待处理音频,其中,所述待处理音频的情绪标签与所述待处理视频的情绪标签的相似度大于相似度阈值。
[0184]
可选的,所述待处理音频确定模块,具体用于从各预设音频中,确定对应的情绪标签与所述待处理视频的情绪标签的相似度大于所述相似度阈值的预设音频,作为备选音频;
[0185]
针对每一备选音频,如果该备选音频的时长与所述待处理视频的时长相同,确定该备选音频为待处理音频;如果该备选音频的时长大于所述待处理视频的时长,从该备选音频中提取与所述待处理视频的时长相同的音频片段,得到待处理音频。
[0186]
可选的,所述装置还包括:
[0187]
目标视频帧确定模块,用于在所述面部特征预测模块801执行将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征之前,执行对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧,作为目标视频帧;
[0188]
或者,
[0189]
对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧;对所述待处理视频中包含所述目标对象的面部图像的视频帧进行采样,得到目标
视频帧。
[0190]
可选的,所述装置还包括:
[0191]
第一训练模块,用于获取包含所述样本对象的面部图像的样本视频帧,以及表示所述样本视频帧中所述样本对象的面部特征的特征标签;
[0192]
将所述样本视频帧输入至初始结构的面部识别模型,得到所述样本视频帧中所述样本对象的面部特征,作为预测面部特征;
[0193]
计算表示所述特征标签与所述预测面部特征的差异的第一损失函数值;
[0194]
基于所述第一损失函数值对所述初始结构的面部识别模型的模型参数进行调整,直至达到第一预设收敛条件,得到训练好的面部识别模型。
[0195]
可选的,所述装置还包括:
[0196]
第二训练模块,用于获取样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签;
[0197]
基于初始结构的节拍点预测模型对所述样本音频进行处理,得到包含所述样本音频中的各音频帧是否为节拍点的概率的预测节拍标签;
[0198]
计算表示所述样本节拍标签与所述预测节拍标签的差异的第二损失函数值;
[0199]
基于所述第二损失函数值对所述初始结构的节拍点预测模型的模型参数进行调整,直至达到第二预设收敛条件,得到训练好的节拍点预测模型。
[0200]
基于本发明实施例提供的视频生成装置,待处理视频的表情特征向量可以表示待处理视频中目标对象的表情特征随时间变化的幅度,待处理音频的目标节拍特征向量表示待处理音频的节拍点随时间变化的幅度。相应的,表情特征向量与目标节拍特征向量的相似度则可以表示:目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度的相似度。目标音频与待处理视频的匹配度最大,则目标音频的节拍变化的幅度与待处理视频中目标对象的表情特征变化的幅度较为相似。进而,生成的目标视频中目标对象的表情变化与目标音频的节拍变化同步,即,不需要目标对象多次调整自身的表情以配合音频的节拍变化,进而可以提高视频的生成效率。
[0201]
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
[0202]
存储器903,用于存放计算机程序;
[0203]
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
[0204]
将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;
[0205]
基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量;其中,所述表情特征向量中的元素与待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中所述目标对象的表情特征;所述表情特征向量表示:所述待处理视频中所述目标对象的表情特征随时间变化的幅度;
[0206]
针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处
理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;其中,所述目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;所述目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;所述节拍点预测模型为基于样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;
[0207]
计算所述表情特征向量与所述目标节拍特征向量的相似度,作为所述待处理视频与该待处理音频的匹配度;
[0208]
对所述待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;其中,所述目标音频与所述待处理视频的匹配度最大。
[0209]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0210]
通信接口用于上述电子设备与其他设备之间的通信。
[0211]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0212]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0213]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的视频生成方法。
[0214]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的视频生成方法。
[0215]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0216]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0217]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0218]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1