视频生成方法、装置、电子设备及介质与流程

文档序号:31805170发布日期:2022-10-14 20:04阅读:60来源:国知局
视频生成方法、装置、电子设备及介质与流程

1.本技术属于人工智能技术领域,具体涉及一种基于视频生成方法、装置、电子设备及介质。


背景技术:

2.随着深度神经网络的快速发展,视频生成相关方向的算法也越来越多样化,使得根据文字表述直接生成与之意思相符的视频成为可能。
3.在相关技术中,在基于文本生成视频的过程中,通常是将文本输入网络模型后,先使用该网络模型的文本模态提取该文本对应的文本特征,然后通过该网络模型的视频模态直接基于该文本特征生成视频。
4.然而,由于上述方案是通过网络模型直接基于提取出的文本特征生成视频,因此,在该网络模型的文本模态和视频模态存在信息差时,可能无法准确的进行特征提取,从而导致生成的视频与文本描述不匹配。


技术实现要素:

5.本技术实施例的目的是提供一种视频生成方法、装置、电子设备及介质,能够解决生成的视频与文本描述不匹配的问题。
6.为了解决上述技术问题,本技术是这样实现的:
7.第一方面,本技术实施例提供了一种视频生成方法,该方法包括:提取第一文本中的行为描述词和视觉描述词;从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从该n个第一视频中确定与上述视觉描述词匹配的目标视频帧;基于上述目标视频片段和上述目标视频帧,生成目标视频;其中,上述n个第一视频为视频库中与上述第一文本相似的n个视频;n为大于1的整数。
8.第二方面,本技术实施例提供了一种视频生成装置,该装置包括:提取模块、确定模块和生成模块;其中,提取模块,用于提取第一文本中的行为描述词和视觉描述词;确定模块,用于从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从上述n个第一视频中确定与上述视觉描述词匹配的目标视频帧;生成模块,用于基于确定模块确定的上述目标视频片段和上述目标视频帧,生成目标视频;其中,上述n个第一视频为视频库中与上述第一文本相似的n个视频;n为大于1的整数。
9.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
10.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
11.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方
法。
12.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
13.在本技术实施例中,在基于文本生成视频时,电子设备可以先提取第一文本中的行为描述词和视觉描述词,然后从视频库中的与该第一文本相似的n个第一视频中确定与行为描述词匹配的目标视频片段和与视觉描述词匹配的目标视频帧,最后基于该目标视频片段和该目标视频帧,生成目标视频;其中,n为大于1的整数。如此,通过利用文本中用于描述主体行为的行为描述词,从第一视频中查找到与该主体行为匹配的视频片段,并利用文本中用于描述视觉呈现画面的视觉描述词,从第一视频中查找到与该视觉呈现画面匹配的视频帧,这样,将上述匹配到的视频片段和视频帧进行融合后,便可得到更加切题和真实的目标视频,保证了最终生成的视频的视频质量。
附图说明
14.图1是本技术实施例提供的一种视频生成方法的流程示意图;
15.图2是本技术实施例提供的一种多模态特征提取模型的结构示意图;
16.图3是本技术实施例提供的一种多模态特征提取模型的处理流程图之一;
17.图4是本技术实施例提供的一种多模态特征提取模型的处理流程图之二;
18.图5是本技术实施例提供的一种多模态特征提取模型的处理流程图之三;
19.图6是本技术实施例提供的一种视频生成装置的结构示意图;
20.图7是本技术实施例提供的一种电子设备的结构示意图;
21.图8是本技术实施例提供的一种电子设备的硬件示意图。
具体实施方式
22.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
23.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
24.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的视频生成方法、装置、电子设备及介质进行详细地说明。
25.在相关技术中,电子设备在基于文本生成视频的过程中,所使用的方案大致分为两种:
26.一种方案是,采用多模态学习生成方法,使用单独训练完备的文本模态模型对用户输入的文本提取文本特征后,再将该文本特征输入生成式对抗网络生成视频。而这种方法所运用的文本模态模型和视频模态模型的特征维度可能不同,导致最终提取的特征存在
信息差,没办法很好的匹配,或者当其中一个模态模型的有效信息少时模型无法提取到有用的特征,从而导致生成的视频与文本描述不匹配。
27.另一种方案中,通常会将一个完整的视频分成多帧图像,然后在处理每帧图像时,在文本参数池中选一个固定的配置加载至该图像的特定部位,单帧图像可以多个部位组合配置,然后再将处理后的多帧图像拼接生成定制视频。然而,这种生成方法会导致生成的视频缺乏连贯性和真实性,丢失了空间信息。
28.在本技术实施例提供的视频生成方法、装置、电子设备及介质中,在基于文本生成视频时,电子设备可以先提取第一文本中的行为描述词和视觉描述词,然后从视频库中的与该第一文本相似的n个第一视频中确定与行为描述词匹配的目标视频片段和与视觉描述词匹配的目标视频帧,最后基于该目标视频片段和该目标视频帧,生成目标视频;其中,n为大于1的整数。如此,通过利用文本中用于描述主体行为的行为描述词,来从第一视频中查找到与该主体行为匹配的视频片段,并利用文本中用于描述视觉呈现画面的视觉描述词,来从第一视频中查找到与该视觉呈现画面匹配的视频帧,这样,将上述匹配到的视频片段和视频帧进行融合后,便可得到更加切题和真实的目标视频,保证了最终生成的视频的视频质量。
29.本实施例提供的视频生成方法的执行主体可以为视频生成装置,该视频生成装置可以为电子设备,也可以为该电子设备中的控制模块或处理模块等。以电子设备为例来对本技术实施例提供的技术方案进行说明。
30.本技术实施例提供一种视频生成方法,如图1所示,该视频生成方法可以包括如下步骤201至步骤203:
31.步骤201:电子设备提取第一文本中的行为描述词和视觉描述词。
32.在本技术实施例中,上述行为描述词可以为第一文本中用于描述主体行为的词,例如,奔跑、跳高、飞行、游泳等。
33.在本技术实施例中,上述视觉描述词可以为第一文本中用于描述视觉呈现画面的词,例如,穿红衣服的人、白色的小狗、蔚蓝色的大海等。
34.在本技术实施例中,电子设备在获取到第一文本后,可以先对文本进行分词,将分词进行词性拆解,分别提取出视觉描述词与行为描述词。
35.在本技术实施例中,第一文本中可以包含至少一个行为描述词。
36.在本技术实施例中,第一文本中可以包含至少一个视觉描述词。
37.步骤202:电子设备从n个第一视频中确定与行为描述词匹配的目标视频片段,以及从n个第一视频中确定与视觉描述词匹配的目标视频帧。
38.其中,n为大于1的整数。
39.在本技术实施例中,上述n个第一视频为视频库中与第一文本相似的n个视频。
40.在本技术实施例中,上述视频库中预存有多个视频,每个视频由至少一个视频片段和/或至少两帧视频帧组成。
41.在本技术实施例中,当存在多个与行为描述词匹配的视频片段时,上述目标视频片段可以为与行为描述词相似度最高的视频片段。
42.在本技术实施例中,在第一文本中包含多个行为描述词的情况下,电子设备可以从第一视频中查找每个行为描述词对应的视频片段。示例性地,上述目标视频片段可以包
括:该多个行为描述词中每个行为描述词各自对应的视频片段。或者,上述目标视频片段可以包括:部分行为描述词对应的视频片段。
43.在本技术实施例中,在第一文本中包含多个视觉描述词的情况下,电子设备可以从第一视频中查找每个视觉描述词对应的视频帧。示例性地,上述目标视频片段可以包括:该多个视觉描述词中每个视觉描述词各自对应的视频帧。或者,上述目标视频帧可以包括:部分视觉描述词对应的视频帧。
44.步骤203:电子设备基于目标视频片段和目标视频帧,生成目标视频。
45.在本技术实施例中,电子设备在确定出目标视频片段和目标视频帧后,可以目标视频片段与目标视频帧进行融合,从而生成目标视频。
46.可选地,在本技术实施例中,在上述目标视频片段包括多个视频片段。上述步骤203中“电子设备基于目标视频片段和目标视频帧,生成目标视频”可以包括步骤203a和步骤203b:
47.步骤203a:电子设备按照行为描述词在第一文本中的语序,对多个视频片段进行排序。
48.在本技术实施例中,电子设备可以按照第一文本中的行为描述词的原始语序,对确定出的视频片段进行排序,以使其在时间顺序上具有连贯性和真实性。
49.步骤203b:电子设备按照视觉描述词在第一文本中的语序,将目标视频帧与排序后的多个视频片段融合,生成目标视频。
50.在本技术实施例中,电子设备可以将目标视频帧输入通用检测模型,以获得主体信息和背景信息,然后按照视觉描述词在第一文本中的语序,使用3d渲染技术将主体信息和目标视频片段融合,使目标视频帧中的主体动起来,再与背景信息进行拼接,生成目标视频。
51.示例性地,上述通用检测模型可以为:一种对图像中检测到的对象执行多标签分类的(yolov3)检测模型在计算机视觉系统识别项目(imagenet)数据集上训练收敛的模型,其用于提取文本中的主体特征信息。
52.示例性地,电子设备通过在视频库中找到与该文本最相似的多个第一视频。然后,从该多个第一视频中查找与第一文本中的行为描述词匹配的目标视频片段,提取选出该目标视频片段对应的运动信息,按照行为描述词在上述第一文本中的先后顺序,依次拼接选出的视频片段的运动信息。同时,在上述选出的多个视频中找到与视觉描述词最相似的帧,然后,使用通用检测模型得到主体和背景,最后,使用3d渲染技术将主体和运动信息融合后与背景拼接生成视频。
53.如此,由于电子设备是按照第一文本中的语序,来对上述目标视频片段和目标视频帧融合,从而保证了目标视频片段和目标视频帧的连贯性,进而在保证最终生成的视频能够切合第一文本的文本内容的情况下,保证了该视频的空间信息的准确性。
54.在本技术实施例提供的视频生成方法中,在基于文本生成视频时,电子设备可以先提取第一文本中的行为描述词和视觉描述词,然后从视频库中的与该第一文本相似的n个第一视频中确定与行为描述词匹配的目标视频片段和与视觉描述词匹配的目标视频帧,最后基于该目标视频片段和该目标视频帧,生成目标视频;其中,n为大于1的整数。如此,通过利用文本中用于描述主体行为的行为描述词,来从第一视频中查找到与该主体行为匹配
的视频片段,并利用文本中用于描述视觉呈现画面的视觉描述词,来从第一视频中查找到与该视觉呈现画面匹配的视频帧,这样,将上述匹配到的视频片段和视频帧进行融合后,便可得到更加切题和真实的目标视频,保证了最终生成的视频的视频质量。
55.可选地,在本技术实施例中,上述步骤201中“电子设备提取第一文本中的行为描述词和视觉描述词”可以包括步骤201a和步骤201b:
56.步骤201a:电子设备将第一文本输入命名实体识别模型后,对第一文本进行分词,得到多个分词。
57.在本技术实施例中,上述命名实体识别模型可以为:命名实体识别(named entity recognition,ner)。进一步地,上述ner是指能够将文本中的实体词识别并提取出来的模型。
58.步骤201b:电子设备基于命名实体识别模型,对多个分词中的每个分词进行词性识别,确定出第一文本中的行为描述词和视觉描述词。
59.在本技术实施例中,电子设备可以使用ner模型先将第一文本切分成多个分词,再分别提取出该多个分词中的视觉描述词与行为描述词。
60.如此,电子设备通过将第一文本输入实体识别模型,先对第一文本进行分词,再确定出多个分词中的行为描述词和视觉描述词,可以使电子设备更加准确的获取到第一文本所包含的特征信息。
61.可选地,在本技术实施例中,上述视频库包括多个视频以及多个视频中的每个视频的视频特征信息。
62.以下将对本技术实施例中每个视频的视频特征信息的提取过程进行说明:
63.可选地,在本技术实施例中,在上述步骤202之前,本技术实施例提供的视频生成方法还可以包括如下步骤301至步骤302:
64.步骤301:电子设备将视频库中的多个视频输入多模态特征提取模型进行特征提取,输出多个视频中的每个视频的视频特征信息。
65.在本技术实施例中,上述视频库还可以包括视频附属信息列表,进一步地,上述附属信息列表包括每个视频的视频名称和每个视频主体的类型。
66.步骤302:电子设备将每个视频的视频特征信息存入视频库中。
67.在本技术实施例中,电子设备可以使用多模态特征提取模型提取视频库中的所有视频的视频特征信息,然后将所有视频特征信息载入检索引擎,并将视频名称和视频主体所属类型记录至附属信息列表。
68.如此,直接利用多模态特征提取模型提取视频库中每个视频的视频特征信息,从而使得后续电子设备可以直接将待使用的文本的文本特征与该视频库中的视频特征信息直接进行匹配,提高了匹配效率。
69.可选地,在本技术实施例中,电子设备在提取到第一文本的视觉描述词后,可以提取视觉描述词中的主体,然后,查询类别映射表来确定该第一文本中视觉描述词中的主体的主体类型,最后,基于该主体类型从视频库中筛选出与该主体类型匹配的视频类型所对应的视频,从而组成新视频特征检索库。
70.示例性地,电子设备可以使用命名实体识别模型(如,ner预训练模型)来提取视觉描述词中的主体。
71.举例说明,上述类别映射表可以如下表1所示。需要说明的是,表1中仅仅示出了部分主体类型以及主题类型所对应的部分详细类别。在实际应用中,上述类别映射表可以包含更多的主体类型以及相应的详细类别,此处不再赘述。
72.表1
73.类别详细类别人男人、女人、老人、小孩四脚动物狗、猫、熊、兔子、

禽鸟类动物鸡、鸭、鹅、鹦鹉、

植物花、树木、

飞机客机、货机、飞机、无人机、

车辆小汽车、货车、公交车、

商品玩具、生活用品、

74.如此,缩小了电子设备检索视频的范围,提高了电子设备的检索效率。
75.以下将对如何基于该视频库实现本技术提供的技术方案进行说明:
76.可选地,在本技术实施例中,在上述步骤202之前,本技术实施例提供的视频生成方法还可以包括如下步骤a1至步骤a3:
77.步骤a1:电子设备将第一文本输入多模态特征提取模型后,将第一文本转换为至少一个文本特征信息。
78.在本技术实施例中,上述多模态特征提取模型可以为:多级注意力对齐模型(muti-attention-alignment-model,maam)。进一步地,上述maam是端到端的多模态视频文本检索模型。
79.在本技术实施例中,上述至少一个文本特征信息可以包括文本特征向量。例如文本对应的token。
80.步骤a2:从至少一个文本特征信息中,确定关键文本特征信息。
81.在本技术实施例中,上述关键文本特征信息可以为:上述至少一个文本特征信息中文本特征向量满足预定条件的文本特征信息。
82.步骤a3:调用视频库,对关键文本特征信息和每个视频的视频特征信息进行聚类,得到第一视频特征信息,并将第一视频特征信息对应的视频,作为所述第一视频。
83.在本技术实施例中,上述第一视频特征信息与上述关键文本特征信息间的相似度满足第一条件。
84.在本技术实施例中,上述第一视频特征信息可以包括视频特征向量。例如视频对应的token。
85.需要说明的是,token用于表示将特征转换为固定维度的序列特征向量,序列中每一个原子特征就是一个token。
86.在本技术实施例中,电子设备在提取到第一文本特征向量,以及从视频库中获取到视频特征向量之后,通过计算向量值,得到每个视频对应的分数,以此来得到第一文本与每个视频间地相似度。
87.在本技术实施例中,上述第一条件可以为:与关键文本特征向量相似度值最高的视频特征向量。
88.如此,电子设备通过将提取出的关键文本特征信息与视频库中的视频特征信息计算相似度,并将相似度值最高的视频确定为第一视频,提高了电子设备确定第一视频的准确度。
89.举例说明,以多模态特征提取模型为maam为例。来对多模态特征提取模型的提取过程进行示例性说明。
90.示例性地,如图2所示,该maam模型分别由视觉模块、文本模块两部分组成。其中,上述视觉模块包括vision-transformer模型(图文预训练模型中的视觉模型)和引导学习模块(guide-study-module,gsm),上述文本模块包括text-transformer模型(图文预训练模型中的文本模型)和gsm。该gsm模块由注意力(attention)模块和聚类对齐(cluster alignment)模块组成,其中聚类对齐模块为共享模块。
91.需要说明的是,上述attention模块用于引导模型只关注可区分特征的模块。
92.示例性地,上述gsm旨在获取各模态中各自具有区分度的特征信息,并将提取出的显著性特征向量统一映射到新的特征空间,使各模态特征向量在新的空间中处于同一语义维度,消除模态间的语义信息差。
93.示例性地,如图3所示,上述gsm中的attention模块用于提取关键信息,将vision-transformer和text-transformer倒数第二层的输出token数由n个减少为k个,k为一种新型模型结构(transformer)内自注意力头的个数。l为transformer结构的层数,a
l
为transformer模型的第l层注意力权重,其中l的取值范围为transformer结构的第一层至倒数第二层,最后一层不参与注意力权重计算,a
l
结构如(公式1)所示,
[0094][0095]
其中,是第l层某一个注意力头的特征结构,每个注意力头包含n个token,结构如(公式2)所示:
[0096][0097]
attention模块中,(1,l-1)中所有层注意力权重进行矩阵乘,如(公式3)所示:
[0098]afinal
=∏a
l
ꢀꢀ
(公式3)
[0099]afinal
与transformer结构倒数第二层a
l-1
做矩阵乘运算,得到a
select
注意力向量如(公式4)所示:
[0100]aselect
=a
final
*a
l-1
ꢀꢀ
(公式4)
[0101]
对a
l-1
层的k个分量中的每一个分量取最大值,结构如(公式5)所示:
[0102][0103]
为了方便展示,将第k个注意力头选取的max分量值记为取值记,k个选出的注意力token与分类token拼接组成新的序列代替l-1层原本的token序列输入至transformer第l层,新序列形式如(公式6)所示:
[0104][0105]
示例性地,如图4所示,聚类对齐模块用于:将文本attention模块输出的k个token
与视觉attention模块输出的k个token进行聚类,得到p个共享中心{c1,c2,

,c
p
}。使用p个共享中心对每个token重新表示,文本模型的token与视觉模型的token使用同样的一组向量基进行表达,使两个模态之间的语义差得到进一步的弱化。
[0106]
其中,文本模型和视觉模型中的每个token与共享中心的每个分量计算点积,乘积经过softmax函数将输出转换为置信度,表示当前共享中心的分量对指定token的贡献的重要程度,以表示token在共享中心构成的新特征空间的数据分布,如(公式7)所示:
[0107][0108]
其中,表示第i个token,cj表示第j个共享中心,w
ij
表示第j个共享中心对第i个token表征贡献的重要程度。每个token在共享中心特征最终的表示如(公式8)所示,其中τ表示文本模态与视频模态的所有特征token数,文本模态与视觉模态输出的注意力token分别有k个,即τ=2k。
[0109][0110]
示例性地,如图3所示,上述maam模型进行特征向量提取的过程包括如下步骤s1至s4:
[0111]
步骤s1:将文本通过text-transformer模型获得m个token,其中分类token(cls-token)记为clsg。再将该m个tokem经过gsm中的attention模块,将token数减少为k+1个。
[0112]
步骤s2:将视频均匀采样16帧(frame),每一帧通过vision-transformer模型获得n个token,取每帧对应的cls-token与新增cls-token拼接成新的token序列特征向量,其中新增cls-token记为clsa。再将该新的token序列特征向量输入gsm中的attention模块提取关键信息,将token数减少为k+1个。
[0113]
步骤s3:文本模态和视频模态各自输出去除cls-token的k个attention token,再经过cluster alignment模块得到p维空间表征。
[0114]
步骤s4:整体训练损失如(公式9)所示,经过多损失联合优化,使模型可以学习到视频模态与文本模态最具有代表性的注意力特征向量。
[0115]
l=lg+la+lcꢀꢀ
(公式9)
[0116]
lg是通过全局对齐模块(global alignment)计算全局损失(global alignment loss)如(公式10)所示:
[0117][0118]
为训练集中所有视频文本对的个数,为第i个视频特征向量,为第i个文本特征向量,表示视频特征向量和文本特征向量之间的余弦相似度,计算方式为归一化后的与归一化后的计算点积,如(公式11)所示:
[0119][0120]
la为注意力损失(attention alignment loss)如(公式12)所示,sim(zi,zj)表示样本i、j对应attention特征向量之间的余弦相似度;
[0121][0122][0123]
lc为聚类损失(cluster alignment loss)如(公式13)所示,为第i个聚类后的视频特征向量,为第i个聚类后的文本特征向量。
[0124][0125]
可选地,在本技术实施例中,上述步骤202中“电子设备从n个第一视频中确定与行为描述词匹配的目标视频片段”可以包括步骤b1至步骤b3:
[0126]
步骤b1:电子设备将行为描述词和n个第一视频输入多模态特征提取模型后,将行为描述词转换为至少一个行为特征信息,并将n个第一视频转化为至少一个视频特征信息。
[0127]
在本技术实施例中,上述至少一个行为特征信息可以包括行为特征向量。例如行为对应的token。
[0128]
步骤b2:从至少一个行为特征信息中,确定关键行为特征信息,并从至少一个视频特征信息中,确定第一关键视频特征信息。
[0129]
在本技术实施例中,上述关键行为特征信息是指,在上述至少一个行为特征信息中起决定性作用的行为特征信息。
[0130]
步骤b3:根据关键行为特征信息,从第一关键视频特征信息中,确定第二视频特征信息,并将第二视频特征信息对应的视频片段,作为目标视频片段。
[0131]
在本技术实施例中,上述第二视频特征信息与上述关键行为特征信息间的相似度满足第二条件。
[0132]
在本技术实施例中,电子设备在提取到第一关键视频特征向量,以及提取到行为描述词对应的关键行为特征向量后,通过计算向量值,得到每个第一视频中的视频片段对应的分数,以此来得到行为描述词与每个视频片段间的相似度。
[0133]
在本技术实施例中,上述第二条件可以为:与上述关键行为特征向量相似度值最高的第一关键视频特征向量。
[0134]
在本技术实施例中,上述视频片段为上述第一视频中的视频片段。一个第一视频对应至少一个视频片段。
[0135]
示例1,以第一视频为5个视频为例,电子设备将每个行为描述词与该5个视频送入maam提取行为特征向量后,将每个行为描述词与5个选出的视频的特征向量计算聚类损失lc,取出lc最小的视频中视觉模块中的k个attention token对应位置的视频帧,若选出的视频帧不是相邻的,则将第一个选中的视频帧到最后一个选中的视频帧区间内的所有视频帧按照时间顺序排列,组成视频片段。如图5所示,将文本模态与视频模态在通过attention模块后输出的attention token分别标记为31与31,取32对应位置的原始视频帧组成与当前行为描述词最相关的视频动作片段。视频片段内的所有视频帧使用关键点检索模型提取主体关键点位置信息,相邻视频帧中,主体对应关键点计算位置差,n帧视频片段,得到n-1组关键点位置差记为运动信息。
[0136]
如此,电子设备通过将提取出的关键行为特征信息与第一视频中的第一关键视频
特征信息计算相似度,并将相似度值最高的视频片段确定为目标视频片段,进一步提高了电子设备确定视频片段的准确度。
[0137]
可选地,在本技术实施例中,上述步骤202中“电子设备从n个第一视频中确定与视觉描述词匹配的目标视频帧”可以包括步骤c1至步骤c3:
[0138]
步骤c1:电子设备将视觉描述词和n个第一视频输入多模态特征提取模型后,将视觉描述词转换为至少一个视觉特征信息,并将n个第一视频转化为至少一个视频特征信息。
[0139]
在本技术实施例中,上述至少一个视觉特征信息可以包括视觉特征向量。例如视觉对应的token。
[0140]
步骤c2:从至少一个视觉特征信息中,确定关键视觉特征信息,并从至少一个视频特征信息中,确定第二关键视频特征信息。
[0141]
在本技术实施例中,上述关键视觉特征信息是指,在上述至少一个视觉特征信息中起决定性作用的视觉特征信息。
[0142]
步骤c3:根据关键视觉特征信息,从第二关键视频特征信息中,确定第三视频特征信息,并将第三视频特征信息对应的视频帧,作为目标视频帧。
[0143]
在本技术实施例中,上述第三视频特征信息与上述关键视觉特征信息间的相似度满足第三条件。
[0144]
在本技术实施例中,电子设备在提取到第二关键视频特征向量,以及提取到视觉描述词对应的关键视觉特征向量后,通过计算向量值,得到每个第一视频中的视频帧对应的分数,以此来得到视觉描述词与每个视频帧间的相似度。
[0145]
在本技术实施例中,上述第三条件可以为:与上述关键视觉特征向量相似度值最高的第二关键视频特征向量。
[0146]
在本技术实施例中,上述视频帧为上述第一视频中的视频帧。一个第一视频对应至少两个视频帧。
[0147]
示例2,结合示例1,电子设备将每个视觉描述词与上述5个视频送入maam提取视觉特征向量后,将每个视觉描述词与5个选出的视频中所有的attention token(共5*k个)计算余弦相似度,取相似度最大的一个attention token对应的视频帧,作为目标视频帧,即该目标视频帧为最符合视觉描述词的视觉形象。
[0148]
如此,电子设备通过将提取出的关键视觉特征信息与第一视频中的第二关键视频特征信息计算相似度,并将相似度值最高的视频帧确定为目标视频帧,进一步提高了电子设备确定视频帧的准确度。
[0149]
在相关技术中,多模态特征提取模型训练方案通常分为同步训练和异步训练两种。其中:
[0150]
异步训练即单个模态单独训练,各模态训练完备的模型提取特征后直接相似度匹配,这种训练方式得到的视觉模态模型和文本模态模型的特征维度不同,各模态模型学习出的特征存在信息差,没办法很好的匹配。或者,当其中一个模态有效信息较少时模型学不到有用信息。
[0151]
同步训练即多个模态共同训练,每个模态模型关注的信息受另一个模态模型的影响,各模态模型更倾向于学习出能与其他模态模型特征更为相关的特征。但仅协同训练也是不够的,在视频模态和文本模态都包含了大量的冗余信息,各模态模型很难学习到关键
信息,模型无法捕捉到文本以及视频内想要表达的重点内容。
[0152]
在本技术实施例中,多模态特征提取模型(如maam)的设计过程如下:
[0153]
首先,maam中的文本模态模型使用已有预训练text-transformer模型结构作为基础网络结构,并使用maam中的视频模态模型等间隔采样16帧视频帧,然后,每帧视频帧使用已有预训练vision-transformer模型结构作为基础网络结构。并且,为了去除冗余信息的干扰,在两个基础网络结构后引入gsm,指导各模态模型更加关注模态间相关信息。应注意的是,该gsm模块由attention模块和cluster alignment模块组成。具体的,在gsm模块中的各模态原有倒数第二层输出后,接入attention模块,在各自的模态中选出k个最有区分度的token,与分类token拼接成k+1个token序列,替换倒数第二层输出,然后,经最后一层transformer后得到k+1个注意力特征token。
[0154]
其次,为了更好的对齐文本模态模型与视频模态模型特征,可以将除分类token外的k个注意力特征token送入cluster alignment模块,使用相同基向量表示视频模态模型与文本模态模型的特征,使视频模态模型与文本模态模型在新的特征空间可以消除之间的信息差。同时,为了提升两个模态特征的一致性,引入注意力对齐损失(attention alignment loss)与聚类对齐损失(cluster alignment loss),使视频模态模型与文本模态模型从局部到全局的一致性最大化。
[0155]
如此,相比于相关技术中所提出的多模态特征提取模型训练方案,本技术提供的训练方案通过在多模态特征提取模型中新增一个gsm模块,使得训练出的多模态特征提取模型在提取特征信息时,能够更精准的捕捉到文本或视频中所包含的关键特征信息。
[0156]
本技术实施例提供的视频生成方法,执行主体可以为视频生成装置。本技术实施例中以视频生成装置执行视频生成方法为例,说明本技术实施例提供的视频生成装置。
[0157]
本技术实施例提供一种视频生成装置,如图6所示,该视频生成装置400包括:提取模块401、确定模块402和生成模块403,其中:上述提取模块401,用于提取第一文本中的行为描述词和视觉描述词;上述确定模块402,用于从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从上述n个第一视频中确定与上述视觉描述词匹配的目标视频帧;上述生成模块403,用于基于确定模块402确定的上述目标视频片段和上述目标视频帧,生成目标视频;其中,上述n个第一视频为视频库中与上述第一文本相似的n个视频;n为大于1的整数。
[0158]
可选地,在本技术实施例中,上述提取模块401,具体用于将第一文本输入命名实体识别模型后,对该第一文本进行分词,得到多个分词;基于上述命名实体识别模型,对上述多个分词中的每个分词进行词性识别,确定出上述第一文本中的行为描述词和视觉描述词。
[0159]
可选地,在本技术实施例中,上述视频库包括多个视频以及该多个视频中的每个视频的视频特征信息;上述确定模块402,还用于在从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从上述n个第一视频中确定与上述视觉描述词匹配的目标视频帧之前,将上述第一文本输入多模态特征提取模型后,将上述第一文本转换为至少一个文本特征信息;从该至少一个文本特征信息中,确定关键文本特征信息;调用上述视频库,对上述关键文本特征信息和上述每个视频的视频特征信息进行聚类,得到第一视频特征信息,并将该第一视频特征信息对应的视频,作为上述第一视频;其中,上述第一视频特征信
computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0166]
本技术实施例中的视频生成装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
[0167]
本技术实施例提供的视频生成装置能够实现图1至图5的方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0168]
可选地,如图7所示,本技术实施例还提供一种电子设备600,包括处理器601和存储器602,存储器602上存储有可在所述处理器601上运行的程序或指令,该程序或指令被处理器601执行时实现上述视频生成方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0169]
需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0170]
图8为实现本技术实施例的一种电子设备的硬件结构示意图。
[0171]
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
[0172]
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
[0173]
其中,上述处理器110,用于提取第一文本中的行为描述词和视觉描述词;从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从上述n个第一视频中确定与上述视觉描述词匹配的目标视频帧;基于上述目标视频片段和上述目标视频帧,生成目标视频;其中,上述n个第一视频为视频库中与上述第一文本相似的n个视频;n为大于1的整数。
[0174]
可选地,在本技术实施例中,上述处理器110,具体用于将第一文本输入命名实体识别模型后,对该第一文本进行分词,得到多个分词;基于上述命名实体识别模型,对上述多个分词中的每个分词进行词性识别,确定出上述第一文本中的行为描述词和视觉描述词。
[0175]
可选地,在本技术实施例中,上述视频库包括多个视频以及该多个视频中的每个视频的视频特征信息;上述处理器110,还用于在从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从上述n个第一视频中确定与上述视觉描述词匹配的目标视频帧之前,将上述第一文本输入多模态特征提取模型后,将上述第一文本转换为至少一个文本特征信息;从该至少一个文本特征信息中,确定关键文本特征信息;调用上述视频库,对上述关键文本特征信息和上述每个视频的视频特征信息进行聚类,得到第一视频特征信息,并将该第一视频特征信息对应的视频,作为上述第一视频;其中,上述第一视频特征信息与上述关键文本特征信息间的相似度满足第一条件。
[0176]
可选地,在本技术实施例中,上述处理器110,具体用于将上述行为描述词和上述n个第一视频输入多模态特征提取模型后,将上述行为描述词转换为至少一个行为特征信息,并将上述n个第一视频转化为至少一个视频特征信息;从上述至少一个行为特征信息中,确定关键行为特征信息,并从上述至少一个视频特征信息中,确定第一关键视频特征信息;根据上述关键行为特征信息,从上述第一关键视频特征信息中,确定第二视频特征信息,并将该第二视频特征信息对应的视频片段,作为上述目标视频片段;其中,上述第二视频特征信息与上述关键行为特征信息间的相似度满足第二条件。
[0177]
可选地,在本技术实施例中,上述处理器110,具体用于将上述视觉描述词和上述n个第一视频输入多模态特征提取模型后,将上述视觉描述词转换为至少一个视觉特征信息,并将上述n个第一视频转化为至少一个视频特征信息;从上述至少一个视觉特征信息中,确定关键视觉特征信息,并从上述至少一个视频特征信息中,确定第二关键视频特征信息;根据上述关键视觉特征信息,从上述第二关键视频特征信息中,确定第三视频特征信息,并将该第三视频特征信息对应的视频帧,作为上述目标视频帧;其中,上述第三视频特征信息与上述关键视觉特征信息间的相似度满足第三条件。
[0178]
可选地,在本技术实施例中,上述处理器110,还用于在从n个第一视频中确定与上述行为描述词匹配的目标视频片段,以及从上述n个第一视频中确定与上述视觉描述词匹配的目标视频帧之前;将上述视频库中的上述多个视频输入多模态特征提取模型进行特征提取,输出上述多个视频中的每个视频的视频特征信息;将该视频特征信息存入上述视频库中。
[0179]
可选地,在本技术实施例中,上述目标视频片段包括多个视频片段;上述处理器110,具体用于按照上述行为描述词在上述第一文本中的语序,对上述多个视频片段进行排序;按照上述视觉描述词在上述第一文本中的语序,将上述目标视频帧与排序后的上述多个视频片段融合,生成目标视频。
[0180]
在本技术实施例提供的电子设备中,在基于文本生成视频时,电子设备可以先提取第一文本中的行为描述词和视觉描述词,然后从视频库中的与该第一文本相似的n个第一视频中确定与行为描述词匹配的目标视频片段和与视觉描述词匹配的目标视频帧,最后基于该目标视频片段和该目标视频帧,生成目标视频;其中,n为大于1的整数。如此,通过利用文本中用于描述主体行为的行为描述词,来从第一视频中查找到与该主体行为匹配的视频片段,并利用文本中用于描述视觉呈现画面的视觉描述词,来从第一视频中查找到与该视觉呈现画面匹配的视频帧,这样,将上述匹配到的视频片段和视频帧进行融合后,便可得到更加切题和真实的目标视频,保证了最终生成的视频的视频质量。
[0181]
应理解的是,本技术实施例中,输入单元104可以包括图形处理器(graphics processing unit,gpu)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0182]
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
[0183]
处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
[0184]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述视频生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0185]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0186]
本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述视频生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0187]
应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0188]
本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述视频生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0189]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述
的特征可在其他示例中被组合。
[0190]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0191]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1