一种多尺度双流注意力视频语言事件预测的方法及装置

文档序号：31453605发布日期：2022-09-07 13:57阅读：79来源：国知局

1.本发明涉及人工智能技术领域，尤其涉及一种多尺度双流注意力视频语言事件预测的方法及装置。

背景技术：

2.近年来，互联网的飞速发展引发了信息的大爆炸，使得现时代又被称为信息时代。视频作为信息的最重要的、密度最大的载体，在网络中已经非常普遍。对如此海量的、与人们日常生活息息相关的数据进行分析可以产生巨大的价值，甚至带来重大的社会变革。部分视频分析技术已经在社会生活中得到了实用，如不良视频内容智能审核、视频目标检测，视频人脸识别等。但以视频问答、视频预测为代表的关于深层视频语义理解的相关研究的技术尚未得到大规模应用，原因之一是现有模型的表现太差、远达不到实际使用要求。其中，视频预测为基于视频语义理解以预测未来候选事件。
3.因此，如何提高视频预测的准确率是目前亟待解决的问题。

技术实现要素：

4.本发明提供一种多尺度双流注意力视频语言事件预测的方法及装置，用以解决现有技术中视频预测的准确率较低的缺陷，实现提高视频预测的准确率。
5.本发明提供一种多尺度双流注意力视频语言事件预测的方法，包括：获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
6.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述多尺度视频特征的生成包括：
7.采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧；
8.对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征。
9.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述不同采样尺度的视频帧包括：密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧；相应地，所述对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征，包括：
10.基于所述密集采样尺度的视频帧和预训练好的slowfast模型，得到所述密集采样
尺度的视频帧的第一视频特征；
11.基于所述一般采样尺度的视频帧和预训练好的resnet-152模型，得到所述一般采样尺度的视频帧的第二视频特征；
12.基于所述稀疏采样尺度的视频帧和预训练好的slowfast模型，得到所述稀疏采样尺度的视频帧的第三视频特征；基于所述稀疏采样尺度的视频帧和预训练好的resnet-152模型，得到所述稀疏采样尺度的视频帧的第四视频特征；并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征；
13.基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。
14.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述不同尺度的第一融合视频特征的生成，包括以下步骤：
15.基于未来候选事件引导的单模态特征转换层，将所述多尺度视频特征中不同尺度的视频特征分别与每一所述未来候选事件的特征融合，得到未来候选事件引导的不同尺度的视频特征的第六视频特征；
16.基于双流视频字幕跨模态融合层，将所述多尺度视频特征中不同尺度的视频特征分别与所述目标视频流对应的字幕的特征融合，并且将融合后的特征与每一所述未来候选事件的特征串联，得到字幕引导的不同尺度的视频特征；并将所述字幕引导的不同尺度的视频特征输入基于所述未来候选事件引导的单模态特征转换层，得到每一尺度的视频特征的第七视频特征；
17.将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度的第一融合视频特征。
18.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述不同尺度的第一融合字幕特征的生成，包括以下步骤：
19.基于未来候选事件引导的单模态特征转换层，将所述目标视频流对应的字幕的特征与每一所述未来候选事件的特征分别融合得到未来候选事件引导的第一字幕特征；
20.基于双流视频字幕跨模态融合层，将所述目标视频流对应的字幕的特征与所述多尺度视频特征分别融合，得到不同尺度的视频帧引导的字幕特征；并且基于所述未来候选事件引导的单模态特征转换层，将融合后的特征与每一所述未来候选事件的特征分别融合，得到视频引导的多个第二字幕特征；
21.将所述多个第一字幕特征和所述多个第二字幕特征拼接得到所述第一融合字幕特征。
22.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述多尺度双流注意力视频语言事件预测模型还包括字幕与未来候选事件特征提取模块，相应地，所述字幕的特征和所述多个未来候选事件的特征基于字幕与未来候选事件特征提取模块生成，包括：
23.将所述目标视频流对应的字幕输入所述字幕与未来候选事件特征提取模块，得到所述字幕的特征；
24.将所述多个未来候选事件输入所述字幕与未来候选事件特征提取模块，得到所述多个未来候选事件的特征。
25.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述多尺度双流注意力视频语言事件预测模型还包括多尺度融合模块，所述多尺度融合模块用于融合所述不同尺度的第一融合视频特征，得到第二融合视频特征，并用于融合所述不同尺度的第一融合字幕特征，得到第二融合字幕特征。
26.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述基于所述第一融合视频特征和所述第一融合字幕特征得到所述目标视频流的未来候选事件预测结果，包括：
27.对所述第二融合视频特征进行压缩，得到压缩后的第二融合视频特征；并对所述第二融合字幕特征进行压缩，得到压缩后的第二融合字幕特征；
28.基于所述压缩后的第二融合视频特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第一得分；并基于所述压缩后的第二融合字幕特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第二得分；
29.将每一未来候选事件的第一得分与每一未来候选事件的第二得分相加，得到所述目标视频流对应每一未来候选事件的总得分；
30.基于所述述目标视频流对应每一未来候选事件的总得分确定目标视频流对应的未来候选事件。
31.根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法，所述基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征，包括：
32.将所述第一视频特征、所述第二视频特征以及所述第五视频特征转换为相同的维度；
33.基于transformer编码器，对维度转换后的所述第一视频特征、所述第二视频特征以及所述第五视频特征分别进行时序编码，得到编码后的第一视频特征、第二视频特征以及所述第五视频特征；
34.将所述编码后的第一视频特征、第二视频特征以及所述第五视频特征作为多尺度视频特征。
35.本发明还提供一种多尺度双流注意力视频语言事件预测的装置，包括：
36.获取模块，用于获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；
37.处理模块，用于将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；
38.其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；
39.所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
40.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多尺度双流注意力视频语言事件预测的方法的步骤。
41.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多尺度双流注意力视频语言事件预测的方法的步骤。
42.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多尺度双流注意力视频语言事件预测的方法的步骤。
43.本发明提供的多尺度双流注意力视频语言事件预测的方法及装置，通过对视频进行多尺度处理得到多尺度的视频特征，使提取的视频特诊更加合理，并基于多尺度的视频特征与字幕的特征、多个未来候选事件的特征融合得到不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征，并基于不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征分别进行事件预测，再将预测结果结合确定最终的事件预测结果，全面的提取特征，并减少冗余特征，避免不同模态之间相互干扰造成的不利影响，有效的提高事件预测的准确率。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之一；
46.图2是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之二；
47.图3是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之三；
48.图4是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之四；
49.图5是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之五；
50.图6是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之六；
51.图7是本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之七；
52.图8是本发明提供的多尺度双流注意力视频语言事件预测的方法的框架示意图；
53.图9是本发明提供的多尺度双流注意力视频语言事件预测的装置的结构示意图；
54.图10是本发明提供的电子设备的结构示意图。
55.附图标记：
56.1010：处理器；1020：通信接口；1030：存储器；1040：通信总线。
具体实施方式
57.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.为了便于理解，首先对本发明涉及的背景技术进行简单介绍。
59.视频理解一般要求从外观特征和运动特征两方面对视频进行表征，即识别事件中的动作、它们之间的顺序以及视频镜头中的对象。然后进行视频与语言的跨模态融合。当前技术中，通常以相同的方法处理这两种不同的视频特征，常见的做法是以帧为单位，将每一帧的外观特征和运动特征做特征拼接，后续的处理对两种特征来说并无差别。但是每一帧的外观特征相对运动特征来说，其特征较易提取，因此，若采用相同的方式提取两种特征，会造成提取的外观特征的冗余，不利于模型的训练以及使用，并且会导致事件预测的准确率较低。
60.另外，当前技术中，通常以往往采用单流的跨模态融合方法，即先获得视频和字幕两种模态的联合表征，再将联合表征结果通过预测模块产生预测分数。但由于某些具体的样本可能只需要一种模态的信息便足以回答，一味地使用联合表征向量预测未来候选事件，不可避免的会引入冗余信息，以及发生不同模态之间相互干扰的情况。
61.下面结合图1-图10描述本发明的多尺度双流注意力视频语言事件预测的方法及装置。
62.图1为本发明提供的多尺度双流注意力视频语言事件预测的方法的流程示意图之一。可以理解，图1中的方法可以由多尺度双流注意力视频语言事件预测的装置执行。
63.如图1所示，本发明提供的尺度双流注意力视频语言事件的预测方法包括以下步骤：
64.步骤110、获取原始输入数据。
65.其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件。
66.其中，目标视频流对应的字幕为可以为：视频中对应的目标人物的对话文本。未来候选事件可以为根据目标人物正在进行的动作定义的未来可能会发生的事件。
67.步骤120、将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果。
68.其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块。所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
69.可以理解，由于在对视频流进行事件预测时，通过需要确定所述视频流中的视频帧图像中的外观特征以及动作特征预测即将发生的事件。其中，外观特征例如可以为人物
和场景对应的特征，动作特征例如可以为人物的动作特征。而一个视频流中每一视频帧的人物及场景变化与人物的动作变化相比较小，因此若采用相同的方法对人物、场景以及人物的动作提取相应的特征，会造成提取的外观特征的冗余，不利于模型的训练以及使用，并且会导致事件预测的准确率较低。因此，本发明采用多尺度视频处理模块，用于生成多尺度视频特征。
70.还可以理解，由于字幕特征和视频特征是两种不同模态的特征，因此，基于两种不同模态的特征分别对视频流进行事件预测，并将两种预测结果作为最终的预测结果，不仅能够多模态的进行事件预测，并且全面的提取特征，并减少冗余特征，避免不同模态之间相互干扰造成的不利影响。
71.此外，不仅基于字幕的特征和所述多尺度视频特征，还基于多个未来候选事件的特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征，从而使提取的视频特征和字幕特征中包括与每一未来候选事件相关的特征，使后续在进行事件预测时，能够基于视频、字幕和候选事件的关联得到对视频的预测结果。
72.本发明提供的多尺度双流注意力视频语言事件预测的方法，通过对视频进行多尺度处理得到多尺度的视频特征，使提取的视频特诊更加合理，并基于多尺度的视频特征与字幕的特征、多个未来候选事件的特征融合得到不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征，并基于不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征分别进行事件预测，再将预测结果结合确定最终的事件预测结果，全面的提取特征，并减少冗余特征，避免不同模态之间相互干扰造成的不利影响，有效的提高事件预测的准确率。
73.基于上述实施例，优选地，在本发明的一个实施例中，所述多尺度视频特征的生成，如图2所示，包括以下步骤：
74.步骤210、采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧。
75.其中，采样步长可以理解为采用不同的步长采集视频流中的视频帧，例如对同一视频流分别采用间隔为1帧、3帧或5帧的步长进行采样，得到对应的三组视频帧。
76.步骤220、对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征。
77.如前所述，由于在对视频流进行事件预测时，通过需要确定所述视频流中的视频帧图像中的外观特征以及动作特征预测即将发生的事件。而在一个视频流中，由于外观特征在一段时间内变化较小，人物动作特征在一定时间内变化较大，因此，可以对不同的采样步长得到视频帧以提取外观特征以及动作特征。
78.设视频帧序列长度为p，则视频特征可以表示为v∈r
p
×d。其中， d表示目标视频流中视频帧的个数。多尺度视频处理模块对视频帧序列特征v以不同的尺度进行采样，生成不同尺度的视频帧序列特征 v1,v2,...,vn。其中，n表示有n中采样尺度。
79.本发明提供的多尺度双流注意力视频语言事件预测的方法，通过采用不同的采样步长从视频流中提取不同尺度的视频帧，从而能够有效的分别提取出对应的外观特征和动作特征，便于模型的训练以及使用，并提高事件预测的准确率。
80.基于上述实施例，优选地，在本发明的一个实施例中，所述不同采样尺度的视频帧包括：密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧；相应地，所述对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征，如图3所示，包括
以下步骤：
81.步骤310、基于所述密集采样尺度的视频帧和预训练好的 slowfast模型，得到所述密集采样尺度的视频帧的第一视频特征。
82.其中，密集采样尺度的视频帧为基于较小的采样步长得到的视频帧。例如，可以将采用采样步长1对视频流采样得到的视频帧作为密集采样尺度的视频帧。预训练好的slowfast模型为在kinetics数据集上进行了预训练，用于提取视频帧的动作特征。
83.可以理解，采用预训练好的slowfast模型有利于减少事件预测模型整体的训练的时间，并提高事件预测的准确率。
84.其中，所述密集采样尺度的视频帧对应的d为2304帧。
85.可以理解，第一视频特征为：根据所述密集采样尺度的视频帧和预训练好的slowfast模型能够提取密集采样尺度的视频帧的动作特征。
86.步骤320、基于所述一般采样尺度的视频帧和预训练好的 resnet-152模型，得到所述一般采样尺度的视频帧的第二视频特征。
87.其中，一般采样尺度的视频帧为基于比所述密集采样尺度大的采样步长得到的视频帧。例如，可以将采用采样步长3对视频流采样得到的视频帧作为一般采样尺度的视频帧。预训练好的resnet-152模型为在imagenet数据集上进行了预训练，用于提取视频帧的外观特征。
88.可以理解，采用预训练好的resnet-152模型有利于减少事件预测模型整体的训练的时间，并提高事件预测的准确率。
89.可以理解，第二视频特征为：根据所述一般采样尺度的视频帧和预训练好的resnet-152模型能够提取一般采样尺度的视频帧的外观特征。
90.其中，所述一般采样尺度的视频帧对应的d为2048帧。
91.步骤330、基于所述稀疏采样尺度的视频帧和预训练好的 slowfast模型，得到所述稀疏采样尺度的视频帧的第三视频特征；基于所述稀疏采样尺度的视频帧和预训练好的resnet-152模型，得到所述稀疏采样尺度的视频帧的第四视频特征；并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征。
92.可以理解，视频语言事件预测作为视频语义理解任务，需要提取视频的各种特征，而resnet-152在提取视频外观特征方面性能卓越， slowfast在提取视频动作特征方面表现优异，二者相结合可以更全面的表征视频。
93.其中，稀疏采样尺度的视频帧为基于比所述一般采样尺度大的采样步长得到的视频帧。例如，可以将采用采样步长5对视频流采样得到的视频帧作为稀疏采样尺度的视频帧。
94.可以理解，第三视频特征为：根据所述稀疏采样尺度的视频帧和预训练好的slowfast模型能够提取稀疏采样尺度的视频帧的动作特征。第四视频特征为：根据所述稀疏采样尺度的视频帧和预训练好的 resnet-152模型能够提取稀疏采样尺度的视频帧的外观特征。
95.其中，所述稀疏采样尺度的视频帧对应的d为4352(2304+2048) 帧。
96.还可以理解，所述第三视频特征和所述第四视频特征拼接得到第五视频特征，从而得到视频帧的动作特征和外观特征的联合特征，从而丰富了提取的视频帧特征。
97.步骤340、基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。
98.可以理解，多尺度特征包括了视频帧的动作特征、外观特征以及视频帧的动作特征和外观特征的联合特征，从而丰富了提取的视频特征。
99.本发明提供的多尺度双流注意力视频语言事件预测的方法，通过对不同采样尺度的视频帧采用不同的特征提取方法提取，从而得到多尺度的视频特征，提取出不同方向的视频特征，丰富了视频特征。
100.基于上述实施例，优选地，在本发明的一个实施例中，所述不同尺度的第一融合视频特征的生成，如图4所示，包括以下步骤：
101.步骤410、基于未来候选事件引导的单模态特征转换层，将所述多尺度视频特征中不同尺度的视频特征分别与每一所述未来候选事件的特征融合，得到未来候选事件引导的不同尺度的视频特征的第六视频特征。
102.其中，未来候选事件引导的单模态特征转换层(可以简称为 seg/veg)，可以为一层transformer编码器。
103.设未来候选事件的token级长度为r。则每个未来候选事件的特征可以表示为ei∈rr×a，i∈{1,2,
…
，a}。其中，a表示未来候选事件的个数，a与前文中的d对应。可以理解，未来候选事件为一个文本语句，可以采用现有技术将每一所述未来事件转换为一组词序列，词序列中的每个词可以对应一个token。因此，token级长度r即每一未来候选事件对应的词序列的长度。
104.在一种可能的实现方式中，首先将每一尺度的视频特征与每一所述未来候选事件的特征串联起来，得到初步的联合特征[v～e]∈ r
(p+r)
×d，其中
‘
～’表示串联操作；然后，将联合特征[v～e]∈r
(p+r)
×d输入未来候选事件引导的单模态特征转换层，利用自注意力机制，产生未来候选事件e引导的视频v的表征ve以及视频v引导的未来候选事件e的表征ev的联合表征[ve～ev]∈r
(p+r)
×d。最后，从联合表征 [ve～ev]拆分出未来候选事件e引导的视频v的表征ve作为不同尺度的视频特征的第六视频特征。
[0105]
其中，每一尺度的视频特征与每一所述未来候选事件的特征串联起来，可以理解为：在视频序列长度和未来候选事件的token级长度的维度上进行连接，即将一个视频帧的特征与对应的一个未来候选事件的特征进行连接，具体可以参考联合特征的表示形式[v～e]∈ r
(p+r)
×d。可以理解，由于a与d对应，均可以表示某一模态特征的个数，因此，r
(p+r)
×d想要表达的意思是特征串联是在不同模态的特征序列长度方向的串联，而不是不同模态的特征数量的串联。
[0106]
为了便于理解，举例说明第六视频特征。例如，若密集采样尺度的视频帧的第一视频特征用v1表示，未来候选事件的特征为e1、e2，则将第一视频特征v1和e1、e2分别融合得到分别融合得到和结合前述内容，基于联合特征得到的融合特征包括ve和 ev两种形式的特征，需要从两种形式的特征中拆分得到未来候选事件 e引导的视频v的表征ve，作为每个采样尺度的视频特征的第六视频特征。因此，确定密集采样尺度的视频帧的第六视频特征为和和可以统一表示为v
1e
。
[0107]
步骤420、基于双流视频字幕跨模态融合层，将所述多尺度视频特征中不同尺度的视频特征分别与所述目标视频流对应的字幕的特征融合，并且将融合后的特征与每一所述未来候选事件的特征串联，得到字幕引导的不同尺度的视频特征；并将所述字幕引导的不同尺度的视频特征输入所述未来候选事件引导的单模态特征转换层，得到每一尺度的视频特征的第七视频特征。
[0108]
其中，双流视频字幕跨模态融合层(可以简称为svvs)，可以为一层transformer编码器。
[0109]
设整个字幕序列的token级长度为q，则字幕的特征可以表示为 s∈rq×b。其中，b表示字幕的个数。可以理解，字幕为一个文本语句，可以采用现有技术将每一字幕转换为一组词序列，词序列中的每个词可以对应一个token。因此，token级长度q即每一字幕对应的词序列的长度。
[0110]
在一种可能的实现方式中，首先将每一尺度的视频特征与每一所述字幕的特征串联起来，得到初步的联合特征[s～v]∈r
(q+r)
×d，其中
‘
～’表示串联操作；可以理解，由于b与d对应，均可以表示某一模态特征的个数，因此，r
(q+r)
×d想要表达的意思是特征串联是在不同模态的特征序列长度方向的串联，而不是不同模态的特征数量的串联，然后，将联合特征[s～v]∈r
(q+r)
×d输入未来候选事件引导的单模态特征转换层，利用自注意力机制，产生字幕s引导的视频v的表征vs以及视频v引导的字幕s的表征sv的联合表征[vs～sv]∈r
(q+r)
×d。最后，从联合表征[vs～sv]拆分出字幕s引导的视频v的表征vs以及视频v 引导的字幕s的表征sv，作为不同尺度的视频特征与字幕特征的融合特征。其中，sv和vs特征的获取过程与步骤410中ve的获取过程类似，为了简洁，此处不再赘述。
[0111]
可以理解，在得到vs后，还需与每一所述未来候选事件串联，基于串联后的特征得到字幕引导的不同尺度的视频特征v
se
。其中，若采用三种采样尺度，2个未来候选事件，则v
se
包括v
1se
、v
2se
和v
3se
； v
1se
包括和v
2se
和v
3se
与v
1se
类似，不再展开描述。
[0112]
步骤430、将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度的第一融合视频特征。
[0113]
为了便于理解，结合前面的示例，说明第一融合视频特征。如前所述，假如密集采样尺度的第六视频特征为v
1e
，密集采样尺度的第七视频特征为v
1se
，则密集采样尺度的第一融合视频特征[v
1e
；v
1se
]∈ r
p
×2×d。
[0114]
本发明提供的多尺度双流注意力视频语言事件预测的方法，通过将由未来候选事件的特征和不同尺度的视频特征融合，得到未来候选事件e引导的视频v的表征ve，并将由字幕s引导的视频v的表征vs和未来候选事件e融合得到v
se
，将ve和v
se
共同作为第一融合视频特征，从而提取出未来候选事件、字幕与视频帧的关联特征，使三者的关系被有效表示，并且，基于不同采样尺度的视频帧具有对应的第一融合视频特征，丰富了视频特征的多样性。
[0115]
基于上述实施例，优选地，在本发明的一个实施例中，所述不同尺度的第一融合字幕特征的生成，如图5所示，包括以下步骤：
[0116]
步骤510、基于未来候选事件引导的单模态特征转换层，将所述目标视频流对应的字幕的特征与每一所述未来候选事件的特征分别融合得到未来候选事件引导的第一字幕
特征。
[0117]
其中，未来候选事件引导的第一字幕特征与步骤410中，未来候选事件引导的不同尺度的视频特征的形成过程类似，为了简洁，此处不再赘述。最终形成的第一字幕特征可以表示为se。
[0118]
步骤520、基于双流视频字幕跨模态融合层，将所述目标视频流对应的字幕的特征与所述多尺度视频特征分别融合，得到不同尺度的视频帧引导的字幕特征；并且基于所述未来候选事件引导的单模态特征转换层，将融合后的特征与每一所述未来候选事件的特征分别融合，得到视频引导的多个第二字幕特征。
[0119]
其中，将所述目标视频流对应的字幕的特征与所述不同尺度的视频特征分别融合的过程可以参考步骤420，融合后得到不同尺度的视频引导的字幕特征sv，然后采用和步骤420类似的方法，将sv和每一所述未来候选事件的特征融合，从而得到视频引导的多个第二字幕特征s
ve
。其中，若采用三种采样尺度，2个未来候选事件，则s
ve
包括包括和包括和和与类似，不再展开描述。
[0120]
步骤530、将所述多个第一字幕特征和所述多个第二字幕特征拼接得到所述第一融合字幕特征。
[0121]
为了便于理解，结合前面的示例，说明第一融合字幕特征。例如，未来候选事件引导的第一字幕特征为se，密集采样尺度的视频引导的字幕特征和未来候选事件e融合得到则密集采样尺度的第一融合字幕特征为
[0122]
本发明提供的多尺度双流注意力视频语言事件预测的方法，通过将由未来候选事件的特征和字幕的特征融合，得到未来候选事件引导的第一字幕特征se，并将由不同尺度的视频引导的字幕特征sv和未来候选事件e融合得到s
ve
，将se和s
ve
共同作为第一融合视频特征，从而提取出未来候选事件、视频帧与字幕的关联特征，使三者的关系被有效表示，并且，基于不同采样尺度的视频帧具有对应的第一融合字幕特征，丰富了字幕特征的多样性。
[0123]
基于上述实施例，优选地，在本发明的一个实施例中，所述多尺度双流注意力视频语言事件预测模型还包括字幕与未来候选事件特征提取模块，相应地，所述字幕的特征和所述多个未来候选事件的特征基于字幕与未来候选事件特征提取模块生成，包括：
[0124]
将所述目标视频流对应的字幕输入所述字幕与未来候选事件特征提取模块，得到所述字幕的特征；
[0125]
将所述多个未来候选事件输入所述字幕与未来候选事件特征提取模块，得到所述多个未来候选事件的特征。
[0126]
其中，字幕与未来候选事件特征提取模块例如可以为预训练好的 roberta-base模型。所述roberta-base模型用于提取文本特征。
[0127]
本发明提供的多尺度双流注意力视频语言事件预测的方法，通过基于预训练好的roberta-base模型有利于减少事件预测模型整体的训练的时间，并提高事件预测的准确率。
[0128]
基于上述实施例，优选地，在本发明的一个实施例中，所述多尺度双流注意力视频语言事件预测模型还包括多尺度融合模块，所述多尺度融合模块用于融合所述不同尺度的
第一融合视频特征，得到第二融合视频特征，并用于融合所述不同尺度的第一融合字幕特征，得到第二融合字幕特征。
[0129]
为了便于理解，举例说明所述第二融合视频特征和所述第二融合字幕特征。
[0130]
若密集采样尺度的第一融合视频特征为[v
1e
；v
1se
]∈r
p
×2×d，一般采样尺度的第一融合视频特征为[v
2e
；v
2se
]∈r
p
×2×d，稀疏采样尺度的第一融合视频特征为[v
3e
；v
3se
]∈r
p
×2×d，则对应的第二融合视频特征为[ve；v
se
]，其中，ve为v
1e
、v
2e
和v
3e
几个矩阵相加求和得到，v
se
为v
1se
、v
2se
和v
3se
几个矩阵相加求和得到。
[0131]
同理，若密集采样尺度的第一融合字幕特征为一般采样尺度的第一融合字幕特征为稀疏采样尺度的第一融合字幕特征为则对应的第二融合字幕特征为[se；s
ve
]，其中，s
ve
为和几个矩阵相加求和得到。
[0132]
本发明提供的多尺度双流注意力视频语言事件预测的方法，通过将不同尺度的视频特征以及字幕特征分别求和，从而将不同尺度的特征融合得到了多尺度融合后的特征，从而便于后续处理。
[0133]
基于上述实施例，优选地，在本发明的一个实施例中，所述基于所述第一融合视频特征和所述第一融合字幕特征得到所述目标视频流的未来候选事件预测结果，如图6所示，包括以下步骤：
[0134]
步骤610、对所述第二融合视频特征进行压缩，得到压缩后的第二融合视频特征；并对所述第二融合字幕特征进行压缩，得到压缩后的第二融合字幕特征。
[0135]
可以理解，对第二融合视频特征和第二融合字幕特征进行压缩，有助于减少冗余特征，比有助于加快事件预测模型预测的速度。
[0136]
优选地，可以采用最大池化(maxpool)对第二融合视频特征和第二融合字幕特征进行压缩。
[0137]
也可以采用其他方法，比如平均值池化等进行压缩，本发明对此不作限定。
[0138]
步骤620、基于所述压缩后的第二融合视频特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第一得分；并基于所述压缩后的第二融合字幕特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第二得分。
[0139]
可以理解，分别基于第二融合视频特征和第二融合字幕特征进行事件预测，有利于区分两者的预测结果，并且使模型在进行事件预测时更具有灵活性。
[0140]
优选地，可以采用以gelu函数作为激活函数的，由两个线性层组成的多层感知机(multilayer perceptron，mlp)进行事件预测。
[0141]
步骤630、将每一未来候选事件的第一得分与每一未来候选事件的第二得分相加，得到所述目标视频流对应每一未来候选事件的总得分。
[0142]
可以理解，未来候选事件有多个，因此，对应的得分为针对每一未来候选事件都有相应的得分。
[0143]
步骤640、基于所述述目标视频流对应每一未来候选事件的总得分确定目标视频流对应的未来候选事件。
[0144]
优选地，可以通过softmax对每一未来候选事件的总得分归一化，选取得分最高的未来候选事件为目标视频流对应的未来候选事件。
[0145]
本发明提供的多尺度双流注意力视频语言事件预测的方法，通过分别基于第二融合视频特征和第二融合字幕特征进行事件预测，有利于区分两者的预测结果，并且使模型在进行事件预测时更具有灵活性。并且，将两者的预测结果求和，也有利于提高模型的准确性。
[0146]
基于上述实施例，优选地，在本发明的一个实施例中，所述基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征，如图7所示，包括以下步骤：
[0147]
步骤710、将所述第一视频特征、所述第二视频特征以及所述第五视频特征转换为相同的维度。
[0148]
可以理解，由于所述第一视频特征、所述第二视频特征以及所述第五视频特征是不同维度的视频特征，因此，需要将它们转换为相同的维度，便于后续处理。
[0149]
具体地，可以采用一个线性层、如全连接层(fully connected layer， fc)将其转换为统一的维度。转换后的维度可以为768维。
[0150]
步骤720、基于transformer编码器，对维度转换后的所述第一视频特征、所述第二视频特征以及所述第五视频特征分别进行时序编码，得到编码后的第一视频特征、第二视频特征以及所述第五视频特征。
[0151]
可以理解，为了提取所述第一视频特征、所述第二视频特征以及所述第五视频特征的时序特征，可以基于一层transformer编码器对所述第一视频特征、所述第二视频特征以及所述第五视频特征的时序特征进行编码。transformer编码器对视频特征进行时序编码的原理是利用self-attention机制对目标视频流的视频帧的“关注”。
[0152]
步骤730、将所述编码后的第一视频特征、第二视频特征以及所述第五视频特征作为多尺度视频特征。
[0153]
可以理解，编码后得到的多尺度视频特征具有时序关联性，有利于提高事件预测的准确率。
[0154]
本发明提供的多尺度双流注意力视频语言事件预测的方法，通过对不同尺度的视频特征进行维度转换以及编码，从而确定多尺度特征，从而使得到的多尺度特征具有时序性，便于后续处理，有利于提高事件预测的准确率。
[0155]
图8为本发明提供的多尺度双流注意力视频语言事件预测的方法的框架示意图。
[0156]
如图8所示，本发明提供的多尺度双流注意力视频语言事件预测的方法的框架共包括输入表征、多尺度采样与编码、跨模态融合v1、跨模态融合v2、跨模态融合v3、多尺度融合和预测输出几个部分。
[0157]
其中，输入表征，分别采用不同的模型对未来事件、字幕和视频三者提取得到相应的特征。其中，视频可以为目标视频流，未来事件为根据目标视频流预设的未来候选事件，可以是一个文本的形式。例如可以为“the women in the white shirt...”。字幕为目标视频流中对应的字幕，可以为一个文本，例如可以为“oh yeah！maybe a shake...”。将所述未来事件和字幕分别输入至roberta-base模型提取特征分别得到未来事件的特征e和字幕的特征s。然后可以基于slowfast模型和 resnet-152模型以及多尺度采样器生成多尺度视频
特征。具体地，可以参考前文多尺度视频特征的生成方法提取目标视频流中的多尺度视频特征。
[0158]
其次，将多尺度采样器得到多尺度视频特征，分别输入对应的全连接层fc以及一层transformer编码器(对应图中的t-e)，从而得到编码后的多尺度视频特征v1、v2和v3。
[0159]
然后，分别对v1、v2和v3进行跨模态融合得到不同尺度融合后的第一融合视频特征和第一融合字幕特征。图8中具体示意了一种尺度下的第一融合视频特征和第一融合字幕特征的获取过程，最终，得到一种尺度的特征v1对应的第一融合字幕特征为第一融合视频特征[v
1e
；v
1se
]。具体地，第一融合视频特征和第一融合字幕特征可参考前文的相关描述，此处不再赘述。
[0160]
可以理解，图8中详细示意了一种尺度的特征v1对应的第一融合视频特征和第一融合字幕特征的获取过程，v2和v3的第一融合视频特征和第一融合字幕特征的获取过程与v1类似，此处不再赘述。
[0161]
最后，在经过跨模态融合得到v1、v2和v3对应的第一融合视频特征和第一融合字幕特征后，对不同尺度的第一融合视频特征进行融合，以及对不同尺度的第一融合字幕特征进行融合，得到第二融合视频特征[ve；v
se
]和第二融合字幕特征[se；s
ve
]。将第二融合视频特征 [ve；v
se
]和第二融合字幕特征[se；s
ve
]分别输入maxpool，对第二融合视频特征和第二融合字幕特征进行压缩，将压缩后的特征分别输入 mlp进行事件预测，分别基于第二融合视频特征[ve；v
se
]得到目标视频流对应多个未来候选事件的多个第一得分，和基于第二融合字幕特征[se；s
ve
]得到目标视频流对应多个未来候选事件的多个第二得分，然后将每一未来候选事件的多个第一得分和第二得分相加得到每一未来候选事件的总得分，通过softmax对每一未来候选事件的总得分归一化，选取得分最高的未来候选事件为目标视频流对应的未来候选事件。
[0162]
下面结合图8和表1中的实验结果说明本发明的能够达到的效果。
[0163]
表1
[0164]
模型准确率(％)骨干67.33骨干+多尺度采样68.08骨干+跨模态融合68.62完整模型69.65
[0165]
如表1所示，其中，骨干模型为图8中将多尺度采样器和多尺度融合去掉，并且将跨模态融合去掉之后，其他部分适应性调整得到的模型。基于骨干模型，得到的准确率为67.33％。骨干+多尺度采样对应的模型为将图8中的跨模态融合去掉之后，其他部分适应性调整之后的模型，其对应的准确率为68.08％。骨干+跨模态融合对应的模型为将图8中的多尺度采样器和多尺度融合去掉之后，其他部分适应性调整之后的模型，其对应的准确率为68.62％。最终，采用图8中的完整的模型得到的准确率为69.65％。
[0166]
因此，可以知道，采用本发明提供的多尺度双流注意力视频语言事件预测的方法能够有效的提高事件预测的准确性。
[0167]
图9是本发明提供的多尺度双流注意力视频语言事件预测的装置的示意图，如图9
所示，本发明实施例提供的多尺度双流注意力视频语言事件预测的装置，包括：
[0168]
获取模块910，用于获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；
[0169]
处理模块920，用于将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；
[0170]
其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；
[0171]
所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
[0172]
本发明实施例提供的多尺度双流注意力视频语言事件预测的装置，具体执行上述多尺度双流注意力视频语言事件预测的方法实施例流程，具体请详见上述多尺度双流注意力视频语言事件预测的方法实施例的内容，在此不再赘述。
[0173]
本发明提供的多尺度双流注意力视频语言事件预测的装置，通过对视频进行多尺度处理得到多尺度的视频特征，使提取的视频特诊更加合理，并基于多尺度的视频特征与字幕的特征、多个未来候选事件的特征融合得到不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征，并基于不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征分别进行事件预测，再将预测结果结合确定最终的事件预测结果，全面的提取特征，并减少冗余特征，避免不同模态之间相互干扰造成的不利影响，有效的提高事件预测的准确率。
[0174]
图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(communicationsinterface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行多尺度双流注意力视频语言事件预测的方法，包括：获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
[0175]
此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom， read-only memory)、随机存取存储器(ram，random accessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0176]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行本发明所提供的多尺度双流注意力视频语言事件预测的方法，包括：获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
[0177]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行本发明所提供的多尺度双流注意力视频语言事件预测的方法，包括：获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
[0178]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0179]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
[0180]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王丹力郑楠马鑫伟
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。