1.一种机场运控视频检索的方法,其特征在于,包括下列步骤:
2.如权利要求1所述的方法,其特征在于,步骤1中,对原始视频数据集中的数据进行预处理包括:
3.如权利要求2所述的方法,其特征在于,步骤2包括:
4.如权利要求2所述的方法,其特征在于,步骤3中,构建的基于自注意力的视频序列分析器包括若干层transformer模块的transformer堆叠结构,并在视频序列分析器的输入序列的第一位添加class_token后,再对整个序列进行可学习的位置编码,接着将位置编码结果输入transformer堆叠结构;
5.如权利要求1所述的方法,其特征在于,步骤4中,基于bert-base-uncased模型的前八层构建的文本序列分析。
6.如权利要求4所述的方法,其特征在于,步骤5中的对比损失具体计算方式为:
7.如权利要求1所述的方法,其特征在于,步骤6中,基于提示学习的文本处理方式为:在原描述文本输入的末端添加提示信息,该提示信息用于标识特定视频片段的检索开始时间与检索结束时间的定位,定义yp表示基于提示学习的文本处理后的文本描述;再将文本描述yp送入文本序列分析器进行嵌入得到特征维度m1的提示文本特征序列,记为p={pcls,p1,p2,...,pn},其中,pcls表示视频序列分析器输出的提示文本的class_token向量。
8.如权利要求1所述的方法,其特征在于,步骤7中,所述多模态融合模型包括三个融合块,每个融合块依次包括:掩码多头注意力层、加法和规范化层、掩码多头互注意力层、加法和规范化层、前馈神经网络层和加法和规范化层;
9.如权利要求1至8任一项所述的方法,其特征在于,步骤7中,基于视频定位预测结果与真实时间标签在整个视频时间段的高斯分布进行kl散度损失函数计算损失;