一种机场运控视频检索的方法

文档序号：37544066发布日期：2024-04-08 13:46阅读：来源：国知局

技术特征：

1.一种机场运控视频检索的方法，其特征在于，包括下列步骤：

2.如权利要求1所述的方法，其特征在于，步骤1中，对原始视频数据集中的数据进行预处理包括：

3.如权利要求2所述的方法，其特征在于，步骤2包括：

4.如权利要求2所述的方法，其特征在于，步骤3中，构建的基于自注意力的视频序列分析器包括若干层transformer模块的transformer堆叠结构，并在视频序列分析器的输入序列的第一位添加class_token后，再对整个序列进行可学习的位置编码，接着将位置编码结果输入transformer堆叠结构；

5.如权利要求1所述的方法，其特征在于，步骤4中，基于bert-base-uncased模型的前八层构建的文本序列分析。

6.如权利要求4所述的方法，其特征在于，步骤5中的对比损失具体计算方式为：

7.如权利要求1所述的方法，其特征在于，步骤6中，基于提示学习的文本处理方式为：在原描述文本输入的末端添加提示信息，该提示信息用于标识特定视频片段的检索开始时间与检索结束时间的定位，定义yp表示基于提示学习的文本处理后的文本描述；再将文本描述yp送入文本序列分析器进行嵌入得到特征维度m1的提示文本特征序列，记为p＝{pcls,p1,p2,...,pn}，其中，pcls表示视频序列分析器输出的提示文本的class_token向量。

8.如权利要求1所述的方法，其特征在于，步骤7中，所述多模态融合模型包括三个融合块，每个融合块依次包括：掩码多头注意力层、加法和规范化层、掩码多头互注意力层、加法和规范化层、前馈神经网络层和加法和规范化层；

9.如权利要求1至8任一项所述的方法，其特征在于，步骤7中，基于视频定位预测结果与真实时间标签在整个视频时间段的高斯分布进行kl散度损失函数计算损失；

技术总结
本发明公开了一种机场运控视频检索的方法，属于机场场面运控管理及人工智能多模态领域。本发明包括：采集包含机场人体动作的视频数据并做文本描述与时序标注；对原始视频数据进行预处理生成数据集；构建基于I3D的骨干网络获取视频特征序列；构建基于自注意力的视频序列分析器；构建文本序列分析器对标注文本进行嵌入；取标注文本嵌入后特征与其对应的视频片段经过视频序列分析器得到的特征计算相似性；构建基于提示学习的文本处理方法，处理后送入文本序列分析器进行嵌入；构建基于互注意力的多模态融合模型，完成对视频流中文本描述片段的定位与检索。本发明通过上述技术方案，在减少模型计算量的前提下大幅提升了机场运控视频检索的准确度。

技术研发人员：程建,石俊豪,陈子翀,李晓辰,夏子瀛
受保护的技术使用者：电子科技大学
技术研发日：
技术公布日：2024/4/7

完整全部详细技术资料下载

当前第2页1 2