一种基于分层与整体多模态特征结合的视频问答方法

文档序号：37468348发布日期：2024-03-28 18:51阅读：来源：国知局

技术特征：

1.一种基于分层与整体多模态特征结合的视频问答方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤1中，首先将视频切分为k个片段，每个片段中包含l帧，然后使用resnet-101来提取视频帧中的外观特征fa，使用resnext-101来提取视频的运动特征fm，使用预训练的对象检测器来提取视频帧中的n个感兴趣空间，作为视频的空间特征fi。

3.根据权利要求2所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤1中，在提取完三种特征之后，将三种特征通过一维卷积层沿着时间维度投影到d维空间；其中，对于空间特征中的每个对象，分别添加了边界框位置fs和时间位置ft来强化空间特征表示，把三个分量连接起来并通过线性变换使其投影到d维空间，接着使用elu进行激活；对于外观特征和运动特征，沿着时间维度应用两个一维卷积来实现投影，滑动窗口大小设置为3，接着使用elu进行激活；然后将d维空间的三种特征串联起来并用elu进行激活，由此获得视频的全局特征faim。

4.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤2中，使用bi-gru将问答语句中的词语投影到d维空间作为部分视觉输入，表示为语言查询q，语言查询q由句中每个词语前向隐藏状态和后向隐藏状态连接表示，将最后一个隐藏状态作为文本全局向量，表示文本特征fq。

5.根据权利要求4所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：所述条件双向注意图卷积模块首先将一组输入视频节点xin通过用语言查询q扩充，表示为：

6.根据权利要求5所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤4中，首先将空间特征fi作为输入，并与文本特征一起输入到条件双向注意图卷积模块，得到第一输出特征：

7.根据权利要求5所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤5中，将第三输出特征fl与全局特征faim串联结合得到第一图数据fla，使用了随机mask与邻接矩阵a相乘进行图数据增强，得到第二图数据fmask，然后将fla与fmask分别通过图卷积得到第一最终特征fv与第二最终特征

8.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法，其特征在于：步骤6中，对于多选类问题，预测模型将第一最终特征fv与文本特征fq进行点积并用具有softmax的全连接层作为分类器：

技术总结
本发明公开了一种基于分层与整体多模态特征结合的视频问答方法，先提取视频中的外观特征、运动特征和空间特征，由外观特征、运动特征和空间特征获取视频的全局特征；再提取问答语句中的特征，获得文本特征；构建深度学习分层模型，所述深度学习分层模型具有多层条件双向注意图卷积模块和预测模块；将空间特征与文本特征输入至深度学习分层模型中得到第一最终特征与第二最终特征，将第一最终特征与第二最终特征作为输入，由预测模块中进行最终的答案输出。本发明可以集成多个方面的特征，从而正确分析问题并提供准确的答案。

技术研发人员：孙晓勇,戴煜,马伟锋,王雨晨,林雪芬
受保护的技术使用者：浙江科技学院
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

当前第2页1 2