1.一种基于分层与整体多模态特征结合的视频问答方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:步骤1中,首先将视频切分为k个片段,每个片段中包含l帧,然后使用resnet-101来提取视频帧中的外观特征fa,使用resnext-101来提取视频的运动特征fm,使用预训练的对象检测器来提取视频帧中的n个感兴趣空间,作为视频的空间特征fi。
3.根据权利要求2所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:步骤1中,在提取完三种特征之后,将三种特征通过一维卷积层沿着时间维度投影到d维空间;其中,对于空间特征中的每个对象,分别添加了边界框位置fs和时间位置ft来强化空间特征表示,把三个分量连接起来并通过线性变换使其投影到d维空间,接着使用elu进行激活;对于外观特征和运动特征,沿着时间维度应用两个一维卷积来实现投影,滑动窗口大小设置为3,接着使用elu进行激活;然后将d维空间的三种特征串联起来并用elu进行激活,由此获得视频的全局特征faim。
4.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:步骤2中,使用bi-gru将问答语句中的词语投影到d维空间作为部分视觉输入,表示为语言查询q,语言查询q由句中每个词语前向隐藏状态和后向隐藏状态连接表示,将最后一个隐藏状态作为文本全局向量,表示文本特征fq。
5.根据权利要求4所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:所述条件双向注意图卷积模块首先将一组输入视频节点xin通过用语言查询q扩充,表示为:
6.根据权利要求5所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:步骤4中,首先将空间特征fi作为输入,并与文本特征一起输入到条件双向注意图卷积模块,得到第一输出特征:
7.根据权利要求5所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:步骤5中,将第三输出特征fl与全局特征faim串联结合得到第一图数据fla,使用了随机mask与邻接矩阵a相乘进行图数据增强,得到第二图数据fmask,然后将fla与fmask分别通过图卷积得到第一最终特征fv与第二最终特征
8.根据权利要求1所述的基于分层与整体多模态特征结合的视频问答方法,其特征在于:步骤6中,对于多选类问题,预测模型将第一最终特征fv与文本特征fq进行点积并用具有softmax的全连接层作为分类器: