1.一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述方法包括:
对于短视频自身内容信息,提出以视觉模态特征为主,从模态缺失角度构建四个子空间并分别获得潜在的特征表示,对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示;
对于标签信息,采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示;
对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案,用于获得短视频的标签预测分数;
模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成,用来度量网络输出值与实际值之间的差距,并以此来指导网络找寻模型最优解。
2.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述两类视觉模态特征潜在表示为:独特的视觉模态潜在表示和不同模态信息互补下的视觉模态潜在表示。
3.根据权利要求2所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述独特的视觉模态潜在表示为:
其中,
4.根据权利要求3所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述不同模态信息互补下的视觉模态潜在表示为:
将原始视觉模态特征zv和视觉表示空间下的音频模态特征
其中,θa:待学习的特征融合映射器参数,
轨迹模态信息补充后的视觉模态潜在表示
其中,φt:特征融合映射器,θt:待学习的特征融合映射器参数;
当原始视觉模态特征zv、音频模态特征za、轨迹模态特征zt都存在时,用音频信息和轨迹信息联合补充视觉信息,得到新的视觉模态潜在表示
其中,φat:特征融合映射器,θat:待学习的特征融合映射器参数。
5.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述重建损失函数为:
其中,
6.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示,得到与短视频对应的标签向量表示具体为:
引入逆协方差估计,对于给定的标签矩阵v,寻找逆协方差矩阵s-1来表征标签的成对关系;
将输入到该网络中的标签矩阵v转换成新的标签矩阵,并输入到图关系函数g(g)中,计算出新的标签矩阵下的图结构s′。
7.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法,其特征在于,所述基于多头注意的多头跨模态融合方案为:
利用短视频视觉特征公共潜在表示查询标签,计算相关性,对齐短视频视觉模态公共潜在表示和标签矩阵。