一种基于多模态特征完备表示的短视频分类方法

文档序号：26007928发布日期：2021-07-23 21:27阅读：来源：国知局

技术特征：

1.一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述方法包括：

对于短视频自身内容信息，提出以视觉模态特征为主，从模态缺失角度构建四个子空间并分别获得潜在的特征表示，对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示；

对于标签信息，采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示，得到与短视频对应的标签向量表示；

对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案，用于获得短视频的标签预测分数；

模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成，用来度量网络输出值与实际值之间的差距，并以此来指导网络找寻模型最优解。

2.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述两类视觉模态特征潜在表示为：独特的视觉模态潜在表示和不同模态信息互补下的视觉模态潜在表示。

3.根据权利要求2所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述独特的视觉模态潜在表示为：

其中，表示视觉特征的映射器，θv表示待学习的网络参数，表示视觉模态潜在表示hv的维度是dh；zv表示原始视觉模态特征。

4.根据权利要求3所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述不同模态信息互补下的视觉模态潜在表示为：

将原始视觉模态特征zv和视觉表示空间下的音频模态特征相加后送入特征融合映射器φa中，生成音频模态信息补充后的视觉模态潜在表示

其中，θa：待学习的特征融合映射器参数，向量之间对应元素相加；

轨迹模态信息补充后的视觉模态潜在表示

其中，φt：特征融合映射器，θt：待学习的特征融合映射器参数；

当原始视觉模态特征zv、音频模态特征za、轨迹模态特征zt都存在时，用音频信息和轨迹信息联合补充视觉信息，得到新的视觉模态潜在表示

其中，φat：特征融合映射器，θat：待学习的特征融合映射器参数。

5.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述重建损失函数为：

其中，u为串联向量，h为视觉模态公共潜在表示，为重建表示，gae(·)：编码网络，gdg(·)：退化网络，wae：编码网络的待学习参数，wdg：退化网络的待学习参数，视觉模态公共潜在表示h的维度是du，重建表示的维度是2dh。

6.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示，得到与短视频对应的标签向量表示具体为：

引入逆协方差估计，对于给定的标签矩阵v，寻找逆协方差矩阵s^-1来表征标签的成对关系；

将输入到该网络中的标签矩阵v转换成新的标签矩阵，并输入到图关系函数g(g)中，计算出新的标签矩阵下的图结构s′。

7.根据权利要求1所述的一种基于多模态特征完备表示的短视频分类方法，其特征在于，所述基于多头注意的多头跨模态融合方案为：

利用短视频视觉特征公共潜在表示查询标签，计算相关性，对齐短视频视觉模态公共潜在表示和标签矩阵。

技术总结
本发明公开了一种基于多模态特征完备表示的短视频分类方法，所述方法包括：对于短视频自身内容信息，提出以视觉模态特征为主，从模态缺失角度构建四个子空间并分别获得潜在的特征表示，对四个子空间的潜在特征表示进一步利用自动编解码网络进行融合以保证学习到更鲁棒且有效的公共潜在表示；对于标签信息，采用逆协方差估计和图注意网络探究标签间的相关性并更新标签表示，得到与短视频对应的标签向量表示；对公共潜在表示和标签向量表示提出基于多头注意的多头跨模态融合方案，用于获得短视频的标签预测分数；模型的整体损失函数由传统的多标签分类损失和自动编解码网络的重建损失组成，用来度量网络输出值与实际值之间的差距，并以此来指导网络找寻模型最优解。

技术研发人员：井佩光;张丽娟;苏育挺
受保护的技术使用者：天津大学
技术研发日：2021.03.16
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2