本发明涉及视频语义处理,尤其涉及一种基于神经架构搜索的轻量化多模态视频事件解析方法。
背景技术:
1、视觉和听觉是人类感知世界的主要手段,视听信息的协同集成对人类的场景理解能力起着重要的作用,因此机器学习同样需要通过探索视听信息协作来追求类人感知。视听学习已经探索和研究了许多视听任务来帮助机器进行视听场景理解。尽管现有的方法已经在各自的任务上取得了非常高的性能,但这通常需要手工设计骨干网络和特征融合策略,且不同的网络结构往往只适用于特定的任务,这引起了人们对通用多模态方法的迫切关注。由于视听学习旨在学习视觉与听觉信息的联合表征,因此在视听融合时不仅需要融合跨模态信息,还需要对模态内和模态间的时序关系进行建模,这涉及两个关键问题,即特征选择策略与特征融合策略。
2、因此,如何进行特征选择且基于选定特征采用何种融合架构进行特征融合,提高计算效率和深度学习效果,是需要解决的技术问题。
技术实现思路
1、本发明实施例的目的是针对上述问题,提供一种基于神经架构搜索的轻量化多模态视频事件解析方法、装置、电子设备和存储介质。
2、为解决上述技术问题,本发明实施例是这样实现的:
3、第一方面,提出一种基于神经架构搜索的轻量化多模态视频事件解析方法,包括:
4、获取视频样本数据集,并对所述视频样本数据进行预处理,获得相对应的视频数据和音频数据;
5、构建多模态视频事件解析模型,所述多模态视频事件解析模型基于神经架构搜索网络进行构建,包括跨模态时序融合单元以及分别对应于视频数据和音频数据的至少2个单模态时序融合单元;
6、将所述视频数据和所述音频数据输入至特征提取网络,获得视频多尺度编码特征向量和音频多尺度编码特征向量;
7、将所述视频多尺度编码特征向量和所述音频多尺度编码特征向量分别输入至对应的单模态时序融合单元,分别获得视频单模态融合特征向量和音频单模态融合特征向量;
8、将所述视频多尺度编码特征向量和所述音频多尺度编码特征向量输入至跨模态时序融合单元,获得跨模态融合特征向量;
9、依据所述视频单模态融合特征向量、所述音频单模态融合特征向量和所述跨模态融合特征向量,获得多模态视频事件解析结果。
10、第二方面,提出一种基于神经架构搜索的轻量化多模态视频事件解析装置,包括:
11、第一模块,被配置为获取视频样本数据集,并对所述视频样本数据进行预处理,获得相对应的视频数据和音频数据;
12、第二模块,被配置为构建多模态视频事件解析模型,所述多模态视频事件解析模型基于神经架构搜索网络进行构建,包括跨模态时序融合单元以及分别对应于视频数据和音频数据的至少2个单模态时序融合单元;
13、第三模块,被配置为将所述视频数据和所述音频数据输入至特征提取网络,获得视频多尺度编码特征向量和音频多尺度编码特征向量;
14、第四模块,被配置为将所述视频多尺度编码特征向量和所述音频多尺度编码特征向量分别输入至对应的单模态时序融合单元,分别获得视频单模态融合特征向量和音频单模态融合特征向量;
15、第五模块,被配置为将所述视频多尺度编码特征向量和所述音频多尺度编码特征向量输入至跨模态时序融合单元,获得跨模态融合特征向量;
16、第六模块,被配置为依据所述视频单模态融合特征向量、所述音频单模态融合特征向量和所述跨模态融合特征向量,获得多模态视频事件解析结果。
17、第三方面,提出一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法。
18、第四方面,提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法。
19、本发明至少可以达到以下技术效果:
20、本申请实施例通过多尺度特征提取网络,可以处理不同模态数据并生成具有不同时间粒度的多尺度特征,建模多尺度事件语义;通过可搜索的多模态多尺度时序特征融合网络能够根据特定的搜索目标自动发现最优特征选择与特征融合策略,融合后的多模态上下文表征则可用于不同的下游任务;通过位置和长度自适应的时序注意力机制,利用神经架构搜索来自动确认最优的视听交互范围,在减轻噪音影响的同时,降低了模型计算量;在搜索目标中,基于最大化互信息确定模型训练损失函数,能够有效去除与下游任务无关的冗余信息和捕获跨越时间和不同模态的不变内容。
1.一种基于神经架构搜索的轻量化多模态视频事件解析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括线下特征提取模块和编码特征提取模块,所述线下特征提取模块基于卷积神经网络构建,所述编码特征提取模块基于transformer编码器构建;和/或,将所述视频数据和所述音频数据输入至所述特征提取网络,获得视频多尺度编码特征和音频多尺度编码特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述单模态时序融合单元包括1个候选特征池和预设数量的单模态融合单元,所述候选特征池包括所述视频多尺度编码特征向量或者音频多尺度编码特征向量;和/或,单模态融合单元执行单模态融合操作,获得单模态融合特征向量,包括:
4.根据权利要求3所述的方法,其特征在于,从所述候选特征池中确定2个输入编码特征向量,包括:
5.根据权利要求4所述的方法,其特征在于,当前单模态融合单元执行单模态融合操作,获得当前单模态融合单元的输出特征向量,包括:
6.根据权利要求1所述的方法,其特征在于,所述跨模态时序融合单元包括视频候选特征池、音频候选特征池和预设数量的跨模态融合单元;和/或,跨模态融合单元执行跨模态融合操作,获得跨模态融合特征向量,包括:
7.根据权利要求6所述的方法,其特征在于,从所述视频候选特征池和所述音频候选特征池中分别确定输入编码特征向量,包括:
8.根据权利要求7所述的方法,其特征在于,当前跨模态融合单元执行跨模态融合操作,获得当前跨模态融合单元的输出特征向量,包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:依据所述视频单模态融合特征向量、所述音频单模态融合特征向量和所述跨模态融合特征向量,确定用于训练所述多模态视频事件解析模型的目标损失函数l=ltask+λlcpc;其中,ltask为使用二分类交叉熵计算各个模态事件得到的总体分类预测损失,lcpc多模态互信息最大化目标损失函数,λ为多模态互信息最大化目标损失函数的权重因子。
10.根据权利要求9所述的方法,其特征在于,确定lcpc多模态互信息最大化目标损失函数lcpc=lmi(z,hv)+lmi(z,ha),式中其中hm表示单模态表征,包括视频单模态输出向量hv和音频单模态输出向量ha。