多模态特征嵌入预训练网络搭配效果评估的上界替代法

文档序号：26007297发布日期：2021-07-23 21:26阅读：143来源：国知局

本发明属于计算机视觉技术领域，具体来说，涉及多模态特征嵌入预训练网络搭配选取办法。

背景技术：

多模态任务指涉及多个模态数据输入的计算机视觉任务(比如视频、音频、文字)，该任务的输入绝大多数情况是用特征嵌入预训练网络提取到的各个模态特征而非源数据本身。多模态任务涉及到的难点在于不同模态数据信息的融合。前人将多模态任务融合难这个问题归结于不同模态数据本身的各种差异性(载体不同、表达方式不同)，但是毫无疑问的是，用来提取特征的预训练网络本身也会对多模态融合造成很大的影响。因此特征嵌入预训练网络怎么选，不同模态的预训练网络怎么搭配，是很有研究价值的问题。

本发明适用的领域尚未由严格上的同类技术，比较常用的方法是遍历法。具体上来说，即在训练集上进行训练，然后在测试集上进行测试，记录结果。以上步骤遍历所有预训练特征模型，比较不同预训练模型搭配在测试集上得到的结果，选择其中最优的结果。这样的方法最大的问题是耗时间，由于这种方法需要对每一种模型搭配都进行训练+测试这么一个过程，且没有将得到结果和选取预训练模型搭配这两件事解耦，因此只有得到最终实验结果来进行比较后才能判明哪一种搭配是最好的。在训练集越来越大，涉及的数据模态越来越多的今天愈发的不合适。

技术实现要素：

针对于选取最优多模态特征嵌入预训练网络搭配耗时长的问题，提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法。能够有效地缩短选取最优多模态特征嵌入预训练网络搭配所消耗的时间。该方法耗时短，适用于训练所需时间越来越长的多模态问题现状。

本发明提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法，其特征在于，包括以下步骤：

步骤1、将所有多模态特征嵌入预训练网络所提取到的特征进行遍历搭配。

步骤2、针对于步骤1中得到的所有的搭配情况，对任务网络按照正式训练时提前设定好的参数，利用测试集部分进行训练。

本步中提及到的训练即对应具体任务的训练。

步骤3、针对于步骤2中得到的每种搭配对应的任务模型，对其在测试集上进行测试，记录每一种搭配所对应的测试结果。

具体来说，对已经用对应预训练模型提取的特征训练好的任务模型，在该种预训练模型提取特征的测试集上进行具体任务的推理过程，利用该具体任务的评价指标进行评价，得到该具体任务下的评估效果。

步骤4、针对于步骤3中所对应的每一种测试结果，选择效果最好的结果对应的多模态特征嵌入预训练网络搭配。

本步骤中得到的任务效果效果并不能直接真实表示该模型在具体任务种的实际效果，但是不同本步骤中得到的各种预训练模型搭配下的比较关系是和实际相同的。因此可以用来比较、选取最优多模态特征嵌入预训练网络搭配。

步骤5、对于步骤4中选出的网络搭配，将任务模型在这种搭配下所对应的训练集的特征下进行训练，训练得到的模型就是最优的模型。

本发明提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法，其特征在于，步骤1中包括以下步骤：

步骤1.1、固定住各个模态的预训练网络的网络参数，仅保留最后一个全连接层的网络参数可训练。

步骤1.2、将这些预训练网络用对应具体任务的数据集进行训练，微调其全连接层的网络参数，使其更加符合任务场景。

本步中提到的训练一般是指在对应数据集上的分类训练。

步骤1.3、用训练好的预训练网络模型对任务数据集进行特征提取，提取到对应的特征。

上述的多模态特征嵌入预训练网络搭配效果评估的上界替代法，其特征在于，将传统遍历法中“比较在训练集上训练的模型在测试集上的表现效果”这个耗时的过程转化为比较这个过程中“表现效果”的上界，即“比较在测试集上训练的模型在测试集上的表现效果”，将传统遍历法中“选择最优多模态特征嵌入预训练网络搭配”和“得到对应搭配任务网络的训练效果”这两件捆绑在一起的事情解耦。

本方法中所涉及到的测试集指正式训练过程中用来测试模型性能的数据集，并不涉及不可见部分。

本方法的特点：

由于将传统遍历法中“选择最优多模态特征嵌入预训练网络搭配”和“得到对应搭配任务网络的训练效果”这两件捆绑在一起的事情解耦，因此使用本方法仅用对任务模型在训练集上进行一次训练，同时由于训练集数据量远大于测试集，因此本方法对所有预训练模型搭配情况下，对任务模型用测试集训练这个操作相比于遍历法中对所有情况，用训练集对任务模型进行训练这个操作更加省时。

附图说明

图1是传统遍历法对最优多模态特征嵌入预训练网络搭配进行选取的流程图

图2是我们所提出的上界替代法对最优多模态特征嵌入预训练网络搭配进行选取的流程图。

图3是不同网络搭配在上述两种方法下的效果比较图。横轴是选取的8种不同多模态特征嵌入预训练网络搭配，纵轴是在视听视频解析任务中两种方法的对不同搭配的评价效果，可见两种方法具有相同的趋势。

图4是具体应用中对应视听视频解析任务的任务网络结构图。

具体实施方式

下面将结合附图对本发明的具体实施进行具体描述：

多模态特征嵌入预训练网络搭配效果评估的上界替代法在视音视频解析任务中的据以应用，如图2、图3、图4所示，包括以下步骤：

步骤s1、在视频各模态特征提取阶段利用所提出的预训练特征网络选取优化算法对特征网络的组合进行选取。

步骤s2、用步骤1所选取的特征网络对特征进行提取作为后续步骤的输入以上步骤涉及到我们所提出的方法的具体任务中的应用，以下步骤都是具体任务的步骤，不涉及我们所提到的方法。

步骤s3、用步骤2所得到的预训练网络特征，输入层级线性层中，线性层的输出维度为512，输入维度示对应特征提取网络输出维度为定，进行维度调整，步骤3的输出为最后一个维度大小为512的各模态特征

步骤s4、对于步骤3中所得到的特征，使用多模态对比学习损失进行优化

步骤s5、在进行步骤4的同时将步骤3中所得到的特征输入混合注意力网络，输出与输入形状、个数相同

步骤s6、对于步骤5的输出结果输入一个基于注意力机制的池化模块，输出为各模态以及跨模态的预测结果

进一步，所述步骤s1的特征网络选取办法的具体方法包括以下步骤：

步骤s1.1、用各模态所有的预训练特征提取网络对测试集进行特征提取，

步骤s1.2、提取到的特征按照模态进行遍历组合，对于每一种组合对后续网络进行同等条件下的训练。

步骤s1.3、选择训练后在测试集上效果最好的组合。

进一步，所述步骤s4的多模态时序对比损失选取办法的具体方法包括以下步骤：

步骤s1.4、将各模态特征按照时序分开

步骤s1.5、对于同时序的不同模态特征增大其相似度，对不同时序的不同模态特征减小其相似度

进一步，所述步骤s5的混合注意力网络选取办法的具体方法包括以下步骤：

步骤s5.1、对图像和音频两个模态的特征信息用多头注意力层求得模态内和模态间的注意力特征

步骤s5.2、将步骤s5.1中得到的模态内和模态间的特征分别和对应模态的特征相加并通过一个正则化层，并将这两个结果输出

进一步，所述步骤s5.1的多头注意力层的具体细节包含以下内容：

步骤s5.1.1、对于只有一个模态的输入而言，对输入的特征利用集成的多头注意力函数求得模态内的加权输出，即k，q，v都为该模态输入，多头设置为1，输入维度为512

步骤s5.1.2、对于两个模态的输入而言，对主模态的输入在副模态上的加权输出，即q为主模态输入特征，k、v为副模态输入特征。

进一步，所述步骤s6的基于注意力机制的池化模块选取办法的具体方法包括以下步骤：

步骤s6.1、对输入的两个特征在特征维度最后新建一个维度，并将二者沿着新建的维度拼接到一起

步骤s6.2、对步骤s6.1中得到的输出经过一个激活层

步骤s6.3、对步骤s6.1中得到的输出分别沿第二个维度和第三个维度进行归一化非线性操作，所得结果分别为frame_att和av_att

步骤s6.4、将步骤s6.3中所得到的frame_att和步骤(2)中的结果相乘得到temporal_prob

步骤s6.5、将步骤s6.4中得到的temporal_prob和步骤(3)中得到的av_att进行相乘并依次沿着第三个维度和第二个维度进行求和得到global_prob

步骤s6.6、将步骤s6.4中得到的temporal_prob第三个维度的第一层和第二层分别沿着第二个维度进行求和得到a_prob和v_prob

步骤s6.7、输出上述得到的global_prob、a_prob、v_prob和frame_prob

通过以上步骤即可得到对输入视频在视频、音频以及视音频联合分段的结果。

最后，我们以交叉熵损失函数损失函数以及多模态时序对比损失为目标训练网络，使用f1(精准度和召回度的调和平均数)评价网络性能。方法如下：

测试环境：python3.6；pytorch框架；ubuntu16.04系统；nvidiagtx2080gpu

测试序列：所选数据集是用于视听视频解析的数据库llp(look,listen,andparse)，包含1万多视频。

测试方法：llp上测试集进行测试。

测试指标：本发明使用f1、耗时指标进行评测，效果如图4所示将本方法和传统遍历法进行比较证明本方法在保证正确性的同时大大缩减了耗时。(无需用数据证明缩减了耗时，因为我们用在测试集上进行训练替换了在训练集上进行训练，而训练集远远大于测试集，并且在选取最优预训练模型搭配阶段，相比于遍历法，我们没有涉及其他任何额外的操作，因此我们耗时是显而易见的缩减了。)

本发明以视音视频解析任务为例进行了描述，但本发明适用于任何涉及到使用预训练模型进行特征提取的多模态任务。

上述具体实施方式以较佳实施例对本发明进行了说明，但这只是为了便于理解而举的一个形象化的实例，不应被视为是对本发明范围的限制。同样，根据本发明的技术方案及其较佳实施例的描述，可以做出各种可能的等同改变或替换，而所有这些改变或替换都应属于本发明权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜竹青;邬健宁;门爱东;王海婴;徐雍宁
技术所有人：北京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。