一种语义引导的基于transformer的部分非自回归视频描述生成方法

文档序号:34105679发布日期:2023-05-10 19:54阅读:45来源:国知局
一种语义引导的基于transformer的部分非自回归视频描述生成方法

本申请涉及自然语言处理领域以及计算机视觉领域。具体的是一种通过构建基于transformer的视频描述模型,在语义信息的引导下,将输入视频通过部分并行生成的方式更加快速准确的转化为描述语言的方法。


背景技术:

1、随着互联网和各种记录与存储设备的发展,产生了大量的视频数据,但难以通过人工观看的方式对视频信息进行获取,造成了大量信息资源的浪费。视频描述作为一种跨模态数据转换技术,即通过计算机构建模型,将视频转化为描述语言。通过该技术能够将大量视频数据转换为清晰简洁的描述语句,为后续对数据进行整理和分析提供便利。

2、目前主流的视频描述方法,受机器翻译的启发,通常采用编码解码的方式生成视频描述。首先,利用基于2dcnn或3dcnn的特征提取网络,获取视频特征向量;然后,将视频特征向量送入卷积神经网络循环神经网络或是transformer对视频特征进行编码,以获取具有上下文特征的视觉特征;最终,将编码后的视觉特征送入基于循环神经网络或transformer的解码器,生成描述语句。这些现有的视频描述方法,通常采用自回归的方式生成视频描述,即将语句中已生成的词语作为生成后续词语的依据,该类型的生成方法推理速度较为缓慢,难以达到实际需求中的推理速度需求,且基于自回归方式生成的语句,后续与描述生成已受到已生成描述错误累积的影响,使得后续生成描述会由于前期生成单词的错误总体走向错误的方向。

3、受非自回归机器翻译的启发,本申请将非自回归语句生成方式运用到视频描述领域,使得语句中的词语能够并行生成加快推理速度。为保证推理的准确性并使得模型能够生成长度灵活的描述语句,本专利将自回归生成与非自回归生成的方式相结合,即自回归生成组成语句词组中的单词,并通过非自回归的方式生成组成语句的词组,对生成词组进行重复词组删除操作后,最终将词组进行拼接,形成完整描述语句。为提升生成描述语言的准确性,本申请在解码描述语句之前加入了语义引导模块,通过从视频特征中获取关键词信息,为描述生成提供指引。


技术实现思路

1、本申请的目的是提供一种基于transformer的视频描述方法,使得模型能够基于输入视频并行生成描述语句中的词语,并加入了用于语义引导的关键词信息,最终更加快速且准确的生成描述语句。由于视频描述语句不同位置词汇的生成通常基于不同的视频帧或视频片段,本申请将视频特征依照时间进行划分为片段特征,分别送入编码器,使得解码器能够依照输入特征并行解码出生成词语序列,最终获取完整输出描述语句。特别的,本申请在文本生成之前,加入了运动特征引导模块,为生成描述中的运动行为提供引导,以提升最终生成描述的准确性。

2、步骤1、将输入视频分割为视频帧,将视频帧送入在imagenet数据集上预训练的2dcnn网络获取图像特征,将以相应间隔划分的视频帧集合送入在kinetics数据集上预训练的3dcnn网络获取运动特征,然后将相应视频片段所对应的视频图像特征和运动特征进行拼接,获取视频特征;

3、步骤2、将视频特征送入基于多层感知机(mlp)的多标签分类网络中,获取针对视频片段的关键词信息,为后续生成描述提供指导;

4、步骤3、将视频片段特征作为transformer编码的输入,通过多头注意获取视频片段之间的关联,获取包含上下文特征的视觉特征;

5、步骤4、将视觉特征和关键词信息作为transformer解码的输入,在每个时间步中,解码器并行生成每个待生成词组中的一个词语,使得词组间能够进行并行生成,而词组内为顺序生成;

6、步骤5、对于解码器生成的词汇进行处理,以删除重复词语,最终将其连接为完整语句,作为输入视频的视频描述。



技术特征:

1.一种语义引导的基于transformer的部分非自回归视频描述生成方法,其特征在于,包括如下所述内容:

2.如权利要求1所述的方法,其特征在于,建立并训练基于mlp的多标签分类网络,具体包括:


技术总结
本申请公开了一种语义引导的基于transformer的部分非自回归视频描述生成方法。所述方法将输入视频分割为片段,获取视觉特征后送入基于transformer的视频描述模型,通过部分非自回归的方式,即自回归生成组成描述语句词组中的单词,非自回归生成组成描述语句的词组。为适应视频中对象动作不明显的应用场景,生成更加准确的描述语句,本申请在生成语句描述之前,加入语义引导方法,即利用多标签分类方法,通过视频视觉特征获取能够代表视频内容的重要词汇,为生成描述提供指导作用。与现有视频描述方法相比,该方法能够更加快速的生成清晰准确的描述语句,能够更好的适应实际场景中的应用。

技术研发人员:刘瑞军,张跃,张佳玉,王晓川
受保护的技术使用者:北京工商大学
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1