基于混合神经网络的视频摘要生成方法与流程

文档序号:37634416发布日期:2024-04-18 17:49阅读:11来源:国知局
基于混合神经网络的视频摘要生成方法与流程

本发明涉及视频处理,特别涉及一种基于混合神经网络的视频摘要生成方法。


背景技术:

1、随着人们对多媒体信息需求的不断增加,多媒体数据大量涌现,视频作为一种主要的多媒体类型,在丰富人们的生活、教育、娱乐等方面起到越来越突出的作用。如何有效地组织、管理、查询、检索和浏览视频数据,成为迫切需要解决的问题。

2、视频摘要是解决上述问题的一个有效途径,视频摘要又称视频浓缩,是指对视频内容的一个简单的概括,视频摘要在视频分析和基于内容的视频检索中扮演着重要角色。通常几个小时的录像,可以浓缩成几分钟的浓缩视频,大大加快了录像查看的速度。

3、然而,在视频摘要自动生成方面,目前主要有两种生成方式,一是人工截取关键片段形成摘要,二是利用软件按时间间隔截取一系列图像帧形成摘要,前者成本很高,后者效果较差,且容易漏掉视频中的重要内容。


技术实现思路

1、本发明提供了一种基于混合神经网络的视频摘要生成方法,利用具有金字塔空洞卷积的编码器网络提取视频帧的多尺度特征,以及利用具有空间注意力机制和通道注意力机制的解码器网络,学习视频帧的空间维度和通道维度依赖性,更容易实现并行计算,生成具有关键帧的视频摘要,避免遗漏视频中的重要内容。

2、本发明提供了一种基于混合神经网络的视频摘要生成方法,包括:

3、获取原始视频以提取所述原始视频序列,对所述原始视频序列利用googlenet神经网络提取特征,得到所述原始视频的第一视频帧特征;

4、采用具有金字塔空洞卷积模块的编码器网络提取所述原始视频的第二视频帧特征;

5、将所述第一视频帧特征和第二视频帧特征采用concatenate操作进行特征融合,并利用1×1的卷积将特征信息进一步融合,输出视频帧的多尺度特征;

6、将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络,以捕获视频帧之间局部特征的联系,输出每个视频帧的权重分数;

7、利用指针网络选取所述原始视频序列中权重分数最大的帧作为关键帧输出,得到关键帧数据集;

8、对关键帧数据集中的每一帧进行时序处理,以提取所述关键帧数据集的摘要子集,并将所述摘要子集中的关键帧按设定顺序生成视频摘要。

9、进一步地,所述获取原始视频以提取所述原始视频序列,对所述原始视频序列利用googlenet神经网络提取特征,得到所述原始视频的第一视频帧特征的步骤,包括:

10、获取原始视频以提取所述原始视频序列x={x1,x2,...,xt};其中,t为所述原始视频的帧数;

11、采用预训练好的googlenet神经网络模型的pool5层进行特征提取视频帧的特征xt,描述为:

12、ft=cnn(xt)

13、其中,t表示原始视频的第t帧,ft∈1024,cnn(-)表示卷积神经网络googlenet,输出所述原始视频的第一视频帧特征为可以用f={f1,f2,...,ft}。

14、进一步地,所述采用具有金字塔空洞卷积模块的编码器网络提取所述原始视频的第二视频帧特征的步骤中,金字塔空洞卷积模块由5个并行的分支组成,包括4个空洞卷积和1个全局平均池化层;4个空洞卷积中1个空洞卷积的大小为1×1,3个空洞卷积的大小为3×3,其中膨胀系数分别为1、6、12、18,每个卷积后均添加了bn层和relu激活函数;所述全局平均池化层用于过滤掉不相关的特征以筛选出有用的特征。

15、进一步地,所述将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络,以捕获视频帧之间局部特征的联系,输出每个视频帧的权重分数的步骤,包括:

16、将所述多尺度特征输入所述空间注意力机制,得到第一特征输出p;

17、将所述多尺度特征输入所述通道注意力机制,得到第二特征输出r;

18、将所述第一特征输出p和第二特征输出r分别进行卷积操作之后,进行concatenate操作将所述第一特征输出p和第二特征输出r进行融合,通过全连接层输出每个视频帧的权重分数。

19、进一步地,所述将所述多尺度特征输入所述空间注意力机制,得到第一特征输出p的步骤,包括:

20、记输入的所述多尺度特征图为z,尺寸为c×h×w,分别通过3个膨胀系数为2的空洞卷积,获得3个尺寸为c×h×w的特征图za、zb、zc;

21、对特征图za分别进行reshape与transpose操作将尺寸转换为n×c,n=h×w;对特征图zb进行reshape操作将尺寸转换为c×n,n=h×w;

22、采用矩阵乘法将得到的特征图za和zb相乘,获得两个像素特征之间的强关联矩阵,并进行softmax操作得到空间注意力图m,尺寸为n×n;计算公式为:

23、

24、其中,mij代表i位置对j位置特征的关联强度,两个位置的特征之间的关联强度越强,mij取得的数值则越大;

25、对特征图zc进行reshape操作将尺寸变化为c×n,n=h×w;

26、采用矩阵乘法将特征图zc和m的转置相乘之后,再乘上权重系数γ,将得到的特征进行reshape操作将尺寸转换为c×h×w,再与原始多尺度特征图z进行相加操作得到第一特征输出p;计算公式为:

27、

28、其中,权重系数γ初始化为0,在训练中自动学习权重。

29、进一步地,所述将所述多尺度特征输入所述通道注意力机制,得到第二特征输出r的步骤,包括:

30、记输入的所述多尺度特征图为z,尺寸为c×h×w;

31、对多尺度特征图z进行reshape与transpose操作得到特征图z1,尺寸为n×c;对多尺度特征图z进行reshape操作得到特征图z2,尺寸为c×n,n=h×w;

32、采用矩阵乘法将特征图z2和z1相乘,然后进行softmax操作得到通道注意力图q,尺寸为c×c;计算公式为:

33、

34、其中,qij代表i通道对j通道特征的关联强度,两个通道的特征之间的关联强度越强,qij取得的数值则越大;

35、对多尺度特征图为z进行reshape操作得到特征图z3,尺寸为c×n,n=h×w;

36、采用矩阵乘法将通道注意力图q的转置与特征图z3相乘之后,再乘上一个权重系数θ,将所得到的特征进行reshape操作将尺寸转换为c×h×w,在与原始多尺度特征图为z进行相加操作得到最终的输出r;计算公式为:

37、

38、其中,权重系数θ初始化为0,在训练中自动学习权重。

39、进一步地,所述对关键帧数据集中的每一帧进行时序处理,以提取所述关键帧数据集的摘要子集,并将所述摘要子集中的关键帧按设定顺序生成视频摘要的步骤,包括:

40、将所述关键帧数据集中的关键帧按照帧时间从小到大进行排列,得到关键帧序列;

41、判断所述关键帧序列中每个关键帧与其相邻的关键帧之间的时间差值是否在第一设定范围内;

42、若所述时间差值不在第一设定范围内,则删除该关键帧;若所述时间差值在第一设定范围内,则记录每两个关键帧之间的时间差值;

43、将每两个关键帧之间的时间差值相差在第二设定范围内的关键帧列为一个关键帧组,得到多个关键帧组成摘要子集;

44、将所述摘要子集中的关键帧组按照用户设定的排序方式生成视频摘要。

45、本发明还提供了一种基于混合神经网络的视频摘要生成装置,包括:

46、获取模块,用于获取原始视频以提取所述原始视频序列,对所述原始视频序列利用googlenet神经网络提取特征,得到所述原始视频的第一视频帧特征;

47、提取模块,用于采用具有金字塔空洞卷积模块的编码器网络提取所述原始视频的第二视频帧特征;

48、融合模块,用于将所述第一视频帧特征和第二视频帧特征采用concatenate操作进行特征融合,并利用1×1的卷积将特征信息进一步融合,输出视频帧的多尺度特征;

49、解码模块,用于将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络,以捕获视频帧之间局部特征的联系,输出每个视频帧的权重分数;

50、选取模块,用于利用指针网络选取所述原始视频序列中权重分数最大的帧作为关键帧输出,得到关键帧数据集;

51、生成模块,用于对关键帧数据集中的每一帧进行时序处理,以提取所述关键帧数据集的摘要子集,并将所述摘要子集中的关键帧按设定顺序生成视频摘要。

52、本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

53、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

54、本发明的有益效果为:

55、本发明根据原始视频提取原始视频序列,进而采用编码器-解码器结构,编码器网络使用卷积神经网络googlenet提取第一视频帧特征,然后通过金字塔空洞卷积模块提取第二视频帧特征,在增大感受的同时不会提高参数计算量,采用concatenate操作进行特征融合,接着利用1×1的卷积将特征信息进一步融合得到多尺度特征;解码器网络嵌入空间注意力机制和通道注意力机制,以捕获视频帧之间局部特征的联系,结合局部特征获取全局上下文特征,得到每个视频帧的权重分数,同时使用指针网络生成关键帧数据集,并进行时序处理组合成最终的视频摘要。使得本发明更容易实现并行计算,生成具有关键帧的视频摘要,提升视频摘要生成效果,避免遗漏视频中的重要内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1