基于Transformer和深度强化学习的视频摘要生成网络的制作方法

文档序号：30489999发布日期：2022-06-22 01:28阅读：来源：国知局

技术特征：
1.基于transformer和深度强化学习的视频摘要生成网络，其特征在于：包括三个部分：编码、解码、优化；编码部分通过goolenet提取视频帧的深度特征，将特征向量输入transformer编码部分，首先进行位置编码，之后传入self-attention层，计算完成后进行残差连接和层正则化，最后经过前馈神经网络和再一次的残差连接和层正则化；视频帧经由goolenet提取深度特征后，假设共有m帧，则当前视频的特征集合可以表示为：x＝x1，x2，
…
，x
m
，其中每个x的维度均为1024；首先要对特征进行位置编码，位置编码是transformer重要组成部分，用于弥补attention无法获取位置信息的不足；位置编码的添加，首先要构造一个与输入特征同维度的矩阵pe(positional encoding)，pe矩阵是二维矩阵，行表示当前视频的帧的位置，列表示帧的特征向量，对于pe矩阵的计算通过三角函数来完成，奇数位置用正弦函数，偶数位置用余弦函数，利用三角函数变换，则当前位置的pe可由上一位置的pe线性表示；对于pe矩阵的计算如下：对于pe矩阵的计算如下：其中，pos表示当前视频帧在视频帧序列中的位置索引，即pos＝0,1,2
…
m-1,i表示特征向量的维度，即i＝0,1,2,
…
1/2d
model-1，d
model
是视频帧维度大小，此处d
model
＝1024；位置编码计算完成后，将其与输入特征集合x相加，进入encoder部分；首先进入多头自注意力层，即由多个自注意力层构成，对于输入序列x，经由三个矩阵w
q
、w
k
、wv的线性映射，分别得到q
j
,k
j
,v
j
,j∈(1,2,3
…
m)，将q1分别与k1,k2,k3…
k
m
进行点积运算，得到注意力分布a
1,1
，a
1,2
，a
1,3
，
…
，a
1,m
，将注意力分布经过softmax函数进行归一化得到0-1之间的注意力权重，得到注意力权重后与对应的v1，v2，v3
…
，vm相乘，相乘结束进行求和运算得到x1对应自注意力的输出h1；对于multi-headed self-attention，则是在self-attention的基础上，将其映射到若干个其他空间运算，多头自注意力计算完成后，通过前馈神经网络层，完成空间变化，增加模型的表征能力；解码部分由双向lstm完成，输出每一帧的重要性分数，通过标注计算出对应的loss，动态摘要是基于镜头的选择，通过算术平均将帧级分数转换成镜头分数；编码端完成编码后，带有注意力权重的特征向量进入解码端；解码端由双向长短期记忆网络组成，bilstm将视频特征集合x作为输入得到对应的隐藏状态h＝h1,h2,h3,
…
hm，h由一个正向遍历和逆向遍历的lstm连接构成，通过这种方式能够获得更多的上下文信息；h计算完成后，经由全连接层和sigmoid函数得到帧级概率p＝p1,p2,p3
…
pm，即当前帧是否为关键帧的概率；为了能够生成用于后续评估的摘要，需要对p进行伯努利采样得到动作a＝a1,a2,a3
…
am，选取a为1的帧组成摘要s；p
m
＝σ(wh
m
)
ꢀꢀꢀꢀ
(3)a
m
＝bernoulli(p
m
)
ꢀꢀꢀꢀ
(4)s＝{v
m
|a
m
＝1}
ꢀꢀꢀꢀ
(5)
其中m为当前视频对应的帧数，σ为sigmoid函数，a
m
为伯努利采样后对应的动作，a
m
∈(0,1)，0代表当前帧不是关键帧，1代表当前帧是关键帧；v
m
为视频帧，s为摘要集合，即选取a
m
值为1对应的视频帧组成的集合；优化部分由背包算法选出若干关键镜头组成摘要，通过强化学习完成对摘要的奖励值计算；基于编码器-解码器架构的模型生成了摘要，深度网络将获得奖励值r，r由奖励函数r(s)计算得到，奖励值r用于评价生成摘要的质量，深度网络通过生成更符合预期的摘要来最大化奖励值r；生成高质量的摘要是奖励函数的目标，以多样性、代表性和统一性作为奖励函数的计算指标；模型具有较强的学习能力，提升了泛化性，由于视频数据量较少，可能会出现不够准确的情况，因此引入监督学习的信息，帮助模型更好的学习特征，提升准确性；通过深度学习网络lstm得到了摘要s，通过对s中选中的帧进行相似性计算，即帧之间的相似性越低，则整个镜头的多样性就越高，具体来说选取不同的两帧计算它们的cosine距离，重复该过程直至每一帧都完成计算并将结果求和取平均，r
div
计算如下：其中d(x
t
,x
i
)为差异性计算函数，d(x
t
,x
i
)函数如下：根据多样性的计算可得，当两帧差异越大，则多样性分值越高；但公式在计算时没有考虑帧之间的时间距离，相距较远的两帧在差异度计算时应当被忽略，因为它们在构建原视频的主要内容时至关重要，所以设定当所选帧超过阈值范围λ则多样性分值记为最大；d(x
t
,x
i
)＝1 if|t-i|＞λ
ꢀꢀꢀꢀ
(8)代表性奖励能够衡量摘要代表原始视频的程度；为此，将代表性奖励的计算转换为k-medoids问题，即模型选择一组中心帧使得其他帧到中心帧之间的平方误差的平均值最小，通过这种方式使模型选出的帧在整个视频中占比尽可能大，最终生成的摘要越具代表性，因此对r
rep
计算如下：通过多样性与代表性可以得到效果良好的摘要，但为了生成更高质量且符合用户视觉逻辑的摘要，需要减少时间变化带来的片段跳跃，相邻片段巨大的变化会让用户无法理解视频内容，丢失原有故事情节；为了避免该类问题带来的影响，引入统一性奖励，用于平衡片段变化导致的信息缺失，它在形式上与代表性近似：其中和均为平均特征，在用卷积神经网络提取视频帧的特征时，为了提高运算效率采取每15帧选取一帧的策略，因此计算统一性奖励时，将15帧的平均特征作为当前帧的特征；
总奖励值由r
div
，r
rep
，r
uni
构成，他们共同指导深度学习模型的学习；具体来说，计算出多样性、代表性、统一性的奖励值后，通过加权求和的方式将他们合并：r(s)＝αr
div
+βr
rep
+γr
uni
ꢀꢀꢀꢀ
(11)其中α+β+γ＝1，三者均为超参数。

技术总结
视频摘要技术是通过提取原视频的关键帧或片段生成摘要，摘要能够在不丢失主要内容的基础上极大的缩短观看时间，达到快速浏览的效果。现有方法多数只基于图像特征进行改进，忽视了图像间的时序性同时模型缺乏自主学习能力。提出一种以Transformer和深度强化学习为框架的视频摘要网络，该网络以Transformer的编码器-解码器为主要结构，编码器部分由Transformer中的self-attention和Feed Forward Neural Network两个模块构成，用BiLSTM和强化学习替代Transformer的编码器部分。实验在视频摘要的两个公开标准数据集上进行，实验结果证明了该方法的有效性。Transformer的编码器部分对图像特征有着优秀的处理能力，而解码器中的BiLSTM对时间序列数据有很好的解码能力。据有很好的解码能力。据有很好的解码能力。

技术研发人员：武光利李雷霆张静牛君会
受保护的技术使用者：李雷霆张静甘肃欧美亚信息科技有限公司
技术研发日：2022.02.21
技术公布日：2022/6/21

完整全部详细技术资料下载

当前第2页1 2