一种基于transformer的视频防抖方法与流程

文档序号：25992533发布日期：2021-07-23 21:05阅读：来源：国知局

技术特征：

1.一种基于transformer的视频防抖方法，其特征在于，包括：

获取待处理视频图像序列作为预先训练好的深度神经网络模型的输入，该深度神经网络模型包括特征提取模块和抖动参数估计模块，抖动参数估计模块包括基于transformer改进的encoder模块；

利用特征提取模块获取待处理视频图像序列每帧图像的深层抽象特征；

利用抖动参数估计模块对相邻若干帧图像的深层抽象特征进行处理，估计当前帧图像的抖动参数；

根据当前帧的抖动参数，获取稳定的当前帧图像。

2.如权利要求1所述的基于transformer的视频防抖方法，其特征在于，所述特征提取模块包括输入图像分辨率快速下降层ifd、卷积层conv0、conv1_0、conv1_1、conv2_0、conv2_1、conv2_2、conv3和conv4、特征图相加层sum0和sum1以及最大值池化层maxpool0，其中，所述待处理视频图像序列作为输入图像分辨率快速下降层ifd的输入，输入图像分辨率快速下降层ifd的输出与卷积层conv0的输入连接，卷积层conv0的输出与最大值池化层maxpool0的输入连接，最大值池化层maxpool0的输出分别与特征图相加层sum0的输入和卷积层conv1_0的输入连接，卷积层conv1_0的输出与卷积层conv1_1的输入连接，卷积层conv1_1的输出与特征图相加层sum0的输入连接；特征图相加层sum0的输出分别与卷积层conv2_0的输入和卷积层conv2_2的输入连接，卷积层conv2_0的输出与卷积层conv2_1的输入连接，卷积层conv2_1的输出和卷积层conv2_2的输出均与特征图相加层sum1的输入连接，特征图相加层sum1的输出经卷积层conv3与卷积层conv4连接，卷积层conv4的输出为所述待处理视频图像序列每帧图像对应的深层抽象特征。

3.如权利要求1所述的基于transformer的视频防抖方法，其特征在于，所述抖动参数估计模块包括特征拼接层concat、特征图相加层sum2、位置编码特征图pos-emb、输出标记特征图out-token、基于transformer改进的encoder模块和全连接层fc，特征拼接层concat的输入分别与输出标记特征图out-token的输出以及所述特征提取模块的输出连接，特征拼接层concat的输出和位置编码特征图pos-emb的输出均与特征图相加层sum2的输入连接，特征图相加层sum2的输出经encoder模块与全连接层fc的输入连接。

4.如权利要求2所述的基于transformer的视频防抖方法，其特征在于，所述输入图像分辨率快速下降层ifd用于将所述待处理视频图像序列的每帧图像分解成若干个分解子图，具体为：

对所述待处理视频图像序列的每帧图像进行均匀网格划分，获得网格子图；

对每个网格子图，按照行优先顺序进行数字编码，得到数字编码网格子图；

将每个网格子图中相同数字编码的像素取出来，并按照网格顺序排列拼接，得到所述分解子图并作为所述卷积层conv0的输入。

5.如权利要求3所述的基于transformer的视频防抖方法，其特征在于，所述encoder模块包括归一化层ln0和ln1、特征图相加层sum5和sum6、全连接层fc2和注意力模块attention，归一化层ln0的输入与所述特征图相加层sum2的输出连接、输出经注意力模块attention与特征图相加层sum5的输入连接，特征图相加层sum5的输入还与所述特征图相加层sum2的输出连接；特征图相加层sum5的输出以及经归一化层ln1和全连接层fc2后与特征图相加层sum6的输入连接，特征图相加层sum6的输入还与特征图相加层sum5的输出连接，特征图相加层sum6的输出为所述全连接层fc的输入连接，且特征图相加层sum6输出的特征图作为下次执行时归一化层ln0的输入。

6.如权利要求5所述的基于transformer的视频防抖方法，其特征在于，所述注意力模块attention包括加权矩阵相乘层mul_qk、注意力图特征值调整层softmax以及矩阵相乘层mul_v，加权矩阵相乘层mul_qk的输入与所述归一化层ln0的输出连接，加权矩阵相乘层mul_qk的输出经注意力图特征值调整层softmax后与矩阵相乘层mul_v的输入连接，矩阵相乘层mul_v与加权矩阵相乘层mul_qk连接，加权矩阵相乘层mul_qk的输出与所述特征图相加层sum5的输入连接。

7.如权利要求1所述的基于transformer的视频防抖方法，其特征在于，所述深度神经网络模型的训练过程包括：

获取训练样本数据；

设计所述深度神经网络模型的目标损失函数为均方差损失函数；

利用训练样本数据训练深度神经网络模型，学习模型参数，以得到所述的预先训练好的深度神经网络模型。

8.如权利要求7所述的基于transformer的视频防抖方法，其特征在于，所述获取训练样本数据包括：

收集抖动视频集合；

对抖动视频集合中的数据进行处理，获取视频的抖动参数；

依据不同的采样时长t，将抖动视频均匀分割成多个短视频片段，对每个短视频片段均匀采样多幅连续图像组成所述深度神经网络模型的输入图像样本序列，并记录当前幅采样图像的抖动参数作为该输入图像序列的标签数据，其中所述多幅连续图像的任意两帧连续图像的画面存在50％以上重叠区域。

9.如权利要求1所述的基于transformer的视频防抖方法，其特征在于，所述根据当前帧的抖动参数，获取稳定的当前帧图像，包括：

根据所述抖动参数，计算相应的相似变换矩阵；

将当前帧图像乘以相似变换矩阵，得到稳定的当前帧图像。

10.如权利要求1所述的基于transformer的视频防抖方法，其特征在于，还包括：

预测当前帧图像的抖动参数时，保存所述待处理视频图像序列中除首幅图像之外的其他图像的特征数据，以用于预测后一帧图像的抖动参数。

技术总结
本发明公开了一种基于transformer的视频防抖方法，属于视频防抖技术领域，包括：获取待处理视频图像序列作为预先训练好的深度神经网络模型的输入，该深度神经网络模型包括特征提取模块和抖动参数估计模块；利用特征提取模块获取待处理视频图像序列每帧图像的深层抽象特征；利用抖动参数估计模块对相邻若干帧图像的深层抽象特征进行处理，估计当前帧图像的抖动参数；根据当前帧的抖动参数，获取稳定的当前帧图像。本发明抗干扰能力强、运行速度更快且防抖效果好。

技术研发人员：张卡;刘跃;卢晓军;何佳;戴亮亮;尼秀明
受保护的技术使用者：安徽清新互联信息科技有限公司
技术研发日：2021.04.21
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2