一种基于视频图像的未来帧预测方法及模型与流程

文档序号：20020374发布日期：2020-02-25 11:32阅读：来源：国知局

技术特征：

1.一种基于视频图像的未来帧预测模型，其特征在于，包括：记忆回溯模块、记忆精炼模块、特征融合模块以及图像预测模块；

记忆回溯模块利用三维卷积网络的卷积操作部分对输入的视频段进行空时特征提取，空时特征包括视频图像帧的空间特征和帧间时序特征；记忆精炼模块利用三维反卷积层将所述的空时特征抽象为高层空时语义特征；特征融合模块将所述的高层空时语义特征与输入的视频段的最后一帧基于二维神经网络的多通道进行信息融合与推理，输出融合后的空间特征给图像预测模块；图像预测模块进行未来帧空间特征的预测，输出预测图像。

2.根据权利要求1所述的模型，其特征在于，所述的记忆回溯模块包含三维卷积层、三维最大池化层和三维正则化层，卷积核提取的特征之间没有重叠；所述的记忆精炼模块包含三维卷积层和反卷积对；所述的图像预测模块包含二维卷积层和二维正则化层。

3.根据权利要求2所述的模型，且特征在于，所述的记忆回溯模块包含9个三维卷积层、4个三维最大池化层和9个三维正则化层；所述的记忆精炼模块包含6个三维卷积层和反卷积对；所述的图像预测模块包含4个二维卷积层和3个二维正则化层。

4.根据权利要求2或3所述的模型，其特征在于，所述的记忆回溯模块中，所有三维卷积层的卷积核大小为2*3*3；所有最大池化层的卷积核大小为1*2*2，第一个和第三个最大池化层的跨度均为2*2*2，第二个最大池化层的跨度为1*2*2，最后一个最大池化层的跨度为2*3*3；所述的记忆精炼模块中，三维卷积层的核函数大小为3*2*2，三维反卷积核函数大小为1*2*2，且各反卷积层都分别设有固定大小的跨度和填充操作；所述的图像预测模块中，前2个卷积层的卷积核大小为3*3，后2个卷积层的卷积核大小为3*2，前3个卷积层的填充值为1。

5.一种基于视频图像的未来帧预测方法，其特征在于，包括：

步骤1、顺序读取视频帧序列，组成固定长度的视频段序列，相邻的视频段具有重叠区域；

步骤2、将视频段输入记忆回溯模块，记忆回溯模块利用三维卷积网络的卷积操作部分对输入的视频段进行空时特征提取，空时特征包括视频图像帧的空间特征和帧间时序特征；

步骤3、对提取的空时特征通过记忆精炼模块，抽象为更高层次的隐含特征；

所述的记忆精炼模块利用三维反卷积层将空时特征抽象为高层空时语义特征；

步骤4、将隐含特征与输入的视频段中的最后一帧基于二维神经网络的多通道进行特征融合，然后输入到图像预测模块，图像预测模块基于二维卷积网络对输入的视频段的未来帧的空间特征进行预测，最终输出预测的图像帧。

6.根据权利要求5所述的方法，其特征在于，所述的步骤1中，还对各视频段内包含的图像帧的像素值都归一化到[-1,1]的范围内。

完整全部详细技术资料下载

当前第2页1 2 3