一种基于Mamba的视频序列预测方法

文档序号:44149958发布日期:2025-12-23 23:20阅读:37来源:国知局
技术简介:
本发明针对视频预测中计算开销大、预测精度不足的问题,提出基于Mamba模型的时空解耦建模方法。通过设计STMamba模块,将视频序列拆分为空间与时间维度分别建模:空间模块采用多方向选择性扫描提取局部-全局特征,时间模块通过单向扫描结合并行卷积增强时序建模能力,最终通过解码模块恢复视频分辨率。该方法在保持高预测精度的同时,显著降低计算量,适用于边缘设备部署。
关键词:视频预测,时空建模

本发明属于视频预测,更具体地说,是涉及一种基于mamba的视频序列预测方法。


背景技术:

1、视频预测(video prediction)作为计算机视觉与时序建模交叉的关键任务,旨在从已有的视频序列中学习时空关联性,以预测未来若干时刻的场景变化或事件发展动态。该任务不仅要求模型精准捕捉空间结构和运动信息,还需理解长短期的时间依赖关系。

2、随着深度学习技术的飞速发展,视频预测在多个现实场景中展现出广阔的应用前景。例如,在自动驾驶领域,视频预测技术能够根据历史帧序列推测未来的道路场景演变,包括行人、车辆的动态变化以及潜在的交通事件,从而为自动驾驶系统提供前瞻性的感知能力。这种前瞻性不仅有助于路径规划与避障策略的优化,还能够在复杂场景下增强系统的鲁棒性和安全性;在人体动作预测中,视频预测被广泛应用于智能监控、增强现实(ar)和人机交互(hci)等场景。通过学习人体姿态随时间的变化模式,模型可以推测人物的下一步动作,从而实现对行为的提前理解与响应。在气候建模和交通流量预测等领域,视频预测模型通过捕捉历史图像中的时空演化规律,能够预测天气系统或交通流的未来分布状态。这对于资源调度、灾害预警和城市交通管理具有重要价值。

3、视频时间序列预测面临计算开销大、预测准确性不足等技术难题。近年来,statespace models(ssms)被引入到深度学习领域,ssms的基本思想是通过隐状态的演化过程建模观测数据的动态生成机制,被用于连续时序数据建模,研究者对ssms离散化以适应深度学习领域的离散化数据;highly efficient projection ofpast inputs(hippo)作为一种高效表示和压缩历史输入流的方法,与ssms相结合后,催生了s4模型。s4在保留表达能力的同时显著优化了计算效率。然而,s4属于时不变体系,其状态空间模型中的参数矩阵在序列处理过程中保持固定,无法根据输入的不同进行有针对性的调整,导致其建模能力仍存在一定局限性。为此,后续提出的mamba模型引入了选择性扫描(selective scan)机制,增强了基于ssms的非线性建模能力与灵活性。该模型不仅实现了随着序列长度线性增长的计算效率,同时在建模能力上也达到了与transformer等主流模型相当的水平。考虑到视频预测在众多领域有着重要应用,同时mamba模型的成功有望减少视频预测模型的计算量,本发明提出了一种基于mamba的视频预测方法。


技术实现思路

1、本发明所要解决的技术问题是提供一种基于mamba的视频序列预测方法,采用mamba作为序列建模的方法,从不同的维度建模视频序列中的时空信息,高效提取特征表示,预测高质量的未来帧。

2、为解决上述技术问题,本发明所采取的技术方案是:

3、视频预测的关键点是如何高效建模视频数据中的时空信息,具体而言:

4、空间信息:视频序列中的空间信息是指在一个视频集合中,单帧图像xn的特征表示。xn表示在包含t帧连续图像的视频集合x中的第n个视频帧。

5、时间信息:视频序列中时间信息是指不同时间步之间,图像上的像素在时间维度上的动态变化内容和趋势。

6、本方法提出的视频预测模型,采用mamba作为序列建模的方法,从不同的维度建模视频序列中的时空信息,高效提取特征表示,预测高质量的未来帧。

7、首先,将输入的视频帧序列进行划分处理。对于每一帧图像,将其划分为尺寸为p×p的非重叠图像块(patch),每个图像块包含p2×c个通道,其中c为图像原始通道数。划分后的图像块经由线性映射层投影到预定义的特征空间中,得到包含局部空间语义信息的高维表示。为了进一步增强模型对时空依赖关系的感知能力,在图像块嵌入后引入时空位置编码(spatiotemporal positional encoding),以增强模型对图像块相对时空位置信息的感知能力。

8、嵌入与编码完成后,输入数据的维度由[b,t,c,h,w]转换为[b,t,h,w,d]。其中b为批处理大小,t为时间步数,h、w为图像原始高宽,h、w为图像块在高宽方向的数量,d为嵌入维度。

9、随后,嵌入后的图像块输入到本发明设计的时空联合建模模块stmamba块中。该模块包含两个主要子模块:spatialmamba与temporalmamba,分别用于空间维度和时间维度的特征建模。

10、在空间建模阶段,特征张量被重新排列为形状[b×t,d,h,w],并输入至spatialmamba模块,利用多方向选择性扫描机制提取每一帧的空间特征。完成空间建模后,特征张量被进一步重塑为[b×h×w,t,d],使模型能够在temporalmamba中基于同一空间位置跨时间帧的序列数据进行动态建模,从而捕捉图像块随时间变化的演化模式。

11、在预测阶段,为恢复与原始视频输入一致的空间分辨率,本发明设置了解码恢复模块。该模块首先通过线性映射将高维特征还原至原始图像空间的通道维度,随后将输出特征重塑为[b,t,c,h,w]的视频格式,实现对未来帧的逐帧预测输出,形成端到端可训练的视频预测框架。

12、为充分捕捉视频序列中的时空依赖关系,本发明进一步提出了stmamba块,由spatialmamba和temporalmamba两个核心模块组成,分别面向空间维度和时间维度的信息建模,形成针对性更强、效率更高的时空解耦建模机制。

13、spatialmamba模块设计:视频序列中单帧图像的空间信息为后续时间建模提供基础,因此空间信息提取的充分性直接影响整体预测性能。spatialmamba采用ss2d(selective scan 2d)结构,通过沿四个方向(左上到右下、右下到左上、右上到左下、左下到右上)展开图像特征为序列,输入至四组独立的s6模块中并行处理。每个s6模块基于state space models(ssms)方法对序列进行选择性结构化建模。随后,将四个方向的输出序列进行重构与融合,恢复为增强后的空间特征图,从而实现图像局部与全局信息的有效整合。

14、temporalmamba模块设计:时间维度上,不同时间步中相同空间位置的图像块具有明显的动态演化关系,能够体现局部区域的变化趋势。与空间信息不同,时间信息具有天然的单向性,mamba模型天然适合通过状态空间方程在时间轴上建立帧间依赖,因此本发明在temporalmamba中采用沿时间维度的单向扫描策略。在建模过程中,temporalmamba首先提取出所有帧中相同空间位置的图像块,构建时间序列,输入至ssms模块以建模其动态演化规律。考虑到原始mamba模块中使用的因果卷积结构(causalconvolution)可能在视觉任务中造成特征提取能力受限的问题,本发明将其替换为标准的一维卷积(standard1dconvolution),以增强局部上下文特征建模能力。同时,为弥补单一路径可能存在的信息缺失,引入了并行分支结构,引入另一条相同卷积层通路,两路输出进行拼接融合,进一步增强特征表示能力。

15、stmamba块在建模过程中遵循解耦再融合的设计原则。首先输入数据经spatialmamba提取空间特征,随后通过多层感知机(mlp)与归一化(normalization)层增强表达能力并提高训练稳定性,并引入残差连接机制以促进信息流通与梯度传播:

16、x = x + norm (mlp (spatialmamba(x))) (1)

17、之后,输出的空间增强特征进入temporalmamba模块建模时间演化过程,采用与空间阶段相同的mlp、归一化与跳跃连接结构:

18、x=norm(x+mlp(x+temporalmamba(x)))(2)

19、采用上述技术方案所产生的有益效果在于:

20、1、为充分捕捉视频序列中的时空依赖关系,本发明由spatialmamba和

21、temporalmamba组成stmamba块,分别面向空间维度和时间维度的信息建模,形成针对性更强、效率更高的时空解耦建模机制。stmamba块结构一方面继承了mamba模型高效线性计算复杂度的优势,另一方面有效地增强了时空建模能力,能够在不依赖显式递归结构(如rnn)的前提下实现与其相当的时序建模效果,构成了一种新颖的、无递归的视频预测方案。

22、本发明提出的视频预测框架在保持当前最先进预测精度的同时,显著降低了计算量。相比于当前主流的视频预测方法,计算量下降在资源受限的边缘设备中部署该方法具有明显优势。例如,在安防摄像头、智能汽车等计算资源有限的场景中,本方法能够在保证高预测精度的同时,实现低计算开销,从而兼顾性能与效率。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!