本发明涉及图像处理技术,具体指一种基于深度学习的运动边界估计方法。
背景技术:
光流估计是计算机视觉领域的基本问题之一,是目前运动图像分析的重要方法,光流不仅包含了被观察物体的运动信息,而且还包含有关景物三维结构的丰富信息,在计算机视觉研究领域,光流在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。由光流的定义可以引申出光流场,它是图像中所有像素点构成的一种二维瞬时速度场。光流场包含由运动边界分割出的较大平滑区域,由于运动边界不满足光流的平滑假设,对光流估计的精确度有很大影响,因此,为更好地进行视频运动分析,准确估计运动边界,并提高光流估计精度是关键。
现有运动边界估计方法主要依据输入rgb图像的边缘和运动信息检测运动边界,但这类方法的主要缺点在于:(1)主要通过人工提取简单的图像特征,无法充分利用输入图像中的丰富信息。(2)运动边界估计算法过于简单,无法模拟从输入图像到运动边界的复杂函数关系,因此鲁棒性差、准确率低。(3)现有运动边界估计方法中需要进行大量的迭代运算,耗费大量计算资源和时间。因此,提出更加有效的运动边界估计方法,是视频运动分析中急需解决的问题。
技术实现要素:
本发明为克服上述情况不足,旨在提供一种利用深度学习模型进行端到端运动边界估计的方法,利用大量数据集自动学习运动边界图像的图像特征,并自动估计运动边界,以解决现有技术中需要人工提取运动边界图像特征,准确率低,鲁棒性差的问题。
一种基于深度学习的运动边界估计方法,其特征在于,包括以下步骤:
步骤一:构建运动边界估计的数据集。
所述运动边界估计数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像。
步骤二:构建用于运动边界估计的深度学习模型。
所述用于运动边界估计的深度学习模型的输入是运动视频中两帧相邻的图像,该深度学习模型共包括12层,其中前6层是编码部分,为6个卷积层,后6层是解码部分,为6个反卷积层,每个反卷积层在具体计算时需要调用对应卷积层的图像特征,输出为运动边界图像。
步骤三:利用运动边界估计的数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
训练所述深度学习模型使用caffe框架。
步骤四:直接将待估计运动边界的图像输入训练完成的深度学习模型,快速估计出运动边界。
本发明有益效果:与现有技术中的运动边界估计方法相比,本发明的方法利用深度学习模型来自动学习运动边界图像的图像特征,省略了人工提取运动边界图像特征的过程,能够充分挖掘输入图像中的多维特征,并且在所学习的图像特征基础上,自动进行运动边界估计,能够准确模拟从输入图像到运动边界的复杂函数关系,提高运动边界估计的效率和准确率。
附图说明
图1是本发明方法的流程图;
图2是运动估计数据集示意图;
其中,(a)表示运动视频中两帧相邻图像的均值融合图像,(b)表示运动边界图像。
图3是用于运动边界估计的深度学习模型;
图4是待估计运动边界的运动视频中两帧相邻图像的均值融合图像;
图5是深度学习模型直接估计出的运动边界结果;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供的一种基于深度学习的运动边界估计方法,包括如下步骤:
步骤一:构建运动边界估计的数据集。运动边界估计数据集中每个样本包括运动视频中两帧相邻的图像和这两帧图像的运动边界图像,分别如图2(a)和图2(b)所示,为方便展示,图2(a)为两帧相邻图像的均值融合结果。在具体实施过程中,运动边界估计数据集中样本数量为40000。
步骤二:构建用于运动边界估计的深度学习模型,深度学习模型的具体结构如图3所示,输入是运动视频中两帧相邻的图像,共包括12层,其中前6层是编码部分,为6个卷积层,其中特征图数量分别为64、128、128、256、256、512,卷积核尺寸为3×3,后6层是解码部分,为6个反卷积层,其中特征图数量分别为256、256、128、128、64、21,卷积核尺寸为2×2,解码部分每个反卷积层在作反卷积时,调用编码部分对应的卷积层图像特征,上一层的输出结果作为下一层的输入,输出为运动边界图像,输入图像和输出图像的大小都为256×256。
步骤三:利用仿真数据集对深度学习模型进行训练,得到训练完成的深度学习模型。利用安装在ubuntu系统上的caffe环境训练该深度学习模型,采用adagrad优化算法进行训练,初始学习率为0.01,训练次数为600000次,其中,在训练次数为300000、400000和500000时,学习率分别除以10,降低学习率。
步骤四:对于待估计运动边界的运动视频中两帧相邻的图像,如图4所示(方便显示,图4为均值融合结果),直接将运动视频中两帧相邻的图像输入训练完成的深度学习模型,可直接快速估计出所需的运动边界结果图,如图5所示。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。