一种面向动态视频中目标关键帧的自动定位方法

文档序号:34323910发布日期:2023-06-01 02:34阅读:81来源:国知局
一种面向动态视频中目标关键帧的自动定位方法

本发明属于图像处理,涉及一种面向动态视频中目标关键帧的自动定位方法。


背景技术:

1、随着互联网技术和多媒体技术的不断发展,视频数据成为日常生活中一种常见的数据类型。视频数据大体上可以看作是视频帧的集合,并且视频的帧与帧之间存在一定的前后时间依赖关系。并且视频数据通常具有数据量大,时间冗余大的特点,给视频存储,传输和检索带来了一定的困难。关键帧是视频中的某一最具代表性的帧,可以用于描述整段视频,视频关键帧被广泛应用于视频摘要,视频检索和视频分析等领域。例如在医学影像领域,关键帧在临床诊断中被应用于基于超声视频数据的甲状腺结节诊断,基于关键帧的超声视频自动分析和辅助诊断可以极大地降低甲状腺结节诊断对于医生的依赖,提高诊断效率和准确率。

2、传统的关键帧定位方法主要包括基于内容分析的定位方法,基于运动分析的定位方法和基于聚类的定位方法等。传统的关键帧定位方法通常基于一些手工特征进行定位,未能充分利用视频的全部信息,并且在面对不同时长,不同视频采集设备等差异较大的视频时表现不佳,难以给出令人满意的关键帧定位结果。例如在超声视频数据中,由于超声视频具有分辨率低、噪点多等特点,且临床超声采集设备型号较多,设备之间具有一定的差异,传统方法难以达到令人满意的效果。

3、近年来,随着计算机视觉技术和深度学习技术的不断发展,越来越多基于深度学习技术的自动化关键帧定位算法不断被提出,这些算法可以自动学习视频数据中的特征,经由模型可以对视频进行分析并给出关键帧定位结果。自动化的目标关键帧定位算法极大地降低了关键帧定位对于人力的要求。同时现阶段互联网发展迅猛,视频数据占比显著增多,开发自动化的目标关键帧自动定位算法在视频摘要,视频检索和视频分析等领域具有非常广阔的应用前景。


技术实现思路

1、为克服现有技术中的问题,本发明的目的是提供一种面向动态视频中目标关键帧的自动定位方法,该方法考虑了目标的图像特征和时空位置特征,具有自动化程度高,准确率高的特点,并且对不同的种类的视频数据具有良好的兼容性。

2、为实现上述目的,本发明采用如下的技术方案:

3、一种面向动态视频中目标关键帧的自动定位方法,包括以下步骤:

4、将待预测的视频数据统一转化为固定大小的视频,得到数据集,将数据集通过训练后的目标关键帧自动定位深度学习模型,得到包含目标的视频数据的关键帧位置。

5、进一步的,将待预测的视频数据通过线性插值的方法,统一转化为固定大小的视频,得到数据集。

6、进一步的,目标关键帧自动定位深度学习模型由目标检测模块和关键帧回归得分模块顺序相接组成;

7、目标检测模块通过以下过程得到:从视频数据中抽取部分包含目标的视频帧数据,然后进行标注,将标注后的包含目标的视频帧数据进行划分为训练集、验证集和测试集;通过训练集训练目标检测模块,不断更新迭代,至目标检测模块收敛,得到训练好的检测模型;调整步骤检测模型的超参数,重复多次训练,得到多个模型,选取在验证集效果最好的模型,作为目标检测模块。

8、进一步的,关键帧回归得分模块包括循环神经网络、全连接层,relu层和sigmoid层;训练好的关键帧回归得分模块通过以下过程得到:获取包含目标的视频数据,然后进行标注,将标注后的包含目标的视频数据转化为固定大小的视频,得到数据集,将数据集划分为训练集、验证集和测试集;通过训练集训练关键帧回归得分模块至收敛。

9、进一步的,标注包括:包含目标的视频数据中关键帧的位置以及部分包含目标的视频帧中目标的位置。

10、进一步的,目标关键帧自动定位深度学习模型的损失函数l如下:

11、

12、其中,n为训练批次的样本数量,yi为得分标签,为得分预测值。

13、进一步的,得分标签通过以下过程得到:

14、对于包含目标的视频数据,关键帧位置的视频帧标签被设定为1,其余视频帧的标签取值被设定为0~1,由其余视频帧与关键帧的相似度计算得到整段视频每一帧的得分标签,组成视频的关键帧的得分标签。

15、进一步的,相似度包括目标特征相似度、目标空间位置相似度和目标时间位置相似度。

16、进一步的,目标特征相似度由目标检测模块输出的目标特征计算欧氏距离得到,目标空间位置相似度由两个目标检测框之间计算交并比得到,目标时间位置相似度由目标相对帧位距离经归一化得到;目标特征相似度,目标空间位置相似度和目标时间位置相似度的平均值作为当前帧的得分标签。

17、进一步的,训练后的目标关键帧自动定位深度学习模型通过以下过程得到:获取包含目标的视频数据,然后进行标注,将标注后的包含目标的视频数据转化为固定大小的视频,得到数据集,将数据集划分为训练集、验证集和测试集;将训练集的数据放入目标关键帧自动定位深度学习模型中进行训练,采用反向传播算法和随机梯度下降法不断更新迭代,至目标关键帧自动定位深度学习模型收敛。

18、与现有技术相比,本发明具有的有益效果:

19、本发明采用深度学习的方法,可以直接从原始视频数据中自动学习到目标的特征,从而在数据中挖掘复杂的关联模式。并且可以对视频数据进行自动化的分析,输出包含目标检测结果的关键帧。本发明使用的深度学习方法,可扩展性强,不需要针对目标设计特定的特征。只需要提供标注好的大量数据输入卷积神经网络,网络可以自动学习目标的特征,且随着数据量的增加,网络目标检测和关键帧定位的准确度越高。本发明所使用的深度学习模型采用一种基于“检测—定位”的两阶段框架,目标检测模块(例如faster-rcnn模型)对于目标检测有良好的解决效果,选用循环神经网络(例如lstm)进行关键帧定位,可以较好的分析包含目标的视频帧之间的时间关系,给出关键帧定位结果。该深度学习模型输入为裁剪后的原始视频数据,并且以整段视频作为输入,避免了信息的损失。本方法对不同的种类的视频数据具有良好的兼容性,网络同时考虑了目标的图像特征和时空位置特征,具有自动化程度高,准确率高的特点。



技术特征:

1.一种面向动态视频中目标关键帧的自动定位方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,将待预测的视频数据通过线性插值的方法,统一转化为固定大小的视频,得到数据集。

3.根据权利要求1所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,目标关键帧自动定位深度学习模型由目标检测模块和关键帧回归得分模块顺序相接组成;

4.根据权利要求3所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,关键帧回归得分模块包括循环神经网络、全连接层,relu层和sigmoid层;训练好的关键帧回归得分模块通过以下过程得到:获取包含目标的视频数据,然后进行标注,将标注后的包含目标的视频数据转化为固定大小的视频,得到数据集,将数据集划分为训练集、验证集和测试集;通过训练集训练关键帧回归得分模块至收敛。

5.根据权利要求3所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,标注包括:包含目标的视频数据中关键帧的位置以及部分包含目标的视频帧中目标的位置。

6.根据权利要求1所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,目标关键帧自动定位深度学习模型的损失函数l如下:

7.根据权利要求6所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,得分标签通过以下过程得到:

8.根据权利要求7所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,相似度包括目标特征相似度、目标空间位置相似度和目标时间位置相似度。

9.根据权利要求8所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,目标特征相似度由目标检测模块输出的目标特征计算欧氏距离得到,目标空间位置相似度由两个目标检测框之间计算交并比得到,目标时间位置相似度由目标相对帧位距离经归一化得到;目标特征相似度,目标空间位置相似度和目标时间位置相似度的平均值作为当前帧的得分标签。

10.根据权利要求1所述的一种面向动态视频中目标关键帧的自动定位方法,其特征在于,训练后的目标关键帧自动定位深度学习模型通过以下过程得到:获取包含目标的视频数据,然后进行标注,将标注后的包含目标的视频数据转化为固定大小的视频,得到数据集,将数据集划分为训练集、验证集和测试集;将训练集的数据放入目标关键帧自动定位深度学习模型中进行训练,采用反向传播算法和随机梯度下降法不断更新迭代,至目标关键帧自动定位深度学习模型收敛。


技术总结
本发明公开一种面向动态视频中目标关键帧的自动定位方法,包括以下步骤:将待预测的视频数据统一转化为固定大小的视频,得到数据集,将数据集通过训练后的目标关键帧自动定位深度学习模型,得到包含目标的视频数据的关键帧位置。本发明采用一种基于“检测—定位”的两阶段框架,可以较好的分析包含目标的视频帧之间的依赖关系,给出关键帧定位结果。该深度学习模型输入为裁剪后的原始视频数据,并且以整段视频作为输入,避免了信息的损失。本方法对不同的种类的视频数据具有良好的兼容性,网络同时考虑了目标的图像特征和时空位置特征,具有自动化程度高,准确率高的特点。

技术研发人员:李钟毓,王煜辰,张靓靓
受保护的技术使用者:西安交通大学
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1