基于视频拼接的跨区域运动目标检测方法和装置与流程

文档序号:14253423阅读:436来源:国知局
基于视频拼接的跨区域运动目标检测方法和装置与流程

本发明涉及监控视频处理领域,尤其涉及一种基于视频拼接的跨区域运动目标检测方法和装置。



背景技术:

在智慧城市以及人工智能日益发展的过程中,基于监控视频的智能分析在人们日常生活中扮演着越来越重要的角色。而运动目标检测是监控视频智能分析的基础,视频智能分析中的许多功能都是依赖于运动目标检测的结果,例如,人群密度统计、智能避障、目标检索、逆行、闯入闯出、徘徊等,所以基于监控视频的运动目标检测有着较强的研究价值。但是目前监控领域的运动目标检测都是基于单监控区域(即单摄像头监控的区域)来实现,从而对视频的智能分析的视野也局限于单监控区域,无法扩大运动目标检测的视野。

随着计算机视觉技术的不断发展,目前的视频拼接技术以及其应用已经很成熟,图像拼接就是把多幅具有一定的重叠区域的单张图片合成为一个大场景的图片,从而扩大了单张图片的场景视野和内容。而在视频监控领域,为了迅速对视频中的内容进行识别和分析,对于不同的视频流的拼接效率具有很高的要求。

同时,在计算机视觉技术的应用不断拓展的过程中,对于运动目标检测的结果也有着高准确率、高时间效率的要求。而基于传统的机器学习的运动目标检测算法无法满足检测的需求。

因此,如何提高跨视频区域的运动目标识别效率,是本领域技术人员目前迫切解决的技术问题。



技术实现要素:

为克服上述现有技术的不足,本发明提供了一种基于视频拼接的跨域区运动目标检测方法,能利用视频拼接技术实现基于多监控区域的视频拼接从而扩大监控视野,在此基础上应用深度学习技术实现运动目标检测,达到运动目标检测的高准确率、高时间效率的要求,消除单监控区域目标检测的局限性,扩大了运动目标检测的区域视野,从而实现了跨区域运动目标检测。

为实现上述目的,本发明采用如下技术方案:

一种基于视频拼接的跨区域运动目标检测方法,包括以下步骤:

同时读取多路实时视频流作为视频流的输入;

将所述的多路实时视频流进行拼接,得到拼接视频流并存入拼接视频流数据区;同时从拼接视频流数据区读取该数据的拼接视频流,进行运动目标检测。

进一步地,所述方法进行运动目标检测后还包括:将检测到的运动目标在视频流中实时标出并显示。

进一步地,将多路实时视频流进行拼接包括:

对读入的多路视频流进行配准,计算配准参数并保存;

对于后续读入的多路视频流,读取配准参数,基于所述配准参数进行融合。

进一步地,所述对读入的多路视频流进行配准包括:

(1)对读入的多路视频流进行特征提取;

(2)对提取的特征进行匹配;

(3)根据特征的匹配结果,计算相机参数和单应性矩阵;

(4)根据单应性矩阵将不同视频流的图像坐标系映射到同一个第三方的球形坐标系;

(5)根据不同视频流单应性变换映射到同一个坐标系中,计算不同视频流之间的重叠区域;

(6)采用最大流最小割算法在重叠区域动态寻找不同视频流之间的拼接缝,计算后续配准参数并保存。

进一步地,对后续读入的多路视频流融合包括:

读取配准参数,对后续读取的视频流进行单应性变换;

基于所述配准参数进行视频流的融合。

进一步地,所述运动目标检测包括:

对监控视频帧中的目标进行标注,作为训练和测试数据集;

基于训练和测试数据集训练运动目标检测模型;

实时读取拼接视频流数据区的拼接视频流进行运动目标检测。

进一步地,所述标识包括标注目标的坐标和类别信息。

进一步地,所述运动目标检测模型是基于darknet框架应用yolo网络模型。

根据本发明的第二目的,本发明还提供了一种基于视频拼接的跨区域运动目标检测装置,包括存储器、处理器(包括cpu和gpu)及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于视频拼接的跨区域运动目标检测方法。

根据本发明的第三目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行所述的基于视频拼接的跨区域运动目标检测方法。

本发明的有益效果

1、本发明利用多线程机制对拼接视频流进行处理,在视频流拼接和运动目标检测之间建立一个拼接视频流数据区负责存储拼接视频流,对于拼接视频流数据区,视频拼接过程负责将拼接完后的视频流存入该数据区,运动目标检测过程负责读取该数据的拼接视频流,使得视频流拼接和运动目标检测并行同时进行,不在是流水线式而是并行式,提高了算法整体的运行效率。

2、本发明在视频拼接中首先计算不同视频流之间的配准参数保存成文件,然后对于后续视频流,读取所述配准参数实现融合,实现了视频流拼接的实时性。

3、本发明在运动目标检测部分,利用了深度学习技术的中yolo算法完成运动目标检测,相对于传统的机器学习算法的目标检测,在速度和准确率都有了很大的提高。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明一种基于视频拼接的跨区域运动目标检测方法整体流程示意图;

图2为视频拼接的整体的流程示意图;

图3为本发明中一种基于视频拼接的跨域区运动目标检测方法中视频流拼接流程示意图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于视频拼接的跨区域运动目标检测方法,整体结构和流程图如图1所示,其包括两大部分:视频拼接、运动目标检测。

视频流输入

通过视频整合平台,从视频存取服务器采集读取实时的视频流数据,同时读取多路实时的视频流作为视频流的输入。

实时视频拼接

图像拼接是把多幅具有一定的重叠区域的单张图片合成为一个大场景的图片,从而扩大图片的场景视野和内容。视频拼接的整体的流程图如图2所示,包括特征提取、特征匹配、相机参数估计、单应性变换、寻找拼接缝、图像拼接。

目前的拼接都是基于视频帧来实现的,对于多张图片的拼接整个算法是比较复杂的,时间复杂度很高。对于安防的监控领域视频智能分析中的运动目标检测是需要高时间效率的要求,所以拼接的高时间复杂度是无法满足运动目标检测实时需求。

本发明的一种基于视频拼接的跨域区运动目标检测方法,在视频拼接中提出了一种优化的方法使得视频流的拼接可以满足实时性。本发明将视频流的拼接分为两个模块:配准模块和拼接模块,其结构图如图3所示。

对于本发明中的视频流拼接配准模块,首先读取不同视频流的第一帧,在此基础上提取不同视频帧的surf特征作为后续的特征描述,surf特征一般具有尺度不变性和计算速度快等特性,比较适合在视频拼接中应用。提取完不同视频帧的surf特征后,需要对不同视频帧提取的特征进行配准,来判断其是否有共同的特征点,选择最近邻和次近邻比值算法来处理特征匹配,计算最近邻和次近邻特征对的距离(本发明中选择欧式距离),如果最近邻特征对欧式距离除以次近邻特征对欧式距离小于一个设定的阈值,则判断其最近邻特征对是相同的特征点。根据特征点的匹配结果,结合相机和图像坐标系以及世界坐标系的映射关系计算出相机的参数,包括内参数矩阵和外参数矩阵。

由于不同的视频流是不同的摄像头拍摄的,所以它们的图像坐标系不在同一个坐标系中,所以需要将不同视频流的图像坐标系映射到同一个第三方坐标系中。这个第三方坐标系一般选择球形坐标系或者圆柱形坐标系,本发明中选择球形坐标系。利用相机参数的计算可以得到单应性矩阵,通过单应性矩阵可以将不同的视频流图像坐标系映射到同一个球形坐标系。通过单应性变换可以计算出不同视频流之间的重叠区域,视频拼接是需要在不同视频流的重叠区域寻找一条拼接缝,利用最大流最小割算法动态寻找这条拼接缝。

在找到视频流的拼接缝后,就完成了对于输入视频流的参数配准过程,即提取surf特征、进行特征匹配、相机参数估计、单应性变换、拼接缝寻找。配准过程就是计算后续拼接所需要的参数(包括输入视频流的大小,单应性矩阵,拼接缝的掩模等),后续的拼接过程就是基于这个配准参数进行图像融合,本发明在配准结束后将后续拼接所需要的参数按照自定义的格式写入到xml文件中进行保存,使得参数计算是一次计算。

配准模块结束后,拼接模块读取新的视频流后不需要重复视频拼接的整个流程了,在本发明中只需要读取配准模块写入到xml文件中的参数,根据单应性矩阵参数对接入的视频流直接进行单应性变换映射到同一坐标系中,根据拼接缝的掩模参数直接利用多波段(即构建高斯和拉普拉斯金字塔)进行融合,完成实时视频流的拼接过程。

拼接视频流处理

对于拼接输出的拼接视频流,如果直接进行流水线式利用yolo算法进行运动目标检测,会出现无法满足运动目标检测的高时间效率。本发明利用多线程机制对拼接视频流进行处理,在视频流拼接和运动目标检测之间建立一个拼接视频流数据区负责存储拼接视频流,对于拼接视频流数据区,视频拼接负责将拼接完后的视频流存入该数据区,运动目标检测负责读取该数据的拼接视频流,使得视频流拼接和运动目标检测并行同时进行,而不在是流水线式而是并行式,可以提高时间的效率。

运动目标检测

在视频智能分析中,基于传统的机器学习算法的目标检测局限性很大,检测准确率低且容易出现漏检测和误检测,检测的时间效率无法满足实时检测需求,而且传统的机器学习算法中的特征是需要人工手动设计。本发明的一种基于视频拼接的跨域区运动目标检测方法,在运动目标检测部分,利用了深度学习技术的中yolo算法完成运动目标检测,在速度和准确率都有了很大的提高。初始需要基于监控视频帧标注大量的目标(待检测的目标坐标和类别信息)数据集,基于darknet框架应用yolo网络模型训练运动目标检测模型,将训练好的模型进行保存。

完成检测模型训练过程后,本发明的目标检测一次性初始化训练好的yolo检测模型,后续实时读取拼接视频流数据区的拼接视频流进行运动目标检测。

跨区域检测结果

对于yolo检测模型在拼接视频流上检测的结果,保存检测到运动目标的坐标和类别信息,并根据坐标和类别信息在视频流中实时标出运动目标的位置和类别,并实时显示。

实施例二

本实施例的目的是提供一种计算装置。

一种基于视频拼接的跨区域运动目标检测装置,包括存储器、处理器(cpu和gpu)及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:

步骤1:同时读取多路实时视频流作为视频流的输入;

步骤2:将所述的多路实时视频流进行拼接,得到拼接视频流并存入拼接视频流数据区;

步骤3:同时从拼接视频流数据区读取该数据的拼接视频流,进行运动目标检测。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:

步骤1:同时读取多路实时视频流作为视频流的输入;

步骤2:将所述的多路实时视频流进行拼接,得到拼接视频流并存入拼接视频流数据区;

步骤3:同时从拼接视频流数据区读取该数据的拼接视频流,进行运动目标检测。

以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本发明利用多线程机制对拼接视频流进行处理,使得视频流拼接和运动目标检测并行同时进行,而不在是流水线式而是并行式,提高了算法整体的运行效率。在视频拼接中首先计算不同视频流之间的配准参数保存成文件,然后对于后续视频流,读取所述配准参数实现融合,实现了视频流拼接的实时性。在运动目标检测部分,利用了深度学习技术的中yolo算法完成运动目标检测,相对于传统的机器学习算法的目标检测,在速度和准确率都有了很大的提高。

本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1