运动检测方法及躲避和跟踪运动目标的方法与流程

文档序号:11144990阅读:516来源:国知局
运动检测方法及躲避和跟踪运动目标的方法与制造工艺

本发明涉及图像处理、计算机视觉及脑神经科学技术领域,具体而言,涉及了运动检测方法及躲避和跟踪运动目标的方法。



背景技术:

对运动目标的检测,是计算机视觉领域主要研究的问题之一。根据基本原理和思想,与运动检测相关的计算机方法主要分为以下三类:

(1)帧间差分法。即:对视频图像序列中相邻的两帧之间做差分运算,从而根据图像序列灰度值的变化来分析图像序列的运动特性,发现运动的目标。该方法实现简单,但不能检测速度过慢或过快的目标,并且要求背景相对简单,不能出现剧烈或迅速的变化。

(2)光流法。其中,光流是将三维空间中目标和场景投影到二维空间,从而表现为二维图像序列中亮度模式的流动。光流法的研究正是利用图像序列中像素灰度值的时序变化和相关性来确定空间各像素点所发生的运动。光流矢量则定义为图像所在二维空间坐标系上各点灰度值的瞬时变化率。该方法适用于背景复杂且不断变化的场景,并且不需要预先训练。而缺点是计算量比较大,且计算的结果易受光照影响。

(3)背景去除法。这一类算法通常假定背景复合某一规律的模型。在算法中,首先设法估计出模型的参数,从而重建出每一帧的背景。再用序列中的每一帧对背景进行差分,从而获得前景的内容,进一步分析和判断前景的运动。该方法在背景符合某一分布时能起到很好的效果。而在背景复杂且分布情况未知或难以用模型描述时,该方法并不适用。

这些方法和真正生物学大脑对运动的检测存在着很大的区别。客观的讲,所有的这些算法都不能和真正意义上的生物大脑相比。首先,这些算法都存在一定的适用条件,例如,帧间差分法需要假定背景简单且不能出现明显的运动,背景去除法需要假定背景符合某一形式的分布,而真实的情况往往发生在这些假设条件之外。相比之下,真正的生物大脑则能够适应各种环境,不需要这些特殊的假设条件。其次,计算机算法往往在处理时间上要逊色于真实的生物大脑。以光流法为例,为了检测运动,往往需要非常复杂的运算。而以人为例,经验告诉我们,往往只需要“看一眼”,就可以感知运动的目标及形式。再有,机器算法的处理结果通常伴随着一定的错误发生,而真实的生物大脑处理结果,错误的发生的机率很低。

有鉴于此,特提出本发明。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决如何准确地对特定方向、特定速度的运动做出响应的技术问题而提供了运动检测方法及躲避和跟踪运动目标的方法。

为了实现上述目的,一方面,提供了以下技术方案:

一种运动检测方法,所述方法包括:

获取图像序列;

确定所述图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应;

对所述运动目标在所述三维时空空间中所述不同三维时空方向对应的所述运动响应进行投影,采用空间平面上最大化投影方法,得到所述运动目标的最大空间运动响应;

基于所述运动目标的所述最大空间运动响应,采用所有空间方向上最大化空间运动响应的方法,得到所述运动目标的方位。

为了实现上述目的,另一方面,还提供一种运动检测方法,所述方法包括:

获取脑图像序列;

对V1脑区进行处理,获得所述脑图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应;

基于对所述V1脑区进行处理获得的所述运动响应,对MT/MST脑区的运动神经元进行投影,采用空间平面上最大化投影放电频率的方法确定最大运动响应;

基于所述最大运动响应,采用所有空间方向上最大化放电频率的方法对LIP脑区的运动决策功能进行处理,得到所述运动目标的方位。

进一步地,所述对V1脑区进行处理,获得所述脑图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应,具体包括:

根据下式确定所述运动响应代表的速度和方向:

其中,dx、dy、dt表示神经元在所述三维时空空间中的一响应方向,对应在单位球面的坐标;所述v表示所述运动响应代表的速度;所述θ表示所述运动响应代表的方向;

根据下式建立神经元模型:

其中,所述表示兴奋电导;所述t表示时间;所述G(x,y)表示高斯核;σ表示高斯核函数参数;(x,y)表示感受野中心位置;*表示卷积运算;所述Pc(t)和所述Ps(t)表示时间的函数;所述f(v)表示频率为速度的函数,所述d(x,y,θ)表示感受野中心位置在θ方向角上的投影;所述C表示细胞膜电容;所述V表示神经元膜电位;所述Gi(x,y,t)表示抑制电导;所述Ee表示兴奋平衡电位;所述Ei表示抑制平衡电位;gl表示漏电电导;

利用所述神经元模型计算所述神经元的放电频率,从而获得所述神经元在任一方向和速度上的运动响应;

根据所述神经元在任一方向和速度上的所述运动响应,获得所述图像序列中所述运动目标在所述三维时空空间中所述不同三维时空方向对应的所述运动响应。

进一步地,所述基于所述最大运动响应,采用所有空间方向上最大化放电频率的方法对LIP脑区的运动决策功能进行处理,得到所述运动目标的方位,具体包括:

基于所述最大运动响应,采用所有空间方向上最大化放电频率的方法,确定所述运动目标的位置;

通过所述最大运动响应,根据下式确定所述运动目标的运动方向:

其中,所述θ表示所述运动目标的所述运动方向;所述vθ(x,y,t)表示最大运动响应。

进一步地,在所述获取脑图像序列之后,所述运动检测方法还包括:

利用空间高斯滤波方法将所述图像序列中的每一帧处理成多个不同尺度的图像。

为了实现上述目的,再一方面,还提供一种躲避和跟踪运动目标的方法,包括:

获取三维场景图像;

基于所述三维场景图像,利用双目视差的方法,生成三维深度图像;

对所述三维深度图像进行投影,得到二维图像;

采用如权利要求1-5中任一所述的运动检测方法对所述二维图像进行处理,确定所述运动目标在水平面的运动方向,从而实现对所述运动目标的躲避和跟踪。

进一步地,所述双目视差方法采用双目图像获取装置;所述基于所述三维场景图像,利用双目视差的方法,生成三维深度图像,具体包括:

获取所述双目图像获取装置的变换参数;

基于所述三维场景图像,根据双目视差算法,获得所述三维场景图像中的所述运动目标,所述运动目标具有不同的视差;

将所述运动目标的所述视差确定为所述运动目标的深度,从而得到所述三维深度图像。

本发明实施例提供一种运动检测方法。该方法包括:获取图像序列;确定图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应;对运动目标在所述三维时空空间中不同三维时空方向对应的运动响应进行投影,采用空间平面上最大化投影方法,得到运动目标的最大空间运动响应;基于运动目标的最大空间运动响应,采用所有空间方向上最大化空间运动响应的方法,得到运动目标的方位。本发明实施例通过采用上述技术方案解决了如何准确地对特定方向、特定速度的运动做出响应的技术问题,实现了整体的运动处理流程。

附图说明

为了描述本发明的上述优点和特征,将通过引用附图中的具体实例来辅助说明本发明的详细内容。这些附图仅为本发明的典型实例的描述,而非对本发明的限制。任何以其他形式表达本发明步骤或内容的附图都应属于本发明范围内。

图1是根据本发明实施例的运动检测方法的流程示意图;

图2是根据本发明另一实施例的运动检测方法的流程示意图;

图3是根据本发明实施例的时空空间响应的示意图;

图4是根据本发明实施例的投影的原理示意图;

图5a是根据本发明实施例的图像序列中的第10帧示意图;

图5b是根据本发明实施例的针对图5a的第二尺度图像示意图;

图5c是根据本发明实施例的针对图5a的第三尺度图像示意图;

图5d是根据本发明实施例的图像序列中的第20帧示意图;

图5e是根据本发明实施例的针对图5d的第二尺度图像示意图;

图5f是根据本发明实施例的针对图5d的第三尺度图像示意图;

图5g是根据本发明实施例的图像序列中的第30帧示意图;

图5h是根据本发明实施例的针对图5g的第二尺度图像示意图;

图5i是根据本发明实施例的针对图5g的第三尺度图像示意图;

图6a是根据本发明实施例的图像序列中第25帧的示意图;

图6b是根据本发明实施例的图像序列中第30帧的示意图;

图6c是根据本发明实施例的图像序列中第40帧的示意图;

图6d是根据本发明实施例的图像序列中第25帧的检测结果示意图;

图6e是根据本发明实施例的图像序列中第30帧的检测结果示意图;

图6f是根据本发明实施例的图像序列中第40帧的检测结果示意图;

图7是根据本发明实施例的躲避和跟踪运动目标的方法的流程示意图;

图8a1是根据本发明实施例的无人机采集到的场景中运动目标靠后的左视图;

图8a2是根据本发明实施例的无人机采集到的场景中运动目标靠后的校正后的右视图;

图8a3是根据本发明实施例的图a1和a2的视差图;

图8a4是根据本发明实施例的针对图a1的投影到水平面后的投影图;

图8b1是根据本发明实施例的无人机采集到的场景中运动目标靠前的左视图;

图8b2是根据本发明实施例的无人机采集到的场景中运动目标靠前的校正后的右视图;

图8b3是根据本发明实施例的图b1和b2的视差图;

图8b4是根据本发明实施例的针对图b1的投影到水平面后的投影图;

图8c1是根据本发明实施例的无人机采集到的场景中运动目标偏左的左视图;

图8c2是根据本发明实施例的无人机采集到的场景中运动目标偏左的校正后的右视图;

图8c3是根据本发明实施例的图c1和c2的视差图;

图8c4是根据本发明实施例的针对图c1的投影到水平面后的投影图;

图8d1是根据本发明实施例的无人机采集到的场景中运动目标偏右的左视图;

图8d2是根据本发明实施例的无人机采集到的场景中运动目标偏右的校正后的右视图;

图8d3是根据本发明实施例的图d1和d2的视差图;

图8d4是根据本发明实施例的针对图d1的投影到水平面后的投影图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

本发明实施例的基本思想是从生物学原理出发,探索对运动目标检测的方法,使其更符合真实的生物学大脑,从而提高处理结果的性能。本发明实施例可以用于无人机视觉信息处理,包括但不限于无人机对运动目标/障碍物的自动躲避和跟踪。

本发明实施例提供一种运动检测方法。如图1所示,该方法可以包括:

S100:获取图像序列。

S110:确定图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应。

S120:对运动目标在三维时空空间中不同三维时空方向对应的运动响应进行投影,采用空间平面上最大化投影方法,得到运动目标的最大空间运动响应。

S130:基于运动目标的最大空间运动响应,采用所有空间方向上最大化空间运动响应的方法,得到运动目标的方位。

通过上述技术方案,能够准确地对特定方向、特定速度的运动做出响应。

受生物学大脑原理的启发,本发明实施例还提供一种运动检测方法。如图2所示,该方法可以包括:

S200:获取脑图像序列。

其中,脑图像序列可以是视频中的图像序列。

S210:对V1脑区进行处理,获得脑图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应。

神经生物学的研究成果表明,V1脑区中的每一个运动神经元,都只有对特定的时空方向的运动产生最大的响应。整个脑区的所有运动神经元可以看成具备不同时空方向响应的功能单元的集合。因此,在建立V1脑区运动神经元模型时,可考虑对单位球面进行采样。对感受野中心位置为的神经元,它获得的最大响应可能为单位球面上的任何一个方向。

图3示例性地示出了时空空间响应的示意图。其中,dx和dy分别表示图像序列中二维图像空间的两个方向;dt表示时间的变化,在图像序列中表示为对应的帧。这三个坐标轴构成了时空三维空间。图3中单位球面上的三个点S1、S2和S3代表了三个不同的时空方向。当只考虑方向时,单位球面上的点集可以表示所有的时空方向。

具体地,本步骤可以包括:

S211:根据下式确定运动响应代表的速度和方向:

其中,(dx,dy,dt)表示神经元在三维时空空间中的一个响应方向,对应在单位球面的坐标;v表示运动响应代表的速度;θ表示运动响应代表的方向。

S212:根据下式建立神经元模型:

其中,表示兴奋电导;t表示时间;G(x,y)表示高斯核;σ表示高斯核函数参数;(x,y)表示感受野中心位置;*表示卷积运算;Pc(t)和)Ps(t)表示时间的函数,与神经元的延时有关;f(v)表示频率为速度的函数,d(x,y,θ)表示感受野中心位置在θ方向角上的投影;C表示细胞膜电容;V表示神经元膜电位;Gi(x,y,t)表示抑制电导;Ee表示兴奋平衡电位;Ei表示抑制平衡电位;gl表示漏电电导。

根据计算神经学的技术知识,本领域技术人员可知兴奋电导的最大响应发生在正弦和余弦两个相位处,因而兴奋电导又分为正弦和余弦两个部分的叠加。

S213:利用上述神经元模型计算神经元的放电频率,从而获得神经元在任一方向和速度上的运动响应。

上述神经元模型为放电模型(即电导随时空变化的集成-放电模型),当神经元膜电位大于神经元膜电位阈值时,上述神经元模型产生放电脉冲。在实际计算中,通过该模型计算神经元的放电频率vv,θ(x,y,t),该放电频率表示神经元对θ方向和速度上的运动响应大小。

S214:根据神经元在任一方向和速度上的运动响应,获得图像序列中运动目标在三维时空空间中不同三维时空方向对应的运动响应。

通过上述神经元模型可以确定对特定方和速度产生最大响应的神经元。由于V1脑区中的运动感知部分是由无数具有这样特性的神经元构成的,所以,只要采样充分,就可获得对视频图像序列中各个运动目标不同方向、不同速度的运动响应。

S220:基于对V1脑区进行处理获得的运动响应,对MT/MST脑区的运动神经元进行投影,采用空间平面上最大化投影放电频率的方法确定最大运动响应。

神经科学研究成果表明MT/MST脑区运动神经元接受来自V1脑区相应神经元的输入。与V1脑区的神经元相比,MT/MST脑区的运动神经元通常具备更大的感受野,可以对更大速度范围的运动做出相应。

对感受野中心位置为(x,y,t)的神经元,MT/MST脑区接收来自V1脑区的具备方向和速度为(v,θ)的输出,其具体表现形式为放电频率vv,θ(x,y,t)。出于简化但不失为科学性的考量,本发明实施例将放电频率处理为只和运动方向有关,其表示为vθ(x,y,t),即为在θ方向上的运动响应的最大频率,即:

图4示例性地示出了投影的原理示意图。其中,S1、S2和S3对应V1区不同运动神经元三个不同的时空方向。将它们投影到dx-dy平面上获得它们在二维空间中的运动方向,从而和运动的速度无关。其中S1’、S2’和S3’分别为S1、S2、S3对应的在空间平面内的投影。

本步骤通过将MT/MST脑区的运动神经元进行在V1脑区神经元在运动平面方向上的投影的处理,而且该MT/MST脑区的神经元具备对特定方向的运动产生最大响应的能力,从而简化了MT/MST脑区的处理过程,提高了运动检测的效率。

S230:基于最大运动响应,采用所有空间方向上最大化放电频率的方法对LIP脑区的运动决策功能进行处理,得到运动目标的方位。

具体地,本步骤可以包括:

S231:基于最大运动响应,采用所有空间方向上最大化放电频率的方法,确定运动目标的位置。

作为示例,对感受野中心位置为(x,y,t)的神经元,在该位置的最大运动响应,即放电频率为:从而得到运动目标的位置。

S232:通过最大运动响应,根据下式可以确定运动目标的运动方向:

其中,θ表示运动目标的运动方向;vθ(x,y,t)表示最大运动响应。

真实的生物意义上的决策可以获得运动目标的位置以及方向等信息。但是,在运动检测问题中,一般只关心运动目标出现的具体位置。对于视频图像序列的每一帧,各空间位置上的最大运动响应能够表示该位置运动的强弱,因此在输出视频图像序列中各空间位置的最大响应,即放电频率,也即可表示该位置发生的运动信息。具备放电频率大的那些空间位置,则为发生运动的那些位置。

与当前计算机视觉和机器学习领域广泛流行的人工神经网络相比,脉冲神经网络更符合大脑处理问题的原理。本发明实施例根据大脑处理运动问题的原理,并借鉴了神经科学的模型(例如:脉冲神经网络模型),从模拟各个脑区入手,通过实现各个脑区的功能,实现了整体的运动处理流程。更符合大脑处理运动问题的机制,更能够准确地对特定方向、特定速度的运动做出响应,完全符合生物学大脑的特点。

为了充分发掘或突出输入图像序列中不同细节程度的运动目标,从而检测出不同细节的目标所对应的运动,可以对图像序列进行预处理。

为此,在一个优选的实施例中,本发明实施例提供的方法在步骤S200之后还可以包括:

利用空间高斯滤波方法将图像序列中的每一帧处理成多个不同尺度的图像。

优选地,本步骤可以通过一下公式对图像序列中的每一帧进行处理:

I1=I;I2=I1*G(x,y);I3=I2*G(x,y);

其中,I表示原始图像;In-1表示第(n-1)尺度图像;In表示第n尺度图像;*表示卷积运算;G(x,y)表示高斯核;σ表示高斯核函数参数。

图5a-5i示例性地示出了预处理结果示意图。其中的图5a、5d和5g分别示出了图像序列中的第10帧、20帧和30帧。经过预处理将每一帧对应的图像生成三个不同的尺度。其中图5a、5d和5g为第一尺度图像(即未经处理的原图像)。图5b、5e和5h为第二尺度图像,图5c、5f和5i为第三尺度图像,第一尺度图像、第二尺度图像、第三尺度图像依次增大。从该实例中可以看到,随着尺度的逐渐增大,一些细小的目标逐渐在图像序列中消失,而图像中只保留了一些具有大尺度的目标。

图6a-6f示例性地示出了一个场景下的检测结果示意图。图6a示例性地示出了图像序列中第25帧的示意图。图6b示例性地示出了图像序列中第30帧的示意图。图6c示例性地示出了图像序列中第40帧的示意图。图6d示例性地示出了图像序列中第25帧的检测结果示意图。图6e示例性地示出了图像序列中第30帧的检测结果示意图。图6f示例性地示出了图像序列中第40帧的检测结果示意图。其中,办公室中的两个人为需要检测的运动目标。根据结果,在各帧中人对应的位置处均具备充分的放电频率,也就是说具备较大的运动响应。这说明本发明实施例提供的运动检测能够在实际场景中发挥效果。

一般的二维视频图像序列仅能够检测在平面内的运动响应。而无人机遇到的真实目标则在三维空间内运动。为了使本发明实施例能够应用到无人机的具体场景,本发明实施例还提供一种躲避和跟踪运动目标的方法。所述方法应用于无人机。如图7所示,该方法可以包括:

S300:获取三维场景图像,其中,该三维场景图像包括运动目标。

S310:基于三维场景图像,利用双目视差的方法,生成三维深度图像。

具体地,本步骤可以包括:

S311:获取双目图像获取装置的变换参数。

其中,双目图像获取装置例如可以为双目摄像头或双目照相机。以双目摄像头为例,变换参数可以为两个摄像头之间的变换参数。

S312:基于三维场景图像,根据双目视差算法,获得三维场景图像中的运动目标,该运动目标具有不同的视差。

S313:将该运动目标的视差确定为运动目标的深度,从而得到三维深度图像。

其中,根据几何原理,不同深度的目标会产生不同程度的视差偏移。所以,目标的视差可以看作是对应的深度。

在一些优选地实施方式中,在步骤S311之后,还可以包括:根据变换参数对三维场景图像进行校正。

S320:对三维深度图像进行投影,得到二维图像。

考虑到诸如无人机等设备在执行躲避/跟踪目标的任务中,一般只执行前、后、左、右四个方向的运动,也就是在和地面平行的平面里进行决策操作;故把场景投影在和地面平行的平面里,例如,可以设置x轴表示目标的左右位置,而y轴表示目标的对应深度。

S330:采用上述运动检测方法对该二维图像进行处理,确定运动目标在水平面的运动方向,从而实现对运动目标的躲避和跟踪。

图8a1示出了无人机采集到的场景中运动目标靠后的左视图。图8b1示出了无人机采集到的场景中运动目标靠前的左视图。8c1示出了无人机采集到的场景中运动目标偏左的左视图。8d1示出了无人机采集到的场景中运动目标偏右的左视图。8a2示出了无人机采集到的场景中运动目标靠后的校正后的右视图。8b2示出了无人机采集到的场景中运动目标靠前的校正后的右视图。8c2示出了无人机采集到的场景中运动目标偏左的校正后的右视图。8d2示出了无人机采集到的场景中运动目标偏右的校正后的右视图。8a3示出了图a1和a2的视差图。8b3示出了图b1和b2的视差图。8c3示出了图c1和c2的视差图。8d3示出了图d1和d2的视差图。8a4示出了针对图a1的投影到水平面后的投影图。8b4示出了针对图b1的投影到水平面后的投影图。8c4示出了针对图c1的投影到水平面后的投影图。8d4示出了针对图d1的投影到水平面后的投影图。从图8a1-d4可以看出,投影后的图像可以反应出目标的运动信息,因而可以根据对投影后的图像序列采用本发明提出的方法,就可完成无人机对目标的躲避/跟踪任务。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1