一种针对图像序列的运动目标提取方法及装置与流程

文档序号:12804963阅读:195来源:国知局
一种针对图像序列的运动目标提取方法及装置与流程

本发明涉及计算机视觉技术领域,具体地,涉及一种针对图像序列的运动目标提取方法及装置。



背景技术:

在计算机视觉领域,对图像序列中的特定运动目标进行目标提取和目标跟踪是类似的两种应用,其区别在于,目标提取是从已有的图像序列中,提取出目标在每帧中的位置和大小;而目标跟踪则是在每次新的一帧图像到来时,根据已有的图像序列,找到已知目标在新到的图像中的位置和大小,例如导弹制导。

在技术上,目标提取过程一般假设每一帧图像都是已知的,可以全部用来做搜寻匹配,常用的搜寻方法有动态规划算法,但该算法效率较低;目标跟踪一般对最新的多帧图像中的已知目标建模,预测目标的位置和大小变化,并尽可能在新到的一帧图像中找到已知目标,在找到目标后更新模型,并做出新的预测,常用的预测和模型更新方法有粒子滤波算法,该算法的效率也比较低。

另外,对于目标提取和目标跟踪,现有技术中还有针对多类运动目标的提取和跟踪方法,比如运用组件分析法进行多类目标匹配,确定出所述各运动目标的属性,实现对各运动目标的识别,并进行时间上的关联,以实现对该类运动目标的跟踪。再比如,从视频数据中提取每个运动目标的运动轨迹信息,在各个层次上为多运动目标动作行为的运动模式建模,利用分类器实现视频中多运动目标动作行为的识别。但是,采用这些方法进行图像序列中特定运动目标的分类提取时,均存在效率较低的缺点。



技术实现要素:

本发明的目的是提供一种针对图像序列的运动目标提取方法及装置,用于解决现有图像序列中特定运动目标的分类提取方案效率较低的问题。

为了实现上述目的,本发明提供一种针对图像序列的运动目标提取方法,该运动目标提取方法包括:建立各种运动目标的隐马尔科夫模型;采用隐马尔科夫模型对待提取运动目标的图像序列进行检测,输出各种运动目标对应的隐马尔科夫模型在各帧图像中检测得到的各个包围框的属性信息集合;以及结合前向概率传播算法与反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

优选地,所述输出各种运动目标对应的隐马尔科夫模型在各帧图像中检测得到的各个包围框的属性信息集合,包括:对于每一帧图像的任意一个包围框,若该包围框的图像特征为任意种类的运动目标的任意状态的概率大于第一设定阈值,则输出该包围框的属性信息集合。

优选地,所述属性信息包括包围框的横坐标、纵坐标、宽度、高度以及该包围框为任意种类的运动目标的任意状态的概率。

优选地,所述结合前向概率传播算法与反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合,包括:对每一种运动目标,结合所述属性信息集合,采用前向概率传播算法计算以各帧图像的每一个包围框结尾的图像序列为该种运动目标的最优概率;以及结合所述最优概率,采用反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

优选地,所述采用前向概率传播算法计算以各帧图像的每一个包围框结尾的图像序列为该种运动目标的最优概率,包括:对于第t帧图像的第vt个包围框,计算该包围框的前一个包围框vt-1与该第vt个包围框为同一运动目标,并且第t帧图像的第vt个包围框为状态i的概率e(vt-1,i);从计算出的所有概率e(vt-1,i)中选取最大值e',且将e'对应的vt-1和i分别设为v't-1和i';若(w(k,t,vt)+e')/(l(k,t,vt)+1)>z',其中w(k,t,vt)表示对于第k种运动目标,以第t帧的第vt个包围框结尾的图像序列是该第k种运动目标的概率,l(k,t,vt)表示以第t帧的第vt个包围框结尾的图像序列的帧数,z'为第二设定阈值,则按以下公式进行递归运算:q(k,t,vt)=v't-1,l(k,t,vt)=l(k,t,v't-1)+1,w(k,t,vt)=w(k,t,vt)+e';其中,q(k,t,vt)表示与第t帧的第vt个包围框连接的第t-1帧的包围框序号;以及最终计算出的w(k,t,vt)作为对于第k种运动目标,以第t帧的第vt个包围框结尾的图像序列是该第k种运动目标的最优概率。

优选地,采用以下公式计算概率e(vt-1,i):e(vt-1,i)=pk(a(t,vt)|i)+αt(s(k,t,vt-1),i)+βc(t,vt,t-1,vt-1);其中,i表示第i个状态,且i=1,…,n,n为状态种类的总数;c(t,vt,t-1,vt-1)是第t帧的第vt个包围框和第t-1帧的第vt-1个包围框重叠区域的大小占第t帧第vt个包围框大小的比例,其通过所述属性信息集合中t和vt所对应的属性信息计算得到;t(s(k,t,vt-1),i)为第s(k,t,vt-1)个状态跳转到第i个状态的状态转移概率,s(k,t,vt-1)表示第t帧的第vt-1个包围框对应的状态的序号;α和β分别为状态转移概率和重叠区域比例的权值。

优选地,所述采用反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合,包括:根据所述前向概率传播算法的计算结果,获得以第t帧的第vt个包围框结尾的图像序列是第k种运动目标的最大概率w',并设w'对应的k为k';设r为需要寻找的以第t帧的第vt个包围框结尾的图像序列,将所述属性信息集合中k'对应的属性信息加入r中;找出与第t帧的第vt个包围框连接的第t-1帧的包围框序号,记为vt-1,将所述属性信息集合中k'与vt-1对应的属性信息加入r中,重复这一操作,直到与第t帧的第vt个包围框连接的第t-1帧的包围框序号为0;以及将最终获得的r和k'组成待提取的运动目标的集合{r,k'},其中r表征了运动目标所在的位置和大小,k'表征了运动目标的类型。

本发明的技术方案还提供了一种针对图像序列的运动目标提取装置,该运动目标提取装置包括:模型训练模块,用于建立各种运动目标的隐马尔科夫模型;目标检测模块,用于采用隐马尔科夫模型对待提取运动目标的图像序列进行检测,输出各种运动目标对应的隐马尔科夫模型在各帧图像中检测得到的各个包围框的属性信息集合;以及目标提取模块,用于结合前向概率传播算法与反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

优选地,所述目标检测模块包括:序列检测子模块,用于采用隐马尔科夫模型对待提取运动目标的图像序列进行检测;以及选择输出子模块,用于对每一帧图像的任意一个包围框,若该包围框的图像特征为任意种类的运动目标的任意状态的概率大于第一设定阈值,则输出该包围框的属性信息集合。

优选地,所述目标提取模块包括:前向计算子模块,用于对每一种运动目标,结合所述属性信息集合,采用前向概率传播算法计算以各帧图像的每一个包围框结尾的图像序列为该种运动目标的最优概率;以及反向计算子模块,用于结合所述最优概率,采用反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

通过上述技术方案,本发明的有益效果是:本发明采用隐马尔科夫模型建模运动目标,准确地表征了目标在不同姿态下的表象,能够处理复杂变化的目标。结合前向概率传播和反向回溯的方法,在图像序列中检测得到的包围框集合中搜寻最优子序列,实现了运动目标的快速准确提取。通过表象特征和运动特征快速检测到可能的运动目标之后,再融入序列特征,由粗到精逐步细化,提高了目标提取的效率。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:

图1是本发明的第一实施例中的运动目标提取方法的流程示意图。

图2是本发明的第二实施例中的运动目标提取装置的结构示意图。

附图标记说明

1模型训练模块2目标检测模块

3目标提取模块21序列检测子模块

22选择输出子模块31前向计算子模块

32反向计算子模块

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

本发明针对现有图像序列中特定运动目标的分类提取方案效率较低的问题,提出了利用隐马尔科夫模型(hiddenmarkovmodel,hmm)进行目标提取的方案。hmm的经典用法是在对被框出目标的一系列运动建模后用于识别,比如投篮,建模时需要事先框出训练数据中每一帧的投手的位置,识别时也是需要事先知道测试数据每一帧的投手的位置,然后hmm能给出这是一段投篮序列的概率。相对于该经典用法,本发明则主要强调的目标序列的提取,将hmm拆解,借助了hmm在每一帧每一个框的概率和回溯等方法,细节将在下文介绍。

本发明所要实现的运动目标提取是指从多段有特定运动目标,并且用矩形包围框在每帧图像中选取出运动目标的图像序列。对此,本发明的第一实施例提供了一种运动目标提取方法,如图1所示,该运动目标提取方法包括:

步骤s1,建立各种运动目标的隐马尔科夫模型;

步骤s2,采用隐马尔科夫模型对待提取运动目标的图像序列进行检测,输出各种运动目标对应的隐马尔科夫模型在各帧图像中检测得到的各个包围框的属性信息集合;以及

步骤s3,结合前向概率传播算法与反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

上述步骤s1-s3分别实现模型建立、目标检测和目标提取,下面详细介绍这三个部分的具体实施过程。

一、模型建立

首先,提取每帧图像中包围框内的图像特征,本实施例优选提取计算机视觉应用中常用的hog+hof组合特征。hog+hof是hog特征向量和hof特征向量的直接连接,hog(histogramsofgradients)为梯度直方图,表征图像中局部区域的梯度分布;hof(histogramsofopticalflow)为光流直方图,表征图像中局部区域的光流分布。

然后,对于每一种运动目标,利用训练数据中该运动目标对应的各段图像序列(下文中也称图像序列简称为序列)的图像特征,训练一个ns(k)种状态的hmm(hiddenmarkovmodel,即隐马尔科夫模型),得到状态转移概率和发射概率。将第k种运动目标对应的状态转移概率记为tk,发射概率记为pk。设运动目标的种类数为na,则k=1,…,na。状态数ns(k)由运动目标变化的复杂程度而定,每种状态对应于运动目标的一个姿态。状态转移概率tk(i,j)表示第k种运动目标从第i个状态跳转到第j个状态的概率,发射概率pk(q|i)表示第k种运动目标第i个状态呈现的图像特征为q的概率。

二、目标检测

首先,使用滑动窗口方法,在每一帧图像中产生不同位置和大小的包围框,提取每个包围框内的图像特征。对于任意的一个包围框,设其图像特征为a,通过隐马尔科夫模型训练模块中的发射概率,计算得到该图像特征相对于每种运动的每种状态的概率pk(a|i),k=1,…,na,i=1…ns(k)。设属性信息集合b包含各种运动目标对应的隐马尔科夫模型在各帧图像中检测得到的各个包围框的位置、大小和概率等属性信息,则本实施例在采用隐马尔科夫模型对待提取运动目标的图像序列进行检测后,优选为将图像特征a为某种运动k的某种状态i的概率pk(a|i)大于第一设定阈值z的包围框的属性保存于集合b中,其中第t帧第vt个包围框的属性记为:

b(k,t,vt)=(x(k,t,vt),y(k,t,vt),w(k,t,vt),h(k,t,vt),p1(a(t,vt)|1),…,pna(a(t,vt)|ns(na))(1)

其中,t=1,…,nf,v=1,…,nb(t),a(t,vt)是第t帧第vt个包围框内的图像特征,式(1)右边的x、y、w、h、p等各项分别表示通过第k个运动目标的隐马尔科夫模型在第t帧检测到的第vt个包围框的横坐标、纵坐标、宽度、高度、该包围框为第1种运动第1个状态的概率……该包围框为第na种运动第ns(na)个状态的概率,nb(t)表示第t帧中为某种运动的某种状态的概率大于第一设定阈值z的包围框个数。其中,vt的顺序可任意指定,z为单个包围框可被认为是运动目标的概率的最小值,z的取值是经验值,可优选为收集的多个p值的平均值。

三、目标提取

对于第k种运动目标,设w(k,t,vt)表示以第t帧的第vt个包围框结尾的序列是该第k种运动目标的概率,l(k,t,vt)表示以第t帧的第vt个包围框结尾的序列帧数,q(k,t,vt)表示与第t帧的第vt个包围框连接的第t-1帧的包围框序号,s(k,t,vt)表示第t帧的第vt个包围框对应的状态序号,第二设定阈值z'表示一个包围框序列可被认为是运动目标的每帧平均概率的最小值,优选为第一设定阈值z的1.5倍,r表示最终提取的运动目标集合。

步骤1,对每一种运动目标,结合所述属性信息集合,采用前向概率传播算法计算以各帧图像的每一个包围框结尾的图像序列为该种运动目标的最优概率。

对于t=1…nf,vt=1…nb(t),k=1…na,执行步骤1.1-1.4

步骤1.1、如果t=1,跳过步骤1.1-1.3,执行步骤1.4;否则,对于vt-1=1…nb(t-1),计算该包围框与第t帧第vt个包围框为同一运动目标,并且采用下式计算第t帧第vt个包围框为状态i的概率e(vt-1,i)。

e(vt-1,i)=pk(a(t,vt)|i)+αt(s(k,t,vt-1),i)+βc(t,vt,t-1,vt-1)(2)

其中,i表示第i个状态,且i=1,…,ns(k),ns(k)为第k种运动对应的状态数;c(t,vt,t-1,vt-1)是第t帧的第vt个包围框和第t-1帧的第vt-1个包围框重叠区域的大小占第t帧第vt个包围框大小的比例,其通过所述属性信息集合中t和vt所对应的属性信息计算得到;t(s(k,t,vt-1),i)为第s(k,t,vt-1)个状态跳转到第i个状态的状态转移概率,s(k,t,vt-1)表示第t帧的第vt-1个包围框对应的状态的序号;α和β分别为状态转移概率和重叠区域比例的权值。

步骤1.2、赋值e'=maxvt-1,ie(vt-1,i),即从计算出的所有概率e(vt-1,i)中选取最大值e',并设式中取最大值的vt-1和i分别为vt-1'和i'。

步骤1.3、如果(w(k,t,vt)+e')/(l(k,t,vt)+1)>z',则按以下规则赋值:

q(k,t,vt)=v't-1(3)

l(k,t,vt)=l(k,t,vt-1')+1(4)

w(k,t,vt)=w(k,t,vt)+e'(5)

并且,按式(3)-式(5)赋值后,跳过步骤1.4;

如果(w(k,t,vt)+e')/(l(k,t,vt)+1)>z'不成立,则继续执行步骤1.4。

步骤1.4、按以下公式进行递归运算:

q(k,t,vt)=0,(6)

l(k,t,vt)=1(7)

e'=maxipk(a(t,vt)|i)(8)

w(k,t,vt)=w(k,t,vt)+e'(9)

通过上述步骤1.1-1.4执行最优搜索,将最终计算出的w(k,t,vt)作为对于第k种运动目标,以第t帧的第vt个包围框结尾的图像序列是该第k种运动目标的最优概率。

步骤2、结合所述最优概率,采用反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

对于t=nf…1,vt=nb(t)…1,执行步骤2.1-2.2,

步骤2.1、找出以第t帧的第vt个包围框结尾的序列是某种运动目标的最大概率,即

w'=maxkw(k,t,vt)(10)

设式(10)中取最大值的k为k'。

步骤2.2、设r为需要寻找的以第t帧的第vt个包围框结尾的序列,初始为空。将属性信息集合b(k',t,vt)中的{x(k',t,vt),y(k',t,vt),w(k',t,vt),h(k',t,vt)}加入序列r。用q(k',t,vt)找出与第t帧的第vt个包围框连接的第t-1帧的包围框序号,记为vt-1,将b(k',t-1,vt-1)中的{x(k',t-1,vt-1),y(k',t-1,vt-1),w(k',t-1,vt-1),h(k',t-1,vt-1)}加入序列r。

如此循环l(k',t,vt)-1次,即直到q(k',t-l(k',t,vt)-1,vt-l(k,t,vt)-1)的值为0为止。此时,r中的内容应为

{{x(k',t,vt),y(k',t,vt),w(k',t,vt),h(k',t,vt)},

{x(k',t-1,vt-1),y(k',t-1,vt-1),w(k',t-1,vt-1),h(k',t-1,vt-1),

……}。(11)

将{r,k'}组加入集合r,其中r表征了运动目标所在的位置和大小,k'表征了运动目标的类型,

为避免获取到的多个序列间发生包围框重复,在每次获取包围框后,在已经找到的序列集合r中查看是否在该帧已有包围框与其重叠程度大于某一阈值,阈值优选50%,如有,则认为该帧之前的包围框是其他运动目标,不再继续寻找,将该帧作为当前序列的起点。

基于与上述第一实施例中的运动目标提取方法相同的发明思路,本发明的第二实施例提出了一种运动目标提取装置,如图2所示,该运动目标提取装置包括:模型训练模块1,用于建立各种运动目标的隐马尔科夫模型;目标检测模块2,用于采用隐马尔科夫模型对待提取运动目标的图像序列进行检测,输出各种运动目标对应的隐马尔科夫模型在各帧图像中检测得到的各个包围框的属性信息集合;以及目标提取模块3,用于结合前向概率传播算法与反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

进一步地,所述目标检测模块2包括:序列检测子模块21,用于采用隐马尔科夫模型对待提取运动目标的图像序列进行检测;以及选择输出子模块22,用于对每一帧图像的任意一个包围框,若该包围框的图像特征为任意种类的运动目标的任意状态的概率大于第一设定阈值,则输出该包围框的属性信息集合。

进一步地,所述目标提取模块3包括:前向计算子模块31,用于对每一种运动目标,结合所述属性信息集合,采用前向概率传播算法计算以各帧图像的每一个包围框结尾的图像序列为该种运动目标的最优概率;以及反向计算子模块32,用于结合所述最优概率,采用反向回溯算法从所述属性信息集合中搜寻出待提取的运动目标的集合。

需说明的是,本实施例的运动目标提取装置的各功能模块与第一实施例的运动目标提取方法的相关步骤相对应,因此各功能模块的具体实施过程及工作原理与第一实施例相同或相近,在此不再赘述。

综上所述,本发明实施例中的运动目标提取方法及装置具有以下优点:

1、采用隐马尔科夫模型建模运动目标,准确地表征了目标在不同姿态下的表象,能够处理复杂变化的目标。

2、结合前向概率传播算法和反向回溯算法的方法,在图像序列中检测得到的包围框集合中搜寻最优子序列,实现了运动目标的快速准确提取。

3、通过表象特征和运动特征快速检测到可能的运动目标之后,再融入序列特征,由粗到精逐步细化,提高了目标提取的效率。

这里,应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1