物体跟踪装置以及物体跟踪方法与流程

文档序号:30390910发布日期:2022-06-11 17:00阅读:240来源:国知局
物体跟踪装置以及物体跟踪方法与流程

1.本发明涉及物体发生了跟踪丢失时的恢复技术。


背景技术:

2.对在运动图像(时间序列图像)的某帧中检测出的物体进行跟踪的物体跟踪在计算机视觉领域中是重要的技术。
3.作为物体跟踪的方法之一,已知被称为相关滤波器模型的kcf(kernelized correlation filter:核相关滤波器)的方法。kcf将最初提供的跟踪对象物的区域视为正确答案,在线学习并进行跟踪。随着时间的推移,可能会在跟踪对象的区域产生噪声(跟踪对象以外的图像区域),出现向背景的漂移现象。这样,将丢失跟踪对象物、不能正常地继续跟踪的情况称为跟踪失败或丢失(丧失)。
4.跟踪丢失是任何跟踪方法都会出现的问题,不限于相关滤波器模型的跟踪方法。在发生了跟踪丢失时,希望重新得到跟踪对象物并继续跟踪。跟踪丢失后重新搜索跟踪对象并继续跟踪的情况被称为跟踪恢复。
5.专利文献1提出对跟踪丢失的恢复处理。具体而言,在专利文献1中,在进行跟踪期间,持续更新模板图像,另一方面,在发生了跟踪丢失的情况下,使用初始模板图像进行搜索,将搜索结果作为跟踪对象,由此而进行对丢失的恢复。
6.然而,在楼宇自动化(ba)、工厂自动化(fa)的领域中,需要由图像传感器自动测量人的“数量”/“位置”/“动线”等、优化控制照明、空调等设备的应用软件。在上述用途中,为了获取尽可能大范围的图像信息,大多利用搭载有鱼眼镜头(fisheye lens)的超广角相机(称为鱼眼相机、全方位相机、全景相机等,是相同的意思。在本说明书中使用术语“鱼眼相机”)。此外,在上述的用途中,为了获取尽可能大范围的图像信息,配置在天花板等高处安装的相机,以使相机的视点为俯视。在该配置的相机中,拍摄人物的视点在人物位于图像的周边时,为正面照、侧面照或背面照,在人物位于图像的中央时为俯视图。此外,在该配置的相机中,在位于周边时,可见被摄体的图像整体,另一方面,在位于中央的俯视图中,头部和肩被拍摄,但躯干和下半身被遮挡。
7.因拍摄面内的位置而使拍摄对象的外观扭曲,所以由鱼眼相机拍摄到的图像发生变形。此外,即使使用鱼眼相机以外的相机,当使相机的视点为俯视时,也会因跟踪对象的位置而使外观发生变化,或发生遮挡。另外,考虑在嵌入式设备等处理能力有限的环境下帧率较低,具有物体在帧间的移动量、特征量的变化较大这样的特殊性。
8.根据上述情况,在专利文献1这样现有的方法中,有时不能够精度良好地进行恢复。
9.现有技术文献
10.专利文献
11.专利文献1:(日本)特开2014-036429号公报


技术实现要素:

12.发明所要解决的技术问题
13.本发明是鉴于上述问题而提出的,目的在于提供精度比以往更高的物体跟踪的恢复技术。
14.用于解决技术问题的技术方案
15.为了实现上述目的,本发明采用如下的结构。
16.本发明的第一侧面为一种物体跟踪装置,具有:
17.存储单元;
18.跟踪单元,其对运动图像中的对象物进行跟踪;
19.恢复单元,其在丢失了所述对象物时进行所述对象物的恢复;
20.所述存储单元针对每个部位存储作为构成所述运动图像的多个帧图像之中的一帧的第一帧图像中、所述对象物的区域图像,并且存储与所述第一帧图像对应的视觉显著图取极大值的所述对象物的部位,
21.所述恢复单元,
22.在丢失了所述对象物时,针对与作为丢失了该对象物的帧图像的第二帧图像对应的视觉显著图的每个极大值位置,(1)推定假设在所述极大值位置存在所述第一帧图像中取极大值的所述对象物的部位时的、所述对象物的各部位存在的区域,(2)基于所述第一帧图像与所述第二帧图像的每个部位的区域图像的相似性,算出相似度分值,
23.确定在所述第二帧图像中的、所述相似度分值最大的极大值位置存在所述对象物。
24.作为跟踪对象的物体、即“对象物”可以为任意的物体,人体、人脸、动物、车辆等为其一个例子。对象物的“部位”可以根据对象物进行区分,其数量未特别限定。例如可以将视觉显著性不同的部分定义为部位。在对象物为人体的情况下,可以区分为头部、上半身、下半身三个部位,但也可以区分为比三更多或比三少的数量的部位。“视觉显著性”是表示容易引人注意的程度的指标,例如可以基于明亮度、明亮度随时间的变化、颜色、方向等特征来确定。
25.虽然设想对象物的尺寸及形状因图像中的位置而发生变化,但可以期待视觉显著性取极大值的部位(下面也称为显著部位)不发生变化。因此,视觉显著图中的极大值位置可视为显著部位存在的位置的候选。另外,当赋予在图像中指定的位置存在指定的部位这样的条件时,也能够确定其它的部位存在于图像中的何处。因此,恢复单元针对视觉显著图的各极大值位置,算出基于第一帧图像与第二帧图像的每个部位的区域图像的相似性的相似度分值,判定在上述相似度分值最大的位置具有对象物。由此,即使在图像中对象物的尺寸、形状发生了变化的情况下,也能够精度良好地进行恢复。
26.为了进行上述恢复,存储单元针对每个部位存储第一帧图像中表示对象物的区域图像的信息,并且预先存储第一帧图像中视觉显著性取极大值的部位(显著部位)。表示每个部位的区域图像的信息只要是基于此能够算出图像相似度的信息,可以为任意的信息,例如可以为区域图像自身,也可以为表示区域图像特征的图像特征量。另外,显著部位作为位于与第一帧图像对应的视觉显著图取极大值的位置的部位而求出。需要说明的是,在对象物内存在多个极大值的情况下,将多个极大值中取最大值的位置、或根据重心或加权和
等而求出的位置所属的部位作为显著部位。
27.每个部位的区域图像的相似性例如也可以基于图像特征量的相似度来算出。作为图像特征量的例子,可以例举颜色直方图及亮度直方图。最终的相似度分值也可以通过整合图像特征量的相似度来算出。整合时,例如也可以利用对应于第二帧图像中各部位的可视比例的权重。另外,也可以在显著部位与除此以外的部位(下面也称为非显著部位)利用不同的权重,来整合图像相似度。通过这样算出相似度分值,能够进行精度更高的恢复。
28.另外,在图像中指定的位置存在对象物的某部位时,求出其它部位存在的位置的方法未特别限定。例如也可以通过预先实测或模拟,对在各位置配置的对象物进行拍摄,将此时各部位的位置进行存储。另外,也可以用规定形状(例如圆柱形)将对象物建模,在指定部位位于指定位置时通过计算随时确定如何拍摄。需要说明的是,不仅是各部位的位置,各部位的尺寸或形状、以及各部位的可视比例也可以预先存储或随时算出。
29.上述第一帧图像可以是第二帧图像之前的帧图像,但优选是与开始跟踪对象物的帧接近的图像。因此,第一帧图像也可以为开始跟踪对象物后的帧图像或其下一帧图像。越是开始跟踪后初期的帧图像,混入噪声的可能性越小,因此,恢复的精度提高。
30.本发明的跟踪单元的跟踪算法未特别限定,但可以例举利用kcf、mosse、dcf、dsst、csr-dcf、staple等相关滤波器的方法、利用mean-shift、模板匹配的方法。在利用相关滤波器的跟踪中,在由相关滤波器算出的指标的最大值比阈值小时,可以判定已丢失对象物。在mean-shift、模板匹配中,在利用颜色直方图等求出的指标在容许范围外时,可以判定已丢失对象物。具体而言,在指标为相似度且比阈值小时,另外,在指标为距离且比阈值大时,可以判定已丢失对象物。
31.另外,在本发明中作为处理对象的图像可以是由鱼眼相机获得的鱼眼图像。“鱼眼相机”是搭载有鱼眼镜头的相机,与普通的相机相比,是可进行超广角拍摄的相机。全方位相机、全景相机以及鱼眼相机都是超广角相机的一种,都是相同的意思。鱼眼相机可以从检测对象区域的上方俯视检测对象区域地进行设置。虽然通常使鱼眼相机的光轴铅垂向下地进行设置,但鱼眼相机的光轴也可以相对于铅垂方向倾斜。因为鱼眼图像的扭曲较大,所以,特别是在低帧率的图像中物体在帧间的特征变化较大,经常向背景漂移。此外,当使相机的光轴铅垂向下地进行设置时,由于图像中对象物的位置而使拍摄对象物的视点发生变化,所以,特别是在低帧率的图像中,物体大幅变形,跟踪经常失败,恢复也较难。但是,根据本发明,在上述鱼眼图像中,即使使相机的光轴铅垂向下地进行设置,也能够从跟踪失败中精度良好地进行恢复。尤其是本发明中作为处理对象的图像不限于鱼眼图像,也可以为普通的图像(扭曲较少的图像、高帧率的图像)。
32.本发明的第二方式为跟踪丢失恢复方法,由物体跟踪装置进行,在丢失了跟踪的对象物时进行,该跟踪丢失恢复方法执行:
33.存储步骤,其针对每个部位存储作为构成所述运动图像的多个帧图像之一的一帧的第一帧图像中的、所述对象物的区域图像,并且存储与所述第一帧图像对应的视觉显著图取极大值的所述对象物的部位;
34.算出步骤,其在丢失了所述对象物时,针对与作为丢失了该对象物的帧图像的第二帧图像对应的视觉显著图的每个极大值位置,(1)推定假定在所述极大值位置存在所述第一帧图像中取极大值的所述物体的部位时的、所述物体的各部位存在的区域,(2)基于所
述第一帧图像与所述第二帧图像的每个部位的区域图像的相似性,算出相似度分值;
35.确定步骤,其确定在所述第二帧图像中的、所述相似度分值最大的极大值位置存在所述对象物。
36.本发明可以视为具有上述装置的至少一部分的物体跟踪装置,也可以视为图像处理装置和监视系统。另外,本发明也可以视为包括上述处理的至少一部分的物体跟踪方法、图像处理方法、监视方法。另外,本发明也可以视为用于实现该方法的程序、或非瞬态存储有该程序的存储介质。需要说明的是,可以将各个上述装置及处理尽可能地相互组合,来构成本发明。
37.发明的效果
38.根据本发明,在丢失了跟踪对象物时,能够比以往精度更高地进行恢复。
附图说明
39.图1是表示本发明的人体跟踪装置的应用例的图。
40.图2是表示具有人体跟踪装置的监视系统的结构的图。
41.图3是说明在存储部中存储的部位信息表的图。
42.图4是人体跟踪装置所实施的整体处理的流程图。
43.图5是学习处理的流程图。
44.图6是跟踪处理的流程图。
45.图7是恢复处理的流程图。
46.图8是恢复处理的数据流图。
47.图9a是说明初期帧(第二帧)中各部位的区域图像的颜色直方图的图,图9b是表示与初期帧(第二帧)对应的视觉显著图的图。
48.图10a是表示与发生了跟踪丢失的帧(第n帧)对应的视觉显著图的图。
49.图10b是说明在发生了跟踪丢失的帧(第n帧)中针对每个极大值位置求出相似度分值的方法的图。
具体实施方式
50.<应用例>
51.参照图1,说明本发明的物体跟踪装置的应用例。人体跟踪装置1是对通过在跟踪对象区域11的上方(例如天花板12等)设置的鱼眼相机10获得的鱼眼图像进行解析,对在跟踪对象区域11内存在的人13进行检测/跟踪的装置。该人体跟踪装置1例如在办公室、工厂等中,对在跟踪对象区域11通行的人13进行检测、识别、跟踪等。在图1的例子中,以边界框表示了从鱼眼图像中检测出的四个人体各自的区域。将人体跟踪装置1的检测结果向外部装置输出,例如在人数的计数、照明、空调等各种设备的控制、可疑人员的监视及动线分析等中加以利用。
52.在本应用例中,作为物体跟踪算法,采用局部优化的跟踪算法。在该算法中,学习包括跟踪对象的部分区域的图像,指定与对象物具有相同特征的区域的位置,由此而进行跟踪。因为对象物的附近也为学习对象,所以在背景复杂变化的情况下,随着时间的推移,有时会产生噪声,使跟踪失败。
53.本应用例是在发生了跟踪丢失时,精度良好地进行跟踪的恢复。具体而言,人体跟踪装置1针对在视觉显著图中取极大值的各位置,推定候选区域,求出候选区域与对象物的相似度分值,将相似度分值最大的极大值位置推定为对象物的位置。此时,人体跟踪装置1针对图像上的每个位置获取某部位存在于该位置的情况下的、其它部位所存在的位置。另外,人体跟踪装置1存储在跟踪中显著性最高的部位(显著部位)。人体跟踪装置1在跟踪丢失时,推定在视觉显著图的极大值位置存在显著部位,另外,也可以推定其它部位存在的位置。这样,因为能够适当地推定各部位存在的位置,所以,基于各部位存在的区域的相似性,算出最终的相似度分值。由此,能够实现精度良好的恢复。
54.<监视系统>
55.参照图2,说明本发明的实施方式。图2是表示应用了本发明的实施方式的人体跟踪装置的监视系统的结构的块图。监视系统2具有鱼眼相机10、以及人体跟踪装置1。
56.[鱼眼相机]
[0057]
鱼眼相机10是具有包括鱼眼镜头的光学系统与拍摄元件(ccd、cmos等图像传感器)的拍摄装置。例如如图1所示,鱼眼相机10可以在使光轴铅垂向下的状态下设置在跟踪对象区域11的天花板12等,对跟踪对象区域11的全方位(360度)的图像进行拍摄。鱼眼相机10与人体跟踪装置1通过有线(usb电缆、lan电缆等)或无线(wifi等)连接,由鱼眼相机10拍摄到的图像数据被提取到人体跟踪装置1中。图像数据可以为单色图像、彩色图像的任意一种图像,另外图像数据的分辨率、帧率、格式是任意的。在本实施方式中,假定使用以10fps(每秒10枚)提取的彩色(rgb)图像。
[0058]
[人体跟踪装置]
[0059]
人体跟踪装置1作为其硬件结构主要部件而具有一个以上的处理器、主存储装置、辅助存储装置、通信装置、输入装置、以及输出装置,处理器通过执行计算机程序,执行如下的各种处理。需要说明的是,也可以由专门的硬件回路执行一部分或者全部的处理。
[0060]
本实施方式的人体跟踪装置1具有:图像输入部20、人体检测部21、跟踪部22、学习部23、存储部24、视觉显著图算出部25、恢复部26、以及输出部27。
[0061]
图像输入部20具有从鱼眼相机10提取图像数据的功能。提取到的图像数据转交给人体检测部21及跟踪部22。
[0062]
(人体检测部)
[0063]
人体检测部21具有利用检测人体的算法、从鱼眼图像中检测人体的功能。由人体检测部21检测到的人体为由跟踪部22进行的跟踪处理的对象。需要说明的是,人体检测部21可以只检测在图像内新出现的人物,也可以在跟踪对象的人物存在的位置附近,从检测处理的对象中进行排除。此外,也可以按照恒定的时间间隔或帧间隔,通过人体检测部21对图像整体进行人物的检测,之后,由跟踪部22进行跟踪处理。
[0064]
(跟踪部)
[0065]
跟踪部22是对运动图像中的跟踪对象进行跟踪的功能部,指定跟踪对象人物的在当前帧图像中的位置。跟踪部22首先将包括人体检测部21的检测位置在内的区域作为目标区域,指定与从该目标区域内检测出的人物具有相同特征的物体位置。之后,将针对前一帧图像、跟踪部22指定的位置附近作为目标区域,从当前帧图像中指定跟踪对象的人物的位置。
[0066]
跟踪部22具有:特征量抽取部101、响应图生成部102、以及丢失判定部103。
[0067]
特征量抽取部101从目标区域抽取图像特征量。特征量抽取部101抽取与形状相关的特征量、以及与颜色相关的特征量的任一特征量或双方作为图像特征量。与形状相关的特征量的例子为hog(histogram of gradient:梯度直方图),与颜色相关的特征量的例子为颜色直方图、color names特征量。
[0068]
响应图生成部102利用从输入图像抽取到的特征量、以及在存储部24中存储的相关滤波器,针对目标区域的各位置,生成表示跟踪对象物存在的概率的响应图(似然度图)。
[0069]
丢失判定部103判定是否发生了跟踪丢失。丢失判定部103例如在响应图的最大似然度比阈值th1小的情况下判断发生了跟踪丢失。该阈值th1可以根据系统要求适当设定。需要说明的是,在能够推定跟踪对象已移动至拍摄范围之外时,丢失判定部103也可以不判定发生了跟踪丢失,而是判定发生了出帧(
フレームアウト
)。
[0070]
跟踪部22在响应图的最大似然度比阈值th1大的情况下,判断在该最大似然度的位置存在跟踪对象的人体。
[0071]
需要说明的是,跟踪部22也可以替代基于利用了相关滤波器的形状特征的评估,或除此以外还根据基于颜色特征的评估进行跟踪。例如,跟踪部22也可以基于学习完成的颜色特征,生成前景似然度图,基于该图,求出跟踪对象的位置。或者跟踪部22也可以基于相关滤波器的响应图与前景似然度图的合成图,求出跟踪对象的位置。作为颜色信息的特征量,具有颜色直方图、color names特征量等。
[0072]
(学习部)
[0073]
学习部23根据人体检测部21检测到的、或跟踪部22指定的人体的图像,学习跟踪对象的人体的特征,并将学习结果存储在存储部24中。在此,学习部23求出用于基于形状特征进行评估的相关滤波器。学习部23对每帧进行学习,以规定的系数使从当前帧获得的学习结果反映在过去的学习结果中并进行更新。需要说明的是,在跟踪处理中基于颜色特征进行评估的情况下,学习部23也可以利用颜色直方图、color names特征量等颜色信息的特征量。
[0074]
(存储部)
[0075]
存储部24对由学习部23学习到的学习结果进行存储。存储部24另外也存储所利用的特征量(hog、颜色直方图)、各特征量的参数、学习系数等学习处理及跟踪处理的超参数。
[0076]
存储部24另外针对每个部位存储跟踪初期的帧图像中表示跟踪对象的区域图像的信息,并且存储显著部位。
[0077]
在本实施方式中,设想将人体的部位分为头部、上半身、以及下半身三个部位。因此,存储部24存储表示头部、上半身、以及下半身各自的区域图像的信息。在此,表示区域图像的信息可以为区域图像自身,也可以为从每个部位的区域图像获得的图像特征量(例如颜色直方图)。需要说明的是,将人体的图像分割为每个部位的区域图像的处理可以通过已知的图像分割处理来进行。或者也可以假定人体比率,依照该比率进行每个部位的区域分割。
[0078]
显著部位是与跟踪初期的帧图像对应的视觉显著图取极大值的跟踪对象的部位。视觉显著图可以由视觉显著图算出部25算出。通过将视觉显著图的极大值的位置与输入图像的各部位的区域进行比较,能够掌握显著部位。存储部24将这样求出的显著部位进行存
储。在本实施方式中,对头部、上半身、下半身的任一部位是否为显著部位进行存储。
[0079]
需要说明的是,“跟踪初期的帧图像”在本实施方式中是指跟踪开始后的第二帧图像,换言之是跟踪部22最初处理的帧图像。因为跟踪开始后,时间越未推移,则噪声混入得越少,另外在要求显著性时可以得到明亮度的时间变化的最初的帧为第二帧,所以采用第二帧图像。需要说明的是,也可以将第一帧图像、换言之人体检测部21进行了人体检测的帧图像、或第三帧以后的帧图像作为对象,获取及存储上述信息。“跟踪初期的帧图像”相当于本发明的、构成作为处理对象的运动图像的多个帧图像之一的第一帧图像。
[0080]
存储部24另外使由鱼眼相机10拍摄的图像上的位置、在该位置存在人体的一个部位时其它部位存在的位置及尺寸、以及各部位的可视比例关联并进行存储。在本说明书中,将上述信息称为部位信息,将存储部位信息的表格称为部位信息表。
[0081]
图3是说明部位信息表300的图。如图所示,部位信息表300针对头部/上半身/下半身各部位,存储有中心位置/尺寸/可视比例。中心位置例如是由矩形区域表示部位时的中心。尺寸是矩形区域的纵向及横向的大小。可视比例表示各部位可见的程度,在正对人体观察时可见的面积比例为100%。
[0082]
在图3中,部位信息表300描述为只包括一条记录,但实际上,包括针对图像中大量的位置的记录。通过参照部位信息表300,在头部、上半身、以及下半身的任一部位(一个部位)位于指定的位置时,可以求出其它部位的位置、各部位的尺寸、以及各部位的可视比例。
[0083]
针对部位信息表300的制作方法简单地进行说明。第一方法是对通过实测获得的图像进行解析,求出各部位的中心位置、尺寸、以及可视比例的方法。第二方法是通过模拟或计算求出的方法。例如可以进行建模,以不同大小的圆柱表示人体的各部位,在假定人体位于各位置时求出由鱼眼相机10拍摄的圆柱模型的各位置及尺寸。可视比例作为假定只具有指定部位的圆柱模型时所拍摄的该指定部位的区域面积与所有的圆柱模型都存在的情况下所拍摄的该指定部位的区域面积之比而求出。
[0084]
(视觉显著图算出部)
[0085]
视觉显著图算出部25(下面也称为显著图算出部25)根据输入图像算出显著图。视觉显著性是可针对部分区域或每个像素而求出的、表示容易引人注意的程度的指标。视觉显著性例如可以基于明亮度、明亮度的时间变化、颜色、方向等特征,通过对生物体的视觉进行数学建模的已知的方法来确定。
[0086]
(恢复部)
[0087]
恢复部26在丢失了跟踪对象时,进行该跟踪对象的恢复。恢复部26以跟踪丢失时进行恢复为目的,通过与跟踪部22不同的处理,根据当前帧图像推定跟踪对象的位置。恢复部26具有:区域推定部112、相似度分值算出部113、以及再设定部114。针对恢复部26及其子功能部的详细情况,随后与流程图的说明一起详细地进行说明,所以,在此只限于简单的说明。
[0088]
恢复部26将由丢失判定部103判定已丢失跟踪对象的帧图像(当前帧图像;第二帧图像)作为对象,执行恢复处理。
[0089]
区域推定部112基于与当前帧图像对应的视觉显著图的极大值位置、以及跟踪对象的显著部位,推定在当前帧图像中跟踪对象的各部位所存在的区域。更具体而言,区域推定部112假定在视觉显著图的极大值位置存在显著部位,参照在存储部24中存储的部位信
息表,推定其它部位的区域(中心位置及尺寸)。当在视觉显著图中存在多个极大值时,区域推定部112分别针对每个极大值位置推定区域。
[0090]
相似度分值算出部113算出由区域推定部112推定出的区域与初期帧中人体区域的相似度分值。相似度分值算出部113算出当前帧图像与初期帧图像的每个部位的区域图像的相似度,对每个部位的相似度进行加权平均,算出最终的相似度分值。权重因子例如可以根据部位是显著部位还是非显著部位进行确定,也可以根据部位的可视比例进行确定。
[0091]
再设定部114在相似度分值的最大值比阈值th2大时,判断在赋予最大相似度分值的位置存在跟踪对象,并将该结果向跟踪部22通报。这样,在恢复处理成功的情况下,跟踪部22能够继续进行跟踪。
[0092]
(输出部)
[0093]
输出部27具有将鱼眼图像、检测结果/跟踪结果等信息向外部装置输出的功能。例如,输出部27可以在作为外部装置的显示器上显示信息,也可以向作为外部装置的计算机转发信息,也可以向作为外部装置的照明装置、空调、或fa装置发送信息、控制信号。
[0094]
(硬件结构)
[0095]
人体跟踪装置1例如可以由具有cpu(处理器)、内存、存储器等的计算机构成。在该情况下,图2所示的结构是通过将在存储器中存储的程序加载在内存中,cpu执行该程序而实现的。该计算机可以是诸如个人计算机、服务器计算机、平板终端、智能手机之类的通用计算机,也可以是如车载计算机这样的嵌入式计算机。或者也可以由asic、fpga等构成图2所示的结构的全部或一部分。或者也可以通过云计算、分布式计算来实现图2所示的结构的全部或一部分。
[0096]
<整体处理>
[0097]
图4是由监视系统2进行的人体跟踪处理的整体流程图。依照图4,说明人体跟踪处理的整体性流程。
[0098]
在执行图4的流程图的处理之前,在人体跟踪装置1中设定学习及跟踪的超参数。作为超参数的例子,可以例举利用的特征量、各特征量的参数、学习系数等。将输入的超参数存储在存储部24中。
[0099]
在步骤s101中,图像输入部20从鱼眼相机10输入一帧鱼眼图像。此时,虽然也可以制作对鱼眼图像的扭曲进行了校正的平面展开图像,来进行以后的处理,但在本实施方式的监视系统2中,直接(保持扭曲)将鱼眼图像应用在检测、跟踪的处理中。
[0100]
在步骤s102中,人体检测部21根据输入图像进行人体检测。在步骤s104中,跟踪部22将检测到的人体区域设定为跟踪的目标区域。目标区域是将跟踪对象的人物存在的区域与其周边结合的区域,是跟踪对象的人物存在的可能性较高的区域。目标区域也可以说是被跟踪部22作为处理对象的区域。在本实施方式中,跟踪对象人物的初始位置由人体检测部21进行检测,但例如也可以通过由用户进行输入等其它的方法来进行检测。
[0101]
下面,重复实施步骤s104至s116的处理。当在步骤s104的结束判定中满足了结束条件时,则结束处理。结束条件例如可以为跟踪对象人物的出帧或运动图像的结束。
[0102]
在步骤s105中,视觉显著图算出部25根据输入图像生成视觉显著图。生成的视觉显著图存储在存储部24中。
[0103]
在步骤s106中,判定当前的帧是否为最初的图像。在此,最初的图像是指赋予了跟
踪对象人物的初始位置的帧图像,通常是指由人体检测部21检测出跟踪对象人物的帧图像。在当前的帧为最初的图像的情况(s106-yes)下,处理进入步骤s115,在不是最初的图像的情况(s106-no)下,处理进入步骤s107。
[0104]
在步骤s107中,判定当前的帧是否为第二图像。在此,第二图像是指赋予了跟踪对象人物的初始位置的帧图像的下一帧图像。在当前的帧为第二图像的情况(s107-yes)下,处理进入步骤s108,在不是第二图像的情况(s107-no)下,处理进入步骤s111。
[0105]
在步骤s108中,学习部23求出视觉显著图之中、在目标区域内显著性取最大值的位置。
[0106]
在步骤s109中,学习部23判断显著性取最大值的位置相当于跟踪对象的哪个部位,将该部位作为显著部位而存储在存储部24中。在该时刻,在未针对每个部位对目标区域进行区域分割(分割)的情况下,人体跟踪装置1在步骤s109中执行分割处理。
[0107]
在步骤s110中,学习部23针对跟踪对象人体的每个部位算出颜色直方图,并存储在存储部24中。需要说明的是,虽然在此存储有颜色直方图,但当能够比较区域图像在帧间的相似度时,也可以算出/存储其它的图像特征量。
[0108]
在步骤s111中,跟踪部22执行跟踪处理。跟踪处理的详细情况参照图6,在后面叙述,概况是在输入图像中应用相关滤波器,判断在响应(似然度)最大的位置存在目标区域的处理。
[0109]
在步骤s112中,丢失判定部103判定是否发生了跟踪丢失。在响应(似然度)的最大值比阈值th1小的情况下可以判断发生了跟踪丢失。在发生了跟踪丢失的情况(s112-yes)下,处理进入步骤s113,在未发生跟踪丢失的情况(s112-no)下,处理进入步骤s115。
[0110]
在步骤s113中,恢复部26执行恢复处理。恢复处理的详细情况参照图7等,在后面叙述。
[0111]
在步骤s114中,判定恢复处理是否成功。在恢复已成功的情况(s114-yes)下,处理进入步骤s115,继续进行跟踪处理,在恢复失败的情况(s114-no)下,结束跟踪处理。
[0112]
在步骤s115中,学习部23进行相关滤波器的学习处理。学习处理的详细情况参照图5,在后面叙述。
[0113]
在步骤s116中,图像输入部20从鱼眼相机10输入下一帧的鱼眼图像。步骤s116之后,处理返回步骤s104,重复进行上述的处理,直至满足跟踪结束的条件。
[0114]
这样,跟踪处理s111对每帧进行跟踪对象人物的位置指定,实现跟踪。另外,在本实施方式的跟踪处理包括在发生了跟踪丢失时利用在初期帧中存储的信息的恢复处理。
[0115]
<学习处理>
[0116]
图5是表示步骤s115的学习处理的详细情况的流程图。下面,参照图5,针对学习处理进行说明。
[0117]
学习部23首先从当前帧图像切出目标区域(s201)。目标区域是包括跟踪对象人物的前景区域及背景区域的区域。前景区域是跟踪对象人物存在的区域,背景区域是跟踪对象人物不存在的区域。背景区域的大小根据前景区域的大小来确定。例如确定背景区域的尺寸,以使前景区域的尺寸为目标区域的整体尺寸的规定比率(例如1/3)。需要说明的是,因为目标区域在跟踪处理的最后进行更新,以使中心为跟踪对象人物的位置(图6的步骤s304),所以,目标区域的中心与跟踪对象人物的中心位置相同。
[0118]
学习部23获取明亮度特征量与hog特征量作为目标区域的图像特征量(s202)。hog特征量是使局部区域的亮度梯度方向成为直方图的特征量,用作为表示物体的形状/轮廓的特征量。在此,采用了hog特征量,但也可以采用表示物体的形状/轮廓的其它特征量,例如lbp特征量、shift特征量、surf特征量。另外,也可以采用亮度特征量而非明亮度特征量。需要说明的是,在跟踪处理中已求出明亮度特征量与hog特征量的情况下,不需要重新求出上述特征量。因为上述特征量可以由图像形式求出,所以,在本说明书中也将特征量称为特征量图像。
[0119]
学习部23求出使响应在目标区域中心具有峰值的相关滤波器(s203)。具体而言,在抽取了hog特征量后,相对于该特征量自身的相关性,求出只在中心具有峰值的、与理想的响应最接近的滤波器,由此而获得相关滤波器。在作为相关滤波器模型的跟踪算法而使用在傅里叶空间进行相关滤波器的计算的方法的情况下,也可以将特征量图像乘以窗函数。
[0120]
当本次的学习为最初的学习时(s204-yes),将在步骤s203中生成的相关滤波器直接存储在存储部24中。另一方面,当本次的学习为第二次以后的学习时(s204-no),处理进入步骤s205。在步骤s205中,学习部23将前一次求出的相关滤波器(在存储部24中存储的相关滤波器)与本次在步骤s203中求出的相关滤波器合成,由此而求出新的相关滤波器,并存储在存储部24中。
[0121]
<跟踪处理>
[0122]
图6是表示步骤s111的跟踪处理的详细情况的流程图。下面,参照图6,针对跟踪处理进行说明。
[0123]
跟踪部22从当前帧图像中切出上一次的目标区域(s301)。在上一次的跟踪处理中进行更新,以使目标区域的中心为上一帧图像的跟踪对象人物的位置。
[0124]
特征量抽取部101抽取明亮度特征量与hog特征量作为目标区域的特征量(s302)。因为上述特征量可以由图像形式求出,所以在本说明书中也将特征量称为特征量图像。明亮度特征量图像是与帧图像相同的分辨率,但hog特征量图像在每个单元(例如每3
×
3像素)求出特征量,所以其分辨率比帧图像低。
[0125]
响应图生成部102根据目标区域内的hog特征量图像与在存储部24中存储的相关滤波器,求出响应图(似然度图)(s303)。跟踪部22将与响应图的最大值对应的位置更新为下一个目标区域的中心位置(s304)。另外,跟踪部22根据更新后的目标区域的中心位置,更新目标区域的尺寸(s305)。尺寸更新处理基于以鱼眼相机10的配置、相机视点、相机参数以及确定了高度和宽度的人物模型的位置为基础的几何学上的关系来进行。或者也可以是使用图像金字塔进行尺度推定的已知的方法。
[0126]
通过如上的处理,完成跟踪处理,求出当前帧图像内的目标区域。跟踪处理完成后的目标区域的中心为跟踪对象人物的中心位置,目标区域中的前景区域为跟踪对象人物的存在区域(边界框)。
[0127]
需要说明的是,在此说明了跟踪处理的一个具体例,但也可以采用上述以外的其它算法。例如,也可以对基于相关滤波器的响应图实施校正处理,使跟踪精度提高。
[0128]
<恢复处理>
[0129]
图7是表示步骤s113的恢复处理的详细情况的流程图。图8是恢复处理的数据流
图。需要说明的是,在图8中,也表示了基于初期帧而预先存储的信息。下面,参照图7、图8等,针对恢复处理进行说明。
[0130]
在步骤s401中,恢复部26从存储部24获取在步骤s105中求出的与当前帧图像806对应的视觉显著图807,求出视觉显著图807中取极大值的位置。
[0131]
循环处理l1包括步骤s402~s406,针对在步骤s401中求出的各极大值位置来执行。恢复部26通过循环处理l1,针对与发生了跟踪丢失的帧图像对应的视觉显著图807的每个极大值位置算出相似度分值。
[0132]
在步骤s402中,区域推定部112设定视觉显著图807的极大值位置为当前帧图像的显著部位805的位置。基于在步骤s109中与第二帧图像(初期帧图像)801对应的视觉显著图804,预先得出显著部位805为哪个部位,并存储在存储部24中。
[0133]
在步骤s403中,区域推定部112基于显著部位805的位置,推定人体各部位的区域(位置及尺寸)。在存储部24中存储有部位信息表811(300),该部位信息表811存储有人体各部位的位置/尺寸/可视比例,区域推定部112可以基于显著部位805的位置与部位信息表811,得出各部位的推定区域808。
[0134]
这样,通过步骤s402~s403的处理,区域推定部112可以推定在假定在极大值位置存在显著部位时的、跟踪对象的各部位存在的区域。
[0135]
循环处理l2包括步骤s404~s405,针对在步骤s403中求出的各部位的推定区域来执行。在步骤s404中,相似度分值算出部113根据部位的推定区域808,算出颜色直方图809。在步骤s405中,相似度分值算出部113针对对象部位,算出当前帧的颜色直方图809与第二帧图像(初期帧图像)801的颜色直方图803之间的相似度。第二帧图像的颜色直方图803在步骤s110中预先求出并存储在存储部24中。在此算出的相似度表示初期帧图像与当前帧图像的每个部位的相似性。
[0136]
当在循环处理l2中针对所有的部位算出相似度时,在步骤s406中,相似度分值算出部113整合各部位的相似度809,算出相似度分值810。在本实施方式中,相似度分值算出部113将利用根据各部位的可视比例以及是否为显著部位而确定的权重因子的、各部位的相似度的加权平均值确定为最终的相似度分值。
[0137]
更具体而言,相似度分值算出部113基于如下的式(1),算出相似度分值。
[0138][0139]
在此,score为相似度分值,n为部位的数量,i为表示部位的脚标,si为部位i的相似度,wvi为基于部位i的可视比例的权重因子,wsi为基于部位i是否是显著部位的权重因子,wv
imax
为wvi可取的最大的值,ws
imax
为wsi可取的最大的值,s
imax
为si可取的最大的值。
[0140]
权重因子wvi在本实施方式中与部位i的可视比例的值相同。各部位的可视比例可以通过参照部位信息表811(300)来掌握。但是,权重因子wvi不需要是与部位i的可视比例相同的值,也可以是根据部位i的可视比例而确定的值。
[0141]
权重因子wsi在部位i为显著部位的情况下取固定值a,在部位i为非显著部位的情况下取(1-a)/(n-1)。相对于显著部位的权重因子wsi可以为比相对于非显著部位的权重因子wsi大的值。因此,固定值a希望是比1/n大的值。例如,在部位数为三时a=0.7的情况
下,针对显著部位的权重因子wsi为0.7,针对非显著部位的权重因子wsi为0.15。
[0142]
当针对视觉显著图的各极大值,完成如上的步骤s402至s406的处理时,处理进入步骤s407。
[0143]
在步骤s407中,再设定部114判定针对各极大值而求出的相似度分值之中的最大值是否比阈值th2大。在最大的相似度分值比阈值th2大的情况(s407-yes)下,处理进入步骤s408。在不比阈值th2大的情况(s407-no)下,处理进入步骤s409。
[0144]
在步骤s408中,再设定部114判断在视觉显著图的极大值位置之中、赋予相似度分值最大的位置具有跟踪对象人物的显著部位。再设定部114将跟踪丢失的恢复成功的意思、以及跟踪对象人物的位置向跟踪部22通报,并结束处理。需要说明的是,再设定部114向跟踪部通报的跟踪对象位置可以为显著部位的位置,也可以为根据显著部位的位置求出的其它位置。作为其它位置的例子,可以例举跟踪对象人物的中心位置。中心位置作为包括显著部位及非显著部位的、包括所有部位的区域的区域的中心而得出。
[0145]
在步骤s409中,再设定部114将跟踪丢失的恢复失败的意思向跟踪部22通报,并结束处理。
[0146]
<工作例>
[0147]
参照图9、图10,基于具体例说明恢复处理的工作。图9是说明在跟踪开始后的初期(在本例中为第二帧)求出的信息的图。图10是说明发生跟踪丢失时进行的处理的图。
[0148]
图9a表示将第二帧(初期帧)之中跟踪对象的人物部分放大后的图像901。图像901显示有跟踪对象的人体902。学习部23通过区域分割处理,将人体902分割为头部903、上半身904、下半身905三个部位。在该图中,以矩形表示了各部位的区域,也可以由矩形以外的形状表示各区域。学习部23算出与头部903a、上半身903b、下半身903c各自对应的颜色直方图906a、906b、906c,并存储在存储部24中。
[0149]
图9b表示根据第二帧图像求出的视觉显著图910。视觉显著图910具有与第二帧图像整体地应的大小,但在此只表示了与图像901对应的部分。学习部23基于视觉显著图910的极大值位置911是否位于人体902的任一部位的区域,判断人体902的显著部位,并存储在存储部24中。在该例子中,因为极大值位置911位于上半身903b,所以显著部位确定为上半身。
[0150]
如上的信息在跟踪开始的初期(在本例中为第二帧)求出并存储在存储部24中。接着,针对跟踪丢失发生时的恢复处理进行说明。
[0151]
图10a表示根据第n帧图像求出的视觉显著图1001。第n帧是发生了跟踪丢失的帧图像。在该例子中,视觉显著图1001存在两个极大值1002、1003。
[0152]
恢复部26(区域推定部112)推定假定显著部位(在该例子中为上半身)位于极大值1002、1003时的、各部位的区域。恢复部26通过参照部位信息表300,能够求出各部位的位置及尺寸。在该例子中,对应于极大值1002,可求出头部的区域1004a、上半身的区域1004b、下半身的区域1004c。同样地,对应于极大值1003,可求出头部的区域1005a、上半身的区域1005b、下半身的区域1005c。
[0153]
相似度分值算出部113首先根据各部位的区域,求出颜色直方图。例如对应于各部位的区域1004a~1004c,求出颜色直方图1010a~1010c。然后,相似度分值算出部113将各部位的区域的各颜色直方图1010a~1010c与根据第二帧图像求出的颜色直方图906a~
906c分别进行比较,算出相似度si。
[0154]
相似度分值算出部113利用根据各部位的可视比例以及是否为显著部位而确定的权重因子,整合上述相似度si,算出最终的相似度分值。针对视觉显著图的各极大值1002、1003,求出相似度分值。
[0155]
再设定部114判断在赋予最大的相似度分值的极大值位置存在跟踪对象。但是,在最大的相似度分值比阈值th2小的情况下,判断恢复已失败。再设定部114将人体各部位的区域整体的中心位置作为跟踪对象的中心位置,进行目标区域的再设定。另外,再设定部114根据人体各部位的区域整体,进行目标区域的尺寸的再设定。
[0156]
<本实施方式的有利的效果>
[0157]
在本实施方式中,在人体跟踪装置中,能够在跟踪失败时精度良好地进行恢复。在本实施方式中

,基于初期帧,将显著部位是何部位的信息、以及各部位区域的颜色直方图进行存储。当跟踪对象的人物移动并在图像内的位置改变时,与鱼眼相机10的相对位置改变,且在图像中显示的位置改变,或者形状发生了扭曲,但可以设想显著部位位于何处不会改变。因此,在发生了跟踪丢失的帧中,可以将视觉显著图的极大值位置视为跟踪对象的显著部位的候选位置。另外,在某指定的部位位于图像上指定的位置时,可以预先求出其它部位的位置、以及各部位的尺寸/可视比例。因此,推定假定在视觉显著图的极大值位置具有显著部位时的各部位的区域,求出当前帧与初期帧的颜色直方图的相似度,整合上述相似度,算出相似度分值。通过这样将视觉显著图的极大值视为显著部位的位置,并且基于颜色直方图算出相似度,能够相对于形状变化,实现具有鲁棒性的恢复。另外,在整合相似度时,根据部位是显著部位还是非显著部位,另外根据部位的可视比例,确定相对于该部位的权重因子。这是基于在相似度分值的算出中,显著部位应该比非显著部位更受重视,另外,可视比例较大的部位应该更受重视。通过基于可视比例进行加权,对于遮挡也具有鲁棒性。因为通过如上的处理实施了恢复处理,所以在本实施方式中,能够进行精度良好的恢复。
[0158]
<其它>
[0159]
上述实施方式只是例举性地说明本发明的结构例。本发明不限于上述具体的方式,在其技术思想的范围内可以进行各种变形。
[0160]
另外,在所述实施方式中,跟踪部22利用相关滤波器进行了跟踪处理,但也可以利用其它的算法进行跟踪。例如,也可以利用诸如cnn(convolutional neural networ:卷积神经网络)、rnn(recurrent neural network:递归神经网络)、lstm(long short-term memory:长短期记忆)之类的深度学习模型、诸如svm(support vector machine:支持向量机)之类的模式识别模型来进行跟踪。
[0161]
另外,在上述实施方式中未将鱼眼图像平面展开而进行了处理,但也可以使将鱼眼图像平面展开后的图像为处理对象,也可以将由普通相机拍摄到的图像作为处理对象。另外,在相机的视点上,在上述实施方式中使相机的光轴铅垂向下地进行设置,但也可以使鱼眼相机的光轴相对于铅垂方向倾斜。
[0162]
另外,根据第二帧求出显著部位与各部位的颜色直方图(图4的s108~s110),但未特别限定根据哪一帧图像求出上述信息。但是,因为越是跟踪初期,越未混入噪声,所以,优选使用与跟踪开始接近的帧。因此,也可以根据跟踪开始后的帧(第一帧)或第三帧以后的帧,求出上述信息。
[0163]
另外,在算出恢复处理的相似度时,利用了颜色直方图,但也可以基于颜色直方图以外的信息,判断相似度。但是,在类似由鱼眼相机拍摄的图像那样扭曲较大的图像中,优选利用对于变形具有鲁棒性的特征量、例如颜色直方图、亮度直方图。
[0164]
另外,在所述实施方式中,在整合各部位的相似度并算出相似度分值时(图7的s406),利用将对应于是否为显著部位的权重因子wsi与对应于可视比例的权重因子wvi相乘后的值作为权重因子。然而,例如也可以利用加法等其它的方法,基于上述两个权重因子wsi、wvi,确定适用的权重因子。另外,也可以只基于wsi与wvi的任意一方,确定权重因子。另外,也可以考虑wsi与wvi以外的信息来确定权重因子。另外,也可以通过单纯的平均、而非加权平均来算出相似度分值。
[0165]
另外,在本实施方式中,参照预先存储的部位信息表,求出了指定的部位位于图像中的某指定位置时其它部位的位置及各部位的尺寸/可视比例,但也可以在必要时通过计算来求出。计算方法与在上述实施方式中预先求出的情况相同,所以省略说明。
[0166]
在本实施方式中,跟踪部22对人体检测部21检测出的人物进行跟踪,但是也可以由用户(人)指定跟踪对象,使跟踪部22跟踪被指定的对象。
[0167]
<附记>
[0168]
1.一种物体跟踪装置(1),具有:
[0169]
存储单元(24);
[0170]
跟踪单元(22),其对运动图像中的对象物进行跟踪;
[0171]
恢复单元(26),其在丢失了所述对象物时进行所述对象物的恢复;
[0172]
所述存储单元(24)针对每个部位存储作为构成所述运动图像的多个帧图像之中的一帧的第一帧图像(801)中的、表示所述对象物的区域图像的信息(803),并且存储与所述第一帧图像(801)对应的视觉显著图(804)取极大值的所述对象物的部位(805),
[0173]
所述恢复单元(26),
[0174]
在丢失了所述对象物时,针对与作为丢失了该对象物的帧图像的第二帧图像(806)对应的视觉显著图(807)的每个极大值位置,(1)推定假定在所述极大值位置存在所述第一帧图像中取极大值的所述物体的部位时的、所述物体的各部位存在的区域(808),(2)基于所述第一帧图像与所述第二帧图像的每个部位的区域图像的相似性,算出相似度分值(810),
[0175]
确定在所述第二帧图像中的、所述相似度分值最大的极大值位置存在所述对象物。
[0176]
2.一种跟踪丢失恢复方法(s113),由物体跟踪装置(1)进行,在丢失了跟踪的对象物时进行,该跟踪丢失恢复方法执行:
[0177]
存储步骤,其针对每个部位存储(s110)作为构成所述运动图像的多个帧图像之中的一帧的第一帧图像(801)中、表示所述对象物的区域图像的信息(803),并且存储(s108~s109)与所述第一帧图像(801)对应的视觉显著图(804)取极大值的所述对象物的部位(805);
[0178]
算出步骤,其在丢失了所述对象物时,针对与作为丢失了该对象物的帧图像的第二帧图像(806)对应的视觉显著图(807)的每个极大值位置,(1)推定(s402~s403)假定在所述极大值位置存在所述第一帧图像中取极大值的所述物体的部位时的、所述物体的各部
位存在的区域(808),(2)基于所述第一帧图像与所述第二帧图像的每个部位的区域图像的相似性,算出(s404~s406)相似度分值;
[0179]
确定步骤,其确定(s408)在所述第二帧图像中的、所述相似度分值最大的极大值位置存在所述对象物。
[0180]
附图标记说明
[0181]
1人体跟踪装置;2监视系统;10鱼眼相机;11跟踪对象区域;12天花板;13人。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1