用以使对象跟踪框的显示稳定的系统和方法

文档序号:10476218阅读:220来源:国知局
用以使对象跟踪框的显示稳定的系统和方法
【专利摘要】一种方法包含接收界定图像序列的第一图像的第一限界框的第一资料。所述第一限界框对应于包含被跟踪对象的感兴趣区域。所述方法还包含接收所述图像序列的第二图像的对象跟踪资料,所述对象跟踪资料界定第二限界框。所述第二限界框对应于所述第二图像中包含所述被跟踪对象的感兴趣区域。所述方法进一步包含确定所述第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量。所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的所述第二限界框的第二坐标。所述方法还包含基于所述类似性度量而确定经修改第二限界框。
【专利说明】用以使对象跟踪框的显示稳定的系统和方法
[0001 ] 相关申请案的交叉参考
[0002]本申请案主张共同拥有的2013年12月21日申请的第61/919,754号美国临时专利申请案和2014年12月11日申请的第14/567,119号美国非临时专利申请案的优先权,所述申请案的内容明确地以全文引用的方式并入本文中。
技术领域
[0003]本发明大体上涉及使对象跟踪框的显示稳定。
【背景技术】
[0004]技术的进步已经产生了更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线计算装置,例如便携式无线电话、个人数字助理(PDA)和寻呼装置,其体积小、重量轻、且易于由用户携带。更具体来说,例如蜂窝电话和因特网协议(IP)电话等便携式无线电话可经由无线网络传达语音和数据包。另外,许多此类无线电话包含并入其中的其它类型的装置。举例来说,无线电话还可包含数字静态相机、数码摄像机、数字记录器和音频文件播放器。而且,此类无线电话可处理可执行指令,其包含可用以接入因特网的软件应用程序,例如,网页浏览器应用程序。由此,这些无线电话可包含大量计算能力。
[0005]例如无线电话等电子装置可包含相机。相机可俘获用户可在相机显示器中查看的图像序列。用户可通过选择相机显示器的区域来选择图像中的任意对象。跟踪算法可经由后续图像跟踪对象的运动,且可在相机显示器上的被跟踪对象上显示方框。所显示方框可能归因于方框在图像之间的位置和/或大小的快速改变而显得不稳定。举例来说,用户可能以摇晃相机的方式握持无线电话。作为另一实例,对象可能在图像之间具有高位移量的情况下移动。

【发明内容】

[0006]本发明揭示使稳定对象跟踪框的显示的系统和方法。用户可通过选择显示图像的相机显示器的区域(例如,正方形或矩形)而选择所述图像中的对象。所述相机显示器可展示环绕所述所选对象的限界框。在俘获所述图像序列时,所述对象、所述相机、或两者可能正在移动。跟踪器可更新所述限界框的坐标和/或尺寸,使得所述限界框大致地经由后续图像跟踪所述对象。更新所述坐标和/或尺寸可能导致所述限界框呈现为从一个图像「跳转」到另一图像。稳定器可使所述限界框从第一图像到后续图像的显示「平滑」(例如,减少抖动)。举例来说,所述稳定器可接收对应于所述第一图像的第一限界框的第一坐标,且可接收对应于来自所述跟踪器的所述后续图像的第二限界框的经更新坐标(例如,第二坐标)。所述稳定器可确定围绕所述第二限界框的搜索区域,且可确定对应于所述搜索区域的多个搜索限界框。所述搜索限界框中的每一者可对应于用以替代所述第二限界框以减少抖动的候选限界框。所述稳定器可比较所述搜索限界框中的每一者的搜索像素与所述第一限界框的第一像素,以基于类似性度量而选择最类似于所述第一限界框的特定搜索限界框。所述稳定器可将所述第二限界框替代为所述所选搜索限界框,所述所选搜索限界框减少与图像序列中的边界框的显示相关联的视觉抖动。
[0007]在一特定方面,一种方法包含接收界定图像序列的第一图像的第一限界框的第一数据。所述第一限界框对应于包含被跟踪对象的感兴趣区域。所述方法还包含接收所述图像序列的第二图像的对象跟踪数据,所述对象跟踪数据界定第二限界框。所述第二限界框对应于所述第二图像中包含所述被跟踪对象的感兴趣区域。所述方法进一步包含确定所述第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量。所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的所述第二限界框的第二坐标。所述方法还包含基于所述类似性度量而确定经修改第二限界框。
[0008]在另一特定方面中,一种设备包含存储器和处理器。所述存储器经配置以存储指令。所述处理器经配置以执行所述指令以确定第一图像的第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量。所述第一限界框对应于包含被跟踪对象的感兴趣区域。所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的所述第二限界框的第二坐标。所述第一图像在图像序列中先于第二图像。所述第二限界框对应于所述第二图像中包含所述被跟踪对象的感兴趣区域。所述处理器还经配置以执行所述指令以基于所述类似性度量而确定经修改第二限界框。
[0009]在另一特定方面中,一种计算机可读存储装置存储指令,所述指令在由处理器执行时,致使所述处理器执行操作,所述操作包含确定第一图像的第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量。所述第一限界框对应于包含被跟踪对象的感兴趣区域。所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的所述第二限界框的第二坐标。所述第一图像在图像序列中先于第二图像。所述第二限界框对应于所述第二图像中包含所述被跟踪对象的感兴趣区域。所述操作还包含基于所述类似性度量而确定经修改第二限界框。
[0010]所提供的一个特定优点为使对象跟踪框(例如,所述限界框)从一个图像到图像序列中的另一图像稳定。举例来说,可修改限界框的坐标以产生经修改限界框,使得所述经修改限界框内的像素更类似于先前图像的先前限界框内的像素。作为另一实例,所述限界框的经修改大小(例如,尺寸)可对应于多个先前图像的中值尺寸。本发明的其它方面、优点和特征将在审阅全部申请案之后变得显而易见,所述全部申请案包含以下章节:【附图说明】、【具体实施方式】和权利要求书。
【附图说明】
[0011]图1为可操作以使对象跟踪框的显示稳定的系统的特定说明性实施例的框图;
[0012]图2为包含被跟踪对象的特定说明性图像的图;
[0013]图3为包含图2的被跟踪对象的另一说明性图像的图;
[0014]图4为包含图2的被跟踪对象的另一说明性图像的图;
[0015]图5为使对象跟踪框的显示稳定的方法的特定说明性实施例的流程图;
[0016]图6为使对象跟踪框的显示稳定的方法的另一示意性实施例的流程图;且
[0017]图7是可操作以根据图1到6的系统和方法来使对象跟踪框的显示稳定的装置的框图。
【具体实施方式】
[0018]参考图1,揭示可操作以使对象跟踪框的显示稳定的系统的特定说明性实施例,且所述系统大体标示为100。系统100包含耦合到相机112和跟踪器160的稳定器102。稳定器102可包含存储器120。在特定实施例中,系统100的一或多个组件可整合到移动电话、机顶盒、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、计算机,或其组合中。
[0019]应注意,在以下描述中,由图1的系统100执行的各种功能描述为由某些组件或模块执行。然而,组件和模块的此划分仅用于说明。在一替代实施例中,由一特定组件或模块执行的功能可划分于多个组件或模块当中。此外,在一替代实施例中,图1的两个或更多个组件或模块可整合到单个组件或模块中。可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、数字信号处理器(DSP)、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合实施图1中说明的每一组件或模块。
[0020]在操作期间,相机112可俘获图像序列104。在特定实施例中,所述图像序列104可对应于用户正记录(例如,存储在存储器中)的视频流。在另一实施例中,图像序列104可对应于由相机显示器(例如,对应于取景器显示器)在一定时间段内显示的图像数据。举例来说,用户可查看图像数据,且随后拍摄图像(例如,将特定图像存储在存储器中)。
[0021]图像序列104可包含第一图像106。可经由相机显示器(未展示)将第一图像106显示给用户150。用户150可通过选择第一图像106中的感兴趣区域162来选择显示在相机显示器中的对象110(例如,图1中的汽车)。感兴趣区域162可包含对象110。稳定器102可从用户150接收第一数据122,第一数据122界定对应于感兴趣区域162的第一限界框116。举例来说,第一数据122可包含第一图像106中的第一限界框116的第一坐标(例如,水平轴(X轴)坐标和竖直轴(y轴)坐标)。在特定实施例中,第一坐标可对应于第一图像106中的第一限界框116的左上角。第一数据122还可包含第一限界框116的第一尺寸。举例来说,第一数据可包含第一限界框116的宽度(例如,沿着第一图像106的X轴)和高度(例如,沿着第一图像106的y轴)。在此实例中,第一限界框116可对应于正方形或矩形。
[0022]图像序列104可包含第二图像108。所述第二图像108还可包含(例如,描绘)包括对象110的感兴趣区域162。跟踪器160可产生界定对象跟踪框(例如,第二限界框118)的对象跟踪数据124。第二限界框118可对应于第二图像108中的感兴趣区域162。举例来说,对象跟踪数据124可包含第二图像108中的第二限界框118的第二坐标(例如,X轴坐标和y轴坐标)。在特定实施例中,第二坐标对应于第二图像108中的第二限界框118的左上角。对象跟踪数据124还可包含第二限界框118的第二尺寸。举例来说,对象跟踪数据124可包含第二限界框118的宽度(例如,沿着第二图像108的X轴)和高度(例如,沿着第二图像108的y轴)。
[0023]稳定器102可基于第二限界框118而确定第二图像108的搜索区域。举例来说,搜索区域可包含第二限界框118内的像素和大体上接近第二限界框118的像素,如参考图4所描述。稳定器102可确定搜索区域内的多个搜索限界框,如参考图4所描述。举例来说,搜索限界框中的每一者的坐标可对应于在一或多个方向上移位的第二限界框118的第二坐标。当显示第二图像108时,搜索限界框中的每一者可对应于用以替代第二限界框118的候选限界框,以减少抖动。稳定器102可搜索限界框的搜索坐标130存储于存储器120中。搜索限界框中的每一者的尺寸可对应于第一限界框116的第一尺寸。
[0024]稳定器102可确定第一限界框116内的第一像素与搜索限界框中的每一者内的搜索像素的类似性度量。举例来说,类似性度量可包含绝对差总和(SAD)度量。为了说明,稳定器102可至少部分基于对应于第一像素的第一像素特性(例如,像素强度、像素颜色(例如,红色、绿色、蓝色、蓝绿色、洋红色、黄色或黑色)子分量或其组合)与对应于候选搜索像素的第二像素特性的SAD而计算第一像素与候选搜索限界框内的候选搜索像素的特定类似性度量。
[0025]在特定实施例中,稳定器102可计算第一限界框116的第一像素的第一列总和向量、第一列总和差向量、第一行总和向量和/或第一行总和差向量,如关于图2所描述。类似地,稳定器102亦可计算候选搜索限界框的候选搜索像素的第二列总和向量、第二列总和差向量、第二行总和向量和/或第二行总和差向量。稳定器102可将列总和向量132(例如,第一列总和向量和第二列总和向量)、列总和差向量134(例如,第一列总和差向量和第二列总和差向量)、行总和向量136 (例如,第一行总和向量和第二行总和向量)、行总和差向量138(例如,第一行总和差向量和第二行总和差向量)或其组合存储在存储器120中。
[0026]通过将第一列总和向量与第二列总和向量的第一SAD、第一列总和差向量与第二列总和差向量的第二 SAD、第一行总和向量与第二行总和向量的第三SAD、及/或第一行总和差向量与第二行总和差向量的第四SAD相加到一起,稳定器102可确定第一限界框116的第一像素与候选搜索限界框的候选搜索像素的特定类似性度量。稳定器102可将对应于搜索限界框中的每一者的类似性度量128存储到存储器120中。
[0027]稳定器102可选择包含最类似于第一限界框116的第一像素的搜索像素的特定搜索限界框。举例来说,稳定器102可响应于确定对应类似性度量指示与类似性度量128的第一像素最高的类似性(例如,具有最低值)而选择特定搜索限界框。
[0028]稳定器102可基于所选搜索限界框而确定经修改第二限界框。举例来说,稳定器102可产生经修改第二限界框数据126。经修改第二限界框数据126可指示经修改第二限界框的经修改坐标。经修改坐标可对应于所选搜索限界框的坐标。在特定实施例中,经修改坐标可等同于第二限界框118的第二坐标。因此,特定搜索限界框可选自多个搜索(例如,候选)限界框,这是因为特定搜索限界框经确定为最类似于第一限界框116,由此减少图像序列104中的图像之间的限界框放置中的视觉抖动。
[0029]经修改第二限界框数据126可指示经修改第二限界框的尺寸。在特定实施例中,经修改第二限界框的尺寸可对应于第一限界框116的第一尺寸或第二限界框118的第二尺寸。在另一实施例中,经修改第二限界框的尺寸可对应于与第二图像108之前的多个图像对应的中值尺寸140。稳定器102可响应于确定先前图像的数目满足阈值而将中值尺寸140用作经修改第二限界框的尺寸。先前图像的阈值数目可为默认值。稳定器102可将经修改第二限界框数据126发送到相机显示器。举例来说,相机显示器可显示具有经修改第二限界框的第二图像108。
[0030]在特定实施例中,稳定器102可在预期接收第二图像108之后的图像(例如,图像序列104的第三图像)时存储对应于经修改第二限界框的像素特性。当经修改第二限界框的经修改尺寸对应于所选搜索限界框的尺寸(即,第一限界框116的第一尺寸)时,经修改第二限界框可对应于所选搜索限界框。稳定器102可响应于确定经修改第二限界框的经修改尺寸对应于所选搜索限界框的尺寸(或第一限界框116的第一尺寸)而存储所选搜索限界框的像素特性。
[0031]在特定实施例中,经修改第二限界框的经修改尺寸可不同于所选搜索限界框的尺寸(或第一限界框116的第一尺寸)。举例来说,经修改第二限界框的经修改尺寸可对应于第二限界框的第二尺寸118或对应于中值尺寸140。当经修改第二限界框的尺寸并不对应于所选搜索限界框的尺寸(或第一尺寸)时,稳定器102可产生且存储经修改第二限界框的像素特性。举例来说,稳定器102可产生对应于经修改第二限界框的列总和向量、列总和差向量、行总和向量和/或行总和差向量,如参考图2所描述。
[0032]当接收到图像序列104的额外图像时,可基于与先前一或多个限界框的类似性而选择额外限界框。举例来说,稳定器102可接收第三图像,且可接收界定对应于第三图像的第三限界框的对象跟踪数据124。稳定器102可基于经修改第二限界框和第三限界框而确定经修改第三限界框。举例来说,稳定器102可使用经修改第二限界框的所存储像素特性来产生可用以确定经修改第三限界框的额外类似性度量。
[0033]因此,稳定器102可从多个搜索(例如,候选)限界框中选定特定限界框,这是因为特定限界框经确定为最类似于先前图像(例如,第一图像106)的限界框,由此减少图像序列104中的图像之间的限界框放置中的视觉抖动。
[0034]参考图2,揭示包含被跟踪对象的说明性图像的图,且所述图像大体标示为200。在特定实施例中,图像200可对应于图1的第一图像106或第二图像108。图像200包含像素的多个列(例如,列O到列5)和多个行(例如,行O到行4)。图像200可包含第一限界框202,第一限界框202包含像素的一组列(例如,列O到列2)和一组行(例如,行O到行2),所述像素说明为加框像素。在特定实施例中,加框像素可对应于第一限界框116的像素、一或多个搜索限界框的像素、或两者。特定像素可通过其坐标(例如,x、y坐标)加以识别。图像200指示每一像素(x,y)的特定像素特性I。在特定实施例中,像素特性可对应于像素强度。举例来说,1(0,O)可指示列O和行O处的像素的像素强度,且1(0,I)可指示列O和行I处的像素的像素强度。在特定实施例中,图像200可为灰度级图像。
[0035]可针对图像200界定第一限界框202。处于(0,0)处的像素界定第一限界框202的左上角。第一限界框202的尺寸可包含3个像素的高度和3个像素的宽度。稳定器102可基于左上角的坐标和尺寸而确定第一限界框202的右下角(例如,(2,2))。在特定实施例中,第一限界框202可对应于图1的第一限界框116。在另一实施例中,第一限界框202可对应于参考图1所描述的搜索限界框中的一或多者。
[0036]稳定器102可确定限界框的列总和向量c(x,y)。限界框的左上角的坐标可对应于(x,y)。举例来说,稳定器102可确定第一限界框202的加框像素的第一列总和向量(c(0,0))204。在图2中展示的实例中,I(0,0) = 1、I(1,0) = 2、I(2,0) = 3、I(3,0) = 10、I(0,1)=4、I(1,1)=5、I(2,1)=6、I(3,1) = 11、I(0,2) = 7、I(1,2)=8、I(2,2)=9、I(3,2) = 12、I(0,3)=13、I(1,3) = 14、I(2,3) = 15 且 Ι(3,3) = 16χ(0,0)204 的每一元素 Cj(0,0)可等于第一限界框202的列j的像素值的总和。因此,针对图2中的展示的实例,Cj(0,0)204的值为:
[0037]C0(O1O) = I(0,0)+1(0,1)+1(0,2) = 12,
[0038]C1(0,0) = 1(1,0)+1(1,1)+1(1,2) = 15,且
[0039]C2(O1O) = I(2,0)+1(2,1)+1(2,2) = 18ο
[0040] 稳定器102可确定第一限界框202的加框像素的列总和差向量cdelta(0,0)206。cdelta(0,0)206的每一元素cdeltaj(0,0)可等于Cj(0,0)_cj—1(0,0)(对于 j>0),且可等于O(对于j = 0)。因此,针对图2中展示的实例,cdelta(0,0)206的值为:
[0041 ] cdeltao(0,0) =0,
[0042]cdeltai(0,0) = ci(0,0)-co(0,0) = 15-12 = 3,且
[0043]cdelta2(0,0) = C2(0,0)_ci(0,0) = 18—15 = 3。
[0044]稳定器102可确定第一限界框202的加框像素的行总和向量Γ(0,0)208<^(0,0)208的每一元素η(0,0)可等于第一限界框202的行I的像素值的总和。因此,针对图2中展示的实例,r(0,0)208的值为:
[0045]ro(0,0) = I (0,0)+1( 1,0)+1(2,0) =6,
[0046]n(0,0) = 1(0,1)+1(1,1)+1(2,1) = 15,且
[0047]r2(0,0) = 1(0,2)+1(1,2)+1(2,2) = 24。
[0048]稳定器102可确定第一限界框202的加框像素的第一行差向量rdelta(0,0)210。rdelta(0,0)210的每一元素rdeltai(0,0)可等于ri(0,0)_ri—1(0,0)(对于i>0),且可等于O(对于i = 0)。因此,针对图2中展示的实例,rdelta(0,0)210的值为:
[0049]rdeltao(0,0) =0,
[0050]rdeltai(0,0) = ri(0,0)-ro(0,0) = 15-6 = 9,和[0051 ] rdelta2(0,0) = r2(0,0)-ri(0,0) =24-15 = 9。
[0052]在特定实施例中,稳定器102可产生对应于图像200的积分图像。积分图像的每一特定像素的值等于特定像素和特定像素上方和左方的像素的像素值的总和。积分图像Int中的像素(1,7)的值可表示为1111:(1,7)。通过公式1111:(1,7) = 1(1,7)+1111:(1-1,7)+1111:(1,y-l)-1nt(x_l,y_l)确定Int(x,y)。
[0053]在图2中展示的实例中,积分图像的像素子集的值为:
[0054]lnt(0,0) = 1(0,0) = 1
[0055]lnt(0,1) = 1(0,1)+1(0,0)=5
[0056]lnt(0,2) = 1(0,2)+1(0,1)+1(0,0) = 12
[0057]lnt(0,3) = 1(0,3)+1(0,2)+1(0,1)+1(0,0)=25
[0058]Int(l,0) = 1(1,0)+1(0,0)=3
[0059]Int(l ,1) = 1(1,1)+1(0,1)+1(0,0)+1(1,0) = 12
[0060]Int( 1,2) = K 1,2)+1( I, I )+1(0,1 )+1(0,0)+1( 1,0)+1(0,2) =27
[0061]Int( 1,3) = K 1,3)+1( 1,2)+1( I, I )+1(0,1 )+1(0,0)+1( 1,0)+1(0,2)+1(0,3) =54
[0062]Int(2,0) = 1(2,0)+1( 1,0)+1(0,0)=6
[0063]Int(2,1) = 1(2,1)+1(2,0)+1(1,0)+1(0,0)+1(1,1)+1(0,1) =21
[0064]Int(2,2)=1(2,2)+1(2,1)+1(2,0)+1(1,0)+1(0,0)+1(1,1)+1(0,1)+1(1,2)+1(0,2)=45
[0065]Int(2,3) = I(2,3) + 1(2,2) + 1(2,1 ) + 1(2,0) + 1(1,0) + 1(0,0) + 1(I,I ) + 1(0,1) + 1(1,2)+1(0,2) + (0,3)+1(1,3)=87
[0066]Int(3,0) = 1(3,0)+1(2,0)+1( 1,0)+1(0,0) = 16
[0067]Int(3,1) = 1(3,1)+1(3,0)+1(2,1)+1(2,0)+1(1,0)+1(0,0)+1(1,1)+1(0,1)=42
[0068]Int(3,2) = 1(3,2) + 1(3,1) + 1(3,0) + 1(2,2) + 1(2,1) + 1(2,0) + 1(1,0) + 1(0,0) + 1(1,1)+1(0,1)+1(1,2)+1(0,2)=78
[0069]Int(3,3)=I(3,3)+1(3,2)+1(3,1)+1(3,0)+1(2,3)+1(2,2)+1(2,1)+1(2,0)+1(1,0)+1(0,0)+1(1,1)+1(0,1)+1(1,2)+1(0,2)+(0,3)+1(1,3)=136
[0070 ] 稳定器102可确定来自积分图像的c (0,0) 204和r (0,0) 208的值。举例来说,c (0,0)204的特定元素可对应于积分图像的第一元素与积分图像的第二元素的差,其中第一元素和第二元素对应于积分图像的相邻列^^为了说明’⑶⑶…丨对应于工的⑶^^^⑶…丨对应于11^(1,2)-1社(0,2),且。2(0,0)对应于11^(2,2)-1的(1,2)0
[0071]在特定实施例中,具有左上坐标(x,0)的限界框(例如,第一限界框202W^Cl(X,0)的值为:
[0072]以(叉,0)= 1]11:(0,高度-1),对于叉+1 = 0,且
[0073]ci(x,0) = lnt(x+i,高度-l)-1nt(x+i_l,高度-1),对于x+i>0,
[0074]其中高度(例如,3)对应于限界框的行的数目。
[0075]作为另一实例,HO,0)208的特定元素可对应于积分图像的第一元素与积分图像的第二元素的差,其中第一元素和第二元素对应于积分图像的相邻行。为了说明,ro(0,0)对应于Int(2,0),n(0,0)对应于1的(2,1)-11^(2,0),且^(0,0)对应于1的(2,2)-11^(2,
Do
[0076]在特定实施例中,具有左上坐标(0,y)的限界框(例如,第一限界框202)的^(0,7)的值为:
[0077]!■」(0,7) = 1]11:(宽度-1,0),对于7+」=0,且
[0078]rj(0,y) = lnt(宽度-1,y+j)_Int(宽度-1,y+j_l),对于y+j>0,
[0079]其中宽度(例如,3)对应于限界框的列的数目。
[0080]作为另一实例,稳定器102可使用积分图像确定第二限界框204的行总和向量r(l,I)和列总和向量c(l,I)。举例来说,c(l,I)的特定元素可对应于积分图像的第一元素与积分图像的第二元素的差,其中第一元素和第二元素对应于积分图像的相邻列。为了说明,CO(1,1)对应于11^(1,3)-11^(0,3)-11^(1,0)+1的(0,0),。1(1,1)对应于11^(2,3)-11^(1,3)-1nt(2,0)+Int(l,0),且 C2(l,l)对应于 Int(3,3)-1nt(2,3)-1nt(3,0)+Int(2,0)。
[0081]在特定实施例中,具有左上坐标(x,y)的限界框(例如,第二限界框204W^Cl(x,y)的值(其中y>0)为:
[0082]以(叉,50= 1]11:(0,7+高度-1)-1111:(0,7-1),对于叉+1 = 0,且
[0083]ci(x,y) = Int(x+i ,y+高度-1)-1nt(x+i_l,:7+高度-1)-1]11:(叉+1 ,y-l)+Int(x+1-1,7-1),对于叉+1>0,
[0084]其中高度(例如,3)对应于限界框的行的数目。
[0085]作为另一实例,r(l,I)的特定元素可对应于积分图像的第一元素与积分图像的第二元素的差,其中第一元素和第二元素对应于积分图像的相邻行。为了说明,ro(l,I)对应于11^(3,1)-1社(0,1)-11^(3,0)+1社(0,0)^1(1,1)对应于11^(3,2)-11^(0,2)-11^(3,1)+lnt(0,l),且 r2(l,l)对应于 Int(3,3)-1nt(0,3)-1nt(3,2)+Int(0,2)。
[0086]在特定实施例中,具有左上坐标(x,y)的限界框(例如,第二限界框204)的n(x,y)的值(其中χ>0)为:
[0087]rj(x,y) = Int(x+宽度-1,0)-1nt(x_l,0),对于y+j = 0,且
[0088]rj(x,y) = Int(x+宽度-1,y+j)_Int(x+宽度-1,y+j-l)-1nt(x_l,y+j)+Int(x_l,y+]_-1),对于7+」>0,
[0089]其中宽度(例如,3)对应于限界框的列的数目。
[0090]在特定实施例中,稳定器102可产生对应于第二图像108的积分图像。计算对应于来自积分图像的搜索限界框中的每一者的行总和向量和列总和向量可较快(例如,在恒定时间内计算),且可比直接从第二图像108的像素值计算向量使用较少的处理资源。
[0091]参考图3,揭示包含图2的被跟踪对象的说明性图像的图,且所述图像大体标示为300。图像300可对应于图1的第二图像108。左上坐标(O,I)和尺寸4 X 3(像素宽度X像素高度)界定图像300的第二限界框118。每一像素值I2(x,y)可对应于图像300的对应像素(x,y)的像素特性。下标2指示像素特性对应于第二图像108。
[0092]稳定器102可基于第二限界框118而确定搜索区域304。举例来说,搜索区域304可包含第二限界框118和相对于第二限界框118在一或多个方向上的额外像素。举例来说,稳定器102可朝第二限界框118的右方和左方总计为第一数目(例如,I)个像素,且朝第二限界框118的顶部和底部总计为第二数目(例如,I)个像素,以产生搜索区域304。
[0093]参考图4,揭示包含图2的被跟踪对象的说明性图像的图,且所述图像大体标示为400。图像400可对应于图1的第二图像108。可为图像400界定搜索区域304。
[0094]稳定器102可基于搜索区域304而在图像400内产生多个搜索限界框(例如,第一搜索限界框402、第二搜索限界框404和第三搜索限界框406)。搜索限界框中的每一者的尺寸可等于第一限界框116的尺寸。稳定器102可产生具有选自第一范围(例如,O到3)的左上像素的X坐标和选自第二范围(例如,O到2)的左上像素的y坐标的搜索限界框。搜索区域304可包含具有在第一范围外部的X坐标或在第二范围外部的y坐标的像素。然而,稳定器102可制止产生具有具有在第一范围外部的X坐标或在第二范围外部的y坐标、或两者的左上像素的搜索限界框,这是因为此类搜索限界框并不完全适配于图像400内。
[0095]稳定器102可产生对应于搜索限界框402到406中的每一者的搜索行总和向量、搜索行总和差向量、搜索列总和向量、和/或搜索列总和差向量,如参考图1到2进一步描述。稳定器102可产生类似性度量128,且可选择“最类似”于第一限界框116的特定搜索限界框,如参考图1所描述。举例来说,稳定器102可基于搜索限界框404的类似性度量而选择第二搜索限界框404。因此,稳定器102可产生经修改第二限界框数据126以指示显示给用户150的经修改限界框应在位置(I,1)处具有左上像素。
[0096]在特定实施例中,经修改第二限界框的尺寸可对应于图1的第一限界框116的第一尺寸、图1的第二限界框118的第二尺寸,或图1的中值尺寸140。经修改第二限界框数据126可指示经修改第二限界框的左上像素的坐标(I,I)和尺寸。稳定器102可将经修改第二限界框数据126提供到相机显示器。相机显示器可显示具有经修改第二限界框的第二图像108。经修改第二限界框可对应于比第二限界框118稳定的限界框。举例来说,对应于经修改第二限界框的像素可更类似于第一限界框116的第一像素。作为另一实例,经修改第二限界框的尺寸可更接近地对应于多个先前图像的尺寸。
[0097]参考图5,展示使对象跟踪框的显示稳定的方法的特定说明性实施例的流程图,且所述方法大体标示为500 ο方法500可由图1的系统100的一或多个组件执行。
[0098]方法500包含在502处接收界定图像序列的第一图像的第一限界框的第一数据。第一限界框可对应于包含被跟踪对象的感兴趣区域。举例来说,图1的稳定器102可接收第一数据122,如参考图1所描述。第一数据122可界定图像序列104的第一图像106的第一限界框116。第一限界框116可对应于包含对象110的感兴趣区域162。
[0099]方法500还包含在504处接收图像序列的第二图像的对象跟踪数据。对象跟踪数据可界定第二限界框。第二限界框可对应于第二图像中包含被跟踪对象的感兴趣区域。举例来说,图1的稳定器102可接收第二图像108的对象跟踪数据124,如参考图1所描述。对象跟踪数据124可界定第二限界框118。第二限界框118可对应于包含第二图像108中的对象110的感兴趣区域162。
[0100]方法500进一步包含在506处确定第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量。搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的第二限界框的第二坐标。举例来说,图1的稳定器102可确定第一限界框116内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量,如参考图1到2和4所描述。
[0101]方法500还包含在508处基于类似性度量而确定经修改第二限界框。举例来说,图1的稳定器102可基于类似性度量而确定经修改第二限界框,如参考图1和4所描述。
[0102]方法500进一步包含在510处确定对应于多个图像的中值尺寸。所述多个图像可在图像序列中先于第二图像。经修改第二限界框的第二尺寸可对应于中值尺寸。举例来说,图1的稳定器102可确定中值尺寸140对应于先于第二图像108的多个图像,如参考图1所描述。经修改第二限界框的第二尺寸可对应于中值尺寸140,如参考图1和4所描述。
[0103]因此,方法500包含从多个搜索(例如,候选)限界框中选择特定限界框,这是因为特定限界框经确定为最类似于先前图像(例如,第一图像106)的限界框,由此减少图像序列104中的图像之间的限界框放置中的视觉抖动。
[0104]图5的方法500可由现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、处理单元(例如,中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件装置、固件装置或其任何组合来实施。作为一实例,图5的方法500可由执行指令的处理器执行,如关于图7所描述。
[0105]参考图6,展示使对象跟踪框的显示稳定的方法的特定说明性实施例的流程图,且所述方法大体标示为600。方法600可由图1的系统100的一或多个组件执行。在特定实施例中,方法600可对应于图5在步骤506处说明的操作。
[0106]方法600包含在602处确定第一像素的第一列总和向量。举例来说,图1的稳定器102可确定第一限界框116的第一像素的第一列总和向量,如参考图1到2所描述。第一列总和向量的特定元素可对应于像素值的总和,像素值的总和对应于第一限界框116的特定列。
[0107]方法600还包含在604处确定第一像素的第一列总和差向量。举例来说,图1的稳定器102可确定第一限界框116的第一像素的第一列差向量,如参考图1到2所描述。第一列总和差向量的特定元素可对应于第一列总和向量的第一元素与第一列总和向量的第二元素之间的差。第一元素和第二元素可对应于第一限界框116的相邻列。
[0108]方法600进一步包含在606处确定第一像素的第一行总和向量。举例来说,图1的稳定器102可确定第一限界框116的第一像素的第一行总和向量,如参考图1描述。第一行总和向量的特定元素可对应于像素值的总和,像素值的总和对应于第一限界框116的特定行。
[0109]方法600还包含在608处确定第一像素的第一行总和差向量。举例来说,图1的稳定器102可确定第一限界框116的第一像素的第一行差向量,如参考图1到2所描述。第一行总和差向量的特定元素可对应于第一行总和向量的第一元素与行总和向量的第二元素之间的差。第一元素和第二元素可对应于第一限界框116的相邻行。
[0110]方法600进一步包含在610处通过相加以下各者来计算第一像素与特定搜索限界框内的特定搜索像素的特定类似性度量:第一像素的第一列总和向量与特定搜索像素的第二列总和向量的第一绝对差总和(SAD)、第一像素的第一列总和差向量与特定搜索像素的第二列总和差向量的第二 SAD、第一像素的第一行总和向量与特定搜索像素的第二行总和向量的第三SAD、以及第一像素的第一行总和差向量与特定搜索像素的第二行总和差向量的第四SAD。举例来说,图1的稳定器102可计算第一限界框116的第一像素与特定搜索限界框内的特定搜索像素的特定类似性度量,如参考图1到2和4所描述。
[0111]应注意,虽然各种实施例描述为使用列总和向量、列总和不同向量、行总和向量及行总和差向量,但此仅针对实例,且不应视为限制性的。在替代实施例中,可基于更少、更多或不同计算和数据结构而确定类似性。
[0112]图6的方法600可由现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、处理单元(例如,中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件装置、固件装置或其任何组合来实施。作为一实例,图6的方法600可由执行指令的处理器执行,如关于图7所描述。
[0113]参考图7,描绘装置(例如,无线通信装置)的特定说明性实施例的框图,且所述装置大体标示为700。装置700包含耦合到存储器732的处理器710,例如数字信号处理器(DSP)或中央处理单元(CPU)。处理器710可包含且/或执行图1的稳定器102、图1的跟踪器160或两者。
[0114]装置700的一或多个组件可经由专用硬件(例如,电路系统)、由执行指令以执行一或多个任务的处理器、或其组合来实施。作为一实例,存储器732或稳定器102和/或跟踪器160的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、闪存存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可装卸式磁盘或压缩光盘只读存储器(CD-ROM)。存储器装置可包含指令,所述指令在由计算机(例如,处理器710)执行时可致使计算机执行图5的方法500图6的方法600或其组合的至少一部分。作为一实例,存储器732或稳定器102的一或多个组件可为包含指令的非暂时性计算机可读媒体,所述指令在由计算机(例如,处理器710)执行时可致使计算机执行图5的方法500、图6的方法600或其组合的至少一部分。
[0115]图7还展示耦合到处理器710和显示器728的显示器控制器726。例如图1的相机112等相机可耦合到处理器710。译码器/解码器(C0DEC)734也可耦合到处理器710。扬声器736和麦克风738可耦合到CODEC 734。
[0116]图7还指示无线控制器740可耦合到处理器710和无线天线742。在特定实施例中,处理器710、显示器控制器726、存储器732、C0DEC 734和无线控制器740包含于系统级封装或芯片上系统装置722中。在特定实施例中,相机112、输入装置730和电力供应器744耦合到芯片上系统装置722。此外,在特定实施例中,如图7中说明,显示器728、相机112、稳定器102、跟踪器160、输入装置730、扬声器736、麦克风738、无线天线742和电力供应器744在芯片上系统装置722外部。然而,显示器728、相机112、稳定器102、跟踪器160、输入装置730、扬声器736、麦克风738、无线天线742和电力供应器744中的每一者可耦合到芯片上系统装置722的组件,例如接口或控制器。
[0117]结合所描的实施例,揭示一种系统,其包含用于接收第一数据的装置。第一数据可界定图像序列的第一图像的第一限界框。第一限界框可对应于包含被跟踪对象的感兴趣区域。用于接收的装置可包含图7的输入装置730、一或多个其它装置或经配置以接收界定限界框的数据的电路(例如,移动电话的触摸屏)、或其任何组合。
[0118]所述系统还可包含用于产生对象跟踪数据的装置。对象跟踪数据可对应于图像序列的第二图像。对象跟踪数据可界定第二限界框。第二限界框可对应于第二图像中包含被跟踪对象的感兴趣区域。用于产生的装置可包含图1和7的跟踪器160、一或多个其它装置或经配置以产生对象跟踪数据的电路、或其任何组合。
[0119]所述系统可进一步包含用于确定类似性度量且基于类似性度量确定经修改第二限界框的装置。可为第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素确定类似性度量。搜索限界框中的每一者的搜索坐标可对应于在一或多个方向上移位的第二限界框的第二坐标。用于确定的装置可包含图7的处理器710、图1和7的稳定器102、一或多个其它装置或经配置以确定类似性度量和经修改限界框的电路、或其任何组合。
[0120]所属领域的技术人员将进一步了解,结合本文揭示的实施例描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实施为电子硬件、由处理器执行的计算机软件,或两者的组合。上文已大体上就其功能性而言描述了各种说明性组件、块、配置、模块、电路和步骤。此类功能性实施为硬件还是处理器可执行指令取决于特定应用和强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述功能性,但此类实施决策不应被解释为引起偏离本发明的范围。
[0121 ]结合本文揭示的实施例而描述的方法或算法的步骤可直接体现在硬件、由处理器执行的软件模块或所述两者的组合中。软件模块可驻留在随机存取存储器(RAM)、闪存存储器、只读存储器(R0M)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPR0M)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移除式磁盘、压缩光盘只读存储器(CD-R0M)或此项技术中已知的任何其它形式的非暂时性存储媒体中。示范性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息并将信息写入到存储媒体。在替代方案中,存储媒体可与处理器整合。处理器和存储媒体可驻留在专用集成电路(ASIC)中。ASIC可驻留在计算装置或用户终端中。在替代方案中,处理器和存储媒体可以作为离散组件驻留在计算装置或用户终端中。
[0122]提供对所揭示实施例的先前描述以使得所属领域的技术人员能够制作或使用所揭示的实施例。对这些实施例的各种修改对于所属领域的技术人员将显而易见,且可在不偏离本发明的范围的情况下将本文中界定的原理应用于其它实施例。因此,本发明并不既定限于本文展示的实施例,而应符合与如由所附权利要求书界定的原理和新颖特征一致的可能最广范围。
【主权项】
1.一种方法,其包括: 接收界定图像序列的第一图像的第一限界框的第一数据,其中所述第一限界框对应于包含被跟踪对象的感兴趣区域; 接收所述图像序列的第二图像的对象跟踪数据,所述对象跟踪数据界定第二限界框,其中所述第二限界框对应于所述第二图像中包含所述被跟踪对象的所述感兴趣区域; 确定所述第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量,其中所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的所述第二限界框的第二坐标;以及 基于所述类似性度量而确定经修改第二限界框。2.根据权利要求1所述的方法,其中所述第一数据包含所述第一限界框的第一坐标和第一尺寸,且其中所述对象跟踪数据包含所述第二限界框的所述第二坐标和第二尺寸。3.根据权利要求2所述的方法,其中所述搜索限界框中的每一者的搜索尺寸对应于所述第一限界框的所述第一尺寸。4.根据权利要求1所述的方法,其中所述类似性度量包含绝对差总和SAD度量。5.根据权利要求1所述的方法,其进一步包括: 基于所述第一像素与所述搜索限界框中的特定搜索限界框内的特定搜索像素的特定类似性度量来选择所述特定搜索限界框, 其中所述经修改第二限界框的经修改第二坐标对应于所述特定搜索限界框的特定搜索坐标。6.根据权利要求5所述的方法,其进一步包括: 至少部分基于对应于所述第一像素的第一像素特性与对应于所述特定搜索像素的第二像素特性的绝对差总和SAD来计算所述特定类似性度量。7.根据权利要求5所述的方法,其进一步包括: 通过相加以下各者来计算所述特定类似性度量: 所述第一像素的第一列总和向量与所述特定搜索像素的第二列总和向量的第一绝对差总和SAD, 所述第一像素的第一列总和差向量与所述特定搜索像素的第二列总和差向量的第二SAD, 所述第一像素的第一行总和向量与所述特定搜索像素的第二行总和向量的第三SAD,以及 所述第一像素的第一行总和差向量与所述特定搜索像素的第二行总和差向量的第四SAD08.根据权利要求1所述的方法,其进一步包括确定所述第一像素的列总和向量,其中所述列总和向量的特定元素对应于与所述第一限界框的特定列对应的像素值的总和。9.根据权利要求8所述的方法,其中所述像素值中的每一者识别对应像素的像素强度。10.根据权利要求1所述的方法,其进一步包括确定所述第一像素的列总和差向量,其中所述列总和差向量的特定元素对应于所述列总和向量的第一元素与所述列总和向量的第二元素之间的差,且其中所述第一元素和所述第二元素对应于所述第一限界框的相邻列。11.根据权利要求1所述的方法,其进一步包括确定所述第一像素的行总和向量,其中所述行总和向量的特定元素对应于与所述第一限界框的特定行对应的像素值的总和。12.根据权利要求1所述的方法,其进一步包括确定所述第一像素的行总和差向量,其中所述行总和差向量的特定元素对应于所述行总和向量的第一元素与所述行总和向量的第二元素之间的差,且其中所述第一元素和所述第二元素对应于所述第一限界框的相邻行。13.根据权利要求1所述的方法,其进一步包括确定对应于多个图像的中值尺寸,其中所述多个图像在所述图像序列中先于所述第二图像,且其中所述经修改第二限界框的第二尺寸对应于所述中值尺寸。14.一种设备,其包括: 存储器,其经配置以存储指令;以及 处理器,其经配置以执行所述指令以: 确定第一图像的第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量,其中所述第一限界框对应于包含被跟踪对象的感兴趣区域,其中所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的第二限界框的第二坐标,其中所述第一图像在图像序列中先于第二图像,且其中所述第二限界框对应于所述第二图像中包含所述被跟踪对象的所述感兴趣区域;以及 基于所述类似性度量而确定经修改第二限界框。15.根据权利要求14所述的设备,其中所述处理器进一步经配置以: 基于所述第一像素与所述搜索限界框中的特定搜索限界框内的特定搜索像素的特定类似性度量来选择所述特定搜索限界框, 其中所述经修改第二限界框的经修改第二坐标对应于所述特定搜索限界框的特定搜索坐标。16.根据权利要求15所述的设备,其中所述处理器进一步经配置以至少部分基于所述第一像素的第一像素特性与所述特定搜索像素的第二像素特性的绝对差总和SAD而计算所述特定类似性度量。17.根据权利要求15所述的设备,其中所述处理器进一步经配置以至少部分基于所述第一像素的第一像素强度和所述特定搜索像素的第二像素强度而计算所述特定类似性度量。18.根据权利要求14所述的设备,其中所述图像序列对应于视频流。19.根据权利要求14所述的设备, 其中所述处理器进一步经配置以获得所述第一图像的第一数据且获得所述第二图像的对象跟踪数据, 其中所述第一数据界定所述第一限界框,且 其中所述对象跟踪数据界定所述第二限界框。20.根据权利要求19所述的设备,其中所述第一数据包含所述第一限界框的第一坐标和第一尺寸,且其中所述对象跟踪数据包含所述第二限界框的所述第二坐标和第二尺寸。21.根据权利要求14所述的设备,其中所述搜索限界框中的每一者的搜索尺寸对应于所述第一限界框的第一尺寸。22.根据权利要求14所述的设备,其中所述处理器进一步经配置以确定对应于多个图像的中值尺寸,其中所述多个图像在所述图像序列中先于所述第二图像,且其中所述经修改第二限界框的第二尺寸对应于所述中值尺寸。23.—种存储指令的计算机可读存储装置,所述指令在由处理器执行时致使所述处理器执行包括以下各项的操作: 确定第一图像的第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量,其中所述第一限界框对应于包含被跟踪对象的感兴趣区域,其中所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的第二限界框的第二坐标,其中所述第一图像在图像序列中先于第二图像,且其中所述第二限界框对应于所述第二图像中包含所述被跟踪对象的所述感兴趣区域;以及基于所述类似性度量而确定经修改第二限界框。24.根据权利要求23所述的计算机可读存储装置,其中所述操作进一步包括确定对应于多个图像的中值尺寸,其中所述多个图像在所述图像序列中先于所述第二图像,且其中所述经修改第二限界框的第二尺寸对应于所述中值尺寸。25.根据权利要求23所述的计算机可读存储装置,其中所述操作进一步包括: 接收所述第一图像的第一数据,其中所述第一数据界定所述第一限界框;以及 接收用于所述第二图像的对象跟踪数据,其中所述对象跟踪数据界定所述第二限界框。26.根据权利要求25所述的计算机可读存储装置,其中所述第一数据包含所述第一限界框的第一坐标和第一尺寸,且其中所述对象跟踪数据包含所述第二限界框的所述第二坐标和第二尺寸。27.根据权利要求23所述的计算机可读存储装置,其中所述搜索限界框中的每一者的搜索尺寸对应于所述第一限界框的第一尺寸。28.根据权利要求23所述的计算机可读存储装置,其中所述操作进一步包括: 基于所述第一像素与所述搜索限界框中的特定搜索限界框内的特定搜索像素的特定类似性度量来选择所述特定搜索限界框, 其中至少部分基于所述第一像素的第一像素强度和所述特定搜索像素的第二像素强度而确定所述类似性度量,且 其中所述经修改第二限界框的经修改第二坐标对应于所述特定搜索限界框的特定搜索坐标。29.—种设备,其包含: 用于接收界定图像序列的第一图像的第一限界框的第一数据的装置,其中所述第一限界框对应于包含被跟踪对象的感兴趣区域; 用于产生所述图像序列的第二图像的对象跟踪数据的装置,所述对象跟踪数据界定第二限界框,其中所述第二限界框对应于所述第二图像中包含所述被跟踪对象的所述感兴趣区域;以及 用于确定以下各者的装置: 所述第一限界框内的第一像素与多个搜索限界框中的每一者内的搜索像素的类似性度量,其中所述搜索限界框中的每一者的搜索坐标对应于在一或多个方向上移位的所述第二限界框的第二坐标;以及 基于所述类似性度量而确定经修改第二限界框。30.根据权利要求29所述的设备,其中所述用于接收的装置、所述用于产生的装置和所述用于确定的装置集成到以下各者中的至少一者中:移动电话、机顶盒、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、个人数字助理PDA、固定位置数据单元,或计算机。
【文档编号】H04N5/232GK105830430SQ201480069028
【公开日】2016年8月3日
【申请日】2014年12月12日
【发明人】克里斯托弗·李, 钟辛, 高大山, 齐颖勇, 郭凯
【申请人】高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1