时间显著图的制作方法

文档序号：11161057阅读：613来源：国知局

本发明大体来说涉及对象跟踪。

背景技术：

技术的进步已产生较小且较强大计算装置。举例来说，当前存在各种便携式个人计算装置，包含无线电话，例如移动及智能电话、平板及膝上型计算机，其为小型、轻量且容易由用户携带。这些装置可经由无线网络传递语音及数据包。此外，许多此些装置并入有额外功能性，例如数字静态相机、数字摄像相机、数字记录仪及音频文件播放器。此外，此些装置可处理可执行指令，包含可用于接入因特网的软件应用程序，例如web浏览器应用程序。如此，这些装置可包含凸显计算能力。

可期望将特殊效果应用于在视频帧之间被跟踪的对象。然而，使用典型边界框应用各种特殊效果可导致不满意用户体验。例如，可在边界框的边缘处或其附近的特殊效果的应用中存在突然转变，造成不真实且美观上令人不愉悦的图像。

技术实现要素：

本发明描述可用于对象跟踪的时间显著图。在一些状况下，时间显著图可用于将特殊效果(例如，散景效果(其中图像的离焦部分模糊)、黑白效果或透镜效果，连同其它替代效果)应用于被对象跟踪器跟踪的对象。此些特殊效果可应用于相机预览模式、视频记录模式或快照模式连同其它替代模式中。在特殊效果应用程序中，时间显著图可通过将特殊效果应用于经识别为图像的前景部分(包含关注对象)的像素子组而不将特殊效果应用于经识别为图像的背景部分的像素来提供经改进用户体验。

在特定实例中，揭示产生时间显著图的方法。所述方法包含：从对象跟踪器接收对象边界框并至少部分地基于所述对象边界框而裁剪视频帧以产生经裁剪图像。所述方法进一步包含：对所述经裁剪图像执行空间双层分段以产生初始掩模及对所述初始掩模执行时间掩模细化以产生细化掩模。所述方法还包含：至少部分地基于所述细化掩模而产生时间显著图。

在另一特定实例中，揭示用于产生时间显著图的设备。所述设备包含处理器、对象跟踪器组件、帧裁剪组件、分段组件、掩模细化组件，及时间显著图产生组件。所述对象跟踪器组件可由处理器执行以产生对象边界框。所述帧裁剪组件可由处理器执行以至少部分地基于所述对象边界框而裁剪视频帧以产生经裁剪图像。所述分段组件可由处理器执行以对所述经裁剪图像执行空间多层分段以产生初始掩模，且所述掩模细化组件可由处理器执行以对所述初始掩模执行时间掩模细化以产生细化掩模。所述时间显著图产生组件可由处理器执行以至少部分地基于所述细化掩模而产生时间显著图。

在另一特定实例中，揭示产生时间显著图以将其作为反馈提供到对象跟踪器的方法。方法包含：从对象跟踪器接收对象边界框并对视频帧的部分执行空间双层分段以产生初始掩模。至少部分地基于所述对象边界框而确定所述视频帧的部分的边界。方法包含：对所述初始掩模执行时间掩模细化以产生细化掩模并至少部分地基于所述细化掩模而产生时间显著图。所述方法可包含将所述时间显著图作为反馈提到所述对象跟踪器。

在另一特定实例中，揭示产生时间显著图以将其作为反馈提供到对象跟踪器的设备。所述设备包含处理器、对象跟踪器组件、分段组件、掩模细化组件，及时间显著图产生组件。所述对象跟踪器组件可由处理器执行以产生对象边界框。所述分段组件可由所述处理器执行以对视频帧的部分执行空间双层分段以产生初始掩模，其中至少部分地基于所述对象边界框而确定所述视频帧的部分的边界。所述掩模细化组件可由处理器执行以对所述初始掩模执行时间掩模细化以产生细化掩模。时间显著图产生组件可由处理器执行以至少部分地基于所述细化掩模而产生时间显著图并将时间显著图作为反馈提供到所述对象跟踪器组件。

由所揭示实例中的至少一者提供的一个特定优点为在将特殊效果应用于所跟踪的关注对象时经改进用户体验。

由所揭示实例中的至少一者提供的另一优点为通过将显著图作为反馈提供到对象跟踪器以便将前景对象与背景分离而改进对象跟踪器的跟踪准确度。

在检视整个申请案(包含以下部分)之后，本发明的其它方面、优点及特征将变得显而易见：“图式简单说明”、“具体实施方式”及“权利要求书”。

附图说明

图1为可操作以产生时间显著图的系统的特定说明性实施例的框图；

图2为产生时间显著图的方法的特定说明性实施例的框图；

图3为将时间显著图作为反馈提供到对象跟踪器的方法的特定说明性实施例的框图；

图4为经应用于视频帧序列的显著图及相关联二进制掩模的特定说明性实施例的图；

图5为经应用于具有复杂背景的视频帧序列的显著图及相关联二进制掩模的特定说明性实施例的图；

图6为将应用于其中关注对象经部分遮蔽的视频帧序列的显著图及相关联二进制掩模的特定说明性实施例的图；

图7A为基于时间显著图经应用于特定视频帧的第一特殊效果的特定说明性实施例的图；

图7B为基于时间显著图经应用于特定视频帧的第二特殊效果的特定说明性实施例的图；

图8为产生时间显著图的方法的特定说明性实施例的流程图；

图9为执行多层分段以产生对象掩模的方法的特定说明性实施例的流程图；

图10为将时间显著图作为反馈提供到对象跟踪器的方法的特定说明性实施例的流程图；

图11为将时间显著图用于特殊效果应用程序的方法的特定说明性实施例的流程图；以及

图12为用以产生时间显著图的计算装置的特定说明性实施例的框图。

具体实施方式

参考图1，揭示可操作以产生时间显著图的系统的特定说明性实施例且大体将其指定为100。系统100包含移动装置102。移动装置102可为移动电话、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、个人数字助理(PDA)、计算机或任何其它移动计算装置。移动装置102包含相机104。相机104可经配置以捕获并输出静态图像及视频。移动装置102包含输出接口106。输出接口106可经配置以与显示装置(诸如液晶显示器(LCD)、发光二极管(LED)显示器或任何其它显示装置)进行通信。在特定实施例中，输出接口106输出图形用户接口(GUI)。移动装置102进一步包含输入接口108。输入接口108可包含触摸屏、任何其它类型的输入装置或其任何组合。在特定实施例中，输入接口108可经配置以从用户110接收输入(例如，对由输出接口106输出的GUI作出响应的输入)。

移动装置102可进一步包含附属装置接口112。在特定实施例中，附属装置接口112从附属装置114接收输入。在特定实施例中，附属装置114包含相机。从附属装置114接收的输入可包含图像或视频数据。在特定实施例中，附属装置114可嵌入于用户可穿戴附件(诸如眼镜或珠宝)中。

移动装置102可进一步包含网络接口116，所述网络接口经配置以与网路118进行通信。网络接口116可包含以太网接口、802.11(WiFi)接口、长期演进(LTE)接口、码分多址接入(CDMA)接口、时分多址接入(TDMA)接口、802.16(WiMAX)接口、任何其它有线或无线网络接口或其任何组合。

移动装置102进一步包含存储装置120。存储装置120可包含固态驱动器、硬盘驱动器、光学驱动器或任何其它类型的计算机可读存储媒体或装置。存储装置120可存储图像及视频(例如，由相机104捕获、由移动装置102经由网络接口116下载等的图像及视频)。

移动装置102可包含以软件实施的一或多个组件(例如，存储在移动装置102的存储器中的指令，所述指令可由移动装置102的处理器执行)。替代地，组件的全部或部分可以硬件实施。组件可包含对象跟踪器122，所述对象跟踪器经由用户输入接收对经包含(例如，经描绘)在图像或视频帧中的一或多个对象的选择。对象跟踪器122可经配置以响应于从用户110接收的输入而跟踪对象。在一些状况下，对象跟踪器122可产生用于跟踪对象的对象边界框(例如，一组X,Y坐标)。

帧裁剪组件124可由移动装置102的处理器执行以至少部分地基于对象边界框而裁剪视频帧(例如，从相机104接收)以产生经裁剪图像。分段组件126可由处理器执行以对经裁剪图像执行空间双分段以产生初始掩模。掩模细化组件128可由处理器执行以对初始掩模执行时间掩模细化以产生细化掩模。时间显著图产生组件130可由处理器执行以至少部分地基于所述细化掩模而产生时间显著图。在一些实施例中，时间显著图产生组件130可经配置以将时间显著图作为反馈提供到对象跟踪器组件122。参考图2到11进一步描述系统100的操作的实例。

参考图2，揭示产生时间显著图的方法的特定说明性实施例且大体将其指定为200。图2说明多层分段可用于产生对象掩模。图2进一步说明可通过在时间上细化视频帧之间的掩模来产生时间显著图。时间显著图可提供准确边界，所述准确边界将所跟踪对象(前景对象)与非对象(背景对象)且可允许从前景对象逐渐改变到背景对象。在一些实施例中，时间显著图可用于各种特殊效果应用程序中，其中逐渐改变可产生经改进用户体验(例如，归因于特殊效果的美观上更令人愉悦的应用)。

图2说明相机104可提供系列视频帧202，且对象跟踪器122可通过产生对象边界框204来跟踪关注对象。在一些状况下，对象跟踪器122可包含“触摸跟踪”或T2T跟踪器，其可经配置以响应于用户输入(例如，单个触摸输入)而产生对象边界框204。在已回应于用户输入而识别关注对象并已界定初始对象边界框之后，对象跟踪器122可通过回应于对象的移动而移动对象边框204来在视频帧202之间跟踪关注对象。

基于由对象跟踪器122输出的对象边界框204，可通过执行帧裁剪206来裁剪个别视频帧202以产生经裁剪图像208。在一些状况下，帧裁剪206可包含：确定与对象边界框204相关联的视频帧202的特定视频帧的部分并增加对象边界框204的大小以产生经扩展对象边界框210。在一些状况下，帧裁剪206可包含接收对象边界框204的拐角的X、Y坐标、对象边界框204的高度/宽度/对角大小，等。经扩展对象边界框210可不仅捕获与特定视频帧的前景部分212相关联的像素而且捕获与特定视频帧的背景部分214相关联的额外像素。作为说明性而非限制性实例，帧裁剪206可包含：使对象边界框204的大小从中点在X方向及Y方向两者上增加30％并通过确定在经扩展对象边界框210内的特定视频帧的像素来产生经裁剪图像208。为了说明，在图3的实例中，经扩展对象边界框210可包含与人的颈部相关联的额外像素，其可出于对象跟踪目的用于使掩模生长。

图2说明可对经裁剪图像208执行空间多层(例如，双层)分段216。在一些状况下，分段可包含使用随多层种子点界定生长的种子区的基于颜色的分段。为了说明，第一层(“层1”)可使用经裁剪边界(例如，图2的实例中的矩形经扩展对象边界框210)作为生长到内部的区的种子点，而第二层(“层2”)可使用减少的大小边界(例如，大小减少三分之二)作为生长到外部的种子点。也就是说，空间双分段216可包含从经扩展对象边界框210向内的区生长以及从减少的大小边界向外的区生长。可通过融合与两个层相关联的区生长的结果来产生初始掩模218。

图2说明可对初始掩模218执行时间掩模细化220以便产生细化掩模222。时间掩模细化220可用于使初始掩模218(例如，与帧i相关联)与和一或多个先前视频帧(例如，视频帧i-1至i-k)相关联的一或多个掩模对准。时间掩模细化220可用于将可表示特定视频帧的离群值的一或多个像素移除。为了说明，如果特定像素显现在特定视频帧(与视频帧i相关联)中但不出现在视频帧202的先前视频帧中，那么所述像素可表示离群值且可被移除。参考图2的实例，与初始掩模218中的背景部分214中的窗帘相关联的像素由参考数字224识别。然而，与窗帘相关联的像素224可不显现在先前帧中。因此，如细化掩模222中所说明，像素224可经确定为不与图像的前景部分212相关联的离群值且可作为时间掩模细化220的部分被移除。

在一些状况下，时间掩模细化220包含区滤波以使初始掩模218“最佳配合”于在多个先前视频帧(例如，视频帧i-1至i-k)的处理期间产生的掩模上。在此状况下，时间掩模细化220可包含确定表示“最佳配合”以包含在细化掩模222中的像素。作为说明性而非限制性实例，可分析五个先前视频帧(例如，针对帧i，视频帧i-1到i-5)。在特定像素位于前五个视频帧的大部分中(即，在前5个视频帧中的至少3个中)的情况下，所述特定像素可经包含作为细化掩模222的部分。相比来说，如果所述特定像素并非位于前5个视频帧的大部分中(即，位于前5个视频帧的2个或更少视频帧中)，那么可将所述特定像素从细化掩模222排除。

图2说明可执行时间显著图产生226。时间显著图产生226包含累积当前及先前细化掩模以产生显著图228。在特定实施例中，可基于以下公式确定显著图228：

OS_i＝W_o×OS_i-1+(1–W_o)*Mask_i

在上述公式中，OS_i表示与特定视频帧(例如，帧i)相关联的显著图228，W_o表示第一权重因数(例如，在一些状况下为0.95)，OS_i-1表示针对先前视频帧(例如，帧i-1)所确定的显著图，(1-W_o)表示第二权重因数(例如，在一些状况下为0.05)，且Mask_i表示针对特定视频帧(例如，帧i)的细化掩模222。将高权重(例如，其中W_o＝0.95)应用于先前帧的显著图可允许对象边界的平滑改变。将了解，值0.95及0.05仅出于说明目的且替代值可用于对先前帧及/或细化掩模的显著图加权重。

在特定实施例中，显著图228可用作一或多个特殊效果应用程序的二维滤波器。二进制掩模230可表示应用于显著图228的阈值滤波器。在图3的实例中，显著图228为灰度图像，其中显著图228中的个别像素具有范围从0到255的值。因此，用于从显著图228产生二进制掩模230的阈值可包含从0到255的任何值。具有高于阈值的值的像素可用于二进制掩模230(例如，用值一替换)，而具有低于阈值的值的像素可被排除(例如，用值零替换)。在一些实例中，可仅产生显著图228而无需产生二级制掩模230。

如图2的实例中所展示，应用二进制掩模230的结果为将视频帧的表示背景噪音的部分“归零”(显现为黑色)，其中视频帧的剩余部分表示前景部分。前景部分可用于各种特殊效果应用程序，包含但不限于散景效果应用程序(如图7A的实例中所说明)或黑白效果应用程序(如在图7B的实例中所说明)。

因此，图2说明空间多层分段可用于产生初始掩模，所述初始掩模可在时间上经细化以产生用于产生时间显著图的细化掩模。在一些状况下，显著图228可用于各种特殊效果应用程序。例如，显著图228可用于通过形成散景效果、移轴效果或黑白效果连同其它替代效果来突出显示对象。图2中所说明的显著图228表示与所跟踪对象一致的经明确界定的显著图，此可允许在获得真实视觉效果(其在经由边界框传统地界定对象的情况下不可能)时应用此些特殊颜色或滤波技术。

参考图3，说明将时间显著图作为反馈提供到对象跟踪器的方法的特定实施例且大体将其指定为300。图3说明显著图228可不仅用于特殊效果应用程序还作为反馈提供到对象跟踪器122，可能造成更稳健对象跟踪。

在图3的实例中，对象跟踪器122包含跟踪组件302、检测组件304及模型更新组件306。此外，对象跟踪器122包含与跟踪组件302相关联的第一归一化互相关(NCC)验证组件308以及与检测组件304相关联的第二NCC验证组件310。可将跟踪组件302的输出提供到第一NCC验证组件308，而可将检测组件304的输出提供到第二NCC验证组件310。对象跟踪器122进一步包含融合组件312以从第一NCC验证组件308接收输出及从第二NCC验证组件310接收输出。融合组件312的输出可用于关于图2所描述的时间显著图产生226。

图3说明其中显著图228可作为输入提供到对象跟踪器122的特定实施例。NCC验证组件308及310两者可用于基于对象外观模型的对象验证。在一些状况下，NCC验证组件308及310两者可通过应用显著图228以将图像的包含关注对象的前景部分与图像的背景部分分离来增强，从而可能产生较高跟踪准确度。为了说明，NCC验证组件308及310两者可通常使用边界框内部的所有像素来补偿。显著图228可用于减小用于补偿目的的边界框内部的像素的数目。因此，图3说明显著图228可不仅用于特殊效果应用程序而且作为反馈用于对象跟踪器122，可能造成更稳健对象跟踪。

参考图4，说明将显著图及相关联二进制掩模应用于视频帧序列的方法的特定说明性实施例且大体将其指定为400。图4说明从视频帧序列选择多个视频连同与所述视频帧中的每一者相关联的显著图及二进制掩模。图4说明多个视频帧可用于在时间上细化掩模以便产生时间显著图。

在图4中所说明的实例中，从视频帧序列选择的视频帧包含第一视频帧402(“帧N”)、第二视频帧404(“帧N+1”)、第三视频帧406(“帧N+2”)及第四视频帧408(“帧N+3”)。第一显著图410与第一视频帧402相关联，第二显著图412与第二视频帧404相关联，第三显著图414与第三视频帧406相关联，且第四显著图416与第四视频帧408相关联。第一二进制掩模418与第一显著图410相关联，第二二进制掩模420与第二显著图412相关联，第三二进制掩模422与第三显著图414相关联，第四二进制掩模424与第四显著图416相关联。

在特定实施例中，第一显著图410可通过帧裁剪连同空间双层分段而产生以产生掩模。举例而言，第一视频帧402(“帧N”)可经裁剪以产生经裁剪图像，且可对经裁剪图像执行空间双层分段以产生掩模，如上文关于图2所描述。在图4的实例中，第一显著图410说明经确定为与第一视频帧402的前景部分(例如，面部)相关联的第一组像素及经确定为与第一视频帧402的背景部分相关联的另一组像素。如图4的实例中所展示，应用第一二进制掩模418的结果为将第一视频帧402的背景部分归零(显现为黑色)。

图4进一步说明在所选择视频帧序列中对第一显著图410的时间细化。在特定实施例中，第二视频帧404(“帧N+1”)可经裁剪以产生第二经裁剪图像，且可对第二经裁剪图像执行空间双层分段以产生初始掩模，如上文关于图2所描述。时间掩模细化可经执行以产生细化掩模，且细化掩模可用于时间显著图产生，如上文关于图2所描述。

在特定实施例中，与第二视频帧404相关联的显著图412可表示基于以下公式产生的时间显著图：

OS_i＝W_o×OS_i-1+(1–W_o)*Mask_i

在上述公式中，OS_i表示与第二视频帧404(“帧N+1”)相关联的显著图412，W_o表示权重因数(例如，在一些状况下为0.95)，OS_i-1表示与第一视频帧402(“帧N”)相关联的显著图410，且Mask_i表示针对第二视频帧404的细化掩模。将高权重(例如，其中W_o＝0.95)应用于前一帧(在此状况下为第一视频帧402)的显著图可允许对象边界的平滑改变。将了解，值0.95及0.05仅出于说明目的且替代值可用于对先前帧及/或细化掩模的显著图加权重。如图4的实例中所展示，应用第二二进制掩模420的结果为归零第二视频帧404的背景部分(显现为黑色)。

第三视频帧406(“帧N+2”)可经裁剪以产生第三经裁剪图像，且可对第三经裁剪图像执行空间双层分段以产生初始掩模，如上文关于图2所描述。时间掩模细化可经执行以产生细化掩模，且细化掩模可用于时间显著图产生，如上文关于图2所描述。

为了说明，与第三视频帧406相关联的显著图414可表示基于以上公式产生的时间显著图：在此状况下，OS_i表示与第三视频帧406(“帧N+2”)相关联的显著图414，W_o表示权重因数(例如，0.95)，OS_i-1表示与上一前视频帧(在此状况下，第二视频帧404)相关联的显著图412，Mask_i表示第三视频帧406的细化掩模。如图4的实例中所展示，应用第三二进制掩模422的结果为将第三视频帧406的背景部分归零(显现为黑色)。

第四视频帧408(“帧N+3”)可经裁剪以产生第四经裁剪图像，且可对第四经裁剪图像执行空间双层分段以产生初始掩模，如上文关于图2所描述。时间掩模细化可经执行以产生细化掩模，且细化掩模可用于时间显著图产生，如上文关于图2所描述。

为了说明，与第四视频帧408相关联的显著图416可表示基于以上公式产生的时间显著图。在此状况下，OS_i表示与第四视频帧408(“帧N+3”)相关联的显著图416，W_o表示权重因数(例如，0.95)，OS_i-1表示与上一前视频帧(在此状况下，第三视频帧406)相关联的显著图414，Mask_i表示第四视频帧408的细化掩模。如图4的实例中所展示，应用第四二进制掩模424的结果为将第四视频帧408的背景部分归零(显现为黑色)。

虽然图4中说明的显著图及二进制掩模显现为相似，但应了解，显著图及二进制掩模逐帧改变(时间细化)。在替代实施例中，为在前景中捕获比仅人的面部多的人以用于特殊效果应用程序，可由用户做出多个选择(例如，不仅面部颜色而且选择夹克颜色、衬衫颜色等)。

参考图5，说明将显著图及相关联二进制掩模应用于视频帧序列的方法的特定说明性实施例且大体将其指定为500。图5说明从视频帧序列选择多个视频帧连同与所述视频帧中的每一者相关联的显著图及二进制掩模。图5用包含复杂背景的视频帧序列说明本发明的系统的性能。在图5的说明性实例中，吉他表示在前景中显现的关注对象。

在图5中所说明的实例中，从视频帧序列选择的视频帧包含第一视频帧502(“帧N”)、第二视频帧504(“帧N+3”)、第三视频帧506(“帧N+5”)及第四视频帧408(“帧N+9”)。第一显著图510与第一视频帧502相关联，第二显著图512与第二视频帧504相关联，第三显著图514与第三视频帧506相关联，且第四显著图516与第四视频帧508相关联。第一二进制掩模518与第一显著图510相关联，第二二进制掩模520与第二显著图512相关联，第三二进制掩模522与第三显著图514相关联，第四二进制掩模524与第四显著图516相关联。

在特定实施例中，显著图510、512、514及516中的每一者可通过帧裁剪连同空间双层分段而产生以产生掩模。为了说明，个别视频帧502、504、506及508可经裁剪以产生经裁剪图像，且可对经裁剪图像执行空间双层分段以产生初始掩模，如上文关于图2所描述。可执行时间掩模细化以产生细化掩模，且细化掩模可用于时间显著图产生，如上文关于图2所描述。

在图5的实例中，显著图510、512、514及516中的每一者说明第一像素组经确定为与特定视频帧的前景部分(例如，吉他)相关联且另一像素组经确定为与特定视频帧的背景部分相关联。如图5的实例中所展示，应用个别二进制掩模518、520、522及524的结果为将特定视频帧的背景部分归零(显现为黑色)。

参考图6，说明将显著图及相关联二进制掩模应用于视频帧序列的方法的特定说明性实施例且大体将其指定为600。图6说明从视频帧序列选择两个说明性视频帧连同与所述视频帧中的每一者相关联的显著图及二进制掩模。图6用包含关注对象的部分遮挡的视频帧序列说明本发明的系统的性能。

在图6的实例中，关注对象包含面部，且面部由于人移动到树的后面而已被部分遮蔽。图6说明虽然面部已部分遮蔽，但本发明的系统可仍产生与遮挡之前的面部一致的显著图。虽然树可能在对象边界框中显现，但系统可仍识别正跟踪的对象。

在图6中所说明的实例中，从视频帧序列选择的视频帧包含第一视频帧602(“帧N”)及第二视频帧604(“帧N+X”)。第一显著图606与第一视频帧602相关联，且第二显著图608与第二视频帧604相关联。第一二进制掩模610与第一显著图606相关联，且第二二进制掩模612与第二显著图608相关联。

在特定实施例中，第一显著图606及第二显著图608可通过帧裁剪连同空间双层分段来产生以产生掩模。为了说明，个别视频帧602及604可经裁剪以产生经裁剪图像，且可对经裁剪图像执行空间双层分段以产生初始掩模，如上文关于图2所描述。可执行时间掩模细化以产生细化掩模，且细化掩模可用于时间显著图产生，如上文关于图2所描述。

在图6的实例中，第一显著图606及第二显著图608说明第一像素组经确定为与特定视频帧的前景部分(例如，被树部分地遮蔽的面部)相关联且另一像素组经确定为与特定视频帧的背景部分相关联。如图6的实例中所展示，应用个别二进制掩模610及612的结果为将特定视频帧的背景部分归零(显现为黑色)。

参考图7A及7B，说明可利用时间显著图的特殊效果应用程序的两个说明性实例且大体将其指定为700。

图7A说明来自“散景效果”特殊效果应用程序的实例视频帧702，其中奔跑的孩子作为前景关注对象。如图7A中所展示，与奔跑的孩子(前景关注对象)相关联的图像的部分为清晰的，而图像的剩余部分离焦(例如，模糊)。进一步，在一些状况下，模糊的量可在清晰区离焦区之间转变中逐渐增加(例如，基于灰度时间显著图中的0与255之间的值)。

图7B说明来自“黑白效果”特殊效果应用程序的实例视频帧704，其中人的面部作为前景关注对象。如图7B中所展示，与人的面部相关联的图像的部分以彩色显现，而图像的其余部分以黑白显现。进一步，在一些状况下，在彩色区黑白区之间可发生逐渐转变(例如，基于灰度时间显著图中介于0与255之间的值)。

参考图8，说明产生时间显著图的方法的特定说明性实施例且大体将其指定为800。

方法800包含：在802处，从相机接收视频帧。方法800进一步包含：在804处，从对象跟踪器接收对象边界框。举例来说，参考图2，可从对象跟踪器122接收对象边界框204，且可从相机104接收视频帧。在一些状况下，对象跟踪器122可包含“触摸跟踪”或T2T跟踪器，其可经配置以响应于用户输入(例如，单个触摸输入)产生对象边界框204。在一些状况下，接收对象边界框可包含：接收指示框的数据，诸如坐标、维度等。

方法800包含：在806处，至少部分地基于与特定视频帧相关联的对象边界框而裁剪从相机接收的特定视频帧以产生经裁剪图像。举例来说，参考图2，可执行帧裁剪206以产生经裁剪图像208。在一些状况下，帧裁剪206可包含：确定与对象边界框204相关联的特定视频帧的部分并使对象边界框204的大小增加以产生经扩展对象边界框210。作为说明性而非限制性实例，帧裁剪206可包含使对象边界框204的大小从中点在X方向及Y方向上增加30％并通过确定在经扩展对象边界框210内的特定视频帧的像素来产生经裁剪图像208。

方法800进一步包含：在808处，对来自特定视频帧的经裁剪图像执行空间双分段以产生初始掩模。例如，参考图2，可对经裁剪图像208执行空间双分段216以产生初始掩模218。方法800包含：在810处，对初始掩模执行时间掩模细化以产生细化掩模。例如，参考图2，可对初始掩模218执行时间掩模细化220以产生细化掩模222。

方法800进一步包含：在812处，至少部分地基于细化掩模而产生时间显著图。例如，参考图2，时间显著图产生226可包含至少部分地基于细化掩模222而产生显著图228。

本文中所列举的各种条款可呈现本发明中所描述的技术的各种方面。

条款146516-1A：一种设备，其包括：处理器；对象跟踪器组件，其可由所述处理器执行以产生与对象边界框相关联的信息；帧裁剪组件，其可由所述处理器执行以至少部分地基于与所述对象边界框相关联的所述信息而裁剪视频帧以产生经裁剪图像；分段组件，其可由所述处理器执行以对所述经裁剪图像执行空间多层分段以产生初始掩模；掩模细化组件，其可由所述处理器执行以对所述初始掩模执行时间掩模细化以产生细化掩模；及时间显著图产生组件，其可由所述处理器执行以至少部分地基于所述细化掩模而产生时间显著图。

参考图9，说明通过执行空间双分段来产生对象掩模的方法的特定说明性实施例且大体将其指定为900。

方法900包含：在902处，从相机接收视频帧。方法900进一步包含：在904处，从对象跟踪器接收对象边界框。例如，参考图2，可从对象跟踪器122接收对象边界框204，且可从相机104接收视频帧。方法900包含：在906处，至少部分地基于与特定视频帧相关联的对象边界框而裁剪从相机接收的特定视频帧以产生经裁剪图像。例如，参考图2，可执行帧裁剪206以产生经裁剪图像208。

方法900进一步包含：在908处，对来自特定视频帧的经裁剪图像执行空间双分段。例如，参考图2，可对经裁剪图像208执行空间双分段216。在图9中所说明的特定实施例中，空间双分段包含：基于第一组种子点对第一层执行区生长分段(在910处)，及基于第二组种子点对第二层执行区生长分段(在912处)。

作为说明性实例，参考图2，第一层可使用经裁剪边界(例如，矩形经扩展对象边界框210)作为生长到内部的区的种子点，而第二层可使用减少大小边界(例如，大小减少三分之二)作为生长到外侧的种子点。也就是说，空间双分段216可包含从经扩展对象边界框210向内生长的区以及从减少大小边界向外生长的区。

方法900进一步包含：在914处，将第一层上区生长分段的结果与第二层上的区生长分段的结果融合以产生对象掩模。例如，参考图2，可通过融合于两个层相关联的区生长的结果来产生初始掩模218。

可使用多个层来将视频帧的前景部分与视频帧的背景部分分离。也就是说，第一层可表示背景部分，且区生长可包含对象边界框内部的“生长”。即，对第一层执行的区生长分段可用于通过识别背景像素以移除来使对象边界框缩小。第二层可表示前景部分。使对象边界框初始缩小(例如，三分之二)且接着执行区生长分段可识别前景像素。当融合两个层的区生长分段的结果时，可存在经包含在两个层中的重叠像素。即，融合结果可不清楚关于一些像素是与前景部分还是背景部分相关联。因此，在一些实施例中，在融合结果时，可将优先级赋予第二(前景)层。

虽然图9说明其中使用两个层的特定实施例，但应了解在替代实施例中，可使用多于两个层。作为说明性而非限制性实例，可使用两个对象跟踪器来跟踪两个不同对象(例如，一个对象跟踪器用于汽车比赛中的红色汽车且另一对象跟踪器用于绿色汽车)。在此实例中，可存在各自表示视频帧的不同前景部分(例如，“红色汽车”前景层及“绿色汽车”前景层)及一个背景层的两个对象。

条款146516-1B：一种方法，其包括：从相机接收一或多个视频帧；从对象跟踪器接收对象边界；至少部分地基于与所述特定视频帧相关联的所述对象边界框裁剪从所述相机接收的特定视频帧以产生经裁剪图像；对来自该特定视频帧的该经裁剪图像执行空间双分段；及融合该空间双分段的结果以产生对象掩模。

参考图10，说明将时间显著图作为反馈提供到对象跟踪器的方法的特定说明性实施例且大体将其指定为1000。

方法1000包含：在1002处，从相机接收视频帧。方法1000进一步包含：在1004处，从对象跟踪器接收对象边界框。例如，参考图2，可从对象跟踪器122接收对象边界框204，且可从相机104接收视频帧。方法1000包含：在1006处，至少部分地基于与特定视频帧相关联的对象边界框而裁剪从相机接收的特定视频帧以产生经裁剪图像。例如，参考图2，可执行帧裁剪206以产生经裁剪图像208。

方法1000进一步包含：在1008处，对来自特定视频帧的经裁剪图像执行空间双分段以产生初始掩模。例如，参考图2，可对经裁剪图像208执行空间双分段216以产生初始掩模218。方法1000包含：在1010处，对初始掩模执行时间掩模细化以产生细化掩模。例如，参考图2，可对初始掩模218执行时间掩模细化220以产生细化掩模222。方法1000进一步包含：在1012处，至少部分地基于细化掩模而产生时间显著图，例如，参考图2，时间显著图产生226可包含至少部分地基于细化掩模222而产生显著图228。

在图10中所说明的特定实施例中，方法1000进一步包含：在1014处，将时间显著图作为反馈提供到对象跟踪器。例如，参考图3，可将显著图228作为输入提供到对象跟踪器122。在一些状况下，可通过应用显著图228以将图像的包含关注对象的前景部分与图像的背景部分分离来增强NCC验证组件308及310两者，从而可能产生较高跟踪准确度。为了说明，NCC验证组件308及310两者可通常使用边界框内部的所有像素来补偿。显著图228可用于减小用于补偿目的的边界框内部的像素的数目，从而可能产生更稳健物件跟踪。

条款146516-1C：一种设备，其包括：处理器；对象跟踪器组件，其可由所述处理器执行以产生与对象边界框相关联的信息；分段组件，其可由所述处理器执行以对视频帧的部分执行空间双层分段以产生初始掩模，其中至少部分地基于与所述对象边界框相关联的所述信息而确定所述视频帧的所述部分的边界；掩模细化组件，其可由所述处理器执行以对所述初始掩模执行时间掩模细化以产生细化掩模；及时间显著图产生组件，其可由所述处理器执行以：至少部分地基于所述细化掩模而产生时间显著图；并将时间显著图作为反馈提供到所述对象跟踪器组件。

参考图11，说明产生供特殊效果应用程序使用的时间显著图的方法的特定说明性实施例且大体将其指定为1100。

方法1100包含：在1102处，从相机接收视频帧。方法1100进一步包含：在1104处，从对象跟踪器接收对象边界框。例如，参考图2，可从对象跟踪器122接收对象边界框204，且可从相机104接收视频帧。方法1100包含：在1106处，至少部分地基于与特定视频帧相关联的对象边界框而裁剪从相机接收的特定视频帧以产生经裁剪图像。例如，参考图2，可执行帧裁剪206以产生经裁剪图像208。

方法1100进一步包含：在1108处，对来自特定视频帧的经裁剪图像执行空间双分段以产生初始掩模。例如，参考图2，可对经裁剪图像208执行空间双分段216以产生初始掩模218。方法1100包含：在1110处，对初始掩模执行时间掩模细化以产生细化掩模。例如，参考图2，可对初始掩模218执行时间掩模细化220以产生细化掩模222。方法1100进一步包含：在1112处，至少部分地基于细化掩模而产生时间显著图，例如，参考图2，时间显著图产生226可包含至少部分地基于细化掩模222而产生显著图228。

在图11中所说明的特定实施例中，方法1100进一步包含：在1114处，将时间显著图用于特殊效果应用程序。例如，图7A说明可将时间显著图用于应用散景效果以便将图像的部分呈现为清晰(例如，奔跑的孩子)同时将图像的其余部分呈现为离焦的特殊效果应用程序。作为另一实例，图7B说明可将时间显著图用于应用黑白效果以便以彩色呈现图形的部分(例如，面部)同时以黑白呈现图形的其余部分的另一特殊效果应用程序。

条款146516-1D：一种方法，其包括：从相机接收一或多个视频帧；从对象跟踪器接收对象边界；至少部分地基于与所述特定视频帧相关联的所述对象边界框裁剪从所述相机接收的特定视频帧以产生经裁剪图像；对来自所述特定视频帧的所述经裁剪图像执行空间双分段以产生初始掩模；对所述初始掩模执行时间掩模细化以产生细化掩模；至少部分地基于所述细化掩模而产生时间显著图；及将所述时间显著图用于特殊效果应用程序。

应注意，本文中所描述的条款可基于本发明的额外概念而扩展以形成额外条款。例如，条款146516-1A可经扩展以形成条款146516-2A：条款146516-1A的设备，其中空间多层分段包含空间双层分段。作为另一实例，条款146516-1B可经扩展以形成条款146516-2B：条款146516-1B的方法，其中执行空间双分段包括：基于第一组种子点而对第一层执行区生长分段及基于第二组种子点而对第二层执行区生长分段，其中将所述第一层上的所述区生长分段的结果与所述第二层上的所述区生长分段的结果融合以产生所述对象掩模。

针对各种条款中的每一者，应理解，设备或装置可执行方法或以其它方式包含用以执行本文中所描述的一或多种方法的一或多个步骤的装置。在一些例子中，这些装置可包含一或多个处理器。在一些例子中，一或多个处理器可表示通过存储在非暂时性计算机可读存储媒体中的指令而配置的专用处理器。换句话说，技术的各种方面可提供非暂时性计算机可读存储媒体，其上存储有指令，所述指令在被执行时致使一或多个处理器执行设备或装置已经配置以执行的方法中的任何一或多者的一或多个步骤。因此，详述设备、方法或非暂时性计算机可读存储媒体中的一者的条款可用于导出详述设备、方法或非暂时性计算器可读存储媒体中的另一者的等效条款。可从本文中的条款导出关于如上文所例示的各种设备或装置、方法及非暂时性计算机可读存储媒体的各种条款。可针对贯穿本发明所列出的各种其它条款执行相同情况。

在特定实施例中，图8到11的方法800到1100可经由处理单元(例如，中央处理单元(CPU)、数字信号处理器(DSP)或控制器)的硬件实施(例如，场可编程门阵列(FPGA)装置、专用集成电路(ASIC)，等)、经由固件装置，或其任何组合实施。作为实例，图8到11的方法800到1100可由执行指令的处理器的执行，如关于图12所描述。

参考图12，描绘包含用以产生时间显著图(例如，供特殊效果应用程序使用)的逻辑的电子装置的特定说明性实施例的框图且大体将其指定为1200。装置1200包含耦接到存储器1232且还耦接到相机控制器1282的处理器1210，例如，中央处理器单元(CPU)。相机控制器1282耦接到相机1280。在说明性实例中，相机1280包含图1的相机104。

图12还展示耦接到处理器1210及显示器1228的显示控制器1226。显示控制器1226可对应于图1的输出介面106。编码/解码器(CODEC)1234还可耦接到处理器1210。扬声器1236及麦克风1238可耦接到CODEC 1234。

图12还指示无线控制器1240可耦接到处理器1210及天线1242。无线控制器1240可对应于图1中所描绘的网络接口116。在特定实施例中，处理器1210、显示控制器1226、存储器1232、CODEC 1234、无线控制器1240及相机控制器1282经包含在系统级封装或单片系统装置1222中。在特定实施例中，输入装置1230及电力供应器1244耦接到单片系统装置1222。输入装置1230可对应于图1的输入接口108。此外，在特定实施例中，如图12中所说明，显示器1228、输入装置1230、扬声器1236、麦克风1238、相机1280、天线1242，及电力供应器1244在单片系统装置1222外部。然而，显示器1228、输入装置1230、扬声器1236、麦克风1238、相机1280、天线1242及电力供应器1244中的每一者可耦接到单片系统装置1222的组件，例如接口或控制器。

在图12中所说明的实例中，存储器1232包含(例如，处理器可执行指令对应于)对象跟踪器组件122、帧裁剪组件124、分段组件126、掩模细化组件128，及时间显著图产生组件130，如上文关于图1所描述。在替代实施例中，可使用硬体(例如，在处理器1210中)实施组件122到130中的一或多者的全部或部分。

此外，所属领域的技术人员将进一步了解，结合本文中所揭示的实施例所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由处理器执行的计算机软件或两者的组合。各种说明性组件、块、配置、模块、电路及步骤已在上文大体就其功能方面加以描述。此功能性是实施为硬件还是处理器可执行指令取决于强加于整个系统的特定应用及设计约束。虽然所属领域的技术人员可针对每一特定应用以变化方式实施所描述功能性，但不应将此些实施方案决策解释为导致对本发明的范围的脱离。

结合本文中的揭示实施例所描述的方法或算法的步骤可直接以硬件、由处理器执行的软件模块或两者的组合体现。软件模块可驻留于随机存取存储器(RAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可拆卸磁盘、光盘只读存储器(CD-ROM)或此项技术中已知的任一其它形式的非暂时(例如，非暂时性)存储媒体中。例示性存储媒体耦接到处理器使得处理器可从存储媒体读取信息及将信息写入到至存储媒体。在替代方案中，所述存储媒体可与处理器成整体。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留于计算装置或用户终端中。

所揭示实施例的先前描述经提供以使得所属领域的技术人员能够制作或使用所揭示实施例。在不脱离本发明的范围的情况下，对这些实施例的各种修改对于所属领域的技术人员来说将易于显而易见，且本文中所定义的原理可应用于其它实施例。因此，本发明并不意欲被限制于本文中所展示的实施例，而意欲赋予其与如以下权利要求书定义的原理及新颖特征可能一致的最广泛范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟昕;孙宇;高大山
技术所有人：高通股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。