用来处理视频数据的装置和方法

文档序号:7677860阅读:596来源:国知局
专利名称:用来处理视频数据的装置和方法
用来处理^L频数据的装置和方法相关申请这份申请是2006年6月8日申请的美国临时申请第60/811,890 号的部分继续申请并且要求其利益。上述申请的全部教导在此通 过引证被并入。发明领域本发明一般地涉及数字信号处理领域,更具体地-说涉及用于 信号或图 <象数据(具体地说, 一见频数据)的有效表达和处理的计算才几装置和计算才几实iE见方法。
技术背景本发明驻留其中的现有4支术通用系统描述能用

图1表示。在这里方框图显示典型的现有4支术^L频处理系统。这样的系统通常 包括下列几级输入级102、处理级104、输出级106和一个或多 个数据储存机制108。输入级102可以包括若干元素,例如,照相才几敏感元件,照 相才几敏感元件阵列、测距每丈感元件或从储存机制取回凄t据的装 置。输入级提供表达人造的和/或自然发生的现象的时间相关序列 的视频数据。该数据的显著成份可能被噪音或其它不想要的信号 掩盖或污染。视频数据可以依照预先定义的转移协议以数据流、阵列或数处理级104。处理级104可以采用专用才莫拟或凄t字器件或可编程器 件(例如,中央处理器(CPU)、 ft字信号处理器(DSP)或现场可编 程门阵列(FPGA))的形式来执行所需要的 一 组视频数据处理操 作。处理级104通常包括一个或多个CODEC(编码/解码器)。输出级106产生能够影响使用者或外部装置的信号、显示或 其它响应。通常,输出器件用来产生指示信号、显示、硬拷贝、 处理过的数据在存々者器中的表达,或开始数据向远程站点的传 输。它也可以用来提供在后面的处理操作中使用的中间信号或控 制参数。存储器在这个系统中是作为非必选元素出现的。在使用时, 储存元素108可以是非易失的,例如,只读储存媒体,或易失的, 例如,动态随机存取储存器(RAM)。单一的视频处理系统包括若 干种储存元素并非是罕见的,这些元素对输入级、处理级和输出 级有各种不同的关系。这样储存元素的例子包括输入緩沖器,输 出緩沖器和处理高速緩冲存储器。图1所示^L频处理系统的主要目的是处理输入数据,产生对 于特定的应用具有显著意义的l俞出。为了实现这个目标,可以利 用多种处理操作,包括减少或消除噪音、特征提取、对象拆分和 /或规范化、数据分类、事件4企测、编辑、数据选择、数据重新编 码和^码变4灸。产生受不良约束的数据的许多数据来源(尤其是声音和可视 图像)对人是重要的。在大多数情况下,这些来源信号的基本特 征对有效数据处理的目标有不利的影响。来源翁:据固有的易变性 是在不引进起因于在推导工程假定中使用的未试过的经-验的和:探索性的方法的误差的情况下以可靠且有效的方式处理凄t据的 障碍。这种易变性对于某些应用当输入数据净皮自然地或故意地限 制在定义狭窄的特征组(例如, 一 组有限的符号值或狭窄的带宽) 之中的时候被减轻。这些限制时常导致商业价值低的处理技术。信号处理系统的i殳计受该系统的预期用途和作为llr入4吏用 的来源信号的预期特征的影响。在大多凄t情况下,所需的完成效 率也将是重要的设计因素。完成效率依次与可用的数据储存器相 比较受待处理的数据量的影响以及与可得的计算能力相比较受 该应用程序的计算复杂性的影响。传统的一见频处理方法遭受许多低效率性质的损害,这些^f氐效 率性质是以数据通信速度慢、存储需求大和干扰感性假象的形式 出现的。这些可能是严重的问题,因为人们希望使用多种方法操 纵视频数据和人们对某些形式的可视信息有先天的敏感性。"最佳的"视频处理系统在完成一组预期的处理操作方面是 高效率的、可靠的和强健的。这样的纟喿作可能包括数据的4诸存、 传输、显示、压缩、编辑、加密、增强、分类、特征检测和确认。 二次#:作可能包括这样处理过的数据与其它信息来源的整合。在 一见频处理系统的情况下同等重要的是输出应该通过避免知觉*支 象的引进与人类一见觉相容。如果视频处理系统的速度、效率和质量不强烈地取决于输入 凄史据的4壬何特定特征的细节,该-现频处理系统可以-故描述为"强 健的"。强健也与在某些输入出现错误的时候完成操作的能力有 关。许多#见频处理系统不够强<老,不足以考虑到应用的一4殳类别, 仅^又适用于该系统研发时^f吏用的同样受狭窄限制的数据。显著信息可能由于输入元素的抽样速率与测知现象的信号特性不匹配在连续取值的数据来源的离散化中丟失。另外,当信 号强度超过传感器极限从而导致饱和的时候也存在遗失。同样, 当输入数据的精度下降的时候数据也会遗失,这在输入数据的完 整的数值范围用 一组离散数值表达,借此降低数据表达的精度的 时候发生在任何量化程序中。'总体易变性指的是一 类数据或信息来源的任何无法预测性。 因为视觉信息通常不受限制,所以代表视觉信息特征的数据有非 常大的总体易变性程度。视觉数据可以表达任何由于光线入射在 每丈感元件阵列上所形成的空间阵列序列或时间空间的序列。在仿制纟见觉现象时,纟见频处理器通常把一些限制i殳定和/或结 构强加在表达或解释数据方式上。结果,这样的方法可能引进将 会影响输出质量、可能用来考虑输出的置信水平和能对该数据可 靠地完成的后续处理工作的类型的系统i吴差。一些量化方法在试图保有那个数据的统计学变化的时候降 低视频画面的数据精度。通常,视频数据是这样分析的,以致数据值的分布纟皮收集到积克率分布之中。也有一些方法把^:据映射到 相空间之中,以便将数据的特色表示为空间频率的混合,借此允 许精度下降以较少引起反对的方式扩散。这些量化方法在被大量 地利用时往往导致知觉上难以相信的颜色和能在该S见频画面原 本平滑的区域中引起突然的怪异状态。差分编码通常也用来利用数据的局部空间相似性。在该画面 的 一 个部分中的翁:据倾向于聚集在那个画面的相似翁:才居周围和 后续画面中的相似位置。然后,该数据能根据它空间上毗连的数 据与量化组合,而最终结果是对于给定的准确性表达差分比使用 凄t据的绝对值更精确。这个,i定在原始^L频数据的光^普分辨率有 限的时候(例如,在黑白图{象或颜色少的图<象中)4艮好地工作。随着图像的光谱分辨率逐渐增加,相似性假定被严重破坏。这种破 坏是由于无法有选择地保护视频数据精度造成的。残差编码与差分编码类似,因为这种表达的误差一皮进一步差 分编码,以便把原始数据的精度恢复到预期的准确性水平。这些方法的变化尝试把视频数据变换成按空间相位和刻度 暴露数据相关关系的替代表达。 一旦视频数据已经以这些方式完 成变换,量化和差分编码的方法就能适用于变换后的数据,乂人而 导致增加显著图像特征的保存。这些变换视频压缩技术中最普遍的两种是离散余弦变换(DCT)和离散子波变换(DWT) 。 DCT变换 的误差出现在视频数据数值的广泛变化方面,所以,DCT通常被 用在一见频数据的区,爻上,为的是^f吏这些4普误的相关关系定位。来 自这种定位的假象往往沿着这些区段的边界出现。就DWT而言, 更复杂的假象在基础函数和某些紋理之间有误配的时候发生,而 且这引起才莫糊效应。为了坤氐消DCT和DWT的负面效应,4是高表达 的准确性以以宝贵的带宽为代i <介减少失真。发明内容本发明是一种在计算和分析两个方面均优于现有顶级纟支术 的方法的计算才几实现的#见频处理方法。原则上本发明的方法是线 性分解法,空间拆分法和空间规范化法的整合。从空间上限制视 频数据大大提高线性分解法的强健性和适用性。此外,与空间规 范化相对应的数据空间拆分能进一步用来增加单独来源于空间 头见范化的利益。具体地说,本发明提供 一 种能有效地把信号数据处理成 一 个 或多个有益的表达的方法。本发明在处理许多普遍发生的邀:据组 时是有效的而且在处理^L频和图^f象lt据时是特别有效的。本发明的方法分析数据并且才是供那个数据的 一种或多种简洁表达以佳: 它的处理和编码变得容易。对于许多应用(包括但不限于视频数据的编码、压缩、传输、分析、储存和显示),每种新的比较 简洁的数据表达都允许减少计算处理、传输带宽和储存需求。本发明包括用来识別和换:取^1频#:据的显著成<分的方法,乂人而允许区分数据的处理和表达的优先次序。信号中的噪音和其它 多余部分被看作是优先权比较低的,所以进一 步处理能集中在分 析和表达视频信号中优先权比较高的部分上。结果,视频信号的 表达比先前可能的表达更简洁。而且4巴准确性的损失集中在3见频 信号中知觉上不重要的部分。在一个实施方案中,PCA(主成分分析)或类似的线性分解被 用于特定对象(例如,脸部)的检测和该对象的局部变形。PCA进 一步充当该规范化视频数据的经验变换,表达对象外观。在显著 对象拆分之后,该规范化方法跟踪某二维网孔并允许该网孔变 形。来自不同画面的对象外7见是沿着一个平面失见范化的。在一个实施方案中,Proxy Wavelet CompressoH皮用于乂十象朝L 频数据的逐级基础编码。本发明的方法压缩感兴趣的视频数据的 训练画面和身见范4b画面。附图i兌明上述内容通过下面用附图举例说明的本发明的示范实施方 案的更具体的描述将变得显而易见,在这些附图中相似的参考符 号表示遍及不同S见图的同一部分。这些附图不必依比例症会制,而 是改为把重点放在举例说明本发明的实施方案上。图1是举例说明现有技术视频处理系统的方框图。的方框图,展示用来处理影-像的主 要模块。图3是举例说明本发明的运动评估方法的方框图。图4是举例说明本发明的整体配准方法的方框图。图5是举例说明本发明的身见范化方法的方框图。图6是举例i兌明混合式空间失见范化压缩方法的方冲匡图。图7是举例说明本发明在局部》见范化中使用的网孔生成方法 的方一医图。范化方法的方才匡图。图9是举例it明本发明的组合式整体和局部*见范化方法的方框图。图10是本发明的实施方案在其中工作的计算机环境的示意图。图11是图10所示网全各中的计算4几的方4匡图。图12是举例说明背景分辨方法的方框图。图13是举例说明本发明的对象拆分方法的方框图。图14是举例说明本发明的对象插值方法的方框图。图15是本发明的自适应递增建^t程序的方框图。1具体实施例方式
本发明的范例实施方案描述如下。在视频信号数据中,视频 画面被组装成通常描绘投影到二维成像表面上成像的三维情景 的图像序列。每个画面(或图像)都由代表响应抽样信号的成像敏 感元件的象素组成。时常,抽才羊信号对应于一皮二维每丈感元件阵列 抽样的一些反射的、折射的或发射的能量(例如,电磁能、声能 等)。连续的顺序4由才羊导致时空凄t据流,每个画面的两个空间维
度和一个时间维度乂于应于该画面在一见频序列中的;欠序。
本发明如同图2举例说明的那样分析信号数据和识别显著成 份。当信号由视频数据组成的时候,时空流分析揭示时常作为特 定对象(例如,脸部)的显著成4分。识别禾呈序限定该显著成〗分的存 在和重要性并且选4奪在那些^皮限定的显著成^f分之中最重要的一 个或多个显著成^f分。这不限制在现在描述的处理之后或同时识别 和处理其它显著性较低的成份。然后,上述的显著成份净皮进一步 分析,以便识别易变的和不变的子成〗分。不变的子成4分的识别是 给该成份的某个方面建模的程序,借此揭示允许将该成份合成到 预期的准确性水平的模型参数表达法。
在本发明的一个实施方案中,才企测和^艮i 宗前景对象。该对象 的象素被识别并且被从每个视频画面中拆分出来。基于区段的运 动评估被应用于在多个画面中拆分出来的对象。然后,这些运动 评估结果被整合成高阶运动模型。该运动模型用来把该对象的例 i正隐藏到/^用的空间配置中。对于特定的婆:据,在这个配置中, 该对象更多的特;f正^皮对准。这种》见范化允许在待紧凑地表达的多 个画面上对象象素的数值的线性分解。属于对象外观的显著信息 被包含在这个紧凑表达之中。
本发明的优选实施方案详细描述前景^L频对象的线性分解。该对象是按空间规范化的,借此得出紧凑的线性外观模型。此外,
进一步优选的实施方案在空间规范化之前先把前景对象/人;現频 画面的背景中拆分出来。
本发明的优选实施方案将本发明应用于一个人对着才聂^f象才几 边说话边进行少量运动的影4象。
本发明的优选实施方案将本发明应用于影^象中能通过空间 转换很好地表达的任何对象。
本发明的优选实施方案明确地使用基于区段的运动评估来 确定两个或多个#见频画面之间的有限差分。为了提供更有效的线 性分解,高阶运动模型是依据那些有限差分因式分解的。
检测&跟踪(C1)
技术上已知的是检测画面中的某个对象并在预定数目的后 续画面中跟踪那个对象。Viola/Jones: P. Viola和M. Jones发表在 关于可视图像的统计和计算理论一建模、学习、计算和抽样的第 二届国际研i寸会会i义录(Proc. 2nd Int'l Workshop on Statistical and Computational Theories of Vision画Modeling, Learning, Computing and Sampling)(加拿大,温哥华,2001年7月)中的"Robust Real-time Object Detection"在能用来实现对象4企测功能的算法和禾呈序之 中。同样,有许多算法和程序能用来在连续的画面中跟踪^皮;险对 象。例子包4舌C. Edwards、 C. Taylor和T. Cootes发表在Proc. Int'l Conf. Auto. Face and Gesture Recognition(1998年),260-265页中 的 "Learning to identify and track faces in an image sequence"。
对象4企测程序的结果是一个数据组,该凄t据组详细i兌明对象 中心在画面中的 一般位置和关于对象比例(大小)的指示。跟踪程序的结果是一个数据组,该数据组代表该对象的时间标签并保证
在连续的画面中#r测到的对象是同 一对象的一既率达到特定水平。
对象4企测和3艮踪算法可能适用于画面中的单一对象或画面 中的两个或多个对象。
人们还知道在 一组连续的画面中跟踪^皮4企对象的 一 个或多 个特征。举例来说,如果对象是人的脸部,该特征可能是眼睛或 鼻子。在一种技术中,特征是用"线"的交叉点表示的,该交叉 点能被宽松地描述为"拐角"。优选的是将强壮的并且在空间上 彼此完全不同的"拐角,,选作特征。这些特征可以通过空间亮度 场梯,变分析来识别。^吏用光学流的分层多分辨率评估允i午确定那 些特征在连续画面中的平移位移。M. J. Black和Y. Yacoob发表 在1995年6月于马萨诸塞州波士顿市召开的关于计算积"殳想的国 际会i义的会i义录的第374-381页中的"Tracking and recognizing rigid and non-rigid facial motions using local parametric models of image motions"是使用这项4支术跟踪特征的算法的一个例子。
一旦已经确定信号的显著构成成^f分,就可以保留这些成4分, 而且可以减少或除去所有其它的信号成〗分。4企测显著成^f分的程序 展示在图2,其中视频画面202是用 一个或多个检测对象206,208 程序处理的,乂人而导致 一 个或多个#1识别并且随后#皮3艮踪的对 象。保留成份(被识别的对象)代表该-现频数据的一种中间形式。 然后,这个中间数据能使用对于现有的^L频处理方法通常不可得 的技术编码。因为该中间数据以几种形式存在,所以标准的朝L频 编码:技术也能用来给这些中间形式中的几种形式编码。对于每个 例证,本发明都先确定然后使用最有效的编码技术。
在一个优选实施方案中,显著特征分析程序完成显著信号模 式的4全测和分类。这个程序的一个实施方案<吏用为产生强度与#见频画面中被检对象显著特征有关的响应信号专门设计的空间过 滤器的组合。以不同的空间刻度在4见频画面的不同位置应用该分 类程序。来自该分类程序的响应的强度指出显著信号模式出现的 或然率。在:fc中心置于十分显著的对象上的时候,该程序用对应
的强烈响应给它分类。显著信号才莫式的4企测通过激活对该纟见频序 列中显著信息的后续处理和分析来辨别本发明。
给出显著信号才莫式在一个或多个视频画面中的4企测位置,本 发明分析显著信号才莫式的无变化特征。此外,对于无变化特征, 本发明分析该信号的残值,"较少显著的"信号模式。无变化特 征的识别提供用来减少冗余信息和拆分(即,分离)信号模式的基础。
特;f正点跟踪(C7)
在本发明一个实施方案中, 一个或多个画面中的空间位置是 通过空间强度场梯度分析确定的。这些特征对应于"一些线"的 一些交点,这些交点能净皮宽爭^地描述为"拐角"。这样的实施方 案进一步选择一组这样的拐角,这些拐角是强壮的而且在空间上 是4皮此完全不同的,在此称之为特征点。此外,^使用光学流的分 层次多分辨率评估允许确定特征点随着时间流逝的平移位移。
在图2中,展示把来自才企测对象程序206,208的才企测例证和在 许多视频画面202,204上一个或多个^皮才企测对象的特征的进一步 识别对应关系222^立到 一起的跟踪对象220程序。
特征跟踪的非限制性实施方案能被这样使用,以致这些特征 被用来限定更规则的梯度分析法(例如,基于区段的运动评估)。
另 一 个实施方案期待以特4正跟踪为基础的运动评估的预测。基于对象的^r测和跟踪(Cl)
在本发明的 一 个非限制性实施方案中,强健的对象分类程序 -陂用来3艮踪—见频画面中的脸部。这才羊的分类禾呈序以只于已在脸部上 训练过的定向边缘的级联响应为基础。在这个分类程序中,边缘 被定义为 一组基本的Haar特征和那些特征的45度旋转。该级联分 类程序是AdaBoost算法的变伴。此外,响应计算能通过使用总面 积表来优化。
局部配准
配准包4舌在两个或多个—见频画面中#皮识、别只于象的i者元素之 间的对应关系的分配。这些对应关系变成在该-现频萄:据中4要截然 不同的时间点建立一见频lt据之间的空间关系才莫型的基础。
为了根据众所周知的算法和那些算法的富有创造性的派生 算法举例i兌明特定的实施方案和它们与实践相关联的缩减量,玉见 在描述用于本发明的各种不同的非限制性的配准方法。
在时空序列中建立明显的光学流模型的 一 种方法能通过从 两个或多个画面的浮见频凝:据产生有限差分i或来实现。如果该对应 关系在空间和强度双重意义上符合特定的恒定性限制,则光学流 场能被稀疏地评估。如图3所示,画面302或304是可能通过十取 一程序306或一些其它的二次抽样程序(举例来说,低通过滤器) 按空间二次抽样的。这些减少空间的图^f象310,312也能^皮进一步二 次抽样,从而导致,举例来说,画面314,316。
每个抽样/二次抽样水平的画面302、 304、 310、 312、 314、 316都处理以便确定各个画面中被4全对象特征的对应关系。这是 通过才目应的运动"i平4古350、 354、 362、 372禾口予贞测352、 360、 370
20完成的,4妄下来将详细描述图3的步骤。
菱形搜寻
假定把视频画面分割成若干不重叠的区段,该运动评估程序 4叟寻先前的与每个区4殳匹配的-见频画面。以全面4叟寻区^殳为基础
(FSBB)的运动"^N古二找出在先前的一见频画面中与当前画面中的区 段相比较时误差最小的位置。完成FSBB可能是计算费用十分浩 大的,而且往往不产生比以局i或化运动,ii殳为基础的其它^平估方 案更好的匹配。以菱形搜寻区段为基础(DSBB)的梯度下降运动评 估是FSBB的常见的替代品,它使用各种不同尺寸的菱形搜寻图 案朝着对于某个区段最好的匹配的方向反复地横越误差梯度。
在本发明的一个实施方案中,为了产生数值稍后被因式分解 成高阶运动4莫型的有限差分,DSBB^皮用于一个或多个^L频画面 之间的图像梯度域分析。
熟悉这项技术的人知道基于区段的运动评估能被视为规贝'J 网孑L顶点分才斤的等同物。
基于网孔的运动评估
基于网孔的预测使用顶点被边缘连接起来的几何网孔描绘 一见频画面的不连续区域,随后通过受网孔顶点位置控制的变形才莫 型预测后续画面中那些区域的变形和运动。为了预测当前画面, 随着顶点移动,用顶点定义的区域内的象素也是移动的。原始象 素凄K直的相对运动和由此产生的近似是通过一些插4直方法完成 的,这些插值方法将象素位置与邻近那个象素的顶点的位置耳关系 起来。当这样的运动存在于视频信号中的时候,缩放和旋转的附 加建模与纯粹的平移相比较能产生更精确的画面象素预测。通常,网孔模型能被定义为是规则的或自适应的。规则网孔 模型是在不考虑基础信号特性的情况下设计的,而自适应方法尝 试相对于基础视频信号特征按空间安排顶点和边缘。
规则网孔表示法提供 一 种倘若影像中的成像对象有空间间 断点较多地与网孔边缘相对应能用来预测或仿制运动或运动中 的固有变形的方法。
自适应网孔是在实质上比失见则网孔更多地考虑基础一见频信
号的特4i的情况下形成的。此外,这种网孔的自适应性质可以随 着时间逝去考虑到网孔的各种不同的提炼。
为了实现网孔和等同地象素配准,本发明夂使用同种判据调整 顶点搜寻。空间上与异种强度梯度相关联的顶点是先于那些有比 较同种的梯度的顶点完成运动评估的。
在一个实施方案中,网孔的顶点运动评估是通过4十对同等或 近乎同等的同种顶点的运动评估的空间填注另外区分优先次序 的。
在优选实施方案中,最初的网孔空间配置和最后的网孔配置 是通过4吏用标准的图解式填充例行程序用小平面标识符填充映 射图像在小平面水平上相互映射的。与每个三角形相关联的仿射 变换能很快地从变换表中查出,而且在一个网孔中与小平面相关 联的象素位置能快速地转换成在其它网孔中的位置。
在优选的实施方案中,为了评定与每个运动评估匹配相关联 的残留误差针对顶点进4亍初步的运动评估。另外,这个初步的评 估被用来区分顶点运动评估次序的优先次序。这样的残差分析的 好处是与比较少的失真相关联的运动评估将导致维持更看似真实的网孑L拓4卜。
在优选的实施方案中,网孔顶点运动评估^皮依比例缩减到某 个有限范围,而且多种运动评估是通过一些迭^完成的,为的是 允许网孔接近更全面优化的和拓朴正确的解。
在优选的实施方案中,考虑到内插多角形邻域,利用中心在 每个顶点上矩形瓦块邻域使用基于区段的运动评估确定顶点位 移。除了对于误差梯度下降避免象素的空间插值和变形之外,这 项才支术也允许运动评估的平4于计算。
基于相位的运动评估
在现有技术中,基于区段的运动评估通常是作为导致一个或 多个空间匹配的空间4叟寻实现的。基于相位的^见范4匕的互相关
(PNCC)如同图3举例说明的那样把来自当前画面304,312,316和先 前画面302,310,314的区^:变换到"相空间,,中,并且寻找那两个 区段的互相关。这种互相关被表达为位置与两个区4殳之间的边缘 "相移"相对应的数值域。这些位置通过定阈值被隔离,然后被 逆变换成空间坐标。这些空间坐标是截然不同的边續_位移,而且 对应于运动矢量。PNCC的优势包括在^L频流中预留增益/曝光调 节的允差的对比度遮掩。另外,PNCC允许来自单一步骤的结果, 该单 一 步骤或许依据以空间为基础的运动评估程序进4亍许多迭 代。此外,运动评估350,354,362,372是子象素精确的。
本发明的一个实施方案在一个或多个^L频画面之间的图^f象 梯度域的分析中利用PNCC ,为的是产生其数值随后被因式分解 成高阶运动才莫型的有限差分(在352,360,370)。 一旦对象特4正对应 关系被识别222,对应关系模型就如同接下来讨论的那样被作出 224。整体配准
在优选实施方案中,本发明7吏用在两个或多个视频画面中被 检对象的对应元素之间的关系产生对应关系^^莫型(224,图2)。通过 因式分解来自有限差分评估域的一个或多个线性模型分析这些 关系。术语"域"指的是每个有空间位置的有限差分。这些有限 差分可能是在检测&跟踪段落所描述的完全不同的视频画面中对 应对象特征的平移位移。发生这才羊的抽样的域在此^皮称为有限差
分的一般总体。所描述的方法4吏用与文献"M. A. Fischler, R. C. Bolles. 'Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography', Comm. of the ACM, Vol 24, pp 381-395, 1981"所描述的RANSAC
算法类似的强1*的评估。
如图4所示,在建立整体运动才莫型的情况下,有限差分是收 集到用那些运动评估的随机抽样410迭代处理的一般总体库404 中的平移运动评估402,而且线性才莫型被因式分解,才是耳又那些才羊 本的公因子420。然后,结果430被用来调节总体404以便通过排 除通过随机处理发现的该模型的异己样本更好地阐明该线性模 型。
本发明能利用一个或多个强健的预估程序;其中之一可能是 强^建的RANSAC评估程序。这些强#:的预估#呈序在现有4支术中已 得到4艮好的证明。
在线性模型评估算法的 一个实施方案中,运动模型评估程序 以线性最小二乘解为基础。这种相关性使该评估程序摆脱异己样 本数据。基于RANSAC,所揭示的方法是一种通过反复评估凄史据 子集抵消异己样本的效应从而探查将描述重要的数据子集的运 动模型的强健方法。每个探头产生的模型都对它所代表的数据的百分比进4于测试。如果有足够的迭^次凄t,则将发现与最大的凄t
据子集拟合的才莫型。在文献"R. Dutter和PJ. Huber, 'Numerical methods for the nonlinear robust regression problem' , Journal of Statistical and Computational Simulation, 13:79-113, 1981"中有关 于怎样完成这样强健的线性最小二乘回归的描述。
如同图4i殳想和举例-说明的那才羊,本发明揭示一些在算法变 更形式上超过R AN S A C算法的改革,包括有限差分的初始抽样 (样本)和线性模型的最小二乘评估。综合误差是使用已解的线性
模型对一般总体中的所有样本评估的。根据残差与预先设定的阈 值一致的样本的数目给该线性模型分配一个等级。这个等级被看 作是"候选的共识"。
最初的抽样、求解和归类是通过迭代完成的,直到终止判据 得到满足为止。 一旦该判据得到满足,等级最高的线性模型被看 作是该总体的最后共识。
非必选的改进步骤包括按照与候选模型拟合最好的次序反 复分析该样本子集并且逐渐增加子集规模,直到再多加一个样本 将超过整个子集的残留误差阈值。
如图4所示,整体模型评估程序450—直重复到共识等级可接 受性测试令人满意452为止。当该等级尚未实现的时候,把有限 差分的总体相对于在设法揭示线性模型时发现的模型分类454。 最好的(最高等级的)运动4莫型被添加到该程序的解集中460 。然 后,在程序470中再次评估该冲莫型。完成后,该总体4044艮据新的 /再次评估后的才莫型#1再次分类480。
为了在将与某特定的线性模型相对应的另一个参数矢量空 间中确定子空间簇,所描述的本发明的非限制性实施方案可以作为对矢量空间(前面被描述为有限差分矢量域)抽样的 一般方法被 进一步推广。
整体配准程序的进一 步的结果是这个配准程序和局部配准 程序之间的差异产生局部配准残差。这个残差是整体模型在近似 局部模型时的误差。
依照上文,先前发明的实施方案优选4吏用强健的"i平估#呈序为 多维投射运动模型的解产生对应关系模型zzy。
规范化(C1)
^见范化指的是朝着标准的或通常的空间配置方向再次#由取 空间强度场样本。当这些相对空间配置在这样的配置之间是可逆 的空间变换的时候,象素的再次抽样和附带插值直到拓朴极限也 都是可逆的。本发明的少见范化方法是用图5举例i兌明的并且在象 素水平上操作(即,对象素和子象素再次抽样)。
在图5中,《合定运动评估;模型510, ^见范4匕程序反转520该运 动模型510的相对空间配置之间的空间变换。反转的运动模型522 产生。使用该反转的运动模型522,来自运动模型510的对象象素 530在532被再次抽样从而导致伴生象素的插值。在优选的实施方 案中,再次抽样过滤与橫穿多帧视频数据的空间区域的结构、变 形、姿势和照明相关联的任何变化或相反提取与横穿多帧视频数 据的空间区域的结构、变形、姿势和照明相关耳关的4壬4可变化的7> 因子。剩余的变化#^见为成像对象的"外观"。
当两个以上空间强度场被规范化的时候,提高的计算效率可 以通过保存中间的规范化计算结果来实现。
为了配准或等效地为了失见范化,用来再次抽取图傳_样本的空间变换模型包括总体模型和局部模型。总体模型有从平移变换到 影射变换逐渐增加的阶次。局部^^莫型是有限差分,该有限差分暗 示基本上用区段或更复杂地用分段线性网孔确定的关于邻近象 素的内插式。原始强度场向规范化强度场的插值增加基于强度场 子集的PCA外观模型的直线性。
如图2所示,在依照后面讨论的模型对应关系224从图像数据 /画面拆分230出对象象素之后,对象象素或子象素232,234能净皮再 次抽样240。以象素和子象素水平再次抽才羊240产生对象象素和子 象素的规范化版本242,244。
基于网孔的少见范化
本发明的进一步的实施方案^fe特征点镶嵌到基于三角形的 网孑L中,跟踪该网孔的顶点,并且使用每个三角形的顶点的相对 ^f立置来评估与那三个顶点一致的平面的三维表面法线。当该表面 法线与摄影机的投影轴相符的时候,成像象素能提供与该三角形 相对应的对象的4丑曲最小的透4见图。创造倾向于支持正交表面法 线的规范化图像能产生保存中间数据类型的象素,这将提高后来 以外观为基础的PCA(主成分分析)模型的直线性。除PCA以外其 它线性分解是适用的
另 一个实施方案利用传统的以区,爻为基础的运动评估来含 蓄地建立整体运动模型。在一个非限制性实施方案中,该方法将 来自传统的以区,殳为基础的运动评估/预测所描述的运动矢量的 整体仿射运动模型因式分解。
本发明的方法利用一项或多项整体运动评估技术,包括一组 仿射投影方程的线性解。其它的投影模型和求解方法在现有技术 中已有描述。图9举例说明整体和局部规范化的组合方法。在图9中,祸L频序列的第 一和第二画面902,904(画面A和画面 B)是整体规范化程序906的输入。整体规范化程序906包括下列步 骤形成整体运动模型(如同前面在图4中那样,举例来说)和跟踪 网孔的4仑廓和顶点的变形或运动。后者表现在画面A和B中出现 的成^f象对象的整体几何形状902,904。整体失见范化程序906的结果 包括在图9中以108表示的被整体规范化的画面B。接下来,画面 A 904和被整体规范化的画面B 908被送进局部规范化程序910。 在那里,;陂整体^L范化的画面B一皮局部^L范化。这导致画面B既 被整体规范化又被局部规范化920 。
用于整体和局部^见范化步-骤906和910的各种不同的关见范化i 才支术4妾下来将^皮分别描述。
渐进的几^f可失见范化
空间间断点的分类#1用来对准4裏嵌的网孔,以 <更在它们与网 孔边纟彖一致的时候含蓄地建立间断点才莫型。
同种区域的边界是用多角形4仑廓近似的。为了确定每个多角 形顶点的显著优先权,该轮廓是以逐次降低的精度逐次近似的。 为了保护共享顶点的顶点优先权,顶点优先权在各个区域上传播。
在这项发明的一个实施方案中,多角形分解方法允i午与3见场 的同种分类相关联的边界的优先排序。象素是依照一些同种标准 (例如,光语相似性)分类的,然后把分类标签按空间连接到各个 区i或之中。在进一步优选的非限制性实施方案中,4-或8-连通性 判招4皮用来确定空间连通性。
在另一个实施方案中,这些空间区域的边界随后^皮离散成多角形。所有多角形对所有同种区域的空间覆盖呈棋盘格状并且结 合在 一起形成初步的网孔。使用 一 些判据将这种网孔的顶点分 解,以揭示保有最初网孔的大多数知觉特征的较简单的网孔表达。
在优选实施方案中,图〗象配准方法与前面揭示的一样用强壮 的图像梯度向这些高优先权顶点偏置。由此产生的变形模型倾向 于{呆护与成<象对象的几4可形状相关耳关的空间间断点。
在一个实施方案中,活3夭的4仑廓用来改善区域边界。每个多
角形区域的活3夭4仑廓都被允许增殖一次迭代。在不同的区域中每 个活跃轮廓顶点的"变形"或运动被结合在计算平均值的操作中, 以便考虑到隐式网孔受限制的增殖,对于该网孔它们有隶属关系。
在另一个实施方案中,顶点被分配在适合也作为不同区域的 4仑廓部分的毗邻顶点的网孑L中它有的邮匕邻顶点凄t的计凄t 。这些其 它的顶点^皮定义为处在对立状态。如果顶点计lt为l,则它有没 有对立顶点,因此需要得到保护。如果两个毗邻的对立顶点每个 顶点的计数都为l(意味着这两个顶点在不同的多角形中而且彼 ot匕详目邻),那么一个顶点只于另一个是可分l淨的。当计凄史为l的顶点 与数值为2的邻近的多角形顶点对立的时候,计数为1的顶点被分 辨为计凄t为2的顶点,而且由此产生的顶点计凄t等于l。因此,如 果出现另一个邻近的对立顶点,那么这个顶点能^皮再一次分享淬。 对于这种情况,保留最初的顶点计数是重要的,所以在分辩顶点 的时候,我们能基于最初的顶点计数偏置求解方向。这是为了顶 点a变得1于顶点b清晰可见,那么顶点b只寸顶点c爿寻不清晰可见,而 顶点c应该对顶点b变得清晰可见,因为b已经被用于一种分辨率。
在优选的实施方案中,T-接合点被明确地处理。这些是在一个多角形中的点,该多角形没有点在毗邻的多角形中。在这种情 况下,每个多角形顶点都首先被画在图像点映射图上,这张映射 图识别顶点的空间位置及其多角形标识符。然后才黄越和测试每个 多角形的周长看看是否有任何来自另 一个多角形的毗邻顶点。如 果有来自另一个区域的邻近顶点,那么它们每个都被测试,看看 它们是否已经有来自当前的多角形的邻近顶点。如果它们没有, 那么当前的点作为当前的多角形的顶点被添加进去。这种额外的
测试/f呆i正在另一个多角形中的3瓜立顶点^皮用来产生T4姿合点。否 则,这将在这个区域已经有匹配顶点的情况下^f义仅添加新的顶 点。所以,只有当邻近的顶点不与这个当前区域对立的时4夷才添 加对立顶点。在进一步的实施方案中,通过使用掩模图像增加检 测T-联接的效率。连续地访问多角形顶点,而且这样更新掩模, 以致顶点的象素被确认为属于某个多角形顶点。然后多角形周长 的象素被详细研究,如果它们与多角形顶点一致,那么它们被记 录为在当前的多角形之内的顶点。
在一个实施方案中,当某光i普区i或已,皮一个或多个交叠的同 种图傳_梯度区i或再次映射,而且另 一个同种光^普区域也重叠的时 候,先前被再次映射的区域全被赋予与当前被再次映射的那些区 域相同的标签。因此基本上,如果光谱区域被两个同种区域遮住, 那么所有#皮那两个同种区域遮住的光谱区域都将获得同样的标 签,因此一个光语区域真正被一个同种区域而不是两个同种区域 覆盖是相似的。
在本发明的一个实施方案中,为了找到邻接归并判据,处理 区域映射图而不是处理区域目录是有利的。在进一步的实施方案 中,光谱拆分分类器能被修正以便训练该分类器使用非同种区 域。这允许将处理集中在光谱区域的边缘。此外,增加以使用边 缘(例如,稳定的边缘检测器)为基础的不同的拆分并且把那个馈送给活跃的轮廓识别最初的那组多角形将考虑到同种区域较大 的差别。
局部^见范^f匕
本发明提供能以"局部"方式4吏时空流中的象素配准的方法。
一种这样的局域化方法使用几何网孔的空间应用722(图7)提 供分析象素的方法,以致在成^f象现象中局域相干性在分辩与成^f象 现象(或明确地说成^象对象)的局部变形有关的表^见图《象亮度恒定 性模棱两可的时候得到解释。
这样的网孔被用来提供在像平面中表面变形的分段线性模 型作为局部少见范化的方法。当映 <象流的时间分辨率与映^f象中的运 动相比高的时候,成像现象可能往往与这样的模型相对应。模型 假设之例外是通过多种技术处理的,包括象素和图像梯度区域 的拓朴限制、邻近顶点限制和同种分析。
在一个实施方案中,《合定^L频画面702(图7),同种象素区i或 是作为图像对象位置和数值范围706检测的704。在同种象素区域 内,步骤708定义多角形轮廓。步骤710检测和限定该图像对象的 特征点。具体地说,使用三角形轮廓并且使用特征点来产生由其 顶点与特征点相对应720的三角形元素组成的轮廓网孔722。在其 它的画面中对应的特征点暗示三角形(轮廓网孑L的镶嵌式铺 装)724和对应地象素的内插"翘曲"。这导致局部变形才莫型(对象 网孔)726的产生。图7举例说明这样的对象网孑L726的产生。图8 举例说明使用这样的对象网孔806使画面802,804局部规范化。
在图8的局部关见范化程序中,对象网孔806(例如,用图7的程 序产生的)被应用于视频或图像画面802,804(画面A和画面B)。对于网孔的每个顶点,有各自的瓦片810将中心置于其上。在画面A 和B 802,804之间顶点位置的对应关系是借助下面进一步讨论的 并且与先前对整体运动讨论过的那些类似的运动评估决定的。
邻近点的运动"i平估纟皮用来形成顶点运动矢量812。然后,4吏 用该运动矢量812为每个瓦片814产生仿射才莫型。下面进一步讨i仑 的是三角形瓦片和对应的运动矢量以及用于这些三角形的仿射模型。
继续参照图8,每块瓦片有对它进行评估的仿射变换(在814)。 在步骤816,画面B 804基于导致对应的象素被剥夺与画面802,804 上的局部结构、变形、姿势和照明相关写关的局部变化的逆仿射祐: 再次抽样。换句话iJi,失见范化的画面B在步骤820产生。
在一个优选的实施方案中,产生一幅识别三角形的三角形映 射图,该映射图的每个象素都来自该三角形。此外,与每个三角 形相对应的仿射变换814(图8)是作为优化步骤预先计算的。再者, 在产生局部变形模型的时候,使用空间坐标在固定图像(先前的) 上来回移动以确定源象素的抽才羊坐标。这个一皮抽样的象素将代卢#
当前象素位置。
在另一个实施方案中,局部变形是在整体变形之后预先形成 的。在先前揭示的i兌明书中,整体^见范化是作为^f吏用整体配准方 法,人空间上关见范4匕两幅或多幅^L频画面中的象素的禾呈序描述的。 由此产生的整体-见范化的#见频画面能^皮进一步局部^见范化。这两 种方法的组合把局部^见范化限制在整体上得到的解决办法的细 分方面。这能大大减少求解所需要的局部方法的不明确性。
在另一个非限制性实施方案中,特征点或"规则网孔"情况 下的顶点是通过分析那些点邻近区域的图像梯度限定的。这个图像梯度能被直接地或通过某种间接计算(例如,Harris响应)计算出 来。此外,这些点能被用与图像梯度下降相关联的空间限制和运 动评估结果误差过滤。合格的点能作为网孔的基础被许多棋盘格 化技术之一使用,从而导致其元素是三角形的网孔。对于每个三 角形,基于那些点和它们残留的运动矢量产生一个仿射模型。
本发明的方法利用 一种或多种图像强度梯度分析方法,包括 Harris响应。其它的图4象强度梯度分析方法在现有才支术中已有描述。
在优选的实施方案中,维持三角形仿射参数的目录。这个目 录通过迭代构成当前的/早先的点目录(使用顶点查寻映射图)。当 前的/早先的点目录被传送给用来评估为那个三角形计算仿射参 数的变换的例行程序。然后,这些仿射参tt或才莫型814被保存在 三角形仿射参凄t目录中。
在进一 步的实施方案中,该方法4黄移三角形标识符图 <象映射 图,在这种情况下该映射图中的每个象素包含在该象素对它有隶 属关系的网孔中的三角形的标识符。而且对于属于某个三角形的 每个象素,为那个象素计算对应的整体变形坐标和局部变形坐 标。那些坐标依次用来完成对应象素的抽样并且把它的数值应用 于对应的"身见范化"位置(例如,图8中的步骤816)。
在进一步的实施方案中,以起因于图像梯度搜寻的密度和图 像强度对应关系严格性为基础把空间限制应用于那些点。在完成 运动评估之后基于某种图像强度残差基准将那些点分类。然后, 以空间密度限制为基础对这些点进行过滤。
在进一步的实施方案中,使用空间光语拆分,而且4巴小的同 种光谱区域基于它们的强度和/或颜色与邻近区域的空间仿射性和相似性合并。然后,使用同种合并把光谱区域以它们与同种紋 理(图像梯度)区域的重叠为基础组合在一起。进一步的实施方案 然后使用中心周围点(那些点是被较大的区域包围的小区域)作为 合格的感兴趣的点来支持网孔的顶点。在进一 步的非限制性实施
方案中,中心周围点的定义为其边界冲匡在尺寸为3 x 3或5 x 5或7 x 7象素的一个象素之内而且对于那个边界框空间图像梯度是角 落形状的区域。该区域的中心能^皮归类为角落,乂人而进一步限定 那个位置为有利的顶点位置。
在进一步的实施方案中,水平和垂直的象素有限差分图傳4皮 用来给每个网孔边缘的强度分类。如果边缘有许多与它的空间位 置 一致的有限差分,那么该边缘和那个边缘的顶点被认为是对于 成像现象的局部变形非常重要的。如果在边缘的有限差分之和的 平均值之间有大的派生差异,那么该区域边缘通常很可能对应于 紋理变化边纟彖,而不是量化步-骤。
在进一步的实施方案中,空间密度才莫型终止条件^皮用来优化 网孔顶点的处理810。当检查过数目足以覆盖大部分检测矩形始 端的空间区域的点的时4矣,于是可以结束该处理。终止产生得分。 进入处理的顶点和特征点用这个得分来分类。如果那个点与现有 的点在空间上挨得太近,或著那个点不与图像梯度的边缘相对 应,则将它丢弃。否则,在那个点的邻近地区中的图l象梯度下降, 而且如果梯度的残差超过某个界限,那么那个点也一皮丢弃。
在优选实施方案中,局部变形建4莫是通过迭代完成的,,人而 随着每次迭^J贞点位移减少收症支到解上。
在另一个实施方案中,局部变形才莫型^皮完成,而且如果该整 体变形已经提供相同的规范化利益,则该模型参数被丢弃。
34规则网孔规范化
本发明利用规则网孔扩展上述的局部规范化方法。这种网孔 是不考虑潜在象素构成的,然而它的位置和尺寸与#皮4企对象相对 应。
给定净皮4全对象(例如,脸部)区i或,空间画面位置和指出对象 脸部大小的刻度在脸部区i或的始端上产生A见则网孔。在优选的实 施方案中,4吏用一组不重叠的瓦片描绘矩形网孔,然后在810完 成瓦片的对角线分割产生有三角形网孔元素的规则网孔。在进一
步的优选实施方案中,瓦片与用于传统的^L频压缩算法(例如, MPEG-4 AVC)的那些成比例。
在优选的实施方案中,与上述网孔相关耳关810的顶点通过在 用于训练的特定碎见频画面中分析这些顶点周围的象素区域区分 优先次序。这样的区域的梯度分析提供关于与每个顶点相关的将 依靠局部图像梯度的处理(例如,基于区段的运动评估结果)的置 信度。
顶点位置在多个画面中的对应关系是通过简单的逐步降氐 图像梯度找到的。在优选实施方案中,这是通过基于区段的运动 评估在810实现的。在目前的实施方案中,高置信度的顶点考虑 到高置信度的对应关系。置信度较低的顶点对应关系是通过推理 经过求解不明确的图像梯度从置信度较高的顶点对应关系获得 的。
在一个优选实施方案中,失见则网孔是越过3艮踪矩形的开端制 作的。产生16xl6的瓦片,并且沿着对角线切割,形成三角形网 孔。对这些三角形的顶点进行运动评估810。运动评估结果取决 于每个点的紋理类型。紋理被分为三类角落、边缘和同种,它们也定义顶点的处理次序。角落顶点使用邻近顶点评估结果,即,
邻近点(如果可得)的运动评估^皮用于预言性运动矢量812,而运动 评估结果适用于每一个。提供最低误差的运动矢量是作为这个顶 点运动矢量812使用的。用于角落的搜寻策略是全部(宽的、小的 和原点)。对于边缘,再一次使用最近的相邻运动矢量812作为预 言性运动矢量,而且使用误差最小的那一个。边缘的搜寻策略是 小的和原点。对于同种的,搜寻邻近的顶点并且使用误差最小的 运动评估。
在 一 个优选实施方案中,每个三角形顶点的图像梯度被计算 出来,而且基于类别和大小被分类。所以,角落先于边缘,边缘 先于同种。对于角落,强的角落先于弱的角落,对于边缘,强的 边缘先于弱的边缘。
在一个优选实施方案中,每个三角形的局部变形以与那个三 角形相关耳关的运动评估为基础。每个三角形都有对它在814评估 的仿射。如果三角形不作拓朴逆转,或变成退化的,那么作为三 角形部分的象素净皮用来以在814获得的评估仿射为基础4由取当前 图像的样本。
拆分
通过进一 步描述的拆分程序识别的空间间断点是通过它们 各自边界的几何参数表达法(被称为空间间断点模型)被有效地编 码的。这些空间间断点才莫型可以以渐进的方式编码,从而考虑到 与编码子集相对应的更简洁的边界描述。渐进式编码提供 一 种在 保留空间间断点的许多显著方面的同时区分空间几何学优先次 序的强健方法。
本发明的优选实施方案将多分辨率拆分分析与空间强度场的梯度分析结合起来,并且进一步使用时间稳定性限制来实现强 健的拆分。
如图2所示, 一旦已经随着时间的流逝^艮踪对象特4正的对应
关系220并且建立了模型224,遵守这个运动/变形模型能用来拆分 与那个对象相^f应的象素230。这个禾呈序可以^^见频凄t纟居/画面 202,204中的许多被检对象206,208重复。这个程序的结果是被拆 分对象的象素232。
本发明使用的无变化特征分析的 一种形式被集中在空间间 断点的识别上。这些间断点是作为边缘、阴影、遮蔽、线、拐角 或在 一 个或多个#见频成{象画面中任何其它的引起突然的和可识 别的象素分离的4壬4可其它可见特^£出现的。此外,在颜色和/或紋 理类似的对象之间细微的空间间断点可能只出现在视频画面中 的对象的象素相对于对象本身正在经历粘附运动但相对于其它 对象正在经历不同的运动之时。本发明利用频i普拆分、紋理拆分 和运动拆分的组合强健地识別与显著信号才莫式相关联的空间间 断点。
时间拆分
把平移运动矢量或在空间强度场中等价的有限差分测量结 果按时间整合成高阶运动才莫型是现有技术描述的运动拆分形式。
在本发明的一个实施方案中,产生运动矢量的稠密域,表现 映像中对象运动的有限差分。这些导数是通过瓦片的规则分割或 借助某种初始化程序(例如,空间拆分)按空间集合的。每个集合 的"导数"被整合成使用线性最小二乘评估程序的高阶运动模型。 然后,由此产生的运动模型作为矢量被群集在使用聚类算法 (k-means)群集技术的运动模型空间中。这些导数是基于与它们拟合最好的群分类的。然后,群标在空间上被群集为空间分割 的演变。该程序 一 直继续到空间分割是稳定的。
在本发明的进一步的实施方案中,适合》合定的孔径的运动矢 量被内插到 一组与该孔径相对应的象素位置。当用这种内插定义 的区段横越与对象边界相对应的象素时候,由此产生的分类是该 区^殳的某种不身见则的对角线分割。
在现有技术中,用来整合导数的最小二乘评估程序对离群值 是高度敏感的。这种敏感性能产生使运动模型群集方法严重地偏 向迭代结果大幅度发散的点的运动模型。
在本发明中,运动拆分方法通过在两个以上视频画面上分析 明显的象素运动识别空间间断点。明显的运动是4十对这些-见频画 面上的一致性分析的并且纟皮整合成参数运动才莫型。与这种一致的
运动相关联的空间间断点#:识别出来。运动拆分也可以^^称为时 间拆分,因为时间变4匕可能是由运动引起的。然而,时间变4匕也 可能是由一些其它的现象(例如,局部变形、照明变化,等等)引 起的。
通过所描述的方法,与规范化方法相对应的显著信号模式能 被识别而且能通过几种背景减法之一与环境信号模式(背景或非
对象)分开。时常,这些方法从统计上建立背景模型,因为象素 在每个时间例证都呈现最小的变化量。变化能净皮i见为象素数值差异。
基于拆分周界的整体变形模型是通过先创造围绕对象的周 界,然后使该周界向被检对象中心倒塌直到周界顶点已经实现位 置与异种图像梯度一致实现的。运动评估是针对这些新的顶点位 置推断的,而强健的仿射评估被用来发现整体变形模型。基于被拆分网孔顶点图像梯度下降的有限差分被整合成整 体变形模型。
对象拆分
图13所示方框图展示对象拆分的一个优选实施方案。所示程 序1300从规范化的视频画面/图像1302的系综开始,该规范化的视 频画面/图<象随后在该系综当中一皮逐对地计算差分1304。然后,这 些差分#1逐元素地积聚到积聚纟爰冲区中1306。为了识别比4交重要 的误差区域,该积聚l^冲区设定了阈值1310。然后,为了确定累 积误差区域的空间支持1310,对有阈值的元素掩模进行形态学分 析1312。然后,将形态学分析1312产生的提取物1314与被检对象 位置进行比较1320,以便将后来的处理集中在与对象一致的累积 误差区域。然后,用形成其凸壳1324的多角形近似《瓜立空间区域 1320的边界1322。然后,调整壳的4仑廓1330,以便更好地初始化 用于活轮廓分析1332的顶点位置。 一旦活3夭4仑廓分析1332已经会 聚在累积误差空间中的低能量解上,该轮廓被用作最后轮廓 1334,而且被限制在该轮廓之中的象素被视为最有可能是对象象 素的那些。在最后4仑廓1334之外的那些象素^皮;现为非对象象素。
在一个实施方案中,运动拆分能在给定显著图像模型的检测 位置和规模的情况下实现。距离变换能用来确定每个象素离开该 被检位置的距离。如果与最大距离相关联的象素数值被保留,合 理的背景模型能被求解。换句话说,环境信号是使用信号差衡量 才示准按时再次4由才羊的。
进一步的实施方案包4舌相对于当前的4全测位置4吏用距离变 换把距离分配给每个象素。如果到某个象素的距离大于在某个最 大象素距离表中的距离,那么该象素数值被记录下来。在适当的 训练周期之后,如果适合于部个象素的最大距离是大的,则假定
39该象素最有可能是背景象素。
给定环境信号模型,完全的显著信号模态能按每个时间例证 计算差分。这些差分每个都能被再次抽样变成空间规范化的信号
差(绝对差)。然后,这些差分#:;波此对准并且#皮累积。由于这些 差分已经相对于显著信号模式在空间上被规范化,所以差分的峰 值将主要对应于与显著信号模式相关联的象素位置。
在本发明的一个实施方案中,训练周期^皮限定,其中对象抬, 测位置被确定下来而且那些位置的质心被用来以远离这个位置 的才企测位置确定最佳的画面数,这将考虑到画面差分化以 <更产生 将最有可能是非对象象素的背景象素。
在本发明的一个实施方案中,活跃轮廓才莫型曾用来通过在累 积误差"图像"中确定轮廓顶点位置把前景对象从非对象背景中 拆分出来。在优选的实施方案中,活跃轮廓边缘被细分得与被检 对象的比例相称,以便得到较大的自由度。在优选的实施方案中, 最后轮廓的位置能与最接近的规则网孔顶点对齐,以便产生有头见 4聿地隔开的4仑廓。
在对象拆分的一个非限制性实施方案中,使用导向核来为时 间上成对的图像产生误差图像过滤响应。对取向与总的运动方向 正交的过滤器的响应倾向于在相对于背景的运动由于背景的遮 蔽和显露而发生的时候增强误差表面。
规范化图像系综的规范化图像画面强度矢量是利用 一 个或 多个参考画面计算差分的从而产生残差矢量。这些残差矢量是逐
元素地累积的,以形成累积残差矢量。然后,这个累积残差矢量 被按空间探查,以便定义适合对象象素和非对象象素的空间拆分 的空间对象边界。在一个优选实施方案中,为了得出能用来给累积残差矢量设 定阈值的统计阈值,完成了最初的累积残差矢量统计分4斤。通过 先腐蚀后膨胀的形态学操作,形成初步的对象区域掩模。然后, 分析该区域的轮廓多角形点以揭示那些点的凸壳。然后,把该凸 壳作为初始轮廓用于活跃轮廓分析法。该活跃轮廓在它会聚在该 对象的累积残差空间边界上之前是一直增殖的。在进一步优选的 实施方案中,初步的轮廓边缘通过添加中点顶点被进一步细分到 实现适合于所有的边缘长度的最小边缘长度。这个进一 步的实施 方案意味着逐渐增加活3夭l仑廓才莫型的自由度以〗更更精确地适合 该只于象的4仑廓。
在一个实施方案中,〗吏用细化的轮廓产生象素掩才莫乂人而通过 覆盖该轮廓暗示的多角形和覆盖规范化图像中的多角形指出该 对象的象素。
非对象的分辨
图12所示的方框图揭示非对象拆分或同义地背景分辨的一 个优选实施方案。通过背景緩冲区1206和初始最大距离值緩沖区 1204的初始化,该程序这样工作,通过把"稳定性"与距被检对 象位置1202的最大距离1212聘系起来确定最稳定的非对象象素。 给出新的被检对象位置1202,该程序检查每个象素位置1210。对 于每个象素位置1210,使用距离变换计算离开被检对象位置1210 的距离1212。如果那个象素的距离大于先前储存在最大距离緩沖 区1204中的位置1216,那么先前的翁^f直净皮当前的彩j直^^替1218, 而且该象素数值^皮记录在该象素緩沖区中1220。象素3巨离与最大 存储距离的比较1216是针对每个象素重复的1214。
给出清晰的背景图像,这个图^f象和当前画面之间的i吴差可以 按空间规范化并且按时间累积。这样的清晰背景图像是在"背景分辨"部分中描述的。通过这个方法背景的分辨率被视为基于时间的遮挡过滤禾呈序。
然后,由此产生的累积误差通过阈值;H险提供初始轮廓。然后,该轮廓在空间上扩展以使残留误差与轮廓变形保持平衡。
在^,代实施方案中,计算在当前画面和^皮分辨背景画面之间的绝对差别。然后,将元素状态的绝对差别拆分成截然不同的空
间区域。这样计算这些区域边界才匡的平均象素^直,以致当更新祐:分辨背景的时候,当前的和已分辨的背景的平均象素值之间的差能用来实现反差变化,所以当前区域能更有效地掺混在^皮分辨的背景之中。在另一个实施方案中,在规范化画面掩才莫里面的顶点
是针对每个画面进行运动评估和保存的。然后,使用SVD处理这
些顶点以产生每个画面的局部变形予贞测。梯度拆分
紋理拆分方法或同义的强度梯度拆分分析象素在一个或多个视频画面中的局部梯度。梯度响应是一种表征空间间断点的统
计尺度,其中所述空间间断点对于该^L频画面中的象素位置是局部的。然后,使用几种空间群集技术之一把这些梯度响应组合成一些空间区域。这些区域的边界在识別一个或多个^L频画面中的空间间断点方面是有用的。.
在本发明的 一 个实施方案中,来自计算机图形紋理生成的总面积表概念被用于加快强度场梯度计算的目的。累加值域的产生〃使通过与四次加法运算结合的四次查询计算{壬{可长方形原始i或的总和变得容易。
进一步的实施方案^f吏用对一个图^f象产生的Harris响应,而每个象素的邻近区域被归类为同种的、边缘或拐角。响应数值是依据这个信息产生的并且指出画面中每种元素的边缘化或拐角化的程度。
多刻度梯度分析
本发明的实施方案通过以几种空间刻度产生图像梯度值进一步约束图像梯度支持。这个方法能帮助限定图像梯度,以致在不同的刻度下空间间断点能用来彼此相互支持,只要"边缘"在几种不同的空间刻度下能被区别对待即可,该边缘应该是"显著的"。更合乎条件的图像梯度将倾向于与更显著的特征相对应。
在一个实施方案中,紋理响应区i或是首先产生的,然后,这个区域的数值以聚类算法(k-means)分区间/分割为基础被量化成若干区间。然后,使用每个区间作为单一迭代能把转捩点拆分应用于它的数值间隔渐进地处理最初的图像梯度数值。这种方法的好处是在相对意义上用强烈的空间偏置限定同种。
光i普拆分
光谱拆分方法分析视频信号中黑白象素、灰度象素或彩色象素的统计概率分布。频i瞽分类程序是通过完成关于那些象素的扭无率分布的群集操作构成的。然后,使用该分类程序把一个或多个象素分类,使之属于某个概率类别。然后,由此产生的概率类别和它的象素被赋予类别标签。'然后,使这些类别标签在空间上与截然不同的边界结合成各个象素区Jt或。这些边界标识在一个或多个一见频画面中的空间间断点。
本发明可以利用基于光"i普分类的空间拆分来拆分^L频画面中的象素。此外,各个区域之间的对应关系可能是基于各个光谱
43区域与先前拆分的区域的重叠确定的。
业已观察到当^L频画面l体上由空间上被连接成与^L频画 面中的对象相对应的较大区域的连续彩色区域组成的时候,彩色 (或光谱)区域的识别和跟踪能促进映像序列中对象的后续拆分。
背景拆分
本发明包4舌以每个#见频画面中的4笨测对象和每个个别象素 之间的空间距离测量结果的瞬时最大值为基础建立#见频画面背 景才莫型的方法。见前面图12的描述。#会定#笨测到的对象位置,应 用距离变换,产生适合画面中每个象素的标量距离数值。在所有 的#见频画面上每个象素的最大距离的映射图^皮^呆留。当最初分配 最大数值的时候,或后来用不同的新数值更新该最大数值的时 候,适合于那个视频画面的对应的象素被保留在"清晰的背景" 画面中。
建立外观才莫型
4见频处理的共同目标往往是建立和保存^L频画面序列的外 观才莫型。本发明以允许通过预处理的运用以强健的和广泛适用的 方式应用强制性外观建模技术为目标。先前描述的配准、拆分和 头见范化明显地适合这个目的。
本发明揭示建立外观变化模型的方法。建立外观变化模型的 主要基础在线性模型的情况下是分析特征矢量,以揭示开发利用 线性相关关系的坚实基础。表达空间强度场象素的特征矢量能被 组装成外XC变化才莫型。
在替代实施方案中,外观变化模型是依据被拆分的象素子集 计算的。此外,该特征矢量能被分成若干空间上不重叠的特征矢量。这冲羊的空间分解可以用空间铺瓦来实现。计算效率可以通过
处理这些临时总体来实现,而不牺牲更普遍的PCA方法的维数减 少。
在产生外观变化模型时,空间强度场规范化能用来减少空间 变换的PCA建模。
建立变形模型
当顶点位移和插值函数能用来依照与那些象素相关耳关的顶 点决定象素再次抽样的时候,能建立局部变形模型。这些顶点位 移可以作为单 一 参数组提供很多横越许多顶点看到的运动变化。 这些参数的相关关系能大大减少这个参数空间的维度。
PCA
产生外,见变化4莫型的优选方法是通过4巴一见频画面作为图案 矢量组装成一个训练矩阵或总体然后把主要成份分析(PCA)应用 在该训练矩阵上。当这样的展开式被截取的时候,由此产生的 PCA变换矩阵;故用来分4斤和合成后面的一见频画面。基于截耳又水 平,改变象素的初始外^见质量水平能实现。
图案矢量的特定的构成和分解方法对于熟悉这项技术的人 是广为人知的。
给出来自环境信号的显著信号模式的空间拆分和这个模式 的空间规范化,象素本身或同义的由此产生的规范化信号的外观 能被因式分解成线性相关的成份,其中低级参数表达考虑到适合 表达象素外XC的近似值误差和比特率之间的直4妄交4灸。用来实现 低等级近似的 一种方法是通过舍弃编码数据的 一 些字节和/或位。 低等级近似值被视为原始数据的压缩,如同这项技术的特定应用所确定的那样。举例来i兌,在^L频压缩中,如果数据的舍弃并非 不适当地 -使感知质量降^[氐,那么该应用的特定目标将连同压缩一 起实现。
如图2所示,为了得到量纲上简明的数据版本252和254,规 范化的对象象素242和244能才殳射到矢量空间中而且线性对应关 系能使用分解程序250建立模型。
连续的PCA
PC A使用PC A变换把图案编码成PC A系数。用PC A变换表达 的图案越好,给该图案编码所需要的系数就越少。承认图案矢量 可能随着时间在获得训练图案和待编码图案之间流逝降级,更新 变换能帮助抵消这种降级。作为产生新变换的替代品,现有图案 的连续更新在特定的情况下是计算上更有效的。
许多最新技术的^L频压缩算法依据一个或多个其它画面预 测某^L频画面。预测才莫型通常基于4巴每个预测画面分割成与在另 一画面中对应的补丁相匹配6々不重叠的瓦片和相关^:的用偏移 运动矢量参数化的平移位移。这个非必选地与画面索引耦合的空 间位移提供瓦片的"运动预测"版本。如果预测的误差在特定的 阈Y直以下,则瓦片的象素适合残差编石马;而且在压缩岁丈率方面有 对应的增益。否则,瓦片的象素被直接编码。这种基于瓦片的换 句话i兌基于区#殳的运动预测方法通过平移包含象素的瓦片建立 影像模型。当影像中的成像现象坚持这种建模的时候,对应的编 码效率增加。为了与在基于区段的预测中固有的平移假定 一 致,
这个建模限制为了与在基于区段的预测中固有的平移假设 一 致 亏叚定特定的时间分辨率水平(或帧频)对于正在运动的成<象对象是 存在的。这种平移模型的另 一个必要条件是对于特定的时间分辨 率空间位移必须受到限制;换言之,用来推导预测结果的画面和#皮预测的画面之间的时间差必须是比4交短的绝对时间。这些时间 分辨率和运动限制4吏存在于#见频流中的某些多余的#见频4言号成 Y分的识别和建才莫变得容易。
在本发明的方法中,连续的PCA与嵌零树子波结合以进一步 提高混合压缩法的实用性。连续的PCA技术提供能针对有时间相 干性或时间局部平滑性的信号提高传统的PCA的方法。嵌零树子 波提供能为了提高特定处理的强健性和该算法的计算效率把局 部平滑的空间信号分解成空间刻度表达的方法。对于本发明,将 这两种技术结合起来,增加变异模型的表达能力和提供那些紧凑 且安排好的模型的表达,以致该基础的许多表达能力是由该基础 的舍弃提供的。
在另一个实施方案中,连续的PCA是与固定的输入区段大小 和固定的允差一起应用的,以增加乂于第 一个和大多tt有力的PCA 成寸分的加^又偏移。对于较长的凄t据序列,这第一个PCA成〗分往往 是唯一的PCA成份。这影响重建的画面质量而且能以某种方式限 制所述方法的实效。本发明将不同的基准用于PCA成^f分的选择, 这种选择对惯常使用的最小二乘基准是优选的。这种模型选择形 式避免用第一个PCA成份过度近似。
在另一个实施方案中,区段PCA程序连同每个数据区段的固 定的输入区4殳大小和身见定的PCA成4分数目 一起用来4是供有益的 统一重建代替<吏用相对较多的成<分。在进一步的实施方案中,区 段PCA被用于与连续的PCA组合,在这种情况下区段PCA在一组 步骤数目之后用 一个区段PCA步骤重新初始化连续的PCA。这通 过减少PCA成份的数目提供有益的统一近似值。
在另一个实施方案中,本发明利用PCA成4分在编码-解码之前 和之后一见觉上相似的情形。图^f象序列重建质量在编码-解码之前
47和在之后也可能在—见觉上相似,这往往耳又决于所用的量化禾呈度。
本发明的方法先将PCA成份解码,然后再次规范化它们使之有个 体基准。对于适度的量化,解码后的PCA成份是近似正交的。在 较高的量化水平,解码后的PCA成份被SVD的应用程序部分地恢 复以获得 一 正交基础和 一 组修改过的重建系数。
在另一个实施方案中,可变的自适应的区段大小被应用于混 合的继续PCA方法,为的是产生对于合成质量有所改善的结果。 本发明将区段大小建立在PCA成份的最大数目和对于那些区段 纟合定的容"i午误差的基础上。然后,该方法扩充当前的区l更大小, 直到达到PCA成份的最大数目。在进一步的实施方案中,PCA成 份的序列被视为数据流,这导致维数进一步减少。该方法完成后 处理步骤,在那里可变的数据区段是为来自每个区段的第一个 PCA成份收集的,而SVD被应用,为的是进一步减少维度。然后, 相同的程序被应用于第二个、第三个等成份的收集。
对称的分解
在本发明的一个实施方案中,分解是基于对称总体完成的。 这个总体^1夺正方形图〗象表示成六个正交成份之和。每个成4分对应 于该正方形的一种不同的对称。由于对称,每个正交成^f分都是用 "基本区域"确定的,该基本区域借助对称作用被映入完全的成 份。假定输入图像本身没有特别的对称性,那么基本区域之和有 与输入图像一样的集容量。
基于残差的分解
在MPEG视频压缩中,当前的画面是通过先使用运动矢量对 先前的画面进4亍运动补偿,然后4巴残差更新应用于那些补偿区 ^殳,最后将任何没有充份匹配的区段作为新区4殳完成编码构成的。
对应于残留区段的象素通过运动矢量映射到先前画面的象 素上。结果是象素通过能通过连续应用残值合成的影像的瞬时路
径。这些象素被确认为能使用PCA最明确地表达的象素。 基于遮挡的分解
本发明的进一步提高确定适用于多个区段的运动矢量是否 将导致来自先前画面的任何象素被移动象素遮挡(覆盖)。对于每 个遮挡事件,都把遮挡象素劈成新层。没有历史的象素也将暴露 出来。暴露出来的泉素被放到任何将在当前画面中与它们拟合而 且历史拟合也能在那层上完成的层上。
象素的时间连续性是通过象素对不同层的接合和移植得到 支持的。 一旦获得稳定的层模型,每层中的象素就能基于对条理 分明的运动模型的隶属关系编组。
分波,殳时间量4b
本发明的替代实施方案<吏用离散余弦变换(DCT)或离散子波 变换(DWT)4巴每个画面分解成分波,殳图〗象。然后,将主要成^f分分 析(PCA)应用于这些"分波段"影像之中的每个影像。概念是视 频画面的分波段分解与原始纟见频画面相比较减少任何一个分波 ,爻中的空间变化。
就移动对象(人)的影〗象而言,空间变化倾向于支配用PCA建 模的变化。分波段分解减少任何一个分解影像中的空间变化。
就DCT而言,任4可一个分波段的分解系数都4要空间安排在分 波段影像之中。举例来说,DC系数是从每个区段获取的并且被安排在看起来像原始影像的邮票版本一样的分波段影像之中。这
将对所有其它的分波-歐重复,而且4吏用PCA处理每个由此产生的
分波段影像。
就DWT而言,分波,殳已经4姿针对DCT描述的方式排列好。 在非限制性实施方案中,P C A系数的截取是变化的。 子波
当使用离散子波变换(DWT)分解数据的时候,多个带通数据 组以4交^f氐的空间分辨率为结果。变换:禾呈序能^皮递归J4应用于导出 数据直到仅仅产生单一 的标量数值为止。在已分解的结构中标量 元素通常以分等级的父母/孩子方式相关。由此产生的凄t据包含多 分辨率的分等级结构以及有限差分。
当DWT被应用于空间强度场的时候,许多自然发生的图像现 象由于空间频率低是用第 一或第二低带通导出数据结构以樣吏不 足道的知觉损失表达的。截短该分等级结构在高频率空间数据不 是不存在就是被视为噪音的时候提供简明的表达。
尽管PCA可以用来以为数不多的系数实现精确的重建,但是 这种变换本身可能是相当大的。为了减少这个"初始"变换的头见 模,可以使用子波分解的嵌零树(EZT)结构来建立变换矩阵的越 来越精确的版本。
子空间分类
如同实践这项技术的人充分理解的那样,离散抽样的现象数 据和导出数据能被表达成一组与代凄史矢量空间相对应的tt据矢 量。这些数据矢量以非限制性方式包括拆分后对象的规范化外表中的象素、运动参数和特征或顶点的任何二或三维结构位置。这 些矢量都存在于矢量空间之中,而且该空间的几^可分冲斤能用来产 生样本或参数矢量的简洁表达。有益的几何条件是借助形成紧凑 子空间的参凄t矢量代表的。当一个或多个子空间混合,形成表面 上更复杂的单一子空间的时候,那些要素子空间可能难以辨别。 有几种拆分方法考虑到通过4全查通过原始矢量的一些交互作用 (例如,内积)产生的高维矢量空间中的数据分离这样的子空间。
特征子空间分类
特征子空间是使用与对象相关联的区域的DCT分解构成的。 每个由此产生的系数矩阵都被转换成一个特征矢量。然后,这些 特征矢量按空间聚集在由此产生的矢量空间中。这种聚集提供能
整体地和局部地向 一 些参考对象例i正*见范化的图 <象对象例i正
群体。然后,这些规范化的对象例证能被用作用于PCA的总体。
在一个优选实施方案中,DCT矩阵系数是作为矩阵的上三角 形和下三角形求和的。这些总数被认为是二维矢量的元素。
在一个优选实施方案中,最密集的群^皮识別,而且与该群最 紧密关联的矢量被选定。与对应于这些象素的对象例证相关联的
象素祐:i人为彼此最相似。然后,选定的矢量能乂人该子空间中除去,
而且再次群集能产生另 一组与相关的对象例i正相对应的相关矢量。
在进一步的实施方案中,与确认的群的矢量相关联的图像对 象例证被整体地向群矩心规范化。如果由此产生的规范化满足扭
曲需求,那么该乂于象例i正^皮i人为与该矩心类4以。进一步的实施方 案考虑到要回到该矢量空间的对象例证无法作为适合进一步群 集的候选者。在另一个实施方案中,群是通过测试它们对其它群集的对象 例证的矩心的从属关系精练的。结果是群的隶属关系可能改变并 因此产生考虑到产生最相似的对象例证图像的群的精练。
总体处理
本发明的方法可能利用总体选才奪和处理。该方法乂人候选者训
练池中以来自该池的关4建图像的图^f象变形距离为基础选择小的 图像子集。
在一个优选实施方案中,DCT群间距离被用作决定哪个候选 图^f象将用来表现群的变异的的方法。
进一步的实施方案将图像从不同的群投影到不同的PCA空 间,为的是确定剩余图像的总体隶属关系。投影之前是图像关于 关4建总体图像或总体平均的整体和局部^L范化。
对象编码
本发明的 一 个实施方案完成对#皮#r对象例i正的{專立叶子空 间分类,为的是识别用来给该对象例证编码的一个或多个候选总 体。最接近的匹配总体然后通过与关键总体图像或总体平均相关 的图〗象整体和局部^见范化^皮进一步限定。然后,在确认某图〗象的 总体之时,该规范化的图像是使用总体基础矢量完成拆分和分解
的。由此产生的系邀:按与包含对象的画面相对应的时间的例证#: 分解为与最初的对象相对应的系凄史。这些系数也^皮称为外^见系数。
序列;咸少
本发明的方法有利用分解后系数的插值进一步减少图像的
52编码的方法。时间流被分析,以确定外观和/或变形参数的序列是 否有线性的微分。如果是这种情况,那么只有第一个和最后一个 参数与中间参数将被线性插值的指示一起被发送。
树形总体
本发明有 一 优选的实施方案,其中总体被组织成以式样矢量 的相似性为基础分支的从属树。树的"根"是作为总体的主要式 样建立的。附加的总体式样被加到树上并且变成树的"树叶,,。 附加的式样作为从属物被放到最类似于该式样的任何 一 个树节 点上。这样,总体式样是这样组织的,以致从属结构是基于相似 性产生的。利用这种结构作为"序列减少"的替代品,提供相同 的方法,其中用差分代替给式样矢量的序列插值,树的穿程被用 作时间排序的替代品。
混合空间^L范化压缩
本发明通过把拆分4见频流添加到"规范化"的一见频流之中充 分发挥以区段为基础的运动预测编码方案的效率。然后,这些视 频流分开编码以允"i午传统的编码解码器的平移运动l艮i殳是有岁文 的。在完成规范化视频流的解码之时,纟见频流解除身见范化,进入 它们适当的位置并且^皮组合在一起产生原始的^L频序列。
在 一 个实施方案中, 一 个或多个对象是在#见频流中4果测到 的,而与探测到的每个个别对象有关的象素随后被拆分,离开非 对象象素。接下来,针对对象象素和非对象象素产生整体空间运 动模型。这个整体模型用来完成对象象素和非对象象素的空间规 范化。这样的规范化已经有效地把非平移的运动从视频流中除去 并且已经^是供一组映Y象,这组映^象的相互遮挡经纟皮减到最少。这 些是本发明的方法的两个有益的特4正。象素已按空间规范化的对象和非对象的新映像是作为输入 提供给传统的以区段为基础的压缩算法的。在给这些映像解码 时,整体运动4莫型的参凄W皮用来还原失见范化的解码画面,对象象 素 一起合成到非对象象素之上,产生最初的 一见频流的近似。
如图6所示,先前对一个或多个对象630,650^r测到的对象例 证206,208(图2)每个都是用传统视频压缩方法632的独立例证处 理的。此外,乂人对象的拆分230产生的非对象602也是〗吏用传统的 视频压缩632压缩的。这些独立的压缩编石马632之中每一个的结果 分別是每个纟见频流的象素凄t据的独立的传统编码流634。在某个 点,可能在传f斩之后,象素凄t据的这些中间编码流234净皮解压缩 636变成》见范化非对象610和"i午多^见范化对象638,658的合成物。这 些合成后的象素能被解除规范化640,变成它们各自的已解除规 范化的版本622,642,662,把这些象素按空间放置在彼此相对正确 的位置,以致合成程序670能把对象象素和非对象象素结合成完 整的合成画面672。
在优选实施方案中,编码模式之间的切换是基于诸如PSNR 之类将允许传统的随子空间方法改变的统计的变形度量标准完 成的,以1更完成纟见频画面的编石马。
在本发明的另一个实施方案中,外貌、整体变形和局部变形 的编码参数是内插的,为的是产生将不必以别的方式编码的中间 画面的预测。该插值方法可以是任4可标准的插<直方法,例如,线 性插值、三次插值、样条内插,等等。
如图14所示,对象插值方法能通过一 系列用外貌参数和变形 参数表达的规范化对象1402,1404,1406的插值分析1408实现。该 分才斤1408确定能应用4#<直函#:1412的时间范围1410。然后,该范 围的规^各1410能与^见范4b只t象的规^各1414,1420结合,以1更近々乂和
54最后合成过渡期间的失见范化对象1416,1418。 其它的实施方案都是预想的。 混合编码解码的整合 [bbp:凄t才居结构和传llr]
在把传统的基于区段的压缩算法和本发明描述的规范化-拆 分方案结合起来时, 一些本发明的方法已经产生。首先,有专门 的数据结构和必要的通信协议。
主要的数据结构包括整体空间变形参数和对象拆分少见范掩 模。主要的通信协议是包括传输整体空间变形参数和对象拆分规 范掩模的各个层面。
渐进的计算环境《MLW: 一大态4 }
依照上文,本发明的以对象为基础的编码和视频数据处理的 特定实施方案如下。由众多或 一 系列 一见频画面202,204组成的#见频 流作为输入被送到本发明的系统,如图2所示。对象检测器206,208 在两个或多个一见频画面202,204之中(之上)才企测至少 一个对象。跟 踪才莫块220在多个画面202,204上识别和跟踪该^皮4企对象。
该视频流也用结构模型发生器进行分析。结构模型发生器根 据带宽消耗、结构和运动分析该视频流。产生几种结构的模型。 能进 一 步缩减的结构模型被增强以便包括运动、变形和照明模型。
结构模型用来将视频画面202,204的空间区域分类,使之属于 一个才莫型或另 一个才莫型。才莫型分配有效地暗示浮见频流的空间拆分。这是在图2中举例说明的,因为拆分程序230将与#皮4企对象相 对应的象素数据从两个或多个3见频画面202,204的其它象素数据 中(按空间和/或按时间)拆分出来。对象象素数据232,234产生。
对应关系模型制作器224识別在一个视频画面202中被检对 象的元素(特征)并且识别在第二视频画面204中该被检对象分别 对应的元素222。接下来,该对应关系模型制作器224分析已识别
选使用视频画面202,204之间的以外观为基础的运动评估。已确定 的关系定义工作对应关系才莫型224。优选的是,(用于前面用图4 讨^仑过的整体运动和整体配准的)多维投射运动才莫型的强健评估 被用来产生对应关系模型224。
此外,本发明的系统整合已确定的对应元素之间的关系以便 形成被检对象的整体运动模型。优选这是作为规范化(再次抽样) 程序240的一部分完成的。规范化程序240提取有与整体结构、局 部变形、整体运动和姿势以及照明相关联的任何变化的#见频画面 202,204的空间区域的公因子。剩余的变化被视为被4全对象的"外 观"。请注意多样的规范化平面用来建立外观模型。
当使用最佳的线性技术建立模型的时候,被检对象的规范化 外观呈现高度线性的特征。这些外观才莫型是使用(前面讨论过的) 适当的、连续的和"广义的"PCA产生的,该PCA产生非常紧凑 的对象外^见编码。优选,这种处理是在子波计算环境内完成的; 这将允许以类似于传统的纟见频压缩的方式处理4壬<可复杂的对象 模型(即,被检对象的结构模型、外观模型、运动模型)。
使用已知的用来依据运动评估结构的4支术与运动评估相结 合确定用于结构部分(随着时间逝去视频画面202,204的被检对象) 的候选结构。这导致定义被检对象的空间位置和取向并因此^是供结构模型和运动模型。
然后,外观模型表现未用结构模型和运动模型集体建模的被 检对象的特征和各个方面。在一个实施方案中,外观模型是随着 时间逝去结构变化的线性分解而且是通过vMv结构才莫型中除去整 体运动和局部变形定义的。申请人乂人每个^L频画面获得对象外 观,并且使用结构模型,向"规范化姿势"再次投影。"规范化 姿势"也将被称为一个或多个"主要"姿势。再次投影表达对象 的规范化版本而且产生任何外观变化。当给定的对象在视频画面
202,204之间出现转动或空间平移的时候,外观将被放置在单一主 要姿势(即,平均的规范化表达)中。外观模型也考虑到主要姿势 的主要变形(例如,峥眼/闭眼,张嘴/闭嘴,等等)。因此,外观模 型AM(a)是用主要姿势Pc和主要姿势Pc的主要变形Ac表达的,
<formula>formula see original document page 57</formula>此外,关于外观和照明建模,图像处理的永久挑战之一是在 变动的照明条件下跟踪对象。在图像处理中,反差规范化是给可
动)的图素亮度值变化建^t的程序。优选实施方案评估捕捉映傳^ 的照明条件下^皮;险对象的任意变化(即,给入射到该对象上的照 明建才莫)。这是通过3夺来自Lambertian Reflectance Linear Subspace(朗伯反射系数线性子空间)(LRLS)理i仑的原则与光学流 结合实现的。依照LRLS理-论,当对象^皮固定,优选只考虑照明 改变的时候,那组反射图像能用头九个球形谐波的线性组合近 似;因此该图像在周围的"图^象"矢量空间中接近9D线性子空间。 除此之外,图像象素(x,y)的反射亮度能被近似地表达如下。
取力=S <formula>formula see original document page 57</formula><吏用LRLS和光学流,计算期望<直以确定灯光与3于象如^f可互 动。这些期望值用来限制能解释光学流场变化的可能的对象运 动。当使用LRLS描述使用照明模型的对象外观的时候,允许外 观模型处理可能落在照明模型预测结果之外的任何外观变化仍 然是必要的。
结构模型、运动(变形)模型、照明模型和外观模型组合被统 称为"对象模型"。当给视频画面序列解码所需的对象模型在传 输的"接收器" 一边不可得的时候,外观建模退回到完成视频流 的子波编码。同时,发送器和4妻收器建立用一见频流的子波编码暗 示的对象模型的有限态模型。这考虑到随着视频流前进来自视频 流的对象冲莫型的预测结果和以对象为基础的压缩的才几会主义应 用。
关于运动(变形)模型,评估运动通常是计算无效的根源和导 出计算的偏差。在特定的实^4方案中,运动评估受运动(变形)才莫 型、结构模型和照明模型限制。这导致逐渐增加的计算效率和准 确性。LRLSi^艮踪器^皮用来确定用于每个^L频画面202,204的对象 姿势/位置变化作为对2D(网孔)运动评估的预测结果。为了通过姿 势评估预测所有象素的运动,反成分算法^皮应用于LRLS。
此外,申请人将子波处理从图#>序列分析扩充到其它空间领 域/矢量的序列。子波表达使部分处理能增加计算效率。对于外观 模型,子波处理在本发明的编码器中被延伸,以便处理外观模型 基础矢量的编码。该程序使象素在外观模型中根据入射的距离和 角度偏向来源照相积^殳影轴线。4妄下来,运动评估用来决定适合 一见频画面202某个部分的"结构"。该程序随着时间逝去3艮踪那 个结构,使所有象素的运动能依据姿势、运动和变形的评估含蓄 地预测。因此,进一步的运动 评估被设定初值。优选,这个结构 是借助上述的LRLS跟踪器跟踪的。在一 个优选实施方案中,变形(运动)建模和照明建模是在子 波处理里面完成的。压缩抽样与照明建;f莫结合。照明建^f莫用来定 义稀疏的^由样空间和在到达优化阈值的时4美结束抽样程序。当前 的凄t据样本用来预测保真度4交高的图^f象。
对象模型在视频场景上、独立的视频文件上和在接收器节点 的网络上的持久性进一 步呈现用来大大影响凭经验导出对象模 型的能力的机会。这些对象模型的管理在类似模型的巩固,对象 模型的再次瞄准,复杂拓朴关系的确认,模型的改版、检索和储 存方面为更大幅度地提高压缩和计算效率提供丰富的环境。
举例来说,当PCA被应用于视频数据时候,数据的编码由于 分析的经-验性质可能是相当紧凑的。这个经一验方面也〗吏用来症会数 据解码的"模型"变得相当大,借此将数据存储量从编码数据"偏 移"到经验模型。通过这些模型的连续分辨,预测算法能够产生 经驺"漠型而不需要明确地传输它们。
此外,当目标是明确:t也产生在^L频画面中出现的对象的结
构、变形、姿势、运动和照明的非常精确的模型的时候,从视频 流以经-险为主地产生对象才莫型是困难的。另一方面,只要最终目
标被限制在原始^L频流的合成,用这些相同的分析4支术产生暗示 模型就能产生非常有效的以对象为基础的压缩算法。
以对象为基础的压缩^皮期望当几个(时常是一个)对象呈现 在3见频凄t据中而且该对象和背景显才莫型可得的时候起最最理想 的作用。通过在子波计算环境中使用对象的暗示模型的概率表 达,本发明能"降低,,到相对于传统压缩非常有竟争力的编码水平。
最后,许多视频处理系统尝试利用捕获照相机的校准几何
59学,以便"解释,,捕获的视频数据。反之,以视频流本身为基础 给虚拟照相机的几何学含蓄地建模在压缩算法的"解释"能力方 面甚至产生更大的增益。本发明的压缩系统和方法能够过滤大量 的捕获数据而且能够以"原始的"照相机捕获能力不提供的空间 和时间分辨率"预测"凄t据的抽样。
以特^正为基础的压缩
在其它的改进实施方案中,"密集的"对象模型将与概率公 式组合。这种组合在保真度非常高的模型的使用(在这种情况下 残留误差无i仑如何都被传输,而且剩余部分的范围不因保真度增 加超过特定点而发生重大改变)和从前面讨^仑过的对应关系和对 象建才莫(这往往是有噪声的而且不必要地需要大量的的处理位)获 得的估计(举例来说。整体配准和运动)的 <吏用之间产生妥协。
简要地说,从前面讨论过的建模算法获得的对象才莫型为了除 去高频噪声被过滤。这种过滤是在三个维度(即,二维网孔空间 平面和整体运动平面)中^f昔助通过凄t据点的平面拟合完成的。这 是减少对象模型的不必要的变化的聚集方式。紋理被映射到这些
平面上而且误差^皮计算出来。随着新的^L频画面进来,该i吴差可 能开始增加,因为该平面模型不以足够的分辨率表现新的映像。 在这个阶段,平面的数目被适当地改变。这能在闭环中进行,直 到误差落到阈值以下。因此,对象模型仅仅必要时才被逐渐地改 进。这在视频图像的重建中以含蓄的方式提供传输比特率和失真 之间的折衷。
总的方法是产生低分辨率的对象模型(例如,对应关系和整体 运动才莫型),然后继续地精炼它。图15的方冲匡图描述该程序。3艮 踪和形状评估1501接受主题^L频数据(例如,^L频画面202,204)。 感兴趣的图像对象如同先前描述的那样被确认。在为数不多的画面中跟踪被检对象的特征点并且建立粗糙的对象模型(对应关系
和整体运动)1510。在一个实施方案中,这个三维才莫型1510是4吏 用上述的因式分解法为刚性对象的3D(空间和运动)模型建造的。
跟踪和形状评估模块1501将粗糙的对象模型1510输出到平 面近似器1503。因为粗糙的模型1510通常不是非常精确,所以平 面近似器1503使用许多平面近似某对象模型。平面的数目是从自 适应单元1507获得的。对于平面近似,对象才莫型的群集(^皮表达 为可变形的网孔模型)是首先完成的。然后,穿过每个群的中心 画3D平面。这产生该主题对象才莫型的近似值。
在回应中,误差单元1505计算再次才殳影误差。第一误差单元 1505把紋理映射到该平面近似上。然后,该紋理映射平面近似4皮 投影到图像平面上,而且关于原始图像的误差1508被计算出来。 才艮据再次^L影误差1508,决定是否需要增加用来表现对象一莫型的 平面凄t目。如果决定增加平面^目,增量^L则是^f昔助自适应单元 15074刀始^f匕的(例3口,增力口N)。
最后的输出是按需要的保真度改进的对象模型。再次投影误 差计算15 05能用以特定应用的需求为基础的专用模块代替。举例 来"i兑,在通信应用中,它能以对于有效地表达凄t据必不可少的位 数为基础。
因此,本发明的改进实施方案提供下列各项
1. 能根据应用或用户的需求以不同的分辨率获得工作对 象模型的3D建模方法。
2. 虽然大多凄t方法试着乂人来源4见频数据得到可能的最好 的对象模型,但是申请者逐渐增加地和自适应地精炼该对象才莫型。这与精确的对象建模程序相比计算要少得多。
3. 本发明的方法不需要预先的图像对象知识而且能用于 整个对象、宏模块或整个场景。
4. 再次投影误差的计算能在不需要影响本发明程序(图15) 的其它步骤的情况下以应用为基础被其它措施代替。
5. 专用判据能被合并以便决定用于对象模型的平面数目, 这也是停止判据。
6. 该程序自动地通过群集程序插入噪音弹性。
图10举例说明能实现本发明的计算才几网络或类似的#t字处 理环境。
客户计算机/装置50和服务器计算机60提供运行应用程序的 处理装置、存储装置和输入/输出装置。客户计算机/装置50也能 通过通信网络70与其它的计算才几装置(包括其它的客户装置/程序 50和服务器计算机60)链接。通信网络70可能是现在使用各自的 协议(TCP/IP, Bluetooth,等等)4皮此通信的远程存取网络、全球 网络(例如,英特网)、全世界的计算机集合、局域网或广域网和 网关的一部分。其它的电子装置/计算机网络体系结构是适当的。
图11是在图10的计算机系统中计算机(例如,客户处理器/装 置50或服务器计算机60)的内部结构图。每台计算机50,60都包含 系统总线79,该总线是一组在计算才几组成部分或处理系统当中用 来传输数据的硬件线。总线79本质上是把计算机系统的不同元素 (例如,处理器、磁盘存储器,存储器、输入/输出口、网口,等 等)连接起来准许传输数据的共享导线。附着到系统总线79上的 是用来把各种不同的输入和输出装置(例如,4建盘、鼠标、显示器、打印机、扬声器,等等)与计算机50,60连接起来的输入/输 出装置4妄口82。网结-接口86允许计算才几与附着在网络(例如,图 IO的网络70)上的各种不同的其它装置连接。存储器90为用来实 现本发明的实施方案(例如,在图2和其它附图中前面详细说明过 的线性分解、空间拆分、空间的/可变形的网孔A见范化和其它基于 对象的编码处理)的计算机软件指令9 2和数据9 4准备易失性存 储。磁盘存储器9 5为用来实现本发明的实施方案的计算机软件指 令92和数据94准备非易失性存储。中央处理器84也附着在系统总 线79上并且准备运行计算机指令。
在一个实施方案中,处理器例行程序92和数据94是电脑程序 产品(通常参考数字为92),包括为本发明的系统至少准备一部分 软件指令的计算才几易读的J 某体(例如,可移开的存4诸々某体,例如, 一个或多个DVD-ROM、 CD-ROM、软盘、 -磁带,等等)。电脑程 序产品9 2能借助技术上众所周知的任何适当的软件安装程序安 装。在另一个实施方案中,至少一部分软件指令也可能是从电缆、 通信和/或无线连4妄上下载的。在其它的实施方案中,本发明的程 序是在传播媒体(例如,在英特网之类的全球网络或其它网络上 传播的无线电波、红外波、激光波、音波或电波)上用传播信号 具体表达的电脑程序传播信号产品107。这样的载体々某体或信号 至少为本发明的例行程序/程序92准备一部分软件指令。
在替代实施方案中,传播信号是在传播媒体上运送的模拟载 波或数字信号。举例来说,传播信号可能是在全球网络(例如, 英特网)、远程通^f言网络或其'它网络上传^燔的^t字化信号。在一 个实施方案中,传播信号是在传播^^某体上遍及某个时间周期传输 的信号,例如,在网络上按毫秒、秒、数分钟或更长的周期打包 发送的软件应用程序的指令。在另一个实施方案中,电脑程序产 品92的计算机易读4某体是计算机系统50可能接受和读出的传播媒体,例如,通过接受该传播媒体并且识别在该传播:煤体上具体 表达的传播信号,如同前面针对电脑程序传播信号产品所描述那样。
一般地说,术语"载体媒体"或短暂的载体包括上述的瞬态 信号、传播信号、传播媒体、存储媒体,等等。
虽然这项发明已参照其优选实施方案^皮具体i也展示和描述, 但是熟悉这项:技术的人将理解在形式和细节方面各种不同的改 变可以在不脱离权利要求书所嚢括的发明范围的情况下完成。
举例来i兌,不同的计算才几体系结构是适当的。上述的计算才几 网络和系统组成部分是为了举例说明的目的而不是作为限制。
6权利要求
1. 一种用来处理来自众多视频画面的视频信号数据的计算机实现方法,该方法包括检测在两个或多个给定的视频画面中的对象,每个视频画面都是由象素数据构成的;通过那两个或多个视频画面跟踪被检对象;将与被检对象相对应的象素数据与那两个或多个视频画面中的其它象素数据分割开来,以便产生该视频信号数据的第一中间形式,该分割利用象素数据的空间分割;产生被检对象的元素对应关系模型,每个对应关系模型使被检对象在一个视频画面中的元素与该被检对象在另一个视频画面中的对应元素发生关系;以及使用该对应关系模型,使分割后的象素数据规范化,所述的规范化包括建立被检对象的整体运动模型和导致对在两个或多个视频画面中与被检对象相对应的象素数据再次抽样,再次抽样的象素数据提供作为输出规范化的视频信号数据的以对象为基础的编码形式;以对象为基础的编码形式能借助下列步骤解码(i)利用对应关系模型恢复再次抽样象素数据的空间位置,借此产生与被检对象相对应的恢复象素;以及(ii)以视频信号数据的第一中间形式将恢复的象素数据与其它象素数据再次结合在一起再次形成最初的视频画面;而且其中产生对应关系模型包括评估多维投影运动模型。
2. 根据权利要求1的方法,其中产生对应关系模型的步骤包括识别^皮4全对象在^会定的两个或多个^L频画面中的对应元素;分冲斤乂于应元素产生乂于应元素之间的关系;以及^使用所产生的对应元素之间的关系形成对应关系才莫型;其中分冲斤对应元素包括在两个或多个^L频画面之间使用 以外观为基础的运动评估。
3. 根据权利要求2的方法,其中建立整体运动模型包括将所产 生的对应元素之间的关系整合成整体运动才莫型。
4. 根据权利要求1的方法,其中检测和跟踪包括使用脸部才企测 算法。
5. 根据权利要求l的方法,进一步包括压缩再次抽样的象素数 l居,该压缩包4舌将再次抽样的象素lt据分解成编码表达,截去该编码表 达的零或多个字节;以及利用截短的编码表达重组再次抽样的象素数据;其中分解和重组每个都4吏用主成分分析。
6. 根据权利要求l的方法,进一步包括将对应关系模型因素因 式分解成多个整体模型,包括将对应元素之间的关系整合成整体运动模型;将再次抽样的象素数据分解成编码表达;截掉该编码表达的零或多个字节;以及利用截短的编码表达重组再次抽样的象素lt据;其中分解和重组每一个都4吏用主成4分分冲斤;其中产生对应关系才莫型包括 使用以两个或多个3见频画面之间基于区#殳的运动评估所产生的有限差分为基础的抽样 总体来分析对应的元素。
7. 根据权利要求6的方法,其中两个或多个视频画面每个都有 对象象素和非对象象素,该方法进一步包括识别在两个或多个视J贞画面中非乂寸象象素的只于应元素;分析非对象象素中的对应元素和产生非对象象素的对应 元素之间的关系;以及4吏用所产生的非对象象素的对应元素之间的关系形成第 二对应关系模型;其中分析非对象象素的对应元素的步骤-使用基于时间的 遮挡滤波器。
8. 根据权利要求l的方法,进一步包括将对应关系模型因式分解成整体变形模型;将对应元素之间的关系整合成整体运动才莫型;将再次抽样的象素数据分解成编码表达,截4卓该编码表 达的零或多个字节;以及依据截短的编码表达重组再次抽样的象素数据;其中分解和重组每个都Y吏用传统的浮见频压缩/解压缩禾呈 序;而且其中产生乂十应关系才莫型包括 使用以两个或多个朝L频画面 之间基于区段的运动评估所产生的有限差分为基础的抽样 总体来分析对应的元素。
9. 根据权利要求l的方法,其中规范化步骤借助下列步骤将对 应关系模型因式分解成局部变形模型定义覆盖与被检对象相对应的象素数据的二维网孔,该 网孑L以有顶点和边纟彖的^见则4册格为基础;以及依据对应元素之间的关系创造局部运动模型,该关系包 括以依据两个或多个视频画面之间基于区段的运动评估所 产生的有限差分为基础的顶点位移。
10. 根据权利要求9的方法,其中顶点与离散的图像特征相对应, 定义二维网孔的步骤以对象在视频画面中的图像亮度梯度 为基础进一 步识别与被;险对象相对应的重要图 <象特4正。
11. 根据权利要求9的方法,其中所创造的局部运动模型以不能 用整体运动模型近似的剩余运动为基础。
12. —种依据众多#见频画面产生视频信号数据的编码形式的计 算才几实3见方法,该方法包4舌在众多 一见频画面中的两个或多个^L频画面中才全测乂寸象, 每个一见频画面都是由象素ft据构成的;通过两个或多个纟见频画面3艮踪#皮4全对象,该#皮纟企对象有 一个或多个元素;对于在一个#见频画面中被4全对象的元素,识别在其它牙见 频画面中^皮才全对象的对应元素;分才斤该只于应元素以产生对应元素之间的关系;使用所产生的对应元素之间的关系形成用于该一皮4全对象 的对应关系模型;利用所形成的对应关系才莫型和可变形的网孔4吏在两个或 多个4见频画面中与祐:才全对象相对应的象素凄t据^见范化,所述的头见范化产生表现一见频信号数据的以对象为基础的编码形式的再次^由冲羊象素凄t据;以及呈递该频信号tt据的基于对象的编码形式供以后^f吏用, 该基于对象的编码形式准许利用对应关系模型恢复再次抽 样象素数据的空间位置和产生恢复后的被检对象象素数据;其中检测和跟踪都包括使用Viola/Jones脸部4企测算法和 主成分分析中的任何一项或组合。
13. 根据权利要求12的方法,进一步包括在两个或多个3见频画面中^!夺与^皮^r^f象相对应的象素翁: 据与其它的象素数据分割开,从而导致该视频信号tt据的第 一中间形式,该分割利用时间整合;而且该基于对象的编码形式进一步准许将恢复的象素lt据与 该-现频信号凄t据的第 一 中间形式的一部分重新组合在一起 再次产生最#刀的^见步贞画面。
14. 根据权利要求12的方法,进一步包括通过将所产生的对应 元素之间的关系整合成整体运动模型将对应关系模型因式 分解成整体^t型的步骤;其中形成对应关系模型的步骤使用适合求解二维仿射 运动冲莫型的强健的抽样共识,而分4斤对应元素的步艰M吏用以 依据两个或多个 一见频画面之间的基于区l殳的运动;平估产生 的有限差分为基础的抽样总体。
15. 4艮据权利要求12的方法,进一步包括通过下列步-骤压缩再 次抽样的象素数据将再次抽样的象素数据分解成编码表达, 截掉该编码表达的零或多个字节,以及利用截短的编码表达重组再次抽样的象素数据; 其中分解和重组都4吏用主成分分坤斤。
16. 4艮据权利要求12的方法,进一步包括通过下列步骤将对应 关系模型因式分解成整体变形模型将所产生的对应元素之间的关系整合成整体运动才莫型,将再次抽样的象素数据分解成编码表达,截掉编码表达的零或多个字节,以及利用截短的编码表达重组再次抽样的象素数据;其中分解和重组都4吏用主成分分4斤;形成对应关系模型的步骤使用适合求解二维仿射运动模 型的强健的^由才羊共识,而分析对应元素的步驶《使用以,人两个 或多个视频画面之间的基于区段的运动评估中产生的有限 差分为基础的抽样总体。
17. 根据权利要求16的方法,其中两个或多个一见频画面之中的 每个画面都包^l舌对象象素婆t据和非对象象素^:据,该方法进 一步包括识别在两个或多个3见频画面中非对象象素凄史据的乂寸应元素;分析非对象象素数据的对应元素产生非对象象素数据中 只于应元素之间的关系;使用非对象象素数据中对应元素之间的关系产生第二对 应关系模型;其中分析非对象象素凄史据中的对应元素包括以时间为基 础的遮挡滤波器。
18. 根据权利要求12的方法,进一步包括将对应关系模型因式分解成整体变形模型;将对应元素之间的关系整合成整体运动模型;将再次抽样的象素lt据分解成编码表达,截掉编码表达 的零或多个字节;以及利用截短的编码表达重组再次抽样的象素数据;其中分解和重组都4吏用传统的#见频压缩/解压缩处理;其中形成对应关系模型使用适合求解二维仿射运动模型 的强健的抽样共识,而且其中分4斤对应元素4吏用以/人两个或多个一见频画面之间的 基于区段的运动评估中所产生的有限差分为基础的抽样总体。
19. 根据权利要求12的方法,进一步包括将对应关系模型因式 分解成局部变形模型,包括定义覆盖与^皮;险对象相对应的象素的二维网孔,该网孔 以有顶点和边缘的A见则一册才各为基础;以及利用对应元素之间的关系产生局部运动才莫型,该关系包 4舌以依才居两个或多个^L步页画面之间的以区,炎为基石出的运动 评估所产生的有限差分为基础的顶点位移。
20. 根据权利要求19的方法,其中顶点与离散的图像特征相对 应,该方法包括通过使用图像梯度Harris响应分析识别与被 才企对象相对应的重要的图^f象特征。
21. 根据权利要求19的方法,其中所产生的局部运动模型以不 能用整体运动模型近似的剩余运动为基础。
全文摘要
这项发明描述用来处理视频数据的装置和方法。本发明提供一种视频数据的表达,该数据表达能用来评定数据与用于数据的特定参数表达的拟合模型之间的一致性。这允许比较不同的参数化技术和选择适合该特定数据的连续视频处理的最佳技术。该表达能以中间形式作为较大程序的一部分或作为反馈机制被用于处理视频数据。当以它的中间形式被利用的时候,本发明能被用于视频数据的储存、增强、提炼、特征提取、压缩、编码和传输的程序。本发明可用来以强健有效的方式提取显著的信息,同时确定通常与视频数据来源相关联的问题的地址。
文档编号H04N7/26GK101536525SQ200780025671
公开日2009年9月16日 申请日期2007年6月7日 优先权日2006年6月8日
发明者查尔斯·保罗·佩斯 申请人:欧几里得发现有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1