自适应图片组(agop)结构确定的制作方法

文档序号:7942501阅读:237来源:国知局
专利名称:自适应图片组(agop)结构确定的制作方法
技术领域
本发明涉及视频数据的编码,且更确切地说,涉及自适应地确定视频数据的图片 组(GOP)结构。
背景技术
已建立用于对数字视频序列编码的若干不同视频编码标准。举例来说,运动图 片专家组(MPEG)已开发出若干标准,包括MPEG-I (第2部分)、MPEG-2(第2部分)及 MPEG-4(第2部分)。其它实例包括国际电信联盟(ITU-T)H. 261及H. 263标准及也在MPEG-4 第10部分中陈述的标题为“高级视频编码,AVC(Advanced Video Coding, AVC) ”的ITU-T H. 264标准。这些视频编码标准通常通过以压缩方式对数据进行编码而支持视频序列的改 进的传输及存储效率。压缩减少需要传输或存储以供有效传输或存储视频帧的数据总量。 在许多情形(包括视频串流、视频摄录机、个人视频记录器(PVR)、数字视频记录器(DVR)、 视频电话(VT)、视频会议、视频CD (VCD)及数字通用/视频光盘(DVD)上的数字视频分配及 视频广播应用)下,经由有线及无线传输媒体两者且在磁性及光学存储媒体两者上使用视 频编码。MPEG-1、MPEG-2、MPEG-4、ITU-T H. 261、ITU-T H. 263 及 ITU-T H. 264 标准支持利 用连续视频帧之间的相似性(被称作时间或帧间相关)的视频编码技术以提供帧间压缩。 这些标准还支持利用个别视频帧内的相似性(被称作空间或帧内相关)的视频编码技术以 提供帧内压缩。帧间压缩技术通过将视频帧的基于像素的表示转换为基于像素块的平移运 动表示来跨越邻近或紧密间隔的视频帧而采用数据冗余。使用帧间技术来编码的视频帧通 常被称作P( “经预测的”)帧或B( “双向预测性”)帧。使用空间压缩来编码通常被称作 1(“帧内”)帧的一些帧,其可为非预测性的(亦即,如在H. 264前标准中,仅基于变换编码) 或预测性的(亦即,如在H. 264中,基于空间预测及变换编码两者)。此外,一些帧可包括经 帧内编码的块与经帧间编码的块两者的组合。这些编码标准提供非常适于无线视频广播应 用的高度有效的编码。在使用上文提及的有效编码标准中的任一者来执行编码之前,编码装置可将所接 收的视频序列分割为包括多个帧的图片组(GOP)结构。编码装置可接着在对视频数据进行 编码以用于传输或存储之前确定GOP结构中所包括的帧中的每一者的图片编码类型。以图 片编码类型来确定GOP结构对于编码效率而言是重要的。因此,不仅对先前未压缩的原始 视频数据起作用的编码方案受益于GOP结构确定。对先前压缩的视频数据起作用的代码转 换方案也可受益。举例来说,无线视频广播所需要的一些视频数据(例如,数字电视信号) 是以其原始形式使用例如MPEG-2 (第2部分)的不提供当前最有效的压缩的视频编码标准 来编码的。在此情况下,代码转换器可将视频数据转换为例如ITU-TH. 264的提供较有效的 压缩以用于无线视频广播的编码标准。为转换视频数据,代码转换器可首先将视频数据从 第一编码标准解码,且可接着在使用较适用于无线视频广播的第二编码标准来对视频数据 进行重新编码之前将视频序列分割为GOP结构且执行GOP结构确定。
因为视频信号随时间改变其统计性质,所以编码装置应调适GOP结构以便在对于 最有效压缩而言所可能的最大程度上采用可用的时间冗余。总地来说,编码装置基于周围 帧的内容及对例如剪辑场景改变(cut scene change)、闪光帧(flash frame)、交叉淡化 (cross-fade)及相机摇摄(pan)与卷动(scroll)的视频转变效果的识别来自适应地确定 GOP结构内的候选帧的图片编码类型。现有自适应GOP (AGOP)结构确定方法包括使用直方 图或方差测量、基于边缘确定的算法及基于运动向量场演变或时间预测效率量度的算法来 分析亮度信号及色度信号两者的统计特征。然而,现有AGOP结构确定方法对于实现日益复 杂的无线视频广播应用所需要的有效压缩而言可能不够准确。

发明内容
总地来说,本发明是针对用于基于视频序列中所包括的多个帧之间的交叉相关来 确定所述帧中的每一者的图片编码类型的技术。更具体来说,所述技术可基于图片组(GOP) 结构中所包括的帧之间的交叉相关来自适应地确定所述帧的图片类型。所述交叉相关包括 所述视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关及若干对所述第 一阶交叉相关之间的第二阶交叉相关。可分析所述第一阶交叉相关以检测所述帧之间的视 频转变效果。可比较分析所述第一阶交叉相关及所述第二阶交叉相关以确定相邻帧之间的 时间相似性。因此,基于相关的确定技术基于所述视频转变效果及所述时间相似性将所述 帧的图片类型确定为P( “经预测的”)、B( “双向预测性”)或1( “帧内”)图片。在一个方面中,一种基于图像相关的确定技术计算所述视频序列中所包括的若干 对帧内的图像之间的所述第一阶交叉相关。所述基于图像相关的确定技术可确定全帧的图 片类型。在另一方面中,一种基于子图像相关的确定技术计算所述视频序列中所包括的若 干对帧内的子图像(例如,宏块)的集合之间的所述第一阶交叉相关,且在所述若干对帧中 的每一对帧的所述子图像的全部或一部分上求所述交叉相关的平均值。此外,可将所述视 频序列中所包括的所述帧中的每一者划分为多个片断以使得所述基于子图像相关的确定 技术可确定所述帧中的每一者的所述个别片断的图片类型。可在由实时或非实时编码装置利用的基于相关的自适应图片组(AGOP)结构确定 模块内执行本文中所描述的技术。在一些方面中,可使用所述基于相关的AGOP结构确定模 块作为在实时编码装置中实施的其它AGOP结构确定方法可与之比较的离线基准。在其它 方面中,所述基于相关的AGOP结构确定模块可在实时或非实时编码装置中实施。在实时编 码装置的情况下,可通过适当的复杂性降低来实施所述基于相关的AGOP结构确定模块以 使得能够进行对图片类型的实时确定。作为一实例,可由实时或非实时代码转换器利用所述基于相关的AGOP结构确定 模块以用于对先前压缩的视频数据进行重新编码。所述代码转换器可通过例如ITU-TH. 264 的提供有效的帧间及帧内压缩的编码标准来对所述视频数据重新编码。所述技术可尤其 适用于需要高度有效的数据压缩的无线视频广播应用。作为另一实例,可由对先前未压缩 的原始视频数据起作用的实时或非实时、单遍或多遍视频编码器利用所述基于相关的AGOP 结构确定模块。在一个方面中,本发明提供一种方法,其包含计算视频序列中所包括的若干对帧 内的图像信息之间的第一阶交叉相关及计算若干对所述第一阶交叉相关之间的第二阶交叉相关。所述方法进一步包含基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述 视频序列中所包括的所述帧中的每一者的图片类型。在另一方面中,本发明提供一种装置,其包含相关器,所述相关器计算视频序列中 所包括的若干对帧内的图像信息之间的第一阶交叉相关且计算若干对所述第一阶交叉相 关之间的第二阶交叉相关。所述装置还包括图片类型确定模块,所述图片类型确定模块基 于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所述帧中 的每一者的图片类型。在另一方面中,本发明提供一种包含计算机可读媒体的计算机程序产品,所述计 算机可读媒体包含指令。所述指令使计算机计算视频序列中所包括的若干对帧内的图像信 息之间的第一阶交叉相关,计算若干对所述第一阶交叉相关之间的第二阶交叉相关且基于 所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所述帧中的 每一者的图片类型。在又一方面中,本发明提供一种装置,其包含用于计算视频序列中所包括的若干 对帧内的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的第二阶交 叉相关的装置。所述装置还包含用于基于所述第一阶交叉相关及所述第二阶交叉相关来确 定所述视频序列中所包括的所述帧中的每一者的图片类型的装置。在另一方面中,本发明提供一种无线通信装置手持机,其包含相关器,所述相关器 计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关且计算若干对所 述第一阶交叉相关之间的第二阶交叉相关。所述手持机进一步包含图片类型确定模块,所 述图片类型确定模块基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序 列中所包括的所述帧中的每一者的图片类型。在又一方面中,本发明提供一种包含至少一个处理器的用于处理数字图像数据的 集成电路装置,所述至少一个处理器经配置以计算视频序列中所包括的若干对帧内的图像 信息之间的第一阶交叉相关,计算若干对所述第一阶交叉相关之间的第二阶交叉相关且基 于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所述帧中 的每一者的图片类型。在一额外方面中,本发明提供一种系统,其包含编码装置,所述编码装置包括将视 频数据分割为包括多个帧的GOP结构的GOP分割器及实时地确定所述GOP结构中所包括的 所述帧的图片类型的AGOP结构确定模块。所述系统还包括定位在所述代码转换器外部的 基于相关的AGOP结构确定模块,其基于所述GOP结构中所包括的若干对帧内的图像信息之 间的第一阶交叉相关及若干对第一阶交叉相关之间的第二阶交叉相关来确定所述帧的基 准图片类型。所述系统进一步包含基准比较器,其将所述图片类型与所述基准图片类型比 较以确定所述集成在所述编码装置中的AGOP结构确定模块的准确度。在另一方面中,本发明提供一种编码装置,其包含GOP分割器,所述GOP分割器将 视频数据分割为包括多个帧的GOP结构。所述编码装置还包含基于相关的AGOP结构确定 模块,其基于所述GOP结构中所包括的若干对帧内的图像信息之间的第一阶交叉相关及若 干对第一阶交叉相关之间的第二阶交叉相关来实时地确定所述帧的图片类型。在一种情况 下,所述编码装置可包含对先前压缩的视频数据起作用的实时或非实时代码转换器。在另 一情况下,所述编码装置可包含对先前未压缩的原始视频数据起作用的实时或非实时编码ο本发明中所描述的技术可以硬件、软件、固件或其任一组合实施。如果以软件实 施,则所述软件可在计算机中执行。起初可将所述软件存储为指令、程序代码或其类似物。 因此,本发明还预期一种包含计算机可读媒体的用于处理视频数据的计算机程序产品,其 中所述计算机可读媒体包含用于使计算机执行根据本发明的技术及功能的指令。或者,如 果以硬件实施,则所述硬件实施方案可为数字的、模拟的或两者兼有。本发明的方面可在计 算机可读媒体或包含计算机可读媒体的计算机程序产品中实施。计算机程序产品可包括封 装材料。在随附图式及以下描述中阐明了各种实例的额外细节。其它特征、目标、优势及实 例将通过描述及图式且通过权利要求书变得显而易见。


图1为说明作为在实时代码转换器中实施的AGOP结构确定模块可与之比较的离 线基准的基于相关的AGOP结构确定模块的示范性实施的框图。图2为说明在实时代码转换器中实施的基于相关的AGOP结构确定模块的示范性 实施的框图。图3为说明作为在实时编码器中实施的AGOP结构确定模块可与之比较的离线基 准的基于相关的AGOP结构确定模块的示范性实施的框图。图4为说明在实时编码器中实施的基于相关的AGOP结构确定模块的示范性实施 的框图。图5为说明作为由实时编码装置利用的离线基准的来自图1及图3的基于相关的 AGOP结构确定模块的示范性操作的流程图。图6为说明在实时或非实时编码装置中实施的来自图2及图4的基于相关的AGOP 结构确定模块的示范性操作的流程图。图7为更详细地说明来自图1到图4的基于相关的AGOP结构确定模块的框图。图8A到图8C为说明视频序列中所包括的帧之间的第一阶交叉相关及第二阶交叉 相关的图式。图9为说明来自图7的基于相关的AGOP结构确定模块中所包括的相关器的示范 性实施的框图。图10为说明来自图7的基于相关的AGOP结构确定模块中所包括的相关器的另一 示范性实施的框图。图11为说明来自图7的基于相关的AGOP结构确定模块中所包括的相关分析器的 示范性实施的框图。图12为说明作为来自图11的相关分析器中所包括的视频转变检测器的一部分的 紧凑支持事件检测器的框图。图13为说明作为来自图11的相关分析器中所包括的视频转变检测器的一部分的 扩展支持事件检测器的框图。图14为说明作为来自图11的相关分析器中所包括的视频转变检测器的一部分的 全局运动检测器的框图。
18
图15为说明基于相关的AGOP结构确定模块基于图像交叉相关来确定视频序列中 所包括的帧的图片类型的示范性操作的流程图。图16为说明基于相关的AGOP结构确定模块基于子图像交叉相关来确定视频序列 中所包括的帧的图片类型的示范性操作的流程图。图17为说明包括剪辑场景改变指纹及闪光帧指纹的来自图12的紧凑支持事件检 测器的输出的曲线图。图18为说明包括部分场景改变指纹的来自图12的紧凑支持事件检测器的输出的 曲线图。图19为说明包括交叉淡化指纹的来自图13的扩展支持事件检测器的输出的曲线 图。图20A及图20B为说明包括相机摇摄指纹及相机卷动指纹的来自图14的全局运 动检测器的输出的曲线图。
具体实施例方式本发明描述用于基于视频序列中所包括的多个帧之间的交叉相关来确定所述帧 中的每一者的图片类型的技术。所述交叉相关包括所述视频序列中所包括的若干对帧内 的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的第二阶交叉相关。 可分析所述第一阶交叉相关以检测所述帧之间的视频转变效果,例如,剪辑场景改变、闪光 帧、交叉淡化及相机摇摄与卷动。可比较分析所述第一阶交叉相关及所述第二阶交叉相关 以确定所述帧之间的时间相似性。因此,所述基于相关的确定技术基于所述视频转变效果 及所述时间相似性来确定所述帧的图片类型。所述基于相关的确定技术可计算若干对帧内 的图像之间或若干对帧内的子图像(例如,宏块)的集合之间的第一阶交叉相关,在所述若 干对帧中的每一对帧的所述子图像的全部或一部分上求所述第一阶交叉相关的平均值。更具体来说,所述技术可基于图片组(GOP)结构中所包括的帧之间的交叉相关来 自适应地确定所述帧的图片类型。GOP结构基于帧内及帧间编码技术而将视频数据的长序 列分割为可管理的数据集合。举例来说,GOP结构通常以I (“帧内”)帧开始,继之以P(“经 预测的”)帧(其指的是先前I及P帧)或B( “双向预测性”)帧(其指的是先前及后续I 及P帧)。在一些情况下,GOP结构可为闭合式的,以使得GOP结构中所包括的帧形成可在 不参考GOP结构外的帧的情况下完全解码的自含单元。在其它情况下,GOP结构可为开放 式的,以使得GOP结构中所包括的帧可参考GOP结构外的帧。可在基于相关的自适应图片组(AGOP)结构确定模块内执行本文中所描述的技 术,所述基于相关的自适应图片组(AGOP)结构确定模块能够确定GOP结构中所包括的多 个帧中的每一者的图片类型且更新所述GOP结构以指定所述帧中的每一者的所确定的图 片类型。从编码效率的观点来说,本文中所描述的基于相关的AGOP结构确定技术在确定 GOP结构中所包括的帧的图片类型时实现高水平的准确度且可被视为AGOP结构确定技术 的“黄金标准”。基于相关的AGOP确定模块的输出展现时间相似性量度的直观行为且以高 敏感度提供关于相关动态特性的信息。此外,基于相关的AGOP确定模块的性能在很大程度 上取决于帧内容、速率-失真最佳化特性及编码带宽机制(encodingbandwidth regime)特 性。
19
图1为说明作为在实时代码转换器10中实施的AGOP结构确定模块18可与之比 较的离线基准的基于相关的AGOP结构确定模块22的示范性实施的框图。代码转换器10 可至少部分形成为可被统称为集成电路装置的一个或一个以上集成电路装置。在一些方面 中,代码转换器10可形成例如移动电话的无线通信装置手持机的一部分。如图1中所说明, 代码转换器10包括解码器11、预处理器12及编码器14。预处理器12包括GOP分割器16 且编码器14包括AGOP结构确定模块18。在其它实施方案中,可在预处理器12与编码器 14之间划分AGOP结构确定模块18的功能。代码转换器10从视频数据提供者接收包括经编码的视频数据的视频序列。视频 序列可包含使用一视频编码标准来编码的视频数据,所述视频编码标准不支持最有效地利 用连续帧之间或单个帧内的相似性的算法。举例来说,视频序列可包含使用MPEG-2 (第2 部分)来编码的数字电视数据,所述MPEG-2(第2部分)不提供当前最有效的帧间及帧内 压缩。然而,许多视频应用(特别是无线视频广播应用)需要由例如ITU-T H. 264的更高 级的编码标准提供的高度有效的数据压缩,所述更高级的编码标准通过较复杂的算法来利 用帧间及帧内的数据冗余。因此,代码转换器10可将视频序列转换为另一更高级的编码标 准。举例来说,代码转换器10可对所述视频序列进行重新编码以使视频帧对无线视频广 播、有效存储或需要高度有效的数据压缩的其它应用或服务作好准备。为了转换视频序列,解码器11将视频序列从较低效的原始编码标准解码。预处理 器12内的GOP分割器16接着将经解码的视频序列分割为包括多个帧的GOP结构。GOP分 割器16可根据基于使得能够进行视频序列的均勻I帧间隔的随机存取的预定GOP结构大 小或根据使得能够进行视频序列内的I个帧的随机存取的随机定位而将经解码的视频序 列分割为帧群组。举例来说,GOP分割器16可将经解码的视频序列分割为约三十个帧的若 干群组,其中每一群组以一 I帧开始。编码器14内的AGOP结构确定模块18确定由GOP分割器16产生的GOP结构中所 包括的帧中的每一者的图片类型。AGOP结构确定模块18可执行任何非基于相关的AGOP结 构确定技术。举例来说,AGOP结构确定模块18可使用直方图或方差测量、基于边缘确定的 算法或基于运动向量场演变或时间预测效率量度的算法来执行对亮度信号及色度信号的 统计特征的分析以确定GOP结构中所包括的帧的图片类型。编码器14接着使用所要编码标 准来对帧进行重新编码且将所述经重新编码的帧发送到发射器以用于无线视频广播、发送 到存储装置以用于存储或发送到其它设备以用于需要高度有效的数据压缩的应用或服务。根据本发明的一方面,基于相关的AGOP结构确定模块22可定位在代码转换器10 外部以作为在代码转换器10中实施的AGOP结构确定模块18可与之比较的离线基准。基 于相关的AGOP结构确定模块22基于由GOP分割器16产生的GOP结构中所包括的帧之间 的交叉相关来确定所述帧中的每一者的基准图片类型。由基于相关的AGOP结构确定模块22执行的交叉相关计算可包括GOP结构中所包 括的若干对帧内的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的 第二阶交叉相关。可在像素域中计算第一阶交叉相关计算。可分析所述第一阶交叉相关以 检测所述帧之间的视频转变效果。可比较分析所述第一阶交叉相关及所述第二阶交叉相关 以确定相邻帧之间的时间相似性。以此方式,基于相关的AGOP结构确定模块22基于视频 转变及时间相似性来确定所述帧的图片类型。
视频转变效果指用以从一视频序列的当前场景转变到同一视频序列的另一场景 或另一视频序列的另一场景的视觉视频效果。总地来说,可将视频转变效果划分为三类例 如剪辑场景改变、镜头边界及闪光帧的紧凑支持效果(compact support effect);例如交 叉淡化及溶解(dissolve)的扩展支持效果;及例如相机摇摄与相机卷动的全局运动效果。 时间相似性指当前帧与相邻帧之间的图像内容或细节重复程度。测量时间相似性可帮助确 定当前帧是否包括适于编码为P、B或I图片的内容。举例来说,如果当前帧不类似于任何 相邻帧,则应将当前帧编码为I图片。如果当前帧类似于先前相邻帧但不类似于后续相邻 帧,则应将当前帧编码为P图片。如果当前帧类似于先前相邻帧及后续相邻帧,则应将其编 码为P图片或B图片。在一个方面中,基于相关的AGOP结构确定模块22计算所述GOP结构中所包括的 若干对帧内的图像之间的第一阶交叉相关。第一阶图像交叉相关识别所述若干对帧之间的 全局(亦即,总体)相似性及全局移动的量,但不识别在帧内在较小规模的子图像处发生的 移动。在此情况下,基于相关的AGOP结构确定模块22可确定全帧的图片类型。在另一方面中,基于相关的AGOP结构确定模块22计算GOP结构中所包括的若干 对帧内的子图像(例如,宏块)的集合之间的第一阶交叉相关且在所述若干对帧中的每一 对帧的子图像的全部或一部分上求所述交叉相关的平均值。第一阶子图像交叉相关识别所 述若干对帧之间的子图像相似性及移动量,且识别在帧内于何处发生移动。在此情况下,基 于相关的AGOP结构确定模块22通过添加填充像素来填充子图像集合中的每一子图像以实 现共同图像大小。以此方式,基于相关的AGOP结构确定模块22可使第一帧内的经填充的 子图像中的每一者与第二帧内的具有潜在不同的原始大小的经填充的子图像交叉相关。举 例来说,一子图像可包含一可填充为64X64图像的16X16宏块。在其它实例中,子图像可 包含16X8、8X16、8X8或更小的像素块。此外,可将所述视频序列中所包括的所述帧中的 每一者划分为多个片断,以使得基于相关的AGOP结构确定模块22可确定所述帧中的每一 者的个别片断的图片类型。从编码效率的观点来说,基于相关的AGOP结构确定模块22在确定GOP结构中所 包括的帧的图片类型时实现高水平的准确度,以使得其可被视为用于评估其它AGOP确定 技术的“黄金标准”。基准比较器20将由AGOP结构确定模块18实时确定的图片类型与由 基于相关的AGOP结构确定模块22确定的基准图片类型比较以确定集成在实时代码转换器 10中的AGOP结构确定模块18的准确度。以此方式,在实施于代码转换器10内之前,AGOP 结构确定模块18的改变可根据基于相关的AGOP结构确定模块22的“黄金标准”来加以测 试ο准确地确定GOP结构中所包括的帧的图片类型减少所需编码位速率且使得能够 进行帧的有效压缩。举例来说,准确地确定I、p及B帧的GOP结构允许编码器14通过利用 帧的不同冗余类型及相依结构、针对帧的不同复杂性而利用适当的压缩工具集合及支持例 如广播应用的通道切换的应用特定要求来有效地对帧进行编码。以此方式,编码器14可改 进代码转换器10内的速率-失真权衡。此外,依赖于内容的图片类型确定使编码器14能 够更好地利用信号相关以用于改进的编码效率及视频转变的更好处置。编码器14可根据例如MPEG-2 (第2部分)、MPEG-4 (第2部分)、ITU-T H. 263或 ITU-T H.264/MPEG-4(第10部分)高级视频编码(AVC)的视频压缩标准来操作。虽然图1中未图示,但在一些方面中,编码器14可与音频解码器及编码器集成,且包括适当的多路 复用器_多路分用器单元或其它硬件及软件,以处置在共同数据流中或作为单独数据流的 音频及视频两者的编码。如果适用,则多路复用器-多路分用器单元可遵照ITU-T H. 223 多路复用器协议或例如用户数据报协议(UDP)的其它协议。H. 264/MPEG-4 第 10 部分(AVC)标准由 ITU-T 视频编码专家组(VCEG)与 IS0/IEC 运动图片专家组(MPEG) —起制定以作为被称作联合视频团队(JVT)的集体合伙关系的产 品。H. 264标准由ITU-T研究组描述于ITU-T建议H. 264“一般音视频服务的高级视频编码 (Advanced video coding for generic audiovisual services),,中,且标注日期为 2005 年3月,所述建议在本文中可被称作H. 264标准或H. 264规范或H. 264/AVC标准或规范。联合视频团队(JVT)继续从事H. 264/MPEG-4AVC的可缩放视频编码(SVC)扩 展。演进SVC扩展的规范采取联合草案(JD)的形式。由JVT建立的联合可缩放视频模型 (JSVM)实施用于在可缩放视频编码中使用的工具,所述工具可在代码转换器10内使用以 用于本发明中所描述的各种编码任务。关于精细粒度可缩放性(res)编码的详细信息可 在联合草案文献中找到,例如,在托马斯·维根德(Thomas Wiegand)、盖瑞·苏里文(Gary Sullivan)、朱里安·瑞切尔(Julien Reichel)、海克·斯华兹(Heiko Schwarz)及马瑟亚 斯 维恩(Mathias Wien)的联合草案6 (SVC JD6) “联合草案6 可缩放视频编码(Joint Draft 6 =Scalable Video Coding) ”(JVT_S 201,2006 年 4 月,日内瓦)中,及在托马斯 维 根德、盖瑞·苏里文、朱里安·瑞切尔、海克·斯华兹及马瑟亚斯·维恩的联合草案9 (SVC JD9) “联合草案 9:SVC 修正(Joint Draft 9 of SVC Amendment) ”(JVT-V201,2007 年 1 月,摩洛哥,马拉喀什)中。在一些方面中,对于视频广播来说,可将本发明中所描述的技术应用于增强 型H. 264视频编码以用于使用将作为技术标准TIA-1099公开的仅前向链路(FLO)空中 接口规范“陆上移动多媒体多播的仅前向链路空中接口规范(Forward Link Only Air InterfaceSpecification for Terrestrial Mobile Multimedia Multicast)”)( "FLO 规 范”)而在陆上移动多媒体多播(TM3)系统中递送实时视频服务。FLO规范包括界定适合于 FLO空中接口的位流语法及语义以及解码过程的实例。或者,可根据例如DVB-H (数字视频 广播_手持型)、ISDB-T (集成服务数字广播_陆上型)或DMB (数字多媒体广播)的其它 标准来广播视频。因此,可从移动无线终端、视频串流服务器或视频广播服务器发送经编码 的视频数据的视频序列。然而,本发明中所描述的技术不限于任何特定类型的广播、多播、 单播或其它点对点系统。在广播的情况下,视频数据提供者可将经编码视频数据的若干通 道广播到多个接收装置。图2为说明在实时代码转换器24中实施的基于相关的AGOP结构确定模块22的 示范性实施的框图。在图2的实例中,使用基于相关的AGOP结构确定模块22来进行转码, 而非如同在图1中用作评估不同GOP结构确定模块的基准。代码转换器24可至少部分形 成为可被统称为集成电路装置的一个或一个以上集成电路装置。在一些方面中,代码转换 器24可形成例如移动电话的无线通信装置手持机的一部分。如图2中所说明,代码转换器24包括解码器25、预处理器26及编码器28。预处 理器26包括GOP分割器30及复杂性降低模块32。编码器28包括基于相关的AGOP结构确 定模块22。在图2中所说明的实施方案中,整个基于相关的AGOP结构确定模块22包括在编码器28中。在其它实施方案中,可在预处理器26与编码器28之间划分基于相关的AGOP 结构确定模块22的功能。举例来说,基于相关的AGOP结构确定模块22可在预处理器26 内计算交叉相关且可在编码器28内执行相关分析及图片类型确定。代码转换器24从视频数据提供者接收包括经编码的视频数据的视频序列。如上 文参看图1所描述,视频序列可包含使用不支持最有效地利用连续帧之间或单个帧内的相 似性的算法的视频编码标准来编码的视频数据,例如,使用MPEG-2 (第2部分)来编码的数 字电视数据。代码转换器24可将视频序列转换为例如ITU-T H. 264的另一更高级的编码 标准。举例来说,代码转换器24可对所述视频序列进行重新编码以使视频帧对无线视频广 播、有效存储或需要高度有效的数据压缩的其它应用或服务作好准备。为了转换视频序列,解码器25将视频序列从较低效的原始编码标准解码。预处理 器26内的GOP分割器30接着将经解码的视频序列分割为包括多个帧的GOP结构。GOP分 割器30可根据基于使得能够进行视频序列的均勻I帧间隔的随机存取的预定GOP大小或 根据使得能够进行视频序列内的I个帧的随机存取的随机定位而将经解码的视频序列分 割为帧群组。举例来说,GOP分割器30可将经解码的视频序列分割为约三十个帧的若干群 组,其中每一群组以一 I帧开始。如上文参看图1所描述,在非实时地执行交叉相关计算时,可将基于相关的AGOP 结构确定模块22视为AGOP确定技术的“黄金标准”。因此,在基于相关的AGOP结构确定模 块22实施于非实时代码转换器内的情况下,基于相关的AGOP结构确定模块22可在无任何 复杂性降低的情况下非实时地确定图片类型。然而,在图2中所说明的方面中,在代码转换 器24包含实时代码转换器的情况下,实施于代码转换器24内的基于相关的AGOP结构确定 模块22可经受复杂性降低以使得能够进行对图片类型的实时确定。在图2中所说明的实施方案中,预处理器26包括复杂性降低模块32,所述复杂性 降低模块32执行特定复杂性降低以使基于相关的AGOP结构确定模块22能够以最小的准 确度损失来实时地计算交叉相关。举例来说,复杂性降低模块44可降低GOP结构中所包括 的帧内的图像信息的分辨率。复杂性降低模块32还可限制基于相关的AGOP结构确定模块 22可在确定任何给定帧的图片类型时计算的交叉相关计算的数目。在一些实施方案中,复 杂性降低模块32可对视频数据或基于相关的AGOP结构确定模块22的实时功能执行其它 复杂性降低。一旦复杂性降低模块44已执行必要的复杂性降低,编码器24内的基于相关的 AGOP结构确定模块22便基于由GOP分割器30产生的GOP结构中所包括的帧之间的交叉相 关而实时地确定所述帧中的每一者的图片类型。编码器28接着使用所要编码标准来对帧 进行重新编码且将所述经重新编码的帧发送到发射器以用于无线视频广播、发送到存储装 置以用于存储或发送到其它设备以用于需要高度有效的数据压缩的应用或服务。基于相关的AGOP结构确定模块22如上文参看图1所描述而操作。在图2中所说 明的实例中,基于相关的AGOP结构确定模块22的操作可经受复杂性降低。然而,图2中所 说明的实例不希望是限制性的。在其它实例中,代码转换器24可包括软件、硬件及/或固 件平台,其就每单位时间所支持的计算数目性能而言足够强大以实时地且在无任何复杂性 降低的情况下实施基于相关的AGOP结构确定模块22。所述交叉相关包括GOP结构中所包括的若干对帧内的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的第二阶交叉相关。可在像素域中计算第一阶交 叉相关。可分析所述第一阶交叉相关以检测所述帧之间的视频转变。可比较分析第一阶交 叉相关及第二阶交叉相关以确定相邻帧之间的时间相似性。以此方式,基于相关的AGOP结 构确定模块22基于视频转变及时间相似性来确定所述帧的图片类型。在一个方面中,基于相关的AGOP结构确定模块22计算GOP结构中所包括的若干 对帧内的图像之间的第一阶交叉相关。第一阶图像交叉相关识别所述若干对帧之间的全 局(亦即,总体)相似性及全局移动的量,但不识别在帧内在较小规模的子图像处发生的移 动。在此情况下,基于相关的AGOP结构确定模块22可确定全帧的图片类型。在另一方面中,基于相关的AGOP结构确定模块22计算GOP结构中所包括的若干 对帧内的子图像(例如,宏块)的集合之间的第一阶交叉相关且在所述若干对帧中的每一 对帧的子图像的全部或一部分上求所述交叉相关的平均值。第一阶子图像交叉相关识别所 述若干对帧之间的子图像相似性及移动量,且识别在帧内于何处发生移动。在此情况下,基 于相关的AGOP结构确定模块22通过添加填充像素来填充子图像集合中的每一子图像以实 现共同图像大小。以此方式,基于相关的AGOP结构确定模块22可使第一帧内的经填充的 子图像中的每一者与第二帧内的潜在不同原始大小的经填充的子图像交叉相关。举例来 说,一子图像可包含一可填充为64X64图像的16X16宏块。在其它实例中,子图像可包含 16X8,8X16,8X8或更小的像素块。此外,可将所述视频序列中所包括的所述帧中的每一 者划分为多个片断,以使得基于相关的AGOP结构确定模块22可确定所述帧中的每一者的 个别片断的图片类型。从编码效率的观点来说,基于相关的AGOP结构确定模块22使得能够进行对GOP 结构中所包括的帧的图片类型的准确实时确定。准确地确定GOP结构中所包括的帧的图片 类型减少编码位速率且使得能够进行帧的有效压缩。举例来说,准确地确定I、P及B帧的 GOP结构允许编码器28通过利用帧的不同冗余类型及相依结构、针对帧的不同复杂性利用 适当的压缩工具集合且支持例如广播应用的通道切换的应用特定要求来有效地对帧进行 编码。以此方式,编码器28可改进代码转换器24内的速率-失真权衡。此外,依赖于内容 的图片类型确定使编码器28能够更好地利用信号相关以用于改进的编码效率及视频转变 的更好处置。编码器28可大体上类似于图1的编码器14而操作。因此,经编码的视频数 据的视频序列可为移动无线终端、视频串流服务器或视频广播服务器。在广播的情况下,视 频数据提供者可将经编码的视频数据的若干通道广播到多个接收装置。在另一方面中,代码转换器24可包括基于相关的AGOP结构确定模块22及类似于 来自图1的AGOP结构确定模块18的AGOP结构确定模块两者。以此方式,当足够资源可用 以基于交叉相关实时地确定图片类型时,代码转换器24可利用基于相关的AGOP结构确定 模块22。然而,当资源不足时,代码转换器24可改为利用可更快但较不准确的非基于相关 的AGOP结构确定模块以用于对图片类型的实时确定。图3为说明作为在实时编码器36中实施的AGOP结构确定模块40可与之比较的 离线基准的基于相关的AGOP结构确定模块22的示范性实施的框图。编码器36可至少部 分形成为可被统称为集成电路装置的一个或一个以上集成电路装置。在一些方面中,编码 器36可形成例如移动电话的无线通信装置手持机的一部分。如图3中所说明,编码器36包括GOP分割器38及AGOP结构确定模块40。编码器
2436可包含单遍或多遍视频编码器。编码器36可根据例如MPEG-2 (第2部分)、MPEG_4 (第 2部分)、ITU-T H. 263或ITU-T H. 264/MPEG_4(第10部分)高级视频编码(AVC)的视频 压缩标准来操作。编码器36从视频数据提供者接收包括先前未压缩的原始视频数据的视频序列。 许多视频应用(特别是无线视频广播应用)需要由例如ITU-T H. 264的高级编码标准提供 的高度有效的数据压缩,所述高级编码标准通过更复杂的算法来利用跨越帧及帧内的数据 冗余。举例来说,编码器36可对所述视频序列进行编码以使视频帧对无线视频广播、有效 存储或需要高度有效的数据压缩的其它应用或服务作好准备。为了对视频序列进行编码,GOP分割器38将视频序列分割为包括多个帧的GOP结 构。GOP分割器38可根据基于使得能够进行视频序列的均勻I帧间隔的随机存取的预定 GOP结构大小或根据使得能够进行视频序列内的I个帧的随机存取的随机定位而将视频序 列分割为帧群组。举例来说,GOP分割器38可将视频序列分割为约三十个帧的若干群组, 其中每一群组以一 I帧开始。在其它情况下,GOP分割器38可根据基于基本传输方案的物 理层包化及数据突发特性的考虑而将视频序列分割为帧群组。统计多路复用方案的存在及 其设计还可影响GOP分割器38将视频序列分割为帧群组的方式。编码器36内的AGOP结构确定模块40确定由GOP分割器38产生的GOP结构中所 包括的帧中的每一者的图片类型。AGOP结构确定模块40可执行任何非基于相关的AGOP结 构确定技术。编码器36接着使用所要编码标准来对帧进行编码且将所述经编码的帧发送 到发射器以用于无线视频广播、发送到存储装置以用于存储或发送到其它设备以用于需要 高度有效的数据压缩的应用或服务。根据本发明的一方面,基于相关的AGOP结构确定模块22可定位在编码器36外部 以作为在编码器36中实施的AGOP结构确定模块40可与之比较的离线基准。基于相关的 AGOP结构确定模块22基于由GOP分割器38产生的GOP结构中所包括的帧之间的交叉相关 来确定所述帧中的每一者的基准图片类型。基于相关的AGOP结构确定模块22如上文参看 图1所述而操作。从编码效率的观点来说,基于相关的AGOP结构确定模块22在确定GOP结构中所 包括的帧的图片类型时实现高水平的准确度,以使得其可被视为用于评估其它AGOP确定 技术的“黄金标准”。基准比较器42将由AGOP结构确定模块40实时确定的图片类型与由 基于相关的AGOP结构确定模块22确定的基准图片类型比较以确定在实时编码器36中集 成的AGOP结构确定模块40的准确度。以此方式,在实施于编码器36内之前,AGOP结构确 定模块40的改变可对照基于相关的AGOP结构确定模块22的“黄金标准”来加以测试。图4为说明在实时编码器44中实施的基于相关的AGOP结构确定模块22的示范 性实施的框图。在图4的实例中,使用基于相关的AGOP结构确定模块22来进行编码,而非 如同在图3中用作评估不同GOP结构确定模块的基准。编码器44可至少部分形成为可被 统称为集成电路装置的一个或一个以上集成电路装置。在一些方面中,编码器44可形成例 如移动电话的无线通信装置手持机的一部分。如图4中所说明,编码器44包括GOP分割器46、复杂性降低模块48及基于相关的 AGOP结构确定模块22。编码器44可包含单遍或多遍视频编码器。编码器44可根据例如 MPEG-2 (第 2 部分)、MPEG-4 (第 2 部分)、ITU-T H. 263 或 ITU-T H. 264/MPEG-4 (第 10 部
25分)高级视频编码(AVC)的视频压缩标准来操作。编码器44从视频数据提供者接收包括先前未压缩的原始视频数据的视频序列。 编码器32可对所述视频序列进行编码以使视频帧对无线视频广播、有效存储或需要高度 有效的数据压缩的其它应用或服务作好准备。为了对视频序列进行编码,GOP分割器46将 视频序列分割为包括多个帧的GOP结构。如上文所描述,在非实时地执行交叉相关计算时, 可将基于相关的AGOP结构确定模块22视为AGOP确定技术的“黄金标准”。因此,在基于相 关的AGOP结构确定模块22实施于非实时编码器内的情况下,基于相关的AGOP结构确定模 块22可在无任何复杂性降低的情况下非实时地确定图片类型。然而,在图4中所说明的方 面中,在编码器44包含实时编码器的情况下,实施于编码器44内的基于相关的AGOP结构 确定模块22可经受复杂性降低以使得能够进行对图片类型的实时确定。在图4中所说明的实施方案中,复杂性降低模块48执行特定复杂性降低以使基于 相关的AGOP结构确定模块22能够以最小的准确度损失来实时地执行交叉相关计算。复杂 性降低模块48大体类似于图2的代码转换器24的预处理器26内的复杂性降低模块32而 操作。基于相关的AGOP结构确定模块22如上文参看图1所描述而操作。在图4中所说 明的实例中,基于相关的AGOP结构确定模块22的操作可经受复杂性降低。然而,图4中所 说明的实例不希望是限制性的。在其它实例中,编码器44可包括软件、硬件及/或固件平 台,其就每单位时间所支持的计算数目性能而言足够强大以实时地且在无任何复杂性降低 的情况下实施基于相关的AGOP结构确定模块22。图5为说明作为由实时代码转换器10利用的离线基准的基于相关的AGOP结构确 定模块22的示范性操作的流程图。将与图1的实时代码转换器10相关地描述图5的流程 图。一旦预处理器12从解码器11接收到经解码的视频数据,GOP分割器16便将视频数据 分割为各包括多个帧的GOP结构(50)。在实时代码转换器10中实施的AGOP结构确定模块18实时地确定GOP结构中所 包括的帧的图片类型(52)。定位在实时代码转换器10外部的基于相关的AGOP结构确定模 块22确定GOP结构中所包括的帧的基准图片类型(54)。可将基于相关的AGOP结构确定模 块22的输出视为图片类型确定技术的“黄金标准”。因此,基准比较器20将由AGOP结构确 定模块18确定的实时计算的图片类型与由基于相关的AGOP结构确定模块22确定的基准 图片类型比较以确定AGOP结构确定模块18的准确度(55)。图6为说明在实时代码转换器24中实施的基于相关的AGOP结构确定模块22的 示范性操作的流程图。将与图2的实时代码转换器24相关地描述图6的流程图。一旦预 处理器26从解码器25接收到经解码的视频数据,GOP分割器30便将视频数据分割为各包 括多个帧的GOP结构(56)。复杂性降低模块32降低GOP结构中所包括的帧内的图像信息的分辨率(57)。在 一些情况下,复杂性降低模块32还可限制基于相关的AGOP结构确定模块22可在确定任何 给定帧的图片类型时计算的交叉相关的数目。在实时代码转换器24中实施的基于相关的 AGOP结构确定模块22接着实时地确定GOP结构中所包括的帧的图片类型(58)。图7为更详细地说明基于相关的AGOP结构确定模块22的框图。如上文所描述, 基于相关的AGOP结构确定模块22可用作位于实时编码装置外部的离线基准(图1及图3)或可在实时编码装置中实施(图2及图4)。如图7中所说明,基于相关的AGOP结构确定模 块22包括分析窗定位模块60、相关器62、相关分析器64、图片类型确定模块66及评估模块 68。总地来说,基于相关的AGOP结构确定模块22接收GOP结构中所包括的帧且基于 若干对帧内的图像信息之间的交叉相关来确定所述帧中的每一者的图片类型。分析窗定位 模块60在GOP结构内定位一具有预定帧计数宽度的分析窗,其以候选帧为中心。举例来说, 分析窗可具有五个帧的时间宽度,以使得所述分析窗在以候选帧为中心时还包括所述候选 帧的两个先前相邻帧及两个后续相邻帧。相关器62计算分析窗中所包括的若干对帧内的图像之间的第一阶交叉相关。以 此方式,分析窗对相关器62计算以确定候选帧的图片类型的第一阶交叉相关的数目设置 限制。在一个方面中,相关器62计算全帧图像之间的第一阶交叉相关。第一阶图像交叉相 关识别所述若干对帧之间的全局(亦即,总体)相似性及全局移动的量,但不识别在帧内在 较小规模的子图像处发生的移动。相关器62接着计算若干对第一阶图像交叉相关之间的 第二阶交叉相关。在另一方面中,相关器62计算若干对帧内的子图像集合之间的第一阶交叉相关。 可将所述帧中的每一者内的图像划分为例如宏块的多个子图像。举例来说,子图像可包含 16X16、16X8、8X16、8X8或更小的像素块。接着将第一帧的子图像中的每一者填充为共 同图像大小且与来自第二帧的经填充的子图像交叉相关。相关器62通过在所述若干对帧 中的每一对帧的子图像的全部或一部分上求峰值子图像交叉相关值的平均值来产生第一 阶交叉相关。第一阶子图像交叉相关识别所述若干对帧之间的子图像相似性及移动量,且 识别在帧内于何处发生移动。相关器62接着计算若干对第一阶子图像交叉相关之间的第 二阶交叉相关。相关分析器64从相关器62接收第一阶交叉相关及第二阶交叉相关。相关分析器 64基于第一阶交叉相关而检测分析窗内的帧之间的视频转变效果。视频转变效果指用以从 一视频序列的当前场景转变为同一视频序列的另一场景或另一视频序列的另一场景的视 觉视频效果。举例来说,相关分析器64可检测包括剪辑场景改变、镜头边界、闪光帧及部分 场景改变的紧凑支持视频效果。当视频序列因同一内容通道上的内容改变或因通道或相机 切换而从一个视频场景改变为不同视频场景时,可发生剪辑场景改变。当帧组成物的一部 分从一个场景改变为不同场景且所述帧组成物的剩余部分为静态(例如,边界、图形及文 本覆盖)时,可发生部分场景改变。当视频序列因在视频记录事件时的闪光摄影而瞬间改 变亮度值时,可出现闪光帧。相关分析器64还可检测扩展支持视频效果,其包括交叉淡化及溶解(其包括淡入 及淡出以作为特殊情况)以及放大及缩小。当视频序列因内容改变而从一个视频场景逐渐 改变为不同视频场景(例如,天气图从国家的一个地区改变为另一地区)时,可发生交叉淡 化。此外,相关分析器64可检测包括相机摇摄及相机卷动的全局运动视频效果。当视频 序列因视频相机的水平移动而从一个视频场景逐渐改变为不同视频场景时,可发生相机摇 摄。当视频序列因视频相机的垂直移动而从一个视频场景递增地改变为不同视频场景时, 可发生相机卷动。不同视频转变效果在分析窗中所包括的候选帧与相邻帧之间展现不同程度的图像数据及细节重复,且因此表示候选帧的不同图片类型。举例来说,如果在候选帧中发生剪 辑场景改变,则因为视频场景完全改变,所以应将候选帧编码为I图片。在于候选帧中发生 部分场景改变的情况下,可将候选帧的包括静态边界、图形或文本覆盖的部分编码为P片 断,且可将候选帧的包括发生改变的有效视频场景的部分编码为I片断。如果在候选帧中 发生闪光帧、交叉淡化、放大或缩小或者相机摇摄或卷动,则因为视频场景略微或逐渐依赖 于先前帧及可能的后续帧而改变,所以可将候选帧编码为P图片或B图片。相关分析器64还在第一阶交叉相关与第二阶交叉相关之间执行比较分析且基于 所述比较分析来确定分析窗内的相邻帧之间的时间相似性。时间相似性指分析窗中所包括 的候选帧与相邻帧之间的图像细节重复程度。时间相似性的量表示候选帧的图片类型。举 例来说,如果候选帧不类似于任何先前相邻帧,但其类似于后续相邻帧,则应将所述候选帧 编码为I图片。如果候选帧类似于先前相邻帧但不类似于后续相邻帧,则应将所述候选帧 编码为P图片。如果候选帧类似于先前相邻帧及后续相邻帧两者,则应将其编码为P图片 或B图片。在此情况下,分析窗中所包括的相邻帧之间的第一阶交叉相关及第二阶交叉相 关可帮助确定应将候选帧编码为P图片还是B图片。举例来说,如果先前相邻帧类似于后 续相邻帧,则应将所述候选帧编码为P图片。图片类型确定模块66从相关分析器64接收视频转变效果信息及时间相似性信 息。图片类型确定模块66基于在分析窗内检测的视频转变效果及分析窗中所包括的帧之 间的时间相似性来确定候选帧的图片类型。在相关器62计算图像交叉相关的实施方案中, 图片类型确定模块66可确定整个候选帧的图片类型。在相关器62计算子图像交叉相关的 实施方案中,可将候选帧划分为多个片断,以使得图片类型确定模块66可确定候选帧的个 别片断中的每一者的图片类型。评估模块68基于图片类型确定模块66对帧内容、速率_失真改进特性及编码带 宽机制特性的依赖性来测量图片类型确定模块66的性能。评估模块68可利用取决于GOP 结构中的所确定的P、B及I图片的数目及时间位置的编码增益模型或PSNR改进模型。对 于在PSNR改进模型中的使用而言,可以可用于时间预测的参考图片的有效计数的形式来 概述所确定的图片类型。可使用评估模块68的输出来进一步改进由基于相关的AGOP结构 确定模块22进行的图片类型确定的准确度。评估模块68的输出可呈数值或表格的形式。 评估模块68可特别适用于基于相关的AGOP结构确定模块22实施于实时编码装置内的实 施方案中(图2及图4)。在视频数据在基础层及增强层中被编码的实施方案中(亦即,对于可缩放视频编 码(SVC)而言),基于相关的AGOP结构确定模块22可包括一分层模块(图7中未图示)以 使得能够进行基于增强层来改变基础层中的帧类型确定。举例来说,基础层中所包括的特 定帧类型可改进基础层与增强层之间的带宽平衡。因此,分层模块可基于增强层内的帧类 型来改变基础层编码内的帧类型以便改进带宽平衡。图8A到图8C为说明视频序列中所包括的帧之间的第一阶交叉相关及第二阶交叉 相关的图式。在一个方面中,来自图7的相关器62计算本文中所描述的在分析窗70中所 包括的若干对帧内的图像之间的第一阶交叉相关。在另一方面中,相关器62计算本文中所 描述的在所述分析窗70中所包括的若干对帧内的子图像(例如,宏块)的集合之间的第一 阶交叉相关且在所述若干对帧中的每一对帧的子图像的全部或一部分上求交叉相关的平均值。图8A说明由来自图7的分析窗定位模块60进行的在GOP结构内定位分析窗70。 如图8A中所展示,分析窗70以候选帧(fk) 72为中心定位在GOP结构内且包括预定数目个 相邻帧。举例来说,分析窗70具有五个帧的预定时间宽度,以使得分析窗在以候选帧(fk)72 为中心时还包括候选帧(fk)72的两个先前相邻帧(fH及fk_2)及两个后续相邻帧(fk+1及 fk+2)。以此方式,相关器62计算分析窗70中所包括的帧之间的第一阶交叉相关以确定候 选帧72的图片类型。换句话说,分析窗70的使用对相关器62计算以确定GOP结构中所包 括的每一帧的图片类型的第一阶交叉相关的数目设置限制。图8B说明由相关器62在分析窗70中所包括的帧之间执行的第一阶交叉相关 计算。相关器62计算第一先前相邻帧(fk_i)与候选帧(fk)72之间的第一前向交叉相关 (Fl) 74。相关器62接着计算第二先前相邻帧(fk_2)与候选帧(fk) 72之间的第二前向交叉 相关(F2)75。相关器62还计算第一后续相邻帧(fk+1)与候选帧(fk)72之间的第一后向交 叉相关(Bi) 76。相关器62接着计算第二后续相邻帧(fk+2)与候选帧(fk) 72之间的第二后 向交叉相关(B2)77。相关器62接着计算第一先前相邻帧(fk_i)与第一后续相邻帧(fk+1) 之间的第一对称交叉相关计算(S2)78。相关器62接着计算第二先前相邻帧(fk_2)与第二 后续相邻帧(fk+2)之间的第二对称交叉相关计算(S4)79。图8C说明由相关器62在分析窗70内的第一阶交叉相关之间执行的第二阶交叉 相关计算。相关器62计算第一阶第一前向交叉相关(Fl)74与第一阶第一后向交叉相关 (Bi) 76之间的第二阶第一相邻交叉相关(01)80。相关器62接着计算第一阶第二前向交叉 相关(F2)75与第一阶第二后向交叉相关(B2) 77之间的第二阶第二相邻交叉相关(02)81。在一些方面中,如图1及图3中所展示,可在基于相关的AGOP确定模块22内使用 相关器62以作为位于实时编码装置外部的离线基准。在此情况下,相关器62非实时地计算 本文中所描述的第一阶交叉相关及第二阶交叉相关。在其它方面中,如图2及图4中所展 示,可在实施于实时编码装置中的基于相关的AGOP确定模块22内使用相关器62。在一些情 况下,复杂性降低可限制相关器62可在确定候选帧72的图片类型时计算的交叉相关的数 目。举例来说,当分析窗70具有等于五个帧的时间宽度时,相关器62可仅计算三个第一阶 交叉相关及两个第二阶交叉相关。举例来说,相关器62可计算第一前向交叉相关(Fl)74、 第一对称交叉相关(S2) 78、第二对称交叉相关(S4) 79、第二阶第一相邻交叉相关(01) 80及 第二阶第二相邻交叉相关(02)81。图9为说明基于相关的AGOP结构确定模块22中所包括的相关器62的示范性实 施的框图。如图9中所展示,相关器62A包含基于二维快速傅立叶变换(2D FFT)的计算以 执行图像交叉相关。相关器62A可计算视频序列中所包括的若干对帧内的图像之间的第一 阶交叉相关及若干对所述第一阶图像交叉相关之间的第二阶交叉相关两者。当相关器62A正在计算第一阶图像交叉相关时,预调节模块82接收第一帧内的图 像且将经预调节的图像馈入到傅立叶变换(F)84。同时,预调节模块83接收第二帧内的图 像且将经预调节的图像馈入到复共轭(广)傅立叶变换85。将第一帧图像的变换及第二帧 图像的复共轭变换相乘且馈入到傅立叶逆变换(F—1) 88。标准化器89接着将逆变换输出标 准化且最大值滤波器90确定第一帧与第二帧内的图像之间的经标准化的第一阶交叉相关 的最大值。接着,留存经标准化的第一阶图像交叉相关的最大值以作为用于由相关分析器
2964使用的特性值。当相关器62A正在计算第二阶交叉相关时,预调节模块82接收第一对帧之间的第 一阶图像交叉相关且将经预调节的第一阶图像交叉相关馈入到傅立叶变换(F) 84。同时,预 调节模块83接收第二对帧之间的第一阶图像交叉相关且将经预调节的第一阶图像交叉相 关馈入到复共轭(F*)傅立叶变换85。将第一对帧之间的图像交叉相关的变换及第二对帧 之间的图像交叉相关的复共轭变换相乘并馈入到傅立叶逆变换(FlSS。标准化器89接着 将逆变换输出标准化且最大值滤波器90确定第一对帧与第二对帧之间的第一阶图像交叉 相关之间的经标准化的第二阶交叉相关的最大值。接着,留存经标准化的第二阶图像交叉 相关的最大值以作为用于由相关分析器64使用的特性值。图10为说明基于相关的AGOP结构确定模块22中所包括的相关器62的另一示范 性实施的框图。如图10中所展示,相关器62B包含基于二维(2D)FFT的计算以执行子图像 交叉相关。相关器62B可计算视频序列中所包括的若干对帧内的子图像之间的第一阶交叉 相关及若干对所述第一阶子图像交叉相关之间的第二阶交叉相关两者。当相关器62B正在计算第一阶子图像交叉相关时,预调节模块92接收第一帧内的 子图像(例如,宏块的集合)且将经预调节的子图像馈入到傅立叶变换(F) 94。预调节模块 92将第一帧内的子图像填充为共同图像大小。同时,预调节模块93接收第二帧内的子图 像(例如,宏块的集合)且将经预调节的子图像馈入到复共轭傅立叶变换(广)95。预调节 模块93将第二帧内的子图像填充为共同图像大小。将第一帧的经填充的子图像的变换及 第二帧的经填充的子图像的复共轭变换相乘且馈入到傅立叶逆变换(户)98。标准化器99 接着将逆变换输出标准化且最大值滤波器100确定第一帧内的子图像与第二帧内的子图 像之间的经标准化的第一阶交叉相关的最大值。平均模块102接着在第一帧内的子图像集 合中的子图像的全部或一部分上求经标准化的交叉相关的最大值的平均值。接着,留存经 标准化的第一阶交叉相关的经平均的最大值以作为用于由相关分析器64使用的特性值。当相关器62B正在计算第二阶交叉相关计算时,预调节模块92接收第一对帧之 间的第一阶交叉相关子区段且将经预调节的第一阶交叉相关子区段馈入到傅立叶变换 (F)94。同时,预调节模块93接收第二对帧之间的第一阶交叉相关子区段且将经预调节的 第一阶交叉相关子区段馈入到复共轭(广)傅立叶变换95。将第一对帧之间的第一阶交叉 相关子区段的变换及第二对帧之间的第一阶交叉相关子区段的复共轭变换相乘并馈入到 傅立叶逆变换(F—1) 98。标准化器99接着将逆变换输出标准化且最大值滤波器100确定第 一对帧与第二对帧内之间的第一阶交叉相关子区段之间的经标准化的第二阶交叉相关的 最大值。接着,留存经标准化的第二阶交叉相关的最大值以作为用于由相关分析器64使用 的特性值。图11为说明基于相关的AGOP结构确定模块22中所包括的相关分析器64的示范 性实施的框图。如图11中所说明,相关分析器64包含第一阶相关分析器104、比较分析器 106、第二阶相关分析器108及视频转变效果检测器110。视频转变效果检测器110包括紧 凑支持事件检测器112、扩展支持事件检测器114及全局运动检测器116。相关分析器64从相关器62接收第一阶交叉相关及第二阶交叉相关。第一阶相关 分析器104编译第一阶交叉相关且将第一阶交叉相关馈入到视频转变效果检测器110及比 较分析器106。第二阶相关分析器108编译第二阶交叉相关且将第二阶交叉相关施加到比较分析器106。视频转变效果检测器110基于第一阶交叉相关而检测当前处理的GOP结构的帧之 间的视频转变效果。如参看图12到图14所描述,视频转变效果检测器110经由紧凑支持 事件检测器112、扩展支持事件检测器114及全局运动检测器116基于对视频特殊效果的识 别来检测视频转变效果。更具体地说,紧凑支持事件检测器112从第一阶交叉相关识别剪 辑场景改变指纹、闪光帧指纹及部分场景改变指纹。扩展支持事件检测器114从第一阶交 叉相关识别包括淡入及淡出的交叉淡化指纹及放大及缩小指纹。全局运动检测器116从第 一阶交叉相关识别相机摇摄指纹及相机卷动指纹。本文中定义指纹以意谓来自与特定视频 转变效果唯一匹配的匹配的滤波器的特定响应,以使得检测到此特定响应等效于检测到其 相关联的视频转变效果。视频转变效果检测器110接着将所检测的视频转变效果输出到图片类型确定模 块66(图7)。举例来说,如果在候选帧72中发生剪辑场景改变,则因为视频场景完全改变, 所以应将候选帧72编码为I图片。在于候选帧72中发生部分场景改变的情况下,可将候 选帧72的包括静态边界、图形或文本覆盖的部分编码为P片断,且可将候选帧72的包括发 生改变的有效视频场景的部分编码为I片断。如果在候选帧中发生闪光帧、交叉淡化、放大 或缩小或者相机摇摄或卷动,则因为视频场景依赖于先前帧及可能的后续帧而略微或逐渐 改变,所以可将候选帧72编码为P图片或B图片。比较分析器106在第一阶交叉相关与第二阶交叉相关之间执行比较分析。比较分 析器106接着基于所述比较分析来确定分析窗70内的相邻帧之间的时间相似性。当执行 比较分析时,比较分析器106比较帧之间的相关程度以确定候选帧72与其先前及后续相邻 帧两者相似的程度及相邻帧彼此相似的程度。比较分析器106接着将时间相似性输出到图 片类型确定模块66 (图7)。举例来说,如果候选帧72与后续相邻帧很好地相关但不与先前 相邻帧很好地相关(亦即,第一前向交叉相关74是低的且第一后向交叉相关76是高的), 则应将候选帧72编码为与先前帧无关且充当后续帧的参考的I图片。作为另一实例,如果 候选帧72与后续相邻帧及先前相邻帧两者均很好地相关,则应将候选帧72编码为P图片 或B图片。然而,如果后续相邻帧与先前相邻帧很好地相关(亦即,第一对称交叉相关78 是高的),则可将候选帧72编码为P图片。图12为说明作为来自图11的相关分析器64中所包括的视频转变效果检测器110 的一部分的紧凑支持事件检测器112的框图。紧凑支持事件检测器112可利用匹配的滤波 器组以在第一阶交叉相关分析器104的输出内检测与紧凑支持视频效果相关联的指纹。紧 凑支持视频效果包括剪辑场景改变、部分场景改变及闪光帧。举例来说,当视频序列内容因 同一通道上的内容改变或因通道切换而从一个视频场景瞬时改变为不同视频场景时,可发 生剪辑场景改变。当视频序列中的帧内容的一部分从一个视频场景改变为不同视频场景且 所述视频序列中的帧内容的剩余部分为静态(例如,边界、图形或文本覆盖)时,可发生部 分场景改变。当视频序列内容因在视频记录事件时的闪光摄影而瞬间改变亮度值时,可发 生闪光帧。在图12中所说明的实例中,紧凑支持事件检测器112利用来自图6的第一阶第 一前向交叉相关(Fl)74、第一阶第一对称交叉相关(S2)78及第一阶第二对称交叉相关 (S4) 79的输出。紧凑支持事件检测器112使第一阶交叉相关输出中的每一者传递通过非线性高通滤波器120A到120C中的专用一者。将非线性高通滤波器120A到120C中的每一者 的输出输入到剪辑场景改变匹配的滤波器122及闪光帧匹配的滤波器124两者。剪辑场景改变匹配的滤波器122隔离第一阶交叉相关的输出中所包括的类似于 剪辑场景改变的预期指纹的时间系列特征。举例来说,如图17中的特征180所展示,因视 频场景的完全改变,剪辑场景改变指纹包含帧之间的低相关的单个下降(dip)。紧凑支持 事件检测器112将剪辑场景改变匹配的滤波器122的输出馈入到阈值比较器123以准确地 识别特征中的哪些包含剪辑场景改变指纹。阈值比较器123将由剪辑场景改变匹配的滤波 器122隔离的特征与设定为预定值(例如,0.29)的阈值(TcJ比较。紧凑支持事件检测器 112在具有大于阈值的匹配的滤波器响应的那些特征位置处检测剪辑场景改变。接着,阈 值比较器123在检测到剪辑场景改变的情况下将其布尔(Boolean)输出(B。s。)设定为等于 1,且在未检测到剪辑场景改变的情况下将其设定为等于0。紧凑支持事件检测器112还可通过使用剪辑场景改变匹配的滤波器122及阈值比 较器123来检测部分场景改变。如图18中的特征184所展示,大体类似于剪辑场景改变指 纹,部分场景改变指纹包含单个下降,但因视频场景的静态部分而具有较高相关。部分场景 改变指纹的相对小的下降可能不会触发待被紧凑支持事件检测器112检测到的来自剪辑 场景改变匹配的滤波器122的足够大的响应。可降低输入到阈值比较器123的阈值(TcJ 以使得能够进行对部分场景改变的检测,但此可通过增加错误地检测紧凑支持视频效果的 可能性(亦即,增加的误警率)而导致额外的准确度问题。实情为,相关器62可执行静态 边界检测以识别静态边界的存在且计算对应于视频场景的有效部分的子图像之间的第一 阶交叉相关。以此方式,仅具有静态边界的有效视频场景的完全改变可呈现等效于剪辑场 景改变指纹的指纹。闪光帧匹配的滤波器124隔离第一阶交叉相关的输出中所包括的类似于闪光帧 的预期指纹的时间系列特征。举例来说,如图17的特征182所展示,因视频场景内的亮度 值改变,闪光帧指纹包含帧之间的较低相关的连续下降。紧凑支持事件检测器112将闪光 帧匹配的滤波器124的输出馈入到阈值比较器125以准确地识别特征中的哪些包含闪光帧 指纹。阈值比较器125将由闪光帧匹配的滤波器124隔离的特征与设定为预定值(例如, 0. 20)的阈值(Tff)比较。紧凑支持事件检测器112在具有大于阈值的匹配的滤波器的响 应的那些特征位置处检测闪光帧。接着,阈值比较器125在检测到闪光帧的情况下将其布 尔输出(Bff)设定为等于1,且在未检测到闪光帧的情况下将其设定为等于0。图13为说明作为来自图11的相关分析器64中所包括的视频转变效果检测器110 的一部分的扩展支持事件检测器114的框图。扩展支持事件检测器114利用多分辨率分析 以在第一阶交叉相关分析器104的输出内检测与扩展支持视频效果相关联的指纹。扩展支 持视频效果包括交叉淡化、淡入、淡出及缩放。举例来说,当视频序列因内容改变而从一个 视频场景逐渐改变为不同视频场景时(例如,天气图从国家的一个地区改变为另一地区), 可发生交叉淡化。在图13中所说明的实例中,扩展支持事件检测器114利用来自图6的第一阶第 一前向交叉相关(Fl)74、第一阶第一对称交叉相关(S2)78及第一阶第二对称交叉相关 (S4) 79的输出。扩展支持事件检测器114使第一阶交叉相关输出中的每一者传递通过非线 性低通滤波器126A到126C中的专用一者。非线性低通滤波器126A到126C中的每一者的输出被输入到多分辨率分析器128A到128C中的专用一者。多分辨率分析器128A到128C 识别第一阶交叉相关的输出中所包括的类似于交叉淡化或缩放的预期指纹的特征。举例来 说,如图19的特征186所展示,因视频场景的逐渐改变,交叉淡化指纹包含帧之间的低相关 的凹口。多分辨率分析器128A到128C使得能够进行以统一方式进行的具有变化很大的持 续时间的特征的检测及其实际持续时间的确定。扩展支持事件检测器114将多分辨率分析器128A到128C的输出施加到经结构化 显著峰值分析器130以准确地识别特征中的哪些包含交叉淡化或缩放指纹。经结构化显著 峰值分析器130组合由多分辨率分析器128A到128C中的每一者识别的特征且确定第一阶 交叉相关的输出的每一者中的低相关的凹口是否以特定次序时间性地对准。扩展支持事件 检测器114可在第一阶交叉相关的凹口时间性地相互对准的情况下宣称交叉淡化。此外, 理想地,应将所述凹口的最小值排序为第一阶第一前向交叉相关(Fl) 74大于第一阶第一 对称交叉相关(S2) 78大于第一阶第二对称交叉相关(S4)79。图14为说明作为来自图11的相关分析器64中所包括的视频转变效果检测器110 的一部分的全局运动检测器116的框图。全局运动检测器116利用全局位移估计以在第一 阶交叉相关分析器104的输出内检测与全局运动相关联的指纹。全局运动视频效果包括相 机摇摄、相机卷动及影响整个视频场景的其它平移运动。举例来说,当视频序列因视频相机 的水平移动而从一个视频场景逐渐改变为不同视频场景时,可发生相机摇摄。当视频序列 因视频相机的垂直移动而从一个视频场景逐渐改变为不同视频场景时,可发生相机卷动。在图14中所说明的实例中,全局运动检测器116利用来自图6的第一阶第一前向 交叉相关(Fl) 74、第一阶第一对称交叉相关(S2) 78及第一阶第二对称交叉相关(S4) 79的 输出。全局运动检测器116将第一阶交叉相关输出中的每一者传递通过最大值位置滤波器 132A到132C中的专用一者。最大值位置滤波器132A到132C识别第一阶交叉相关的输出 中所包括的类似于相机摇摄及相机卷动的预期指纹的特征。举例来说,如图20A中的特征 188所展示,因视频场景的逐渐改变,相机摇摄指纹包含在最大交叉相关值位置中始终存在 的相对于原点的显著水平偏移。如图20B中的特征200所展示,因视频场景的递增改变,相 机卷动指纹包含在最大交叉相关值位置中始终存在的相对于原点的显著垂直偏移。最大值 位置滤波器132A到132C以相关联的第一阶交叉相关的时间距离各输出水平位移估计(h) 及垂直位移估计(ν)。然而,例如振荡(ringing)及模糊的压缩假象使根据第一阶交叉相关的位移估计 的准确度降级。因此,全局运动检测器116利用多通道融合模块134使水平位移估计及垂 直位移估计平滑以避免压缩假象的类降级噪声的影响。此外,紧凑支持视频效果及扩展支 持视频效果可中断全局运动位移估计,此可导致异常的位移估计值。多通道融合模块134 可通过跨越所检测的紧凑支持视频效果及扩展支持视频效果而执行位移估计的非线性平 滑化来减小或消除此效果。如图14中所说明,多通道融合模块134包括用于以时间距离2进行的位移估计的 1/2权重以及用于以时间距离4进行的位移估计的1/4权重以补偿与不同位移估计相关联 的不同时间距离。多通道融合模块134还包括用于位移估计中的每一者的均勻权重(例 如,1/3)136A到136C以均衡以不同时间距离进行的位移估计的强调。在其它方面中,多通 道融合模块134可使用非均勻权重以强调以选定的时间距离进行的位移估计。最后,多通道融合模块134包括水平加法器142,其通过加入根据时间距离中的每一者的经加权的水 平位移估计来产生单个经平滑化的水平位移估计值。多通道融合模块134还包括垂直加法 器144,其通过加入根据时间距离中的每一者的垂直位移估计来产生单个经平滑化的垂直 位移估计值。图15为说明基于相关的AGOP结构确定模块22基于图像交叉相关来确定视频序 列中所包括的帧的图片类型的示范性操作的流程图。将关于图7的基于相关的AGOP确定 模块22、图8A到图8C的分析窗70及图11的相关分析器64来描述图15的流程图。分析窗定位模块60在GOP结构内定位分析窗70,所述分析窗70以候选帧(fk) 72 为中心且包括先前相邻帧(f^及fk_2)及后续相邻帧(fk+1及fk+2) (150)。相关器62计算分 析窗70中所包括的若干对帧内的图像之间的第一阶交叉相关(152)。相对于所述图像的像 素域数据执行第一阶交叉相关。在此方面中,相关器62计算全帧图像之间的第一阶交叉相 关。如上文参看图8B所描述,第一阶交叉相关可包括第一前向交叉相关74、第二前向交叉 相关75、第一后向交叉相关76、第二后向交叉相关77、第一对称交叉相关78及第二对称交 叉相关79。第一阶图像交叉相关识别所述若干对帧之间的全局(亦即,总体)相似性及全 局移动的量,但不识别在帧内在较小规模的子图像处发生的移动。相关器62接着计算若干 对第一阶图像交叉相关之间的第二阶交叉相关(154)。如上文参看图8C所描述,第二阶交 叉相关可包括第一相邻交叉相关80及第二相邻交叉相关81。相关分析器64从相关器62接收第一阶交叉相关及第二阶交叉相关。第一阶相关 分析器104编译第一阶交叉相关且将第一阶交叉相关馈入到视频转变效果检测器110及比 较分析器106。第二阶相关分析器108编译第二阶交叉相关且将第二阶交叉相关馈入到比 较分析器106。视频转变效果检测器110基于第一阶交叉相关而检测当前处理的GOP结构内的帧 之间的视频转变效果(156)。如参看图10到图12所描述,视频转变效果检测器110经由紧 凑支持事件检测器112、扩展支持事件检测器114及全局运动检测器116基于对视频效果的 识别来检测视频转变效果。更具体地说,紧凑支持事件检测器112从第一阶交叉相关中识 别剪辑场景改变指纹、闪光帧指纹及部分场景改变指纹。扩展支持事件检测器114从第一 阶交叉相关中识别包括淡入及淡出指纹的交叉淡化指纹及放大及缩小指纹。全局运动检测 器116识别相机摇摄指纹及相机卷动指纹。比较分析器106在第一阶交叉相关与第二阶交叉相关之间执行比较分析。比较分 析器106接着基于所述比较分析来确定分析窗70内的相邻帧之间的时间相似性、其强度及 性质(158)。当执行比较分析时,比较分析器106比较帧之间的相关程度以确定候选帧72 与其相邻帧相似的程度及相邻帧彼此相似的程度。图片类型确定模块66从视频转变效果检测器110接收视频转变效果信息且从比 较分析器106接收时间相似性信息。图片类型确定模块66接着基于在分析窗70内检测的 视频转变效果及分析窗70中所包括的帧之间的时间相似性来确定候选帧72的图片类型 (160)。图16为说明基于相关的AGOP结构确定模块22基于子图像交叉相关来确定视频 序列中所包括的帧的图片类型的示范性操作的流程图。将关于图7的基于相关的AGOP确 定模块22、图8A到图8C的分析窗70及图11的相关分析器64来描述图16的流程图。
34
分析窗定位模块60在GOP结构内定位分析窗70,所述分析窗70以候选帧(fk) 72 为中心且包括先前相邻帧(fk_i及fk_2)及后续相邻帧(fk+1及fk+2) (164)。相关器62计算分 析窗70中所包括的若干对帧内的子图像集合之间的第一阶交叉相关(166)。相对于所述 子图像的像素域数据来执行子图像第一阶交叉相关。可将所述帧中的每一者内的图像划分 为多个子图像(例如,宏块)。接着将第一帧的子图像中的每一者填充为共同图像大小且 与第二帧的子图像交叉相关。举例来说,子图像可包含填充为64X64图像的16X16宏块。 相关器62通过在所述若干对帧中的每一对帧的子图像的全部或一部分上求峰值(亦即,最 大)子图像交叉相关值的平均值来产生第一阶交叉相关(168)。第一阶子图像交叉相关识 别所述若干对帧之间的子图像相似性及移动量,且识别在帧内于何处发生移动。相关器62 接着计算若干对第一阶子图像交叉相关之间的第二阶交叉相关(170)。相关分析器64从相关器62接收第一阶交叉相关及第二阶交叉相关。第一阶相关 分析器104编译第一阶交叉相关且将第一阶交叉相关馈入到视频转变效果检测器110及比 较分析器106。第二阶相关分析器108编译第二阶交叉相关且将第二阶交叉相关馈入到比 较分析器106。视频转变效果检测器110基于第一阶交叉相关而检测当前处理的GOP结构 内的帧之间的视频转变效果(172)。比较分析器106在第一阶交叉相关与第二阶交叉相关 之间执行比较分析。比较分析器106接着基于所述比较分析来确定分析窗70内的相邻帧 之间的时间相似性、其强度及性质(174)。图片类型确定模块66从视频转变效果检测器110接收视频转变效果信息且从比 较分析器106接收时间相似性信息。可将候选帧72划分为多个片断,以使得图片类型确定 模块66可基于在分析窗70内检测的视频转变效果及分析窗70中所包括的帧之间的时间 相似性来确定候选帧72的个别片断中的每一者的图片类型(176)。图17为说明包括剪辑场景改变指纹180及闪光帧指纹182的来自图12的紧凑支 持事件检测器112的输出的曲线图。当视频序列内容因同一通道上的内容改变(例如,因 选定的相机馈入的改变)或因通道切换而从一个视频场景改变为不同视频场景时,可发生 剪辑场景改变。因此,因视频场景的完全改变,剪辑场景改变指纹180包含帧之间的低相关 的单个下降。当视频序列因在视频记录事件时的闪光摄影而瞬间改变亮度值时,可出现闪 光帧。因此,因视频场景内的亮度值改变,闪光帧指纹182包含帧之间的较低相关的连续下 降。所述连续下降是由视频序列中的快闪诱发的增加的亮度的出现及消失而产生。在闪光 帧的情况下,与剪辑场景改变的单次改变相比,在极短的时帧中有效地发生两次改变。图18为说明包括部分场景改变指纹184的来自图12的紧凑支持事件检测器112 的输出的曲线图。当视频序列帧内容的一部分从一个视频场景改变为不同视频场景且所述 视频序列帧内容的剩余部分为静态(例如,边界及图形及文本覆盖)时,可发生部分场景改 变。因此,大体类似于剪辑场景改变指纹180,部分场景改变指纹184包含单个下降,但因视 频场景的静态部分而具有较高相关。图19为说明包括交叉淡化指纹186的来自图13的扩展支持事件检测器114的输 出的曲线图。当视频序列帧内容因内容改变而从一个视频场景逐渐改变为不同视频场景 (例如,天气图从国家的一个地区改变为另一地区)时,可发生交叉淡化。因此,交叉淡化指 纹186包含帧之间的低相关的凹口,以使得因视频场景的逐渐改变,不同交叉相关时间系 列中的这些凹口以特定次序时间性地对准。
35
图20A及图20B为说明包括相机摇摄指纹188及相机卷动指纹200的全局运动检 测器116的输出的曲线图。当视频序列帧内容因视频相机的水平移动而从一个视频场景逐 渐改变为不同视频场景时,可发生相机摇摄。如图18A中所说明,因视频场景的逐渐全局平 移改变,相机摇摄指纹188包含在所检测的运动的水平分量中始终存在的相对于值0的显 著偏移或偏差,亦即,在最大交叉相关值位置中始终存在的与原点的显著水平偏移。所述偏 移的量取决于运动量以及观察或估计所述偏移时所通过的时间距离,亦即,特定第一阶交 叉相关时间系列。在图20A中,可分别以1个、2个及4个帧间隔的时间距离来观察约-1.5 个像素、"3个像素及_6个像素的平均偏移。当视频序列帧内容因视频相机的垂直移动而从一个视频场景逐渐改变为不同视 频场景时,可发生相机卷动。如图20B中所说明,因视频场景的逐渐全局平移改变,相机卷 动指纹200包含在所检测的运动的垂直分量中始终存在的相对于值0的显著偏移或偏差, 亦即,在交叉相关峰值位置中始终存在的相对于原点的显著垂直偏移。所述偏移的量取决 于运动量以及观察或估计所述偏移时所通过的时间距离,亦即,特定第一阶交叉相关时间 系列。在图20B中,(例如)在帧索引10到16周围观察到的最早的下降(亦即,相对于0 的负偏差)分别以1个、2个及4个帧间隔的时间距离对应于-1个、-2个及-4个像素的平 均偏移。在此时间间隔期间,视频相机可能因短暂震动而经历突然的短垂直位移。本发明的技术是针对基于视频序列中所包括的多个帧之间的交叉相关来确定所 述帧中的每一者的图片类型。更具体地说,所述技术是针对基于GOP结构中所包括的帧之 间的交叉相关来自适应地确定所述帧的图片类型。所述交叉相关包括所述视频序列中所包 括的若干对帧内的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的 第二阶交叉相关。可分析所述第一阶交叉相关以检测所述帧之间的视频转变效果。可比较 分析第一阶交叉相关及第二阶交叉相关以确定相邻帧之间的时间相似性。因此,所述基于 相关的确定技术基于所述视频转变效果及所述时间相似性来确定所述帧的图片类型。所述基于相关的确定技术可计算若干对帧内的图像之间或若干对帧内的子图像 (例如,宏块)的集合之间的第一阶交叉相关,接着在所述若干对帧中的每一对帧的所述子 图像的全部或一部分上求所述第一阶交叉相关的统计值(例如,最大值)的平均值。本文 中所描述的技术可在由代码转换器利用的基于相关的AGOP结构确定模块内执行以用于以 例如ITU-T H. 264的提供有效的帧间及帧内压缩的编码标准来对视频数据进行重新编码。 在一个方面中,可使用所述基于相关的AGOP结构确定模块作为在实时代码转换器中实施 的其它AGOP结构确定方法可与之比较的离线基准。在另一方面中,可在实时代码转换器中 实施具有适当的复杂性降低的基于相关的AGOP结构确定模块。在其它方面中,可在单遍或 多遍、实时或非实时视频编码器中利用基于相关的AGOP结构确定模块以用于以例如ITU-T H. 264的提供有效的帧间及帧内压缩的编码标准来对先前未压缩的原始视频数据进行编 码。本文中所描述的技术可以硬件、软件、固件或其任一组合实施。所述技术可在例如 通用计算机、无线通信装置手持机或具有包括无线通信装置手持机及其它装置中的应用的 多种用途的集成电路装置的各种装置的任一者中实施。被描述为模块或组件的任何特征可 一起实施于集成式逻辑装置中或单独实施为离散但可交互操作的逻辑装置。如果以硬件实 施,则可使用数字硬件、模拟硬件或其组合来实现所述技术。如果以软件实施,则可至少部分地由在计算机程序产品的计算机可读媒体上存储或传输的一个或一个以上指令或代码 来实现所述技术。计算机可读媒体可包括计算机存储媒体、通信媒体或两者,且可包括有助 于将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机存取的任何可 用媒体。计算机程序产品可包括封装材料。举例来说且并非限制,所述计算机可读媒体可包含RAM(例如,同步动态随机存取 存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储 器PR0M、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、快闪存 储器、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储装置或可用以载运或存 储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。此外,可适当地将任何连接称为计算机可读媒体。举例来说,如果使用网络电缆、 同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或例如红外线、无线电及微波的无线技术 而从网站、服务器或其它远程源传输软件,则网络电缆、同轴电缆、光纤电缆、双绞线、DSL或 例如红外线、无线电及微波的无线技术包括在媒体的定义中。如本文中所使用,磁盘及光盘 包括压缩光盘(CD)、激光光盘、光学光盘、数字通用光盘(DVD)、软磁盘及蓝光(blu-ray)光 盘,其中磁盘通常以磁性方式再现数据,而光盘例如使用激光以光学方式再现数据。上述各 物的组合也应包括在计算机可读媒体的范围内。与计算机程序产品的计算机可读媒体相关联的代码可由计算机执行,例如,由一 个或一个以上处理器(例如,一个或一个以上数字信号处理器(DSP))、通用微处理器、专用 集成电路(ASIC)、现场可编程门阵列(FPGA,也被称作现场可编程逻辑阵列(FPLA))或其它 等效集成或离散逻辑电路来执行。在一些方面中,本文中所描述的功能性可提供在经配置 以用于编码及解码的专用软件模块或硬件模块内或并入在经组合的视频编码器-解码器 (编解码器)中。然而,在不偏离随附权利要求书的范围的情况下,可对所描述的技术进行各种修改。
权利要求
一种方法,其包含计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关;计算若干对所述第一阶交叉相关之间的第二阶交叉相关;以及基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所述帧中的每一者的图片类型。
2.根据权利要求1所述的方法,其中确定所述帧中的每一者的图片类型包含确定应将 所述视频序列中所包括的所述帧中的每一者编码为帧内图片、经预测的图片还是双向预测 性图片。
3.根据权利要求1所述的方法,其中确定所述帧中的每一者的图片类型包含 通过将所述第一阶交叉相关的输出中所包括的特征识别为视频效果指纹来检测所述视频序列中所包括的所述帧之间的视频转变效果;以及基于对所述第一阶交叉相关及所述第二阶交叉相关的比较分析来确定所述视频序列 中所包括的所述帧之间的时间相似性。
4.根据权利要求3所述的方法,其中检测视频转变效果包含基于所述第一阶交叉相关 来检测一个或一个以上紧凑支持视频转变效果,其中所述紧凑支持视频转变效果包括剪辑 场景改变视频效果、部分场景改变视频效果及闪光帧视频效果,且其中检测所述一个或一 个以上紧凑支持视频转变效果包含将所述第一阶交叉相关的输出施加到与所述紧凑支持视频转变效果匹配的滤波器,所 述滤波器检测所述输出内的大体类似于紧凑支持视频效果指纹的多个特征;以及将所述匹配的滤波器的输出施加到阈值比较器,所述阈值比较器识别所述所检测的特 征中的哪些为紧凑支持视频效果指纹。
5.根据权利要求3所述的方法,其中检测视频转变效果包含基于所述第一阶交叉相关 来检测一个或一个以上扩展支持视频转变效果,其中所述扩展支持视频转变效果包括交叉 淡化视频效果、淡入视频效果、淡出视频效果、放大视频效果及缩小视频效果,且其中检测 所述一个或一个以上扩展支持视频转变效果包含将所述第一阶交叉相关的输出施加到多分辨率分析器,所述多分辨率分析器检测所述 输出内的大体类似于扩展支持视频效果指纹的多个特征;以及将所述多分辨率分析器的输出施加到经结构化显著峰值分析器,所述经结构化显著峰 值分析器识别所述所检测的特征中的哪些为扩展支持视频效果指纹。
6.根据权利要求3所述的方法,其中检测视频转变效果包含基于所述第一阶交叉相关 来检测一个或一个以上全局运动视频转变效果,其中所述全局运动视频转变效果包括相机 摇摄视频效果及相机卷动视频效果,且其中检测所述一个或一个以上全局运动视频转变效 果包含将所述第一阶交叉相关的输出施加到最大值位置滤波器,所述最大值位置滤波器检测 所述输出内的大体类似于全局运动视频效果指纹的多个特征且确定对所述特征中的每一 者的水平位移估计及垂直位移估计;以及将所述最大值位置滤波器的输出施加到多通道融合模块,所述多通道融合模块使所述 所检测的特征中的每一者的所述水平位移估计及所述垂直位移估计平滑且识别所述所检 测的特征中的哪些为全局运动视频效果指纹。
7.根据权利要求1所述的方法,其进一步包含基于对帧内容、速率-失真改进特性及编 码带宽机制特性的依赖性来评估所述视频序列中所包括的所述帧中的每一者的所述所确 定的图片类型的准确度。
8.根据权利要求1所述的方法,其进一步包含将所述视频序列分割为包括多个帧的图 片组(GOP)结构,其中确定所述帧中的每一者的图片类型包含在所述GOP结构内定位分析窗,以使得所述分析窗以候选帧为中心且包括预定数目个 相邻帧;计算所述分析窗中所包括的帧的图像信息之间的第一阶交叉相关;计算所述分析窗中所包括的若干对所述第一阶交叉相关之间的第二阶交叉相关;以及基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述候选帧的图片类型。
9.根据权利要求1所述的方法,其中计算第一阶交叉相关包含在所述视频序列中所包括的若干对帧内的图像信息之 间执行基于二维快速傅立叶变换的计算,且其中计算第二阶交叉相关包含在若干对第一阶交叉相关之间执行基于二维快速傅立 叶变换的计算。
10.根据权利要求1所述的方法,其中计算第一阶交叉相关包含计算所述视频序列中 所包括的若干对帧内的全帧图像之间的第一阶交叉相关。
11.根据权利要求1所述的方法,其中计算第一阶交叉相关包含将所述视频序列中所包括的若干对帧内的子图像集合中的子图像填充为共同图像大计算所述子图像集合之间的第一阶子图像交叉相关;以及在所述若干对帧中的每一对帧的所述子图像的至少一部分上求所述子图像交叉相关 的平均值。
12.根据权利要求11所述的方法,其中确定所述帧中的每一者的图片类型包含将所述视频序列中所包括的所述帧中的每一者划分为多个片断;以及基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的所述个别片断的图片类型。
13.根据权利要求1所述的方法,其中确定所述帧中的每一者的图片类型包含确定所 述视频序列中所包括的所述帧中的每一者的基准图片类型,进一步包含将实时确定的图片 类型与所述基准图片类型比较以确定所述实时确定的图片类型的准确度。
14.根据权利要求1所述的方法,其中确定所述帧中的每一者的图片类型包含实时确 定所述视频序列中所包括的所述帧中的每一者的图片类型。
15.根据权利要求14所述的方法,其进一步包含执行复杂性降低以使得能够进行对所 述图片类型的实时确定。
16.根据权利要求1所述的方法,其进一步包含基于所述针对所述帧而确定的图片类 型而对所述视频序列中所包括的所述帧中的每一者进行编码。
17.一种装置,其包含相关器,其计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关, 且计算若干对所述第一阶交叉相关之间的第二阶交叉相关;以及图片类型确定模块,其基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视 频序列中所包括的所述帧中的每一者的图片类型。
18.根据权利要求17所述的装置,其中所述图片类型确定模块确定应将所述视频序列 中所包括的所述帧中的每一者编码为帧内图片、经预测的图片还是双向预测性图片。
19.根据权利要求17所述的装置,其进一步包含相关分析器,所述相关分析器包括 视频转变效果检测器,其基于所述第一阶交叉相关的输出中所包括的被识别为视频效果指纹的特征来检测所述视频序列中所包括的所述帧之间的视频转变效果;以及比较分析器,其基于对所述第一阶交叉相关及所述第二阶交叉相关的比较分析来确定 所述视频序列中所包括的所述帧之间的时间相似性。
20.根据权利要求19所述的装置,其中所述视频转变效果检测器包括紧凑支持事件检测器,其基于所述第一阶交叉相关来检测一个或一个以上紧凑支持视 频转变效果,其中所述紧凑支持视频转变效果包括剪辑场景改变视频效果、部分场景改变 视频效果及闪光帧视频效果,且其中所述紧凑支持事件检测器包含与所述紧凑支持视频转变效果匹配的滤波器,所述滤波器检测所述第一阶交叉相关的 输出内的大体类似于紧凑支持视频效果指纹的多个特征;以及阈值比较器,其识别所述匹配的滤波器的输出中的所述所检测的特征中的哪些为紧凑 支持视频效果指纹。
21.根据权利要求19所述的装置,其中所述视频转变效果检测器包括扩展支持事件检测器,其基于所述第一阶交叉相关来检测一个或一个以上扩展支持视 频转变效果,其中所述扩展支持视频转变效果包括交叉淡化视频效果、淡入视频效果、淡出 视频效果、放大视频效果及缩小视频效果,且其中所述扩展支持事件检测器包含多分辨率分析器,其检测所述第一阶交叉相关的输出内的大体类似于扩展支持视频效 果指纹的多个特征;以及经结构化显著峰值分析器,其识别所述多分辨率分析器的输出中的所述所检测的特征 中的哪些为扩展支持视频效果指纹。
22.根据权利要求19所述的装置,其中所述视频转变效果检测器包括全局运动检测器,其基于所述第一阶交叉相关来检测一个或一个以上全局运动视频转 变效果,其中所述全局运动视频转变效果包括相机摇摄视频效果及相机卷动视频效果,且 其中所述全局运动检测器包含最大值位置滤波器,其检测所述第一阶交叉相关的输出内的大体类似于全局运动视频 效果指纹的多个特征且确定对所述特征中的每一者的水平位移估计及垂直位移估计;以及 多通道融合模块,其使所述最大值位置滤波器的输出中的对所述所检测的特征中的每 一者的所述水平位移估计及所述垂直位移估计平滑且识别所述所检测的特征中的哪些为 全局运动视频效果指纹。
23.根据权利要求17所述的装置,其进一步包含评估模块,所述评估模块基于对帧内 容、速率_失真改进特性及编码带宽机制特性的依赖性来评估由所述图片类型确定模块针 对所述视频序列中所包括的所述帧中的每一者而确定的所述图片类型的准确度。
24.根据权利要求17所述的装置,其进一步包含图片组(GOP)分割器,其将所述视频序列分割为包括多个帧的GOP结构;以及分析窗定位模块,其在所述GOP结构内定位分析窗以使得所述分析窗以候选帧为中心 且包括预定数目个相邻帧,其中所述相关器计算所述分析窗中所包括的帧的图像信息之间的第一阶交叉相关,且 计算所述分析窗中所包括的若干对所述第一阶交叉相关之间的第二阶交叉相关,且其中所述图片类型确定模块基于所述第一阶交叉相关及所述第二阶交叉相关来确定 所述候选帧的图片类型。
25.根据权利要求17所述的装置,其中所述相关器在所述视频序列中所包括的若干对 帧内的图像信息之间执行基于二维快速傅立叶变换的计算以产生所述第一阶交叉相关,且 在若干对第一阶交叉相关之间执行基于二维快速傅立叶变换的计算以产生所述第二阶交 叉相关。
26.根据权利要求17所述的装置,其中所述相关器计算所述视频序列中所包括的若干 对帧内的全帧图像之间的第一阶交叉相关。
27.根据权利要求17所述的装置,其中所述相关器将所述视频序列中所包括的若干对帧内的子图像集合中的子图像填充为共同图像大计算所述子图像集合之间的第一阶子图像交叉相关;且在所述若干对帧中的每一对帧的所述子图像的至少一部分上求所述子图像交叉相关 的平均值以产生所述第一阶交叉相关。
28.根据权利要求27所述的装置,其中所述图片类型确定模块将所述视频序列中所包括的所述帧中的每一者划分为多个片断;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的所述个别片断的图片类型。
29.根据权利要求17所述的装置,其中所述图片类型确定模块确定所述视频序列中所 包括的所述帧中的每一者的基准图片类型以用于与实时确定的图片类型比较从而确定所 述实时确定的图片类型的准确度。
30.根据权利要求17所述的装置,其中所述图片类型确定模块实时确定所述视频序列 中所包括的所述帧中的每一者的图片类型。
31.根据权利要求30所述的装置,其进一步包含复杂性降低模块,所述复杂性降低模 块执行复杂性降低以使所述图片类型确定模块能够执行对所述图片类型的实时确定。
32.根据权利要求17所述的装置,其进一步包含编码器,所述编码器基于所述针对所 述帧而确定的图片类型而对所述视频序列中所包括的所述帧中的每一者进行编码。
33.一种包含计算机可读媒体的计算机程序产品,所述计算机可读媒体包含用于使计 算机执行以下操作的指令计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关;计算若干对所述第一阶交叉相关之间的第二阶交叉相关;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的图片类型。
34.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机确定应将所述视频序列中所包括的所述帧中的每一者编码为帧内图片、经预测的图片还是双向预测性图片。
35.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机基于所述第一阶交叉相关的输出中所包括的被识别为视频效果指纹的特征来检测所 述视频序列中所包括的所述帧之间的视频转变效果;且基于对所述第一阶交叉相关及所述第二阶交叉相关的比较分析来确定所述视频序列 中所包括的所述帧之间的时间相似性。
36.根据权利要求35所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机基于所述第一阶交叉相关来检测一个或一个以上紧凑支持视频转变效果,其中 所述紧凑支持视频转变效果包括剪辑场景改变视频效果、部分场景改变视频效果及闪光帧 视频效果,且其中所述使所述计算机检测一个或一个以上紧凑支持视频转变效果的指令使 所述计算机将所述第一阶交叉相关的输出施加到与所述紧凑支持视频转变效果匹配的滤波器,所 述滤波器检测所述输出内的大体类似于紧凑支持视频效果指纹的多个特征;且将所述匹配的滤波器的输出施加到阈值比较器,所述阈值比较器识别所述所检测的特 征中的哪些为紧凑支持视频效果指纹。
37.根据权利要求35所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机基于所述第一阶交叉相关来检测一个或一个以上扩展支持视频转变效果,其中 所述扩展支持视频转变效果包括交叉淡化视频效果、淡入视频效果、淡出视频效果、放大视 频效果及缩小视频效果,且其中所述使所述计算机检测所述一个或一个以上扩展支持视频 转变效果的指令使所述计算机将所述第一阶交叉相关的输出施加到多分辨率分析器,所述多分辨率分析器检测所述 输出内的大体类似于扩展支持视频效果指纹的多个特征;且将所述多分辨率分析器的输出施加到经结构化显著峰值分析器,所述经结构化显著峰 值分析器识别所述所检测的特征中的哪些为扩展支持视频效果指纹。
38.根据权利要求35所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机基于所述第一阶交叉相关来检测一个或一个以上全局运动视频转变效果,其中 所述全局运动视频转变效果包括相机摇摄视频效果及相机卷动视频效果,且其中所述使所 述计算机检测所述一个或一个以上全局运动视频转变效果的指令使所述计算机将所述第一阶交叉相关的输出施加到最大值位置滤波器,所述最大值位置滤波器检测 所述输出内的大体类似于全局运动视频效果指纹的多个特征且确定对所述特征中的每一 者的水平位移估计及垂直位移估计;且将所述最大值位置滤波器的输出施加到多通道融合模块,所述多通道融合模块使所述 所检测的特征中的每一者的所述水平位移估计及所述垂直位移估计平滑且识别所述所检 测的特征中的哪些为全局运动视频效果指纹。
39.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其进一步包含使 所述计算机基于对帧内容、速率_失真改进特性及编码带宽机制特性的依赖性来评估所述 视频序列中所包括的所述帧中的每一者的所述所确定的图片类型的准确度的指令。
40.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其进一步包含使所述计算机执行以下操作的指令将所述视频序列分割为包括多个帧的图片组(GOP)结构;在所述GOP结构内定位分析窗以使得所述分析窗以候选帧为中心且包括预定数目个 相邻帧;计算所述分析窗中所包括的帧的图像信息之间的第一阶交叉相关;计算所述分析窗中所包括的若干对所述第一阶交叉相关之间的第二阶交叉相关;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述候选帧的图片类型。
41.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机在所述视频序列中所包括的若干对帧内的图像信息之间执行基于二维快速傅立叶变 换的计算以产生所述第一阶交叉相关,且在若干对第一阶交叉相关之间执行基于二维快速傅立叶变换的计算以产生所述第二 阶交叉相关。
42.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机计算所述视频序列中所包括的若干对帧内的全帧图像之间的第一阶交叉相关。
43.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机将所述视频序列中所包括的若干对帧内的子图像集合中的子图像填充为共同图像大计算所述子图像集合之间的第一阶子图像交叉相关;且在所述若干对帧中的每一对帧的所述子图像的至少一部分上求所述子图像交叉相关 的平均值以产生所述第一阶交叉相关。
44.根据权利要求43所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机将所述视频序列中所包括的所述帧中的每一者划分为多个片断;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的所述个别片断的图片类型。
45.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机确定所述视频序列中所包括的所述帧中的每一者的基准图片类型,且将实时确 定的图片类型与所述基准图片类型比较以确定所述实时确定的图片类型的准确度。
46.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机实时确定所述视频序列中所包括的所述帧中的每一者的图片类型。
47.根据权利要求46所述的包含计算机可读媒体的计算机程序产品,其中所述指令使 所述计算机执行复杂性降低以使得能够进行对所述图片类型的实时确定。
48.根据权利要求33所述的包含计算机可读媒体的计算机程序产品,其进一步包含使 所述计算机基于所述针对所述帧而确定的图片类型而对所述视频序列中所包括的所述帧 中的每一者进行编码的指令。
49.一种装置,其包含用于计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的第二阶交叉相关的装置;以及用于基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括 的所述帧中的每一者的图片类型的装置。
50.根据权利要求49所述的装置,其中所述用于确定图片类型的装置确定应将所述 视频序列中所包括的所述帧中的每一者编码为帧内图片、经预测的图片还是双向预测性图 片。
51.根据权利要求49所述的装置,其进一步包含用于基于所述第一阶交叉相关的输出中所包括的被识别为视频效果指纹的特征来检 测所述视频序列中所包括的所述帧之间的视频转变效果的装置;以及用于基于对所述第一阶交叉相关及所述第二阶交叉相关的比较分析来确定所述视频 序列中所包括的所述帧之间的时间相似性的装置。
52.根据权利要求51所述的装置,其中所述用于检测视频转变效果的装置包括用于基 于所述第一阶交叉相关来检测一个或一个以上紧凑支持视频转变效果的装置,其中所述紧 凑支持视频转变效果包括剪辑场景改变视频效果、部分场景改变视频效果及闪光帧视频效 果,且其中所述用于检测一个或一个以上紧凑支持视频转变效果的装置包含与所述紧凑支持视频转变效果匹配的滤波器,所述滤波器检测所述第一阶交叉相关的 输出内的大体类似于紧凑支持视频效果指纹的多个特征;以及阈值比较器,其识别所述匹配的滤波器的输出中的所述所检测的特征中的哪些为紧凑 支持视频效果指纹。
53.根据权利要求51所述的装置,其中所述用于检测视频转变效果的装置包括用于基 于所述第一阶交叉相关来检测一个或一个以上扩展支持视频转变效果的装置,其中扩展支 持视频转变效果包括交叉淡化视频效果、淡入视频效果、淡出视频效果、放大视频效果及缩 小视频效果,且其中所述用于检测一个或一个以上扩展支持视频转变效果的装置包含多分辨率分析器,其检测所述第一阶交叉相关的输出内的大体类似于扩展支持视频效 果指纹的多个特征;以及经结构化显著峰值分析器,其识别所述多分辨率分析器的输出中的所述所检测的特征 中的哪些为扩展支持视频效果指纹。
54.根据权利要求51所述的装置,其中所述用于检测视频转变效果的装置包括用于基 于所述第一阶交叉相关来检测一个或一个以上全局运动视频转变效果的装置,其中全局运 动视频转变效果包括相机摇摄视频效果及相机卷动视频效果,且其中所述用于检测所述一 个或一个以上全局运动视频转变效果的装置包含最大值位置滤波器,其检测所述第一阶交叉相关的输出内的大体类似于全局运动视频 效果指纹的多个特征且确定对所述特征中的每一者的水平位移估计及垂直位移估计;以及多通道融合模块,其使所述最大值位置滤波器的输出中的对所述所检测的特征中的每 一者的所述水平位移估计及所述垂直位移估计平滑且识别所述所检测的特征中的哪些为 全局运动视频效果指纹。
55.根据权利要求49所述的装置,其进一步包含用于基于对帧内容、速率-失真改进特 性及编码带宽机制特性的依赖性来评估所述视频序列中所包括的所述帧中的每一者的所 述所确定的图片类型的准确度的装置。
56.根据权利要求49所述的装置,其进一步包含用于将所述视频序列分割为包括多个帧的GOP结构的装置;以及用于在所述GOP结构内定位分析窗以使得所述分析窗以候选帧为中心且包括预定数 目个相邻帧的装置,其中所述用于计算的装置计算所述分析窗中所包括的帧的图像信息之间的第一阶交 叉相关,且计算所述分析窗中所包括的若干对所述第一阶交叉相关之间的第二阶交叉相 关,且其中所述用于确定图片类型的装置基于所述第一阶交叉相关及所述第二阶交叉相关 来确定所述候选帧的图片类型。
57.根据权利要求49所述的装置,其中所述用于计算的装置在所述视频序列中所包括 的若干对帧内的图像信息之间执行基于二维快速傅立叶变换的计算以产生所述第一阶交 叉相关,且在若干对第一阶交叉相关之间执行基于二维快速傅立叶变换的计算以产生所述 第二阶交叉相关。
58.根据权利要求49所述的装置,其中所述用于计算的装置计算所述视频序列中所包 括的若干对帧内的全帧图像之间的第一阶交叉相关。
59.根据权利要求49所述的装置,其中所述用于计算的装置将所述视频序列中所包括的若干对帧内的子图像集合中的子图像填充为共同图像大计算所述子图像集合之间的第一阶子图像交叉相关;且在所述若干对帧中的每一对帧的所述子图像的至少一部分上求所述子图像交叉相关 的平均值以产生所述第一阶交叉相关。
60.根据权利要求59所述的装置,其中所述用于确定图片类型的装置将所述视频序列中所包括的所述帧中的每一者划分为多个片断;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的所述个别片断的图片类型。
61.根据权利要求49所述的装置,其中所述用于确定图片类型的装置确定所述视频序 列中所包括的所述帧中的每一者的基准图片类型以用于与实时确定的图片类型比较从而 确定所述实时确定的图片类型的准确度。
62.根据权利要求49所述的装置,其中所述用于确定图片类型的装置实时确定所述视 频序列中所包括的所述帧中的每一者的图片类型。
63.根据权利要求62所述的装置,其进一步包含用于执行复杂性降低以使所述图片类 型确定模块能够执行对所述图片类型的实时确定的装置。
64.根据权利要求49所述的装置,其进一步包含用于基于所述针对所述帧而确定的图 片类型而对所述视频序列中所包括的所述帧中的每一者进行编码的装置。
65.一种无线通信装置手持机,其包含相关器,其计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关, 且计算若干对所述第一阶交叉相关之间的第二阶交叉相关;以及图片类型确定模块,其基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视 频序列中所包括的所述帧中的每一者的图片类型。
66.根据权利要求65所述的手持机,其中所述图片类型确定模块确定应将所述视频序 列中所包括的所述帧中的每一者编码为帧内图片、经预测的图片还是双向预测性图片。
67.根据权利要求65所述的手持机,其进一步包含相关分析器,所述相关分析器包括 视频转变效果检测器,其基于所述第一阶交叉相关的输出中所包括的被识别为视频效果指纹的特征来检测所述视频序列中所包括的所述帧之间的视频转变效果;以及比较分析器,其基于对所述第一阶交叉相关及所述第二阶交叉相关的比较分析来确定 所述视频序列中所包括的所述帧之间的时间相似性。
68.根据权利要求67所述的手持机,其中所述视频转变效果检测器包括紧凑支持事件检测器,其基于所述第一阶交叉相关来检测一个或一个以上紧凑支持视 频转变效果,其中所述紧凑支持视频转变效果包括剪辑场景改变视频效果、部分场景改变 视频效果及闪光帧视频效果,且其中所述紧凑支持事件检测器包含与所述紧凑支持视频转变效果匹配的滤波器,所述滤波器检测所述第一阶交叉相关的 输出内的大体类似于紧凑支持视频效果指纹的多个特征;以及阈值比较器,其识别所述匹配的滤波器的输出中的所述所检测的特征中的哪些为紧凑 支持视频效果指纹。
69.根据权利要求67所述的手持机,其中所述视频转变效果检测器包括扩展支持事件检测器,其基于所述第一阶交叉相关来检测一个或一个以上扩展支持视 频转变效果,其中所述扩展支持视频转变效果包括交叉淡化视频效果、淡入视频效果、淡出 视频效果、放大视频效果及缩小视频效果,且其中所述扩展支持事件检测器包含多分辨率分析器,其检测所述第一阶交叉相关的输出内的大体类似于扩展支持视频效 果指纹的多个特征;以及经结构化显著峰值分析器,其识别所述多分辨率分析器的输出中的所述所检测的特征 中的哪些为扩展支持视频效果指纹。
70.根据权利要求67所述的手持机,其中所述视频转变效果检测器包括全局运动检测器,其基于所述第一阶交叉相关来检测一个或一个以上全局运动视频转 变效果,其中所述全局运动视频转变效果包括相机摇摄视频效果及相机卷动视频效果,且 其中所述全局运动检测器包含最大值位置滤波器,其检测所述第一阶交叉相关的输出内的大体类似于全局运动视频 效果指纹的多个特征且确定对所述特征中的每一者的水平位移估计及垂直位移估计;以及 多通道融合模块,其使所述最大值位置滤波器的输出中的对所述所检测的特征中的每 一者的所述水平位移估计及所述垂直位移估计平滑且识别所述所检测的特征中的哪些为 全局运动视频效果指纹。
71.根据权利要求65所述的手持机,其进一步包含评估模块,所述评估模块基于对帧 内容、速率_失真改进特性及编码带宽机制特性的依赖性来评估由所述图片类型确定模块 针对所述视频序列中所包括的所述帧中的每一者而确定的所述图片类型的准确度。
72.根据权利要求65所述的手持机,其进一步包含图片组(GOP)分割器,其将所述视频序列分割为包括多个帧的GOP结构;以及 分析窗定位模块,其在所述GOP结构内定位分析窗以使得所述分析窗以候选帧为中心 且包括预定数目个相邻帧,其中所述相关器计算所述分析窗中所包括的帧的图像信息之间的第一阶交叉相关,且 计算所述分析窗中所包括的若干对所述第一阶交叉相关之间的第二阶交叉相关,且其中所述图片类型确定模块基于所述第一阶交叉相关及所述第二阶交叉相关来确定 所述候选帧的图片类型。
73.根据权利要求65所述的手持机,其中所述相关器在所述视频序列中所包括的若干 对帧内的图像信息之间执行基于二维快速傅立叶变换的计算以产生所述第一阶交叉相关, 且在若干对第一阶交叉相关之间执行基于二维快速傅立叶变换的计算以产生所述第二阶 交叉相关。
74.根据权利要求65所述的手持机,其中所述相关器计算所述视频序列中所包括的若 干对帧内的全帧图像之间的第一阶交叉相关。
75.根据权利要求65所述的手持机,其中所述相关器将所述视频序列中所包括的若干对帧内的子图像集合中的子图像填充为共同图像大计算所述子图像集合之间的第一阶子图像交叉相关;且在所述若干对帧中的每一对帧的所述子图像的至少一部分上求所述子图像交叉相关 的平均值以产生所述第一阶交叉相关。
76.根据权利要求75所述的手持机,其中所述图片类型确定模块 将所述视频序列中所包括的所述帧中的每一者划分为多个片断;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的所述个别片断的图片类型。
77.根据权利要求65所述的手持机,其中所述图片类型确定模块实时确定所述视频序 列中所包括的所述帧中的每一者的图片类型。
78.根据权利要求77所述的手持机,其进一步包含复杂性降低模块,所述复杂性降低 模块执行复杂性降低以使所述图片类型确定模块能够执行对所述图片类型的实时确定。
79.根据权利要求65所述的手持机,其进一步包含编码器,所述编码器基于所述针对 所述帧而确定的图片类型而对所述视频序列中所包括的所述帧中的每一者进行编码。
80.—种包含至少一个处理器的用于处理数字图像数据的集成电路装置,所述至少一 个处理器经配置以计算视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关; 计算若干对所述第一阶交叉相关之间的第二阶交叉相关;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的图片类型。
81.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以确定应 将所述视频序列中所包括的所述帧中的每一者编码为帧内图片、经预测的图片还是双向预 测性图片。
82.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以 基于所述第一阶交叉相关的输出中所包括的被识别为视频效果指纹的特征来检测所述视频序列中所包括的所述帧之间的视频转变效果;且基于对所述第一阶交叉相关及所述第二阶交叉相关的比较分析来确定所述视频序列中所包括的所述帧之间的时间相似性。
83.根据权利要求82所述的集成电路装置,其中所述至少一个处理器经配置以基于所 述第一阶交叉相关来检测一个或一个以上紧凑支持视频转变效果,其中所述紧凑支持视频 转变效果包括剪辑场景改变视频效果、部分场景改变视频效果及闪光帧视频效果,且其中 所述至少一个处理器经配置以将所述第一阶交叉相关的输出施加到与所述紧凑支持视频转变效果匹配的滤波器,所 述滤波器检测所述输出内的大体类似于紧凑支持视频效果指纹的多个特征;且将所述匹配的滤波器的输出施加到阈值比较器,所述阈值比较器识别所述所检测的特 征中的哪些为紧凑支持视频效果指纹。
84.根据权利要求82所述的集成电路装置,其中所述至少一个处理器经配置以基于所 述第一阶交叉相关来检测一个或一个以上扩展支持视频转变效果,其中所述扩展支持视频 转变效果包括交叉淡化视频效果、淡入视频效果、淡出视频效果、放大视频效果及缩小视频 效果,且其中所述至少一个处理器经配置以将所述第一阶交叉相关的输出施加到多分辨率分析器,所述多分辨率分析器检测所述 输出内的大体类似于扩展支持视频效果指纹的多个特征;且将所述多分辨率分析器的输出施加到经结构化显著峰值分析器,所述经结构化显著峰 值分析器识别所述所检测的特征中的哪些为扩展支持视频效果指纹。
85.根据权利要求82所述的集成电路装置,其中所述至少一个处理器经配置以基于所 述第一阶交叉相关来检测一个或一个以上全局运动视频转变效果,其中所述全局运动视频 转变效果包括相机摇摄视频效果及相机卷动视频效果,且其中所述至少一个处理器经配置 以将所述第一阶交叉相关的输出施加到最大值位置滤波器,所述最大值位置滤波器检测 所述输出内的大体类似于全局运动视频效果指纹的多个特征且确定对所述特征中的每一 者的水平位移估计及垂直位移估计;且将所述最大值位置滤波器的输出施加到多通道融合模块,所述多通道融合模块使对所 述所检测的特征中的每一者的所述水平位移估计及所述垂直位移估计平滑且识别所述所 检测的特征中的哪些为全局运动视频效果指纹。
86.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以基于对 帧内容、速率_失真改进特性及编码带宽机制特性的依赖性来评估所述视频序列中所包括 的所述帧中的每一者的所述所确定的图片类型的准确度。
87.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以 将所述视频序列分割为包括多个帧的图片组(GOP)结构;在所述GOP结构内定位分析窗以使得所述分析窗以候选帧为中心且包括预定数目个 相邻帧;计算所述分析窗中所包括的帧的图像信息之间的第一阶交叉相关;计算所述分析窗中所包括的若干对所述第一阶交叉相关之间的第二阶交叉相关;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述候选帧的图片类型。
88.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以 在所述视频序列中所包括的若干对帧内的图像信息之间执行基于二维快速傅立叶变换的计算以产生所述第一阶交叉相关,且在若干对第一阶交叉相关之间执行基于二维快速傅立叶变换的计算以产生所述第二 阶交叉相关。
89.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以计算所 述视频序列中所包括的若干对帧内的全帧图像之间的第一阶交叉相关。
90.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以 将所述视频序列中所包括的若干对帧内的子图像集合中的子图像填充为共同图像大计算所述子图像集合之间的第一阶子图像交叉相关;且在所述若干对帧中的每一对帧的所述子图像的至少一部分上求所述子图像交叉相关 的平均值以产生所述第一阶交叉相关。
91.根据权利要求90所述的集成电路装置,其中所述至少一个处理器经配置以将所述视频序列中所包括的所述帧中的每一者划分为多个片断;且基于所述第一阶交叉相关及所述第二阶交叉相关来确定所述视频序列中所包括的所 述帧中的每一者的所述个别片断的图片类型。
92.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以确定所 述视频序列中所包括的所述帧中的每一者的基准图片类型,且将实时确定的图片类型与所 述基准图片类型比较以确定所述实时确定的图片类型的准确度。
93.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以实时确 定所述视频序列中所包括的所述帧中的每一者的图片类型。
94.根据权利要求93所述的集成电路装置,其中所述至少一个处理器经配置以执行复 杂性降低从而使得能够进行对所述图片类型的实时确定。
95.根据权利要求80所述的集成电路装置,其中所述至少一个处理器经配置以基于所 述针对所述帧而确定的图片类型而对所述视频序列中所包括的所述帧中的每一者进行编 码。
96.一种系统,其包含编码装置,其包括将视频数据分割为包括多个帧的图片组(GOP)结构的GOP分割器及 实时确定所述GOP结构中所包括的所述帧的图片类型的自适应图片组(AGOP)结构确定模 块;定位在所述编码装置外部的基于相关的AGOP结构确定模块,其基于若干对帧内的图 像信息之间的第一阶交叉相关及若干对第一阶交叉相关之间的第二阶交叉相关来确定所 述GOP结构中所包括的所述帧的基准图片类型;以及基准比较器,其将所述图片类型与所述基准图片类型比较以确定集成在所述编码装置 中的所述AGOP结构确定模块的准确度。
97.根据权利要求96所述的系统,其中所述编码装置包含代码转换器或编码器中的一者ο
98.一种编码装置,其包含图片组(GOP)分割器,其将视频数据分割为包括多个帧的GOP结构;以及基于相关的自适应图片组(AGOP)结构确定模块,其基于若干对帧内的图像信息之间的第一阶交叉相关及若干对第一阶交叉相关之间的第二阶交叉相关来实时确定所述GOP 结构中所包括的所述帧的图片类型。
99.根据权利要求98所述的编码装置,其进一步包含复杂性降低模块,所述复杂性降 低模块执行以下操作中的至少一者降低所述GOP结构中所包括的所述帧内的图像信息的 分辨率及限制由所述基于相关的AGOP结构确定模块计算的第一阶交叉相关的数目。
100.根据权利要求98所述的编码装置,其中所述装置包含代码转换器或编码器中的 “"者 ο
全文摘要
本发明针对用于基于视频序列中所包括的多个帧之间的交叉相关来确定所述帧中的每一者的图片类型的技术。所述交叉相关包括所述视频序列中所包括的若干对帧内的图像信息之间的第一阶交叉相关及若干对所述第一阶交叉相关之间的第二阶交叉相关。可分析所述第一阶交叉相关以检测所述帧之间的视频转变效果。可比较分析所述第一阶交叉相关及所述第二阶交叉相关以确定所述帧之间的时间相似性。因此,所述基于相关的确定技术基于所述视频转变效果及所述时间相似性来确定所述帧的图片类型。所述基于相关的确定技术可计算若干对帧内的图像之间或若干对帧内的子图像集合之间的第一阶交叉相关,接着在所述若干对帧中的每一对帧的所述子图像上求所述第一阶交叉相关的平均值。
文档编号H04N7/26GK101926174SQ200880125475
公开日2010年12月22日 申请日期2008年12月17日 优先权日2007年12月17日
发明者史考特·T·斯瓦泽伊, 塞伊富拉·哈利特·奥古兹, 阿密特·罗哈吉 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1