用于多媒体处理的内容分类的制作方法

文档序号:7637262阅读:222来源:国知局
专利名称:用于多媒体处理的内容分类的制作方法
技术领域
本发明的领域涉及通过压缩算法以基于多媒体数据的内容实施分析、分类、量化及表示多媒体数据的多媒体数据处理。

背景技术
因特网和无线通信的广泛使用已扩大了对通过因特网和移动/无线信道流注媒体的多媒体服务的需要。在因特网协议(IP)网络中,多媒体数据可由服务器提供,且可由一个或多个有线或无线客户端流化。有线连接包括拨号、集成服务数字网络(ISDN)、电缆、数字用户线路协议(统称为xDSL)、光纤、局域网络(LAN)、广域网络(WAN)及其他网络。利用无线通信的电子装置包括电话(例如蜂窝式电话)、个人数据助理(PDA)、手持式及便携式计算机及其他装置。在多数(如果不是全部)这种应用中,带宽需求及/或约束迫使多媒体数据处理利用源编码器集成多媒体压缩算法来分析、量化及表示多媒体数据,以通过花费“最小”数量的位来传达最多信息。这些算法的特征发生明显变化,从而导致其性能(例如压缩效率及位速率)的大范围变化。使用压缩算法的多媒体处理特征可基于内容而发生明显变化,从而可导致其性能(例如压缩效率及位速率)的大范围变化。
某些多媒体数据处理方案使用某些类型的信息将多媒体数据分类。通常,图像分类算法是基于某一形式的图像分割方法。在针对MPEG-7的MPEG中已建议图像聚类算法(光聚类)。文中当前建议及阐述的图像分类算法是基于多媒体数据的数学及统计方面。用于对多媒体数据实施处理及编码的改进方法及装置可在有线及无线通信二者中具有大范围的应用,且其可有利于在所属技术领域中利用及/或修改这种处理的特征以便开发其特征以改进现有产品并创造尚未开发的新产品。


发明内容
本发明的设备及方法的每一者均具有数个方面,任一单个方面均不能单独决定其合意特征。在不限定本发明范畴的前提下,现将简要论述其主要特性。在考虑这一论述后,且尤其在读取名称为“具体实施方式
”的部分后,我们将了解如何改进多媒体数据处理设备及方法的特性。
在一个方面中,一种处理多媒体数据的方法包括确定多媒体数据的复杂度、基于所确定的复杂度将所述多媒体数据分类、及基于其分类确定用于对多媒体数据实施解码的位速率。所述方法还可以包括确定多媒体数据的空间复杂度及时间复杂度,且将多媒体数据分类可包括使空间复杂度与纹理值相关联,使时间复杂度与运动值相关联,及基于所述纹理值及运动值为所述多媒体数据指配内容分类。
在另一方面中,一种用于处理多媒体数据的设备包括用于确定多媒体数据的复杂度的构件,用于基于所确定的复杂度将多媒体数据分类的构件,及用于基于其分类确定用于对多媒体数据实施编码的位速率的构件。
在另一方面中,一种经配置以处理多媒体数据的装置包括处理器,所述处理器经配置以去诶多能工多媒体数据的复杂度,经配置以基于所确定的复杂度将多媒体数据分类,及进一步经配置以基于其分类确定用于对多媒体数据实施编码的位速率。
在另一方面中,一种用于实施一种用于处理多媒体数据的方法的计算机可读媒体包括确定多媒体数据的复杂度,基于所确定的复杂度将多媒体数据分类,及基于其分类确定用于将多媒体数据分类的位速率。
在另一方面中,一种用于处理多媒体数据的设备包括第一确定器,以确定多媒体数据的复杂度;内容分类器,以基于所确定的复杂度将多媒体数据分类;及第二确定器,用于基于其分类确定用于对多媒体数据实施编码的位速率。在某些方面中,所述复杂度包括多媒体数据的空间复杂度及/或多媒体数据的时间复杂度,且所述多媒体数据的分类可基于所述空间复杂度及/或时间复杂度。
在再一方面中,一种用于处理多媒体数据的方法及设备包括用于确定多媒体数据的复杂度的方法或装置;及基于所确定的复杂度将多媒体数据分类的方法或装置。一种用于处理多媒体数据的方法及设备可包括用于确定多媒体数据复杂度的方法或装置;及基于所确定的复杂度从至少一个多媒体过程中实施选择的方法或装置。一种用于处理多媒体数据的方法及设备可包括用于确定多媒体数据复杂度的方法或装置;及基于所述多媒体数据复杂度来选择一组编码过程的方法或装置。一种用于处理多媒体数据的方法及设备可包括用于基于所确定复杂度将多媒体数据分类的方法或装置;及基于其分类确定用于对多媒体数据实施编码的位速率的方法或装置。一种用于处理多媒体数据的方法及设备可包括用于确定多媒体数据复杂度的方法或装置;及基于所述多媒体数据复杂度来选择一组解码过程。一种用于处理多媒体数据的方法及设备可包括用于确定多媒体数据复杂度的方法或装置;基于所确定复杂度将多媒体数据分类及基于所述多媒体数据的分类选择一组解码过程的方法或装置。应注意,所述方法及设备可由计算机可读媒体及/或处理器实施。



图1是用于对串流式多媒体数据实施编码及解码的一般通信系统的方块图, 图2是图解说明传统MPEG-4简单规范数据流的图式, 图3图解说明MPEG-4中的P帧构建过程的实例, 图4是内容分类组件的方块图, 图5是视频帧中一组宏块的示意图,其图解说明每一宏块的平均值, 图6是图解说明基于纹理及运动值的图像分类实例的图表, 图7是使用内容分类曲线及视觉感知质量值来确定位速率的实例的图式, 图8是图解说明用于将多媒体数据分类的过程的流程图,及 图9是图解说明用于基于其内容分类对多媒体数据实施编码的过程的流程图。
图10是图解说明多个多媒体流或信道的编码的系统图式。
图11是图解说明运动补偿的图式。
图12是图解说明大λ的预加重的图式。

具体实施例方式 下列详细阐述旨在某些可使用的实施例。然而,所揭示实施例可以多种不同的方式实施。在本说明书中所提及的“一个实施例”或“实施例”意指结合所述实施例阐述的特定特性、结构或特征包含于至少一个实施例中。在本说明书中不同位置处出现的用语“在一实施例中”、“根据一实施例”或“在某些实施例中”未必均指相同实施例,但也不排斥其他实施例的单独或替代实施例。此外,本文阐述可由某些实施例而非其他实施例表现出的各种特征。同样,本文阐述可能为某些实施例所要求而不为其他实施例所要求的各种要求。
下列说明包括细节以提供对所述实例的透彻了解。然而,所属技术领域的技术人员应了解,即使本文未阐述或图解说明实例或实施例中的处理器或装置的每一细节,所述实例仍可实行。例如,方块图中可显示电组件而不图解说明所述组件的每一电连接或每一电元件,以避免以不必要的细节淡化所述实例。于其他示例中,可详细显示这些组件、其它结构及技术以进一步解释所述实例。
本文阐述用于对多媒体数据实施编码的设备及方法的实例,其中利用基于所述多媒体数据的内容将多媒体数据分类为不同种类(例如,一个或多个内容分类)。所述方法及设备提供用于基于下列步骤对多媒体数据实施编码的技术确定多媒体数据的空间及时间特征,及基于其复杂度特征的一者或多者将多媒体数据分类。这些方法及设备使得能够基于多媒体数据的内容类别来“调谐”多媒体数据处理及压缩算法,以优化用于使用内容信息对多媒体数据实施编码并高效地递送人眼感知的多媒体数据的所需质量等级或另一质量等级量度的方法及设备。
本文使用的“多媒体数据”是包括视频数据(其可包括音频数据)、音频数据、或视频数据与音频数据二者的广义术语。本文用作广义术语的“视频数据”或“视频”涉及包含文本或图像信息及/或音频数据的图像序列,且可用于涉及多媒体数据(例如,所述术语可交互使用),除非另外指定。
多媒体编译码器系统一般并不考虑不同类型的内容。而是,针对所有内容类型以类似方式完成编码。通常,以恒定质量或恒定位速率对多媒体数据实施编码。以恒定位速率编码会导致为低活性部分及高活性部分编码的视频的质量差异。例如,包含体育剪辑的新闻序列可通过为每一部分分配相同数量的位来编码。再观看时,体育剪辑部分将会看起来比谈话头像部分的质量低,且总的结果可能不可接受。以恒定质量编码会导致位速率的低效使用。以高质量对低活性视频实施编码会使用不必要的高位速率,从而导致浪费带宽。通过基于视频序列中的纹理及运动将多媒体数据分类,而非仅基于所述序列中一般类型的内容,可基于所述特定数据的实际纹理化运动在所述序列上调整位速率。内容分类可用于大量应用中,以导致较佳的位管理及可用位预算的更智能使用。例如,在某些实施例中,可使用内容分类用于视频数据的场景变换检测。
多媒体数据通信 传送至客户端装置的多媒体数据通常是经压缩的。一对称作MPEG-x及H26x的视频编码标准阐述很好地适用于使用固定或可变长度源编码技术压缩及传送视频、音频及其它信息的数据处理及操纵技术(本文称作混合编码)。具体来说,上述标准及其它混合编码标准及技术例示性地使用帧内编码技术(例如,运行长度编码、哈夫曼(Huffman)编码及类似方法)及帧间编码技术(例如,正向及反向预测编码、运动补偿及类似方法)来压缩多媒体信息。具体来说,在多媒体处理系统的情形中,混合多媒体编码系统是以通过使用帧内及/或帧间运动补偿编码对多媒体帧实施基于预测的压缩编码为特征的。至少部分地基于内容分类的编码可集成于这种压缩算法中,以进一步优化多媒体处理。尽管本文所述实例是针对视频编码标准MPEG及H.26x来写的,但其他视频编码标准的类似使用也是适用的。
帧内编码是指无需参考任一其它图片而将图片(字段或帧)编码,但内部编码的图片可用作其它图片的参考。术语帧内(Intra-frame)、内部编码的帧(Intra-coded frame)及I帧均是使用贯穿本申请案使用的内部编码而形成的视频对象实例。。
中间或预测编码是指参照另一图片而将图片(字段或帧)编码。与内部编码的图片相比,可以更高的效率对中间编码或预测的图片实施编码。将贯穿本申请案使用的中间编码图片的实例是预测帧(正向或反向预测,也称作P帧)、及双向预测帧(也称作B帧)。用于中间编码的其它术语包括高通编码、剩余编码、运动补偿插值及所属技术领域的技术人员熟知的其它方法。
称作可缩放编码的技术可将内部编码的图片及不同的中间编码图片(例如P帧或B帧)划分至位流中的不同层内,例如基础层及加强层。可缩放编码适用于动态信道,其中可缩放位流可经调适以匹配网络带宽的波动。在易出错信道中,可缩放编码可通过对基础层及加强层实施非均衡错误保护来增加稳健性。可对较重要的层应用较佳的错误保护。
编码多媒体数据 图1是用于对多媒体数据内容实施分类、编码、通信及对此种数据实施解码的一般通信系统的方块图。系统100包括编码器装置105及解码器装置110。编码器装置105包括编码器组件185,编码器组件185包括内部编码器组件115及预测编码器组件120。编码器装置105进一步包括存储器组件130、通信组件175及内容分类器组件190。编码器装置105能够使用包含于通信组件175中的通信逻辑自外部源135接收数据。外部源135可以是(例如)外部存储器、因特网、现场视频及/或音频馈送,且接收所述数据可包括有线及/或无线通信。包含于外部源135中的数据可以是原始(未编码)格式或经编码状态。内部编码器组件115用于对帧(数据片、宏块及子宏块)的内部编码部分实施编码。预测编码器组件120用于对帧的包括正向预测、反向预测及双向预测的预测部分实施编码。在编码之后,将已编码的帧存储于存储器组件130或外部存储器内。所述外部存储器可包含于外部源135中,或是单独的存储器组件(未显示)。
编码器装置105包括与编码器装置105中的存储器组件130及一个或多个其他组件通信的处理器187。处理器187可执行编码器的任一其他组件的处理,且可包含主编码过程。在某些实施例中,处理器187可能不是单独组件(如图所示),相反,所述处理器功能可集成于编码器105的其他组件的一者或多者中。
通信组件175包括用于结合网络140实施数据传输(Tx)的逻辑。网络140可以是例如电话、电缆及光纤的有线系统或无线系统的一部分。在无线通信系统的清醒中,网络140可包括例如码分多址(CDMA或CDMA2000)通信系统的一部分,或者另一选择为,所述系统可以是频分多址(FDMA)系统、正交频分复用(OFDMA)系统、例如用于服务行业的GSM/GPRS(通用封包无线电服务)/EDGE(增强数据GSM环境)或TETRA(地面中继无线电)移动电话技术等时分多址(TDMA)系统、宽带码分多址(WCDMA)、高数据传输率(1xEV-DO或1xEV-DO金牌多播)系统、或一般而言任一使用各技术的组合的无线通信系统。在网络140上传输(Tx)所述已编码帧。下文将更全面地阐述由编码器装置105实施的编码过程。
内容分类组件190包含用于确定自外部源135接收的多媒体数据的数据内容分类的逻辑。为对多媒体数据进行分类,人的视力模型可用于量化人眼相对于图像及/或运动图像序列中的视觉信号空间及/或时间上下文对其亮度扰动的敏感度。还考虑了人眼的空间及时间屏蔽效应。一个方面包括使用运动估计或区块匹配算法来表示视频的时间方面。关于多媒体数据的信息(例如,视频数据的空间及时间复杂度值)可由编码器105的一个或多个组件确定,并结合视频的空间及运动效应感知性使用以将视频数据内容分类为两个或更多个类别。这种分类可用于预/后处理及压缩(例如,场景变换检测、速率控制、FRUC)算法中。内容分类向编码器105提供关于在即将到来的视频数据(例如,超帧)中想要哪一类型的内容的可靠估计,以便编码器105可基于所述内容分类并出于其他帧类型决策的目的确定适合的位速率分配供实现特定等级的视觉感知质量。超帧是一组针对预定时间周期或窗口的媒体数据-通常等于相当于一秒的数据,其用作用于确定内容分类、传输及任一其他目的的单元。内容分类可基于人眼可察觉的多媒体数据的特征,例如空间复杂度及时间复杂度。多媒体处理算法可经优化以用于各种内容类型,并在其编码及传送多媒体数据的性能方面提供可靠性及控制。
编码器组件185可提供(例如,宏块的)处理信息供内容分类组件190使用。例如,编码器组件185可计算来自多媒体数据的信息,其中包括例如Dcsat值、对比定量值、运动向量(MV)等人的视觉灵敏度度量及绝对像素差(SAD)的和。编码器组件185可将这一信息存储至存储器组件130,从而使其可由内容分类组件190找回,以确定多媒体数据的空间及时间复杂度、确定数据的纹理及运动、及随后确定所产生的内容分类。在另一方面中,内容分类组件190或例如处理器187等另一组件计算来自多媒体数据的这一信息的至少一部分。
解码过程 解码器装置110包含与编码器装置105中的某些组件类似的组件,其包括内部解码器组件145、预测解码器组件150、存储器组件160、处理器167及通信组件180。解码器装置110接收已在网络140上或自外部存储器165传输的已编码数据。通信组件180包括用于结合网络140接收(Rx)已编码数据的逻辑,以及用于自外部存储器165接收已编码数据的逻辑。外部存储器165可以是(例如)外部RAM或ROM、或远程服务器。内部解码器组件145用于对内部编码的数据实施解码。预测解码器组件150用于对中间编码的数据实施解码。处理器17与解码器装置110中的存储器组件160及其他组件的一者或多者通信。处理器167可执行对解码器的任一其他组件的处理,且可包含主解码过程。预测解码器组件150对P帧(经正向或反向预测)以及B帧二者实施解码。可利用用于对P帧实施解码的相同子组件使用多个参考依序对B帧实施解码。用于B帧的多个参考可位于正向及反向参考帧内、同处于相同参考帧内、同处于单独正向帧内或同处于反向参考帧内。
在解码后,可使用显示组件170来显示所述经解码帧,或将其存储于内部存储器160或外部存储器165中。显示组件170可以是包括这些部分(包括一显示屏幕)作为视频显示硬件及逻辑的解码装置的集成部分,或其可以是外部周边装置。下文将更全面地阐述由解码器装置110实施的解码过程。
编码实例-MPEG 在典型的MPEG解码器中,参照参考帧(其中内部帧或另一预测帧可充当参考帧)对预测编码像素区块(例如,包括一个或多个运动向量及剩余错误组份的区块)实施解码。图2是图解说明传统MPEG-4简单规范数据流的图式,其描绘图片组(GOP)的帧相依性。GOP 10由初始I帧12后跟数个正向预测P帧14构成。由于P帧对前一I或P帧的相依性,任一P帧14的丢失可能导致丢失可能对将其他P帧解码至关重要的信息。P帧的丢失或消除可能导致(例如)视频抖动或解码器在标记下一GOP开始的下一I帧16之前不能继续解码。
P帧(或任何中间编码段)可利用当前图片中的区域与参考图片中的最佳匹配预测区域之间的暂时冗余。所述当前区域与所述最佳匹配参考预测区域之间的差称为剩余错误(或预测错误)。所述参考帧内的最佳匹配预测区域的位置可编码于运动向量内。处理器167可执行解码器110的任一其他组件的处理,且可包含主解码过程。在某些实施例中,处理器167可能不是单独组件,而是,所述处理器功能可集成于解码器110的一个或多个其他组件中。
图3图解说明(例如)MPEG-4中的P帧构造过程的实例。过程300包括由5×5个宏块组成的当前图片305,其中这一实例中的宏块数量是任意的。宏块是相关联像素的组群,且在这一实例中由16×16个像素组成。像素可由8位亮度值(Y)及两个8位色度值(Cr及Cb)界定。在MPEG中,可以4:2:0格式存储Y、Cr及Cb组份,其中Cr及Cb组份沿X及Y方向按2倍缩减取样。因而,每一宏块均将由256个Y组份、64个Cr组份及64个Cb组份组成。
在不同于当前图片305的时间点处根据参考图片310预测当前图片305的宏块315。在参考图片310中进行搜寻以定位在Y、Cr及Cb值上最接近于正被编码的当前宏块315的最佳匹配宏块320。所属技术领域的技术人员熟知的用于搜寻最佳匹配宏块320的方法包括a)将当前宏块315与参考图片310宏块之间的SAD(绝对像素差的和)最小化;b)将SSD(平方像素差的和)最小化;及c)将速率失真感测及其它方面的成本最小化。将参考图片310内的最佳匹配宏块320的位置编码于运动向量325中。参考图片310可以是解码器将在构造当前图片305之前重构的I帧或P帧。自当前宏块315中减去最佳匹配宏块320(计算每一Y、Cr及Cb组份的差),从而导致剩余错误330。使用2D离散余弦转换(DCT)335将剩余错误330编码及随后量化340。
可实施量化340以通过(例如)向高频系数分配较少的位同时向低频系数分配较多的位来提供空间压缩。剩余错误330的所述经量化系数与运动向量325及参考图片310标识信息一起均是表示当前宏块315的已编码信息。所述已编码信息可存储于存储器中,供将来使用或出于(例如)错误修正或图像增强的目的来操作或在网络345上传输。
剩余错误330的所述已编码的经量化系数与已编码的运动向量325一起可用于重构所述编码器中的当前宏块315,以用作接续的运动估计及补偿的参考帧的一部分。所述编码器可模仿解码器的过程用于这一P帧重建。所述解码器的模仿可导致编码器与解码器二者使用同一参考图片工作。本文提供所述重建过程,无论其是在编码器中实施以用于进一步的中间编码还是在解码器中实施。可在重建所述参考帧(或正被参考的图片或帧的一部分)之后开始重建P帧。解量化350所述已编码的经量化系数,且随后实施2D反向DCT或IDCT 355,从而产生经解码或经重建的剩余错误360。已编码运动向量325用于在已重建的参考图片310中定位已重建的最佳匹配宏块365。然后,将经重建的剩余错误360添加至已重建的最佳匹配宏块365以形成已重建宏块370。经重建的宏块470可存储于存储器内、单独地或与其它经重建宏块一起显示于图片中或进一步处理供图片增强之用。
多媒体数据的内容分类 图4是图1中图解说明的内容分类组件190的方块图。内容分类组件190包括复杂度组件192,其经配置以确定多媒体数据的空间复杂度及时间复杂度,且还使得纹理值与空间复杂度相关联及使得运动值与时间复杂度相关联。对于正被编码的多媒体数据,内容分类组件190自存储器130取回关于数据内容的已预处理信息。这一信息可包括(例如)一个或多个Dcsat值、对比率值、运动向量(MV)及绝对差的和(SAD)。在其中这一信息未被预处理器确定的方面中(例如,图1所示编码器组件185或处理器187),分类组件190可包括计算这一信息的功能。
一般来说,多媒体数据包括一个或多个序列的图像或帧。每一帧可被分解为多个像素区块供处理之用。空间复杂度是一般阐述帧内的空间细节等级的量度的广义术语。具有大致平滑或无变化或低变化的亮度及色度区域的场景可具有低空间复杂度。空间复杂度与视频数据的纹理相关联。在这一方面中,空间复杂度是基于称作Dcsat的人的视力灵敏度度量,其中计算每一区块的Dcsat以作为本地空间频率及周围照明的函数。所属技术领域的技术人员了解用于使用空间频率图案及照明的技术,并对比可视图像的特征以利用人的视觉系统。大量灵敏度度量已知用于利用人的视觉系统的可察觉限制,且可借助本文所述方法来使用。
时间复杂度是一般用于阐述在帧序列内各帧之间参考的多媒体数据中的运动等级量度的广义术语。几乎或完全没有运动的场景(例如,视频数据的帧序列)具有较低时间复杂度。时间复杂度可针对每一宏块来计算,且可基于Dcsat值、运动向量及一个帧与另一帧(例如,参考帧)之间的绝对像素差的和。
场景变换检测 场景变换检测是用于任何视频编码系统自身以智能方式保持位而不通过以固定时间间隔内插I帧来浪费位的必要步骤。下列说明显示可如何检测场景变换及其随之在内容分类中的使用。
GOP的长度可足够长以减少大I帧的效率损失,且足够短以反对编码器与解码器之间的不匹配或信道减损。另外,P帧中的宏块(MB)可出于同一原因而被内部编码。
在实际的流式视频系统中,通信信道通常因位误差或分组丢失而减损。放置I帧或I MB的位置可显著影响已解码视频质量及观看经历。基本原则是对与所配置的先前图片或图片部分具有明显变化的图片或图片部分使用内部编码。这些区域不能使用运动估计而有效及高效地预知。因此,其可能免除使用中间编码技术。在信道减损的上下文中,所述区域可能遭受误差传播。内部编码可用于减少误差传播。
需要内部更新的区域可被分类为三种类别。
(1)突然场景变换这一类别包括与前一帧明显不同的帧,通常由于照相机操作而导致。由于这些帧的内容不同于前一帧的内容,则突变场景变换帧可被编码为I帧。
(2)渐隐及其他慢场景变换这一类别包括场景慢速切换,通常由于照相机拍摄的计算机处理而导致。两个不同场景的渐进混合可能在人类看起来更赏心悦目,但对视频编码来说是挑战。运动补偿可能不会有效降低所述帧的位速率。需要更新这些帧中的更多内部MB。
(3)照相机闪光灯。照相机闪光灯突然且快速地提升图片的亮度。照相机闪光灯的持续时间通常比人的视觉系统(HVS)的时间屏蔽持续时间(通常界定为44ms)短。人眼类对光亮的这些短时突发的质量并不敏感,且因此其可以粗略编码。由于闪光帧可能无法使用运动补偿进行有效处理,且其是将来帧的较差预测候选者,则这些帧的粗略编码不会降低将来帧的编码效率。
在检测到任一上述帧时,宣告一拍摄事件。拍摄检测不仅有益于改进编码质量;其还可以辅助视频内容搜寻/标引。下文阐述一种检测算法。
用双向运动补偿器预处理所述序列。所述序列使得当前帧的每一8×8区块均与这一帧的两个最接近的邻帧(如图11中图解说明的前一帧及后一帧)的区块匹配。运动补偿器为每一区块产生运动向量及差度量。差度量可以是平方差(SSD)的和或绝对差(SAD)的和。在不失一般性的前提下,我们使用SAD作为这一文档中的实例。
针对每一帧,SAD比率可计算如下 (方程式1) 其中SADP和SADN分别是正向和反向差度量的SAD。应注意,分母包含小的正数ε以避免出现“除以零”的错误。分子也包含ε以平衡分母中的一致性效果(effect of theunity)。例如,如果前一帧、当前帧及下一帧相同,则运动搜寻会产生SADP=SADN=0。在这一情形中,上述计算的生成数γ=1而非0或无穷大。
我们还找出每一帧的亮度柱状图。在正常情况下,我们处理其亮度深度为8位的图像。针对这一亮度深度,我们可以将频段数设为16以获得柱状图。下一度量估计柱状图差。
(方程式2) 其中NPi是前一帧的第i个频段中的区块数,及NCi是当前帧的第i个频段中的区块数,及N是帧的总区块数。显而易见,如果前一帧及当前帧的柱状图无交集,则λ=2。
如方程式3中说明,如果满足下一判别式,则宣告一突然场景变换帧 (方程式3) 其中A是应用程序选定的常数,且T1是阈值。我们的模拟显示A=1及T1=5会实现好的检测性能。如果当前帧是突然场景变换帧,则γC可能较大而γP可能较小。我们将M称作场景变换强度度量。可使用比率

代替仅γC,以便将所述度量归一化至上下文的活动等级。
应注意,上述判别式以非线性方式使用亮度柱状图差λ。参照图12,可看出这是凸函数。在λ较小(接近0)时,其几乎没有预加重。λ越大,所述函数传导的加重越大。通过使用这一预加重,对于任一大于1.4的λ,如果将阈值T1设为5则可检测到突然场景变换。
如果对于某一数量的连续帧,T2≤M≤T1(其中T2是阈值),则可检测到渐隐及其他慢速场景变换。
为检测照相机闪光灯事件,我们可以使用亮度柱状图统计值。例如,闪光灯事件通常使得亮度柱状图移至较亮侧。可使用下一判别式来检测照相机闪光灯事件 及SADP≥T4,SADN≥T4(方程式4) T4=30会实现好的检测性能。包含SAD值的原因是照相机闪光通常占据1帧,且由于亮度差异,这一帧可能不能使用正向及反向二者的运动补偿来良好预测。
再次参照图1,尽管内容分类组件190可包括计算运动向量及绝对像素差的和的功能,但通常其他编码器组件可以计算这一信息并将这一数据提供至内容分类组件190。Dcsat值还可以由复杂度组件192或编码器105的另一组件或处理器187来计算。
另一选择为,对比率可用于确定帧的空间复杂度。首先,计算帧中每一宏块的对比率。给定宏块的对比率是基于其相对于其邻近宏块的平均亮度值来计算的。图5图解说明视频帧中包括9个宏块的组群,其中每一宏块均是16×16个像素,μi表示给定宏块1-9的平均值。使用下列方程式计算宏块5-中央宏块-的对比率计算值(CR5) CR5=[∑(μj-μ5)/∑μj]*MBLUM5其中i=1,2...9(方程式.5) 其中MBLUMA5表示宏块5的平均亮度对比值。宏块1-4及6-9的对比率均以类似方式计算。帧的对比率是通过取帧中所述9个宏块的每一者的对比率值的平均数而获得的。所述9个宏块的对比率的标准偏差也经计算并提供每一帧内的纹理变化量的指示。
确定内容分类度量 内容分类度量可使用对比率值、其标准偏差及帧差度量来确定。
帧差度量 内容分类模块的另一输入是在预处理器中计算的帧差度量。帧差度量考虑运动量(例如,运动向量或MV)以及表示为预测符与当前宏块之间的绝对差的和(SAD)以给出两个连续帧之间的差量度。帧差还提供双向或单向预测效率的量度。
下文是基于自大概执行运动补偿解交错的预处理器接收的运动信息的帧差度量的实例。解交错器执行双向运动估计,且因此可获得双向运动向量及SAD信息。
每一宏块的SAD_MV表示的帧差可推导如下 SAD_MV=log10[SAD*exp(-min(1,MV))](方程式6) 其中SAD=min(SADN,SADP),其中SADN是根据反向参考帧计算的SAD,及SADP是根据正向参考帧计算的SAD。
另一估计帧差的方法是通过计算度量γ如下 (方程式7) 其中SADP及SADN分别是正向及反向差度量的SAD。应注意,分母包含小的正数ε以避免出现“除以零”的错误。分子也包含ε以平衡分母中的一致性效果。
我们还找出每一帧的量度柱状图。在正常情况下,我们处理其亮度深度为8位的图像。针对这一亮度深度,我们可以将频段数设定为16以获得柱状图。下一度量会估计柱状图差 (方程式8) 其中NPi是前一帧的第i个频段中的区块数,及NCi是当前帧的第i个频段中的区块数,及N是帧的总区块数。显而易见,如果前一帧及当前帧的柱状图无交集,则λ=2。
我们计算帧差度量如方程式9中显示 (方程式9) 分类过程 下列方式利用比率值和帧差以获得最终的视频内容分类度量,最终视频内容分类度量能够可靠地预测给定视频序列中的各特征。所提议的算法可以将内容分类为8种可能的类,类似于根据基于R-D曲线的分析获得的分类。
所述算法相依于场景复杂度及所述超帧中的场景变换出现次数输出每一超帧的位于0和1之间的范围内的值。
预处理器中的内容分类模块将为每一超帧执行下列步骤,以根据帧对比度及帧差获得内容分类度量。
(1)根据所述宏块对比度值来计算平均帧对比度及帧对比偏差。
(2)使用根据模拟获得的值将帧对比度及帧差归一化(其分别是40和5)。
(3)用于计算内容分类度量的一般方程式是 CC度量=CCW1*I帧对比度平均值+CCW2*帧差平均值-CCW3*I对比度偏差^2*exp(CCW4*帧差偏差^2)(方程式10) 其中CCW1、CCW2、CCW3和CCW4是加权因子。将CCW1、CCW2、CCW3和CCW4的值选为0.2、0.9、0.1和-0.00009。
(4)确定超帧中的场景变换次数。相依于场景变换的次数,执行下述情形的一者。
(a)无场景变换在超帧中无场景变换时,所述度量整个相依于帧差,如下列方程式中显示 CC度量=(CCW2+(CCW1/2))*帧差平均值-(CCW3-(CCW1/2))*1*exp(-CCW4*帧差偏差^2)(方程式11) (b)单场景变换 CC度量=CCW1*I帧对比度平均值+CCW2*帧差平均值-CCW3*I对比度偏差^2*exp(CCW4*帧差偏差^2)(方程式12) (c)两个场景变换当在给定超帧中观察到最多2次场景变换时,给予最后一个超帧比第一个超帧更大的权数,因为第一个超帧将由后者快速刷新,如下列方程式中显示 CC度量=0.1*I帧对比度平均值1+CCW1*I帧对比度平均值2+(CCW2-0.1)*帧差平均值-CCW3*I对比度偏差1^2*I对比度偏差2^2*exp(CCW4*帧差偏差^2)(方程式13) (d)三个或更多个场景变换如果观察到给定超帧具有多于3个I帧(也就是N个),则赋予最后一个I帧更大的权数,且赋予所有其他I帧0.05的加权,如下列方程式中显示 CC度量=0.05*I帧对比度平均值(1....N-1)+CCW1*I帧对比度平均值(N)+(CCW2-(0.05*(N-1)))*帧差平均值-CCW3*I对比度偏差(N)^2*I对比度偏差(1....N-1)^2*exp(CCW4*帧差偏差^2) (方程式14) (5)要求校正其中帧差平均值小于0.05时的低运动场景的情形中的度量。将偏移(CC偏移)0.33添加至所述CC度量。
复杂度组件192使用Dcsat值、运动向量及绝对差的和确定指示宏块的空间复杂度的值(或所指配的视频数据量)。时间复杂度由帧差度量的量度来确定。帧差度量计及运动量(具有运动向量)及各帧之间的绝对差的和来测量两个连续帧之间的差。
带宽映像产生 人的视觉质量V可以是编码复杂度C与所分配位B(也称作带宽)二者的函数。应注意,编码复杂度度量C自人的视觉角度考虑空间及时间频率。对于人类较敏感的失真而言,复杂度值会相应地较高。通常可假设V在C中单调地减少,而在B中单调地增加。
为获得恒定的视觉质量,为第i个待编码的对象(帧或MB)指配带宽(Bi),所述带宽(Bi)满足方程式15及16中所表达的标准。
Bi=B(Ci,V)(方程式15) (方程式16) 在方程式15及/或16中,Ci是第i个对象的编码复杂度,B是总的可用带宽,且V是所述对象可达到的视觉质量。人的视觉质量很难以方程式形式来阐明。因此,上述方程组并非精确界定。然而,如果假设所述3-D模型的所有变量均连续,则可认为带宽比率(Bi/B)在(C,V)对的附近不变。带宽比率βi界定于方程式17中。
βi=Bi/B(方程式17) 因而可如方程式18中所表达来界定位分配问题 βi=β(Ci) 其中(Ci,V)∈δ(C0,V0)(方程式18) 在上述方程式中,维护所述“邻近关系”。
编码复杂度受人的视觉灵敏度影响-就空间及时间两方面而言。Girod的人体视觉模型是一种可用于界定空间复杂度的模型实例。这一模型考虑局部空间频率及环境照明。所得到的度量称作Dcsat。在所述过程中的预处理点处,并不知晓是将图片进行内部编码还是中间编码,且产生二者的带宽比率。对于内部编码的图片而言,带宽比率表达于方程式19中 β内=β0内log10(1+α内Y2Dcsat)(方程式19) 在上述方程式中,Y是MB的平均亮度分量,α内是亮度平方及其后的Dcsat项的加权因数,β0内是保证的正规化因数。例如,α内=4的值会达到较佳的视觉质量。只要根据不同视频对象的β内之间的比率来分配位,换算因数β0内的值就不重要。
为理解这一关系,应注意,带宽是与编码复杂度成对数关系来分配的。亮度平方项反映了如下事实具有更大量级的系数使用更多的位来编码。为防止对数值变为负值,在括号内的项中加上1。也可使用具有其他底数的对数。
时间复杂度由帧差度量的量度确定。帧差度量计及运动量(具有运动向量)以及SAD来测量两个连续帧之间的差。
中间编码图片的位分配需要考虑空间以及时间复杂度。这表达于下列方程式20中 β内=β0间log 10(1+α间·SSD·Dcsatexp(-γ‖MVP+MVN‖2))(方程式20) 在方程式20中,MVP及MVN是当前MB的正向及反向运动向量。能够注意到,所述内部公式中的Y2被SSD(其代表平方差的和)取代。
为理解‖MVp+MVN‖2在方程式6中的作用,注意人的视觉系统的接续特征经历平滑、可预测的运动的区域(较小‖MVp+MVN‖2)会吸引注意且可由人眼追踪且通常不能容忍比固定区域更大的任何失真。然而,经历快速或不可预测的运动的区域(较大‖MVp+MVN‖2)却无法被跟踪,且可容忍显著的量化。实验表明,α间=1、γ=0.001会达到较佳的视觉质量。
确定纹理及运动信 对于多媒体数据中的每一宏块,分类组件194使得纹理值与空间复杂度相关联,及使得运动值与时间复杂度相关联。纹理值与多媒体数据的发光值相关,其中较低的纹理值指示所述数据的邻近像素的发光值具有较小变化,且较高纹理值指示所述数据的邻近像素的发光值具有较大变化。根据一个方面,一旦计算出纹理及运动值,则分类组件194通过考虑所述运动及纹理信息二者来确定内容分类度量(例如,内容分类)。分类组件194使得正在分类的视频数据的纹理与相关纹理值相关联,例如“低”纹理、“中”纹理或“高”纹理,其一般指示宏块的亮度值复杂度。同样,分类组件194使得针对正在分类的视频数据计算的运动值与相关运动值相关联,例如“低”运动、“中”运动或“高”运动,其一般指示宏块的运动量。在替代实施例中,可使用更少或更多类别的运动及文理。则可随之通过确定相关联的纹理及运动值来确定内容分类度量。
图6图解说明其中图解说明如何将纹理及运动值与内容分类相关联的分类图表的实例。所属技术领域的技术人员熟悉许多实施这种分类图表的方式,例如以查找表或数据库。分类图表是基于视频数据内容的预定估计而产生的。为确定视频数据分类,使得“低”、“中”或“高”(在“x轴”上)的纹理值与“低”、“中”或“高”(在“y轴”上)的运动值前后对照。将交叉块中指示的内容分类指配给视频数据。例如,纹理值“高”及运动值“中”会产生分类七(7)。图6图解说明在这一实例中与8个不同内容分类相关联的相关纹理及运动值的各种组合。在某些其他实施例中,可使用更多或更少个分类。
位速率确定 如上文阐述,所产生的多媒体数据内容分类可用于预/后处理及压缩算法中,以有效改进位管理同时维持恒定的视频感知质量。例如,分类度量可用于针对场景变换检测、编码位速率分配控制及帧速率上变频(FRUC)的算法中。压缩器/解压缩器(编译码器)系统和数字信号处理算法一般用于视频数据通信中,且可经配置以保持带宽,但在质量与带宽保持之间存在折中。最好的编译码器会提供最大的带宽保持,同时产生最少的视频质量降级。
在一个方面,位速率组件196使用内容分类确定位速率(例如,分配用于将多媒体数据编码的位数量),并存储所述位速率供由其他过程及组件使用,例如图1所示编码器组件185。根据视频数据分类确定的位速率可帮助保持带宽,同时以恒定质量等级提供多媒体数据。在一个方面中,不同的位速率可与所述8个不同内容分类的每一者相关联,且随之使用所述位速率对多媒体数据实施编码。所产生的效果是尽管为多媒体数据的不同内容分类分配不同数量的位供编码之用,但在显示器上观看时所感知的质量是类似或一致的。
一般而言,具有较高内容分类的多媒体数据指示较高等级的运动及/或纹理,且在编码时被分配有较多位。具有较低分类的多媒体数据(指示较少纹理及运动)分配有较少位。针对多媒体数据的特定内容分类,可基于用于观看所述多媒体数据的所选目标感知质量等级来确定位速率。确定多媒体数据质量可通过人的观看及对多媒体数据分级来确定。在某些替代实施例中,多媒体数据质量估计可由自动检验系统使用(例如)信噪比算法做出。在一个方面中,针对多媒体数据的每一内容分类预定一组标准质量等级(例如,5个)及达到每一特定质量等级所需的对应位速率。为确定一组质量等级,可通过产生平均主观评价结果(MOS)来估计多媒体数据的特定内容分类,其中MOS提供对在使用某一位速率对多媒体数据实施编码时所述多媒体数据的视觉感知质量的大量指示。所述MOS可表达为处于1至5范围内的单个数字,其中1是最低可感知质量,而5是最高可感知质量。在其他实施例中,MOS可具有多于5个或少于5个质量等级,且可使用每一质量等级的不同说明。
确定多媒体数据质量可通过人的观看和对多媒体数据分级来确定。在某些替代实施例中,多媒体数据质量的估计可以由自动检测系统使用(例如)信噪比算法做出。在一个方面中,针对多媒体数据的每一内容分类预定一组标准质量等级(例如,5个)及达到每一特定质量等级所需的对应位速率。
了解视觉感知的质量等级与多媒体数据的某一内容分类的位速率之间的关系可通过选择目标(例如,所需)质量等级来确定。用于确定位速率的目标质量等级可预选、由用户选择、通过自动过程或要求来自用户或来自另一过程的输入的半自动过程来选择、或由编码装置或系统基于预定标准而动态选择。目标质量等级可基于(例如)编码应用程序类型、或将接收多媒体数据的客户端装置类型来选择。
内容分类的确定 内容分类曲线及导出所述内容分类曲线的速率失真曲线是在将视频数据分类之前产生的。针对所标识的多媒体数据分类,通过找到目标等级与视频数据的特定分类的特定速率失真质量曲线的交叉点来确定可接受的位速率。位速率是对应于所述交叉点的点,且位速率可在选择较低的目标质量登记时降低。例如,如果目标被选择为“可接受”而非“好”,则原本分类为(例如)类6(具有位速率为速率5)的编码视频数据现将要求位速率约为速率4。
为确定图6及7中引用的8个多媒体数据内容分类,可使用包含多种类型的内容的多媒体数据序列以获得平均位速率及平均亮度峰值信噪比(PSNR)。根据所述平均PSNR来绘制所述序列的平均位速率以形成速率失真(R-D)曲线。例如,大量多媒体数据序列的R-D曲线可以图像格式描绘,其中x轴是平均位速率(kbps),且y轴是平均亮度PSNR(db)。所述序列的R-D曲线落入数个不同群集,且随之将多媒体数据序列分类为不同组群。在一实例中,最初形成5个组群,其中通过利用所有落入所述群集的序列来获得每一组群。所述群集可分别包含一个或多个序列。每一组群的标准偏差还可以根据形成所述组群的特定序列来计算。在其他实例中,视频数据序列可群集以相依于所使用的序列形成少于5个组群或多于5个组群。在这一实例中,基于视频数据的进一步分析而连续增加组群数量(5)。同样,如果最初在某些其他方面中形成更多或更少组群,则这些方面也可以包括基于估计其他序列来进一步增加或减少组群数量。所述5个最初组群对应于5个类,所述类表示给定超帧中的运动及纹理的不同等级。例如,类1表示具有低运动及低纹理(LM,LT)的超帧,类2表示具有中运动及低纹理(MM,LT)的超帧,类3表示具有中运动及中纹理(MM,MT)的超帧,类4表示具有高运动及中纹理(HM,MT)的超帧,及类5表示具有高运动及高纹理(HM,HT)的超帧。
随后,来自所有可用源序列的每一超帧经分类以检验每一超帧是否落入其相应类中。最初分类可通过检验各种多媒体数据序列及使用反复过程以兼容各种不符合先前界定的5个组群的其他序列来界定,且可获得新的经修改R-D曲线组。在这一实例中,将群集数量从5增加到8,且形成其他类,其中较大的类数量表示增加多媒体数据中的运动及较高纹理等级。
在这一实例中,随后效仿这些R-D曲线以促进其在将多媒体数据分类中的使用。由于信号的位速率与亮度PSNR之间的关系是对数函数,则可使用下列形式的对数函数来效仿R-D曲线ypsnr=a*In(速率)+b,a>0。在这一实例中,参数a及b的值复制如下 设计用于以这种方式操作以使得所有实时服务均具有与其位速率指配无关的类似感知质量的多媒体处理系统会提供一致的多媒体数据供显示之用。因此,预期实时服务的质量度量(例如,PSNR)随所指配的位速率单调地增加。由于PSNR的等价值并不必要地产生多媒体数据的一致感知质量,则基于另一不同于PSNR的质量度量来修改现有类。为达到多媒体数据的相同感知质量,通过添加对应偏移以便所有类均具有类似质量度量来修改内容分类曲线。经偏移校正的等式也是对数形式ypsnr=a*In(速率)+b+偏移。在所述实例中,所述8个内容类的每一者的偏移值是-9.833、-5.831、-4.335、-2.064、-0.127、0.361、4.476及6.847。
内容分类的用途之一是用于视频数据场景变换检测。如果帧差度量或对比度比率值或内容分类度量相对于帧序列中的前一帧及后一帧而相对较高,则我们确定所述特定帧是场景变换或新的拍照。
图8是图解说明一种用于基于将多媒体数据分类来确定位速率的过程200的实例的流程图。还应注意所述实例可被阐述为过程,所述过程可被描绘为流程图表、流程图、结构图或方块图。尽管流程图表可将各操作阐述为有序过程,但所述操作的许多操作也可并列或同时实施,并可重复所述过程。另外,相依于所述过程的应用环境,可重新排列操作次序、可执行未显示操作、或可忽略所显示的操作。
本文所述过程可对应于方法、函数、过程、软件程序或软件程序的一部分。当一过程对应于一功能时,其结束对应于所述功能返回至呼叫功能或主功能。将过程阐述为软件程序、模块、组件、子程序或辅程序是广义说明,且不意欲要求以相同方式构建所有实施例,除非明确地如此表达。相反,所属技术领域的技术人员将了解,这种操作通常可构建为硬件、软件、中间件、固件、或微代码。阐述为单个组件、程序或模块的功能或操作也可以构建为两个或更多个组件、模块、程序、(例如)子模块、辅程序或子程序。
过程200可由例如图1所示编码器装置105及其组件来实施。编码器装置105从外部源135接收经编码或未经编码的视频数据。在过程200中,步骤205确定视频数据的复杂度。在某些实施例中,编码器组件185计算用于确定视频数据的空间复杂度和时间复杂度的信息,例如运动向量、至少一个Dcsat值及宏块的绝对差的和。在某些实施例中,内容分类组件190计算用于确定多媒体数据的时间及空间复杂度所需信息的至少一部分。例如内容分类组件190等分类装置可基于所确定的复杂度将多媒体数据分类,步骤210。作为步骤210的结果,将所述多媒体数据分类至数个内容分类的一者中(例如,8个内容分类的一者)。在步骤215中,过程200确定用于观看多个内容分类的多媒体数据的质量值,其通常完成于过程200开始之前。确定数据可通过人的观看和为多媒体数据分级来确定,或在某些替代实施例中,多媒体数据质量的估计可由自动数据估计系统使用(例如)信噪比算法做出。所述可预选、由用户选择、通过自动过程或要求来自用户或来自另一过程的输入的半自动过程来选择。另一选择为,所述可由编码装置或系统在系统操作期间基于(例如)关于用于观看多媒体数据的所需或所要求的预定标准而动态选择。
过程200基于其分类及所需目标来确定用于对视频数据实施编码的位速率。用于对视频数据实施编码的位速率可通过添加属于所述超帧的个别帧大小估计来确定。个别帧大小估计可以两种方式计算。于一种方式中,基于带宽比率来计算所述超帧中每一帧的大小的估计,且因而可将超帧的大小估计为所述帧大小的线性组合。
基于帧大小来估计超帧大小 相依于先前编码的帧及所述帧的带宽比率来估计帧大小。我们使用无穷脉冲响应(IIR)滤波器来估计帧大小,且在实际大小与根据模拟的估计大小之间观察到强烈的相关性。在预处理器中基于MPEG-2解码器中的运动向量及SAD来计算带宽率(BWR)。
我们假设帧大小与BWR之间的直接线性关系如下 帧大小(n)/BWR(n)=帧大小(n+1)/BWR(n+1)方程式20 下文阐述用于估计帧大小的过程。
(1)称作γ的量被计算为每一已编码帧的帧大小与BWR之间的比率。
γ(i)=帧大小(i)/时间BWR(i)(方程式21) (2)针对待编码的每一帧,使用下列IIR滤波器计算权数 γp(i)=(1-α)*γ(i-1)+α*γp(i-1)(方程式22) 因此帧大小估计如下 帧估计值(i)=γp(i)*时间BWR(i)(方程式23) 这一过程可用于P帧及B帧二者,其中根据先前编码的P帧估计连续的P帧,且根据先前编码的B帧估计连续的B帧。在一种方法中,时间BWR可以是所述帧中所有宏块的β间(上述)的和。在I帧的情形中,观察到FTR滤波器提供比使用HR滤波器更准确的结果。因此对于I帧而言,获得估计值如下 I帧估计值(i)=空间BWR(i)*(I帧大小(i-1)/空间BWR(i-1))(方程式24) 超帧大小是所述超帧中所有帧估计值的和。
整体估计超帧大小 在另一方法中,可将超帧大小作为整体来估计。超帧大小的估计可相依于先前编码的超帧及超帧整体的带宽比率。如上文针对第一种方法阐述的无穷脉冲响应(HR)滤波器可用于估计超帧大小。
此外,可在利用超帧整体的带宽比率表示的超帧大小与超帧复杂度之间假设一线性关系 SF大小(n)/SF_BWR(n)=SF大小(n+1)/SF_BWR(n+1)(方程式25) 用于估计超帧大小的过程可解释如下 (1)称为θ的量计算为超帧大小与全部超帧的BWR之间的比率,如下列方程式中显示 θ(i)=SF大小(i)/SF_BWR(i)(方程式26) (2)针对待编码的每一超帧,使用下列IIR滤波器计算权数。
θP(i)=(1-α)*θ(i-1)+α*θP(i-1)(方程式27) 超帧大小可估计如下 超帧估计值(i)=θP(i)*SF_BWR(i)(方程式28) 使用所述超帧中个别帧的带宽比率的线性组合来估计给定超帧的带宽比率。超帧中的帧类型可基于固定GOP结构,例如IBP或IBBP等。
基于上述帧差度量来确定超帧中的帧类型。基于这一给定超帧中的内容类型分类来确定内部阈值及中间阈值。基于这些阈值,如果帧的帧差超过内部阈值则将所述帧视为I帧,或者,如果所述帧的帧差在内部与中间阈值之间,则视为P帧,及如果帧差低于中间阈值则视为B帧。
使用上述Dcsat及Girod的模型导出的空间带宽比率(阐述为β内)用于估计内部帧的大小。另一方法是其中空间带宽比率是基于上述对比度比率或任一其他表示数量的度量。
使用上述Dcsat及Girod的模型及MV及SAD导出的时间带宽比率(阐述为β内)用于估计中间帧的大小。另一方法是其中时间带宽比率是基于上述SAD_MV度量或任一其他表示所述帧中的运动量或运动等级的度量。
再次参照图8,在步骤221中,过程200使用在步骤215中确定的位速率用于进一步处理多媒体数据,以(例如)对多媒体数据实施编码供与无线网络通信。
图9是图解说明一种用于在图8所示点“A”及“B”之间处理多媒体数据的进一步操作的过程201的流程图。过程201在步骤206中确定多媒体数据的空间复杂度。确定空间复杂度要求过程201为多媒体数据的各区块计算至少一个Dcsat值,其执行于步骤207中。步骤207可由编码器组件185或内容分类组件190执行,二者均显示于图1中。上文阐述计算Dcsat值的过程。继续至步骤240,过程201现在确定多媒体数据的时间复杂度。步骤209确定数据的至少一个区块的至少一个运动向量,其通常由编码器组件185完成。在步骤211中,过程201还确定与多媒体数据的至少一个区块及参考区块相关联的绝对差的和(SAD)。步骤211中的计算还通常由编码器组件185完成。继续至步骤210,过程201基于所确定的复杂度将多媒体数据分类。为将多媒体数据分类,在步骤255中,使空间复杂度与纹理值相关联。此外,如步骤260中显示,使时间复杂度与运动值相关联。最后,在步骤265中,过程201基于在步骤255及260中相应地确定的纹理值及运动值将内容分类指配给所述多媒体数据。过程201的步骤结束于“B”点处,其中“B”点是其中过程200将继续进行以确定位速率之处,如图9所示步骤215中显示。
内容分类及估计多媒体内容的复杂度及给定感知质量的对应编码率或压缩比率的过程可经延展以增强各种速率流的统计复用中的增益。开发上述方法及设备的这种多路复用器还使得统一质量多路复用器在多媒体应用中输出动态变化内容。这种多路复用器阐述如下。
多路复用器 在某些实施例中,多路复用器可用于上述位管理。例如,可构建多路复用器来提供位速率分配控制。可将所估计的复杂度提供给所述多路复用器,然后可由所述多路复用器根据所述视频信道期望的编码复杂度为多路复用视频信道的集合分配可用带宽,由此使得甚至当所述多路复用视频流的集合的带宽相对恒定时也能够使特定信道的质量保持相对恒定。这使得信道集合内的一个信道具有可变位速率及相对恒定的视觉质量,而非相对恒定的位速率及可变的视觉质量。
图10是图解说明多个多媒体流或信道1002的编码的系统图。多媒体流1002由相应编码器1004实施编码,编码器1004与多路复用器(MUX)1006进行通信,多路复用器(MUX)106又与传输媒体1008进行通信。例如,多媒体流1002可对应于各种内容信道,例如新闻信道、体育信道、电影信道等等。编码器1004将多媒体流1002编码为系统指配的编码格式。尽管是就对视频流实施编码来阐述,但所揭示技术的原理及优点广泛地适用于包括例如音频流等多媒体流。经编码的多媒体流被提供至多路复用器1006,由多路复用器1006组合各种经编码的多媒体流,并将所述组合流发送至传输媒体1008供传输之用。
传输媒体1008可对应于各种媒体,例如(但不限于)例如DirecTV等数字卫星通信、数字电缆、有线及无线因特网通信、光学网络、蜂窝式电话网络等等。传输媒体108可包括(例如)调变至射频(RF)。通常,由于频谱约束条件及类似约束条件,传输媒体具有有限的带宽,且以相对恒定的位速率(CBR)维持从多路复用器1006到传输媒体的数据。
在传统系统中,在多路复用器1006的输出端使用恒定位速率(CBR)要求被输入至多路复用器1006的经编码多媒体或视频流也是CBR。如背景技术中阐述,在对视频内容实施编码时使用CBR可造成变化的视觉质量,这通常并不合意。
在所例示的系统中,两个或更多个编码器1004传送输入数据的预期编码复杂度。一个或多个编码器1004可响应于此而从多路复用器1006接收经修改的位速率控制。这准许期望将相对复杂的视频编码的编码器1004能够以准可变位速率方式为所述视频帧接收更高的位速率或更高的带宽(每帧更多个位)。这准许以更恒定的视觉质量对多媒体流1002实施编码。对相对复杂的视频实施编码的特定编码器1004所使用的额外带宽来自于如果所述编码器构建成以恒定位速率操作时原本将用于对其他视频流1004实施编码的位。此使得多路复用器1006的输出维持在恒定位速率(CBR)。
尽管个别多媒体流1002可能是相对“突发性”(也就是在所使用带宽中发生变化),但多个视频流的累积和可能是不太突发。来自正对较不复杂的视频实施编码的信道的位速率可由(例如)多路复用器1006重新分配至正对相对复杂的视频实施编码的信道,且这可以增强组合视频流整体的视觉质量。
编码器1004向多路复用器1006提供对将要一起编码及多路复用的一组视频帧的复杂度的指示。多路复用器1006的输出应提供不高于传输媒体1008所指配的位速率的输出。复杂度的指示可基于上述内容分类,以提供所选等级的质量。多路复用器1006分析所述复杂度指示,并为各个编码器1004提供所分配数量的位或带宽,且编码器1004使用这一信息对所述组中的视频帧实施编码。这准许一组视频帧能够分别成为可变位速率,且仍能以组群形式达到恒定位速率。
一般来说,内容分类还可以针对任何通用压缩器用于启用多媒体的基于质量的压缩。
内容分类及本文所述方法及设备可用于任何多媒体数据的基于质量及/或基于内容的多媒体处理中。一个实例是其在一般用于任何通用压缩器的多媒体压缩中的使用。另一实例是在任一解压缩器或解码器或后处理器中实施解压缩或解码,例如内插、再取样、增强、恢复及显现操作。
所述各种实施例的各方面可构建于经配置以将多媒体数据编码供后续显示的任一装置中,且包括其中所展示帧会显示运动图像(例如,描绘移动或变化图像的相关联帧的序列)或固定图像(例如,不变化或慢速变化的图像)及是否具有纹理或图片的多媒体数据。更具体而言,本发明涵盖某些实施例可构建于各种可用于通信的电子装置中或与所述各种电子装置相关联,其例如(但不限于)移动电话、无线装置、个人数据助理(PDA)、手持或便携式计算机及其他这类经配置以接收多媒体数据供显示之用的有线或无线通信装置。
将多媒体数据传送至例如无线电话、PDA、膝上型计算机等客户端装置包括传输及处理大量数据。如果基于提供至编码器的多媒体帧序列的内容来对其分类,则多数多媒体应用将在质量方面提高获益。在多媒体通信系统中存在大量其中内容分类(如果存在)可能有益的应用。例如,内容分类可有益于确定对多媒体数据实施编码以获得预定观看质量所需的位速率,且其还可用于确定给定帧的最佳帧类型。
所属技术领域的技术人员应了解,可使用众多不同技术及技法中的任一种来表示信息及信号。例如,整个上述说明中可能提及的数据、指令、命令、信息、信号、位、符号和码片可由电压、电流、电磁波、磁场或粒子、光场或粒子、或其任一组合来表示。
所属技术领域的技术人员应进一步了解,结合本文所揭示实例阐述的各种例示性逻辑块、模块、及算法步骤可构建为电子硬件、固件、计算机软件、中间件、微代码、或其组合。为清晰地显示硬件与软件的这一互换性,上文已就功能度来概述各种例示性组件、区块、模块、电路、及步骤。这种功能度是构建为硬件还是软件取决于特定应用及施加于整个系统的设计制约条件。所属技术领域的技术人员可针对每一特定应用以不同的方式构建所述功能度,但这种实施方案决不应视为背离所揭示方法的范畴。
结合本文所揭示实例阐述的各种例示性逻辑块、组件、模块及电路可使用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件、或其设计用于执行本文所述功能的任一组合来构建或执行。通用处理器可以是微处理器,但另一选择为,处理器也可以是任一传统处理器、控制器、微控制器或状态机。处理器也可构建为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP核心的联合,或任意其它这种配置。
结合本文所揭示实例阐述的方法或算法的步骤可直接实施于硬件中、由处理器执行的软件模块中或二者的组合中。软件模块可常驻于RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可抽换磁盘、CD-ROM、或所属技术领域中已知的任一其他形式的存储媒体中。实例性存储媒体耦合至所述处理器,以便所述处理器可自所述存储媒体读取信息及向所述存储媒体写入信息。或者,所述存储媒体可以是处理器的组成部分。处理器及存储媒体可常驻于应用专用集成电路(ASIC)中。ASIC可常驻于无线数据机中。另一选择为,处理器及存储媒体可作为离散组件常驻于无线数据机中。
上文对所揭示实例的说明旨在使所属技术领域的技术人员均可制作或利用所揭示方法与设备。所属技术领域的技术人员将易知对这些实例的各种修改,且在不背离所揭示方法与装置的精神或范畴的前提下,本文所界定的一般原理也可应用于其他实例,且可添加其他元件。
权利要求
1.一种处理多媒体数据的方法,其包括
确定多媒体数据的复杂度;及
基于所述确定的复杂度对所述多媒体数据进行分类。
2.如权利要求1所述的方法,其中确定所述复杂度包括确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度,且其中分类是基于所述空间复杂度、所述时间复杂度或所述空间复杂度及时间复杂度二者。
3.如权利要求2所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
4.如权利要求2所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比率值。
5.如权利要求1所述的方法,其中确定所述复杂度包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
6.如权利要求5所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)。
7.如权利要求6所述的方法,其中确定时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
8.如权利要求5所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值。
9.如权利要求5所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个帧差值。
10.如权利要求1所述的方法,其中对所述多媒体数据进行分类包括使用多个内容分类。
11.如权利要求1所述的方法,其中确定复杂度包括确定所述多媒体数据的空间复杂度及时间复杂度,且其中对所述多媒体数据进行分类包括
使所述空间复杂度与纹理值相关联;
使所述时间复杂度与运动值相关联;及
基于所述纹理值及所述运动值给所述多媒体数据指配内容分类。
12.一种处理多媒体数据的设备,其包括
用于确定多媒体数据的复杂度的装置;
用于基于所述确定的复杂度对所述多媒体数据进行分类的装置。
13.如权利要求1所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度的装置,且其中用于分类的装置是基于所述空间复杂度、所述时间复杂度或所述空间复杂度及时间复杂度二者。
14.如权利要求2所述的设备,其中用于确定空间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个Dcsat值的装置。
15.如权利要求2所述的设备,其中用于确定空间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个对比率值的装置。
16.如权利要求1所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的时间复杂度的装置,且其中用于分类的装置是基于所述时间复杂度。
17.如权利要求5所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)的装置。
18.如权利要求6所述的设备,其中用于确定时间复杂度的装置是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
19.如权利要求5所述的设备,其中用于确定时间复杂度的装置是基于用于确定针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值的装置。
20.如权利要求5所述的设备,其中用于确定时间复杂度的装置是基于用于确定针对所述多媒体数据的至少一个区块确定的至少一个帧差值的装置。
21.如权利要求1所述的设备,其中用于对所述多媒体数据进行分类的装置包括使用多个用于内容分类的装置。
22.如权利要求1所述的设备,其中用于确定复杂度的装置包括
用于确定所述多媒体数据的空间复杂度及时间复杂度的装置,且其中用于对所述多媒体数据进行分类的装置包括
用于使所述空间复杂度与纹理值相关联的装置;
用于使所述时间复杂度与运动值相关联的装置;及
用于基于所述纹理值及所述运动值给所述多媒体数据指配内容分类的装置。
23.一种处理多媒体数据的方法,其包括
确定多媒体数据的复杂度;及
基于所述确定的复杂度从至少一个多媒体过程中进行选择。
24.如权利要求23所述的方法,其中确定所述复杂度包括确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度,且其中分类是基于所述空间复杂度、所述时间复杂度或所述空间复杂度与时间复杂度二者。
25.如权利要求24所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
26.如权利要求24所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比率值。
27.如权利要求23所述的方法,其中确定所述复杂度包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
28.如权利要求27所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)。
29.如权利要求28所述的方法,其中确定时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
30.如权利要求28所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值。
31.如权利要求28所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个帧差值。
32.如权利要求23所述的方法,其中基于所述确定的复杂度从至少一个多媒体过程中进行选择包括
多媒体压缩、囊封、传输、接收或显现中的任一者或其组合。
33.一种处理多媒体数据的设备,其包括
用于确定多媒体数据的复杂度的装置;
用于基于所述确定的复杂度从至少一个多媒体过程中进行选择的装置。
34.如权利要求33所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度的装置,且其中用于分类的装置是基于所述空间复杂度、所述时间复杂度或所述空间复杂度及时间复杂度二者。
35.如权利要求34所述的设备,其中用于确定空间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个Dcsat值的装置。
36.如权利要求34所述的设备,其中用于确定空间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个对比率值的装置。
37.如权利要求33所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的时间复杂度的装置,且其中用于分类的装置是基于所述时间复杂度。
38.如权利要求37所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)的装置。
39.如权利要求38所述的设备,其中用于确定时间复杂度的装置是进一步基于用于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和的装置。
40.如权利要求38所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值的装置。
41.如权利要求38所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定至少一个帧差值的装置。
42.如权利要求33所述的设备,其中用于基于用于确定复杂度的装置从至少一个多媒体过程中进行选择的装置包括多媒体压缩、囊封、传输、接收或显现中的任一者或其组合。
43.一种处理多媒体数据的方法,其包括
确定多媒体数据的复杂度;
基于所述多媒体数据的复杂度选择一组编码过程。
44.如权利要求43所述的方法,其中确定所述复杂度包括确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度,且其中分类是基于所述空间复杂度、所述时间复杂度或所述空间复杂度及时间复杂度二者。
45.如权利要求44所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
46.如权利要求44所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比率值。
47.如权利要求43所述的方法,其中确定所述复杂度包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
48.如权利要求47所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)。
49.如权利要求48所述的方法,其中确定时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
50.如权利要求47所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值。
51.如权利要求47所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个帧差值。
52.如权利要求43所述的方法,其中基于所述确定的复杂度从至少一个编码过程中进行选择包括运动估计、速率控制、可缩放性、错误恢复、场景变换确定或GOP结构确定中的任一者或其组合。
53.如权利要求52所述的方法,其中运动估计过程包括下列中的任一者或其组合
确定搜寻范围;及
确定参考图片数量是基于多媒体数据的至少一个区块的时间复杂度。
54.如权利要求52所述的方法,其中速率控制过程包括下列中的任一者或其组合
确定位分配;及
确定量化参数;及
确定失真是基于多媒体数据的至少一个区块的空间及时间复杂度。
55.如权利要求52所述的方法,其中错误恢复过程包括下列中的任一者或其组合
确定多媒体数据区块的编码类型;及
确定多媒体数据区块的刷新频率;及
确定失真标准是基于至少一个多媒体数据区块的空间及时间复杂度。
56.如权利要求52所述的方法,其中场景变换检测过程包括下列中的任一者或其组合
确定场景的开始;及
确定场景的结束;及
确定渐进拍照边界是基于至少一个多媒体数据区块的空间及时间复杂度。
57.如权利要求52所述的方法,其中GOP结构确定过程包括下列中的任一者或其组合
基于内部阈值确定帧类型为内部;及
基于中间阈值确定帧类型是中间的是基于至少一个多媒体数据区块的空间及时间复杂度。
58.如权利要求53所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
59.如权利要求53所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比度值。
60.如权利要求53所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)。
61.如权利要求53所述的方法,其中确定时间复杂度是进一步基于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
62.如权利要求53所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值。
63.如权利要求53所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个帧差值。
64.如权利要求54所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
65.如权利要求54所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比度值。
66.如权利要求54所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)。
67.如权利要求54所述的方法,其中确定时间复杂度是进一步基于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
68.如权利要求54所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值。
69.如权利要求54所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个帧差值。
70.如权利要求55所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
71.如权利要求55所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比度值。
72.如权利要求55所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)。
73.如权利要求55所述的方法,其中确定时间复杂度是进一步基于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
74.如权利要求55所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值。
75.如权利要求55所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个帧差值。
76.如权利要求56所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
77.如权利要求56所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比度值。
78.如权利要求56所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)。
79.如权利要求56所述的方法,其中确定时间复杂度是进一步基于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
80.如权利要求56所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值。
81.如权利要求56所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个帧差值。
82.如权利要求57所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
83.如权利要求57所述的方法,其中空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比度值。
84.如权利要求57所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)。
85.如权利要求57所述的方法,其中确定时间复杂度是进一步基于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
86.如权利要求57所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值。
87.如权利要求57所述的方法,其中确定时间复杂度是进一步基于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和,及基于针对所述多媒体数据的至少一个区块确定至少一个SAD_MV值。
88.如权利要求57所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定至少一个帧差值。
89.一种处理多媒体数据的设备,其包括
用于确定多媒体数据的复杂度的装置;
用于基于所述多媒体数据的复杂度从一组编码过程中进行选择的装置。
90.如权利要求43所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度的装置,且其中分类是基于所述空间复杂度、所述时间复杂度或所述空间复杂度及时间复杂度二者。
91.如权利要求44所述的设备,其中用于确定空间复杂度的装置是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
92.如权利要求44所述的设备,其中用于确定空间复杂度的装置是基于针对所述多媒体数据的至少一个区块确定的至少一个对比率值。
93.如权利要求43所述的设备,其中用于确定所述复杂度的装置包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
94.如权利要求47所述的设备,其中用于确定时间复杂度的装置是基于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)。
95.如权利要求48所述的设备,其中用于确定时间复杂度的装置是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
96.如权利要求47所述的设备,其中用于确定时间复杂度的装置是基于针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值。
97.如权利要求47所述的设备,其中用于确定时间复杂度的装置是基于针对所述多媒体数据的至少一个区块确定的至少一个帧差值。
98.如权利要求43所述的设备,其中用于基于所述确定的复杂度从至少一个编码过程中进行选择的装置包括下列中的任一者或其组合
运动估计、速率控制、可缩放性、错误恢复、场景变换确定或GOP结构确定。
99.如权利要求52所述的设备,其中运动估计过程包括下列中的任一者或其组合
用于确定搜寻范围的装置;及
用于确定参考图片数量的装置是基于至少一个多媒体数据区块的时间复杂度。
100.如权利要求52所述的设备,其中速率控制过程包括下列中的任一者或其组合
用于确定位分配的装置;及
用于确定量化参数的装置;及
用于确定失真的装置是基于至少一个多媒体数据区块的空间及时间复杂度。
101.一种处理多媒体数据的方法,其包括
确定多媒体数据的复杂度;
基于所述确定的复杂度对所述多媒体数据进行分类;及
基于其分类确定用于对所述多媒体数据进行编码的位速率。
102.如权利要求101所述的方法,其中确定所述复杂度包括确定所述多媒体数据的空间复杂度,且其中分类是基于所述空间复杂度。
103.如权利要求102所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
104.如权利要求101所述的方法,其中确定所述复杂度包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
105.如权利要求104所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)。
106.如权利要求105所述的方法,其中确定时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
107.如权利要求101所述的方法,其中对所述多媒体数据进行分类包括使用多个内容分类。
108.如权利要求107所述的方法,其进一步包括确定用于观看所述多个内容分类的多媒体数据的视觉质量值。
109.如权利要求107所述的方法,其进一步包括确定用于基于其分类传送所述多媒体数据的位速率。
110.如权利要求109所述的方法,其中确定位速率包括基于用于观看多媒体数据的视觉质量值使位速率与内容分类相关联。
111.如权利要求101所述的方法,其中确定复杂度包括确定所述多媒体数据的空间复杂度及时间复杂度,且其中对所述多媒体数据进行分类包括
使所述空间复杂度与纹理值相关联;
使所述时间复杂度与运动值相关联;及
基于所述纹理值及所述运动值给所述多媒体数据指配内容分类。
112.如权利要求101所述的方法,其中确定位速率包括确定拟分配用于基于所述分类对所述多媒体数据的至少一个区块进行编码的位数量。
113.一种用于处理多媒体数据的设备,其包括
用于确定多媒体数据的复杂度的装置;
用于基于所述确定的复杂度对所述多媒体数据进行分类的装置;
用于基于其分类确定用于对所述多媒体数据进行编码的位速率。
114.如权利要求113所述的设备,其中所述用于确定所述复杂度的装置包括用于确定所述多媒体数据的空间复杂度的装置,其中所述用于对所述多媒体数据进行分类的装置是基于所述空间复杂度。
115.如权利要求114所述的设备,其中所述用于确定所述空间复杂度的装置包括用于针对所述多媒体数据的至少一个区块确定至少一个Dcsat值的装置。
116.如权利要求113所述的设备,其中所述位速率确定装置包括用于确定拟分配用于基于所述分类对所述多媒体数据的至少一个区块进行编码的位数量。
117.如权利要求113所述的设备,其中所述用于确定所述复杂度的装置包括用于确定所述多媒体数据的时间复杂度的装置,且其中所述用于对所述多媒体数据进行分类的装置是基于所述时间复杂度。
118.如权利要求117所述的设备,其中所述用于确定所述时间复杂度的装置包括用于针对所述多媒体数据的至少一个区块确定至少一个运动向量(MV)的装置。
119.如权利要求117所述的设备,其中所述用于确定所述时间复杂度的装置进一步包括用于确定与所述多媒体数据的至少一个区块及参考区块相关联的绝对差的和的装置。
120.如权利要求113所述的设备,其中确定复杂度包括确定所述多媒体数据的空间复杂度及所述多媒体数据的时间复杂度,且其中所述分类装置包括
用于使所述空间复杂度与纹理值相关联的装置;及
用于使所述时间复杂度与运动值相关联的装置;及
用于基于所述纹理值及所述运动值给所述多媒体数据指配内容分类的装置。
121.如权利要求113所述的设备,其中所述分类装置包括使用多个内容分类。
122.如权利要求113所述的设备,其进一步包括用于基于其分类确定用于传送所述多媒体数据的位速率的装置。
123.如权利要求122所述的设备,其中确定位速率包括使位速率与所述分类相关联,其中所述位速率是基于用于观看多媒体数据的视觉质量等级。
124.如权利要求123所述的设备,其进一步包括用于确定所述分类的视觉质量值的装置。
125.一种用于处理多媒体数据的装置,其包括处理器,所述处理器经配置以确定多媒体数据的复杂度,经配置以基于所述确定的复杂度对所述多媒体数据进行分类,及进一步经配置以基于其分类确定用于对所述多媒体数据进行编码的位速率。
126.如权利要求125所述的装置,其中所述处理器进一步经配置以确定所述多媒体数据的空间复杂度,及经配置以基于所述空间复杂度对所述多媒体数据进行分类。
127.如权利要求126所述的装置,其中所述空间复杂度是基于与所述多媒体数据的至少一个区块相关联的Dcsat值。
128.如权利要求125所述的装置,其中所述复杂度是通过确定所述多媒体数据的时间复杂度来确定的,且其中所述多媒体数据是基于所述时间复杂度进行分类的。
129.如权利要求128所述的装置,其中所述时间复杂度是基于与所述多媒体数据的至少一个区块相关联的至少一个运动向量(MV)。
130.如权利要求129所述的装置,其中所述时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对差的和。
131.如权利要求125所述的装置,其中所述多媒体数据被分类为多个内容分类中的一者。
132.如权利要求131所述的装置,其中所述处理器进一步经配置以基于其内容分类确定用于传送所述多媒体数据的位速率。
133.如权利要求125所述的装置,其中所述处理器进一步经配置以确定所述多媒体数据的空间复杂度;确定所述多媒体数据的时间复杂度;及通过使所述空间复杂度与纹理值相关联、及使所述时间复杂度与运动值相关联、及基于所述纹理值及所述运动值给所述多媒体数据指配内容分类来对所述多媒体数据进行分类。
134.如权利要求133所述的装置,其中所述处理器进一步经配置以确定用于观看多个分类的多媒体数据的视觉质量值。
135.如权利要求125所述的装置,其中所述处理器经配置以通过使位速率与内容分类相关联来确定位速率,其中所述关联性是基于用于观看多媒体数据的视觉质量值。
136.如权利要求125所述的装置,其中经配置以确定位速率包括经配置以确定拟分配用于基于所述多媒体分类对所述多媒体数据的至少一个区块进行编码的位数量。
137.一种计算机可读媒体,其用于包含用于处理多媒体数据的方法,所述方法包括
确定多媒体数据的复杂度;
基于所述确定的复杂度对所述多媒体数据进行分类;及
基于其分类确定用于对所述多媒体数据进行编码的位速率。
138.如权利要求137所述的计算机可读媒体,其中确定所述复杂度的方法包括确定所述多媒体数据的空间复杂度,且其中分类是基于所述空间复杂度。
139.如权利要求137所述的计算机可读媒体,其中确定所述复杂度的方法包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
140.如权利要求137所述的计算机可读媒体,其中对所述多媒体数据进行分类的方法包括基于所述复杂度使多个内容分类中的一者与所述多媒体数据相关联。
141.如权利要求137所述的计算机可读媒体,其中所述方法进一步包括基于所述多媒体数据分类确定用于传送所述多媒体数据的位速率。
142.如权利要求137所述的计算机可读媒体,其中确定所述复杂度的方法包括确定所述多媒体数据的空间复杂度及时间复杂度,且其中对所述多媒体数据进行分类包括
使所述空间复杂度与纹理值相关联;
使所述时间复杂度与运动值相关联;及
基于所述纹理值及所述运动值给所述多媒体数据指配内容分类。
143.如权利要求137所述的计算机可读媒体,其中所述确定位速率的方法包括基于视觉质量值使位速率与内容分类相关联,其中所述视觉质量值包括用于观看多媒体数据的人类感知的质量等级。
144.如权利要求137所述的计算机可读媒体,其中所述确定位速率的方法包括确定拟分配用于基于所述分类对所述多媒体数据的至少一个区块进行编码的位数量。
145.一种用于处理多媒体数据的设备,其包括
第一确定器,其确定多媒体数据的复杂度;
内容分类器,其基于所述确定的复杂度对所述多媒体数据进行分类;及
第二确定器,其用于基于其分类确定用于对所述多媒体数据进行编码的位速率。
146.如权利要求145所述的设备,其中所述复杂度是通过确定所述多媒体数据的空间复杂度来确定的,且其中多媒体数据是基于所述空间复杂度进行分类的。
147.如权利要求146所述的设备,其中所述空间复杂度是基于与所述多媒体数据的至少一个区块相关联的至少一个Dcsat值。
148.如权利要求145所述的设备,其中所述复杂度是通过确定所述多媒体数据的时间复杂度来确定的,且其中所述多媒体数据是基于所述时间复杂度进行分类的。
149.如权利要求148所述的设备,其中所述时间复杂度是基于与所述多媒体数据的至少一个区块相关联的至少一个运动向量(MV)。
150.如权利要求149所述的设备,其中所述时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
151.如权利要求145所述的设备,其进一步包括基于所述分类确定用于传送所述多媒体数据的位速率。
152.如权利要求145所述的设备,其中确定位速率包括基于用于观看多媒体数据的视觉质量值使位速率与所述多媒体数据分类相关联。
153.如权利要求145所述的设备,其中确定所述位速率包括基于所述分类确定拟分配用于对所述多媒体数据的至少一个区块进行编码的位数量。
154.如权利要求145所述的设备,其进一步包括第三确定器,所述第三确定器用于确定用于观看多个内容分类的多媒体数据的视觉质量值。
155.如权利要求145所述的设备,其中所述多媒体数据是使用多个内容分类中的一者进行分类的。
156.如权利要求145所述的设备,其中所述第一确定器确定所述多媒体数据的空间复杂度及所述多媒体数据的时间复杂度,所述分类器通过以下方式对所述多媒体数据进行分类
使所述空间复杂度与纹理值相关联;
使所述时间复杂度与运动值相关联;及
基于所述纹理值及所述运动值给所述多媒体数据指配内容分类。
157.一种处理多媒体数据的方法,其包括
确定多媒体数据的复杂度;及
基于所述多媒体数据的复杂度来选择一组解码过程。
158.如权利要求157所述的方法,其中确定所述复杂度包括确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度,且其中分类是基于所述空间复杂度、所述时间复杂度或所述空间复杂度及时间复杂度二者。
159.如权利要求158所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值。
160.如权利要求158所述的方法,其中确定空间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个对比率值。
161.如权利要求157所述的方法,其中确定所述复杂度包括确定所述多媒体数据的时间复杂度,且其中分类是基于所述时间复杂度。
162.如权利要求161所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)。
163.如权利要求162所述的方法,其中确定时间复杂度是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
164.如权利要求161所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值。
165.如权利要求161所述的方法,其中确定时间复杂度是基于针对所述多媒体数据的至少一个区块确定的至少一个帧差值。
166.如权利要求157所述的方法,基于所述多媒体数据的复杂度选择一组解码过程包括下列中的任一者或其组合
对所述多媒体数据的帧中的选定帧进行解码;
隐藏所述多媒体数据的一部分;
内插所述多媒体数据的至少一部分;
对所述多媒体数据进行后处理;及
基于所述确定的复杂度对多媒体数据进行分类。
167.如权利要求166所述的方法,其中对所述多媒体数据的帧中的选定帧进行解码包括对下列中的任一者或其组合进行解码
基于空间复杂度的内部帧;及
基于时间复杂度的中间帧。
168.如权利要求166所述的方法,其中隐藏所述多媒体数据的一部分包括对下列中的任一者或其组合进行解码
基于空间复杂度隐藏内部帧;及
基于时间复杂度隐藏中间帧。
169.如权利要求166所述的方法,其中内插所述多媒体数据的至少一部分包括对下列中的任一者或其组合进行解码
基于空间复杂度以空间方式内插内部帧;及
基于时间复杂度以时间方式内插中间帧。
170.如权利要求166所述的方法,其中对所述多媒体数据进行后处理包括对下列中的任一者或其组合进行解码
媒体增强过程,其包括基于空间及时间复杂度中的一者或其组合的对比度增强、色彩增强、分辨率增强或帧速率增强中的一者或其组合;及
媒体恢复过程,其包括基于空间及时间复杂度中的一者或其组合的噪音降低或消除、伪像消除或减少中的一者或其组合。
171.如权利要求166所述的方法,其中所述多媒体数据的分类是基于多个内容分类中的一者。
172.一种处理多媒体数据的设备,其包括
用于确定多媒体数据的复杂度的装置;及
用于基于所述多媒体数据的复杂度选择一组解码过程的装置。
173.如权利要求172所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的空间复杂度及所述视频数据的时间复杂度的装置。
174.如权利要求173所述的设备,其中用于确定空间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定的至少一个Dcsat值的装置。
175.如权利要求173所述的设备,其中用于确定空间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定的至少一个对比率值的装置。
176.如权利要求172所述的设备,其中用于确定所述复杂度的装置包括用于确定所述多媒体数据的时间复杂度的装置,且其中分类是基于所述时间复杂度。
177.如权利要求176所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定的至少一个运动向量(MV)的装置。
178.如权利要求176所述的设备,其中用于确定时间复杂度的装置是进一步基于与所述多媒体数据的至少一个区块及参考区块相关联的绝对像素差的和。
179.如权利要求176所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定的至少一个SAD_MV值的装置。
180.如权利要求176所述的设备,其中用于确定时间复杂度的装置是基于用于针对所述多媒体数据的至少一个区块确定的至少一个帧差值的装置。
181.如权利要求172所述的设备,其中用于基于所述多媒体数据的复杂度选择一组解码过程的装置包括下列中的任一者或其组合
用于对所述多媒体数据的帧中的选定帧进行解码的装置;
用于隐藏所述多媒体数据的一部分的装置;
用于内插所述多媒体数据的至少一部分的装置;
用于对所述多媒体数据进行后处理的装置;及
用于基于所述确定的复杂度对多媒体数据进行分类的装置。
182.如权利要求181所述的设备,其中用于对所述多媒体数据的帧中的选定帧进行解码的装置包括对下列中的任一者或其组合进行解码
基于空间复杂度的内部帧;及
基于时间复杂度的中间帧。
183.如权利要求181所述的设备,其中用于隐藏所述多媒体数据的一部分的装置包括对下列中的任一者或其组合进行解码
用于基于空间复杂度隐藏内部帧的装置;及
用于基于时间复杂度隐藏中间帧的装置。
184.如权利要求181所述的设备,其中用于内插所述多媒体数据的至少一部分的装置包括对下列中的任一者或其组合进行解码
用于基于空间复杂度以空间方式内插内部帧的装置;及
用于基于时间复杂度以时间方式内插中间帧的装置。
185.如权利要求181所述的设备,其中用于对所述多媒体数据进行后处理的装置包括对下列中的任一者或其组合进行解码
媒体增强过程,其包括基于空间及时间复杂度中的一者或其组合的对比度增强、色彩增强、分辨率增强或帧速率增强中的一者或其组合;及
媒体恢复过程,其包括基于空间及时间复杂度中的一者或其组合的噪音降低或消除、伪像消除或减少中的一者或其组合。
186.如权利要求181所述的设备,其中所述用于对多媒体数据进行分类的装置是基于多个内容分类中的一者。
全文摘要
本文主张一种用于利用确定的内容分类处理例如视频数据、音频数据或视频及音频数据二者等多媒体数据以进行编码的设备及方法。处理多媒体数据包括确定多媒体数据的复杂度、基于所确定的复杂度将所述多媒体数据分类及基于其分类确定用于对所述多媒体数据进行编码的位速率。复杂度可包括多媒体数据的空间复杂度分量及时间复杂度分量。使用内容分类对所述多媒体数据进行分类,其中所述内容分类是基于使用空间复杂度、时间复杂度或空间复杂度与时间复杂度二者的用于观看多媒体数据的视觉质量值。
文档编号H04N7/26GK101171843SQ200680014898
公开日2008年4月30日 申请日期2006年3月10日 优先权日2005年3月10日
发明者维贾雅拉克希米·R·拉韦恩德拉恩, 帕尼库马尔·巴米迪帕蒂, 戈登·肯特·沃克 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1