使用兴趣区域(roi)信息改进视频编码的方法和设备的制作方法

文档序号:7939603阅读:102来源:国知局
专利名称:使用兴趣区域(roi)信息改进视频编码的方法和设备的制作方法
技术领域
本发明总体上涉及一种视频编码,具体地涉及使用兴趣区域(ROI)信息的改进视 频编码的方法和设备。
背景技术
画面中某些兴趣区域对于人眼而言比其他区域更重要。例如,在电视电话应用中 的画面的情况下,认为与肤色相对应的区域相对于其他区域是重要的,因此,这样的区域应 当与兴趣区域相对应。期望在这些区域中获得高感知质量,以便于在相应显示画面中获得 总的良好感知质量。在视频压縮应用的情况下,所显示的画面是解码后的画面。为了允 许画面内的不同感知质量,视频编码标准,例如,国际标准化组织/国际电工委员会(ISO/ IEC)运动图像专家组-2(MPEG-2)标准、以及IS0/IEC运动图像专家组-4(MPEG-4)第10部 分高级视频编码(AVC)标准/国际电信联盟电信分部(ITU-T)H. 264推荐标准(以下称为 "MPEG-4 AVC标准"),提供了在特定区域中获得比其他区域更高质量的机制。为了解决这 些区域的重要性,首先应当对这些区域进行检测,然后在这些区域中将较高感知质量定为 目标。在视频压縮算法的情况下,可以通过分配更多比特以保留更多细节来获得较高感知 质量。 使用这种信息的典型应用通常假定,兴趣区域(ROI)的检测是准确的并相应地分 配不同的感知质量等级。该假定常常在实际应用中不成立,这是由于检测算法不适用于内 容,或者由于计算复杂性约束禁止更复杂和强大的算法用于实际应用。
当应用兴趣区域检测结果来提高感知质量时,需要考虑人类视觉系统(HVS)的各 种因素。 一些因素涉及眼睛的光学特性和视网膜结构。这样的因素包括人类视觉系统的 颜色、空间遮蔽(masking)、时间遮蔽、以及运动跟踪属性。其他因素反应人类认知过程,如 基于知识和经验的目标/图案识别。人类认知因素的一个示例在于,人类肤色的存在一般 比画面中的其他区域吸引更多视觉注意。 在传统电视电话应用中,通常对脸部给予最大部分的视觉注意。在一个现有方法 中,首先在画面中检测到脸部,然后向脸部分配较高感知质量。通过视频编解码测试模型 近期版本8(TMN8)码率控制算法来获得较高感知质量,该算法向皮肤区域分配更精细的量 化参数。在另一现有方法中,还将画面分割成属于以下区域的宏块(MB):包括脸部的前景 (FG);以及背景(BG)。其他现有方法然后在视频编码器中向前景区域分配较精细量化步长
Qf,并且向背景分配较粗糙量化步长Qb,公式如下
3量ik卡长-IQf,如果当前MB属于FG (1) 直比歹R —lQb,如果当前MB属于BG 两种现有方法通过允许以较高质量对皮肤区域进行编码,以给定比特率获得较高 感知质量。 在两种现有方法中,该方案的确有助于提高针对电视电话应用的给定比特率下的 解码画面质量,其中,在电视电话应用中,已经很好地开发了皮肤区域分割算法,并通常提 供准确结果。然而,对于来自非视频会议应用的一般内容,皮肤分割更复杂并且检测准确度 比值更低。当皮肤区域没有被检测为皮肤时(错误否定检测),或者当将非皮肤区域检测为 皮肤时(错误肯定检测),发生检测错误。 在存在错误肯定检测的情况下,视频编码器向错误皮肤区域分配较高感知质量,
并将较少比特留给画面中的其他区域。因此,当发生错误肯定检测时,应用以上方法可能损 害感知质量。在错误否定检测的情况下,对皮肤区域的处理与其他区域相同,并分配相同感 知质量。这禁止应用向吸引更多注意的位置分配较高质量。 —种使用皮肤检测结果作为兴趣区域信息来获得高感知质量的解决方案提高了 皮肤检测准确度。这通常将需要并非始终在实际应用中可用的较高计算复杂性。
现在将描述兴趣区域信息的典型使用。典型兴趣区域检测算法基于应用于特征p 的阈值T将画面分割成以下两种区域(l)ROI和(2)非ROI。 在皮肤检测的情况下,特征可以是宏块(MB)属于皮肤区域的可能性,并且检测函
数定义如下
1非ROI,其他 应用然后根据二元分割结果分配感知质量。转向图l,一般由参考数字100指示针 对一维特征空间的二元兴趣区域判定。 通过使用较精细量化步长将更多比特分配给兴趣区域,并且通过使用较粗糙量化 步长将较少比特分配给非兴趣区域。因此,兴趣区域具有比非兴趣区域更高的质量,并且总 画面具有较高感知质量。 转向图2,一般由参考数字200指示使用兴趣区域信息的典型视频编码器中量化 步长分配的方法。 方法200包括开始框205,开始框205传递控制至功能框210。功能框210执行兴 趣区域(ROI)检测,并传递控制至功能框215。功能框215执行编码设置,并传递控制至有 限循环框220。有限循环框220使用变量i (变量i等于1,...,帧的数量(#))在输入视频 序列的每个帧上执行第一循环,并传递控制至有限循环框225。有限循环框225使用变量 j(变量j等于1,...,帧i中宏块的数量(#))在每个帧中的每个宏块上执行第二循环,并 传递控制至判定框230。判定框230确定当前宏块是否属于兴趣区域(ROI)。如果是,则将 控制传递至功能框235。否则,将控制传递至功能框240。 功能框235分配较精细量化步长,并传递控制至有限循环框245。有限循环框245 结束第二循环,并传递控制至有限循环框250。有限循环框250结束第一循环,并传递控制 至结束框299。
关于编码步骤参照功能框215,可以在操作员的帮助下执行这样的步骤。此外,编 码器设置可以涉及目标比特率的设置以及在编码过程中涉及的任何参数集的规定。
应认识到,方法200可以是单或多通路编码方法,并且在多数情况下,方法200将 遵照现有视频编码标准和/或推荐标准,包括但不限于,MPEG-2和MPEG-4AVC。当使用多通 路方法时,可以在编码器的一个或多个通路中使用ROI信息。 在方法200中,当评估的当前宏块属于ROI时,应用较精细量化步长,以产生更多 比特和较高感知质量。否则,当宏块不属于ROI时,应用较粗糙量化步长,以产生较少比特 和较低感知质量。 遵照图2所示工作流的应用假定兴趣区域检测是准确的并相应地分配感知质量。
这种应用的性能严重依赖于兴趣区域检测结果。考虑画面中使用兴趣区域信息进行编码的
区域,获得以下4种可能的组合 情况1 :ROI被检测为ROI (准确); 情况2 :ROI被检测为非ROI (错误否定); 情况3 :非ROI被检测为非ROI (准确); 情况4 :非ROI被检测为ROI (错误肯定)。 当情况2(错误否定检测)发生时,应用在兴趣区域消耗太少比特,限制应用提供 高感知质量。当情况4(错误肯定检测)发生时,应用在非ROI区域中浪费太多比特。
转向图3,一般通过参考数字300指示根据现有技术的使用码率控制来将视频数 据编码成产生的比特流的设备。 设备300包括量化步长加权模块305,具有与码率控制器310的第一输入进行信 号通信的输出。码率控制器310的输出以信号通信的方式与视频编码器320的第一输入连 接。 量化步长加权模块305的输入可用作设备300的输入,用于接收兴趣区域(ROI) 信息。视频编码器320的第二输入可用作设备300的输入,用于接收输入视频源(例如,视 频序列)。码率控制器310的第二输入可用作设备300的输入,用于接收码率约束。视频编 码器320的输出可用作设备300的输出,用于输出比特流。 设备300能够实现关于图2的方法200的功能框235和240描述的量化步长分配。

发明内容
本发明解决了现有技术的这些和其他不足和缺点,本发明针对使用兴趣区域 (ROI)信息的改进视频编码的方法和设备。 根据本发明的第一方面,提出了一种设备。所述设备包括编码器,用于通过使用 兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性,来对多个 区域进行编码,并且基于各自可能性的值来自适应控制多个区域中的每一个区域的各自质 根据本发明的另一方面,提出了一种方法。所述方法包括通过使用兴趣区域检 测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性,来对多个区域进行编 码,并且基于各自可能性的值来自适应控制多个区域中的每一个区域的各自质量。
根据结合附图阅读的示例实施例的以下详细描述,本发明的这些和其他方面、特征和优点将变得显而易见。


根据以下示例附图将更好地理解本发明,在附图中 图1是示出了根据现有技术的针对一维特征空间的二元兴趣区域检测的图;
图2是示出了根据现有技术的使用兴趣区域信息的典型视频编码器中量化步长 分配的方法的流程图; 图3是示出了根据现有技术的使用码率控制将视频数据编码成产生的比特流的 设备的框图; 图4是示出了根据本发明实施例的示例视频编码器的框图; 图5是示出了根据本发明实施例的所分配的质量和兴趣区域可能性之间的线性 关系的图; 图6是示出了根据本发明实施例的、使用宏块处于兴趣区域的可能性以控制相应 感知质量来对视频序列进行编码的示例方法的流程图; 图7是示出了根据本发明实施例的、所分配的质量和针对兴趣区域可能性间隔的 兴趣区域可能性之间的关系的图; 图8是示出了根据本发明实施例的、基于宏块处于兴趣区域的可能性来使用多个 质量等级对视频序列进行编码的示例方法的流程图; 图9是示出了根据本发明实施例的使用码率控制来将视频数据编码成产生的比 特流的设备的框图。
具体实施例方式
本发明针对使用兴趣区域(ROI)信息的改进视频编码的方法和设备。 本说明书示出了本发明。可以理解,尽管这里没有明确描述或示出,然而本领域的
技术人员能够设想出体现本发明的原理并且包括在本发明的精神和范围内的各种设置。 这里所记载的所有示例和条件性语言均为了教导的目的,以帮助读者理解本发明
的原理以及发明人对现有技术做出贡献的概念,而不应被看作限制为具体记载的示例和条件。 此外,这里对本发明的原理、方面、实施例及其特定示例做出记载的所有声明意在
包括本发明的结构和功能上的等同物。另外,该等同物将包括当前已知的等同物以及将来
开发出的等同物,即所开发出来的执行相同功能的任何组件,而与结构无关。 因此,本领域的技术人员可以理解,这里所示出的框图展示出体现本发明原理的
示意性电路的概念图。类似地,可以理解,任何流程、流程图、状态转移图、伪代码等表现出
实质上可以在计算机可读介质上表现的、并且由计算机或处理器执行的各个过程,无论是
否明确示出该计算机或处理器。 可以通过使用专用硬件和能够与适合的软件一同执行软件的硬件而实现图中所 示各个组件的功能。当由处理器来提供时,这些功能可以由单个的专用处理器、单个的共享 处理器、或多个单独的处理器来提供,其中 一些可以是共享的。此外,术语"处理器"或"控 制器"的显式使用不应被解释为排他性地指代能够执行组件的硬件,而是可以隐式地包括(不限为)数字信号处理器("DSP")硬件、用于存储软件的只读存储器("R0M")、随机存 取存储器("RAM")以及非易失性存储器。 还可以包括常规和/或定制的其它硬件。类似地,图中所示的任何开关仅是概念
上的。其功能可以通过程序逻辑的操作、专用逻辑、程序控制和专用逻辑的交互、或甚至是
手动地而实现,实施者可以选择的具体技术可以从上下文中得到明确的理解。 在权利要求书中,表示为用于执行特定功能的装置的任何组件意在包括执行该功
能的任何方式,例如包括a)执行该功能的电路组件的组合,或b)任意形式的软件,包括固
件、微代码等,以及用于执行该软件以执行该功能的适合的电路。由权利要求所限定的本发
明在于如下事实将各个记载的装置所提供的功能以权利要求所要求的方式组合在一起。
因此,可以把能够提供这些功能的任意装置看作与这里所示的装置相等同。
在说明书中涉及本发明原理的"一个实施例"或"实施例"是指结合实施例描述
的特定特征、结构、特性等包括在本发明原理的至少一个实施例中。因此,贯穿说明书的不
同地方出现的术语"在一个实施例中"或"在实施例中"不必均指相同的实施例。 应当认识到,举例而言,"A和/或B"和"A和B中的至少一个"情况下的术语"和
/或"和"至少一个"的使用意在包括仅选择第一个列出的选项(A)、仅选择第二个列出的
选项(B)、或同时选择两个选项(A和B)。再举一例,就"A、B和/或C"和"A、B和C中的
至少一个"而言,该短语意在包括仅选择第一个列出的选项(A)、仅选择第二个列出的选项
(B)、仅选择第三个列出的选项(C)、仅选择第一个和第二个列出的选项(A和B)、仅选择第
一个和第三个列出的选项(A和C)、仅选择第二个和第三个列出的选项(B和C)、或选择所
有三个选项(A、B和C)。所属和相关领域的普通技术人员容易理解,可以随列出项目的数
量对其进行扩展。 此外,应当认识到,尽管这里关于MPEG-4AVC标准描述本发明的一个或多个实施 例,但是本发明仅不限于该标准,从而可以关于其他视频编码标准、推荐标准及其扩展(包 括MPEG-4AVC标准的扩展)利用本发明,同时保持本发明的精神。例如,本发明还适用于但 不限于,MPEG-2标准和电影与电视工程师学会(SMPTE)视频编解码_1 (VC-1)标准。
转向图4,一般由参考数字400指示示例视频编码器。 编码器400包括帧排序缓冲器410,具有以信号通信方式与组合器485的第一非 反相输入连接的输出。组合器485的输出以信号通信的方式与变换器和量化器425的输入 连接。变换器和量化器425的输出以信号通信的方式与熵编码器445的第一输入和逆变换 器和量化器450的输入连接。熵编码器445的输出以信号通信的方式与组合器490的第一 非反相输入连接。组合器的输出以信号通信的方式与输出缓冲器435的输入连接。输出缓 冲器435的第一输出以信号通信的方式与码率控制器405的输入连接。
补充增强信息(SEI)插入器430的输出以信号通信的方式与组合器490的第二输 入连接。 逆变换器和量化器450的输出以信号通信的方式与组合器427的第一非反相输入 连接。组合器427的输出以信号通信的方式与帧内预测器460的输入和去块滤波器465的 输入连接。 去块滤波器465的输出以信号通信的方式与参考画面缓冲器480的输入连接。参 考画面缓冲器480的输出以信号通信的方式与运动估计器475的输入和运动补偿器470的第一输入连接。 运动估计器的第一输出以信号通信的方式与运动补偿器470的第二输入连接。运 动估计器475的第二输出以信号通信的方式与熵编码器445的第二输入连接。
运动补偿器470的输出以信号通信的方式与开关497的第一输入连接。帧内预测 器460的输出以信号通信的方式与开关497的第二输入连接。宏块类型判定模块420的输 出以信号通信的方式与开关497的第三输入连接。开关497的输出以信号通信的方式与组 合器485的第二非反相输入和组合器427的第二非反相输入连接。 码率控制器405的输出以信号通信的方式与画面类型判定模块415的第一输入以 及序列参数集(SPS)和画面参数集(PPS)插入器的输入连接。SPS和PPS插入器440的输 出以信号通信的方式与组合器490的第三输入连接。 画面类型判定模块415的第一输出以信号通信的方式与宏块类型判定模块420的 输入连接。画面类型判定模块415的第二输出以信号通信的方式与帧排序缓冲器410的第 二输入连接。 帧排序缓冲器410的第一输入可用作编码器400的输入,用于接收输入画面401。 输出缓冲器435的第一输出可用作编码器400的输出,用于输出比特流。
如上所述,本发明针对使用兴趣区域(ROI)信息的改进视频编码的方法和设备。 一些兴趣区域,如电视电话应用的画面中的肤色,对于人眼而言比其他区域更重要。在实施 例中,通过考虑兴趣区域检测结果的不准确性来对不同区域的重要性进行分级。这可以通 过接受区域属于兴趣区域的可能性作为输入以分配感知质量来进行。本发明考虑以下事 实兴趣区域检测通常是不准确的并提供鲁棒方案来为使用兴趣区域信息的应用提供较高 感知质量。优点是总感知质量的提高。 因此,根据本发明,基于不准确的兴趣区域检测结果和其他辅助信息在画面中分 配不同区域的感知质量。使用肤色作为兴趣区域的示例,根据本发明对兴趣区域信息的使 用进行说明。当然,应当认识到,本发明仅不限于肤色作为兴趣区域,因此根据本发明同样 可以设想其他类型的兴趣区域,而同时保持本发明的精神。 在实施例中,根据本发明的方法考虑以下事实兴趣区域检测通常是不准确的,并 提供鲁棒方案来获得使用兴趣区域信息的视频编码器的较高感知质量。这可以通过接受统 计的兴趣区域判定结果(即,区域属于兴趣区域的可能性)来进行。 通常基于先验知识和经验来检测兴趣区域。哪个区域应当被检测为兴趣区域同样 取决于应用。例如,在电视电话应用中,一般将脸部区域视为兴趣区域。在例如足球等体育 赛事中,一般将球视为兴趣区域。当检测兴趣区域时,通常考虑可能的兴趣区域的特征,例 如颜色、形状等等。当不能适当识别出所述特征时,不能准确检测兴趣区域是非常可能的。 例如,当将脸部区域视为兴趣区域时,由于人类肤色倾向于出现在非常有限范围的颜色空 间中,因此需要对人类皮肤的颜色分量进行建模以检测兴趣区域。当该模型不适于内容并 且不准确时,错误肯定检测和错误否定检测均可能会发生。 在使用兴趣区域信息的典型视频编码器中,首先将画面划分成兴趣区域和非兴趣 区域(非ROI),然后编码器根据特定宏块是否被评估为属于兴趣区域来控制画面中宏块 的质量。如关于图l所示出和描述的,现有技术使用兴趣区域检测的二元结果(即,关于 所评估的特定区域是否与兴趣区域相对应)。现有技术不会在控制质量时考虑或使用可能性值。根据实施例,提供一种方法,允许编码器接受区域属于兴趣区域的可能性(表示为 P皿(MB))作为输入以控制质量。 一般地,宏块属于兴趣区域的可能性越大,编码器分配的质 量越高。这在图5中示出。转向图5,一般由参考数字500指示分配的质量和兴趣区域可能 性之间的线性关系。在一般应用中,该关系可以扩展为其他单调增加形式。
转向图6,一般由参考数字600指示使用宏块在兴趣区域中的可能性来控制相应 感知质量以对视频序列进行编码的示例方法。具体地,方法600接受变量pKQI (MB)作为输 入以控制感知质量,并基于P皿(MB)判定所考虑的当前宏块应以何种质量被编码。
方法600包括开始框605,开始框605传递控制至功能框610。功能框610执行兴 趣区域(ROI)检测,并传递控制至功能框615。功能框615执行编码设置,并传递控制至有 限循环框620。有限循环框620使用变量i(等于l,...,帧的数量(#))在输入视频序列 的每个帧上执行第一循环,并传递控制至有限循环框625。有限循环框625使用变量j (等 于1,...,帧i中宏块的数量(#))在每个帧中的每个宏块上执行第二循环,并传递控制至 功能框630。功能框630以基于p皿判定的质量对宏块进行编码,并传递控制至有限循环框 635。有限循环框635结束第二循环,并传递控制至有限循环框640。有限循环框640结束 第一循环,并传递控制至结束框699。 关于功能框630,应当认识到,可以通过主观质量评估或客观感知质量度量对感知 质量进行测量。主观质量评估是仔细设计的过程,意在为给定应用确定人类观察者对特定 视频序列集合的平均观点。这种测试的结果在基本系统设计和基准评估中是有价值的。然 而,由于需要人类观察者,主观质量评估是耗时的。客观质量度量自动对质量进行测量,并 意在在广泛应用中使用。客观质量度量的示例包括但不限于,峰值信噪比(PSNR),恰好察觉 失真(JND)、以及结构相似度索引度量(SSIM)等。 在实施例中,视频编码器基于p皿(MB)判定了每个宏块的目标质量度量。在考虑 获得总的高感知质量的情况下,通过用户或编码器来确定目标质量度量和PKQI(MB)之间的 确切关系。编码参数集然后用于对宏块进行编码以满足目标质量度量。编码参数包括但不 限于,编码模式、块大小、以及量化参数,该量化参数包括但不限于量化步长,死区参数、以 及量化矩阵。 这种新方法的质量改进大部分来自于其pKQI (MB)在阈值附近的宏块,该阈值在针 对经典编码器的兴趣区域检测中使用。在兴趣区域检测算法中阈值的判定通常是关键问 题,并且任何不准确度将导致错误检测。在阈值太低(与更准确阈值相比)的情况下,发生 错误肯定检测,并且视频编码器向错误兴趣区域分配更多比特并将较少比特留给画面中的 其他区域。在阈值太高(与更准确阈值相比)的情况下,发生错误否定检测,并且兴趣区域 的处理与其他区域相同。在两种情况下,不准确阈值导致不准确的兴趣区域检测,禁止应用 向吸引更多注意的位置提供较高质量。根据本发明的实施例,基于P皿(MB)分配比特。因 此,避免向其P皿(MB)在阈值附近的宏块分配太多比特或太少比特。 在上述实施例中,公开了一种根据p皿(MB)连续调整质量的编码工作流。该实施 例的一个变型是,根据宏块所属P皿(MB)的间隔来以有限的质量等级对宏块编码。转向图 7,一般由参考数字700指示分配的质量和针对兴趣区域可能性间隔的兴趣区域可能性之 间的关系。在图7中,当Pi〈p舰(MB) <pi+1,i = 0, ... ,n-l时,将以由质量度量qi指示 的感知质量对宏块进行编码。使用二元兴趣区域检测结果的经典编码器是方法800的特殊情况,具体地,n = 2。 转向图8,一般由参考数字800指示基于宏块是兴趣区域的可能性使用多个质量 等级对视频序列进行编码的示例方法。 方法800包括开始框805,开始框805传递控制至功能框810。功能框810执行兴 趣区域(ROI)检测,并传递控制至功能框815。功能框815执行编码设置,并传递控制至有 限循环框820。有限循环框820使用变量i(等于l,...,帧的数量(#))在输入视频序列 的每个帧上执行第一循环,并传递控制至有限循环框825。有限循环框825使用变量j (等 于1,...,帧i中宏块的数量(#))在每个帧中的每个宏块上执行第二循环,并传递控制至 功能框830。功能框830确定当前宏块的感知质量使得Pi < pKQI < pi+1,并传递控制至功能 框835。功能框835以质量qi对宏块进行编码,并传递控制至有限循环框840。有限循环 框840结束第二循环,并传递控制至有限循环框845。有限循环框845结束第一循环,并传 递控制至结束框899。 应当认识到,方法800是关于图6所示和所描述的方法600的变型。当对当前宏 块进行编码时,编码器首先读取当前宏块属于ROI的可能性pKQI(MB),并判定当前宏块所属 的间隔。在确定P皿(MB)在两个邻近阈值Pi和Pw之间时,当以质量qi对前宏块进行编 码。该变型的优点在于,通过以由质量度量指示的有限质量等级对宏块进行编码来简化编 码器。 转向图9,由参考数字900 —般性地指示根据本发明实施例的使用码率控制将视 频数据编码成产生的比特流的设备。 设备900包括编码参数模块905,具有与码率控制器910的第一输入进行信号通 信的输出。码率控制器910的输出以信号通信的方式与视频编码器920的第一输入连接。
编码参数模块905的输入可用作设备900的输入,用于接受兴趣区域(ROI)信息。 视频编码器920的第二输入可用作设备900的输入,用于接受输入视频源(例如,视频序 列)。码率控制器910的第二输入可用作设备900的输入,用于接受码率约束。视频编码器 920的输出可用作设备900的输出,用于输出比特流。 设备900能够分别执行分别关于图6和图8的方法600和800的功能框630和 835所描述的步骤。 现在将对本发明的许多附加优点/特征中的一些给出描述,其中的一些以上已经 提到过。例如,一个优点/特征是一种具有编码器的设备,所述编码器用于通过使用兴趣区 域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进 行编码,以及基于各自可能性的值来自适应地控制多个区域中的每一个区域的各自质量。
兴趣区域检测是基于至少一个
使用连续质量等级来对确定属
使用连续质量等级来对确定属
使用有限质量等级来对确定属 于兴趣区域的多个区域中的任何区域进行编码。 另一优点/特征是具有上述编码器的设备,其中, 特征,所述至少一个特征是肤色信息。 又一优点/特征是上述具有编码器的设备,其中,
于兴趣区域的多个区域中的任何区域进行编码。 又一优点/特征是具有上述编码器的设备,其中,
于兴趣区域的多个区域中的任何区域进行编码。 又一优点/特征是具有上述编码器的设备,其中,
10
此外,另一优点/特征是具有所述编码器的设备,其中,所述编码器遵照国际标准 化组织/国际电工委员会运动图像专家组-4(MPEG-4)第IO部分高级视频编码(AVC)标准 /国际电信联盟电信分部H. 264推荐标准将多个区域编码成比特流。 此外,另一优点/特征是具有所述编码器的设备,其中,所述编码器遵照电影和电 视工程师协会视频编解码-1标准将多个区域编码成比特流。 同样,另一优点/特征是具有所述编码器的设备,其中,通过调整编码参数分别控 制确定属于兴趣区域的多个区域中的任何区域的各自质量。 此外,另一优点/特征是具有所述编码器的设备,其中,编码参数包括量化参数。
基于这里的教导,相关技术领域中的技术人员可以容易地获知本发明的这些和其 他特征及优点。可以理解的是,本发明的教导可以以各种形式的硬件、软件、固件、专用处理 器或其组合来实现。 最为优选地,本发明的教导以硬件和软件的组合来实现。此外,软件优选地以有形 地体现在程序存储单元上的应用程序来实现。该应用程序可以上载到包括任意适合架构的 机器,并由该机器执行。优选地,该机器在具有例如一个或更多个中央处理单元("CPU")、 随机存取存储器("RAM")、以及输入/输出("I/O")接口的硬件的计算机平台上实现。 该计算机平台还包括操作系统和微指令代码。这里描述的各个过程和功能可以是微指令代 码的一部分,或是应用程序的一部分,或是其任何组合,其可以由CPU来执行。另外,可以把 各种其他外围单元与计算机平台相连,所述外围单元例如是附加的数据存储单元和打印单 元。 还可以理解的是,由于附图中描述的某些构成系统的组件和方法优选地以软件来 实现,所以系统组件或过程功能块之间的实际连接可能取决于本发明的实践方式而有所不 同。在这里给出的教导的前提下,相关技术领域中的技术人员将能够设想本发明的这些和 类似的实现或配置。 尽管已经参考附图描述了示意性实施例,然而可以理解,本发明不限于这些特定 的实施例,在不背离本发明的范围或精神的前提下,相关技术领域中的技术人员可以实现 各种改变和修改。所有这些改变和修改都将被看作落入所附权利要求限定的本发明的范围 内。
1权利要求
一种设备,包括编码器(400),用于通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进行编码,以及基于各自可能性的值来自适应地控制多个区域中的每一个区域的各自质量。
2. 根据权利要求1所述的设备,其中,所述兴趣区域检测是基于至少一个特征,所述至 少一个特征是肤色信息。
3. 根据权利要求1所述的设备,其中,使用连续质量等级来对被确定为属于兴趣区域 的多个区域中的任何区域进行编码。
4. 根据权利要求1所述的设备,其中,使用有限质量等级来对被确定为属于兴趣区域 的多个区域中的任何区域进行编码。
5. 根据权利要求1所述的设备,其中,所述编码器遵照国际标准化组织/国际电工委员 会运动图像专家组_4第10部分高级视频编码标准/国际电信联盟电信分部H. 264推荐标 准将多个区域编码成比特流。
6. 根据权利要求1所述的设备,其中,所述编码器遵照电影和电视工程师协会视频编 解码-1标准将多个区域编码成比特流。
7. 根据权利要求1所述的设备,其中,通过调整编码参数分别控制被确定为属于兴趣 区域的多个区域中的任何区域的各自质量。
8. 根据权利要求7所述的设备,其中,编码参数包括量化参数。
9. 一种方法,包括通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可 能性来对多个区域进行编码(630、835),以及基于各自可能性的值来自适应控制多个区域 中的每一个区域的各自质量。
10. 根据权利要求9所述的方法,其中,兴趣区域检测是基于至少一个特征,所述至少 一个特征是肤色信息。
11. 根据权利要求9所述的方法,其中,使用连续质量等级来对被确定为属于兴趣区域 的多个区域中的任何区域进行编码(500)。
12. 根据权利要求9所述的方法,其中,使用有限质量等级来对被确定为属于兴趣区域 的多个区域中的任何区域进行编码(700):
13. 根据权利要求9所述的方法,其中,所述编码步骤遵照国际标准化组织/国际电工 委员会运动图像专家组-4第10部分高级视频编码标准/国际电信联盟电信分部H. 264推 荐标准将多个区域编码成比特流。
14. 根据权利要求9所述的方法,其中,所述编码步骤遵照电影和电视工程师协会视频 编解码-1标准将多个区域编码成比特流。
15. 根据权利要求9所述的方法,其中,通过调整编码参数分别控制被确定为属于兴趣 区域的多个区域中的任何区域的各自质量。
16. 根据权利要求15所述的方法,其中,编码参数包括量化参数。
全文摘要
本发明提供了使用兴趣区域信息的改进视频编码的方法和设备。所述设备包括编码器(400),用于通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进行编码,以及基于各自可能性的值来自适应地控制多个区域中的每一个区域的各自质量。
文档编号H04N7/50GK101779465SQ200880103134
公开日2010年7月14日 申请日期2008年8月12日 优先权日2007年8月15日
发明者克里斯蒂娜·戈米拉, 李 真, 陆晓安 申请人:汤姆森许可贸易公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1