用于视频电话的关注区提取的制作方法

文档序号:7637254阅读:226来源:国知局
专利名称:用于视频电话的关注区提取的制作方法
技术领域
本揭示案涉及数字视频编码和解码,且更明确地说涉及用于视频电话(VT)应用的 处理关注区(ROI)信息的技术。
背景技术
已为编码数字视频序列建立了许多不同的视频编码标准。举例来说,移动图片专家 组(MPEG)已开发出许多标准,包含MPEG-l、 MPEG-2和MPEG-4。其它实例包含国 际电信联盟(ITU) H.263标准和新兴的ITUH.264标准。这些视频编码标准通常支持通 过以压縮方式编码数据而改进视频序列的传输效率。
视频电话(VT)允许用户共享视频和音频信息以支持例如视频会议的应用。示范性 视频电话标准包含由会话启始协议(SIP)界定的那些标准、ITUH.323标准和ITUH.324 标准。在VT系统中,用户可发送并接收视频信息,仅接收视频信息,或仅发送视频信 息。接收者通常以视频信息从发送者传输的形式查看所接收的视频信息。
已提议对视频信息的选定部分进行优先编码。举例来说,发送者可指定以较高质量 编码关注区(ROI)以用于传输到接收者。发送者可能希望向远程接收者强调所述ROI。 尽管发送者可能希望关注视频场景内的其它对象,ROI的典型实例是人脸。利用对ROI 的优先编码,与非ROI区相比,接收者能够较清楚地查看ROI。

发明内容
本揭示案针对用于视频电话(VT)的关注区(ROI)处理技术。根据所述揭示的技 术,本地接收者装置界定由远程发送者装置编码和传输的视频,即远端视频的ROI信息。 所述本地接收者装置将所述ROI信息传输到所述远程发送者装置。所述发送者装置使用 由所述接收者装置传输的所述ROI信息,对视频场景内的ROI应用优先编码,例如较高 质量编码或误差防护。以此方式,接收者装置能够远程控制对由发送者装置编码的远端 视频的ROI编码。
除了接收远端视频外,接收者还可经装备以发送视频,即近端视频。因此,参与VT 通信的装置可对称地充当视频信息的发送者和接收者两者。充当接收者时,每一装置可 定义远端ROI信息以用于由作为发送者的远程装置编码的视频。并且,充当发送者时, 每一装置可定义近端ROI信息以用于传输到作为接收者的另一装置的视频信息。发送者 或接收者装置可称为"ROI感知的",是指其能够处理由另一装置提供的ROI信息以支持 对ROI视频编码的远程控制。
远端ROI信息允许接收者控制发送者装置进行的远程ROI编码以较清楚地査看所接 收的视频场景内的对象或区。近端ROI信息允许发送者控制本地ROI编码以强调所传输 的视频场景内的对象或区。因此,发送者对ROI的优先编码可基于由接收者或发送者产 生的ROI信息。另外,接收者装置可(例如)通过应用例如误差隐蔽、解块或去鸣振技 术的较高质量后处理来基于ROI信息而优先解码ROI。
为了促进ROI处理,本揭示案进一步预期用于ROI选择、ROI映射、ROI提取、ROI 信令、ROI跟踪,和对接收者装置的存取验证以允许对发送者装置的ROI编码进行远程 控制的技术。ROI选择可依赖于预定义的ROI样式、口头或文本ROI描述,或用户划定 的ROI。 ROI映射涉及将选定的ROI样式转译为ROI映射,其可采取适宜由视频编码器 使用的宏区块(MB)映射的形式。
ROI信令可涉及从接收者向发送者装置进行ROI信息的带内或带外信令。ROI跟踪 涉及响应于ROI运动而动态调节ROI映射。存取验证可涉及出于远程ROI控制以及解决 本地与远程用户或多个远程用户之间的ROI控制冲突的目的而向接收者装置授予存取权 和等级。
ROI提取可涉及处理对关注区(ROI)的用户描述以基于所述描述而产生指定所述 ROI的信息。可基于指定ROI的信息来编码近端视频以增强近端视频的ROI相对于非 ROI区域的图像质量。用户描述可基于文本、图形或语音。提取模块应用适当处理以从 用户描述中产生ROI信息。提取模块可驻存在视频通信装置本地,或驻存在经配置以进 行ROI提取的不同的中间服务器中。
在一个实施例中,本揭示案提供一种方法,其包括从远程装置接收指定由本地装置 编码且由远程装置接收的近端视频内的关注区(ROD的信息,和基于ROI来编码近端 视频以增强视频的ROI相对于非ROI区域的图像质量。
在另一实施例中,本揭示案提供一种视频编码装置,所述视频编码装置包括关注 区(ROI)引擎,其从远程视频通信装置接收指定传输到远程装置的近端视频内的关注区
(ROI)的信息;和视频编码器,其编码近端视频以增强视频的ROI相对于非ROI区域的
图像质量。
在额外实施例中,本揭示案提供一种方法,其包括产生指定由远程装置传输且由本 地装置接收的远端视频内的关注区(ROI)的信息,和将所述信息传输到远程装置以用于 基于ROI来编码远端视频以增强视频的ROI相对于非ROI区域的图像质量。
在又一实施例中,本揭示案提供一种视频编码装置,所述视频编码装置包括关注 区(ROI)引擎,其产生指定从远程装置接收的远端视频内的关注区(ROI)的信息;和 视频编码器,其编码近端视频并将指定ROI的信息和经编码的近端视频一起传输以由远 程装置使用来基于ROI而编码远端视频以增强远端视频的ROI相对于非ROI区域的图像 质量。
在另一实施例中,本揭示案提供一种方法,其包括从用户处接收由本地装置产生的 近端视频内的关注区(ROI)的描述,基于所述描述产生指定ROI的信息,和基于指定 ROI的信息来编码近端视频以增强近端视频的ROI相对于非ROI区域的图像质量。 在额外实施例中,本揭示案提供一种视频编码装置,所述视频编码装置包括关注 区(ROI)引擎,其接收对由所述装置编码的近端视频内的关注区(ROI)的描述,并基 于所述描述产生指定ROI的信息;和视频编码器,其编码近端视频以增强视频的ROI相 对于非ROI区域的图像质量。
在又一实施例中,本揭示案提供一种视频编码系统,所述视频编码系统包括第一 视频通信装置,其编码近端视频;第二视频通信装置,其从第一视频通信装置接收近端 视频,其中所述第二视频通信装置产生对由所述第一视频通信装置产生的近端视频内的 关注区(ROI)的用户描述;和中间服务器,其结构上不同于所述第一和第二视频通信装 置,且其基于所述描述产生指定ROI的信息,其中第一视频通信装置基于指定ROI的信 息来编码近端视频以增强近端视频的ROI相对于非ROI区域的图像质量。
本文描述的技术可实施在硬件、软件、固件或其任何组合中。如果实施在软件中, 那么可通过计算机可读媒体来部分实现所述技术,所述计算机可读媒体包括含有指令的 程序代码,所述程序代码当被执行时会进行本文描述的方法中的一种或一种以上方法。
附图和以下描述内容中陈述了一个或一个以上实施例的细节。从描述内容和附图以 及从权利要求书中将了解其它特征、目的和优点。


图1是说明并入有ROI感知视频编解码器(CODEC)的视频编码和解码系统的方框
图。
图2是说明与无线通信装置相关联的显示器上呈现的视频场景内的ROI的定义的图。 图3是说明并入有ROI感知CODEC的通信装置的方框图。
图4是说明具有ROI感知CODEC且进一步并入有ROI提取模块的另一通信装置的 方框图。
图5是说明经由中间提取服务器的分布式ROI提取的方框图。 图6是说明用于多个视频电话会话的分布式ROI提取的方框图。 图7A-7D是说明供用户选择的预定义的ROI样式的图。
图8是说明在接收者装置处产生ROI信息以在远程发送者装置处控制对近端视频的 优先ROI编码的流程图。
图9是说明处理来自接收者装置的ROI信息以便结合ROI跟踪而在发送者装置处对 近端视频进行优先ROI编码的流程图。
图10是说明处理来自接收者装置的ROI信息以便结合用户验证而在发送者装置处对 近端视频进行优先ROI编码的流程图。
图ll是说明选择预定义的ROI样式的流程图。
图12是说明通过扩展和收缩ROI模板来定义所显示的视频场景中的ROI样式的图。 图13是说明通过拖动ROI模板来定义所显示的视频场景中的ROI样式的图。 图14是说明通过用铁笔在触摸屏幕上划定ROI区域来定义所显示的视频场景中的 ROI样式的图。
图15是说明使用具有待动态提取和跟踪的指定的ROI对象的下拉式菜单来定义所显 示的视频场景中的ROI样式的图。
图16是说明使用具有映射到如图7A-7D中预定义的ROI样式的指定的ROI对象的 下拉式菜单来定义所显示的视频场景中的ROI样式的图。
图17是说明使用ROI描述界面来定义所显示的视频场景中的ROI样式的流程图。
图18是说明解决发送者与接收者装置之间的ROI冲突的流程图。
图19是说明远端视频内的ROI宏区块的优先解码的流程图。
具体实施例方式
图1是说明并入有ROI感知视频编解码器(CODEC)的视频编码和解码系统10的 方框图。如图1所示,系统10包含第一视频通信装置12和第二视频通信装置14。通信 装置12、 14通过传输信道16连接。传输信道16可以是有线或无线媒体。系统10支持
视频通信装置12、 14之间的用于视频电话的双向视频传输。装置12、 14可以大体上对 称的方式操作。然而,在一些实施例中,视频通信装置12、 14中的一者或两者可经配置 以仅用于单向通信以支持ROI感知视频串流。
对于双向应用,互逆编码、解码、多路复用(MUX)和多路分解(DEMUX)组件 可提供在信道16的相对端。在图1的实例中,视频通信装置12包含MUX/DEMUX组件 18、 ROI感知视频CODEC 20和音频CODEC 22。类似地,视频通信装置14包含 MUX/DEMUX组件26、 ROI感知视频CODEC 28和音频CODEC 30。每一 CODEC 20、 28为"ROI感知的",是指其能够处理由另一视频通信装置12、 14远程提供或由其自身 的视频通信装置本地提供的ROI信息。
视频通信装置12、 14可实施为经装备以用于视频串流、视频电话或两者的无线移动 终端或有线终端。为此,视频通信装置12、 14可进一步包含适当的无线发射、接收、调 制解调和处理电子元件以支持无线通信。无线移动终端的实例包含移动无线电话、移动 个人数字助理(PDA)、移动计算机或装备有无线通信能力和视频编码和/或解码能力的 其它移动装置。有线终端的实例包含台式计算机、视频电话、网络设备、机顶盒、交互 式电视等。视频通信装置12、 14中任一者可经配置以发送视频信息、接收视频信息,或 发送并接收视频信息。
对于视频电话应用,通常需要装置12支持视频发送和视频接收能力两者。然而,还 预期串流视频应用。在视频电话且尤其是借助无线通信的移动视频电话中,带宽是重要 的关注因素。因此,将额外编码位选择性地分配到ROI或其它优先编码步骤可改进视频 的一部分的图像质量,同时维持总体编码效率。对于优先编码,可将额外位分配到ROI, 同时可将减少的数目的位分配到非ROI区(例如,视频场景中的背景)。
通常,系统10使用用于视频电话(VT)应用的关注区(ROI)处理技术。然而,此 类技术也可应用于视频串流应用,如上文所提及。出于说明的目的,将假定,每一视频 通信装置12、 14能够作为视频信息的发送者和接收者两者而操作,且藉此作为VT会话 中的全额参与者而操作。对于从视频通信装置12传输到视频通信装置14的视频信息, 视频通信装置12是发送者装置且视频通信装置14是接收者装置。相反,对于从视频通 信装置14传输到视频通信装置12的视频信息,视频通信装置12是接收者装置且视频通 信装置14是发送者装置。当讨论将由本地视频通信装置12、 14编码和传输的视频信息 时,所述视频信息将称为"近端"视频。当讨论将由远程视频通信装置12、 14编码并从 远程视频通信装置12、 14接收的视频信息时,所述视频信息将称为"远端"视频。
根据所揭示的技术,当作为接收者装置操作时,视频通信装置12或14界定针对从 发送者装置接收的远端视频信息的ROI信息。再次,从发送者装置接收的视频信息称为 "远端"视频信息,因为其是从处于通信信道的远端的另一 (发送者)装置接收的。同样, 针对从发送者装置接收的视频信息而界定的ROI信息称为"远端"ROI信息。远端ROI 通常是指远端视频内最引起远端视频的接收者关注的区。接收者装置解码远端视频信息 并将经解码的远端视频经由显示装置呈现给用户。用户在远端视频所呈现的视频场景内 选择ROI。
接收者装置基于用户选择的ROI而产生远端ROI信息,并将远端ROI信息发送到发 送者装置。远端ROI信息可采取ROI宏区块(MB)映射的形式,其依据驻存在ROI内 的宏区块来界定ROI。 ROI MB映射可用1标记处于ROI内的MB,且用0标记ROI外 部的MB,以容易地识别包含在ROI中(1)以及排除在ROI外(0)的MB。 MB是形 成帧的一部分的视频区块。MB的大小可为16X16个像素。然而,其它MB大小是可能 的。因此,MB可指代任何视频区块,包含(但不限于)例如MPEG-l、MPEG-2和MPEG-4、 ITUH.263、 ITUH.264的特定视频编码标准或任何其它标准内定义的宏区块。
通过使用由接收者装置传输的远端ROI信息,发送者装置将优先编码应用于视频场 景内的相应的ROI。明确地说,可将额外编码位分配到ROI,同时可将减少的数目的编 码位分配到非ROI区,藉此改进ROI的图像质量。以此方式,接收者装置能够远程控制 发送者装置对远端视频信息进行的ROI编码。优先编码例如通过ROI区域中的优先位分 配或优先量化,而将与视频场景的非ROI区域相比更高质量编码应用于ROI区域。经优 先编码的ROI允许接收者装置的用户较清楚地査看对象或区。举例来说,与视频场景的 背景区相比,接收者装置的用户可能希望较清楚地查看脸部或某一其它对象。
当作为发送者装置操作时,视频通信装置12或14也可定义针对由发送者装置传输 的视频信息的ROI信息。再次,发送者装置中产生的视频信息称为"近端"视频,因为 其是在通信信道的近端产生的。由发送者装置产生的ROI信息称为"近端"ROI信息。 近端ROI通常是指发送者希望向接收者强调的近端视频的区。因此,ROI可由接收者装 置用户指定为远端ROI信息,或由发送者装置用户指定为近端ROI信息。发送者装置将 近端视频经由显示装置呈现给用户。与发送者装置相关联的用户在近端视频所呈现的视 频场景内选择ROI。发送者装置使用用户选择的ROI来编码近端视频,使得相对于非ROI 区域,近端视频中的ROI被(例如)以较高质量编码进行优先编码。
由发送者装置处的本地用户选择的近端ROI允许发送者装置的用户强调视频场景内
的区或对象,且藉此使这些区或对象引起接收者装置用户的关注。值得注意的是,由发 送者装置用户选择的近端ROI无需传输到接收者装置。事实上,发送者装置在将近端视 频传输到接收者装置之前使用所选择的近端ROI信息在本地编码所述近端视频。然而, 在一些实施例中,发送者装置可将ROI信息发送到接收者装置以允许应用优先解码技术, 例如较高质量误差校正(如误差隐蔽)或后处理(如解块和去鸣振滤波器)。
如果ROI信息由发送者装置和接收者装置两者提供,那么发送者装置应用从接收者 装置接收的远端ROI信息或本地产生的近端ROI信息来编码近端视频。发送者装置与接 收者装置提供的近端与远端ROI选择之间可能出现ROI冲突。此类冲突可能需要解决, 例如由本地用户主动解决或根据所规定的存取权和等级来解决,如本揭示案中其它地方 将描述。在任一情况下,发送者装置均基于由发送者装置本地提供的近端ROI信息或由 接收者装置远程提供的ROI信息来优先编码ROI。
为了促进ROI处理,本揭示案进一步预期用于ROI选择、ROI映射、R0I信令、ROI 跟踪,和对接收者装置的存取验证以允许对发送者装置的ROI编码进行远程控制的技术。 如将描述,接收者装置或发送者装置应用的不同的ROI选择技术可涉及选择预定义的 ROI样式、口头或文本ROI描述,或用户的ROI划定。在接收者装置中,ROI映射涉及 将选定的远端或近端ROI样式转译为ROI映射,其可采取宏区块(MB)映射的形式。 ROI信令可涉及从接收者装置向发送者装置进行远端ROI信息的带内或带外信令。ROI 跟踪涉及响应于ROI运动而动态调节由接收者装置产生的远端ROI映射或由发送者本身 产生的本地近端ROI。存取验证可出于对远端ROI的远程控制以及解决接收者与发送者 装置之间的ROI控制冲突的目的而涉及向接收者装置授予存取权和等级。
系统IO可支持根据会话启始协议(SIP)、 ITUH.323标准、ITUH.324标准或其它标 准的视频电话。每一视频CODEC 20、 28根据例如MPEG-2、 MPEG-4、 ITU H.263或ITU H.264的视频压縮标准而产生经编码的视频数据。如图1中进一步展示,视频CODEC 20、 28可与各自音频CODEC22、 30集成,且包含适当的MUX/DEMUX组件18、 26以处理 数据流的音频和视频部分。MUX/DEMUX单元18、 26可符合ITU H.223多路复用器协 议或例如用户数据报协议(UDP)的其它协议。
图2是说明与无线通信装置38相关联的显示器36上呈现的视频场景34内的ROI 32 的定义的图。在图2的实例中,ROI32是矩形区,其含有视频场景34中呈现的人的脸部 39,但ROI可含有需要改进或增强的编码的任何图像或对象。在VT应用中,视频场景 34中呈现的人通常将是远程发送者装置的用户,其是与作为接收者装置操作的无线通信
装置38的用户进行的视频会议的一方。ROI32构成为远端R01,因为其定义从远程发送 者装置传输的视频场景中的ROI。根据本揭示案,远端ROI32被传输到发送者装置以指 定对ROI内的视频场景区域的优先编码。以此方式,接收者装置38的本地用户能够远程 控制远端ROI 32的图像质量。如将描述,远端ROI32的大小、形状和位置可以是固定 或可调节的,且可以多种方式予以定义、描述或调节。
ROI 32允许接收者装置用户较清晰地査看视频场景34内的个别对象,例如人的脸部 39。 ROI32内的脸部39相对于视频场景34的非ROI区域(例如,背景区)而被以较高 图像质量进行编码。以此方式,用户能够较清楚地查看面部表情、唇部活动、眼部活动 等。然而,或者可使用ROI 32来指定除了脸部以外的任何对象。 一般来说,VT应用中 的ROI可能非常主观且可能由于用户不同而不同。所需的ROI还取决于如何使用VT。 在一些情况下,VT可用于查看和评估对象,与视频会议形成对比。
举例来说,丈夫可使用VT应用来展示其想要在机场礼品店购买的礼物。丈夫可能 希望以及时且交互的方式从他的妻子那里获得第二种意见。这样做,他可以立即作出决 定,因为他所搭乘的班机马上就要出发了。在这种情况下,ROI是覆盖丈夫正考虑的礼 物的区。通过允许妻子(或丈夫)选择ROI,有可能实现针对所述特定ROI的较好编码 或较好的服务质量,且藉此允许妻子较清楚地查看礼物。
作为另一实例,两个或两个以上工程师可进行涉及在白板上演示和讨论各种等式或 图表的VT通话。在这种情况下,远程用户可能希望以较好的图像质量査看白板的一区 域,例如更清楚地看到等式的细节。为此,远程用户选择包含所述等式的ROI。另外, 当一工程师向白板进行添加时,远程用户可能希望移动ROI以跟踪新添加到白板的主题。 远程用户指定ROI的能力可显著改进技术讨论过程中信息的交换。
本文描述的ROI技术不仅改进ROI的视频质量,而且改进两个用户之间的视频交互。 一般来说,常规VT应用仅仅将两个单向视频传输组合且任何交互均是口头进行。在常 规VT应用中,视频侧通常不存在交互。允许接收者装置用户在VT通话期间至少具有对 从发送者装置接收的视频内容的有限控制可允许更多的视频交互。
以此方式,VT应用可经设计使得接收者装置用户可选择ROI,并将ROI信息发送回 发送者装置以对ROI进行优先处理,例如较高质量编码(例如,通过分配较多编码位) 或较强误差防护(例如,内部MB更新)。实际上,通过指定远端ROI,接收者装置用户 可远程控制发送者装置编码器。另外,此远端ROI信息可由装置中的ROI感知视频解码 器使用,所述ROI感知视频解码器接收远端视频以进行较好的后处理,例如误差隐蔽、
解块或去鸣振。由经编码视频的接收者对视频编码器的远程控制不同于仅仅控制远程摄 像机的摇摄、倾斜、变焦或焦距。相比之下,通过远程ROI处理,用户能够影响应用于 特定区的编码的质量。然而,在一些实施例中,可提供远程摄像机控制与远程视频编码 器控制组合。
图3是说明并入有ROI感知CODEC的视频通信装置12的方框图。尽管图3描绘图 1的视频通信装置12,但可类似地构造视频通信装置14。再次,视频通信装置12或14 可充当接收者装置、发送者装置,以及优选地接收者和发送者装置两者。如图3所示, 视频通信装置12包含ROI感知CODEC 20、视频俘获装置40和用户界面42。尽管图3 中展示信道16,但为了便于说明省略了 MUX/DEMUX和音频组件。视频俘获装置40可 以是与视频通信装置12集成或可操作地耦合到视频通信装置12的视频摄像机。在一些 实施例中,举例来说,视频俘获装置40可与移动电话集成以形成所谓的视频摄像机电话。 以此方式,视频俘获装置40可支持移动VT应用。
用户界面42可包含显示装置,例如液晶显示器(LCD)、等离子屏幕、投影仪显示 器,或可与视频通信装置12集成或可操作地耦合到视频通信装置12的任何其它显示设 备。显示装置向视频通信装置12的用户呈现视频图像。视频图像可包含由视频俘获装置 40在本地获得的近端视频,以及从发送者装置远程传输的远端视频。另外,用户界面42 可包含多种用户输入媒体中的任一者,包含硬键、软键、各种指向装置、触笔等,以用 于由视频通信装置12的用户输入信息。在一些实施例中,用户界面42的显示装置和用 户输入媒体可与移动电话集成。视频通信装置12的用户依赖于用户界面42来査看远端 视频以及(视情况)查看近端视频。另外,用户依赖于用户界面42来输入信息以用于定 义或选择远端ROI以及(视情况)近端ROI。
如图3中进一步展示,ROI感知CODEC20包含ROI引擎44、 ROI感知视频编码器 46和ROI感知视频解码器48。ROI感知视频编码器46编码从视频俘获装置40获得的近 端视频("近端视频")以用于传输到远程接收者装置。再次,术语"近端"表示在视频 通信装置12内本地产生的视频,这与从远程视频通信装置(例如,视频通信装置14) 接收的"远端"视频形成对比。在图3的实例中,ROI感知视频编码器46使用从远程接 收器获得的近端ROI信息("远程近端ROr)来优先编码近端ROI。远程接收者是与远 程视频通信装置14相关联的用户。
从远程用户的视角来看,远程近端ROI当由远程装置14传输时是远程远端R01,且 从装置12的本地用户的视角来看当其被接收时称为远程近端R01。也就是说,作为发送者或接收者的装置12、14的视角决定了认为视频和ROI适用于近端还是远端视频。再次, 远程控制远程装置14处的视频编码的本地装置12的用户指定远端R01。然而,当远程 装置14的用户接收到远端ROI时,其被认为是远程近端ROI,因为其关于正由本地装置 14编码的近端视频。 一般来说,出于本揭示案中使用的标记的目的,视角是重要的。
视情况,ROI感知视频编码器46可使用从视频通信装置14的本地用户获得的近端 ROI信息("本地近端ROr)。本地近端ROI也可称为发送者驱动的ROI,因为其由经编 码近端视频的发送者产生。本地近端ROI信息由本地编码器46使用且通常不发送到另一 视频通信装置14,除非远程装置14中的视频解码器经设计以将优先解码应用于由发送 者装置12的用户指定的近端R01。远程近端ROI也可称为接收器驱动的ROI,因为其由 经编码近端视频的远程接收器产生。远程近端ROI允许由视频通信装置12产生的视频的 接收者控制ROI感知编码器46进行的ROI编码,而本地近端ROI允许由视频通信装置 12产生的视频的发送者控制ROI感知编码器46进行的ROI编码。在一些情况下,如将 要描述,远程和本地ROI定义可能冲突,从而需要冲突解决。
本地和远程近端ROI信息可提供到ROI感知编码器46作为近端ROI宏区块(MB) 映射("近端ROI MB映射")。近端ROI MB映射识别驻存在接收器近端ROI或发送者近 端ROI内的特定MB。 ROI感知编码器46以较高质量编码、较强误差防护或两者来优先 编码近端视频中的ROI,以改进当例如远程视频通信装置14处的远程用户查看时ROI 的图像质量。对于ROI的较好的误差防护在无线电话应用中可能尤其合乎需要。接着将 所产生的经编码近端视频("经编码近端视频")传输到远程装置"。
如将解释,ROI感知视频编码器46还传输已由视频通信装置12的本地用户针对从 远程视频通信装置14接收的远端视频而产生的远端ROI信息("远端ROI")。远端ROI 充当针对由远程视频通信装置14编码的视频的接收器驱动的R01。实际上,由视频通信 装置12传输的远端ROI信息允许至少部分控制由远程视频通信装置14产生的远端视频 的编码器,正如由ROI感知解码器48接收的远程近端R01由视频通信装置12使用以控 制ROI感知视频编码器46—样。以此方式,每一视频通信装置12、 14能够影响由另一 装置产生的远端视频中的ROI编码。
由视频通信装置12传输的远端ROI信息可作为带内或带外信令信息而传输。在带内 信令的情况下,远端ROI信息可内嵌在传输到远程视频通信装置14的经编码近端视频位 流中。举例来说,在MPEG4位流格式中,存在称为"user—data"的字段,其可用于内嵌 描述位流的信息。"user—data"字段或其它位流格式中的类似字段可用于内嵌远端ROI
信息而不会违反位流顺应性。或者,ROI信息可通过例如隐写术的所谓的数据隐藏技术 而内嵌在视频位流中。
ROI感知视频解码器48经配置以在user_data字段中或从远程装置传入的远端视频 内的其它地方寻求ROI信息。在带外信令的情况下,可使用例如ITU H.245或SIP的信 令协议来传达远端ROI信息。在任一情况下,远端ROI信息可釆取界定远端ROI的位置 和/或大小的ROI MB映射或物理坐标的形式。 一旦解码器48接收到远端视频位流,其 就基于与远程发送者装置约定的格式检索ROI信息,并将ROI信息传递到存取验证模块 58以获得存取许可,以用于在将远程近端ROI提供到视频编码器56之前进行近端ROI 控制。
除了控制远程视频编码器以优先编码远端视频中的ROI外,远端ROI信息还可应用 于本地视频解码器以优先解码远端视频中的ROI内的MB。举例来说,如图3中进一步 展示,由ROI映射器54产生以用于传输到远程编码器的相同远端ROI MB映射可提供到 ROI感知视频解码器48。ROI感知视频解码器48使用ROI MB映射来优先解码从远程视 频通信装置14接收的远端视频内的MB。举例来说,ROI感知视频解码器48可与非ROI MB相比向ROIMB应用更好的后处理。额外地或作为替代,ROI感知视频解码器48可 与非ROI MB相比向ROI MB应用更健壮的误差隐蔽技术。以此方式,ROI感知视频解 码器48依赖于由本地用户产生的远端ROI信息来优先解码传入的远端视频的ROI部分 以实现增强的图像质量。
ROI感知视频解码器48从远程视频通信装置(例如,图1的视频通信装置14)接收 传入的远端视频。ROI感知视频解码器48解码远端视频并将经解码的视频提供到用户界 面42以在显示装置上呈现给本地用户。另外,如上所述,ROI感知视频解码器48从远 程视频通信装置14接收远程近端ROI信息("远程近端ROI")。 ROI感知视频解码器48 接收到的近端ROI信息由远程视频通信装置14的用户产生以指定由视频通信装置12传 输的视频中的ROI。如上所述,ROI感知视频解码器48接收到的远程近端ROI信息用于 远程控制ROI感知视频编码器46以优先编码由视频通信装置12产生的近端视频中的 ROI。如上所述,通过带内或带外信令技术来传输远程近端ROI。
进一步参看图3, ROI感知视频编码器46和ROI感知视频解码器48与ROI引擎44 交互。ROI引擎44处理本地和远程近端ROI信息以用于编码和传输来自视频俘获装置 40的近端视频位流。另夕卜,ROI引擎44处理经由用户界面42提供的远端ROI信息以用 于编码并传输到远程视频通信装置14。 ROI引擎44包含ROI控制器52、 ROI映射器54、
ROI跟踪模块56和验证模块58。在一些实施例中,ROI跟踪模块56和验证模块58可以 是任选的。
ROI感知视频编码器46、 ROI感知视频解码器48、 ROI控制器52、 ROI映射器54、
ROI跟踪模块56和验证模块58可以多种方式形成,作为离散功能模块或作为包含归属 于每一模块的功能性的单片式模块。在任一情况下,ROI感知CODEC 20的各个组件(包 含ROI引擎44、视频编码器46和视频解码器48)可实现在硬件、软件、固件或其组合 中。举例来说,此类组件可作为在一个或一个以上微处理器或数字信号处理器(DSP)、 一个或一个以上专用集成电路(ASIC)、 一个或一个以上现场可编程门阵列(FPGA)或 者其它等效集成或离散逻辑电路上执行的软件过程而操作。如果实施在软件中,那么可 通过计算机可读媒体来部分实现所述技术,所述计算机可读媒体包括含有指令的程序代 码,所述程序代码当在处理器或DSP中执行时会进行本文描述的方法中的一种或一种以 上方法。
在操作中,视频通信装置12的用户选择由视频俘获模块40产生的近端视频或由ROI 感知视频解码器48解码的远端视频,以在与用户界面42相关联的显示装置上査看。在 一些实施例中,画中画(PEP)功能性可允许用户同时查看近端视频和远端视频。为了出 于ROI定义的目的而查看近端或远端视频,用户可操纵用户界面42来调用ROI定义模 式。缺省地,视频通信装置12可处理视频编码和解码而不考虑R01。通过进入ROI定义 模式,用户激活视频通信装置12的ROI感知编码和解码方面。或者,ROI感知编码和解 码可为缺省模式。
当呈现远端视频时,用户使用多种技术中的任一者来指示远端视频中的ROI,将对 所述技术进行更详细描述。远端ROI在视频场景内突出显示用户关注的或需要较高图像 质量的区或对象。用户界面42基于用户输入产生远端ROI指示。ROI信息可由ROI引 擎44进一步处理以产生远端ROI信息以用于传输到视频通信装置14。
或者,用户可选择从视频俘获模块40获得的近端视频以用于ROI定义。当呈现近端 视频时,用户可视情况使用与用于远端视频中的ROI指示的技术类似或相同的技术来指 示近端视频中的ROI。近端ROI或远端ROI可在VT通话开始时被初始指定或在VT通 话过程期间的任何时间被指定。在一些实施例中,初始ROI可由本地用户或远程用户更 新,或通过ROI跟踪模块56自动更新。如果ROI被自动更新,那么用户不需要继续输 入ROI信息。事实上,将基于用户的初始输入而维持ROI,直到用户改变或中止ROI为 止。
用户界面42基于用户提供的指示而产生本地近端ROI指示。与远端ROI指示一样, 近端ROI指示可由ROI引擎44进一步处理。近端ROI指示突出显示(即,通过增加图 像质量)视频场景内的用户希望向远程用户强调的区或对象。本地用户可通过经由用户 界面42选择预定义的ROI样式或划定ROI样式来选择近端ROI或远端ROI。划定ROI 样式可涉及用铁笔进行徒手绘制,或对缺省ROI样式重新设计大小或重新定位。
在图3的实例中,用户界面42将本地近端ROI指示(如果提供的话)和远端ROI 指示提供到ROI引擎44内的ROI控制器52。另夕卜,ROI控制器52经由验证模块58从 ROI感知视频解码器48接收远程近端ROI。明确地说,ROI感知视频解码器48检测所 接收的远端视频流内远程近端ROI信息的存在,或经由带外信令的远程近端ROI信息的 存在,且将远程近端ROI信息提供到验证模块58。本地近端ROI和远端ROI指示可依 照各个近端视频或远端视频的视频帧内的坐标来表达。ROI的坐标可以是视频帧内的x-y 坐标。然而,x-y坐标经处理以产生ROIMB映射,以由编码器46或解码器48使用,如 将解释。
ROI控制器54处理本地近端R01、远程近端ROI和远端ROI,并将它们施加到ROI 映射器54。 ROI映射器54将各个ROI坐标转换为宏区块(MB)映射。更明确地说,ROI 映射器54产生远端MB映射,其指定远端视频内的对应于由本地用户指示的远端ROI 的MB。另外,ROI映射器54产生近端ROIMB映射,其指定近端视频内的对应于本地 近端ROI、远程近端ROI或两者的组合的MB。
对于预定义的ROI样式,ROI映射较简单。每一预定义的ROI样式可具有同样被预 定义的指定MB映射。然而,对于划定的、重新定位或重新设计大小的ROI样式,ROI 映射器54选择最符合由用户指定的ROI样式的坐标的MB边界。举例来说,如果指定的 ROI横穿MB,那么ROI映射器54将ROI边界置于相关MB的外部边缘或内部边缘处。 换句话说,ROI映射器54可经配置以仅将完全处于ROI内的MB包含在ROI MB映射中, 或者还包含部分处于ROI内的MB。在任一情况下,ROI包含一组最近似于指定的ROI 的完整MB。再次,视频编码器46或视频解码器48在MB层级操作,且通常将需要将 ROI转译为MB映射。通过将个别MB指定为包含在ROI中或排除在ROI外,ROI MB 映射允许以不规则或非矩形形状定义ROI。
ROI感知视频编码器46在经编码的近端视频内或通过带外信令将远端R01 MB映射 传输到远程视频通信装置14。近端ROI MB映射不传输到远程视频通信装置14。事实上, 近端ROI MB映射由ROI感知视频编码器46使用,以便在传输到远程视频通信装置14
之前以较高质量编码或较强误差防护而优先编码近端视频中的指定的MB。因此,ROI 感知视频编码器46将经编码的近端视频与经优先编码的ROI以及远端ROI信息传输到 远程视频通信装置14。
ROI跟踪模块56跟踪近端视频的ROI区中的变化。如果VT应用驻存在移动视频通 信装置内,举例来说,用户可能不时地移动,从而导致用户的位置相对于先前指定的ROI 发生变化。另外,即使当用户位置稳定时,ROI内的其它对象也可能移出ROI区。举例 来说,湖面上的小船可随着波浪运动而上下颠簸或左右移动。为了避免当发生移动时用 户需要重新定义ROI,可提供ROI跟踪模块56以自动跟踪ROI区内的对象。
在图3的实例中,ROI跟踪模块56从由ROI感知视频编码器46产生的经编码的近 端视频接收运动信息。运动信息可采取经编码的近端视频内的MB的运动向量的形式, 从而允许通过ROI映射器54对ROI MB映射定义进行闭环控制。基于运动信息,ROI 跟踪模块56产生对近端ROI MB映射的递增位置调节,并将调节提供到ROI映射器54。 位置调节可采取如包含在ROI中或排除在ROI外的MB状态变化的形式。
如果运动信息指示ROI的大量移动,那么ROIMB映射中MB的状态可能改变。通 常,处于ROI外部边界处的MB的状态将发生改变。响应于位置调节,ROI映射器54 使由近端ROIMB映射指定的ROI移位,使得ROI位置以逐帧为基础适应于经编码的近 端视频内的运动。ROI跟踪模块56和ROI映射器54协作以在视频场景内检测到运动时 自动调节ROI位置。以此方式,ROI引擎44调节ROI以跟踪R01内移动的对象。
验证模块58用于解析远程用户的ROI权利,包含个别用户的权利和多个用户之间的 权利的优先性。当ROI感知视频解码器48从远程视频通信装置14接收远程近端ROI时, 其将远程近端ROI提供到ROI引擎44。然而,在一些情况下,由远程用户指定的远程近 端ROI可能与由本地用户指定的本地近端ROI冲突。举例来说,本地和远程用户可指定 视频场景内的重叠ROI或完全不同的ROI。在此情况下,可提供验证模块58以解决ROI 冲突。
在一些实施例中,验证模块58可应用所谓的"主-从"机制来协调在给定时间应使 用哪一近端ROI信息(本地或远程)。明确地说,在发送者接收接收器驱动的ROI信息 之前,发送者是近端ROI主装置且控制其近端ROI。换句话说,在视频通信装置12处接 收到远程近端ROI之前,本地用户控制近端ROI。因而远程用户是近端ROI"从属装置" 且不控制近端ROI,除非主装置(即,本地用户)授予控制近端ROI的存取权。
一旦本地用户向远程用户授予存取权,本地用户就不再控制其近端ROI。事实上,
与视频通信装置14相关联的远程用户获得对于由视频通信装置12产生的近端视频的近 端ROI的控制权,且成为近端ROI的主装置。远程用户可保持控制权直到本地用户明确 地撤消存取特权或以另外的方式拒绝远程用户的存取为止,或者直到远程用户中止ROI 选择位置为止,在此情况下主ROI控制权可归还于本地用户。
一旦ROI感知视频解码器48接收经编码的远端视频(如果有的话),其就基于与发 送者约定的格式从视频位流中检索远程近端ROI信息。再次,近端ROI信息可内嵌在经 编码的远端视频中或通过带外信令发送。在任一情况下,ROI感知视频解码器48将远程 近端ROI传递到验证模块58以在经由ROI控制器52和ROI映射器54将远程近端ROI 发送到ROI感知视频编码器46之前获得存取许可。验证模块58将存取权限制于特定用 户,使得用户在不经本地用户授权的情况下不能控制编码过程。
验证模块58可经配置以授予并管理存取权,并在一个或一个以上远程用户之间进行 平衡。举例来说,本地用户可向选定的远程用户授予存取权。因此,本地用户可允许一 些远程用户控制近端ROI并禁止其它远程用户控制近端ROI。并且,本地用户可向远程 用户分派相对存取等级或优先权。以此方式,本地用户可指定远程用户之间的存取等级 的阶层,使得在多个远程用户同时请求ROI控制权的情况下, 一些远程用户与其它远程 用户相比在控制近端ROI方面可具有优先权。举例来说,在多方视频会议过程中多个远 程用户可能同时请求ROI控制权。在此类情况下,ROI控制权通常将专门授予给一个用 户,其为本地用户,或者如果控制权是由本地用户授予的,那么其为远程用户中的选定 一者。
在一些实施例中,验证模块58还可负责资源监视以确定本地视频通信装置12是否 具有启用ROI感知视频处理的能力。如果本地装置不具有充足的处理资源来在给定时间 支持远程ROI控制或满足特定类型的ROI请求,那么验证模块58撤消远程ROI控制存 取权或拒绝ROI请求。作为一实例,由通信信道强加的带宽限制或本地处理负荷可能导 致拒绝远程ROI控制。作为另一实例,这些限制可能允许使用预配置的ROI样式,而不 是所划定或描述的ROI样式。验证模块58可通过将状态消息内嵌在待发送到远程装置的 传出经编码近端视频中来向远程装置通知所述ROI决策。
另外,可向个别远程用户授予不同的存取等级来控制远程用户可控制近端ROI的程 度。举例来说,远程用户可限于仅在经本地用户批准时才可选择一组预定义的ROI样式、 特定的ROI位置或大小或ROI的规格。因此,验证模块58可自动解析远程用户对于近 端ROI的控制,或通过与本地用户交互而协商对于远程用户的近端ROI控制权的主动批
准。举例来说,当远程用户请求存取权以控制近端ROI时,验证模块58可经由用户界面 42向本地用户提交询问以请求批准远程用户ROI控制权。
验证模块58可以多种方式中的任一者跟踪远程用户的存取等级。如上所述,本地用 户可主动地批准来自远程用户的控制近端ROI的请求,并主动地控制向远程用户授予的 存取等级。或者,本地用户可在存储与远程用户相关联的信息(包括存取权或等级)的 视频通信装置12中的存储器内维持地址簿。所述地址簿可采取具有远程用户和相关联的 存取等级的列表的数据库的形式。当远程用户请求近端ROI控制权时,验证模块58从地 址簿检索相关的存取权信息,并自动应用验证过程来解析本地用户、远程用户以及可能 若干远程用户之间的ROI控制权。如果远程用户未列在地址簿中,那么本地用户可选择 将远程用户添加到地址簿并具有适用的存取权。
在一些情况下,本地用户可超越(override)为地址簿中的特定远程用户指定的缺省 存取等级。举例来说,验证模块58可允许本地用户在VT通话过程期间在不同的远程用 户之间主动地重新配置ROI控制优先权,或进行千涉以作为本地用户重新获得对近端 ROI的专有控制权。本地用户与验证模块58之间在维持地址簿或主动管理ROI控制权请 求时的交互由图3中的存取控制信息(ACCESS CONTROL INFO)表示。
当自动或主动批准远程用户的近端ROI控制权时,验证模块58将远程近端ROI传 递到ROI控制器52以用于由近端ROI映射器54进行处理和映射。或者,即如果未提供 远程近端ROI或本地用户已选择排斥远程用户而控制近端ROI,那么ROI控制器52处 理由本地用户经由用户界面42提供的本地近端ROI。
验证模块58用于解决本地与远程用户之间的ROI冲突。缺省地,验证模块58应用 主-从概念,依照所述主-从概念,本地用户具有近端ROI控制权。当向远程用户授予具 有最高等级的存取权时,远程用户完全控制视频通信装置12的ROI感知视频编码器46 的近端ROI选择。否则,本地用户具有近端ROI控制权,其超越由远程用户作出的任何 近端ROI选择。
尽管可向远程用户授予存取权,但本地用户在近端ROI控制过程中将占优势,因为 远程用户的存取权通常比本地用户的存取权具有较低等级。因此,如果本地用户选择指 定近端ROI,那么将忽视远程用户作出的任何近端ROI选择。另一方面,如果本地用户 不指定近端ROI,那么分派给远程用户的存取权的等级有效,且远程用户能够控制近端 ROI。然而,如上所述,本地用户仍可选择超越缺省的主-从关系并放弃给予本地用户的 最高等级的存取权。
图4是说明具有ROI感知CODEC且进一步并入有ROI提取模块60的另一视频通 信装置12'的方框图。图4的视频通信装置12'与图3的视频通信装置12几乎一致。然而, 视频通信装置12'进一步包含ROI提取模块60以基于来自用户的输入形成本地近端ROI 和远端ROI。除了简单地处理对预设置的ROI样式的选择或允许用户对缺省ROI进行划 定、重新定位或重新设计大小,ROI提取模块60还允许本地用户通过口头或文本ROI 描述来指定ROI。明确地说,ROI提取模块60基于由本地用户提供的ROI描述来产生本 地近端ROI或远端ROI。
ROI描述的实例包含例如"脸部"、"移动对象"、"唇部"、"人体"、"背景"等项目 的文本或口头输入。可能非常需要对这些对象的优先编码。举例来说,对唇部或脸部的 优先编码可较好地表现面部表情、吐词等。文本输入可被键入或从由用户界面42呈现的 菜单中选择。可通过向与视频通信装置12'相关联的麦克风中说话来提供口头输入。在每 一情况下,本地用户"描述"ROI而不是选择或划定ROI。 ROI提取模块60将所述描述 转换为适用的近端或远端视频场景内的一组坐标。在使用口头ROI描述的情况下,用户 界面42或ROI提取模块60可包含常规的语音识别能力。明确地说,ROI提取模块60 可基于一个或一个以上经识别的项目来产生指定ROI的信息。
ROI提取模块60通过应用经配置以检测所需的ROI的常规预编码处理算法来自动选 择ROI坐标。明确地说,ROI提取模块60可应用一算法来根据视频ROI处理领域的技 术人员已知的常规技术进行脸部检测、特征提取、对象分割或跟踪。举例来说,ROI提 取模块60可应用依赖于基于视频输入数据的像素的亮度或色度值进行ROI识别的常规技 术。
常规脸部检测方案通常涉及使用肤色作为指导来识别脸部与非脸部像素。正ICE学 报Inf. & Syst, 2003年1月,第E86-D巻,第1期,第101-108页,C.-W. Lin、 Y.-J. Chang 和Y.-C. Chen的"A low-complexity face-assisted coding scheme for low bit-rate video telephony"中以及正EE学报On Circuits and Systems for Video Technology, 1999年6月, 第9巻,第4期,第551-564页,D. Chai和K. N. Ngan的"Face segmentation using skin-color map in videophone applications"中描述了常规脸部检测方案的实例。
当本地用户依据"脸部"描述ROI时,ROI提取模块60视情况分析近端或远端视频, 以自动识别脸部并将与所识别的脸部相关联的坐标指定为ROI。 ROI提取模块60接着将 坐标传递到ROI控制器52以用于由ROI映射器54进行处理和映射。值得注意的是,R01 提取模块60视情况处理本地近端ROI描述或远端ROI描述,将所述描述映射到适当的
提取算法,并自动分析适用的经预编码的近端视频或经解码的远端视频以自动提取适当 的ROI。
为了支持自动ROI检测,ROI提取模块60从视频俘获装置40接收近端视频,并从 ROI感知视频解码器48接收远端视频。使用来自用户界面42的本地近端ROI描述或远 端ROI描述,以及自动化检测算法,ROI提取模块60视情况产生本地近端ROI和远端 ROI,以便应用于ROI控制器52。在每一情况下,ROI提取模块60将本地近端ROI描 述或远端ROI描述转换为最符合适用描述的坐标。在此情况下,用户不需要划定ROI。 另夕卜,用户不被限定于一组预定义的ROI样式。事实上,ROI控制器52主动地检测近端 视频内与ROI描述匹配的适当区。
ROI映射器54将ROI坐标映射到视频帧内的相关宏区块(MB),并产生近端或远端 ROI MB映射。实际上,ROI映射器54将来自ROI控制器52的ROI坐标转译成视频编 码器46可理解的格式。明确地说,视频编码器46经装备以在MB层级,即在逐个MB 基础上处理编码。为此,ROI映射器54产生近端或远端视频的ROI MB映射。ROI MB 映射识别落在指定的ROI内的MB,使得视频编码器46可向那些MB应用优先编码。
除了处理ROI描述外,ROI提取模块60还可经装备以处理由本地用户从一组预定义 的样式中选择的或由本地用户划定、重新定位或重新设计大小的ROI样式。因此,视频 通信装置12'可大体上如关于图3的视频通信装置12所描述的那样产生ROI信息,但进 一步并入有ROI提取模块60以处理由本地用户以文本或口头形式输入的ROI描述。在 便于本地用户使用方面,ROI提取模块60可能是合乎需要的。然而, 一些视频通信装置 可能不具有足够的处理能力来支持ROI提取模块60。因此,ROI提取模块60表示根据 本揭示案的视频通信装置的一个合乎需要的但任选的组件。
在一些实施例中,ROI提取模块60可处理不仅由本地用户而且由远程用户产生的 ROI描述。以此方式,在一些装置中可远程地而非在本地执行提取功能性。举例来说, 特定视频通信装置14可能不具有足够的本地资源或能力来支持对于由装置14的用户提 供的ROI描述的ROI提取。然而,另一视频通信装置12可能较好地经装备以进行ROI 提取。在此情况下,预期本地ROI提取可被卸载或分配到远程视频通信装置。
为了支持远程提取,可以多种方式将ROI描述提供到远程装置。举例来说,口头描 述可包含在传输到远程装置的音频流中。文本ROI描述以及预定义的ROI样式或划定的 ROI样式同样可(例如)通过将此信息内嵌在经编码的视频流中而传输到远程装置。因 此,从一个装置发送到另一装置的ROI信息可采取预处理的ROIMB映射或ROI的任何
其它指示或描述的形式,所述指示或描述包含在施加到远程编码器之前需要在远程装置 处进行处理的指示或描述。
图5是说明经由中间提取服务器61的分布式ROI提取的方框图。如图5所示,视频 通信装置12、 14可向中间提取服务器61提供足够的信息使得可提取ROI。举例来说, 每一装置12、 14可提供各自的本地近端ROI描述、远端ROI描述、经编码或原始近端 视频,和经编码远端视频。作为从近端装置提供经编码远端视频的替代方法,ROI提取 服务器61可直接从远端装置接收远端视频。使用此信息,提取服务器61产生远端ROI 和本地近端ROI中的一者或两者,并将它们提供到各自装置12、 14。提取服务器61可 以是位于通信网络内的任何地方的服务器,且可通过有线媒体、无线媒体或两者的组合 耦合到装置12、 14。提取服务器61可相对于视频通信装置12、 14定位在远距离,或与 装置12、 14中的一者定位在一起。然而,在许多情况下,提取服务器61可以是远程服 务器。 一般来说,提取服务器61将在结构上不同于视频通信装置12、 14。
提取服务器61可与提取模块60非常类似地起作用,但远程、分布式地操作,使得 不需要在装置12、 14内本地执行ROI提取。以此方式,ROI提取的处理成本可分布到可 能具有较大处理能力的不同装置。与ROI提取模块60—样,提取服务器61可处理用户 的例如口头、文本或图形描述的不同类型的ROI描述。为此,ROI提取服务器61可包含 适宜的能力(例如,语音识别能力)来处理所述描述。另外,ROI提取服务器61可装备 有视频解码能力以允许分析视频和提取ROI,以及编码能力以重新编码视频和内嵌ROI 信息(视需要)。
图6是说明用于多个视频电话会话的分布式ROI提取的方框图。在图6的实例中, ROI提取服务器61操作以处理多个视频通信装置12A-14A、 12B-14B、 12C-14D到 12N-14N之间的VT会话的ROI提取。以此方式,ROI提取服务器61并行执行多个ROI 提取任务以支持正在给定通行网络上进行的各种VT会话。
图7A-7D是说明供本地或远程用户选择的预定义的ROI样式的图。图7A-7D的ROI 样式是出于实例的目的,且不应认为具有限定性。图7A展示与无线通信装置38相关联 的显示器36上呈现的视频场景34内的ROI 62。 ROI 62是在视频场景34内大体上居中 的基本矩形。矩形ROI 62的主要长度在视频场景34内垂直延伸。在许多情况下,预定 义的居中矩形ROI 62将有效地俘获人脸,即参与VT通话的远程用户的脸部。
图7B展示另一R0164,其采取具有在视频场景34内水平延伸的主要长度的矩形的 形式。ROI64在视频场景34内大体上居中,且可有效地俘获例如车辆、船只、产品、演
示等对象。
图7C展示另一 ROI 66,其形状经设计以俘获参与VT通话的远程用户的脸部和肩部。 或者,ROI66可俘获例如单向视频串流应用中提供新闻广播的报道者、集会的主持人或 会议的发言者的脸部和肩部。在任何情况下,预定义的ROI66均聚焦于人类VT参与者 或演示者,并实现对所述人员的物理特征的优先编码。
图7D展示在视频场景34内并排呈现的一组两个ROI 68、 70。在图5D的实例中, ROI6S、 70可有效地俘获并排就座或站立的两个人的脸部。以此方式,两个参与者的脸 部可被优先编码以支持面部表情和移动的较髙图像质量。
图7A-7D中描绘的预定义的ROI样式是出于说明的目的。可提供具有替代位置或形 状的其它预定义的ROI样式。举例来说, 一些ROI样式倘若可映射到MB边界则可具有 圆形或不规则形状。
在一些实施例中,可允许用户对选定的ROI样式重新设计大小或重新定位。常规的 指针和转角拖动技术可用于实现重新设计大小和重新定位。另外,可通过转角拖动或通 过明确地指定縮放百分比来实现对ROI大小的重新縮放。当然,当ROI变大时,优先编 码的程度由于带宽限制的缘故而减小。因此,在一些情况下,可在视频通信装置12内实 行最大ROI大小。
图8是说明在接收者装置处产生远端ROI信息以在发送者装置处控制近端视频中的 优先ROI编码的流程图。图8中描绘的过程可实施在图3的视频通信装置12或图4的视 频通信装置12'内。在操作中,视频通信装置12内的ROI感知视频解码器48解码来自远 程发送者装置(例如,视频通信装置14 (图l))的远端视频(72)。 一旦解码远端视频, 接收者装置12的用户界面42就显示远端视频以供本地用户查看(74)。
如果本地用户不请求ROI选择(76),那么不采取行动且解码远端视频的下一帧(72)。 然而,如果请求ROI选择(76),那么用户界面42接受来自本地用户的远端ROI信息(78)。 ROI控制器52和ROI映射器54接着协作以产生远端ROI MB映射(80)。 ROI感知编码 器46将远端ROI MB映射内嵌在经编码的近端视频中并藉此将远端ROI映射传输到编码 远端视频的远程发送者装置14 (82)。远端ROIMB映射指定与远程视频通信装置14相 关联的编码器应对待发送到视频通信装置12的远端视频的相关ROI内的MB应用优先编 码。
图9是说明处理来自接收者装置的近端ROI信息以便结合ROI跟踪而在发送者装置 处在近端视频中进行优先ROI编码的流程图。在图9的实例中,用户界面42接收由视频
俘获装置40产生的近端视频流,并向本地用户呈现近端视频(84)。如果本地用户或远 程用户均不请求近端ROI选择(86),那么正常编码每一视频帧内的所有MB (88),即 不对ROI内的MB进行任何优先编码。接着将经编码的近端视频发送到远程接收者装置 14 (89)。
然而,如果本地用户或远程用户请求近端ROI选择(86),那么ROI控制器52和 ROI映射器54处理相关近端ROI信息以产生近端ROIMB映射(90)。如果近端ROI由 本地用户和远程用户两者指定,那么验证模块58可进行干涉以有利于ROI中的一者地解 决冲突。当接收到近端ROI MB映射时(90), ROI感知视频编码器46通过应用较高质 量编码、较强误差防护或两者来优先编码所述ROI内的MB (92)。
跟踪模块56通过监视由ROI感知视频编码器46产生的运动信息来跟踪近端视频内 的ROI位置(94)。如果未检测到ROI中的位移(96),那么应用现有ROI映射来编码近 端视频内的ROI MB (100),且将经编码的近端视频发送到远程接收者装置(102)。如 果检测到ROI中的位移(96),那么视频跟踪模块56在编码近端视频(100)之前基于运 动信息来调节ROIMB映射(98)。
图10是说明处理来自接收者装置的ROI信息以便结合用户验证而在发送者装置处在 近端视频中进行优先ROI编码的流程图。图10描绘图3或4的验证模块58允许远程用 户控制近端ROI的操作,且为了简便假定未指定任何本地近端ROI。如图10所示,对于 由视频通信装置12中的视频俘获装置40产生的近端视频流(104),验证模块58确定视 频通信装置14的远程用户是否已求远程近端R01 (106)。
如果未请求任何远程近端ROI (106),且未指定任何本地近端ROI,那么正常编码 近端视频中的所有MB (110)。然而,如果请求了远程近端ROI (106),那么验证模块 58接着确定请求近端ROI的远程用户是否经验证(108)。明确地说,验证模块58可通 过参考存储在视频通信装置12本地的地址簿来自动确定远程用户的存取权。或者,验证 模块58可经由用户界面42主动地询问本地用户,以获得对由远程用户进行近端ROI控 制的存取权的批准或拒绝。
如果远程用户未经验证(108),那么正常编码近端视频中的所有MB (110)。然而, 如果远程用户经验证(108),那么向远程用户授予近端ROI控制权。在此情况下,ROI 控制器52和ROI映射器54处理来自远程用户的近端ROI信息并产生近端MB映射(112)。 使用近端MB映射,ROI感知编码器46优先编码由近端MB映射识别的MB (114)。视 频通信装置12接着将经编码的近端视频发送到远程视频通信装置14 (116)。
图ll是说明选择预定义的ROI样式的流程图。 一旦ROI感知视频解码器48解码从 远程视频通信装置14接收的远端视频(118),就经由用户界面42向本地用户显示远端 视频(120)。如果本地用户请求ROI选择(122),那么用户界面42显示例如图7A-7D 所示的ROI样式的预定义ROI样式的菜单(124)。或者,用户可提供ROI描述或对ROI 样式进行划定、重新定位或重新设计大小。然而,在图ll的实例中,操作集中于呈现预 定义的ROI样式。当本地用户选择预定义的ROI样式时(126), ROI控制器52和R01 映射器54基于选定的样式定义ROIMB映射(128)。 ROI感知视频编码器46将ROI MB 映射内嵌在经编码的近端视频内并将ROI MB映射传输到远程视频通信装置14 (130) 以用于优先编码远端视频中的ROI。
图12是说明通过扩展和收縮ROI模板132来定义所显示的视频场景34中的ROI样 式的图。图12大体上对应于图2,但说明可由用户重新设计大小的ROI模板132的呈现。 在图12的实例中,可通过对ROI模板的转角的一者进行转角拖动以扩展和收縮ROI模 板来对ROI模板132重新设计大小。转角拖动以扩展ROI模板132的结果由经扩展的 ROI模板134表示。转角拖动导致ROI模板132的大小增加或减小,但维持相对的长宽 縮放比例。然而,在一些实施例中,也可允许用户拖动ROI模板132的一侧以便增加或 减小ROI模板的大小,同时还改变长宽縮放比例。可使用铁笔结合触摸屏幕或使用与视 频通信装置12的用户界面42相关联的另一指向装置来实现拖动。其它指向装置可包含 操纵杆、触摸垫、滚轮、跟踪球等。
图13是说明通过拖动ROI模板132来定义所显示的视频场景中的ROI样式的图。 明确地说,图13展示通过将ROI模板拖动到视频场景34内的另一位置135来重新定位 ROI模板132。可通过铁笔和触摸屏幕或与用户界面42相关联的另一指向装置来实现拖 动。
图14是说明通过用铁笔138在触摸屏幕上划定ROI样式136来定义所显示的视频场 景中的ROI样式的图。在图14的实例中,通过徒手描绘来产生ROI样式136。 ROI控制 器52和ROI映射器54协作以将与划定的ROI样式相关联的坐标转换成MB映射,所述 MB映射识别视频场景34内的大致落在ROI样式136内的MB。如图12、 13和14所示 的ROI样式的定义可适用于近端视频或远端视频内的ROI。
图15是说明使用具有待动态跟踪的指定的ROI对象的下拉式菜单140来定义所显示 的视频场景中的ROI样式的图。如图15所示,用户界面42呈现下拉式菜单140,其呈 现例如"脸部"、"唇部"、"背景"和"移动"的ROI描述。本地用户选择下拉式菜单中
的条目之一作为所需的ROI描述。作为响应,ROI提取模块60 (图4)视情况分析近端 视频或远端视频,以检测对应于描述的ROI样式。作为下拉式菜单140的替代,用户可 经由用户界面42输入文本或向麦克风口头说出文本。在每一情况下,使用例如皮肤-色 调检测、对象分割或类似技术的常规的特征检测算法来使选定的ROI与适当的ROI样式 匹配。当选定ROI样式时,ROI控制器52和ROI映射器54产生适当的ROIMEI映射。 图15中的过程称为"动态的",是指每一ROI描述必须动态地与考虑中的特定视频场景 内的ROI样式匹配。
图16是说明使用具有映射到如图7A-7D中的预定义的ROI样式的指定的ROI对象 的下拉式菜单142来定义所显示的视频场景中的ROI样式的图。如图16所示,用户界面 42呈现下拉式菜单142,其呈现例如"单一脸部"、"双脸部"、"头部/肩部"和"对象" 的ROI描述。本地用户选择下拉式菜单中的条目之一作为所需的ROI样式。作为响应, ROI控制器52使选定的ROI样式与相应的预定义的ROI样式(如图7A-7D中描绘的ROI 样式)匹配。因此,不同于图15所示的ROI描述,静态ROI样式不需要视频分析。事 实上,ROI控制器52和ROI映射器54产生对应于下拉式菜单142中的选择的预配置的 ROIMB映射。再次,作为下拉式菜单142的替代,用户可经由用户界面42输入文本或 向麦克风口头说出文本。图15中的过程称为"静态的",是指每一ROI样式对应于预定 义的ROI样式和MB映射。
图17是说明使用ROI描述界面来定义所显示的视频场景中的ROI样式的流程图。 图17所示的过程可与图15的下拉式菜单或其它输入媒体结合使用。如图17所示,ROI 感知视频解码器48解码从远程发送者装置14接收的远端视频(144)。用户界面42接着 向本地用户显示远端视频(146)。如果本地用户不请求对于远端视频的ROI选择(148), 那么不将任何ROI信息发送到远程视频通信装置14。然而,如果请求了 ROI选择(148), 那么用户界面42呈现例如图17的下拉式菜单140的ROI描述界面(150)。
当接收到本地用户ROI描述时(152), ROI控制器52和ROI映射器54基于描述选 择ROI样式(154)并基于选定的ROI样式定义ROI MB映射(156)。再次,可通过使 用常规检测技术分析远端视频并使ROI描述与远端视频内的特定MB匹配来确定选定的 ROI样式。当产生远端ROIMB映射时,ROI感知视频编码器12将远端ROIMB映射内 嵌在经编码的近端视频中并将其传输到远程视频通信装置14以用于优先编码远端ROI。
图18是说明发送者与接收者装置12、 14之间的ROI冲突的解决的流程图。明确地 说,图18说明验证模块58 (图3或图4)解决由本地用户指定的近端ROI与由远程用户
指定的近端ROI之间的冲突的操作。当在发送者装置处产生近端视频时(160),验证模 块58确定近端ROI是否已由本地用户或远程用户请求(162)。如果不是,那么正常编码 所有MB (164)而不优先编码ROI,且将所产生的经编码的视频发送到接收者视频通信 装置14 (166)。
如果请求了近端ROI (162),那么验证模块58确定由本地用户指定的近端ROI与由 远程用户指定的近端ROI之间是否存在冲突(168)。如果未指定远程近端ROI,或如果 本地与远程近端ROI —致,那么验证可将选定的近端ROI传递到ROI控制器52以进行处理。
如果不存在本地近端ROI,但已选择远程近端ROI,那么验证模块58可允许应用远 程近端ROI。或者,在一些实施例中,仅当通过本地用户交互或通过地址簿中记录的存 取等级而向远程用户授予了明确存取权时,验证模块58才可允许应用远程近端R01。如 果不存在ROI冲突,那么ROI映射器54基于适用的近端ROI产生近端MB映射并将其 施加到ROI感知视频编码器46。 ROI感知视频编码器46接着优先编码近端视频的ROI 内的MB (172)。
如果本地与远程近端ROI之间存在冲突(168),那么验证模块58确定例如在视频通 信装置12内本地存储的地址簿中是否已分派了存取等级(174)。如果分派了存取等级 (174),那么验证模块58根据存取等级解决ROI冲突(176)。举例来说,针对远程用户 而存储的存取等级可指示应超越于本地用户而向远程用户授予ROI控制权。如果未分派 存取等级(174),那么验证模块58从本地用户处寻求对远程ROI控制的许可(178)。明 确地说,验证模块58可经由用户界面42提交询问以请求批准远程用户进行近端ROI控 制。
如果本地用户给予批准,那么验证模块58将远程近端ROI传递到ROI控制器52以 进行处理。如果未给予批准,那么ROI控制器52处理本地近端ROI。在任一情况下, ROI感知视频编码器46使用选定的ROI来优先编码近端视频内的落在所述ROI内的MB (172),并将经编码的近端视频读出到远程接收者装置14 (166)。在一些情况下,验证 模块58不仅可解决本地用户与远程用户之间的ROI冲突,而且可能解决若干远程用户之 间的ROI冲突。本地用户可主动地向远程用户中的一者授予控制近端ROI的存取权,或 分派将各个远程用户的ROI控制权区分优先次序的相对存取等级。通常,专门向一个用 户(例如,本地用户,或远程用户中的一者)授予控制ROI的存取权。
图19是说明远端视频内的R0I宏区块的优先解码的流程图。如图19所示,当从远
程发送者装置14接收到远端视频时(180),本地接收者装置12中的ROI感知视频解码 器48确定远程R0I是否已由本地用户指定(182)。如果不是,那么ROI感知视频解码 器48正常编码远端视频中的所有MB(184)。然而,如果远端ROI信息由本地用户指定, 那么ROI感知视频解码器48优先解码所接收的远端视频中的ROIMB (186)。可通过相 对于应用于非ROI MB的内插等式和误差隐蔽技术,应用较高质量内插等式或较健壮的 误差隐蔽技术来优先解码ROI MB。优先解码可包含例如较高质量解块或去鸣振滤波器 的优先后处理。
本文描述的技术可实施在硬件、软件、固件或其任何组合中。如果实施在软件中, 那么可通过计算机可读媒体来部分实现所述技术,所述计算机可读媒体包括含有指令的 程序代码,所述程序代码当执行时会进行上文描述的方法中的一种或一种以上方法。在 此情况下,计算机可读媒体可包括例如同步动态随机存取存储器(SDRAM)的随机存取 存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除 可编程只读存储器(EEPROM)、 FLASH存储器、磁性或光学数据存储媒体等。
程序代码可由一个或一个以上处理器执行,所述一个或一个以上处理器例如一个或 一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程 逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。在一些实施例中,本文描述的功能 性可提供在经配置以用于编码和解码的专门软件模块或硬件单元内,或并入在组合的视 频编解码器(CODEC)中。
已描述各种实施例。这些和其它实施例在所附权利要求书的范围内。
权利要求
1.一种方法,其包括从用户处接收对由本地装置产生的近端视频内的关注区(ROI)的描述;基于所述描述产生指定所述ROI的信息;以及基于所述指定所述ROI的信息来编码所述近端视频以增强所述近端视频的ROI相对于非ROI区域的图像质量。
2. 根据权利要求1所述的方法,其中所述描述是文本描述。
3. 根据权利要求l所述的方法,其中所述描述是口头描述。
4. 根据权利要求3所述的方法,其进一步包括通过语音识别来处理所述口头描述,和 基于一个或一个以上经识别的项来产生所述指定所述ROI的信息。
5. 根据权利要求l所述的方法,其中所述描述是图形描述。
6. 根据权利要求5所述的方法,其中所述图形描述是作为所述用户划定在用户界面屏 幕上的区域而接收的。
7. 根据权利要求l所述的方法,其进一步包括从本地装置的用户接收所述描述,和在 所述本地装置内处理所述描述以产生所述指定所述ROI的信息。
8. 根据权利要求1所述的方法,其进一步包括从本地装置的用户接收所述描述,和在 不同于所述本地装置的中间服务器内处理所述描述以产生所述指定所述ROI的信息。
9. 根据权利要求l所述的方法,其进一步包括从远程装置的用户接收所述描述,其中 所述描述界定关于由所述本地装置编码的近端视频的所述ROI,且其中所述指定所 述ROI的信息内嵌在从所述远程装置接收的经编码远端视频内。
10. 根据权利要求l所述的方法,其进一步包括从远程装置的用户接收所述描述,其中 所述描述界定关于由所述本地装置编码的近端视频的所述ROI,且其中通过带外信 令从所述远程装置接收所述指定所述ROI的信息。
11. 根据权利要求l所述的方法,其进一步包括产生指定从所述远程装置接收的经编码 远端视频内的ROI的信息,和将所述ROI信息和所述经编码的近端视频一起传输到 所述远程装置。
12. 根据权利要求l所述的方法,其进一步包括解码从所述远程装置接收的经编码远端 视频以增强所述远端视频中的ROI区域相对于所述远端视频的非ROI区域的图像质量。
13. 根据权利要求1所述的方法,其进一步包括基于所述指定所述ROI的信息来产生宏 区块(MB)映射,所述MB映射识别处于所述ROI内的MB。
14. 根据权利要求l所述的方法,其进一步包括从本地装置的用户接收所述描述,其中所述描述界定关于由所述本地装置编码的 近端视频的所述ROI:监视与所述经编码近端视频相关联的运动信息; 基于所述运动信息来调节所述ROI;以及 基于所述经调节的ROI来编码所述近端视频。
15. 根据权利要求14所述的方法,其进一步包括基于所述指定所述ROI的信息来产生 宏区块(MB)映射,所述MB映射识别处于所述ROI内的MB,且其中调节所述 ROI包含基于所述运动信息将MB的状态修改为包含在所述ROI中或排除在所述 ROI夕卜。
16. —种视频编码装置,其包括-关注区(ROI)引擎,其接收对由所述装置编码的近端视频内的关注区(ROI)的 描述,并基于所述描述产生指定所述ROI的信息;以及视频编码器,其编码所述近端视频以增强所述视频的ROI相对于非ROI区域的图像质量。
17..根据权利要求16所述的装置,其中所述描述是文本描述。
18. 根据权利要求16所述的装置,其中所述描述是口头描述。
19. 根据权利要求18所述的装置,其进一步包括提取模块,所述提取模块通过语音识 别来处理所述口头描述,并基于一个或一个以上经识别的项来产生所述指定所述 ROI的信息。
20. 根据权利要求16所述的装置,其中所述描述是图形描述。
21. 根据权利要求20所述的装置,其中所述图形描述是作为所述用户划定在用户界面 屏幕上的区域而接收的。
22. 根据权利要求16所述的装置,其中所述ROI引擎从所述装置的用户接收所述描述, 其中所述描述界定关于所述近端视频的所述ROI。
23. 根据权利要求16所述的装置,其中所述ROI引擎将所述描述传输到中间服务器以 用于产生所述指定所述ROI的信息。
24. 根据权利要求16所述的装置,其中所述ROI引擎从远程视频通信装置的用户接收 所述描述,所述描述界定关于由所述视频通信装置编码的近端视频的所述ROI,且 所述指定所述ROI的信息内嵌在从所述远程装置接收的经编码远端视频内。
25. 根据权利要求16所述的方法,其中所述ROI引擎从远程视频通信装置的用户接收 所述描述,所述描述界定关于由所述视频通信装置编码的近端视频的所述ROI,且 通过带外信令从所述远程装置接收所述指定所述ROI的信息。
26. 根据权利要求25所述的装置,其中所述ROI引擎产生指定从所述远程装置接收的 经编码远端视频内的ROI的信息,并将所述ROI信息和所述经编码近端视频一起传 输到所述远程装置。
27. 根据权利要求16所述的装置,其进一步包括视频解码器,所述视频解码器解码从 所述远程装置接收的经编码远端视频以增强所述远端视频中的ROI区域相对于所述 远端视频的非ROI区域的图像质量。
28. 根据权利要求16所述的装置,其进一步包括基于所述指定所述ROI的信息来产生 宏区块(MB)映射,所述MB映射识别处于所述ROI内的MB。
29. 根据权利要求16所述的装置,其进一步包括跟踪模块,所述跟踪模块监视与所述 经编码近端视频相关联的运动信息,并基于所述运动信息来调节所述ROI,其中所 述编码器基于所述经调节的ROI来编码所述近端视频。
30. 根据权利要求29所述的装置,其进一步包括映射器模块,所述映射器模块基于所 述指定所述ROI的信息来产生宏区块(MB)映射,所述MB映射识别处于所述ROI 内的MB,其中所述跟踪模块通过基于所述运动信息将MB的状态修改为包含在所 述ROI中或排除在所述ROI外来调节所述ROI。
31. —种计算机可读媒体,其包括指令以促使处理器从用户处接收对由本地装置产生的 近端视频内的关注区(ROI)的描述,基于所述描述产生指定所述ROI的信息,并 基于所述指定所述ROI的信息来编码所述近端视频以增强所述近端视频的ROI相对 于非ROI区域的图像质量。
32. 根据权利要求31所述的计算机可读媒体,其中所述描述是文本描述。
33. 根据权利要求31所述的计算机可读媒体,其中所述描述是口头描述。
34. 根据权利要求33所述的计算机可读媒体,其中所述指令促使所述处理器通过语音 识别来处理所述口头描述,并基于一个或一个以上经识别的项来产生所述指定所述 ROI的信息。
35. 根据权利要求31所述的计算机可读媒体,其中所述描述是图形描述。
36. 根据权利要求35所述的计算机可读媒体,其中所述图形描述是作为所述用户划定 在用户界面屏幕上的区域而接收的。
37. 根据权利要求31所述的计算机可读媒体,其中所述指令促使所述处理器从本地装 置的用户接收所述描述。
38. 根据权利要求31所述的计算机可读媒体,其中所述指令促使所述处理器在所述本 地装置内产生所述指定所述ROI的信息。
39. 根据权利要求31所述的计算机可读媒体,其中所述指令促使所述处理器从远程装 置的用户接收所述描述,其中所述描述界定关于由所述本地装置编码的近端视频的 所述ROI。
40. 根据权利要求31所述的计算机可读媒体,其中所述描述内嵌在从所述远程装置接 收的远端视频内。
41. 根据权利要求31所述的计算机可读媒体,其中通过带外信令从所述远程装置接收 所述描述。
42. 根据权利要求31所述的计算机可读媒体,其中所述指令促使所述处理器产生指定 从所述远程装置接收的经编码远端视频内的ROI的信息,并将所述ROI信息和所述 经编码的近端视频一起传输到所述远程装置。
43. 根据权利要求42所述的计算机可读媒体,其中所述指令促使所述处理器解码从所 述远程装置接收的所述经编码远端视频以增强所述远端视频中的ROI区域相对于所 述远端视频的非ROI区域的图像质量。
44. 根据权利要求31所述的计算机可读媒体,其中所述指令促使所述处理器基于所述 指定所述ROI的信息来产生宏区块(MB)映射,所述MB映射识别处于所述ROI 内的MB。
45. 根据权利要求31所述的计算机可读媒体,其中所述指令促使所述处理器从本地装 置的用户接收所述描述,所述描述界定关于由所述本地装置编码的近端视频的所述 ROI,且所述指令促使所述处理器监视与所述经编码近端视频相关联的运动信息, 基于所述运动信息来调节所述ROI,并基于所述经调节的ROI来编码所述近端视频。
46. 根据权利要求45所述的计算机可读媒体,其中所述指令促使所述处理器基于所述 指定所述ROI的信息来产生宏区块(MB)映射,所述MB映射识别处于所述ROI 内的MB,且所述指令促使所述处理器通过基于所述运动信息将MB的状态修改为 包含在所述ROI中或排除在所述ROI外来调节所述ROI。
47.—种视频编码系统,其包括第一视频通信装置,其编码近端视频;第二视频通信装置,其从所述第一视频通信装置接收所述近端视频,其中所述第 二视频通信装置产生对由所述第一视频通信装置产生的所述近端视频内的关注区 (ROI)的用户描述;中间服务器,其结构上不同于所述第一和第二视频通信装置,且其基于所述描述 产生指定所述ROI的信息,其中所述第一视频通信装置基于所述指定所述ROI的信息来编码所述近端视频以 增强所述近端视频的ROI相对于非ROI区域的图像质量。
全文摘要
本揭示案针对用于视频电话(VT)应用的关注区(ROI)处理技术。根据所述揭示的技术,接收者装置界定由发送者装置传输的视频信息(即远端视频信息)的ROI信息。所述接收者装置将所述ROI信息传输到所述发送者装置。所述发送者装置使用由所述接收者装置传输的所述ROI信息对视频场景内的ROI应用优先编码。可应用ROI提取来处理对关注区(ROI)的用户描述以基于所述描述产生指定所述ROI的信息。所述用户描述可基于文本、图形或语音。提取模块应用适当处理以从所述用户描述中产生所述ROI信息。所述提取模块可驻存在视频通信装置本地,或驻存在经配置以进行ROI提取的不同的中间服务器中。
文档编号H04N7/26GK101171841SQ200680014872
公开日2008年4月30日 申请日期2006年3月8日 优先权日2005年3月9日
发明者哈立德·希勒米·厄勒-马列, 李彦辑, 蔡明章 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1