带有视频时间上变换的处理方法和设备的制作方法

文档序号:7638652阅读:220来源:国知局
专利名称:带有视频时间上变换的处理方法和设备的制作方法
带有视频时间上变换的处理方法和设备 发明领域本发明涉及可视通信系统,具体地,本发明涉及一种用于在可视电话系统中提供时间的上变换(temporal up-convers ion )以便增强可视图像 质量的方法和设备。发明背景一般来说,视频质量对于可视电话应用的全球接受性而言是一个关键 特征。极其关键和重要的是可视电话系统把在另一侧的情景尽可能精确 地带给最终用户,以便增强用户的情境意识(situational awareness) 且由此增强视频呼叫的感知质量。虽然电视会议系统自从多年前被首次引入以来已经得到了相当大的 关注,但它们一直没有变得非常流行,而且还没有出现这些系统的广泛突 破。这大体上是由于以下原因通信带宽的不充足的可利用性导致视频和 音频传输的不可接受地又低又差的质量,诸如低的分辨率、斑驳的图像和 长的延迟。然而,新近的能够提供足够通信带宽的技术创新正变得更广泛地可用 于越来越多数量的最终用户。而且,带有集成的显示器、相机、话筒、扬 声器的强大计算系统一一诸如PC、移动设备等等一一的可用性正快速增 长。由于上述的这些原因,人们可以预期在消费者电视会议系统的使用和 应用中的一个突破和更高的质量前景,因为电视会议解决方案的视听质量 变成了在这个大需求的市场上最重要的区别因素之一。一般地说,已提出和实现了许多用于改进电视会议图像的传统算法和具体地,这样的建议(参阅例如 S. Daly等人的"Face-Based Visually-Optimized Image Sequence Coding (基于面部的视觉优化的图 像序列编码)",0-8186-8821-1/98,第443-447页,IEEE)旨在基于对感 兴趣区域(ROI)和不感兴趣区域(RONI)的选择来改进^L频编码效率。特別 地,所建议的编码以这样一种方式被执行,即大多数比特被分派给ROI 而较少的比特被分派给RONI。因此,总的比特速率保持为恒定的,但在解码后,ROI图像的质量高于R0NI中图像的质量。其它的建议,诸如Bober 等人的US 2004/0070666 Al,主要提出在应用视频编码之前的智能变焦技 术,使得相机视场中的人通过数字手段而放大,以致不相关的背景图像部 分不被传送。换句话说,这种方法通过只编码每个所捕获图像的经选择的 感兴趣区域而传送图像。然而,以上所描述的传统技术由于多种因素而并不经常令人满意。并 未对所捕获的图像执行进一 步的处理或分析以抗衡在视频通信系统的传 输中对图像质量有害的影响。而且,虽然改进的编码方案可能给出可接受 的结果,^旦它们不能独立地全面(across the board)应用于所有的编码 方案,并且这样的技术需要首先实施特定的视频编码和解码技术。另外, 这些技术中没有 一个技术适当地解决了电视电信会议呼叫的较低情境意 识和较差感知质量的问题。发明内容因此,本发明的目的是提供一种有效地应对图像质量增强的新的和改 进的方法和设备,它解决了上述的问题,并可以是成本经济的和简单易行的。为此,本发明涉及一种处理视频图像的方法,它包括以下步骤检测 在视频应用的图像中的至少 一个人;估计与图像中所检测到的人相关联的 运动;把图像分割成至少一个感兴趣区域和至少一个不感兴趣区域,其中 感兴趣区域包括图像中所检测到的人;以及通过在感兴趣区域中使用比在 不感兴趣区域中所应用的更高的帧速率,而对包括该图像的视频信号施加 时间帧处理。还可以包4舌一个或多个以下的特征。在本发明的 一个方面,时间帧处理包括对感兴趣区域施加的时间帧上 变换处理(temporal frame-up conversion processing )。在另 一 个方面,时间帧处理包括对不感兴趣区域施加的时间帧下变换 处理(temporal frame down-convers ion processing )。在又一个方面,该方法还包括把来自时间帧上变换处理步骤的输出信 息与来自时间帧下变换处理步骤的输出信息相组合,以生成增强的输出图像。而且,可视图像质量增强步骤可以在与该图像相关联的视频信号的或 是传送端处或是接收端处执行。而且,检测在视频应用的图像中所识别的个人的步骤可包括检测图像 中的嘴唇活动,以及检测图像中的音频语音活动。另外,对感兴趣区域施 加时间帧上变换处理的步骤可以仅仅在检测到嘴唇活动和/或音频语音活 动时才实行。在其它方面,该方法还包括把图像分割成至少第一感兴趣区域和第二 感兴趣区域,选择第 一感兴趣区域以通过增加帧速率来施加时间帧上变换 处理,并且维持第二感兴趣区域的帧速率不变。本发明还涉及一种被配置来处理视频图像的设备,其中该设备包括 检测模块,配置来检测在视频应用的图像中的至少一个人;运动估计模块, 配置来估计与图像中所检测到的人相关联的运动;分割模块,配置来把图 像分割成至少一个感兴趣区域和至少一个不感兴趣区域,其中感兴趣区域 包括图像中所检测到的人;以及至少一个处理模块,配置来通过在感兴趣 区域中使用比在不感兴趣区域中所应用的更高的帧速率、而对包括该图像 的视频信号施加时间帧处理。在从属权利要求中还叙述了该方法和设备的其它特征。实施例可以具有 一 个或多个以下的优点。本发明通过使得与参加者或正在讲话的人相关联的可视图像相对于 图像的其余部分更加清晰,而有利地增强了电视会议系统对于相关图像部 分的视觉感知,并且提高了情境意识水平。而且,本发明可应用于传送端,这导致较高的视频压缩效率,因为相 对多的比特被分派给增强的感兴趣区域(ROI)而相对少的比特被分派给不 感兴趣区域(R0NI),导致在相同的比特速率下对于重要的和相关的视频 数据诸如面部表情等的改进的传输处理过程。另外,本发明的方法和设备允许与可视电话实现中可使用的任何编码 方案相独立的应用。本发明不需要视频编码也不需要视频解码。而且,本 方法可以在可视电话的相机一侧应用于改进的相机信号,或者它可以在显 示器一侧应用于改进的显示信号。所以,本发明在传送端和接收端都可以 被应用。作为又 一 个优点,用于检测面部的识别处理过程可以通过组合各种面 部检测技术或模态(modality)——诸如嘴唇活动检测器和/或音频定位(audio localization)算法--而被做得更鲁棒和更防失败(failproof)。另外,作为另一个优点,可以保护和节省计算,因为仅仅在ROI中施加运动补偿内插。
所以,通过本发明的实现,视频质量大大地增强,通过提高个人的情 境意识并由此提高视频呼叫的感知质量,而有助于可视电话应用的更好的 接受。特别是,本发明能够传送更高质量的面部表情,以用于图像的增强 的可懂度,和用于运送不同类型的面部情绪和表情。通过提高这种类型的 在当今组中的情境意识,电视会议应用相当于增加了用途和可靠性,特别 是当电话会议的参加者或个人例如不熟悉其它参加者时。
参考在以下的说明、附图中所描述的实施例以及根据权利要求,本发 明的这些和其它方面将变得明白并且将得以阐明。


图l是按照本发明的、用于图像质量增强的改进方法的其中一个实施
例的示意性功能框图2是按照图1的、用于图像质量增强的改进方法的其中一个实施例 的流程图3是按照本发明的、用于图像质量增强的改进方法的另一个实施例 的流程图4是按照本发明的、用于图像质量增强的改进方法的另一个实施例 的流程图5是按照本发明的、用于图像质量增强的改进方法的另一个实施例 的流程图6是按照本发明的、用于图像质量增强的改进方法的另一个实施例 的示意性功能框图7是按照本发明的、对于多人电视会议会话而显示的用于图像质量 增强的示意性功能框图8是按照本发明的、对于多人电视会议会话而显示的用于图像质量
增强的另 一 个示意性功能框图9是一个流程图,它图示了按照图8的、在用于图像质量增强的改 进方法的其中 一个实施例中所使用的方法步骤;
图10显示作为示例的情形从视频应用取得的典型的图像;
图ll显示按照本发明的、面部跟踪机制的实现;
图12图示了 R0I/R0NI分割处理过程的应用;图13图示了基于头部和肩部模型的R0I/R0NI分割;图14图示了按照本发明的其中一个实施例的帧速率变换;以及图15图示了在ROI和RONI区域之间的边界区域中实施的优化技术。优选实施例说明本发明应对例如在可视电话系统中图像内的人的感知增强以及电视 电信会议会话的情境意识的增强。参照图1,相对于把图像质量增强施加到例如单人电视会议会话来解释本发明的本质特征。在传送端,"视频入"10信号(Vin)被输入到相机,并变为被记录的相机信号。另一方面,"视频出"12信号是将被编码和传送的 信号V^。换句话说,在接收端,信号IO是接收的和解码的信号,而信号 12被发送到最终用户的显示器。为了实施本发明,需要应用图像分割技术来对包含会议呼叫的参加者 的ROI进行选择。所以,可以使用面部跟踪模块14来在图像中寻找有关 面部位置和尺寸的信息20。各种面部检测算法在本领域是为人熟知的。例 如,为了在图像中找出人的面部,可以使用肤色检测算法或肤色检测与椭 圓形目标边界搜索的组合。替换地,可以使用搜索图像中关键特征的附加 方法来识别面部。所以,在本发明中可以整合许多用来寻找和应用有效目标分类器的可用的鲁棒方法。在识别图像中参加者的面部之后,使用运动估计模块16来计算运动 矢量域18。此后,利用有关面部位置和尺寸的信息20,例如通过使用简 单的头部和肩部模型来围绕参加者执行R0I/R0NI分割模块22。替换地, 可以在逐块的基础上使用运动检测(不是运动估计)来跟踪ROI。换句话说, 通过把在其中检测到运动的块聚合起来而形成一个目标,让R0I是具有大 多数运动的块的目标。另外,使用运动检测的方法免除了 (save)图像处 理技术的计算复杂性。接着,进行R0I/R0NI处理。对于R0I段24,在R0I段24内像素通过 用于视觉增强的时间帧速率上变换模块26而被在视觉上强调。对于R0NI 段28,这与要削弱(de-emphasized )的其余图像部分的时间帧下变换才莫 块30相组合。然后,R0I和R0NI处理的输出在重组合才莫块32中相组合, 以形成"输出,,信号12 (V。ut)。通过使用R0I/R0NI处理,R0I段24对照不太 有关的R0NI段28 ;波在视觉上被改进,并产生更重要的前景。40图示了在图l上所描述的本发明的基本步骤。在第一"输入"步骤42,即,视频信号^f皮输入到相机,并变为^f皮记录的相机 信号。接着,通过使用多个现有的算法而在面部跟踪模块14 (图1所示) 中执行面部检测步骤44。此外,实行运动估计步骤46来生成(48)运动矢 量,它们稍后分别被需要来对ROI或RONI进行上变换或下变换。如果在步骤44中已经检测到面部,则执行ROI/RONI分割步骤50,这 导致对于ROI段的生成步骤52和对于R0NI的生成步骤54。 ROI段然后经 受使用由步骤48生成的运动矢量的运动补偿帧上变换步骤56。类似地, R0NI段经受帧下变换步骤58。随后,经处理的ROI和R0NI段在组合步骤 60中被组合,以便在步骤62中产生输出信号。另外,在面部检测步骤44 中,如果还没有检测到面部,则在步骤64(测试"下变换吗?"),如果图像 要受到下变换处理,则执行下变换步骤66。另一方面,如果图像要维持不 变,则无需步骤66,仅仅继续进行到步骤62 (直接连接),以生成未经 处理的输出信号。现在参照图3到5,提供对于图2的方法步骤的附加的优化。取决于 电视电信会议的参加者是否正在讲话,ROI上变换处理过程可被修改和优 化。在图3上,流程图70图示了与图2所描述的流程图40上的相同的步 骤,在面部检测步骤44之后有附加的嘴唇检测步骤71。换句话说,为了 识别谁在讲话,人们可以在视频图像中施加嘴唇活动检测,以及可以通过 使用图像序列中的嘴唇活动检测来测量语音活动检测。例如,可以使用用 于自动读唇的传统技术或各种各样的视频嘴唇活动检测算法来测量嘴唇 活动。因此,当与在传送端和接收端都可以使用的其它模态相组合时,用 于嘴唇活动检测机制的步骤71的添加使得面部跟踪或检测步骤44更鲁 棒。这样,目的是仅在个人或参加者正在讲话的情况下,才通过向R0I段 给予增加的帧速率而在视觉上支持语音活动的发生。图3还显示仅仅当嘴唇检测步骤71为肯定(Y)时才实行ROI上变换步 骤56。如果没有嘴唇检测,则流程图70继续进行到下变换步骤64,其最 终导致生成视频出信号的步骤62。现在参照图4,在流程图80上,实施附加^t态。由于面部跟踪或检测 步骤44不能被保证总是无错误的面部检测,所以它可能在没有发现真人 的地方识别一个面部。然而,通过将面部跟踪和^:测的^支术与诸如嘴唇活 动(图3)和音频定位算法那样的模态相组合,面部跟踪步骤44可被做成更鲁棒的。所以,图4加上了使用音频入步骤81、后跟音频检测步骤82的 优化,音频;险测步骤82与^f见频入步骤42和面部;f全测步骤44并^"地同时 工作。换句话说,当因为有人正在谈话而可得到音频时,可以使用语音活动 检测器。例如,可以使用一个基于对音频信号中非稳态事件的检测的、与 音调检测器相组合的语音活动检测器。在传送端,也就是,在音频入步骤 81,"音频入"信号是话筒输入。在接收端,"音频入"信号是所接收并 解码的音频。所以,为了音频活动检测的增加的确定性,对于各个检测器 输出,通过逻辑与(AND)来执行组合的音频/视频语音活动检测。同样地,图4显示了仅仅当音频检测步骤82肯定地检测到音频信号 时才实行流程图80上的ROI上变换步骤56。如果已经检测到音频信号, 则跟在面部的肯定检测之后执行R0I/R0NI分割步骤50,后随的是ROI上 变换步骤56。然而,如果还没有检测到音频语音,则流程图80继续进行 到下变换步骤64,这最终导致生成视频出信号的步骤62。参照图5,流程图90图示了实施音频语音活动和视频嘴唇活动检测处 理过程的组合。因此,图3和图4组合地导致流程图90,提供了用于识别 或检测感兴趣的个人或参加者并正确地分析ROI的非常鲁棒的手段。此外,图6显示了用于被应用到 一人电视会议会话的图像质量增强的、 实施音频语音检测和视频嘴唇活动检测步骤的流程图90的示意性功能框 图。类似于图l所描述的功能特征,在传送端,输入信号IO(VJ被输入到 相机/输入设备,并变为被记录的相机信号。"音频入"输入信号(Ain)ll 沿相同的线路被输入,并且应用音频算法模块13来检测是否可以检测到 任何语音信号。同时,嘴唇活动检测模块15分析视频入信号,以确定在 接收的信号中是否有任何嘴唇活动。因此,如果音频算法模块l3产生一 个真或假语音活动标志17,其证实为真,则ROI上变换模块26刚一接收 到R0I段24,就为该ROI段24执行帧速率上变换。同样地,如果嘴唇活 动检测模块15检测出 一个真或假嘴唇活动标志19为真,则刚一接收到ROI 段24,模块26就为该ROI段24执行帧速率上变换。现在参照图7,如果在传送端,多个话筒是可用的,则可以实施非常 鲁棒的和有效的方法来寻找讲话人的位置。也就是,为了增强对人的检测 和识别,特别是识别正在讲话的多个人或参加者,音频和视频算法的组合 是非常有力的。特别是在传送端,这可以在多感觉(multi-sensory )的音频数据(而不是单音频)可用时被应用。替换地,为了使系统还要更加鲁 棒和能够精确地识别正在讲话的那些人,人们可以在视频中应用嘴唇活动 ;险测,这既可以在传送端也可以在^l妄收端应用。在图7上,对于多人可视电话会议会话,显示了用于图像质量增强的示意性功能框图。当在传送端存在多个人或参加者时,面部跟踪模块14 可以找出一个以上的面部,比如il总共N个(x N)。对于由面部跟踪;漠块 14检测到的N个面部中的每个面部,即,对于N个面部位置和尺寸中的每 个面部位置和尺寸,生成多人ROI/RONI分割模块22N(22-l, 22-2, ..., 22N), 以用于例如根据头部和肩部^f莫型再次对于N个面部产生的每个ROI和RONI 段。在检测到两个ROI的事件中,ROI选择模块2 3接着根据音频算法模块 1 3的结果来执行对ROI的选择,这些ROI必须被处理以用于图像质量增强, 该音频算法模块13输出该声音源或多个声音源的位置(x,y坐标)(连接21 给出声音源的(x,y)位置),包括语音活动标志17,包括嘴唇活动检测模块 15的结果,即嘴唇活动标志19。换句话说,对于多话筒会议系统,多个 音频输入在接收端可用。然后,结合音频算法来应用嘴唇活动算法,也可 以确定语音或音频所来自的方向和位置(x,y坐标)。这个信息可以相关于 瞄准预定的ROI,他是图像上当前正在讲话的参加者。这样,当面部跟踪模块14检测到两个或多个ROI时,ROI选择模块 23选择与正在讲话的人相关联的ROI,以使得正在讲话的这个人可被给予 最大的视觉增强,让电信会议会话的其余人或参加者受到对照RONI背景 的小的强调。此后,通过使用由运动估计模块16输出的信息,分开的ROI和RONI 段经受图像处理步骤,由ROI上变换^^莫块26在帧速率上变换中对ROI执 行,以及由RONI下变换才莫块30在帧速率下变换中对RONI执行。而且, ROI段可包括由面部跟踪才莫块14检测到的全部数目的个人。假设远离讲话 器的个人不参加电视电信会议呼叫,则ROI可以只包括这样的所检测到的 面部或个人,即经对所检测到的面部尺寸的检查而是足够近的,以及其 面部尺寸大于图像尺寸的一定的百分比。替换地,ROI段可以只包括正在 讲话的人、或者最后讲话的人_从那时起再没有其它人讲话。现在参照图8,其图示了对于多人电视会议会话而显示的、用于图像 质量增强的另一个示意性功能框图。ROI选择模块23选择两个ROI。这可以是由这样的事实引起的因为第一 ROI段24-1是与正讲话的参加者或 个人相关联的,而第二 ROI段24-2是与已检测到的其余参加者相关联的, 所以这两个ROI已^皮区分。如所示的,第一 ROI段24-1由R0I-1上变换 模块26-1进行时间上变换,而第二 ROI段24-2是维持不变的。正如先前 的图5和6的情形那样,R0NI段28也可以由R0NI下变换才莫块30进行时 间下变换。参照图9,流程图100图示了在上面参照图8描述的、用于图像质量 增强的方法的其中一个实施例中所使用的步骤。事实上,流程图100图示 了在图8上所示的、也参照图2到5予以描迷的各种模块所遵循的基本步 骤。依靠这些步骤,在第一"视频入"步骤42中,即,视频信号被输入到 相机,并变为被记录的相机信号。这后面跟随的是面部检测步骤44和 R0I/R0NI分割步骤50,它导致数目为N的、用于ROI段的生成步骤52和 用于R0NI段的生成步骤54。用于ROI段的生成步骤52包括用于R0I —1段 的步骤52a、用于R0I_2段的步骤52b等等、以及用于R0I_N段的步骤"N。接着,在面部检测步骤44和R0I/R0NI分割步骤50之后实行嘴唇检 测步骤71。也如图8所示,如果嘴唇检测步骤71是肯定的(Y),则实行 R0I/R0NI选择步骤102。以同样的方式,"音频入"步骤81后面跟随的 是与视频入步骤42和面部检测步骤44同时工作的音频检测步骤82,以及 嘴唇检测步骤71,以便提供更鲁棒的机制和处理过程来精确地检测感兴趣 的R0I区域。最终得到的信息在R0I/R0NI选择步骤102中被使用。随后,R0I/R0NI选择步骤102生成经选择的R0I段(104),它经受帧 上变换步骤56。 R0I/R0NI选择步骤102还生成其它的R0I段(IOO ,在步 骤64,如果使图像受到下变换分析的判决是肯定的,则对于该其它R0I段 执行下变换步骤66。另一方面,如果图像要维持不变,则仅仅继续进行到 步骤60,把由步骤56生成的时间上变换的ROI图像和由步骤54与"生 成的R0NI图像相组合,以在步骤62最终获得未经处理的"视频出"信号。现在参照图10-15,其描述了被使用来达到图像质量增强的技术和方 法。例如,将更详细地描述运动估计、面部跟踪和检测、R0I/R0NI分割、 和R0I/R0NI时间变4灸处理的处理过程。参照图10-12,其图示了例如从用web相机拍摄的序列中取得的图像110。例如,图像110可以具有176 x 144或320 x 像素的分辨率以及 介于7. 5Hz至15Hz之间的帧速率,这可以典型地是现今的移动应用的情运动估计图像110可被再划分成8 x 8亮度值的块。对于运动估计,例如可以使用3D递归搜索方法。结果是对于每个8 x 8块的二维运动矢量。这个运 动矢量可以由5(i,")表示,其中二维向量f包含8 x 8块的空间x-和y-坐 标,以及n是时间索引。在两个原始输入帧之间的某个时间实例处评价 (value)运动矢量域。为了使运动矢量域在两个原始输入帧之间的另一 个时间实例处有效,人们可以执行运动矢量的重新定时。 面部一企测现在参照图11,面部跟踪机制被使用来跟踪个人112和114的面部。 面部跟踪4几制通过找出个人112和114的肤色(面部^皮显示为加深的)而找 出面部。因此,可以使用皮肤检测器技术。椭圓120和122指示已被找到 和识别出的个人112和114的面部。替换地,面部检测是在被训练的分类 器的基础上#皮〗丸4亍,i者如在P. Viola和M. Jones, "Robust Rea卜time Object Detection (鲁才奉的实曰于目标斗全观寸),,,in Proceedings of the Second International Workshop on Statistical and Computational Theories of Vision—Modeling, Learning, Computing, and Sampling, Vancouver, Canada, July 13, 2001中给出的。基于分类器的方法具有的 优点在于,它们在对抗改变的照明条件上是更鲁棒的。另外,也可以仅检 测在所找到的面部附近的面部。个人118的面部因为头部尺寸与图像110 的尺寸相比起来太小而没有被找到。所以,个人ll8 (在这种情形下)被 正确地假设为没有参加任何电视会议呼叫。如上所述,当面部跟踪机制与来自视频嘴唇活动检测器的信息相组 合、和/或与音频源跟踪器相组合时,面部跟踪机制的鲁棒性可被改善, 其中该视频嘴唇活动检测器是在传送端和接收端都可使用的,该音频源跟 踪器需要多个话筒通道并在传送端被实施。通过使用这些技术的组合,被 面部跟踪机制错误地找到的非面部可被适当地拒绝。R0I和RON I分割参照图12, R0I/R0NI分割处理过程一皮应用到图像110。在面部;险测处 理过程后,对于在图像110中所检测到的每个面部,根据头部和肩部才莫型 来使用R0I/R0NI分割处理过程。包括个人的头部和身体l24在内的个人 112的头部和肩部轮廓124被识别和分离。这个粗略的头部和肩部轮廓H4的尺寸不是关键的,但它应当足够大,以保证个人112的身体被完全地包括在轮廓124内。此后,把时间上变换仅仅施加到这个ROI中的像素,这 个ROI也就是在头部和肩部轮廊124内的区域。 ROI和R0NI帧速率变换R0I/R0NI帧速率变换利用基于原始图像运动矢量的运动估计处理过程。现在参照图13,例如,在对于原始输入图像或画面132A(在t=(n-l)T) 和132B (在t=nT)的三个图130A-130C上,显示了基于参照图12所描述 的头部和肩部模型进行的R0I/R0NI分割。对于内插的画面134(t=(n-oc)T ;图130B),在某个位置处的像素在以下情况中属于ROI,即当在同一 位置处、在领先的原始输入画面132A中该像素属于那个画面的ROI时, 或者在同一位置处、在后随的原始输入画面132B中该像素属于那个画面 的ROI时,或二者都满足时。换句话说,在内插的画面134上的ROI区域 138B分别包括前一个和下一个原始输入画面132A和132B的ROI区域138A 和ROI区域138C。至于RONI区域140,对于内插的画面134,属于R0NI区域140的像 素只是被从前一个原始输入画面132A复制,而在R0I中的像素通过运动 补偿被内插。这可以参照图14被进一步地说明,其中T代表序列的帧周期,而n 代表整数帧索引。例如,参数oc ( (KoKl )给出例如在两个原始输入图像 132A与132B之间的内插图像134A的相对定时(在这种情形下,可以使用 ot =1/2 )。在图14上,对于内插的画面134A(且同样地,对于内插的画面1"B), 例如,标注为"p"和"q,,的像素块位于R0NI区域14Q中,且在这些块中的像 素从之前的原始图像中的同一个位置处被复制。对于内插的画面1"A,在 R0I区域138中的像素值^皮计算为一个或多个随后和在前的输入原始画面 (132A, 132B)的运动补偿的平均值。在图14上,图示了两个帧的内插。 f (a, b, a)类似于运动补偿的内插结果。可以使用用于运动补偿的内插技术 的不同方法。因此,图14显示了这样的帧速率变换技术,其中在R0I区 域138中的像素是通过运动补偿内插得到的,而在R0NI区域中的像 素是通过帧重复得到的。另外,当图像或画面的背景是静止时,在R0I与R0NI区域之间的过渡边界在最终得到的输出图像中是看不见的,因为在ROI区域内的背景像 素被用零运动矢量来内插。然而,当背景移动时——数码相机常常出现这种情形(例如,不稳的手运动),在ROI与R0NI区域之间的边界变为可 见,因为在ROI区域内背景像素是用运动补偿计算出来的,而在R0NI区域内背景像素是从在前的输入帧复制的。现在参照图15,当背景不是静止时,对于在ROI与R0NI区域之间的 边界区域中的图像质量的增强可以实施优化技术,如在图150A和150B上所示的。具体地,图15显示了对于R0I/R0NI分割在t=(n-oc)T时估计的运动 矢量域的实现。图150A图示了原始的情形,其中在RONI区域140中的背 景上有运动。在R0NI区域140中的二维运动矢量由小写字母符号 (a, b, c, d, e, f, g, h, ,k,l)表示,以及在R0I区域138中的运动矢量由大 写字母符号(A,B,C,D,E, F,G,H)代表。图150B图示了优化情形,其中R0I 138已通过线性内插的运动矢量被扩展,以便一旦背景开始移动则减轻 R0I/R0NI边界152B的可视性。如图15所示,可以通过在块网格上扩展R0I区域138 (图150B)、 且作出逐渐的运动矢量过渡和对在扩展区域中的像素也应用运动补偿内 插分析,而减轻边界区域152B的感知的可视性。为了当在背景中有运动 时进一步地削弱过渡,人们可以对R0I扩展区域154中的像素在水平和垂 直两个方向上应用模糊((blurring)滤波器(例如,[1 2 1]/4)。虽然已图示和描述了当前被认为是本发明的优选实施例的内容,但本 领域普通技术人员将会理解可以在不背离本发明的真正范围的情况下, 做出各种其它修改,以及用等同物进行替换。具体地,虽然以上的描述主要涉及到电视电信会议,但所描述的图像 质量增强方法可以应用于任何类型的视频应用,诸如在移动电话设备和平 台、家庭办公平台(比如PC)等等中实施的视频应用。另外,可进行许多先进的视频处理修改以使特定的情形适配于本发明 的教导,而不背离这里所描述的中心的创造性概念。此外,本发明的实施 例可能并不包括上述的全部特性。所以,不打算让本发明限于所公开的特 定实施例,而是本发明包括属于所附权利要求范围内的所有实施例及其等 同物。
权利要求
1.一种处理视频图像的方法,其中该方法包括-检测(44)在视频应用的图像中的至少一个人;-估计(46)与该图像中至少一个被检测到的人相关联的运动;-把该图像分割(50)成至少一个感兴趣区域和至少一个不感兴趣区域,其中该至少一个感兴趣区域包括该图像中该至少一个被检测到的人,以及-通过在该至少一个感兴趣区域中使用比在该至少一个不感兴趣区域中所应用的更高的帧速率,而对包括该图像的视频信号施加时间帧处理。
2. 权利要求l的方法,其中所述时间帧处理包括对该至少一个感兴趣 区域施加的时间帧上变换处理(56)。
3. 权利要求1或2的方法,其中所述时间帧处理包括对该至少一个不 感兴趣区域施加的时间帧下变换处理(58)。
4. 权利要求3的方法,还包括把来自时间帧上变换处理步骤的输出信 息与来自时间帧下变换处理步骤的输出信息相组合(60),以生成(62) 增强的输出图像。
5. 前述权利要求中的任一项的方法,其中视觉图像质量增强步骤是在与该图像相关联的视频信号的或传送端处或接收端处执行的。
6. 前述权利要求中的任一项的方法,其中检测在视频应用的图像中 所识别的至少 一个人包括检测(71)该图像中的嘴唇活动。
7. 前述权利要求中的任一项的方法,其中检测在视频应用的图像中 所识别的至少 一个人包括检测(82)该图像中的音频语音活动。
8. 前述权利要求6和7中的任一项的方法,其中对感兴趣区域施加时 间帧上变换处理的步骤仅仅在被检观'J到嘴唇活动和/或音频语音活动时才 实行。
9. 前述权利要求中的任一项的方法,其中该方法还包括-把图像分割(50)成至少第一感兴趣区域和第二感兴趣区域; -选择(102)该第一感兴趣区域,以通过提高帧速率来施加时间帧 上变换处理;以及-维持该第二感兴趣区域的帧速率不变。
10. 前述权利要求中的任一项的方法,其中对感兴趣区域施加时间帧 上变换处理包括提高与感兴趣区域相关联的像素的帧速率。
11. 前述权利要求中的任一项的方法,还包括在该图像的块网格(150B) 上扩展感兴趣区域,以及通过对扩展的感兴趣区域(154)中的像素施加运 动补偿内插而实行逐渐的运动矢量过渡。
12. 权利要求ll的方法,还包括通过对扩展的感兴趣区域(154)中的 像素在水平和垂直两个方向上应用模糊滤波器而削弱边界区域(152)。
13. —种配置来处理视频图像的设备,其中该设备包括-检测模块(14),配置来检测在视频应用的图像中的至少一个人; _运动估计模块(16),配置来估计与该图像中至少一个被检测到的 人相关联的运动;-分割模块(22),配置来把该图像分割成至少一个感兴趣区域和至 少一个不感兴趣区域,其中该至少一个感兴趣区域包括该图像中该至少一 个被4全测到的人;以及-至少一个处理模块,配置来通过在该至少一个感兴趣区域中使用比 在该至少一个不感兴趣区域中所应用的更高的帧速率,而对包括该图像的 ^L频信号施加时间帧处理。
14. 权利要求13的设备,其中所述处理模块包括感兴趣区域上变换模 块(26),其被配置来对该至少一个感兴趣区域施加时间帧上变换处理。
15. 权利要求13或14的设备,其中所述处理模块包括不感兴趣区域下 变换模块(30),其被配置来对该至少一个不感兴趣区域施加时间帧下变换 处理。
16. 按照权利要求15的设备,还包括组合模块(32),其被配置来把 从感兴趣区域上变换模块得到的输出信息与从不感兴趣区域下变换模块 得到的输出信息相组合。
17. 按照以上权利要求中的任一项的设备,还包括嘴唇活动检测模块 (15)。
18. 按照以上权利要求中的任一项的设备,还包括音频语音活动模块 (13)。
19. 按照以上权利要求中的任一项的设备,还包括感兴趣区域选择模 块(23),其被配置来选择第一感兴趣区域以便进行时间帧上变换。
20. —种与权利要求13到19的任一项的设备相关联的计算机可读介 质,其具有存储在其上的指令序列,当该指令序列由设备的微处理器执行 时致使该处理器-检测(44)在视频应用的图像中的至少一个人;-估计(46)与该图像中至少 一个被检测到的人相关联的运动;-把该图像分割(50)成至少一个感兴趣区域和至少一个不感兴趣区域,其中该至少 一个感兴趣区域包括该图像中该至少 一个被检测到的人,以及-通过在该至少一个感兴趣区域中使用比在该至少一个不感兴趣区域 中所应用的更高的帧速率,而对包括该图像的视频信号施加时间帧处理。
全文摘要
本发明提供了一种用于对视频应用中的数字图像进行视觉增强的改进方法和设备。具体地,本发明牵涉到用于面部或人的寻找的多模式情景分析,后随有可视屏幕上的、对一个或多个参加者的视觉强调,或者是对一组参加者中正在讲话的人进行视觉强调,以在电视会议呼叫期间达到改进的感知质量和情境意识。所述分析是藉助于分割模块(22)来执行的,该分割模块(22)允许定义至少一个感兴趣区域(ROI)和一个不感兴趣区域(RONI)。
文档编号H04N7/26GK101223786SQ200680025487
公开日2008年7月16日 申请日期2006年7月7日 优先权日2005年7月13日
发明者H·贝尔特 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1