流式视频中的面部注释的制作方法

文档序号:6569075阅读:110来源:国知局
专利名称:流式视频中的面部注释的制作方法
流式视频中的面部注释本发明涉及流式视频。尤其是,本发明涉及检测和识别视频魏中的面部。 流式视频的质量经常使得人们难以识别视频中出现的人的面部,如果图像 包括几个人因此没有把镜头移近在一个人处,情况尤其如此。当执行例如视频 会议时,这是饰点,因为除非观看者识别出声音,否贝怀能确定谁正在发言。WO04/051981公幵了一种摄像机装置,其能够检测视频材料中的Ali,提 取检测的面部的图像并且将这些图像作为元数据提供给视频。元数据可被用于aii地确定视频内容。本发明的一个目的是提供一种系统和方法,用于执行流式视频中的实时面 部检测并且用与检测的面部有关的注释修改流式视频。本发明另一个目的是提供一种系统和方法,用于执行流式视频中的已检测 面部的实时面部识别并且用与识别的面部有关的注释修改流式视频。在第一方面中,本发明提供一种用于流式视频的实时面部注释的系统,该 系统包括-流式视频源;-面部检测部件,被可操作地连接以从流式视频源中接收流式视频并且被配 置为执行对流式视频中有候选面部的区域的实时检舰 -注释器,被可操作地连接以接收 -流式视频;-来自于面部检测部件的候选面部区域的位置; 注释器被配置为修改与至少一个候选面部区域相关的流式视频中的像素内容;-输出端,被可操作地连接以从注释器中接收经面部注释的流式视频。 流传送是一种在持续的大量数据中从一个点发送数据到另一个点的技术, 通常用于因特网及其它网络。流式视频是以压缩的形式经由网络发送并且当它 们到达时由观看者显示的"移动图像'的序列。用流式视频,网络用户不必在观看 视频或听到声音之前等待下载大的文件。相反地,以连续流发送媒体并且当媒体到达时播放它。发送的用户需要摄像机和压縮被记录的数据的编码器并且准 备将它用于发送。接收用户需要播放器,其是特殊的程序,解压縮并发送视频 数据到显示器以及解压縮并发送音频数据到扬声器。主要的流式视频和流式媒体技术包括来自于RealNetwork的RealSystem G2、微软Windows Media技术(包 括它的NetShow服务和影院服务器)和VDO。进行压缩和解压缩的程序也被称 为编解码器。通常,流式视频将受限于连接的数据速率(例如,用ISDN连接 达到128Kbps),但是对于非常快速的连接,可用的软件和应用的协议设置了上 限。在本说明中,流式视频覆盖-服务h客户端连续传输预先记录的视频文件,例如观看来自于万维网 上的视频。-客户端e客户端在两个用户之间单向或双向传输实况记录的视频数据,例如视频会议、视频聊天。-服务器/客户端—多个客户端实况广播传输,在该情形下视频信号被传输 到多个接收机(组播),例如因特网新闻频道、具有三个或更多用户的视频会议、 互联网教室。此外,视频信号在它的处理实时地或动态地发生时是始终流动的。在本上 下文中,例如,在摄像机和编码器的输出之间,或在解码器和显示器之间的信 号通路中的信号也被认为是流式视频。面部检测是用于在图像或图像流中査找候选面部区域(即有人脸图像或类 似特征的区域)的过程。候选面部区域,也被称为面部位置,是在其中已经检 测到类似人脸特征的区域。{腿的是,候选面部区域由帧编号和两个像素坐标 表示,所述像素坐标在检测的面部周围的矩形中形成成对角的角落。对于实时的面部检测,当通常是计^l几处理器或ASIC的部件接收图像或视频数据时面部 检测动态地(on-the-fly)执行。现有技术提供了几个实时面部检测过程的描述, 并且这样的已知过程可以如本发明指示那样应用。面部检测能够通过在数字图像中搜索對以于面部的特征来执行。由于每个 场景、视频中的剪辑或移动通常持续许多帧,因而当在一个图像帧中检测到面 部时,可以预料在视频中的多个后继帧中也会发现该面部。此外,因为视频信 号中的图像帧通常变化得比人或摄像机移动快得多,可以预料在一个图像帧中 的某一个位置处检测的面部能够在多个后继帧中的基本相同的位置处发现。为此,仅仅在一些选择的图像帧上,例如每第10个、第50个或第100个图像帧 上执行面部检测可能是有利的。可替换地,使用其它参数选择在其中执行面部 检测的帧,例如每当在场景中诸如剪辑或移位之类的总变化能够被检测到时一 个选择的帧。因此,在一个^^实施例中-流式视频源被配置为提供包括图像帧的未压縮流式视频;以及 -面部检测部件进一步被配置为仅仅在流式视频中的选定图像帧上执行检测。在一个优选实现方式中,根据第一方面的系统还可以识别视频中已经为系 统所知的面部。从而,系统能够用与在面部后面的人有关的信息来注释视频。 在这个实现方式中,系统进一步包括-存储器,保存识别一个或多个面部的数据和相关的注释信息;以及-面部识别部件,被可操作地连接以从面部检测部件中接收候选面部区域并 且访问该存储器,并且被配置为执行存储器中的條忠面部的实时识别,并且在其中-注释器进一步被可操作地连接以接收 -已经识别了候选面部的信息,以及-来自于面部识别部件或存储器的任何一个中的、用于任何识别的IM面 部的注释信息;以及 -该注释器进一步被配置为把与所识别的候选面部有关的注释信息包括在流 式视频内像素内容的调制中。面部识别是一个用于匹配给定的面部图像和一个已知的人的面部图像(或 表示所述面部的独特特征的数据)的过程,以确定面部是否属于相同的人。在 本发明中,给定的面部图像是通过面部检测过程识别的候选面部区域。对于实 时的面部识别,当通常是计算机处理器或ASIC的部件接收图像或视频数据时面 部识别动态地执行。面部识别过程使用了已知的人的面部的例子。这个数据通 常存储在该面部识别过程可访问的内存或存储器中d实时处理需要快速地访问 所存储的 ,并且存储劉 *是決速可访问鄉,例如RAM(随机存取存 储器)。当执行匹配时,面部识别过程确定存储的面部和给定面部的某些特征之间 的一致性。现有技术提供了实时面部识别过程的若干描述,并且这样的己知过程可以如本发明所指示的那样得至U应用。在本上下文中,由注释器执行的修改或注释指的是候选面部区域的附注、 注释、图形特征、改进的分辨率或其它标记,其传送与面部有关的信息到流式 视频的观看者。将在本发明的详细说明中举出注释的几个例子。因此,经过面 部注释的流式视频是这样一种流式视频,部分该流式视频包含与视频中出现的 至少一个面部有关的注释。识别的面部可以与注释信息相关,所述注释信息提供能够作为与面部有关 的注释而给出的信息,所述信息例如姓名、头衔、公司、人的位置,对面部的 优选修改比如通过在面部的前面放黑条来使面部匿名。其它不一定链接到面部后面的人的身份的注释信息包括链接到每个面部 的图标或图形以便即使当他们改变位置时也育,被加以区分,属于目前正在发 言的人的面部的指示,为了娱乐而作的面部修改(例如添加眼镜或假发)。正如以前指出的,根据第一方面的系统可以位于流式视频传输的任何一端。 因此,流式视频源可以包括用于记录数字视频的数字摄像机并且生成流式视频。 可替换地,流式视频源可以包括接收机和解码器,用于接收和解码流式视频。 类似地,输出可以包括编码器和发射机,用于编码和发送经过面部注释的流式 视频。可替换地,输出可以包括被可操作地连接的显示器以从输出终端中接收 经过面部注释的流式视频并且向终端用户显示它。在第二方面中,本发明提供了一种用于进行流式视频的面部注释的方法, 例如将由根据第一方面的系统执行的一种方法。第二方面的方法包括步骤-接收流式视频;-执行实时面部检测过程以检测流式视频中有候选面部的区域;以及 -^31修改与至少一个候选面部区域相关的流式视频中的像素内容来注释流 式视频。给出的和第一方面的系统有关的评论大体上也适用于第二方面的方法。因 此,最好流式视频包括由图像帧构成的未压缩流式视频,并且面部检测过程仅 仅对流式视频中的选定图像帧执行。为了也执行面部识别,该方法优选地可以进一步包括步骤-提供识别一个或多个面部的数据;-执行实时面部识别过程以执行数据中的候选面部的实时识别;以及-把与所识别的候选面部有关的注释信息包含在流式视频内像素内容的调制中。本发明的基本思想是动态地检测视频信号中的面部以及通过修改视频Y言号 本身(assuch)来注释这些面部。即,所显示的流式视频中的像素内容改变了。 这不同于仅仅利用类似于注释的信息来附加或包含元数据。其优点在于独立于 任何文件格式、通信协议或其它用于传输视频的标准。因为动态地执行注释, 本发明尤其适用于诸如视频会议之类的实况传输,以及来自于辩论、小组讨论 等等的传输。现在将仅通过举例的方式参考附图来描述本发明的实施例,其中

图1示意性地举例说明了用于对位于发送部分的流式视频进行实时面部注 释的系统。图2示意性地举例说明了用于对位于接收部分的流式视频謝亍实时面部注 释的系统。图3是举例说明了用于实时面部注释的系统的实施例的硬件模块的示意图。图4是举例说明了使用用于实时面部注释的系统的视频会议的示意图。图l示意性地举例说明了在M31标准传输信道8传送经过面部注释的信号 18到接收机9之前如何在发送器2处面部注释所记录的流式视频信号4。发送 器2可以是视频会议中的一方,并且输入端1可以是记录和生成流式视频信号4 的数字摄像机。输A^也可以简单地从存储器或从不构成系统5的一部分的照 相机中接收信号。传输信道8可以是任何具有适当格式的翻传输线路,例如 具有ISDN (综合服务数字网络)连接的电话线。在接收经过面部注释的流式视 频的另一端,接收机9可以是视频会议中的另一方。用于实时面部注释流式视频的系统5在输入端1接收信号4并且将其分发 给注释器14和面部检测部件10两者。面部检测部件10可以是执行面部检测软 件模块的面部检测算法的处理器。它在信号4的图像帧中搜索类似人脸的区域 并且识别任何这样的区域作为候选面部区域。然后,使得候选面部区域可用于 注释器14和面部识别部件12。面部检测部件10可以例如创建和提供由候选面 部区域构成的图像,或它可以仅仅提供表示流式视频信号4中的候选面部区域 的位置和大小的 。检测图像中的面部可以使用现有的技术执行。现有的面部检测部件的不同例子是已知的和可用的,例如-执行面部检测和面部i^宗的网络摄像机。 -具有面部优先级的自动聚焦照相机或-自动地识别关键的面部元素的面部检测软件,在数字图像后处理中允许红 眼校正、肖像剪切、调 色等等。当注释器14接收信号4和候选面部区域时,注释器修改信号4。在修改中, 注释器改变图像帧中的像素,以便注释成为流式视频信号的组成部分。所得到的经过面部注释的流式视频信号18 M31输出端17被馈送给传输信道8。当接收 机9监视信号18时,面部注释将是视频不可分离的部分并且表现为最初记录的内容。只基于候选面部区域的注释(即没有面部识别)通常不是与人的身份有 关的信息。相反,注释可以例如将提高候选面部区域或表明当前发言人的图形 中的分辨率(每个人可能戴着麦克风,在这种情况下容易识别当前发言人)。面部识别部件12可以比较候选面部区域和已经可用的面部数据,以识别与 候选面部区域匹配的面部。面部识别部件12是可选的,因为注释器14可以仅 仅基于候选面部区域来注释视频信号。面部识别部件12可访问的 库可以保 存已知的人的面部图像或识别面部诸如皮肤、头发和眼睛颜色、两眼之间的距 离、耳朵和眉毛、头的高度和宽度等等的数据。如果获得了匹配,面部识别部 件12通知注释器14并且有可育g提供另外的注释信息,例如面部高分辨率的图 像、诸如人的姓名和头衔的身份、怎样在流式视频4中注释对应的区域的指令 等等。面部识别部件12可以是执行面部检测软件模块的面部检测算法的处理器。可以使用现有的技术执行流式视频的候选面部区域中的面部的识别。这些 技术的例子在下列参考文献中进行了描述-特征脸之外对于面部识别的概率匹配(Beyond Eigenfaces : Probabilistic Matching for Face Recognition)Moghaddam B., "Wahid W. & Pentland A.关于自动面 部&姿势识别的国际会议,奈良,日本,1998年4月。-对象表示的概率视觉学习(Probabilistic Visual Learning for Object Representation) MoghaddamB. & Pentland A.模式分析与机器智育巨,PAMI-19(7), pp.696-710,1997年7月。-对于直接的图像匹配的贝叶斯相似性测量(A Bayesian Similarity Measure for Direct Image Matching) Moghaddam B., Nastar C. & Pentland A.关于模式识另lJ的国际会议,维也纳,奥地利,996年8月。-使用可变形强度表面的贝叶斯面部识别(Bayesian Face Recognition Using Deformable Intensity Surfaces) Moghaddam B., Nastar C &Pentland A.关于计算机 视觉&模式识别的正EE会议,旧金山,加利福尼亚州,1996年6月。-在交互式房间中的主动面部ii^和姿势估计(Active Face Tracking and Pose Estimation in an Interactive Room)DarrelI T., Moghaddam B. & Pentland A,关于计算 机视觉&模式识别的正EE会议,旧金山,加利福尼亚州,1996年6月。-推广的图像匹配基于物理的变形的统计学习(Generalized Image Matching: Statistical Learning of Physically - Based Deformations) Nastar C, Moghaddam B. & Pentland A.关于计算机视觉的第四次欧洲会议,剑桥,英国,1996年4月。-对于目标检测的概率视觉学习(Probabilistic Visual Learning for Object Detection) Moghaddam B. & Pentland A.关于计算机视觉的国际会议,坎布里齐, 马萨诸塞州,1995年6月。-用于最大概似法目标检测的子空间方法(A Subspace Method for Maximum Likelihood Target Detection) Moghaddam B. & Pentland A.关于图像处理的国际会 议,华盛顿哥伦比亚特区,1995年10月。-用于基于模型的面部编码的自动系统(An Automatic System for Model -Based Coding of Faces) Moghaddam B. & Pentland A.正EE 压縮会议,雪鸟, 犹他州,1995年3月。-用于面部识别的、基于视图的和模块化的特征空间(Wew - Based and Modular Eigenspaces for Face Recognition) Pentland A., Moghaddam B. & Starner T. 关于计算机视觉&模式识别的正EE会议,西雅图,华盛顿,1994年7月。图2示意性地剩列说明了在显示经过面部注释的流式视频18给终端用户之 前如何在接收机9处注释接收的流式视频信号4。用于实时面部注释流式视频的 系统15的性能和部#^似于图1的系统5的性能和部件。然而在图2中,系统 15在输入端1从发送器2中经由传输信道8接收信号4。输入端I可以是解压 缩流式视频信号4的播放器。发送器2已经ilil任何可用的能够实现这点的技 术生成并发送流式视频信号4。此外,经过面部注释的视频信号18没有经由网 络传输,作为替代,输出端17可以是显示流式视频给用户的显示器。输出端n 还可以发送经过面部注释的视频给用于存储的存储器或给不构成系统15 —部分的显示器。结合图1和2描述的系统5和15也可以处理与流式视频信号4和18 —起 被记录和播放的流式音频信号6,但对其不进行注释。每个人可以有斜虫的麦克风输入到系统,以便通过哪个麦克风获得最多的信号来确定当前发言人。音频信号6还可以由系统5和15的声音识别器或定位器16使用,其可被用于识别 或定位视频中的当前发言人。图3举例说明了包括用于实时面部注释流式视频的系统5和15的各种部件 的硬件模块20。模块20可以例如是个人计算机、手持式计^m、移动电话、录 像机、视频会议设备、电视机、机顶盒、卫星接收器等等的一部分。模块20具 有辭J多生成或接收视频的输入端1 ,禾口能够发送或显示与模块鄉相对应的视频 的输出端17,并且它或者作为位于发送器的系统5或者作为位于接收机的系统 15。在一个实施例中,模块20有处理M流的总线21、例如CPU (中央处理 器)的处理器22、例如RAM的内部快速存取存储器23和例如磁驱动器的非易 失性存储器24。模块20可以保留和执行根据本发明的用于面部检测、面部识别 和注释的软件部件。类似地,存储器23和24可以保存与将被识别的面部相对应的数据以及有关的注释信息。图4举例说明了两方之间的实况视频会议,25-27在一端,而37在另一端。 这里,通过发送流式视频到系统5的数字摄像机28记录人25-27。系统确定与 人25-27的面部相对应的视频中的候选面部区域,并且比较它们和已存储的已知 面部。系统识别他们中之一 (即人25)为M.Donaldson女士,即会议组织者。 因此,系统5用围绕着Donaldson女士的头部的框29修改得到的流式视频32。 可替换地,系统可以ilii识别其声音己被识别的人的相关面部来识别当前正在 发言的人。借助于照相机28中的内置麦克风,系统5可以识别Donaldson女士 的声音,把它和所识别的面部关鹏来,并且MM框29指示她是流式视频32 中的发言人。在可替代的实施例中,系统5提高已识另啲发言人的候选面部区 域中的分辨率,代表剩余区域中的分辨率,从而没有增加需要的带宽。在视频会议的另一端中,标准设置记录并发送用户37的流式视频给用户 25-27。通过用系统15接收流式视频,可以在把输入的标准流式视频显示给用户 25-27之前对其进行面部注释。这里,系统15识别人37的面部作为已存储的身份的面部,并且M给人37添加姓名和头衔标记符38来调制信号。在另一个实施例中,根据本发明的系统和方法应用在大会或诸如欧洲议会 之类的议会。这里,数以百计的可能的发言人参与,对于评论员或字幕员来说 可能难以记住这些身份。通过存储所有参与者的相片,本发明可以了解当前在 摄像机视界中的人。
权利要求
1. 一种用于实时面部注释流式视频的系统(5,15),所述系统包括流式视频源(1);面部检测部件(10),被可操作地连接以从流式视频源中接收流式视频(4)并且被配置为对流式视频中有候选面部的区域执行实时检测;注释器(14),被可操作地连接以接收-流式视频;-来自于面部检测部件的候选面部区域的位置;注释器被配置为修改与至少一个候选面部区域相关的流式视频中的像素内容;输出端(17),被可操作地连接以从注释器中接收经过面部注释的流式视频(18)。
2、根据权利要求l的系统,其中-流式视频源(1)被配置为提供包括图像帧的未压缩流式视频;以及 -面部检测部件(10)被进一步配置为仅仅对流式视频中的选定图像帧执行
3、 根据前面任一权利要求所述的系统,进一步包括-存储器(23, 24),保存识别一个或多个面部的数据和有关的注释信息;以及-面部识别部件(12),被可操作itt接以从面部检测部件(10)中接收候选 面部区域并且访问存储器,并且被配置为执行存储器中的候选面部的实时识别, 并且其中-注释器(14)被进一步可操作地连接以接收 -已经识别了候选面部的信息,和-来自于面部识别部件或存储器中的任何一个的、任何已识另啲候选面部 的注释信息;以及-该注释器进一步被配置为把与所识别的候选面部有关的注释信息包括在流 式视频内像素内容的调制中。
4、 根据前面任一权利要求所述的系统,其中流式视频源(1)包括数字摄像机(28),用于记录数字视频以及生成流式视频。
5、 根据前面任一权利要求所述的系统,其中输出端(17)包括编码器和发射机,用于编码和发送经过面部注释的流式视频。
6、 根据权利要求1或2所述的系统,其中输出端(17)包括显示器(36), 其被可操作地连接以从输出终端中接收经过面部注释的流式视频并且将它显示 给终端用户。
7、 根据权利要求1,2,3或5中任一权利要求所述的系统,其中流式视频源 (1)包括接收机和解码器,用于接收和解码流式视频。
8、 一种用于对流式视频进行面部注释的方法,所述方纟跑括步骤 -接收流式视频;-执行实时面部检测过程,以检测在流式视频中有候选面部的区域;以及 -通过修改与至少一个候选面部区域相关的流式视频中的像素内容来注释流 式视频。
9、 根据权利要求8的方法,进一步包括步骤 -提供识别一个或多个面部的数据;-执行实时面部识别过程以对数据中的候选面部执行实时识别;以及 -把与所识别的候选面部相关的注释信息包含在流式视频内像素内容的调制中。
10、 根据权利要求8或9中任一权利要求所述的方法,其中流式视频包括 由图像帧构成的未压缩流式视频,并且其中仅仅对流式视频中的选定图像帧执 行面部检测过程。
全文摘要
本发明涉及一种用于动态地检测和注释视频数据中的面部的系统(5,15)和方法。通过修改视频的像素内容执行注释(29)并且因此注释与文件类型、协议和标准无关。本发明还可以通过比较检测的面部和来自于存储器的已知的面部来执行实时面部识别,以便注释可以包含与面部有关的个人信息(38)。本发明可以应用在传输信道的任何一端并且尤其适用于视频会议、互联网教室等等。
文档编号G06F17/30GK101273351SQ200680035925
公开日2008年9月24日 申请日期2006年9月19日 优先权日2005年9月30日
发明者C·贝尼恩, F·萨森谢特, R·内瑟 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1