用于自动摄像机控制的方法和系统的制作方法

文档序号:7939744阅读:230来源:国知局
专利名称:用于自动摄像机控制的方法和系统的制作方法
技术领域
本发明涉及视频会议以及摄像机朝向和变焦的自动调整。
背景技术
在大多数的高端视频会议系统中,使用具有平摆(pan)、俯仰(tilt)和变焦 (zoom)能力的高质量摄像机来取景(frame)会议中的会议室和参会者的视图。这类摄像机 通常具宽视野(field of view,F0V)和高机械变焦能力。这样就得到会议室的良好概图以 及捕捉参会者的特写(close-up)图像的能力。来自摄像机的视频流被压縮并且被发送到 视频会议中的一个或多个接收站点。会议中的所有站点都从会议中的其他站点接收直播视 频和音频,因此使得能够实时地进行具有视觉和听觉信息的通信。 当谈及用途、参会者的数目、会议室的布局等,各视频会议差异很大。每个会议配 置通常需要摄像机的独立调整,使得呈现最佳视图。在视频会议之前和期间都可能需要对 摄像机的调整。例如,当视频会议室落座了高达16个人时,视频摄像机很自然地被预设成 取景所有的16个可用座椅位置。然而,如果只有2或3个参会者出席,则摄像机设置的宽 视野会给接收端非常差的视觉表现。 通常通过手动地控制摄像机平摆、俯仰和变焦,或者通过在一组预定义的摄像机 位置之间进行选择,经由远程控制来完成对摄像机的调整。这些预定义的位置要手工地编 制。经常地,在视频会议之前或期间,用户不希望专注于摄像机的手动控制,或者缺少经验 的用户甚至可能没有意识到能够(或如何)改变摄像机视野。因此,在视频会议中,摄像机 经常没有被最优地调整,而导致视频体验的降级。 因此,为了确保用于视频会议室中每个情况的良好摄像机朝向,需要一种自动视 野调整系统。 存在一些具有摄像机跟踪能力的视频会议系统。然而,这些系统的目的是使摄像 机自动地集中于活动的发言者。这些系统通常基于通过利用麦克风阵列的音频信号处理和 /或结合图像处理的发言者定位。 —些数字视频摄像机(例如,web-cams)使用视频分析在数字平摆、俯仰和变焦的 有限范围内检测、集中于并且跟随一个人的人脸。然而,这些系统仅适合于一个人,要求在 初始正确布置摄像机,并且系统具有非常有限的数字工作范围。 因此,以上提到的现有技术没有描述一种用于在视频会议设置中的摄像机的自动 化配置的系统。

发明内容
本发明的目的在于提供一种解决上述现有技术中的问题的至少一个的方法和系 统。 包括的独立权利要求所定义的特征描述了该方法和系统的特征。


为了使更容易地理解本发明,下面的讨论将参考附图。其中 图1图示了典型的视频会议室, 图2示意性地示出了根据本发明的"最佳视图"定位器的组件, 图3是"最佳视图"定位器的操作的流程图, 图4示意性地示出了典型的会议情况以及图像拾取设备的示例性初始朝向, 图5图示了包含两个参会者的图像中的人脸检测, 图6图示了一个示例性定义的关注区域("最佳视图"), 图7图示了另一个示例性定义的关注区域("最佳视图"), 图8图示了图6中所述定义的区域的摄像机取景, 图9图示了在当前取景的图像外检测到的音频源, 图10图示了包括表示图9中所述音频源的参会者的摄像机取景, 图11图示了离开摄像机视野的参会者,其中 图11a图示了人离开会议; 图lib图示了人在画面的边缘附近; 图11c图示了剩下的两个人;以及 图lid图示了对于剩下的人的最佳视图。
具体实施例方式
在下文中,将通过描述优选实施例并且通过参考附图来讨论本发明。然而,本领域 的技术人员将认识到,其它应用和修改也落在独立权利要求所定义的本发明的范围内。
图1图示了典型的视频会议室10以及示例性视频会议系统20。视频会议系统20 通常由下面的组件组成编解码器11(用于编码和解码音频和视频信息)、用户输入设备 8 (即,遥控器或键盘)、图像捕捉设备6 (摄像机)、音频捕捉设备4、7 (麦克风)、视频显示 器9(屏幕)以及音频再现设备5(扬声器)。经常地,高端视频会议系统(VCS)使用具有电 动的平摆、俯仰和变焦能力的高质量摄像机6。 本发明使用视频检测技术来检测由摄像机6所捕捉到的视频画面中的参会者及 其各自的位置,并且基于所检测到的参会者的位置和大小来自动地确定和使用最佳摄像机 朝向和变焦,从而捕捉所有参会者的最佳视图。 可能存在关于何为视频会议中的一组参会者的"最佳视图"的很多观点。然而,在 下文中,"最佳视图"是指一组参会者的特写(close-up),其中,视频画面的中心基本上与该 组的中心一致,并且其中变焦的程度在所述组的周围给出非常适合的图像。然而,图像必须 不能太紧密,至少显示参会者的上身,并且给予参会者在不退出视频画面的情况下稍稍移 动的空间。 图2示意性地示出了根据本发明的"最佳视图"定位器52中的模块。视频检测单 元30被配置成连续地检测捕捉到的视频信号的画面中的对象,例如人脸和/或人头。在 预定义的事件时(例如,当接通VCS时、当通过用户输入设备8来发起时等),摄像机推远 (zoom out)到其最大视野,并且移动到预定义的平摆和俯仰朝向(方位角和仰角),尽可能 地捕捉系统所位于的房间10。视频检测单元30分析视频信号中的画面,并且检测视频画面
5中的所有的人脸/人头以及其相对于预定的和不变的参考点(例如,画面的中心)的位置。 视频图像中的人脸/人头的位置和大小(或区域)被变换成摄像机坐标(方位角和仰角以 及变焦系数)。将关于每个检测到的人脸/人头的信息(例如,位置、大小等)经由人脸跟 踪单元35发送到图像处理单元50。基于所述人脸/人头信息,图像处理单元定义至少包括 所有检测到的人脸/人头的矩形区域。预定义的一组规则规定应当如何定义这种区域,并 且该区域表示画面(或视频会议室10)中的人的最佳视图。用于所定义区域的摄像机坐标 (方位角和仰角以及变焦系数)及其位置被发送到控制单元45。控制单元指示摄像机控制 单元12将摄像机移动到所述摄像机坐标,并且调整摄像机6的平摆、俯仰和变焦来取景与 所定义区域相对应的图像。 图像拾取设备(或摄像机)6包括用于布置该图像拾取设备的摄像机控制单元12。 摄像机控制单元12是包括马达的操纵机构,用于控制图像拾取设备6的平摆和俯仰朝向以 及变焦的程度。摄像机控制单元12还可按要求报告其当前方位角和仰角以及变焦系数。图 像处理单元50和控制单元45可以将控制信号提供给摄像机控制单元12。摄像机控制单元 12使用摄像机坐标系,摄像机坐标系基于描述捕捉到的画面相对于摄像机6的方向和变焦 程度的方位角和仰角以及变焦系数来指示位置。配置视频检测单元30,使得当摄像机6捕 捉到画面时,使用摄像机6的方位角和仰角以及变焦系数把用视频(或图像)坐标系表达 的坐标度量转换成用摄像机坐标系表达的坐标度量。 图3是"最佳视图"定位器52的操作的流程图。摄像机6输出包括一些列画面 (图像)的视频信号。视频检测单元30分析该画面。在预定义的事件时,摄像机控制单元 12被指示将摄像机移动到初始朝向(步骤60)。初始朝向的目的在于确保摄像机可以"看到"会议室中的所有人。已 存在若干确定这样的初始朝向的方法。 参考图4,根据本发明的一个示例性实施例,摄像机推远到其最大视野,并且移动 到预定义的平摆和俯仰朝向13,尽可能地捕捉房间10a和/或捕捉房间的一部分,最大可能 地找到会议参会者。预定义的平摆和俯仰朝向(或初始朝向)通常通过配置功能被手动输 入到系统中(例如,将摄像机手动地移动到最佳初始位置,并且然后保存位置),或者它是 默认出厂值。 根据本发明的另一示例性实施例,摄像机被配置成通过检查具有最大视野的一组 初始朝向(14、15)以及该组的视野重叠的位置来捕捉整个房间。在多数情况下,2个朝向构 成的组就足够了。然而,朝向的数目将取决于摄像机最大视野,并且可以是3、4、5、6等。对 于每个朝向(14、 15)来说,视频检测单元30分析一个或多个视频画面,以检测人脸和/或 人头及其各自的位置。在分析所有的朝向之后,图像处理单元50计算包括所有检测到的参 会者的平摆和俯仰朝向,并且将所述计算的朝向定义为初始朝向。 视频检测单元30分析来自摄像机6的视频信号25,以检测和定位视频画面中的人 脸和/或人头(步骤70)。视频检测单元30测量检测到的人脸/人头的位置与一些预定和 静态参考点(例如,视频图像的中心)之间的偏移。 不同的算法可以用于对象检测。给定任意视频画面,人脸检测算法的目标在于确 定图像中是否存在任何人脸,并且如果存在,则返回每个人脸图像的图像位置和区域(大 小)。参考图5,根据本发明的一个示例性实施例,在图像上移动(或扫描)分析窗33。对
6于分析窗33的每个位置来说,至少关于典型人脸特征的存在来分析在分析窗33内的图像信息。然而,应当理解,本发明不限于使用这种类型的人脸检测。另外,还可以使用人头检测算法来检测那些人头没有朝向摄像机的参会者。 当检测人脸/人头的图像时,视频检测单元30定义所述人脸/人头的图像周围的矩形部分(或框)。根据本发明的一个实施例,所述矩形部分是所述分析窗33。相对于基于视频画面的视频坐标系来测量包含人脸/人头的图像的所述部分的位置。将视频坐标系应用于摄像机6所捕捉到的每个画面。视频坐标系具有水平或x轴以及垂直或y轴。当确定像素或图像的位置时,视频检测单元30确定该像素的或图像的视频画面的相对于x轴和y轴的位置。在本发明的一个示例性实施例中,分析窗33中心点31(窗口中间的像素)是位置参考点,并且在所述视频坐标系中由坐标x和y来定义其位置。当视频检测单元30已经计算了画面中的所有人脸/人头的位置(x,y)和大小(例如,dx二20,dy二24像素)时,视频检测单元30使用视频画面、光学和机械学的知识来针对人脸/人头的每个图像计算摄像机坐标系中的方位角和仰角中的对应位置(a ,<P)以及大小(A a ,A(p)(步骤80)。然后,将每个人脸/人头的摄像机坐标发送到人脸跟踪单元35。 人脸跟踪单元35把从当前视频画面检测到的人脸与在先前视频画面中检测到的人脸关联起来,并且因此跟踪一系列画面中检测到的人脸。只要在一系列画面中在基本上相同的位置处检测到了人脸/人头,该检测就被验证为肯定性检测。首先,这防止了错误的人脸检测,除非在若干连续视频画面中出现相同的检测。而且,如果人脸检测单元没有检测到在与先前检测到的人脸基本上相同的坐标中的人脸,图像跟踪单元不认为该人脸不存在于该图像,除非这种检测在若干连续画面中都是未检测到。这防止了错误的否定性检测。另外,这样的跟踪允许获得可能在视频画面中移动的参会者的适当位置。为了执行这样的跟踪,人脸跟踪单元35创建并且保存用于每个检测到的人脸的跟踪文件。例如,跟踪文件可以被保存在存储器设备中。 在步骤90中,图像处理单元50定义关注区域34(最佳视图)。在图6中示出了该
关注区域34,其中,所述区域34至少包括在该画面中的所有检测到的人脸图像。 根据本发明的一个实施例,基于每个人脸的位置(a ,(p)及其对应的大小(A a ,
ACP),图像处理单元50可以计算由一组边界(MpM^M3和M》约束的第一区域,其中所述边
界是从最左边人脸部分的左侧(M》、最上边人脸部分的上侧(M》、最右边人脸部分的右侧
(M2)以及最下边人脸部分的下侧(M4)得到的。现在可以基于所述边界以摄像机坐标计算
所述第一区域的中心的位置(afa,<Pfa)。所述第一区域的位置是相对于参考点(a。,<P0),
即,通常当方位角和仰角为0时的摄像机的方向的。 另外,将第一区域的宽度和高度变换成变焦系数(Zfa)。 该第一区域非常接近参会者的人脸,并且可能不表示参会者的最舒适的视图(最佳视图),尤其当如该示例性实施例中所示只有两个参会者出席时。因此,当已经计算了所述边界(Mp M2、 M3和M4)时,通过将所述边界扩展一组补偿值a、 b、 c和d来定义第二区域(最佳视图画面34)。这些补偿值可能是相等的,或者它们可能是不同的,使得除了参会者的人头还捕捉在参会者前面的桌子。该补偿值可以是预设的和静态的,或者它们可能是计算出的以适合每个状态。 根据另一个示例性实施例,通过仅从计算的变焦系数Zfa中减去补偿值Z。、使摄像机推远额外的距离来定义最佳视图画面34。补偿值Z。可以是不变的,或者根据第一区域变焦系数Zfa的大小来线性变化。 图7示意性地示出了从初始摄像机朝向拍摄的示例性视频画面。在视频画面中检测到了 3个人脸,并且图像处理单元50已经定义了最佳视图画面34,并且计算了最佳视图画面的位置(afa,<Pfa)。 用于视频会议系统的大多数图像拾取设备6以标准电视图像宽高比(例如
4 : 3(1.33 : i)或ie : 9(1.78 : i))来操作。由于如上所述的大多数计算的最佳视图
画面34具有不同于例如4 : 3或16 : 9这样的标准宽高比,所以当确定变焦坐标时必须做出一些考虑。由于A,是区域34的最短边缘,如果摄像机拉近以捕捉精确的高度A,,则由于摄像机的宽高比与定义的区域不同,所以大部分的区域将错过摄像机中的光敏区域(例如,图像传感器)。如果摄像机拉近以捕捉定义的区域34的精确的宽度Aa ,则不会丢失信息。 因此,根据本发明的一个示例性实施例,比较最佳视图画面34的两侧A一P Aa 。两
侧的每一个分别在水平和垂直方向中定义配合图像画面中的关注区域所需要的变焦系数。因此,由两个计算的变焦系数中的最小一个来定义变焦程度,确保当变焦到关注区域时不会裁剪该关注区域。 在步骤100中,图像处理单元50经由控制单元45来为摄像机控制单元12提供在步骤90中所得到的摄像机布置指令(afa,cpfa,Z)。 一旦接收到摄像机布置指令,摄像机就移动并且变焦到指定的坐标,以获得视频会议中的参会者的最佳视图。图8示出了来自图6中的会议室10a的参会者1和2的最佳视图。 当摄像机已经移动到新的朝向时,它将保持该朝向,直至检测到事件(步骤110)。如前所述,仅在某些预定义的事件时才指示摄像机将摄像机移动到初始朝向(步骤60)。这样的预定义的事件可以包括,当启动视频会议系统时、当从休眠模式唤醒时、当接收和发送会议呼叫发起请求时、当经由例如遥控器或键盘由用户发起时等。通常当已经找到参会者的最佳视图时,通常不太需要改变摄像机的朝向。然而,在视频会议期间可能产生如下的情况,即,创建重新配置朝向的需要,例如,参会者的一个可能离开、新的参会者可能到达、参会者的一个改变他的/她的座位等。在这样的情况下,用户的一个当然可以通过按下遥控器上的按钮来发起重新布置(步骤60)。然而,优选的是对这样的事件的自动检测。
因此,根据本发明的一个实施例,将音频源定位用作在步骤110中的事件触发器。如上所示,图8示出了在大会议室10a中的参会者1和2的最佳视图。如可以在图8中看到的,在该视图中,摄像机已经被非常极端地拉近(zoom in),并且如果人要晚些进入会议,并且在座椅12的一个中坐下,则他/她将不会被摄像机所捕捉到。当进入会议时,很自然地自己致歉和/或介绍自己。这是礼貌的问题,并且提醒其他参会者(可能仅在音频上加入)新的参会者已经进入会议。通过使用公知的音频源定位装置7、40,视频会议系统可以检测音频源(参会者)200已经被定位在摄像机的当前视野的外部。音频源定位器40用摄像机坐标来操作。当检测到音频源并且由音频源定位器40来定位该音频源时,其将音频源坐标发送到控制单元45。如果音频源坐标在摄像机的当前视野内,则什么都不做。然而,如果音频源在当前视野外,则指示当前视野没有捕捉所有的参会者,并且重复根据步骤60-100的检测过程。可以在图IO中看到该结果。因此,根据本发明的一个实施例,摄像机的当前视野外的至少一个音频源的这样的检测被视作在步骤110中触发步骤60-100的重复的事件。
音频源定位装置是公知的,并且这里将不详细讨论。它们通常是多个空间上分隔的麦克风7,并且经常基于麦克风的输出处的信号之间的延迟差的确定。如果麦克风的位置和源与不同麦克风之间的传播路径之间的延迟差是已知的,则可以计算源的位置。在美国专利号5, 778, 082中示出了音频源定位器的一个示例。 根据本发明的另一个实施例,另一个预定义的事件是当检测到参会者离开房间(或者视野)时。这样的检测取决于前述的跟踪功能。如图lla中所示,当参会者离开房间时,跟踪文件或跟踪历史将示出检测到的人脸的位置/定位(a ,(P)在一系列画面(图lla-llb)上从位置(a3,(p3)改变到接近画面边缘的位置(a4,q>4)。如果相同的人脸检测突然消失(不再检测人脸)并且在某个时间画面内没有返回(图llc),则该人脸检测被视作参会者离开会议。当检测这样的事件时,重复步骤60-100以将摄像机的视野调整到如图lld中所示的新的最佳视图。 根据本发明的又一实施例,另一个预定义的事件是当在视频画面的边缘附近检测到移动时。并不是每个进入视频会议的人都将立即开始讲话。这将取决于参会者的状态、职位等。因此,在系统检测到该新来的人并且相应地进行动作之前可能需要一些时间。返回参考图9,即使大多数人都在摄像机的视野外,但是也可以在视频画面中捕捉到参会者的一部分38。由于相对于静止的家具,人几乎不可能完全静止地坐着,所以视频检测单元35可以容易地将该部分38检测为图像中的移动。当检测这样的事件(在图像/画面边缘附近检测到移动)时,重复步骤60-100以将摄像机的视野调整到新的最佳视图。
根据本发明的系统提供了一种自动地获得视频会议室中的所有参会者的最佳视觉表示的新颖方法。另外,该系统自动地适应于新的情况,诸如参会者离开或进入会议室,并且相应地改变视觉表示。本发明为高质量视觉体验提供了一种更加用户友好的方法。
权利要求
一种用于自动操纵与视频会议系统相关联的图像拾取设备的朝向和变焦的方法,其中,所述方法包括下述步骤在所述图像拾取设备生成图像信号,该图像信号表示所述图像拾取设备所取景的图像,以及处理所述图像信号以识别所述图像中的对象,并且,当预定的事件发生,则将所述图像拾取设备操纵成初始朝向;确定所有被识别对象相对于参考点的位置以及它们各自的大小;定义所述图像中的关注区域,其中所述关注区域至少包括所有被识别对象;以及操纵所述图像拾取设备来取景所定义的所述关注区域。
2. 根据权利要求1所述的方法,其中,操纵所述图像拾取设备的所述步骤包括下述子 步骤改变所述图像拾取设备的方位角和仰角,以及 改变所述图像拾取设备的变焦。
3. 根据权利要求1所述的方法,其中,将所述图像拾取设备操纵成初始朝向的所述步 骤进一步包括下述子步骤将所述图像拾取设备推远到最大视野,并且根据预定义的平摆和俯仰顺序来移动所述 图像拾取设备,尽可能地取景其所在的房间。
4. 根据权利要求1所述的方法,其中,所述图像信号表示视频图像的画面,并且识别对 象的所述步骤进一步包括下述子步骤检测所述视频的画面中的人脸和/或人头的图像; 在一系列画面中跟踪所检测到的人脸/人头;只有当检测发生在全部预定义数目的相继画面中时,将该检测识别为人脸/人头。
5. 根据权利要求4所述的方法,其中,所述的定义关注区域的步骤进一步包括下述子 步骤为第一区域定义一组边界,其中,所述第一区域是包括所有所述的检测到的人脸和/ 或人头的图像的最小可定义的区域;以及通过用一组补偿值扩展所述边界来定义所述关注区域。
6. 根据权利要求5所述的方法,其中,所述关注区域进一步被扩展以适合标准图像宽 高比。
7. 根据权利要求1所述的方法,其中,所述关注区域表示对象或对象组的特写视图。
8. 根据权利要求1所述的方法,其中,所述预定义的事件包括接通所述视频会议系统、接收或发送会议呼叫发起请求、和/或接收来自用户的命令。
9. 根据权利要求1所述的方法,其中,所述方法进一步包括 处理来自一组音频拾取设备的音频信号,以确定音频源相对于参考点的位置。
10. 根据权利要求8所述的方法,其中,所述预定义的事件包括 检测所取景的关注区域外的音频源的存在。
11. 根据权利要求1所述的方法,其中,所述预定义的事件包括 检测参会者的一个或多个从所取景的关注区域的消失。
12. —种用于自动操纵与视频会议系统相关联的图像拾取设备的朝向和变焦的系统, 其中,所述图像拾取设备生成用来表示所述图像拾取设备所取景的图像的图像信号,其中,所述系统包括视频检测单元,所述视频检测单元被配置成处理所述图像信号以识别所述图 像中的对象,并且确定所有被识别对象相对于参考点的位置以及它们各自的大小, 所述系统的特征在于,所述系统进一步包括图像处理单元,所述图像处理单元被配置用来定义所述图像中的关注区域,其中,所述 区域至少包括所有被识别对象;以及控制单元,所述控制单元被配置成当发生预定义的事件时,则将所述图像拾取设备操 纵成初始朝向,从所述图像处理单元接收与所述关注区域相对应的摄像机坐标,以及操纵 所述图像拾取设备来取景所定义的所述关注区域。
13. 根据权利要求12所述的系统,其中,所述图像信号表示视频图像的画面,并且其 中,所述被识别对象是所述视频的画面中所检测到的人脸和/或人头的图像。
14. 根据权利要求13所述的系统,进一步包括人脸跟踪单元,所述人脸跟踪单元被配置成在一系列画面中跟踪所检测到的人脸/人 头,并且只有当检测在全部预定义数目的相继画面中发生时,将该检测识别为人脸/人头。
15. 根据权利要求13所述的系统,其中,所述图像处理单元进一步被配置成 为第一矩形区域定义一组边界,其中,所述第一区域是包括所有所述的检测到的人脸和/或人头的图像的最小可定义的区域,以及通过用一组补偿值扩展所述边界来定义所述关注区域。
16. 根据权利要求15所述的系统,其中,所述关注区域进一步被扩展以适合标准图像览局比o
17. 根据权利要求13到16中的任何一项所述的系统,所述系统进一步包括音频源定位器,所述音频源定位器被配置成处理来自一组音频拾取设备的音频信号, 以确定按摄像机坐标的音频源的位置。
18. 根据权利要求13到17中的任何一项所述的系统,其中,所述控制单元进一步被配置成从所述音频源定位器接收音频源坐标, 将所述音频源坐标与当前视野作比较。
19. 根据权利要求13到18中的任何一项所述的系统,其中,所述图像拾取设备包括摄 像机控制单元,所述摄像机控制单元用于布置所述图像拾取设备,其中,所述控制单元向所 述摄像机控制单元提供控制信号来用于所述图像拾取设备的朝向和变焦,所述控制信号基 于所述关注区域而生成。
20. 根据前述权利要求中的一项所述的系统,其中,所述预定义的事件包括检测在当前视野外的音频源的存在。
21. 根据前述权利要求中的一项所述的系统,其中,所述预定义的事件包括检测参会者的一个或多个从所取景的关注区域的消失。
22. 根据前述权利要求中的一项所述的系统,其中,所述预定义的事件包括检测在当前取景的关注区域外的音频源的存在。
全文摘要
本发明使用视频检测技术来检测由摄像机捕捉到的视频画面中的参会者及其各自的位置,并且基于所述检测到的参会者的位置和大小来自动地确定和使用最佳摄像机朝向和变焦,使得捕捉所有参会者的最佳视图。
文档编号H04N7/15GK101785306SQ200880104287
公开日2010年7月21日 申请日期2008年6月30日 优先权日2007年7月13日
发明者吉斯勒·昂斯塔德, 珀·奥韦·胡索伊, 简·托雷·科内柳森 申请人:坦德伯格电信公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1