移动网络摄像机的光学模块的系统，方法及网络摄像机的制作方法

文档序号：7618721阅读：165来源：国知局

专利名称：移动网络摄像机的光学模块的系统，方法及网络摄像机的制作方法
技术领域：
本发明一般涉及网络摄像机的平摇、俯仰和推拉，且更特定而言，涉及通过软件或固件控制的视频网络摄像机的机械平摇、俯仰和推拉。
背景技术：
在过去的几年中，人们之间的电子接触已急剧增加。各种模式的通信均被用于彼此之间的电子通信，如视频会议、电子信函、文本消息等。尤其是允许人们彼此通过因特网而实时通信(“IM聊天”)的即时消息(IM)已变得日益普及。最近，视频数据也与实时IM聊天一起传输。
存在可用于所述电子视频通信的多种摄像机。除视频数据和音频数据外，一些所述摄像机具有俘获静止图像数据的能力。为了视频实时聊天的目的，通常将这些摄像机连接到一用户的计算机，并将所述摄像机所俘获的视频和/或音频数据传输到所述计算机。如上所提及，可存在多种其他应用，其中传输静止图像、视频和/或音频数据，如用于制作电影、视频监视、因特网监视、因特网网络摄像机等目的的现场视频流(video streaming)、视频俘获。
在这些应用中，看见另一用户的脸部通常极为重要。例如，在两个用户使用视频IM通信的情况下，通常希望建立与另一用户实际聊天的印象。因此，看见彼此的脸部大大增强了这个体验。然而，人们会自然地将脸部左右或上下等移动且因此完全或部分从摄像机的视野中消失。因此，在这些应用中追踪所述用户脸部通常是很重要的。
然而，用于即时消息接发的大多数常规摄像机(通常为网络摄像机)不能自动移动来追踪用户的脸部。用户须用手特定移动摄像机以再进入视野，或须有意识地将他或她的脸部移回到摄像机的视野中。在一些情况下，已实施了光学脸部追踪。一种此类实施光学脸部追踪的摄像机为Logitech公司(加利福尼亚弗里蒙特)的QuickCam Pro 4000。作为光学追踪如何工作的一个实例，假设用户的脸部移到摄像机视野的右上角。与所述摄像机相关联的软件可识别用户脸部的此移动，变焦推进(zoom in)至所述脸部，采集脸部周围的图像数据，并接着调整将要传输的图像的大小。
光学脸部追踪具有数个局限性。首先，此种光学处理图像数据的质量显著下降。其次，通过此种光学处理，所述摄像机的视野并未改变。因此，假如用户移动得足以离开摄像机的当前视野，那么光学脸部追踪就不能为此做出补救。专利6,297,846使用一广角镜头，且从所述广角图像中跟随人们并在所述广角图像内选择一窗口。
标题为“Method for automatically adjusting a video conferencing systemcamera”的美国专利第5,598,209号中提出了另一解决方案。该专利的论述内容提供调节摄像机的平摇、俯仰、变焦推拉和聚焦的其他方法。然而，所揭示的方法需要来自用户的关于摄像机的视野应集中在某个目标或某个特定位置周围的特定输入。基于追踪所述用户的脸部，所述平摇、俯仰等并非是自动的。
一些专利描述了数种静止画面分框系统且其他专利使用测距系统(ranging system)以通过变焦推拉来调节距离。美国专利第6,606,458号和第5,864,363号描述了用于摄像机肖像(portrait)的人脸部的自动对准，但并未提供视频的连续追踪。专利第5,389,967号展示藉助一种摄录像机但使用一红外信号来追踪目标。专利第4,348,097号展示了一个安装在一轨道上的摄像机，其中一个测距仪用于控制摄像机的移动以保持与一个目标的所需距离。
专利第6,680,745号教示用于视频会议的多个摄像机，其中一个广角摄像机检测人的移动并随后引导其他摄像机变焦推拉、平摇和俯仰。美国公开申请案第20020113862号中展示了一种一个摄像机控制其他摄像机的类似系统，其展示了一个连接到USB的控制其他摄像机跟随脸部的广角摄像机。某些系统使用声音(人的谈话)来定位一个已移出摄像机范围的人。通常，使用一个特定的视频会议接线板，以第一电缆提供视频输入，而其他电缆给摄像机提供输出控制。

发明内容
本发明是一种用于自动机械平摇、俯仰和/或推拉一网络摄像机以追踪一个用户脸部的系统和方法。在一个实施例中，所述移动由在一所述网络摄像机向其发送视频数据的主机中的核心软件所控制。以此方式，在所述主机核心中的驱动器操纵脸部追踪，对取所述视频的应用程序透明。在一个替代实施例中，所述移动由在网络摄像机自身中的固件所控制。所述视频和控制信号通过相同的标准电缆(如USB总线)而发送。
在一个实施例中，将视频提供给一即时消息应用。通过所述即时消息应用，使用标准总线(例如，USB)和将脸部追踪卸载到所述网络摄像机和驱动器允许较容易的使用。
在一个实施例中，一机器视觉算法将用户的脸部定位在网络摄像机当前视野中。基于脸部的正定位(positive localization)及其脸部特征移动所述网络摄像机。在本发明的一个实施例中，使用一算法来比较所述用户脸部的位置与所述网络摄像机的当前视野。如果确定用户的脸部距视野边缘(基于一个指定的临界)太近，则适当移动所述网络摄像机的镜头。根据本发明的一个实施例的视频网络摄像机配备有将网络摄像机的镜头上或下(俯仰)或左右(平摇)移动的机械制动器。在另一个实施例中也存在机械制动器以将所述网络摄像机镜头往里或往外移动(推拉)。在一个实施例中，在所述网络摄像机自身中进行追踪脸部的处理，从而无需一主机系统来进行此处理。
所述概述和以下详细描述中所描述的特征和优点并未尽述(all-inclusive)，且特定地说，根据本文中的图式、说明书和权利要求书很多其他特征和优点对于所述领域的技术人员来说将是显而易见的。而且，应注意说明书中所使用的语言主要是出于可读性和指导的目的而选择的，而并非为描绘或限定所述发明性主题、采用确定所述发明性主题所必需的权利要求书而选择的。

本发明具有其他优点和特征，且其结合附图从本发明的以下详细描述和上述权利要求书来看将变得更加显而易见，其中图1是一个用于视频通信的系统100的实施例的方块图。
图2A、2B和2C说明一用户头部的移动和为所述运动的网络摄像机的移动。
图3是一个根据本发明的一个实施例的系统的方块图。
图4是一个说明根据本发明的一个实施例的系统运行的流程图。
图5是一个根据本发明的一个实施例的机器视觉模块的方块图。
图6是一个说明根据本发明的一个实施例的移动控制模块运行的流程图。
图7是一个说明网络摄像机、主机核心层(驱动器)和应用程序之间的关系的方块图。
具体实施例方式
所述图(或图式)仅为说明的目的而描绘了本发明的一个优选实施例。应注意图中类似或相同的参考数字可以指示类似或相同的功能。所属领域的技术人员从以下论述将不难认识到在不背离本文中的本发明原则的情况下，可以采用本文中所揭示的结构和方法的替代实施例。
图1是一个用于视频通信的系统100的实施例的方块图。系统100包含计算机系统110a和110b、网络摄像机120a和120b和网络130。一使用计算机110a和网络摄像机120a的用户可以通过网络130与一使用计算机110b和网络摄像机120b的用尸通信。
计算机110a或110b可为任何能够与网络摄像机120a或120b和/或网络130通信的主机。因此，计算机110或110b可为一个人计算机(桌上型或膝上型)、一手持式计算机或管理器(如，个人数字助理(PDA))、一蜂窝电话、一能够与网络摄像机和/或网络接合的嵌入式自动方案(embedded automotivesolution)等。在一个实施例中，计算机110a和110b为常规计算机系统的一部分，其每个均可包括一存储装置、一网络服务连接和诸如以下的常规输入/输出装置可耦接到一个计算机系统的显示器、鼠标、打印机和/或键盘。所述计算机110a或110b也包括一常规的操作系统(MS Windows、Mac OSX操作系统等)、输入/输出装置和网络服务软件。另外，在一个实施例中，所述计算机110a或110b包括IM软件，如ICQ公司的ICQ、美国在线公司(AmericaOnline，Inc.)(弗吉尼亚杜勒斯)的America OnLine Instant Messenger(AIM)、Microsoft公司(华盛顿雷蒙德)的MSNMessenger和Yahoo！公司(加利福亚桑尼维尔)的Yahoo！Instant Messenger。
网络服务连接包括那些允许连接常规网络服务的硬件和软件组件。例如所述网络服务连接可包括与一电信线路(例如，拨号、数字用户线(“DSL”)、T1或T3通信线路)的连接。所述主机、存储装置和网络服务连接可从(例如)IBM公司(纽约州阿尔蒙克)、Sun Microsystems公司(加利福尼亚帕洛阿尔托)或Hewlett-Packard公司(加利福尼亚帕洛阿尔托)购得。
将网络摄像机120a和120b分别连接到计算机110a和110b。网络摄像机120a和120b可为任何可连接到计算机110a和110b的摄像机。在一个实施例中，网络摄像机120a和/或120b为Logitech公司(加利福尼亚弗里蒙特)的QuickCam摄像机。
网络130可为如广域网(WAN)或局域网(LAN)的任何网络或任何其他网络。WAN可包括因特网、因特网2等。LAN可包括企业内部互联网，其可为一基于(例如)属于一个仅可为所述机构成员、雇员或经许可的其他人所存取的机构的TCP/IP的网络。LAN也可为一个诸如(例如)Novell公司(犹他普罗沃)的NetwareTM或Microsoft公司(华盛顿雷蒙德)的WindowsNT的网络。网络120也可以包括市售的订阅式服务，诸如(例如)AmericaOnline公司(弗吉尼亚杜勒斯)的OL或Microsoft公司(华盛顿雷蒙德)的MSN。
图2A、2B和2C提供本发明的一个实施例运行的一个实例。图2A、2B和2C说明所述网络摄像机120a的视野(图2A和2B中的200、图2C中的202)、用户/说话者210的头部和由两条垂直线所表示的固定的背景特征220。
在图2A中，说话者的头部210在网络摄像机120a的视野200的中央。从图2A可见，这时所述固定的背景特征220位于说话者头部的后面，且因此也在网络摄像机120a的视野200的中央。
假设说话者接着向左移动。图2B说明说话者的头部210移到网络摄像机120a的视野200的左方。所述固定的背景特征220仍在网络摄像机120a的视野200的中央。
图2C说明一个根据本发明的一个实施例的系统将怎样适应所述说话者的移动。在一个实施例中，所述系统检测到说话者的头部210距摄像机的当前视野200的边缘很近。接着，所述摄像机的镜头移动并改变其视野，使得说话者的头部200位于其新的视野202的中央。可见固定的背景特征220不再位于新的视野202的中央。
应注意，由于所述网络摄像机120a可改变其视野以适应说话者的移动，因此网络摄像机120a的有效视野明显大于常规摄像机的有效视野。在以上的实例中也应该注意所述说话者从右向左移动。在一个实施例中，即使说话者以其它方向(如从左到右、从上到下、从下到上或其组合)移动，所述镜头也可通过移动以进行相同的适应。在一个实施例中，所述视野自动调节(即，当说话者移近摄像机或更加远离摄像机时其分别拉远和拉近)，以保持说话者头部相对于摄像机视野的相同尺寸。在一个实施例中，可通过在网络摄像机上推拉镜头来达到视野的自动调节。在另一个实施例中，可使用电子推拉(在网络摄像机自身上或在主机上)来达到视野的自动调节。
图3是一个根据本发明的一个实施例的系统的方块图。系统300包含网络摄像机120a和计算机110a。
网络摄像机120a包含一光学模块310和一机械模块320。在一个实施例中，光学模块310包含镜头、传感器和允许视频处理和压缩的固件。所述机械模块320包括用于移动镜头的机构(mechanics)。在一个实施例中，将制动器用于移动镜头。在一个实施例中，所述制动器通过将制动器的旋转转化为网络摄像机的运动的齿轮箱致使机械透镜以任何方向移位。在一个实施例中，使用两个制动器和两个齿轮箱，且每个制动器控制一个齿轮箱。一旦作出要机械移动所述镜头的决定，就命令所述网络摄像机的固件(嵌入所述网络摄像机自身中的软件)来执行这一决定。所述固件将信号发送到制动器，制动器又反过来移动齿轮箱，而齿轮箱又反过来移动网络摄像机和/或其镜头。
计算机110a上的软件包括一驱动模块330和一应用模块340。所述驱动模块330包括一机器视觉模块332和一移动控制模块334。所述机械视觉模块332在网络摄像机120a的视野内追踪说话者脸部的位置，且以下参看图5将进一步描述所述机器视觉模块。移动控制模块334根据从机器视觉模块332的输出判定是否移动摄像机和移动多少。以下参看图6进一步描述所述移动控制模块334。当使用网络摄像机120a时，应用模块340为与用户相互作用的应用程序。
图4是一个说明系统300的运行的流程图。计算机110a接收从网络摄像机120a发出的视频数据(步骤410)。接着，处理视频数据以估计图框中用户的脸部的位置(步骤420)。以下将参看图5而描述的机器视觉模块332执行这个处理。
图5是一个根据本发明的一个实施例的机器视觉模块332的方块图。
所述机器视觉模块332包括一脸部检测器510、一肌肤取样器(fleshsampler)515、一肌肤追踪器(flesh tracker)520和一运动检测器530。脸部检测器510、肌肤追踪器520和运动检测器530每个均使用不同的参数来确定用户的脸部可能定位在摄像机所俘获的图框内的何处。这些模块的输出彼此影响，且其一起判断用户的脸部位于摄像机视野内的何处。
脸部检测器510根据预期为所有人类脸部所共有的某些参数来检测脸部的存在。这些参数可包括(例如)存在两个眼睛、一个鼻子和一个嘴巴，它们之间具有一定的间距比。
接着，将所述脸部检测器510的输出提供给所述肌肤取样器515。肌肤取样器从脸部检测器所确定的“脸部”来选择一特定的光滑区域。例如，这个区域可为一个选自用户前额的区域。接着，将此区域用作所述用户肌肤的一个样品。使用用户脸部的样品排除了不同用户的肤色的不同，和由于用户所处环境中的灯光而导致的肤色的不同。将肌肤取样器515的输出提供给肌肤追踪器520。接着，肌肤追踪器520使用肌肤取样器515的样品，并通过追踪用户肌肤(当其移动时)来追踪用户的脸部。
运动检测器530检测运动。当用户移动他的/她的头部时，运动检测器530能够辨别该运动。运动检测器530也从脸部检测器510和肌肤追踪器520接收信息。因此，这三个模块结合工作以辨别具有人类脸部参数、具有肤色和正在移动的事物。因此，机器视觉模块332可相对于摄像机的视野在图框中看到用户的脸部。在一个实施例中，机器视觉模块的输出是一个其中含有用户的脸部的矩形。
再参看图4，接着做出关于是否应和在哪个方向上移动网络摄像机镜头的决定(步骤430)。在一个实施例中，通过移动网络摄像机自身而上下、左右等移动网络摄像机。在另一个实施例中，在不移动网络摄像机机架的情况下移动网络摄像机镜头。在一个实施例中，移动网络摄像机镜头(步骤430)的决定包括计算所述镜头应移动的量。在另一个实施例中，以指定方向将所述镜头移动一预定的量。在一个实施例中，通过确定用户的脸部是否位于图框中一临界外来做出决定(步骤430)。图6详细地说明了这一点。
图6是一个方块图，其说明根据本发明的一个实施例如何做出关于是否移动网络摄像机的镜头、移动多少和以哪个方向移动的决定。
矩形610表示网络摄像机120a的当前视野。矩形630a、b和c表示用户的脸部的位置。在一个实施例中，通过机器视觉模块332提供矩形630a、b和c。矩形620表示一个相对于所述网络摄像机120a当前视野610的预定临界。与用户的脸部(即，630a、b或c)到临界620的位置相关的算法确定是否移动镜头、移动多少和以哪个方向移动。例如，在一个实施例中，所述算法为当表示用户的脸部630a、b或c的矩形的中心位于临界矩形620内时，无需移动镜头。当表示用户的脸部630a、b或c的矩形的中心位于临界矩形620外时，移动镜头直到用户的脸部630a、b或c再次位于临界矩形的内部。
从图6可见，使用这种算法，当用户的头部位于位置630a和630b时无需镜头运动。然而，当用户的脸部位于位置630c时，需将镜头向下和向右移动。
再参看图4可见，如果判定不应移动摄像机(步骤430)，那么系统继续接收视频数据(步骤410)并进行处理(步骤420)。如果判定需要移动网络摄像机来追踪脸部，那么以指定的方向以经计算或预定的量来移动网络摄像机的镜头。所述系统继续接收视频数据(步骤410)并进行处理(步骤420)。
应注意，在一个替代实施例中，机器视觉模块332和其它相关模块被嵌入网络摄像机120a自身，而不是位于计算机110a上。在一个实施例中，摄像机的机械平摇、俯仰和/或推拉由网络摄像机固件所控制。在一个实施例中，所述机器视觉模块332和/或移动控制模块334可全部或部分包括于摄像机自身中。
图7说明网络摄像机、主机核心层(驱动器)和应用程序之间的关系。网络摄像机700包括一个视频传感器702和用于将所述视频传感器的平摇、俯仰和推拉控制机械化的制动器704。USB接口将视频信号712提供给主机，并从主机接收制动器控制命令714以控制所述制动器。这允许将一标准总线用于控制网络摄像机。
在所述主机中，核心层710包括一个具有一脸部追踪系统716的驱动器。这监视视频712，并提供对应用程序720透明的制动器控制信号。也将视频信号712提供到所述应用程序720。实线表示具有脸部追踪的视频路径，虚线表示无脸部追踪的视频路径。在所展示的实例中，所述应用程序是一个即时消息程序。所述即时消息程序具有一个消息窗口722和一个用于显示视频712的视频俘获窗口724。按钮图标可显示于消息窗口中以激活脸部追踪特征。
尽管已说明和描述了本发明的特定实施例和应用，但应了解本发明不限于本文中所描述的精确构造和组件。例如，如上所提及，本发明可用于从一个网络摄像机搜集(pull from)视频的其它应用，而不仅仅是即时消息。在不背离上述权利要求书所界定的本发明的精神和范围的情况下，可对本文中所揭示的本发明的方法和设备的配置、操作和细节进行各种其它修改、改变和变化，其对所属领域的技术人员来说是显而易见的。
权利要求
1.一种用于通过追踪一用户的脸部而机械移动一网络摄像机中的一光学模块的系统，所述系统包含一用于俘获图像数据的光学模块；一耦接到所述光学模块的机器视觉模块，其用于根据所述俘获的图像数据辨别所述用户脸部的位置；一耦接到所述机器视觉模块的移动控制模块，其用于判定是否移动所述光学模块；和一耦接到所述移动控制模块的机械模块，其用于根据所述移动控制模块的决定来移动所述光学模块。
2.根据权利要求1所述的系统，其中所述机械模块位于所述网络摄像机内。
3.根据权利要求1所述的系统，其中所述机器视觉模块和所述移动控制模块位于所述网络摄像机内。
4.根据权利要求1所述的系统，其中所述机器视觉模块和所述移动控制模块位于以通信方式耦接到所述网络摄像机的一计算机中的驱动器内。
5.根据权利要求1所述的系统，其中来自所述网络摄像机的所述图像数据被提供给一即时消息接发应用。
6.根据权利要求1所述的系统，其中所述机器视觉模块包含一脸部检测器，其用于根据预先规定的参数来检测一用户脸部；一肌肤追踪器，其用于根据肤色来追踪一用户肌肤的移动；和一运动检测器，其耦接到所述脸部检测器和所述肌肤追踪器以用于检测一用户脸部的运动。
7.根据权利要求6所述的系统，其中所述机器视觉模块进一步包含一耦接到所述脸部检测器的肌肤取样器，其用于提取所述用户肌肤的样品，并用于将此样品提供给所述肌肤追踪器。
8.根据权利要求1所述的系统，其中所述网络摄像机通过一标准总线连接到一计算机，而发送到所述计算机的视频数据及自所述计算机发送到所述网络摄像机的控制信号均通过所述总线发送。
9.根据权利要求1所述的系统，其中所述网络摄像机根据脸部特征的正定位而移动。
10.一种用于根据一用户脸部的移动而机械移动一俘获图像数据的网络摄像机的方法，所述方法包含处理所述图像数据以估计所述用户脸部的位置；确定是否移动所述网络摄像机；和响应移动所述网络摄像机的决定，移动所述网络摄像机。
11.根据权利要求10所述的系统，其中确定是否移动所述网络摄像机的步骤包含比较所述用户脸部的位置与所述网络摄像机的当前视野；响应所述用户脸部的位置与所述网络摄像机的当前视野的任何边缘之间的差异大于一个规定阈限，决定不移动所述网络摄像机；和响应所述用户脸部的位置与所述网络摄像机的当前视野的任何边缘之间的差异小于一个规定阈限，决定移动所述网络摄像机。
12.一种通过追踪一用户脸部而机械移动的网络摄像机，所述网络摄像机包含一用于俘获视频数据的光学模块；一耦接到所述光学模块的机器视觉模块，其用于根据所述俘获的视频数据辨别所述用户脸部的位置；一耦接到所述机器视觉模块的移动控制模块，其用于判定是否移动所述光学模块；和一耦接到所述移动控制模块的机械模块，其用于根据所述移动控制模块的决定来移动所述光学模块。
13.一种用于通过追踪一用户脸部而机械移动一网络摄像机中的一光学模块的系统，所述系统包含一网络摄像机，其包含一用于俘获视频数据的光学模块；和一耦接到所述光学模块以用于移动所述光学模块的机械模块；一连接到所述网络摄像机的标准总线；和一耦接到所述标准总线的计算机，所述具有一驱动模块的计算机包含一耦接到所述光学模块的机器视觉模块，其用于根据所述俘获的视频数据辨别所述用户脸部的位置；一耦接到所述机器视觉模块的移动控制模块，其用于判定是否移动所述光学模块，并将所述决定提供给所述机械模块。
全文摘要
本发明揭示一种用于机械平摇、俯仰和/或变焦推拉一网络摄像机以追踪一用户脸部的系统和方法。在一个实施例中，所述移动由一所述网络摄像机向其发送视频数据的主机中的核心软件控制。这样，所述主机核心中的驱动器操纵所述脸部追踪，对存取所述视频的应用程序透明。在一个替代实施例中，所述移动由所述网络摄像机自身中的固件所控制。所述视频和控制信号通过相同标准电缆(如，USB总线)发送。在一个实施例中，将视频提供给一即时消息接发应用。通过所述即时消息接发应用，使用标准总线(例如，USB)和将脸部追踪卸载到所述网络摄像机和驱动器允许较容易的使用。
文档编号H04N5/225GK1756306SQ200510073419
公开日2006年4月5日申请日期2005年5月24日优先权日2004年10月1日
发明者保罗·麦卡尔平, 奥利维尔·莱赫内恩内, 文卡泰什·图马提·克里希南, 帕特里克·米奥托恩, 雷米·齐默尔曼, 张玉林申请人:罗技欧洲公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：保罗.麦卡尔平;奥利维尔.莱赫内恩内;文卡泰什.图马提.克里希南;帕特里克.米奥托恩;雷米.齐默尔曼;张玉林
技术所有人：罗技欧洲公司
我是此专利的发明人

上一篇：一种基于移动通信终端的动态密码系统及方法
上一篇：一种内容计费实现方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。