在电视会议和其它应用中用于自适应位置确定的方法和设备的制作方法

文档序号:7644317阅读:150来源:国知局
专利名称:在电视会议和其它应用中用于自适应位置确定的方法和设备的制作方法
技术领域
本发明总的涉及视频信号处理的领域,更具体地,涉及通过使用视频摄像机以使得可以得到想要的视频输出而识别感兴趣的个人或其它目标的位置的技术。
背景技术
跟踪图象中感兴趣的个人或另一个目标,是基于视频摄像机的系统的一个重要的方面,诸如电视会议系统和视频监视系统。例如,在电视会议系统中,常常希望把特定的会议参加者的头部和肩部摄进屏幕,放置在最终的输出信号中。
电视会议常常利用镜头左右扫描-俯仰扫描-变焦(PTZ)摄像机来跟踪感兴趣的物体。PTZ摄像机允许系统定位和光学聚焦摄像机来执行跟踪任务,这种方法的一个问题是,在某些情形下,跟踪机构不够鲁棒,不适用于感兴趣目标的位置的突然改变。这可能是由于摄像机常常调焦到太远而不能对突然的改变作出反应。例如,在电视会议系统中常常会有参加者在他们的座位内移动,例如,前后俯仰,或左右摆动。如果PTZ摄像机对特定的参加者推进焦距太远,则参加者的小的运动都会使得PTZ摄像机会失去对该参加者的跟踪,而必须拉出焦距,以及进行重新跟踪,这将使得最终输出的视频信号的观看者迷惑。
开始,用于电视会议系统中的PTZ摄像机的控制系统要求操作者进行人工调整摄像机,保持聚焦到当前的讲话人。然而逐步地,电视会议系统的用户要求免提操作,其中PTZ摄像机的控制必须全自动。提出或建议了多种技术,用于根据音频和视频信息自动检测个人。音频定位器处理从话筒阵列得到的音频信息,以及确定讲话者的位置。具体地,当已知相对话筒位置时,声音源的位置可以通过使用熟知的三角方法从来自单个源的声波的估计的传播时间差而被确定。
同样地,视频定位器定位在视频图象中感兴趣的一个或多个目标。在电视会议系统方面,感兴趣的物体是讲话者的头部和肩部。视频定位器通过使用图象中的讲话者的头部尺寸和位置的信息来组织安排讲话者的头部和肩部。多种熟知的技术可供使用来检测图象中个人的位置,包括皮肤色调检测,面部检测和背景扣除。对于用于检测图象中个人的位置的这些技术的更详细的讨论,可参阅“FaceRecognitionFrom Theory to Applications(面部识别从理论到应用)”(NATO ASI Series,Springer Verlag,New York,H.Wechsler等,editors,1998),该文章引用在此,以供参考。
所以,需要有改进的技术,可以检测图象处理系统(诸如,电视会议系统)中的个人。进一步需要用于以减小的计算负荷检测在这样的图象处理系统中的个人的方法和设备。
发明概要总的来讲,本发明公开了在视频处理系统中用于通过使用集结技术跟踪感兴趣的物体的方法和设备。具体地,本发明把一个区域划分成近似的区域,被称为一个集群,每个集群与一个感兴趣的物体相联系。每个集群与它的平均的左右扫描、俯仰扫描和变焦数值有关。在说明的电视会议实施方案中,音频或视频信息,或二者,被用来识别与讲话者有关的集群。如果可能的话,一旦讲话者的集群被识别,摄像机就聚焦在该集群上,使用记录的左右扫描、俯仰扫描和变焦数值。
在一个实施方案中,事件累积器初始地累积音频事件(以及任选的视频事件)一段特定的时间,诸如大约3到5秒,允许几个讲话者讲话。累积的音频事件然后被集群生成器使用来生成与各种感兴趣的物体有关的集群。说明的集群生成器采用两级,即,未监管的集结级,诸如相减的集结技术,以及监管的集结级,诸如迭代的基于最佳化的集结技术(即,K平均值集结)。一旦形成初始的集群,它们就被编号放置在位置历史数据库中,每个集群的左右扫描和俯仰扫描数值,以及变焦因子,如果可提供的话,等于相应的集群平均左右扫描、俯仰扫描和变焦数值。
在集群初始化以后,说明的事件累积器按周期间隔,诸如每2秒,收集事件。在每个时间间隔中出现的左右扫描和俯仰扫描数值(和变焦数值,如果可提供的话)的平均值然后被用来根据经验设置的门限值通过同一性估值器计算在数据库中各种集群之间的距离(例如,欧拉距离(Euclidean))。如果该距离大于确定的门限值,则形成相应于新的讲话者的新的集群,以及被编号放置在数据库中。否则,摄像机被聚焦在被识别的集群上。
在另一个变例中,当感兴趣的物体可能位于一个或多个集群时,采用模糊集结技术来使得摄像机在给定的时间内聚焦在一个以上的集群上。通常,成员数值被分配给每个集群,表示给定的数据点属于集群的或然率。如果成员数值没有明显地提出特定的集群,则摄像机可以同时聚焦在具有最高的成员数值的多个集群上。
参照以下的详细说明和附图,可以更全面地了解本发明,以及本发明的进一步的特性和优点。
附图简述

图1是按照本发明的说明性实施例的视频处理系统的方框图;图2是显示在图1的系统中实施的自适应跟踪视频处理运行的功能性方框图;图3是显示图1的自适应位置定位器的功能性方框图;图4是从处理过程的观点描述图3的事件累积器的流程图;图5是图3的集群生成器的方框图;图6是描述图5的非监管的集结处理过程的流程图;图7是描述图5的监管的集结处理过程的流程图;以及图8是从处理过程的观点描述图3的同一性估值器的流程图。
发明详细描述图1显示按照本发明的说明性实施例的视频处理系统10。系统10包括处理器12,存储器14,输入/输出(I/O)装置15以及自适应位置定位器300,下面结合图3进一步讨论,全部被连接来通过系统总线17进行通信。系统10还包括镜头左右扫描-俯仰扫描-变焦(PTZ)摄像机18,如图所示,它被耦合到自适应位置定位器300。
在说明性实施例中,PTZ摄像机18被用于电视会议场合,其中表格20收容多个会议参加者22-1,…,22-k,…,22-N。在运行时,PTZ摄像机18,由自适应位置定位器300按照从处理器12接收的指令引导的,跟踪感兴趣的物体,在本例的应用中,它相应于特定的参加者22-k。另外,如图1所示,视频处理系统10包括话筒阵列16,用于按已知的方式获取音频信息。
虽然本发明是结合电视会议的场合被说明的,但应当看到,视频处理系统10可被使用于各种各样的其它的应用项。例如,系统10的一个部分24可被使用于视频监视应用,以及其它类型的电视会议场合,例如,涉及像正式会议那样的座位安排,圆桌或方桌安排等的应用。更一般地,系统10的一个部分24可被使用于可从由这里描述的自适应位置定位器300提供的改进的跟踪功能获得益处的任何应用项。所以,系统10的一个部分26可以用其它的电视会议装置,视频监视装置,或通过使用系统10的部分24跟踪感兴趣的一个或多个目标的任何其它装置来代替。将会看到,本发明可以结合除PTZ摄像机以外的图象获取设备被使用。所以,这里使用的术语“摄像机”打算包括任何类型的、可以结合这里描述的自适应位置定位器300被使用的、图象获取设备。
应当指出,系统10的元件或元件组可以代表其它的传统的台式或便携式计算机的元件,以及这些和其它处理设备的部件或组合。而且,在本发明的其它实施例中,处理器12、控制器16或系统10的其它元件的某些或全部功能可以被组合成单个装置。例如,系统10的一个或多个元件可以用被引用于计算机、电视机、机顶盒或其它处理设备中的专用集成电路(ASIC)或其它电路卡,来实施。这里使用的术语“处理器”打算包括微处理器、中央处理机、微控制器或任何其它的、可被利用于已知的数据处理设备的数据处理元件。另外,应当指出,存储器14可以代表电子存储器、基于光盘或磁盘的存储器、基于磁带的存储器、以及这些或其它类型的贮存器件的组合或部分。
自适应位置跟踪技术图2是显示由图1的自适应位置定位器实施的跟踪和变焦特性的功能性方框图。再次地,虽然是结合电视会议应用方面显示的,将会看到,所描述的技术可容易地应用于任何其它的跟踪应用项中。如图2所示,跟踪和变焦特性包括检测和跟踪运行32以及光学变焦运行34。这些运行将参照图象40,42和44被描述,这些图象相应于在系统10的部分26中对于示例性电视会议应用项生成的图象。运行32和34在系统10中可以由处理器12和自适应位置定位器300来实施,利用被存储在存储器14中的、或可通过I/O装置15从本地或远端贮存装置可接入的、一个或多个软件程序。
在运行时,PTZ摄像机18生成图象,它包括感兴趣的物体,即,电视会议参加者22-k,和附加目标,即,与感兴趣的物体相邻的另一个参加者22-k+1。图象40作为视频输入被提供给检测和跟踪运行32,它通过使用传统的检测和跟踪技术来检测和跟踪感兴趣的物体22-k。
例如,在电视会议应用项中,感兴趣的物体22-k相应于当前的讲话者。在这种情形下,检测和跟踪运行32可以通过使用音频定位来检测和跟踪感兴趣的物体,诸如确定哪些会议参加者是当前的讲话者,下面结合图3进一步讨论。在另一个变例中,当前的讲话者可以通过使用运动检测、打手势、摇头、以特定的方式运动或以特定的方式讲话,而被识别。
在视频监视应用中,感兴趣的物体可以是进行特定的活动的个人,例如,进入或离开限制的区域,或从事可疑的行为,在家庭的房间内走来走去的儿童,进入或离开停车场的汽车等等。检测和跟踪运行32的输出包括识别感兴趣的特定的目标22-k,如在图象42中打阴影线显示的。
图2的光学变焦运行34提供足够量的变焦,以便确保可以达到想要的图象质量,而同时也允许感兴趣的物体的一定的运动量。光学变焦运行34包括具有用于把感兴趣的物体22-k组织成帧的镜头左右和俯仰扫描运行的编成帧的部分,后面跟随具有变焦运行的变焦部分,它一直进行,直至规定的停止准则满足为止,下面结合图3进一步讨论。通常,有多个可被使用的不同类型的停止准则。在固定的停止准则方法中,光学变焦一直进行,直至感兴趣的物体占据固定的百分比的图象为止。例如,在电视会议系统中,光学变焦可以一直进行,直至当前的讲话者的头部占据图象的垂直尺寸的约25%与35%之间为止。当然,使用的特定的百分数将取决于跟踪应用项而变化。适合于特定的应用项的特定的百分数可以直接由本领域技术人员来确定。
如图2所示,光学变焦运行34的结果是光学变焦图象44,其中感兴趣的物体22-k大约在图象的中心,以及占据图象的想要的百分数,正如根据上述的准则被确定的。图象44可以由系统10被存储在存储器14。
自适应位置定位器图3是显示图1的系统中实施的自适应位置定位器300的功能性方框图。如图3所示,自适应位置定位器300包括音频定位器310,面部跟踪器320,面部定位器330,事件累积器340,集群生成器350,同一性估值器360,位置历史数据库370,探索模块380以及更新显示模块390。
正如下面进一步讨论的,本发明利用事件累积器340,它初始地累积音频事件一段规定的时间,诸如大约3到5秒。累积的音频事件然后被集群生成器350利用,下面结合图5进一步讨论,生成与各个感兴趣的物体有关的集群。正如下面结合图5到7进一步讨论,说明性集群生成器350利用两级。在第一集结级,执行未监管的集结,诸如相减的集结技术。一般地,相减集结是快速一次通过的算法,用于估计集群的数目,以及集群位于数据组的中心。在相减集结技术中,集群的数目通常不需要被规定,而同时必须规定每个集群的近似宽度。
集群估值然后被使用来初始化第二集结级,在其中执行迭代的基于最佳化的集结方法,诸如K平均值集结。一旦初始的集群被形成,则它们被编号到位置历史数据库370,用于每个集群的镜头左右和俯仰数值等于相应的集群平均镜头左右扫描和俯仰扫描数值。如果变焦因子是从事件累积器340可提供的,则变焦因子也成为集群记录的一部分。因此,每个集群由它的相应的左右扫描、俯仰扫描和变焦因子数值代表,如果可提供的话。
在集群初始化后,说明性事件累积器340被复位,每2秒收集事件。在每2秒时间间隔内出现的左右和俯仰数值的平均值然后被同一性估值器360使用来根据经验设置的门限值计算在数据库370中的各个集群之间的距离(例如欧拉距离),下面结合图8进一步讨论。如果距离大于建立的门限值,则新的集群被形成,相应于新的讲话者,以及被编号到数据库370。
在每2秒时间间隔内左右扫描和俯仰扫描数值的平均值也被使用来调整摄像机18的位置,如果必要的话。另外,变焦因子也可能是从面部定位器模块330可提供的。因此,在每2秒时间间隔内,左右扫描、俯仰扫描、和变焦因子(如果可提供的话)根据经验设置的门限值通过探查模块380被记录作为可变长度记录。对于变焦因子和左右、俯仰的使用的频率将被保持,以便确定在会议进程中参加者22-N的位置和运动。
探查模块380控制摄像机18,以及按由面部定位器330确定的的方向定位摄像机18。另外,探查模块380被使用来决定何时在接收机处更新显示器(未示出)。通常,探查模块380采用技术保持摄像机18聚焦在当前的讲话者,而不管其它的噪声,由其它人发出的短的发声,或讲话者的运动。换句话说,探查模块380试图识别由音频定位器310或面部定位器330生成的虚假事件。对于可能由探查模块380实施的各种策略的详细的讨论,可参阅Ramesh Jain等的“Machine Vision(机器影像)”,McGraw-Hill,New York(1995),该书引用在此,以供参考。
如前所述,事件累积器340累积事件某个规定的时间间隔,以及在初始化期间把这些事件传送到集群生成器350。时间限制这样地选择,以使得至少足够数目的人讲话。已经看到,约5秒的时间限制是适当的。应当指出,音频事件由说明性音频定位器310每33毫秒被产生。音频事件所包含的特定的信息包括左右扫描(水平)和俯仰扫描(垂直)角度。音频定位器310可以通过使用例如在以下专利申请中描述的音频定位系统来实施2000年4月13日提交的、题目为“Method and Apparatus for Tracking Moving Objects UsingCombined Video and Audio Information in Video Conferencingand Other Applications(用于通过使用在电视会议和其它应用项中的组合的视频和音频信息跟踪运动物体的方法和设备)”的美国专利申请序列号_(代理档案号No.700966)和1999年11月8日提交的、题目为“Improved Signal Localization Arrangement(改进的信号本地化装置)”的美国专利申请序列号09/436,193,,每个专利申请都转让给本发明的受让人,这两个专利申请引用在此,以供参考。
被包含在视频事件中的特定的信息是变焦因子。面部跟踪器320和面部定位器330可以通过使用例如在以下专利申请中描述的音频定位系统来实施1999年11月24日提交的、题目为“Method andApparatus for Detecting Moving Objects in Video Conferencingand Other Applications(用于检测在电视会议和其它应用项中的运动物体的方法和设备)”的美国专利申请序列号09/449,250和2000年4月13日提交的、题目为“Method and Apparatus for TrackingMoving Objects Using Combined Video and Audio Information inVideo Conferencing and Other Applications(用于通过使用在电视会议和其它应用项中的组合的视频和音频信息跟踪移动目标的方法和设备)”的美国专利申请序列号_(代理档案号No.700966),每个专利申请都转让给本发明的受让人,这两个专利申请引用在此,以供参考。正如以上结合图2讨论的,视频系统也试图聚焦(变焦)在面部,以使得面部以正确的宽高比显示。如果变焦因子是不可提供的,则变焦因子不传送到集群生成器350。在说明性实施例中,每100毫秒产生一个视频事件。
图4是从处理过程的观点描述图3的事件累积器340的流程图。如图所示,事件累积器340分别从话筒阵列16和摄像机18接收语音和视频信息。语音信息被加到音频定位器310,以及视频信息被加到面部跟踪器/定位器320/330,正如以上讨论的。
在步骤410期间,进行测试来确定当前的时间间隔是否仍旧是规定的系统启动时间的一部分。在说明性实施例中,启动时间是3到5秒。如果在步骤410期间,确定当前的时间间隔仍旧是规定的系统启动时间的一部分,则在步骤420期间执行进一步测试,以确定定时器是否超过5秒。
如果在步骤420期间确定定时器还没有超过5秒,则程序控制转到开始端,继续处理来自话筒和摄像机16,18的音频和视频信息。如果在步骤420期间确定定时器超过5秒,则累积的信息被加到集群生成器350,下面参照图5讨论。
如果在步骤410期间确定当前的时间间隔不再是规定的系统启动时间的一部分,则在步骤430期间执行进一步的测试,确定定时器是否超过2秒。如果在步骤430期间确定定时器还没有超过2秒,则程序控制回到开始端,继续处理来自话筒和摄像机16,18的音频和视频信息。然而,如果在步骤430期间确定定时器超过2秒,则累积的信息被加到同一性估值器360,下面参照图8进一步讨论。
如前所述,图5所示的集群生成器350以未监管模式和监管模式工作在两个建立的级。图6所示的未监管集结处理过程500采用相减的集结处理过程。未监管集结处理过程600发现的集群然后被传送到监管集结处理过程700,如图7所示,它采用用于细调节的k平均值集结处理过程。相减的集结在集群数目不需要规定的意义上是完全非监管的。被规定的唯一的参量是集群的预期的扩散。一旦找到集群,集群的数目被传送到k平均值集结处理过程。因此,k平均值集结处理过程取一个参量,集群数目。
如前所述,集群生成器350利用如图6所示的非监管的集结处理过程600,识别与感兴趣的目标有关的集群。在说明性实施例中,非监管的集结处理过程600利用相减的集结技术。对于相减的集结技术的更详细的讨论,例如,可参阅Stephen L.Chiu,“Fuzzy ModelIdentification Based on Cluster Estimation(基于集群估值的模糊模型识别)”Journal of Intelligent and Fuzzy Systems,Vol.2,267-278(1994),该文章引用在此,以供参考。
图6显示描述非监管的集结处理过程600的流程图,它识别与感兴趣的目标有关的集群,诸如当前的讲话者。考虑在M维空间的n时间点集{x1,x2,…,xn},其中每个数据点是潜在的集群中心。给定的数据点xi的电位的度量被规定为Pi=Σj=1ne-α||xj-xj||2---(1)]]>其中α=4ra2]]>以及ra是正的常数。因此,数据点的电位的度量是它到所有其它点的距离的函数。具有许多相邻的数据点的数据点将具有高的电位值常数ra实际上是规定相邻者的半径。在这个半径以外的数据点对电位具有很小的影响。
如图6所示,在步骤610期间计算每个数据点的电位。此后,在步骤620期间,选择具有高的电位的数据点,作为在步骤630期间的第一集群中心。令x1*是第一集群中心的位置以及P1*是相应的电位值。每个数据点xi的电位然后在步骤640期间如下地被修订Pi⇐Pi-P1*eβ||xi-x1*||2---(2)]]>其中β=4rb2]]>以及rb是正的常数。因此,在公式(2)中电位量从每个数据点被减去,作为从第一集群中心到它的距离的函数。靠近第一集群中心的数据点将具有大大地减小的电位,所以,它未必被选择为下一个集群中心。为了避免得出位置靠近的集群中心,rb被设置为大于ra的某个数值。已发现良好的选择是rb=1.5ra。
当所有的数据点的电位按照公式(2)被修订时,具有最高的剩余的电位的数据点被选择作为第而集群中心。某个数据点的电位然后按照它们到第二集群中心的距离被进一步减小。通常,在得到第k个集群中心后,每个数据点的电位由下式被修订Pi⇐Pi-Pk*e-β||xi-xk*||2]]>其中xk*是第k个集群中心的位置,以及pk*是它的电位值。
得出新的集群中心和修订电位的处理过程重复进行,直至在步骤650期间以下的准则被满足为止。如果 ,则xk*被接受为集群中心,以及继续进行步骤660。否则,如果 ,则xk*为被拒绝,以及在步骤670期间集结处理过程600结束。
在步骤660期间,进行距离测试,其中dmin等于在xk*与所有先前找到的集群中心之间距离中的最短的距离。如果(dmin/ra)+(P*k/P*1)≥1,则xk*被接受为集群中心,以及继续处理过程。否则,xk*为被拒绝,以及在步骤640期间电位在xk*处被设置为0。具有下一个最高的电位的数据点被新的xk*,以及在步骤650期间进行重新测试。
图7显示描述说明性监管的集结处理过程700的流程图,它利用k平均值集结处理过程,来细调节由分监管的集结子程序600建立的集群。对于k平均值集结技术的更详细的讨论,例如,可参阅P.A.Devijver和J.Kittler,“Pattern Recognition - Astatistical Approach(图案识别-统计方法)”Prentice HallInternational,409(1982),该书引用在此,以供参考。
如图7所示,监管的集结处理过程700接收由非监管的集结处理过程识别的集群的数目。此后,在步骤710期间,监管的集结处理过程700生成数据组Y到k个集群的随机划分。因此,如果rj,j=1,2,…,k,则在步骤720期间,计算平均矢量mj,j=1,2,…,k。
在步骤730期间,在Y中选择点y,以及点y被分配给其平均值最接近于y的集群。换句话说,如果dist(y,mj)=minkdist(y,mk),则y被分配给rj。在步骤750期间进行测试,确定Y中的数据样本的完全扫描是否导致从一个迭代到另一个迭代的集群平均值的改变。如果有改变,则在步骤740期间,平均矢量如下地被更新,mj,j=1,2,…,k,以及程序控制返回到步骤730。
如果没有改变,则在步骤760期间程序控制终结,以及建立的集群值被记录在集群数据库370中。
如前所述,同一性估值器360找到在2秒间隔中的事件平均值之间的同一性,集群由集群生成器350在起始5秒间隔内被找到,以及被编号放置在集群数据库360。同一性是通过使用熟知的欧拉距离度量被找到的。在数据库360中、最接近于当前的集群的集群中心被探索模块380使用来发送信息到摄像机18,以便正确地聚焦。
图8是从处理过程的观点描述同一性估值器360的流程图。如图8所示,同一性估值器360接收来自事件累积器340的事件数据(当前的数据点被处理),和来自历史数据库370的集群数据。初始地,在步骤810期间,同一性估值器360计算在当前的数据点与所有的以前识别的集群之间的距离。如果在步骤810期间计算的距离值不是在任何的集群的预定的门限值内,则同一性估值器360可以建立新的集群。此后,同一性估值器360在步骤820期间为每个集群分配有关成员数值,表示数据点属于相应的集群的概率。成员数值,ui(x),可以在步骤820期间被计算为如下ui(x)=1/||x-Zi||2/(m-1)Σj=1c(1/||x-Zj||2/(m-1))]]>其中变量m确定当计算每个集群对成员数值的贡献时距离被加权得多重。如果m是2,则每个相邻的集群的贡献通过它离被分类的点的距离的倒数进行加权。当m增加时,集群被更平等地加权,以及它们离被分类的点的相对距离具有较小的影响。当m接近于1时,更靠近的集群比离得远的集群更重地被加权,这具有减小贡献到被分类的点的成员数值的集群数目的效果。而且,x是包含镜头左右扫描-俯仰扫描-变焦的数值的数据矢量以及Z是集群。
在步骤830期间,同一性估值器360识别带有最高的成员数值(概率)的单个集群,或带有在互相的预定的公差范围内的成员数值的两个集群(太靠近而不能分开)。最后,在步骤840期间,同一性估值器360发送与选择的集群有关的、平均的镜头左右扫描-俯仰扫描-变焦数值到摄像机18。在这种情形下,如果在步骤830期间识别一个以上的集群,则摄像机将聚焦一个以上的集群,而不是试图识别实际的扬声器。
本发明的上述的实施例仅仅是说明性的。例如,本发明可被使用来实施实时跟踪任何想要的感兴趣的物体,以及在各种各样的应用项中,包括电视会议系统,视频监视系统,和其它基于照相机的系统。另外,虽然是通过具有单个PTZ摄像机的系统来说明的,但本发明也可以应用于具有多个PTZ摄像机的系统以及应用于具有其它类型和安排的图象获取装置的系统。而且,本发明可以利用许多不同类型的技术来检测和跟踪感兴趣的物体,以及提取和插入感兴趣的区域。本发明也可以至少部分地以被存储在电子、磁的、或光的贮存媒体的、以及由处理设备,例如,系统10的处理器12执行的、一个或多个软件程序的形式被实施。在以下权利要求的范围内的这些和许多其它实施例对于本领域技术人员是显而易见的。
权利要求
1.一种在视频处理系统(10)中,用于跟踪图象空间中感兴趣的物体(22)的方法,所述视频处理系统(10)包括摄像机(18)和处理至少一个音频和视频信息,方法包括以下步骤把所述图象空间划分成近似的区域,每个区域与一个所述感兴趣的物体(22)相联系;处理至少一个所述音频和视频信息,来识别与当前的一个所述感兴趣的物体(22)有关的、一个所述近似的区域;以及把所述摄像机(18)聚焦在所述识别的至少一个所述的近似区域。
2.权利要求1的方法,其中所述划分步骤还包括集结由音频定位器(310)在固定的时间间隔内产生的左右和俯仰扫描数值的步骤。
3.权利要求2的方法,其中所述划分步骤还包括集结由视频定位器(320,330)在固定的时间间隔内产生的变焦数值的步骤。
4.权利要求3的方法,其中所述集结步骤还包括在初始化期间执行非监管的集结处理过程(600)的步骤。
5.权利要求3的方法,其中所述集结步骤还包括执行监管的集结处理过程(700)的步骤。
6.权利要求3的方法,其中所述左右扫描、俯仰扫描和变焦数值包括一个数据点以及所述集结步骤包括以下步骤计算每个数据点的电位作为所述数据点离所有其它数据点的距离的函数;选择具有最高的电位的数据点作为集群中心;调节所述电位值作为从所述选择的集群中心的距离的函数;重复进行所述步骤,直至预定的门限值满足为止。
7.权利要求1的方法,其中所述处理和聚焦步骤是以特定的间隔被执行的。
8.一种在视频处理系统(10)中,用于跟踪图象空间中感兴趣的物体(22)的方法,所述视频处理系统(10)包括摄像机(18)和处理至少一个音频和视频信息,方法包括以下步骤把所述图象空间划分成近似的区域,每个区域与一个所述感兴趣的物体(22)相联系;处理至少一个所述音频和视频信息,来识别当前的感兴趣的物体(22);计算所述当前感兴趣的物体属于每个所述近似的区域的概率;以及根据所述概率计算,把所述摄像机(18)聚焦在所述一个或多个所述识别的近似区域。
9.权利要求8的方法,其中所述划分步骤还包括集结由音频定位器(310)在固定的时间间隔内产生的左右和俯仰扫描数值的步骤。
10.权利要求9的方法,其中所述划分步骤还包括集结由视频定位器(320,330)在固定的时间间隔内产生的变焦数值的步骤。
11.权利要求10的方法,其中所述集结步骤还包括在初始化期间执行非监管的集结处理过程(600)的步骤。
12.权利要求10的方法,其中所述集结步骤还包括执行监管的集结处理过程(700)的步骤。
13.权利要求10的方法,其中所述左右扫描、俯仰扫描和变焦数值包括一个数据点以及所述集结步骤包括以下步骤计算每个数据点的电位作为所述数据点离所有其它数据点的距离的函数;选择具有最高的电位的数据点作为集群中心;调节所述电位值作为从所述选择的集群中心的距离的函数;重复进行所述步骤,直至预定的门限值满足为止。
14.权利要求8的方法,其中所述处理和聚焦步骤是以特定的间隔被执行的。
15.权利要求8的方法,其中如果对于所述多个近似区域的所述概率计算处在互相的预定的门限值内,则所述聚焦步骤把所述摄像机(18)聚焦在多个所述识别的近似区域。
16.权利要求8的方法,其中如果对于所述的一个近似区域的所述概率计算不是在对于其它近似区域的任何的所述概率计算的预定的门限值内,则所述聚焦步骤把所述摄像机(18)聚焦在一个所述近似区域。
17.一种在视频处理系统(10)中,用于跟踪图象空间中感兴趣的物体(22)的系统,所述视频处理系统(10)包括摄像机(18)和处理至少一个音频和视频信息,包括存储器,用于存储计算机可读的代码;以及处理器,运行时被耦合到所述存储器,所述处理器用来把所述图象空间划分成近似的区域,每个区域与一个所述感兴趣的物体(22)相联系;处理至少一个所述音频和视频信息,来识别与当前的一个所述感兴趣的物体(22)有关的、一个所述近似的区域;以及把所述摄像机(18)聚焦在所述识别的至少一个所述的近似区域。
18.一种在视频处理系统(10)中,用于跟踪图象空间中感兴趣的物体(22)的系统,所述视频处理系统(10)包括摄像机(18)和处理至少一个音频和视频信息,包括存储器,用于存储计算机可读的代码;以及处理器,运行时被耦合到所述存储器,所述处理器用来把所述图象空间划分成近似的区域,每个区域与一个所述感兴趣的物体(22)相联系;处理至少一个所述音频和视频信息,来识别当前的感兴趣的物体(22);计算所述当前感兴趣的物体属于每个所述近似的区域的概率;以及根据所述概率计算,把所述摄像机(18)聚焦在所述一个或多个所述识别的近似区域。
19.一种在视频处理系统(10)中,用于跟踪图象空间中感兴趣的物体(22)的制造的产品,所述视频处理系统(10)包括摄像机(18)和处理至少一个音频和视频信息,包括计算机可读媒体,具有在其上实施的计算机可读代码装置,所述计算机可读程序代码装置包括把所述图象空间划分成近似的区域的步骤,每个区域与一个所述感兴趣的物体(22)相联系;处理至少一个所述音频和视频信息,来识别与当前的一个所述感兴趣的物体(22)有关的、一个所述近似的区域的步骤;以及把所述摄像机(18)聚焦在所述识别的至少一个所述的近似区域的步骤。
20.一种在视频处理系统(10)中,用于跟踪图象空间中感兴趣的物体(22)的制造的产品,所述视频处理系统(10)包括摄像机(18)和处理至少一个音频和视频信息,包括计算机可读媒体,具有在其上实施的计算机可读代码装置,所述计算机可读程序代码装置包括把所述图象空间划分成近似的区域的步骤,每个区域与一个所述感兴趣的物体(22)相联系;处理至少一个所述音频和视频信息,来识别当前的感兴趣的物体(22)的步骤;计算所述当前感兴趣的物体属于每个所述近似的区域的概率的步骤;以及根据所述概率计算,把所述摄像机(18)聚焦在所述一个或多个所述识别的近似区域的步骤。
全文摘要
公开了在视频处理系统中用于通过使用集结技术跟踪感兴趣的物体的方法和设备。一个区域被划分成近似的区域,被称为集群,每个集群与一个感兴趣的物体相联系。每个集群具有相关的平均的左右、俯仰和变焦数值。音频或视频信息,或二者,被使用来识别与讲话者(或另外的感兴趣的物体)有关的集群。一旦感兴趣的集群被识别,摄像机就通过使用记录的镜头左右扫描、俯仰扫描和变焦数值(如果可提供的话)而聚焦在该集群上。事件累积器初始地在一段特定的时间内累积音频(任选地,视频)事件,允许几个讲话者讲话。积累的音频事件然后被集群生成器生成与各个感兴趣的物体有关的集群。在集群初始化后,显示的事件累积器以周期的时间间隔收集事件。
文档编号H04N7/15GK1383682SQ01801876
公开日2002年12月4日 申请日期2001年4月17日 优先权日2000年5月3日
发明者S·古塔 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1