用于音源追踪的装置和方法

文档序号:7606095阅读:336来源:国知局
专利名称:用于音源追踪的装置和方法
技术领域
本发明涉及信号源定位,具体地说,本发明涉及在视频会议中空间定位有源扬声器的装置和方法。
背景技术
信号定位被用在若干应用中。最广泛的应用可能是TV节目制作。在例如辩论节目中,对于观众的经验和可懂度而言,重要的是活动摄像机对准(并且最好放大)当前的演讲者。然而,传统上这是由制片人手动处理。在摄像头和麦克风捕捉许多人的图象和声音的其它应用中,也许不可能或不需要有专门控制性能的人。
这种应用的一个例子是视频会议系统中对准的自动摄像机。视频会议呼叫中终点处的典型地点是会议室,其中许多参与者坐在桌子周围观看终点的显示设备,而靠近该显示设备安放的摄像机正捕捉该会议室的图象。如果在该房间中有许多参与者,对于在远端侧观看会议室图象的那些人而言,可能难以确定演讲者或者听到该演讲者的辩论。因此,最好将有源扬声器定位在房间中,并且自动使摄像机对准和/或移到该参与者上。被提供摄像机范围内某些位置的、摄像机的定向和变焦在本技术中是众所周知的,并且不会再详细讨论。问题是提供有源扬声器的充分精确的空间和时间定位,以便提供可接受的自动视频会议制作。
已知的音源定位装置使用多个空间上间隔的麦克风,并且常常是基于接收机输出处的信号之间的延迟差。如果已知麦克风的位置以及源和不同麦克风之间传播路径之间的延迟差,则可确定源的位置。如果使用两个麦克风,则可以确定关于它们之间基线的方向。如果使用三个麦克风,则可以确定2D平面中源的位置。如果使用多于三个、不是置于单平面中的麦克风,则可以确定三维中源的位置。
在美国专利号5778082中示出了音源定位的一个例子。该专利教授了使用一对空间上分离的麦克风来获得音源的方向或位置的方法和系统。通过检测表示相同音源声音的、麦克风的各个信号的开始,可确定音频信号之间的延时,并且可计算到该音源的距离和方向。
在音频定位的这些和其它的已知解决方案中,用于方向和距离计算的麦克风被靠近摄像机放置。摄像机一般被置于屏幕的顶部,超过会议桌的末端。至少一些参与者将坐在远离麦克风设置(r)处。该设置具有一些优点,以下将讨论这些优点。
由于扬声器和麦克风设置之间的长距离,因此方向角的期望扩展小,并且声音到达时间差的扩展相应地小。这降低了定位算法的精度。然而,由于长距离r,因此算法应该是精确的。
一种增加时间到达差的方式是增加麦克风之间的距离(表示为d)。然而,现有技术已经示出不能增加d太多,这是由于进入不同麦克风的信号趋向于与非常大的d无关联。现有技术已经示出20-25cm的距离d提供最佳结果。
具体地说,由于使用相对靠近间隔的麦克风对之间的小角度差来计算距离,因此在传统系统中该距离的计算容易出错。即,该方法假设扬声器处于麦克风系统的近场中,这在许多情况下是可疑的假设。
直达声(它是用于计算方向的声音)的电平与距离r成反比。由于扬声器和麦克风之间的长距离,因此来自扬声器的信号将是弱的,并因此对背景噪声以及麦克风和电子设备的自身噪声敏感。
由于长距离,因此来自扬声器的声音的反射会以几乎与直达声同样高的电平到达麦克风设置。因此,可能做出不正确和不准确的决定。
这些缺点将一直是障碍,但可通过在长时间帧上结合音频的方式补偿。然而,这同样具有慢响应系统的缺点,这是现有音频追踪系统的典型弱点。

发明内容
公开的独立权利要求中定义的特征描述了上述装置和方法。
具体地说,本发明公开了通过确定音源相对于麦克风元件的一个或多个麦克风或阵列的位置、从音源相对于一个或多个麦克风或阵列中的一个的位置几何地推导摄像机与音源之间的第一距离和/或方向以及摄像机与一个或多个麦克风或阵列中的一个之间的第二距离和/或方向的方式定位音源相对于摄像机的位置的装置和方法。
附图简要描述为了使本发明更容易理解,以下的讨论将参考附图,

图1是示出根据本发明的视频会议系统的框图;图2示出使用远场假设从音源接收声信号的一对麦克风的角度的示例的图形;图3示出确定垂直面中摄像机与音源之间的角度和距离的图形。执行本发明的最佳模式在下文中,将通过描述优选实施例和参考附图来讨论本发明。然而,本领域的技术人员将认识到所附独立权利要求中定义的本发明保护范围内的其它应用和修改。
根据本发明,麦克风系统被安放在桌子处(一般是在会议室中一群参与者的中间),而不是安放在摄像机处。那么与参与者的距离通常将更短,并且近场假设将更加正确。
本发明公开了定位音源的两种分离的方式。定位一个或多个麦克风的、最好尽可能靠近使用的摄像机放置的定位设备最好尽可能靠近参与者安放,而麦克风(从现在起称为桌面麦克风)反过来相对于其自身的位置定位音源。为桌面麦克风提供两个或多个麦克风元件,或者备选地,可使用两个或多个分离的桌面麦克风。由于桌面麦克风靠近音源安放,因此降低了麦克风元件之间的距离相对于桌面麦克风和音源之间的距离的比值。因此,桌面麦克风能够以比靠近摄像机放置时更高的分辨率和速度确定音源的位置。
当已知桌面麦克风相对于摄像机和音源的各个位置时,查找音源相对于摄像机的位置将是非常简单的。以这种方式,结果的精度对于音源相对于摄像机的放置的依赖比对于桌面麦克风有多靠近音源、以及桌面麦克风相对于摄像机定位的精度和速度更小。后者比摄像机与音源之间的直接关系可控制得多。
如已经指出的,想法是结合两个或多个坐标系统,以定位有源扬声器。一个或多个坐标系统将被安放在摄像机侧,并且一个或多个坐标系统将被安放在麦克风侧。可通过手动测量(在固定的桌面麦克风位置的情况下)、一些种类的模式识别、使用桌面麦克风上诸如声音、IF、RF等的信号源、或者通过使摄像机侧具有一个或多个信号源(其可由桌面麦克风获得)的方式计算桌面麦克风相对于摄像机的位置和方位。本发明利用了摄像机与桌面麦克风之间的相对位置有可能比音源相对于摄像机的位置的直接检测更精确这一事实。该想法还将检测装备靠近所要追踪的参与者放置,这提供了近场计算而非远场计算,以便得到精确的测量,然后计算该装备相对于摄像机的坐标系统的方向和距离。最后,结合这些计算,以找到从摄像机到参与者的直接方向和距离。
在图2中示出了一种计算音源方向的方式。根据本技术的状态、通过例如美国专利号5778082中描述的信号开始检测、或者通过国际专利申请号WO 00/28740中描述的使声路径的冲激响应分别与麦克风B和麦克风A交叉关联的方式确定到达麦克风B和麦克风A的声信号之间的延时。
一旦产生延时信号t,可根据下式确定源C相对于麦克风B和麦克风A的方位角θ=arcsin[v×tD]]]>其中v是声速,t是延时,并且D是桌面麦克风之间的距离。估计声源方向的该方法是基于远场近似,其中假设声信号以平缓波或平面波的形式到达麦克风A和麦克风C。如果平面波的假设不适用于特定应用,则其它技术可用于确定源C相对于麦克风A和麦克风B的方向或位置。这种技术可包括例如将附加麦克风结合在系统中,并且根据上述方法在附加麦克风对处产生对应于信号到达时间差的延迟。根据已知技术,然后多个延时可用于确定源C的方向或位置。
上述方法仅估计远场因素中来自一个平面中音源的方向。为了使用该方法获得三维估计,必须增加不与其它两个对齐的第三麦克风或麦克风元件麦克风C。该麦克风将和麦克风A和麦克风B一起构成两个附加麦克风对。
为了得到音源相对于桌面麦克风的位置,考虑近场因素,可能需要更复杂的方法。该方法的例子是最大似然(ML)定位方法,即Erik Leenderts于1997年所著“视频会议环境中声源的声学定位”中描述的。ML方法利用了结合所有可能的麦克风对的静态优点。该方法的目的是通过使用桌面麦克风配置可提供(通过一些延时估计量方法,例如根据美国专利5778082的方法)的、结合多个位置的期望延时的所有延迟信息来找到最可能的源位置。
对于房间内的每个点P=(Xp、Yp、Zp)而言,可计算每个麦克风对的相关联的期望延时。对于由麦克风Mi和Mk组成的对而言,在已知麦克风位置时,可准确计算从P看到的相对延迟(称为τik(P))。该计算在本技术中是众所周知的,并且这里将不再详细描述。该方法假设如果P是不同于源S0的位置,则τik(p)不同于τik。使用Nmics麦克风,可构建多达Npairs=Nmics2]]>
个不同的的麦克风对,每对具有相关联的估计延时P。可结合这些估计,以便为该房间中的所有位置P创建误差放置函数E(P)。
E(P)=Σi=1k=i+1Nmics(rik(P)-τik^)2]]>其中 是Mi和Mk的估计延时。可期望该函数在P=S0处产生最小值。
如果找到准确的源位置,则P=S0,并且误差函数变为E(S0)=Σi=1k=i+1Nmics(rik-τik^)2]]>其中在理想环境中将导致E(S0)=0。
描述的该方法使得可以结合所有的麦克风对,而不引入任何几何误差。
由于噪声和混响,因此一些延迟估计将比其它的更可靠。一些估计甚至会被证明根本没有用。如果已知每个延时估计(TDE)的可靠性,则加权函数可被包括在误差函数中E(P)=Σi=1k=i+1Nβik(rik(P)-τik^)2]]>其中βik是延迟估计 的加权参数。
由于现在可完全丢弃一些延迟估计,因此必须检验剩下的延迟估计是否能够几何地定位源。如果如此,则估计将比考虑所有延迟估计时精确的多。如果事实并非如此,则无论如何定位都将是不精确的。
如何找到βik需要全面的调查,并且这里将不再考虑。
可通过计算一组P的E值并找到其中的最小值、或者通过使用梯度搜索方法来找到E(P)函数的最小值点、并因此是最可能的音源位置。
如果使用可能和大概的源位置(相对于桌面麦克风位置)的预定选择,则在执行定位以前可计算所有的rik(P)值。当估计延迟时,可将这些延迟与预先计算的点的延迟比较,以找到E函数上的最小值点。如果将潜在的点沿所有方向分隔10cm,则会期望系统错过实际源少于52+52+52=8.7cm.]]>会议地点中的期望参与区域是有限的。如果期望参与者位于桌面麦克风前方1-5米、到每侧最大3米内,这意味着当使用10cm栅格尺寸时产生(400/10+1)*(600/10+1)=2501个点。视频会议应用中另一个合理的近似是期望音源位于地面上方100cm-180cm之间。
在这些条件下,仍然使用10cm栅格尺寸,计算点的总数现在变为2501*(80/10+1)=22509。
可进一步限制“合法”源位置的区域,但是仍然留下数千个E值有待计算。由于这个原因,会期望梯度搜索提供更高的时间效率。
存在许多其它可能的确定音源相对于桌面麦克风位置的方式,大部分方式在精度和分辨率上相对于麦克风元件之间的距离(d)增加桌面麦克风与音源之间的距离(r)。然而,应该注意的是,如果d太大,则从相同音源接收的各个声音将显著不同(由于反射等),这使延迟测量变得不可能。因此,d具有工作上限。现有技术示出最佳距离d是在20-25cm的范围内。
本发明将工作在近场中的优点转换为音源相对于摄像机的位置的总远场计算。已经提到的计算方法当然也可以用在远场部分中,即在确定桌面麦克风相对于摄像机的位置期间,但在此情况下,涉及的位置是更可控制的,这使得即使是远场计算,计算也更加快速和更加精确。此外,与麦克风/音源的情况相反,该定位过程并不局限于单向计算。也就是说,摄像机可检测桌面麦克风的位置,并且桌面麦克风可检测摄像机的位置。此外,由于大多数应用中的桌面麦克风和摄像机将是固定的,因此需要不那么复杂和要求速度的方法。在一些应用中,当桌面麦克风和摄像机都固定时,甚至可使用预定的距离和方向值。
在本发明的优选实施例中,所有的定位功能都是由桌面麦克风提供,以便限制与视频会议装备相关联的其它装备的调节。在该实施例中,除了桌面麦克风之外的仅有的调节是安装在摄像机上或靠近(或者与其已知或可检测相关)摄像机的辅助声源。桌面麦克风适用于识别来自该辅助声源的已知信号。辅助声源可以以人的声频范围以外的频率和/或人耳不能检测的幅度发声,以免干扰进行中的会议。辅助声源还可以是使用的视频会议装备的扩音器。在此情况下,必须已知、或者必须每次检测该扩音器相对于摄像机的位置。
如上所示,当控制所要定位的音源时,定位会比非可控音源(诸如扬声器)精确得多,并且消耗更少时间。可从对应的转移函数推导扩音器到麦克风系统的传播延迟。普遍使用的、用于测量扩音器到麦克风的转移函数的技术是最大长度序列(MLS)技术。MLS信号是一系列具有某些特性的信号类型。本文中最重要的特性是当这些信号被提供给系统输入时,这些信号与系统输出的交叉相关准确地提供了系统冲激响应。这是从以下一组等式推导的,其中h是系统的冲激响应,y是输入为MLS信号x的系统的输出信号,r是交叉相关函数,并且δ是δ函数y=h*xy(n)=Σk=-∞∞h(k)×(n-k)]]>ryx(l)=Σm=-∞∞y(m)x(m-l)]]>ryx(l)=Σm=-∞∞x(m-l)Σ-∞∞h(k)x(m-k)]]>ryx(l)=Σm=-∞∞h(k)Σk=-∞∞x(m-l)x(m-k)]]>ryx(l)=Σk=-∞∞h(k)rxx(l-k)]]>ryx(l)=h*rxx(l)
在将MLS信号输入本发明系统的辅助声源(例如扩音器)、并测量麦克风的各个输出时,可确定由辅助声源-声学环境-麦克风组成的系统的冲激响应。该冲激响应公开了信号的绝对延迟,同时隐含地公开了音源和麦克风之间的绝对距离。各个麦克风或麦克风元件中信号的接收时间之间的相对延迟、以及这些麦克风或麦克风元件之间的距离实现了桌面麦克风相对于音源的方向和方位的估计。
本发明的备选实施例使用摄像机的视觉能力。然后为桌面麦克风提供预先存储的、可由摄像机访问的、容易识别的形状或模式。以这种方式,摄像机本身(或控制单元)将被实现为通过推导摄像机捕捉的图象内的可识别模式的大小和放置来计算桌面麦克风的位置。备选地,该形式可包括两个或多个可控光源,以帮助摄像机识别和定位桌面麦克风。控制单元还可被调节为测量光从桌面计算机传播到摄像机的时间,并且通过该时间来推导位置。
在本发明的另一个实施例中,摄像机与桌面麦克风使用RF(射频)检测来将彼此定位在本地定位系统中。当然,麦克风和摄像机之间的相对位置也可以是固定的。
当找到摄像机与桌面麦克风之间、以及桌面麦克风和音源之间的相对位置时,仅冗长的集合计算继续查找摄像机与视频源之间的相对位置。参考图3,这是给定角度α1、α2以及距离a和b来计算角度α3和距离c的问题。几何因素包含垂直面中摄像机与音源之间距离c和角度的以下表达式c=a2tan2α1+b2tan2α2]]>α3=arcsin(asinα1-bsinα2c)]]>可以以完全相同的方式计算平面图的对应值。给定摄像机的位置,则可容易通过例如勾股定理来计算音源的三维位置。
使用关于到有源扬声器的方向的信息,可以沿正确的方向安放机动摄像机。使用关于距离的信息,可调节正确的可变焦距比和焦距。
于是图1的视频会议系统的操作如下。当位置A处的一个参与者开始说话时,该参与者的语音产生的声信号被桌面麦克风获得、被发送到控制单元(在该处以已知形式处理这些信号)、并被经由传输系统传输到位置B。在位置B处,在扩音器上再现接收的声信号。
说话的参与者产生的声信号还被麦克风阵列中的麦克风获得。获得的信号被发送到控制单元,在该处最好处理来自各个麦克风对的信号,并且根据上述方法确定说话的参与者的最可能的位置。通过类似地确定桌面麦克风和摄像机中辅助声源之间的相对方向和距离,通过几何计算确定摄像机与音源之间的相对方向和距离。然后该信息用于自动对准或调节摄像机的方向和/或变焦。
例如,确定的方向可直接或间接地用于调节摄像机的方位,以便指向音源的位置。可通过使距离与相对于初始图象的变焦量(以百分比为单位)相关联来执行自动变焦。当检测到新的音源或者移动有源扬声器时,距离(或距离间隔)和百分比之间的关联可被存储在特别查询可用的控制单元中的表格中。
本发明的备选实施例还可将音频检测与视觉签名结合,用于调整摄像机方位和变焦。在音频检测之后,有源扬声器最可能位于摄像机捕捉的图象内。然后摄像机或控制单元通过预先存储的他/她的视觉签名来标识该图象内的有源扬声器。并且如果发现摄像机相对于有源扬声器的变焦/方位不精确,则根据图象内标识的有源扬声器的位置调节该变焦/方位。另一个改进将是使视觉签名与对应的音频签名相关联。如果音频检测之后在捕捉的图象内出现多于一个视觉签名,则摄像机或控制单元将在通过调查有源扬声器的音频签名来调整时知道选择哪一个视觉签名。由于音频检测防止中断的不连续移动,因此通过视觉和/或音频签名的调整最好应该与摄像机移动平稳地结合。
存在若干个使用根据本发明的方法和/或配置的优点,以下讨论其中一些优点。
首先,当r降低时,d/r比将增加。这意味着任何角度差包含更大的时间到达差。此外,对于高达360度的水平面而言,角度的有效扩展增加。这包含更大的时间到达差。
其次,来自扬声器的信号将更强,并且信号-混响将更强,这提供了改进的计算。
第三,由于r降低,因此时间差(以及角度)的任何计算误差将在实际位置上具有成比例的(与r)、更低的误差。
此外,降低的d/r包含可实现真正的近场假设,并且距离的计算将更精确。
给出了这些优点,可以以更高的精度和更快的速度来查找麦克风系统和扬声器之间的相对位置。
然而,仍然必须以高的精度来确定麦克风系统相对于摄像机的位置。由于以下原因,因此使用该定位的音频、以及置于摄像机处的扩音器,这是简化的问题该系统趋向于是固定的(不是移动的)。因此,可在长时间上结合所有计算,这获得非常精确的测量。
扩音器上发出的音频是可控的,并且通过使用正确的统计来选择信号,将易于精确地计算时间到达差以及方向/角度。
扩音器的可控性提供了查找从扩音器传播到麦克风系统的音频的绝对时间。由于声速是已知的,因此可找到绝对距离。因此,不需要关于扩音器和麦克风系统之间近场的可疑假设。
例如MLS(最大长度序列)的正确算法技术相对于噪声非常健壮,并且因此扩音器和麦克风系统之间的长距离(即低信号噪声比)不会提出大的挑战。MLS技术还能够区别直达声和反射声,因此,信号-混响比不会提出大的挑战。
权利要求书(按照条约第19条的修改)1.一种通过确定音源和麦克风元件的一个或多个麦克风或阵列之间的第一距离和方向来定位所述音源相对于摄像机的位置的方法,其特征在于确定所述摄像机与所述一个或多个麦克风或阵列中的一个之间的第二距离和方向,从所述音源和一个或多个麦克风或阵列之间的所述第一距离和方向、以及所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和/或方向来几何地推导所述音源相对于所述摄像机的所述位置。
2.如权利要求1所述的方法,其特征在于通过检测从所述音源到一个或多个麦克风或麦克风元件对的所述麦克风或麦克风元件的接收声信号的各个时间差来确定所述音源和一个或多个麦克风或阵列之间的所述第一距离和方向的所述步骤。
3.如权利要求1或2所述的方法,其特征在于所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和方向是固定的。
4.如权利要求1或2所述的方法,其特征在于通过以下步骤确定所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和方向从相对于所述摄像机的已知或可检测的位置传输声信号,分别在所述阵列的两个或多个所述麦克风或元件中接收所述声信号,处理所述接收声信号,用于计算所述摄像机与所述一个或多个麦克风或麦克风阵列中的一个之间的所述第二距离和/或方向。
5.如权利要求1或2所述的方法,其特征在于通过以下步骤确定所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和方向为所述一个或多个麦克风或阵列中的所述一个提供可识别模式,标识所述摄像机捕捉的图象内的所述可识别模式,通过所述图象内所述模式的大小和/或位置确定所述第二距离和/或方向。
6.如权利要求2-5中的任一项所述的方法,其特征在于确定所述音源和一个或多个麦克风或阵列之间的所述第一距离和方向的所述步骤包括以下步骤对于预定的一组点中的每个点,计算从所述音源到每个可能的麦克风或麦克风元件对的各个麦克风或麦克风元件的接收声信号的第一时间差,测量从所述音源到每个可能的麦克风或麦克风元件对的所述各个麦克风或麦克风元件的接收声信号的第二时间差,通过将所有可能的麦克风或麦克风元件对的对应的第一和第二时间差之间的平方差相加来计算所述预定的一组点中每个点的误差函数值,将与所述误差函数的最小值相关联的所述点选择作为所述音源的所述位置。
7.如以上权利要求中的任一项所述的方法,其特征在于以下步骤使用使相对于所述摄像机的各个位置分别与对应的摄像机变焦量和方位相关联的表格中所述音源相对于所述摄像机的所述位置来执行查找,根据所述查找的结果使所述摄像机变焦和/或定向。
8.一种定位音源相对于摄像机的位置的装置,其适用于确定所述音源和麦克风元件的一个或多个麦克风或阵列之间的第一距离和方向,其特征在于控制单元,其适用于确定所述摄像机与所述一个或多个麦克风或阵列中的一个之间的第二距离和方向,并且从所述音源和一个或多个麦克风或阵列之间的所述第一距离和方向、以及所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和/或方向来几何地推导所述音源相对于所述摄像机的所述位置。
9.如权利要求8所述的装置,其特征在于所述控制单元还适用于检测从所述音源到一个或多个麦克风或麦克风元件对的所述麦克风或麦克风元件的接收声信号的各个时间差。
10.如权利要求8或9所述的装置,其特征在于所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和方向是固定的。
11.如权利要求8或9所述的装置,其特征在于第一部件,其适用于传输相对于所述摄像机位于已知或可检测位置中的声信号,第二部件,其适用于分别在所述阵列的两个或多个所述麦克风或元件中接收所述声信号,并将所述接收声信号传输到所述控制单元,所述控制单元适用于处理所述接收声信号,用于计算所述摄像机与所述一个或多个麦克风或麦克风阵列中的一个之间的所述第二距离和方向。
12.如权利要求8或9所述的装置,其特征在于为所述一个或多个麦克风或阵列中的所述一个提供可识别模式,所述摄像机和/或所述控制单元适用于标识所述摄像机捕捉的图象内的所述可识别模式,并且所述控制单元适用于通过所述图象内所述模式的大小和/或位置确定所述第二距离和方向。
13.如权利要求9-12中的任一项所述的装置,其特征在于所述控制单元适用于
对于预定的一组点中的每个点而言,计算从所述音源到每个可能的麦克风或麦克风元件对的所述各个麦克风或麦克风元件的接收声信号的第一时间差,测量从所述音源到每个可能的麦克风或麦克风元件对的所述各个麦克风或麦克风元件的接收声信号的第二时间差,通过将所有可能的麦克风或麦克风元件对的对应的第一和第二时间差之间的平方差相加来计算所述预定的一组点中每个点的误差函数值,将与所述误差函数的最小值相关联的所述点选择作为所述音源的所述位置。
14.如权利要求8-13中的任一项所述的装置,其特征在于所述控制单元包括使相对于所述摄像机的各个位置分别与对应的摄像机变焦量和方位相关联的查找表格,并且所述控制单元适用于根据与所述音源相对于所述摄像机的所述位置相关联的变焦量和/或方位来使所述摄像机变焦和/或定向。
权利要求
1.一种通过确定音源相对于麦克风元件的一个或多个麦克风或阵列的位置来定位所述音源相对于摄像机的所述位置的方法,其特征在于从所述音源相对于所述一个或多个麦克风或阵列的所述位置几何地推导所述摄像机与所述音源之间的第一距离和/或方向以及所述摄像机与所述一个或多个麦克风或阵列中的一个之间的第二距离和/或方向。
2.如权利要求1所述的方法,其特征在于通过检测从所述音源到一个或多个麦克风或麦克风元件对的所述麦克风或麦克风元件的接收声信号的各个时间差来确定所述音源相对于所述一个或多个麦克风或阵列的所述位置的所述步骤。
3.如权利要求1或2所述的方法,其特征在于所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和/或方向是固定的。
4.如权利要求1或2所述的方法,其特征在于通过以下步骤确定所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和/或方向从相对于所述摄像机的已知或可检测的位置传输声信号,分别在所述阵列的两个或多个所述麦克风或元件中接收所述声信号,处理所述接收声信号,用于计算所述摄像机与所述一个或多个麦克风或麦克风阵列中的一个之间的所述第二距离和/或方向。
5.如权利要求1或2所述的方法,其特征在于通过以下步骤确定所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和/或方向为所述一个或多个麦克风或阵列中的所述一个提供可识别模式,标识所述摄像机捕捉的图象内的所述可识别模式,通过所述图象内所述模式的大小和/或位置确定所述第二距离和/或方向。
6.如权利要求2-5中的任一项所述的方法,其特征在于确定所述音源相对于所述一个或多个麦克风或阵列的所述位置的所述步骤还包括以下步骤对于预定的一组点中的每个点,计算从所述音源到每个可能的麦克风或麦克风元件对的所述各个麦克风或麦克风元件的接收声信号的第一时间差,测量从所述音源到每个可能的麦克风或麦克风元件对的所述各个麦克风或麦克风元件的接收声信号的第二时间差,通过将所有可能的麦克风或麦克风元件对的对应的第一和第二时间差之间的平方差相加来计算所述预定的一组点中每个点的误差函数值,将与所述误差函数的最小值相关联的所述点选择作为所述音源的所述位置。
7.如以上权利要求中的任一项所述的方法,其特征在于以下步骤使用使各个距离和方向分别与对应的摄像机变焦量和方位相关联的表格中的所述第一距离和/或方向执行查找,根据所述查找的结果使所述摄像机变焦和/或定向。
8.一种定位音源相对于摄像机的位置的装置,其适用于确定所述音源相对于麦克风元件的一个或多个麦克风或阵列的位置,其特征在于控制单元,其适用于从所述音源相对于所述一个或多个麦克风或阵列中的一个的所述位置几何地推导所述摄像机与所述音源之间的第一距离和/或方向以及所述摄像机与所述一个或多个麦克风或麦克风阵列中的一个之间的第二距离和/或方向。
9.如权利要求8所述的装置,其特征在于所述控制单元还适用于检测从所述音源到一个或多个麦克风或麦克风元件对的所述麦克风或麦克风元件的接收声信号的各个时间差。
10.如权利要求8或9所述的装置,其特征在于所述摄像机与所述一个或多个麦克风或阵列中的一个之间的所述第二距离和/或方向是固定的。
11.如权利要求8或9所述的装置,其特征在于第一部件,其适用于传输位于相对于所述摄像机的已知或可检测位置中的声信号,第二部件,其适用于分别在所述阵列的两个或多个所述麦克风或元件中接收所述声信号,并将所述接收声信号传输到所述控制单元,所述控制单元适用于处理所述接收声信号,用于计算所述摄像机与所述一个或多个麦克风或麦克风阵列中的一个之间的所述第二距离和/或方向。
12.如权利要求8或9所述的装置,其特征在于为所述一个或多个麦克风或阵列中的所述一个提供可识别模式,所述摄像机和/或所述控制单元适用于标识所述摄像机捕捉的图象内的所述可识别模式,并且所述控制单元适用于通过所述图象内所述模式的大小和/或位置确定所述第二距离和/或方向。
13.如权利要求9-12中的任一项所述的装置,其特征在于所述控制单元适用于对于预定的一组点中的每个点而言,计算从所述音源到每个可能的麦克风或麦克风元件对的各个麦克风或麦克风元件的接收声信号的第一时间差,测量从所述音源到每个可能的麦克风或麦克风元件对的所述各个麦克风或麦克风元件的接收声信号之间的第二时间差,通过将所有可能的麦克风或麦克风元件对的对应的第一和第二时间差之间的平方差相加来计算所述预定的一组点中每个点的误差函数值,将与所述误差函数的最小值相关联的所述点选择作为所述音源的所述位置。
14.如权利要求8-13中的任一项所述的装置,其特征在于所述控制单元包括使各个距离和方向分别与对应的摄像机变焦量和方位相关联的查找表格,并且所述控制单元适用于根据与所述第一距离和/或方向相关联的变焦量和/或方位来使所述摄像机变焦和/或定向。
全文摘要
本发明公开了在视频会议中定位有源扬声器的装置和方法。根据本发明的优选实施例,定位设备相对于摄像机定位一个或多个麦克风,而这些麦克风反过来相对于其自身的位置定位音源。由于在视频会议中麦克风一般靠近音源安放,因此降低了麦克风(或麦克风元件)之间的距离相对于桌面麦克风与音源之间距离的比值。因此,如果麦克风靠近摄像机放置,则这些麦克风能够以比靠近摄像机放置时更高的分辨率来确定音源的位置。当已知麦克风相对于摄像机与音源的各个位置时,然后通过几何计算确定音源相对于摄像机的位置。
文档编号H04R5/027GK1784900SQ200480012353
公开日2006年6月7日 申请日期2004年3月19日 优先权日2003年5月8日
发明者P·穆伦, T·F·马顿, T·-I·约翰森 申请人:坦德伯格电信公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1