用于使用多个传感器来追踪视频会议中的音频源的方法和装置的制作方法

文档序号:7885383阅读:239来源:国知局
专利名称:用于使用多个传感器来追踪视频会议中的音频源的方法和装置的制作方法
技术领域
本申请一般涉及向显示器提供图像,诸如,为视频会议终端提供图像。
背景技术
本部分介绍对于有利于更好地理解本公开可能有帮助的各方面。因此,要鉴于此精神来阅读本部分的叙述,而不是将其理解成承认哪些是现有技术,或哪些不是现有技术。经由计算机网络的通信通常不仅仅只涉及传输文本。诸如因特网之类的计算机网络还可被用于音频通信和可视通信。静止的图像和视频是可以在这些网络上传输的可视数据的示例。一个或多个相机可以耦合至诸如个人计算机(PC)之类的计算设备以提供可视通信。一个或多个相机可随后被用于在计算机网络上传输实时可视信息,诸如,视频。双重传输可以被用于允许视频信息与音频一起传输。不管是在一对一的通信会话中还是与多个参与者进行视频会议中,参与者都可经由实时的音频和视频在计算机网络上进行通信(即,语音视频通信)。

发明内容
—个方面提供了一种装置。在一个实施例中,所述装置包括:(1)音频源标识器,被配置为基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源;以及
(2)图像选择器,被配置为自动地引导相机来查看所述音频源。在另一方面,公开了一种用于引导相机来查看音频源的方法。在一个实施例中,该方法包括:(I)基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源;以及(2)自动地引导相机来查看所述音频源。在又一方面,提供了一种视频会议终端。在一个实施例中,该视频会议终端包括:
(I)相机,被配置为捕获视角内的图像;以及(2)音频源定位器和追踪器,被配置为基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源并自动地引导所述相机来查看所述音频源。


现在结合附图参照以下对实施例的描述,这些实施例仅作为示例被提供,在附图中:图1是视频会议基础设施的实施例的示意性框图,根据本公开的原理所构造的视频会议终端可以在该视频会议基础设施中进行操作;图2示出了根据本公开的原理构造的视频会议终端200的实施例的框图;图3示出了可以部署根据本公开的原理构造的视频会议终端的实施例的环境;图3A示出了表示图3中的环境的潜在音频源(S卩,参与者)的地图;图4示出了表示根据本公开的原理构造的音频源定位器和追踪器的操作的状态图;图5示出了根据本公开的原理构造的视频会议终端的实施例的示图;图6示出了根据本公开的原理实施的用于引导相机查看音频源的方法的实施例的流程图。
具体实施例方式本公开提供了一种定位和追踪机制,该机制采用来自多种类型的传感器的传感器数据(即,多模式传感器数据)来定位和追踪音频源。本公开提供了一种用于定位和追踪单个或多个音频源并引导相机来捕获所定位和追踪的音频源的一个或多个图像的装置。定位音频源使得能够将相机指向该音频源,即便当附近可能存在多个音频源时也是如此。追踪音频源使得能够引导相机来随着音频源的移动而追随该音频源。视频会议终端可以采用所公开的定位和追踪功能。因此,要定位和追踪的音频源可以是视频会议中正在讲话的参与者。在会议室中存在多人的视频会议情境中,检测正在讲话的参与者并使相机将该参与者作为目标从而使得远端位置接收活动的讲话者的图像可能是个挑战。具有此处所公开的定位和追踪功能的视频会议终端允许远端位置处的人能够从相机看到正在讲话的参与者,而无需远端处的人手动地操控相机使之保持在该讲话者上。如此,此处所公开的视频会议终端可包括讲话者定位,其允许将相机指向讲话者,即便当会议桌周围坐着多人时也是如此。另外,视频会议终端可以包括讲话者追踪,其允许追随非静止的而是走来走去的讲话者。该情形的示例可以是当讲话者站起来并开始朝着白板走去。此处所公开的定位和追踪功能可以组合音频传感器、视频传感器和其他传感器(诸如,热传感器和超声传感器)来定位和追踪音频源。与此不同,当同时存在多个讲话者时,仅利用音频(声源定位)来定位讲话者的讲话者定位机制可能由于背景噪声而易于出错并可能失败。因此,本公开组合了传感器数据,诸如利用热测量以及超声测量的声源定位,以提高调整相机指向时的准确度。各种类型传感器的组合提供了传感器数据的融合,该融合是多模式传感器输入的算法组合,即,不仅组合来自多个传感器的数据,而且组合来自不同类型的传感器的数据。即便当某个人没有在讲话时,热传感器和超声传感器的组合也使得能够检测到这个人。这比仅通过音频的方法(当人沉默时无法检测到)和诸如脸部检测之类的视频方法(其中可以存在由于闭塞(occlusions)或目标脸部旋转而远离相机所导致的检测失败)有优势。所部署的传感器可以与定位和追踪装置一起被安装,诸如,视频会议终端。另外,来自安装在墙上、天花板上或家具上的其他传感器的信息可被用于传感器数据融合。图1是视频会议基础设施100的实施例的示意性框图,根据本公开的原理构造的视频会议终端可以在该基础设施中进行操作。视频会议基础设施100的该实施例以电信网110为中心,该电信网110被部属为互连两个或更多个视频会议终端120、130、140、150,以用于音频信号或信息在其之间的传送,并且或许还有音频信号或信息的传送。视频会议基础设施100的备选实施例是以诸如因特网之类的计算机网络为中心。视频会议基础设施100的另一实施例涉及两个视频会议终端之间的直连,例如,经由普通老式电话(POTS)网络的视频会议终端120、130的连接。另外,经由网络连接的直连是连接的又一种选择。如在视频会议终端120中所示,视频会议终端120、130、140、150可以包括通常被包括在常规视频会议终端中的组件,诸如,麦克风、扬声器和控制器。控制器可以是具有相关联的存储器的一类处理器,该存储器包括一系列操作指令,当该操作指令被控制器启动时,其引导控制器的操作。在某些实施例中,控制器可以包括此处所公开的音频源定位器和追踪器。麦克风可被配置为基于由其接收到的声学能量来生成音频信号,并且,扬声器可被配置为基于由其接收到的音频信号来生成声能。视频会议终端120、130、140、150中的至少一个例如可以是蜂窝电话、个人数字助理、膝上型计算机或台式计算机。至少一个视频会议终端(例如,视频会议终端130)包括此处所公开的定位和追踪功能。图2提供了这种视频会议终端的实施例。图2示出了根据本公开的原理构造的视频会议终端200的实施例的框图。视频会议终端200包括相机210、显示器220、定位和追踪传感器230以及音频源定位器和追踪器240。本领域技术人员将理解,视频会议终端200还可包括常规视频会议终端中可能包括的附加组件,诸如,扬声器。例如,视频会议终端200可以包括控制器,该控制器被配置为引导其整体操作。在一个实施例中,视频会议终端200可以被实现为诸如图5所示的单个设备。在另一实施例中,视频会议终端200可具有分布式架构,其中每个组件可不被包括在单个结构中。例如,相机210、显示器220或定位和追踪传感器230可以并非在物理上位于单个设备中,而是分散在房间中并经由硬接线或无线连接耦合至音频源定位器和追踪器240。在一个实施例中,视频会议终端200的一部分可被实现为蜂窝电话。例如,蜂窝电话的摄像机或蜂窝电话的处理器可被用作相机以及音频源定位器和追踪器。相机210被配置用于捕获图像。相机210可以是摄像机,诸如,webcam。另外,相机210可以被用于定位和追踪音频源,诸如例如,在视频会议期间正在讲话的个人。因此,相机210具有摇动(pan)、倾斜和变焦能力,这允许相机210动态地捕获所定位和追踪的音频源的图像。相机210可包括摇动和倾斜伺服系统,用于查看所定位和追踪的音频源。为了查看音频源,相机210被操纵使得其视角包括音频源。在某些实施例中,视频会议终端200自身可移动,以允许相机210查看所定位和追踪的首频源。另外,视频会议终端200可包括摇动和倾斜伺服系统,其移动视频会议终端200以查看音频源。如此,摇动和倾斜伺服系统可位于相机210的底部或视频会议终端200的底部。除了摇动和倾斜能力以外,相机210还可以包括放大和缩小能力。显示器220可以是常规显示器,诸如,平板显示器,其基于输入数据来呈现视图。在一个实施例中,显示器220可以是液晶显示器(LCD)。显示器220耦合至音频源定位器和追踪器240。常规音频-视频电缆可被用于将设备耦合在一起。还可以采用无线连接。在某些实施例中,显示器220可以是独立的投影仪显示器。定位和追踪传感器230包括多种类型的传感器,以用于定位和追踪音频源。各种类型的传感器被用于提供多模式传感器数据,以用于音频源定位和追踪。定位和追踪传感器230可包括声音传感器232、热传感器234和距离传感器236。定位和追踪传感器230可以包括由组件238所表示的附加的一个或多个传感器。声音传感器232可以是一个或多个麦克风,其被配置为基于由其接收到的声能来生成音频信号。如此,声音传感器232可被用于基于音频来定位音频源。在某些实施例中,可使用麦克风阵列。在一个实施例中,可以使用立体声麦克风。热传感器234被配置为基于温度来检测音频源。在一个实施例中,热传感器234可测量在给定角度的锥体中感测到的平均温度。该锥体可在大约10度至大约35度之间的范围中。平均温度可作为在没有人的情况下、诸如房间之类的场所的背景温度而被获得。平均温度随后可被用作参考。当人进入热传感器234的范围(即,锥体)中时,诸如视频会议期间的讲话者,所测量到的温度将高于背景温度。可依赖于包括人在内的测量温度来确定该人到热传感器234的距离。可基于所期望的温度值的对应范围来确定该距离。对应的范围可被存储在与视频会议终端200的控制器相关联的存储器中。在一个实施例中,热传感器234可以是常规热传感器。热传感器234可包括多个热传感器或热检测设备。在一个实施例中,热传感器234可包括热感测设备阵列。多个热感测设备可分布在视频会议终端200的旋转部分周围。如此,对于视频会议终端200,可以通过更小的角度范围的扫描来提供房间的地图(map)。距离传感器236获取并提供有关物体到距离传感器236的距离的数据。如此,距离传感器236可以是常规范围查找器。因此,距离传感器236还可以被配置为检测朝向和远离其的运动。在一个实施例中,距离传感器236可以是超声范围查找器。可以利用可具有至多为I英寸准确度的超声范围查找器。除了声学范围查找器以外,还可使用其他类型的范围查找器,诸如,基于光学或雷达的范围查找器。距离传感器236还可以包括多个距离感测设备,诸如,范围查找器。在一个实施例中,距离传感器236可包括距离感测设备阵列。多个距离感测设备可以分布在视频会议终端200的旋转部分周围,以允许利用更小的角度扫描来对房间进行绘图。因此,与仅具有单个传感器相比,视频会议终端200并不必对房间进行更大范围的扫描(例如,360度)来获得人们在房间中的地图。附加的传感器238还可以是又一种类型的传感器,其被用于收集数据,以定位和追踪音频源。附加的传感器238可以是基于视频的传感器,其被用于检测音频源的运动。如此,在一个实施例中,附加的传感器238可以是运动检测器。在其他实施例中,附加的传感器238可以是另一种类型的传感器(例如,另一种类型的常规传感器),其可被用于收集和提供数据,以定位和追踪音频源。音频源定位器和追踪器240被配置为定位和追踪音频源并引导相机220来查看所定位和追踪的音频源。音频源定位器和追踪器240基于从多种类型的传感器接收到的多模式传感器数据来执行定位和追踪。音频源定位器和追踪器240可被体现为具有相关联的存储器的处理器,该存储器包括一系列操作指令,这些操作指令当被该处理器启动时引导处理器的操作。在某些实施例中,音频源定位器和追踪器240可被实现为专用硬件或专用硬件和软件的组合。当体现为处理器时,音频源定位器和追踪器240的功能可由单个专用处理器、单个共享处理器、或多个独立处理器来提供,其中单个专用处理器、单个共享处理器和多个独立处理器中的一些可以被共享。另外,不应当将对术语“处理器”或“控制器”的明确使用理解为仅指能够执行软件的硬件,而是可隐式地包括但不限于数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机访问存储器(RAM),以及非易失性存储器。还可包括其他常规和/或定制的硬件。在一个实施例中,音频源定位器和追踪器240可以被实现为视频会议终端200的控制器的一部分。音频源定位器和追踪器240包括音频源标识器244和图像选择器248。音频源标识器244被配置为基于来自定位和追踪传感器230的多模式传感器数据来定位音频源。图像选择器248被配置为自动地引导相机210来查看音频源。在某些实施例中,音频源标识器244还被配置为至少基于某些多模式传感器数据来定位潜在的音频源。图像选择器248还可被配置为生成潜在音频源的地图。可关于相机210、定位和追踪传感器230、或视频会议终端200自身来绘制潜在音频源的位置。在一个实施例中,可在定位音频源之前预先确定该地图。在其他实施例中,当定位音频源时,可动态地确定该地图。图3A包括可被生成的地图的示例。图3示出了可以采用根据本公开的原理所构造的视频会议终端300的实施例的环境。该代表性环境是一个会议室,参与者坐在会议桌周围。图3A示出了表示图3的环境中的潜在音频源(即,参与者)的地图350。视频会议终端300甚至可以在视频会议开始之前生成地图350。通过利用机械运动,可执行对会议室的初始扫描,以预先确定房间中参与者的大致位置。知晓参与者的大致位置可帮助视频会议终端300做出有关视频会议期间实际音频源的位置的明智判断。视频会议终端300可对房间进行初始扫描,并且从热信息和距离信息来推断参与者相对于视频会议终端300的位置位于何处。在某些实施例中,扫描可以是360度的。在其他实施例中,扫描可以是小于360度的,诸如,当视频会议终端300具有多个相同类型的传感器时。在另一实施例中,视频会议终端300可随着视频会议的进行通过利用所检测到的演讲者和参与者的方向(例如,相对于视频会议终端300的“归属(home)”位置的径向角度)来确定参与者的位置。这两种方法都允许视频会议终端300形成并保持如地图350所示的房间内的参与者的地图。视频会议终端300包括音频源定位器和追踪器。另外,视频会议终端300可包括相机、各种类型的传感器、以及显示器。图3中示出了视频会议终端300的相机的视角,并且,该视角指向音频源。在一个实施例中,视频会议终端300可以是图2的视频会议终端200。在某些实施例中,地图350可由诸如图5所示的视频会议终端生成。在另一实施例中,视频会议终端300可以被用作目标获取设备,其在移动平台上包括多个传感器。在该实施例中,视频会议终端300可以不包括显示器。例如,投影仪370可以和屏幕一起被用于视频会议会话。图4示出了表示根据本公开的原理构造的音频源定位器和追踪器的操作的状态图400。状态图400表示基于测量到的温度和语音检测而对所定位的音频源进行的追踪。热传感器和声传感器(诸如,图2中的热传感器220和声传感器210)可被用于检测温度和语音。音频源定位器和追踪器(诸如,图2的音频源定位器和追踪器240)可被配置为根据状态图400来执行追踪。状态图400示出了四个不同的状态,追踪状态410、等待状态420、空闲状态430和搜索状态440。这些状态中的每一个都是基于角度91、温度1'和1'[)、以及语音的存在来确定的。角度0 sa可以通过利用来自声音传感器的输入的声源定位算法来确定。温度T和Tp可以由热传感器来确定,并且,语音可以由声音传感器来检测。温度T表示测量到的温度,而温度Tp表示用于对人进行检测的阈值温度。温度Tp可以作为背景温度而被建立。当角度0 SSL为零并且温度T等于阈值温度Tp时,追踪状态410被保持。因此,可在不检测语音的情况下执行对所定位的音频源的追踪。如果角度大于零,或无声(即,没有检测到语音)、或测量到的温度T小于阈值温度TP,则进入等待状态420。在等待状态420处,启动计时器。可以基于经验来设置计时器。可以基于所希望的敏感度等级或基于不同的位置来针对计时器建立不同的时间。可以在制造期间设置计时器,或由终端用户使用用户界面来设置计时器。显示器可以提供用于设置计时器的用户界面。只要角度0 I大于零、测量到的温度T小于阈值温度TP、并且计时器大于零,就一直保持等待状态420。另外,当无声、计时器大于零、并且测量到的温度T等于阈值温度Tp时,保持等待状态。从等待状态420开始,取决于各种条件的状态,可进入所有其他状态。如果无声、计时器等于零、并且测量到的温度T小于阈值温度TP,则从等待状态420进入空闲状态430。一旦达到空闲状态430,则取决于角度0 I和测量到得温度T,视频会议终端可移至搜索状态440或追踪状态410。如果角度0 sa大于零并且测量到的温度T小于阈值温度TP,则进入搜索状态440。如果角度0 sa等于零并且测量到的温度T等于阈值温度TP,则进入追踪状态410。因此,即使未检测到语音,视频会议终端也可从空闲状态430移开。如果计时器等于零并且角度e SSL等于零,则视频会议终端从等待状态420移至追踪状态410。另外,如果计时器等于零并且角度0 I大于零,则视频会议终端从等待状态420移至搜索状态440。当角度9 I大于零并且测量到的温度T小于阈值温度Tp时,保持搜索状态440。当角度9 sa等于零并且测量到的温度T等于阈值温度Tp时,则从搜索状态440进入追踪状态410。在搜索状态440处,伺服系统被激活,以移动传感器,从而定位音频源。图5示出了根据本公开的原理构造的视频会议终端500的实施例的视图。视频会议终端500可以被用在用于视频会议的房间中。在一个实施例中,可以改变视频会议终端500的大小,以将其放置在用于视频会议的桌子上。如此,各种传感器可被定位在视频会议终端500上,以与在桌子处的视频会议参与者的头部近似一致。视频会议终端500包括显示器510、麦克风520、热传感器530、范围查找器540、相机550、扬声器560和底座570。如关于图2所注意到的,在某些实施例中,每种类型的多个传感器可以跨视频会议终端500来分布,以允许利用更小的扫描角度来对房间进行绘图。视频会议终端500还包括耦合接口(未示出),其被配置为提供各种线缆、导体、电源线等的封端。耦合接口可被配置为允许耦合至通信网络和电源。在一个实施例中,耦合接口可以允许无线连接。接口可以是常规接□。显示器510可以是常规显示器,其被配置为提供用于观看的图像。显示器510可以为视频会议提供来自远端位置的图像。显示器510还可被配置为提供用户界面。用户界面可以包括通过触摸或经由耦合接口耦合的键盘、鼠标等激活的菜单。用户界面可允许用户编制用于视频会议终端500的各种设置,或调整显示器510的图片。声传感器520被配置为检测声音。声传感器520包括立体声麦克风。热传感器530被用于检测热量,并且,范围查找器540被用于确定距离。这些传感器中的每一个都可以是常规设备。在一个实施例中,范围查找器540可以是超声传感器。这些传感器提供视频会议终端500的音频源定位器和追踪器(未示出)所使用的多模式传感器数据,以定位和追踪首频源。相机550被配置为捕获图像,而扬声器560被配置为提供音频。相机550和扬声器560可以是与视频会议系统一起使用的常规设备。底座570被配置为支持视频会议终端500的组件。底座570被配置为设置在桌子上,以用于视频会议。底座570包括用以旋转和倾斜视频会议终端500的伺服系统。如所示,底座570可360度地旋转视频会议终端500,并且可使视频会议终端500倾斜45度。图6示出了根据本公开的原理实施的用于引导相机查看音频源的方法600的流程图。音频源定位器和追踪器可以实施方法600的至少一部分。在一个实施例中,视频会议终端可以被用以执行方法600。方法600开始于步骤605。在步骤610中,潜在音频源的地图基于多模式传感器数据而被生成。该数据可以由多个传感器或不同类型的传感器来提供。例如,热传感器和范围查找器可以被用于提供多模式传感器数据。该地图可以被生成为具有相对于视频会议终端或视频会议终端的相机而定位的潜在音频源。在步骤620中,基于至少来自两种不同类型的传感器的多模式传感器数据来定位音频源。地图可以被用于帮助定位音频源。除了热传感器和范围查找器以外,声音传感器还可以被用于提供多模式传感器数据。在某些实施例中,还可利用其他类型的传感器来提供多模式传感器数据。在步骤630中,相机被自动地引导来查看音频源。相机被移动,从而使得音频源在相机的视角内。相机还可以被引导以放大或缩小。在步骤640中,音频源被追踪。多模式传感器数据可被用于追踪音频源。可根据图4中所不的状态图来执彳丁追S示。在步骤650中,相机被自动丨呆控,以在追S示期间查看首频源。如此,相机可被旋转、倾斜、放大或缩小。相机可捕获所定位和追踪的音频源的图像。这些被捕获的图像可被提供至远端位置,以用于查看。在步骤660中,方法600结束。本领域技术人员将很容易意识到,各种上述方法(包括方法600)的步骤可由被编程的计算机执行。例如,音频源定位器和追踪器可被用于与视频远程会议终端的其他组件一起工作,以执行方法600的步骤。此处,某些实施例还意欲覆盖程序存储设备,例如,数字数据存储介质,其为机器可读或计算机可读的,并且编码有机器可执行或计算机可执行的指令程序,其中,所述指令执行所述上述方法中的某些或全部步骤。程序存储设备例如可以是数字存储器、诸如磁盘和磁带之类的磁存储介质、硬驱、或光可读数字数据存储介质。实施例还意欲覆盖被编程以执行上述方法的所述步骤的计算机。
与本申请有关的本领域技术人员将理解,可对所描述的实施例做出其他和另外的添加、删除、替代和修改。附加的实施例可包括其他具体的装置和/或方法。所描述的实施例在所有方面都将仅被看作是阐释性的,而非限制性的。具体地,发明的范围是由所附权利要求所指示的,而非由此处的描述和附图所指示。来自权利要求等同物的含义和范围内的所有改变都将被包括在其范围内。
权利要求
1.一种装置,包括: 音频源标识器,被配置为基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源;以及 图像选择器,被配置为自动地引导相机来查看所述音频源。
2.根据权利要求1所述的装置,还包括所述相机和所述至少两种不同类型的传感器。
3.根据权利要求1所述的装置,其中所述至少两种不同类型的传感器是从包括下述各项的分组中选出的: 音频传感器, 热传感器,以及 范围查找器。
4.根据权利要求1所述的装置,其中所述音频源标识器还被配置为基于所述多模式传感器数据来定位潜在音频源。
5.根据权利要求4所述的装置,其中所述图像选择器还被配置为生成所述潜在音频源的地图。
6.根据权利要求4所述的装置,其中所述音频源标识器被配置为在定位所述音频源之前,定位所述潜在音频源。
7.根据权利要求1所述的装置,其中所述音频源标识器还被配置为基于至少来自所述至少两种不同类型的传感器之一的数据来检测所述音频源的运动。
8.根据权利要求7所述的装置,其中所述图像选择器还被配置为响应于所检测到的运动来自动地操控所述相机,以追踪所述音频源。
9.一种用于引导相机来查看音频源的方法,包括: 基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源;以及 自动地弓I导相机来查看所述音频源。
10.一种视频会议终端,包括: 相机,被配置为捕获视角内的图像;以及 音频源定位器和追踪器,被配置为基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源并且自动地弓I导所述相机来查看所述音频源。
全文摘要
此处公开了一种音频定位和追踪装置、一种用于引导相机来查看音频源的方法,以及一种视频会议终端。在一个实施例中,所述装置包括(1)音频源标识器,被配置为基于来自至少两种不同类型的传感器的多模式传感器数据来定位音频源;以及(2)图像选择器,被配置为自动地引导相机来查看所述音频源。
文档编号H04N7/14GK103210643SQ201180047571
公开日2013年7月17日 申请日期2011年9月15日 优先权日2010年9月30日
发明者H·M·吴, E·L·萨特, R·M·阿博特 申请人:阿尔卡特朗讯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1