使用音频束进行音频探测的系统和方法与流程

文档序号:15076008发布日期:2018-08-01 01:38阅读:234来源:国知局

在不一定按比例绘制的附图中,相似的标号在不同视图中可描述类似的构件。具有不同字母后缀的相似的标号可代表类似构件、更大逻辑或物理系统的子构件等的不同实例。附图大体上通过示例而非限制来示出本公开中描述的各种示例。

图1、2a和2b绘出了根据本公开的示例音频束形成和信号处理系统。

图3、4a和4b绘出了根据本公开的另一示例音频束形成和信号处理系统。

图5a和5b绘出了根据本公开的另一示例音频束形成和信号处理系统。

图6绘出了包括在根据本公开的音频束形成和信号处理系统中的控制器。

图7绘出了根据本公开的示例音频束形成和信号处理系统,其通信地连接至第二系统。

图8是绘出根据本公开的方法的流程图。

具体实施方式

发明人尤其认识到通过电子装置来改进探测和处理远场音频信号以改进语音识别和处理的机会。根据本公开的示例可应用于多种实践技术应用,包括例如住宅/房屋/设备安全性和/或自动化、个人紧急响应系统(pers)、物理访问控制系统等。

在根据本公开的一个示例中,系统包括音频传感器阵列、图像捕获装置、以及能够存储和处理尤其由音频传感器阵列和图像捕获装置感测和/或生成的信号和/或数据的其他电子装置。大体上,图像捕获装置构造成周期或连续地捕获监测的区域(也称为视野)的数字图像。由图像捕获装置捕获的图像由控制器处理,以识别在图像捕获装置的视野内的所关注的物体。一旦识别所关注的物体,控制器确定物体的位置,或确定指示物体在监测的区域中的位置的参数值。控制器然后使用物体位置或指示参数来形成指向物体的音频束,以探测从物体发出的音频信号。音频束由控制器通过增益在束区域内由音频传感器阵列感测的音频信号且衰减束区域外的信号而形成。控制器然后处理在束区域内由音频传感器阵列感测的音频信号。

控制器可为了多种不同目的而处理来自束区域的音频信号,且运行多种不同功能。例如,控制器可构造成运行语音识别算法,以接收和运行由系统的用户说出的命令。从这种用户接收且由系统识别的这些命令或其他类型的输入可使各种结果、动作、效果等发生,包括例如起动/解除警报、升高或降低住宅中的热、开启/关掉光、升高或降低音乐的音量、选择音轨来播放、确定或补充且用算法确定用户已经跌倒且无法起来等。

根据本公开的系统和方法构造成利用由两个或更少音频源位置参数限定的音频束来定位、瞄准和跟踪音频源。例如,根据本公开的系统可构造成,使用在大体上平行于参照数据平面的水平平面中的角和/或在大体垂直于参照数据平面的竖直平面中的角中的一者或两者,形成指向所关注的音频源的音频束。参照数据平面可为但不一定必须为地面、地板或人和物体站、坐、躺在其上的其他平坦表面等。

在一个示例中,使用所关注的音频源在近似平行于地面的水平平面中所处的角,形成音频束。音频束水平地对准于音频源且竖直地伸长。音频束的竖直伸长除去了确定音频源的竖直位置(例如,用户的脸或头相对于音频传感器阵列的位置的位置)的需要。

在一个示例中,使用所关注的音频源在近似垂直于地面的竖直平面中所处的角,形成音频束。音频束竖直地对准于音频源且水平地伸长。音频束的水平伸长除去了确定音频源的水平位置(例如,人相对于音频传感器阵列的位置坐或站或另外设置在左或右的位置)的需要。

在一个示例中,使用前面两个示例中描述的水平角和竖直角两者,形成音频束。然而,值得注意的是,处理束简化成,计算水平对准且竖直伸长的束和竖直对准且水平伸长的束,且加和两个束以形成指向所关注的音频源的音频束。

示例使用摄像头或多个摄像头(或其他图像捕获装置)以及具有计算机视觉算法、程序等的处理器来执行物体探测。当物体在摄像头的视野内探测到时,随着物体在摄像头的视野内移动,音频探测束瞄准物体且实时调整。

公开了两个示例系统,通过它们,使用两个或更少音频源位置参数来形成音频束。在一个示例中,系统包括安装至一个或多个伺服马达的图像捕获装置,伺服马达构造成使图像捕获装置摇动(例如,左和右),且/或使图像捕获装置倾斜(例如,上和下)。图像捕获装置周期或连续地捕获监测的区域(也称为视野)的图像。由图像捕获装置捕获的图像由控制器处理,以在图像捕获装置的视野内识别所关注的物体。控制器然后控制伺服马达,以将图像捕获装置视野水平和/或竖直地定心在音频源上。控制器接收或请求和接收如此定心在音频源上的伺服马达的水平和/或竖直角且从所述角形成音频束。

在另一个示例中,系统包括一个或多个图像捕获装置,其具有横跨所关注的物体可能驻留在其内的所关注的整个区域的实际或有效透镜角。例如,具有广角透镜的摄像头可安装至房间的壁,且透镜角可近似160度,使得摄像头可在不移动的情况下捕获几乎整个房间的图像。在另一个示例中,可使用成阵列的摄像头,且来自各个摄像头的图像可拼合在一起,以在不移动的情况下形成全部或几乎全部房间的视图。在这些示例中,由图像捕获装置捕获的图像由控制器处理,以在图像捕获装置的视野内识别所关注的物体。处理器可然后使用所捕获的图像的分辨率以及图像捕获装置的实际或有效透镜角(两者都是固定值)来确定音频源的水平和/或竖直角且从所述角形成音频束。

图1、2a和2b绘出了根据本公开的示例音频束形成和信号处理系统100。参照图1,系统100包括控制器110、音频传感器阵列120、图像捕获装置130以及图像捕获装置安装件140。控制器110、音频传感器阵列120、图像捕获装置130通信地连接,使得构件可与彼此发送和接收信号。图像捕获装置130通过安装件140安装至静止结构,且音频传感器阵列120在图像捕获装置130上方以水平并排布置安装至该结构。在另一个示例中,音频传感器阵列120在图像捕获装置130下方以水平并排布置安装。控制器110可与音频传感器阵列120和图像捕获装置130位于一起或远离它们。音频传感器阵列120和图像捕获装置130相对于彼此处于已知位置。在该示例中,音频传感器阵列120包括三个音频传感器120a、120b和120c。然而,在根据本公开的其他示例中,音频传感器阵列可包括两个或更多个中任何数目的音频传感器。

控制器110可包括多个不同物理和/或逻辑构件,且可以以软件、硬件及其组合实施。例如,控制器110可在其他构件、电路、模块等之中包括一个或多个处理器、存储器、无线收发器、音频编码译码器。控制器110可通信地连接至音频传感器阵列120和图像捕获装置130,且构造成以多种方式与音频传感器阵列120和图像捕获装置130通信。在一个示例中,控制器110包括处理器和音频编码译码器。音频编码译码器连接至音频传感器阵列120且构造成在串行外围接口(spi)总线上与处理器通信。在一个示例中,图像捕获装置130经由通用串行总线(usb)连接至控制器110。在图像捕获装置130联接至一个或多个伺服马达的示例中,此马达可经由通用输入/输出(gpio)连接至控制器110/与控制器110通信。根据本公开的示例的构件通信地连接的方式的额外示例包括有线连接(包括ieee1394或“firewire”、以太网、高清晰度媒体接口(hdmi))和无线连接(包括wifitm、蓝牙、zigbee)等。控制器110的示例参照图6更详细地描绘和描述。

音频传感器阵列120和图像捕获装置130彼此位于一起且安装至静止结构,使得音频传感器阵列120相对于图像捕获装置130的位置已知且固定。例如,音频传感器阵列120和图像捕获装置130可安装至房间的竖直壁,如图2a中绘出的那样。音频传感器阵列120和图像捕获装置130的已知相对位置允许用于形成音频束的水平和/或竖直角从图像捕获装置(角从其确定)的位置转换成音频传感器阵列(音频束由其形成)的位置。

尽管音频传感器阵列120和图像捕获装置130描绘为分开的构件,但在其他示例中,包括例如摄像机(或多个摄像头或其他图像捕获装置)和麦克风阵列的单个装置可在根据本公开的示例中使用。在一个此示例中,音频传感器阵列120和图像捕获装置130并入到同一装置中,但音频传感器阵列是静止的,且图像捕获装置构造成摇动和/或倾斜。在此情况下,控制器110可构造成将用于形成音频束的水平和/或竖直角从图像捕获装置(角从其确定)的位置转换成音频传感器阵列(音频束由其形成)的位置。然而,在另一个示例中,此转换可能不必要,如在音频传感器阵列120和图像捕获装置130并入到同一装置中且均静止的情况下。

音频传感器阵列120可包括多种不同类型的音频传感器。在一个示例中,音频传感器阵列120包括两个或更多个麦克风。在示例中,音频传感器阵列120的各个麦克风是全方向的,以给阵列提供较大感测区域。音频传感器阵列120中的麦克风或其他类型的传感器可包括两个或更多个中任何数目的麦克风,其布置成多种几何构造。

图像捕获装置130可包括多种不同类型的数据装置,其构造成捕获和存储物体和场景的数据图像。在一个示例中,图像捕获装置130包括标准或高清晰度摄像机。在一个示例中,图像捕获装置130包括静止图像摄像头。在一些示例中,图像捕获装置130包括具有广角透镜的视频或静止图像摄像头,广角透镜具有例如高达且包括近似160度的透镜角,使得摄像头可在不移动的情况下捕获几乎整个房间的图像。在另一个示例中,图像捕获装置130包括成阵列的摄像头,或构造成摇动、倾斜或另外改变其位置/定向来捕获多个图像的一个摄像头。在此示例中,控制器110可包括一个或多个算法,其构造成将由各个摄像头捕获的图像拼合在一起,以在不移动的情况下形成全部或几乎全部房间的视图。

图像捕获装置安装件140可包括多种装置或系统,其构造成将图像捕获装置130(且在一些情况下,音频传感器阵列120)安装至静止结构(像房间或其他空间中壁、地板或天花板)。例如,图1、2a和2b的安装件140将图像捕获装置130安装至房间210的竖直壁200。在一个示例中,安装件140包括或固定一个或多个伺服马达,伺服马达构造成使图像捕获装置130摇动(例如,左和右),且/或使图像捕获装置倾斜(例如,上和下)。

参照图2a和2b,图像捕获装置130构造成周期或连续地捕获监测的区域(也称为视野)的图像,监测的区域在该示例中为房间210的全部或相当大的部分。实际或有效视野示意性地由角c代表,其可等于多种实际或有效摄像头透镜角(高达且包括近似160度)。由图像捕获装置130捕获的图像由控制器110处理,以在房间210内识别所关注的物体。例如,控制器110可处理来自图像捕获装置130的图像以识别人,以用于接收声音命令的目的。在图2a中,存在可能关注的多个物体,包括人220和风扇230。在一个示例中,系统100的控制器110识别人220且构造成确定人220的位置,或确定指示房间210中的此位置的参数值。

控制器110可以以多种方式识别所关注的物体。例如,控制器110可存储和运行计算机视觉算法,其有时也称为物体或脸识别算法或程序。此程序构造成识别数字图像中的物体的具体分类,包括例如人脸。在示例中,控制器110存储和运行使用包括haar级联功能的脸识别来用于在房间210中识别人的算法。haar级联可允许使用级联分类器进行快速脸探测。例如,级联功能利用多个(例如几百)阳性图像和阴性图像训练,其中阳性图像包含脸,且阴性图像不包含脸。该功能从训练图像的部分提取特征组,称为haar特征。使用该组训练图像,算法选择最相关的特征来将图像分类为阳性(脸)或阴性(非脸)。算法然后将这些特征相关性应用于由图像捕获装置130捕获的图像,以识别视野中的人脸。算法可通过使图像离散成多个区域且对各个区域迭代地应用级联功能来处理图像,以确定该区域是否包括与人脸相关的特征。

多种其他脸或其他物体探测/识别技术可在根据本公开的示例中使用。在一个示例中,控制器110开源cv3.0.0或开源计算机视觉库(其在bsd开源许可下发布)安装。该库包括用于脸的预训练分类器,其存储为xml文件且可用于识别人脸的前沿和轮廓视图两者。

音频束形成和音频信号处理系统100构造成利用音频束(使用两个或更少音频源位置参数来限定音频束)来定位、瞄准和跟踪音频源。在图2a和2b的示例中,控制器110将人220识别为潜在音频源(例如从其接收声音命令),且构造成使用两个或更少音频源位置参数来确定人220的位置。在一个示例中,控制器110确定指示人220的位置的角a,其中角a在大体平行于参照数据平面的水平平面中,参照数据平面是人220坐、站、躺在其上的地板或地面等。水平角a取决于系统100安装的方式来限定。在该示例中,角a在平行于地板的水平平面中从壁(系统100安装至其)到从图像捕获装置130至人220的竖直中心线的矢量而进行测量。

控制器110可以以多种不同方式确定角a。在图像捕获装置130安装至使装置130从左至右摇动的伺服马达的示例中,控制器110可使用计算机视觉算法来在由装置130捕获的图像中识别人220。控制器110可然后控制伺服马达,以将图像捕获装置130的视野定心到人220上。控制器110可从装置直接读取伺服马达的角,以确定人210在房间210中的水平角a。

在一个示例中,使图像捕获装置130左/右摇动的伺服马达经由三个线(包括功率线、地线和通用输入输出(gpio)线)连接至控制器110或其模块。gpio编程成将脉宽调制(pwm)信号从控制器110输出至伺服马达,其高态活跃特定量时间。脉冲处于高态的持续时间设定伺服马达的位置、摇动角。例如,当控制器110输出1.5ms高态脉冲至伺服马达时,马达将移动至中性90度位置。当控制器110输出较短1.0ms高态脉冲至伺服马达时,马达将移动至接近0度位置。而且,当控制器110输出较长2.0ms高态脉冲至伺服马达时,马达将移动至接近180度位置。

在一个示例中,高态脉冲持续时间的下限和上限可设定成使得,使用的具体伺服马达不超过机械旋转的角。此外,在一些示例中,由于伺服马达通常具有用于位置反馈的传感器,控制器110可读取图像捕获装置130安装在其上的伺服马达的位置。

在一个示例中,控制器110运行算法、程序等,其运行成选择来自图像捕获装置130的图像以及应用物体探测算法来探测特定物体(例如,脸)的环路。如果没有探测到物体,则环路保持运行且选择由图像捕获装置130捕获的后续图像,从而试图找到物体(例如,当装置130跨过房间210水平地左右摇动时)。如果探测到物体,代码将相对于摄像头的分辨率读取物体位置的坐标。如果(0,0)是图像分辨率的底左坐标,且总分辨率是640x480,则控制器110可探测x范围0到640且y范围0到480内的任何位置的物体。在一个示例中,仅使用x范围,图像的中心线等于分辨率除以二(640/2=320)。当在(100,20)处探测到物体,则控制器110确定在中心线左侧,因为100<320。作为响应,控制器110可使图像捕获装置130向左摇动,以使物体在图像捕获装置130的框架/视野中定心。类似地,如果在(400,20)处探测到物体,则控制器110确定在中心线右侧(因为400>320),且装置130向右摇动,以使物体定心在框架中定心。以此方式,在一个示例中上,控制器110和图像捕获装置130可使用左或右摇动的伺服马达而跟踪人220。

一旦人220在图像捕获装置130的框架或视野中水平地(或沿x方向)定心,则控制器110读取伺服马达的位置,其在图2a中绘出的示例中可为180度视野中的任何位置。伺服马达的位置可与多种水平角相关联,水平角在校准步骤中存储在控制器110的表、数据库或其他数据存储机构中。例如,如果控制器110将伺服马达的位置读取为140(1.4ms高态脉冲),且制器110可在数据库中交叉参照该值,而看到140马达位置等于81度的角a。

在另一个示例中,图像捕获装置130是静止的,且具有覆盖房间210的全部或相当大的部分的实际或有效视野。在此情况下,控制器110运行计算机视觉算法来在由图像捕获装置130捕获的图像中识别人220。在图像中已经探测/识别人220之后,控制器110可使用所捕获的图像的分辨率以及图像捕获装置130的实际或有效透镜角或感测角(两者都是固定值)来确定人220的水平角a。如指出的那样,在该示例中,图像捕获装置130静止,且在人220在房间210内移动的情况下,重复地运行计算机视觉算法来识别和定位人220,且从而在房间内跟踪人。

一旦控制器110确定角a,且从而在房间210内水平地定位人220,则控制器可构造成形成且使音频束410指向人400。可通过使竖直伸长的锥(或其他)形状的束区域250水平地定心到人220上来快速限定音频束240。这样的示例在图2a和2b中绘出,其中图2a示意性地绘出束区域250的水平分量,且图2b示意性地绘出音频束240的束区域250的水平和竖直分量。角b可为固定值,其限定音频束240的水平大小,且音频束/束区域250的竖直分量可伸长至固定高度,其横跨给定空间,例如从房间的地板至天花板的距离。以此方式,由控制器110形成的音频束240水平地对准于音频源、人220,且竖直地伸长。音频束240的竖直伸长除去了确定音频源的竖直位置(例如,人220的脸或头相对于系统100的音频传感器阵列120的位置的位置)的需要。在一个示例中,音频束角b等于近似20度。

再次参照图2a,在房间210中除了潜在关注的声音源之外。还可能存在噪声源,将噪声源滤出由音频传感器阵列120接收的信号可为期望/有利的,以用于例如远场声音/语音识别的目的。例如,风扇230可为噪声源。在一个示例中,控制器110构造成分析由图像捕获装置130捕获的图像,以将房间210中的风扇230识别为噪声源,且使音频传感器阵列120基于位置参数来形成音频束,以将第二音频束260指向风扇230,且探测来自风扇230的音频信号。控制器110可以以类似于上文描述的用于识别、定位潜在关注的声音源(例如,人220)且将音频束指向潜在关注的声音源的方式,来识别、定位噪声源且将音频束指向噪声源。控制器110可使用由指向噪声源(风扇230)的音频束260接收的信号,来改进由指向人220的音频束240接收的信号。例如,控制器110可从由音频束240接收的信号减去与由音频束260接收的音频信号类似或相同的信号。

图3、4a和4b绘出了根据本公开的示例音频束形成和音频信号处理系统300。参照图3,系统300包括控制器310、音频传感器阵列320、图像捕获装置330以及图像捕获装置安装件340。控制器310、音频传感器阵列320、图像捕获装置330通信地连接,使得构件可与彼此发送和接收信号。图像捕获装置330通过安装件340安装至静止结构,且音频传感器阵列320在图像捕获装置330上方以竖直堆叠布置安装至该结构。在另一个示例中,音频传感器阵列320在图像捕获装置330下方以竖直堆叠布置安装。控制器310可与音频传感器阵列320和图像捕获装置330位于一起或远离它们。音频传感器阵列320和图像捕获装置330相对于彼此处于已知位置。在该示例中,音频传感器阵列320包括三个音频传感器。然而,在根据本公开的其他示例中,音频传感器阵列可包括两个或更多个中任何数目的音频传感器。

系统300及其构件(包括控制器310、音频传感器阵列320、图像捕获装置330以及安装件340)可大致类似于上文参照图1、2a和2b描述的控制器110、音频传感器阵列120、图像捕获装置130以及安装件140。然而,系统300适于,使用所关注的音频源在近似垂直于地面的竖直平面中所处的角,形成音频束。相对于图1、2a和2b的示例,在该示例中,音频束竖直地对准于音频源且水平地伸长。

参照图3、4a和4b,音频束形成和音频信号处理系统300构造成利用音频束(使用两个或更少音频源位置参数来限定音频束)来定位、瞄准和跟踪音频源。在图4a和4b的示例中,控制器310将人400识别为潜在音频源(例如从其接收声音命令),且构造成使用两个或更少音频源位置参数来确定人400的位置。在一个示例中,控制器310确定指示人400的位置的角d,其中角d在大体垂直于参照数据平面的竖直平面中,参照数据平面是人400坐、站、躺在其上的地板或地面等。竖直角d取决于系统300安装的方式来限定。在该示例中,角d在垂直于地板的竖直平面中从壁(系统300安装至其)到从图像捕获装置330至例如人400的脸的中心附近的矢量而测量。

控制器310可以以多种不同方式确定角d。在图像捕获装置330安装至使装置330上下倾斜的伺服马达的示例中,控制器310可使用计算机视觉算法来在由装置330捕获的图像中识别人400。控制器310可然后控制伺服马达,以将图像捕获装置330的视野定心到人400上。控制器310可从装置直接读取伺服马达的角,以确定人400的水平角d。由控制器310使用的具体算法、程序、控制等可变化,且可包括上文参照控制器110阐述的类似技术,除了在该示例中,控制器310确定竖直角d,以在由图像捕获装置330捕获的场景/视野中竖直地定位人400。

在另一个示例中,图像捕获装置330是静止的,且具有覆盖人400驻留的空间的全部或相当大的部分的实际或有效视野。在此情况下,控制器310运行计算机视觉算法来在由图像捕获装置330捕获的图像中识别人400。在图像中已经探测/识别人400之后,控制器310可使用所捕获的图像的分辨率以及图像捕获装置330的实际或有效透镜角或感测角(两者都是固定值)来确定人400的竖直角d。如指出的那样,在该示例中,图像捕获装置330静止,且在人400移动的情况下,可重复地运行计算机视觉算法来识别和定位人400,且从而跟踪人的移动。

一旦控制器310确定角d,且从而竖直地定位人400,则控制器可构造成形成音频束410且使音频束410指向人400。可通过使水平伸长的锥(或其他)形状的束区域420竖直地定心到人400上来快速限定音频束410。这样的示例在图4a和4b中绘出,其中图4a示意性地绘出束区域420的竖直分量,且图2b示意性地绘出音频束410的束区域420的水平和竖直分量。参照图4a,角e可为固定值,其限定音频束410的竖直大小,且音频束/束区域420的水平分量可伸长至固定宽度,其横跨给定空间,例如从房间的一个侧壁至相对侧壁的距离。以此方式,由控制器310形成的音频束410竖直地对准于音频源、人400,且水平地伸长。音频束410的水平伸长除去了确定音频源的水平位置(例如,人400相对于系统300的音频传感器阵列320的位置左右站的位置)的需要。在一个示例中,音频束角e等于近似20度。

图5a和5b绘出了根据本公开的另一示例音频束形成和音频信号处理系统500。系统500包括控制器510、音频传感器阵列520、图像捕获装置530以及图像捕获装置安装件540。控制器510、音频传感器阵列520、图像捕获装置530通信地连接,使得构件可与彼此发送和接收信号。图像捕获装置530由安装件540安装至静止结构。音频传感器阵列520安装至与图像捕获装置530相同的结构,例如房间的竖直壁。音频传感器阵列520包括在图像捕获装置530上方的水平并排的一组传感器以及竖直堆叠的一组音频传感器两者。在另一个示例中,音频传感器阵列520在图像捕获装置530下方安装。控制器510可与音频传感器阵列520和图像捕获装置530位于一起或远离它们。音频传感器阵列520和图像捕获装置530相对于彼此处于已知位置。

在该示例中,音频传感器阵列520包括5个音频传感器。然而,在根据本公开的其他示例中,音频传感器阵列可包括两个或更多个中任何数目的音频传感器。音频传感器阵列520是可由控制器510使用的阵列的一个示例(或根据本公开的另一控制器),以形成水平定位且竖直伸长的音频束竖直定位且水平伸长的音频束两者。

在图5a和5b的示例中,控制器510构造成以与利用图1-4b的示例描述的类似方式,将人550的位置识别为潜在关注的声音源。然而,在该示例中,控制器510将图1、2a和2b的示例的示例音频束定位和形成与图3、4a和4b的示例的示例音频束定位和形成组合。

例如,控制器510构造成在由图像捕获装置530捕获的一个或多个图像中识别人550。控制器510可使用如上文描述的各种计算机视觉和物体探测算法来识别人550(以及潜在关注的其他声音源)。控制器510确定指示人550的位置的两个音频源位置参数。例如,控制器510确定在平行于参照数据平面的水平平面(人550布置在其上)中的水平角以及在垂直于参照数据平面的竖直平面中的竖直角。控制器510可以以与参照图1-4b的示例中计算角a和d描述的类似方式,确定水平角和竖直角。在一个示例中,系统500包括一个或多个伺服马达,伺服马达构造成使图像捕获装置530左右摇动,且使图像捕获装置530上下倾斜。在此情况下,控制器510可构造成,基于人550在图像捕获装置530的视野中定心时伺服马达的位置,来确定水平角和竖直角。

在确定指示人550的位置的水平角和竖直角之后,控制器510可使用水平角计算与人550水平对准且竖直伸长的第一音频束560,且使用竖直角计算与人550竖直对准且水平伸长的第二音频束570。控制器510然而可使音频传感器阵列520将音频束580形成为计算的第一音频束560和计算的第二音频束570之和。音频束580从而与人550水平且竖直对准。此外,由于束如此定位,可以通过使用仅两个音频源位置参数且然后简单地加和计算的第一音频束560和计算的第二音频束570(其各个由控制器510基于单个参数计算)以编程地相对简单的方式来形成音频束580。

根据本公开的一个示例包括一种系统,其包括控制器,控制器构造成使用图1、2a和2b、图3、4a和4b、或图5a和5b中描述的技术中的仅一者,识别和定位潜在关注的声音源且形成指向音频源的音频束。在另一示例中,一各种根据本公开的控制器,其构造成使用图1、2a和2b、图3、4a和4b、以及图5a和5b中描述的一种或多种技术,识别和定位潜在关注的声音源且形成指向音频源的音频束。在后一情况下,控制器可构造成基于各种因素选择这此示例技术中的一者。例如,声音源在空间中布置的特点可使图1、2a和2b、图3、4a和4b、以及图5a和5b的一个示例比其他示例更有利/准确。在另一示例中,用户或安装技术人员可设定系统来使控制器使用图1、2a和2b、图3、4a和4b、以及图5a和5b的一个示例,来识别和定位潜在关注的声音源且形成指向音频源的音频束。

图6绘出了根据本公开的示例的示例控制器600。示例控制器600包括由总线通信地连接的处理器610、存储器620、马达控制器630、音频编码译码器(编码器/译码器)640以及无线收发器650。控制器600可用于根据本公开的音频束形成和音频信号处理系统,包括系统100、300、500以及700(在下文参照图7描述)。

在一个示例中,处理器610(后文“处理器610”)构造成实施功能和/或处理指令,来由控制器600或根据本公开的其他控制器运行。例如,处理器610能够处理在存储器620处存储的指令,其在一些示例中包括用于运行属于控制器110、控制器310和/或控制器510的功能的指令。处理器610的示例包括微处理器、控制器、数字信号处理器(dsp)、特定用途集成电路(asic)、现场可编程门阵列(fpga)或等效离散或集成逻辑电路中的任何一者或多者。在一个示例中,处理器610包括raspberrypi2modelb900mhz四核中央处理单元(cpu)。

存储器620可构造成在操作期间在控制器600内存储信息、数据、信号等。在一些示例中,存储器620描述为计算机可读存储介质。在一些示例中,存储器620包括暂时存储器,这意味着一个或多个存储器620的主要目的不是长期存储。在一些示例中,存储器620描述为易失存储器,这意味着,当计算机关掉时,存储器620不维持存储的内容。易失存储器的示例包括随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、以及本领域中已知的其他形成的易失存储器。在一些示例中,存储器620用于存储用于由处理器610运行的程序指令,例如包括用于物体探测/识别和音频束形成的算法。存储器620例如由在处理器610上运行的软件和应用使用,以在程序运行期间暂时存储信息。

在一些示例中,存储器620还包括一种或多种计算机可读存储介质。存储器620可构造成比易失存储器存储更大量的信息、数据、信号等。存储器620还可构造成用于信息的长期存储。在一些示例中,存储器620包括非易失存储元件。此非易失存储元件的示例包括磁性硬盘、光盘、软盘、闪速存储器、或电可编程存储器(eprom)或电可擦可编程存储器(eeprom)的形式。

马达控制器630可构造成控制伺服马达或其他机构(在根据本公开的示例中图像捕获装置由其铰接)。马达控制器630可以以软件、硬件以及它们的组合而实施。例如,马达控制器630可为软件、逻辑模块,其在处理器610中运行或包括在处理器610中,且构造成与联接至图像捕获装置的一个或多个伺服马达通信。在另一示例中,马达控制器630可为电路或电路板,其联接至处理器610以及一个或多个伺服马达或其他铰接机构。

音频编码译码器640构造成对由连接至控制器600的音频传感器阵列探测的音频信号进行编码、译码以及另外的处理。在一些示例中,音频编码译码器640的功能包括在处理器610中且由处理器610运行。在其他示例中,音频编码译码器640是单独逻辑或物理构件。在一个示例中,音频编码译码器640是microsemizl38051音频编码译码器。

无线收发器650构造成从控制器600传输信息、数据、信号等,以及在控制器600处接收信息、数据、信号等。无线收发器650可将控制器600和相关联的音频束形成和音频信号处理系统通信地连接至其他电子系统,包括例如住宅安全性或自动化系统。无线收发器650可包括一个或多个构件,以允许各种形式的无线通信,包括例如wi-fi、蓝牙、z波、zigbee等。

图7绘出了根据本公开的示例音频束形成和信号处理系统700,其通信地连接至住宅安全性系统710。在图7的示例中,系统700与住宅安全性系统710通信,例如使用wi-fi、蓝牙、z波、zigbee等。然而,在另一示例中,系统700可在无线连接上与住宅安全性系统710通信。

根据本公开的系统和方法可通过电子装置/系统来改进探测和处理远场音频信号以改进语音识别和处理。根据本公开的示例可应用于多种实践技术应用,包括例如住宅/房屋/设备安全性和/或自动化、个人紧急响应系统(pers)、物理访问控制系统等。在图7的示例中,系统700连接至住宅安全性系统710,且增强/改进住宅安全性系统710的功能。然而,在其他示例中,音频束形成和信号处理系统可连接至多种额外电子系统,且增强/改进多种额外电子系统的功能。

系统700构造成利用由两个或更少音频源位置参数限定的音频束来定位、瞄准和跟踪音频源。系统700可根据上文描述的图1-6的示例中的任何或所有来构造和起作用。例如,系统700可构造成,使用大体上平行于参照数据平面的水平平面中的角和/或大体垂直于参照数据平面的竖直平面中的角中的一者或两者,形成指向说出命令或其他信息来由住宅安全性系统710运行/使用的人的音频束。

系统700可为了多种不同目的而处理来自如此形成的音频束的音频信号,且运行多种不同功能。例如,系统700可构造成运行语音识别算法,以接收和运行由系统的用户说出的命令。例如,系统700的控制器可编程成运行语音至文本(stt)算法,以将由系统形成的音频束接收的音频信号转换成文本。在一个示例中,系统700使用由卡内基梅隆大学开发且在bsd开源许可下发布的pocketsphinxstt引擎。

此外,在一些示例中,系统700包括音频输出装置,包括例如一个或多个扬声器,且构造成将可由用户察觉的音频信号输出为语音。在此情况下,系统700可包括且运行语音至文本(stt)算法,以将由用户说出且由系统700处理的命令转换成由扬声器的音频信号输出。在一个示例中,系统700包括且构造成运行在espeak.sourceforge.net可用且在gnu开源许可下发布的espeaktts算法。以此方式,系统700可提供反馈至用户,以作为示例来确认说出的命令及其运行。

在一个示例中从用户接收且由系统700识别的命令或其他类型的输入可通信至第二系统,例如住宅安全性系统710。住宅安全性系统710可构造成使各种结果、动作、效果等发生,包括例如起动/解除住宅的安全性警报、锁定/解锁门、打开/闭合车库门等。

图8是绘出根据本公开的方法800的流程图。方法800包括,使用图像捕获装置来捕获监测的区域的至少一个图像(810),由控制器分析由图像捕获装置捕获的至少一个图像来识别监测的区域内的音频源(820),由控制器确定指示音频源在监测的区域中的位置的两个或更少音频源位置参数(830),以及由成阵列的音频传感器基于该两个或更少音频源位置参数来形成指向音频源的音频束(840)。方法800可由根据本公开的示例音频束形成和信号处理系统运行。例如,方法800可由图1-5b的任何示例运行,且包括根据图6的示例的控制器。

在一个示例中,包括在音频束形成和信号处理系统中的图像捕获装置捕获监测的区域(例如,房屋或其他建筑内的房间)的一个或多个图像。图像捕获装置通信地连接至系统的控制器,且图像可由控制器处理且/或存储在控制器的存储器上。

控制器构造成分析图像来识别潜在关注的音频源,例如人。控制器可识别图像中的音频源,例如通过运行一个或多个计算机视觉和/或物体探测/识别算法。

控制器确定指示音频源在监测的区域中的位置的两个或更多个音频源位置参数。例如,控制器确定在大体上平行于参照数据平面的水平平面中的角和/或在大体垂直于参照数据平面的竖直平面中的角中的一者或两者。参照数据平面可为但不一定必须为地面、地板或音频源站、坐、躺在其上的其他平坦表面等。

控制器使音频束形成和信号处理系统的音频传感器阵列,使用两个或更少音频源位置参数,来形成指向音频源的音频束。例如,控制器使音频传感器阵列,使用水平角和竖直角中的一者或两者来形成音频束。在使用水平角的情况下,音频束可与音频源水平地对准且竖直地伸长。在使用竖直角的情况下,音频束可与音频源竖直地对准且水平地伸长。在使用水平角和竖直角两者的情况下,控制器可计算与音频源水平地对准且竖直地伸长的第一音频束,计算与音频源竖直地对准且水平地伸长的第二音频束,且可使音频传感器阵列将第三音频束形成为计算的第一音频束和计算的第二音频束之和。

注意和示例

本申请提供以下示例性实施例或示例,其标号不应理解为指定重要性水平:

示例1提供一种音频束形成和信号处理系统,其包括:至少一个图像捕获装置,其构造成捕获监测的区域的图像;和成阵列的音频传感器,其构造成探测来自监测的区域内的一个或多个音频源的音频信号;以及控制器,其构造成:分析由图像捕获装置捕获的至少一个图像来识别监测的区域内的音频源;确定指示音频源在监测的区域中的位置的两个或更少音频源位置参数;以及基于该两个或更少音频源位置参数来使成阵列的音频传感器形成指向音频源的音频束。

示例2提供示例1的系统,且可选地其中:控制器构造成基于一个音频源位置参数来使成阵列的音频传感器形成音频束,该一个音频源位置参数指示音频源在监测的区域中沿第一方向的位置;且由成阵列的音频传感器形成的音频束沿第一方向与音频源对准且沿垂直于第一方向的第二方向伸长。

示例3提供示例1和2的系统,且可选地其中,第一方向包括水平方向,且第二方向包括竖直方向,且其中音频束与音频源水平地对准且竖直地伸长。

示例4提供示例1和2的系统,且可选地其中,第一方向包括竖直方向,且第二方向包括水平方向,且其中音频束与音频源竖直地对准且水平地伸长。

示例5提供示例1的系统,且可选地其中:控制器构造成基于第一音频源位置参数和第二音频源位置参数来使成阵列的音频传感器形成音频束,第一音频源位置参数指示音频源在监测的区域中沿第一方向的位置,且第二音频源位置参数指示音频源在监测的区域中沿第二方向的位置,第一方向和第二方向彼此垂直;且由成阵列的音频传感器形成的音频束沿第一方向和第二方向与音频源对准。

示例6提供示例1和5的系统,且可选地其中,控制器使成阵列的音频传感器形成音频束包括:计算沿第一方向与音频源对准且沿第二方向伸长的第一音频束;计算沿第二方向与音频源对准且沿第一方向伸长的第二音频束;以及使成阵列的音频传感器将音频束形成为计算的第一音频束和计算的第二音频束之和。

示例7提供示例1、5和6的系统,且可选地其中,第一方向包括水平方向,且第二方向包括竖直方向,且其中计算的第一音频束与音频源水平地对准且竖直地伸长,且计算的第二音频束与音频源竖直地对准且水平地伸长。

示例8提供示例1的系统,且可选地其中,该两个或更少音频源位置参数包括下者中的至少一个:在平行于音频源布置在其上的参照数据平面的平面中的角,该角指示音频源在监测的区域的水平位置;以及在垂直于参照数据平面的平面中的角,该角指示音频源在监测的区域中的竖直位置。

示例9提供示例1和8的系统,且可选地还包括一个或多个伺服马达,其连接至图像捕获装置,且构造成进行下者中的至少一个:使图像捕获装置水平地摇动以及使图像捕获装置竖直地倾斜。

示例10提供示例1、8和9的系统,且可选地其中,控制器确定该两个或更少音频源位置参数包括:进行下者中的至少一个:控制该一个或多个伺服马达以将图像捕获装置的视野水平地定心到音频源上以及控制该一个或多个伺服马达以将图像捕获装置的视野竖直地定心到音频源上;以及从该一个或多个伺服马达读取该一个或多个伺服马达的水平角和竖直角中的至少一个,水平角和竖直角中的至少一个相应地是在平行于参照数据平面的平面中的角和在垂直于参照数据平面的平面中的角中的至少一个。

示例11提供示例1、8、9和10的系统,且可选地其中,控制器使成阵列的音频传感器形成音频束包括:使用在平行于参照数据平面的平面中的角计算第一音频束,第一音频束与音频源水平地对准且竖直地伸长;使用在垂直于参照数据平面的平面中的角计算第二音频束,第二音频束与音频源竖直地对准且水平地伸长;以及使成阵列的音频传感器将音频束形成为计算的第一音频束和计算的第二音频束之和。

示例12提供示例1和8的系统,且可选地其中,控制器构造成基于由图像捕获装置捕获的至少一个图像的分辨率以及图像捕获装置的透镜角中的至少一个,来确定在平行于参照数据平面的平面中的角以及在垂直于参照数据平面的平面中的角中的至少一个。

示例13提供示例1的系统,且可选地其中,控制器构造成基于由图像捕获装置捕获的至少一个图像的分辨率以及图像捕获装置的透镜角中的至少一个,来确定该两个或更少音频源位置参数。

示例14提供示例1的系统,且可选地其中:音频源包括人;音频信号代表由人说出的命令;且控制器构造成:处理音频信号来识别由人说出的命令;以及将代表命令的信号传输至第二系统,第二系统构造成响应于接收代表命令的信号而运行第二系统的功能。

示例15提供示例1和14的系统,且可选地还包括音频输出装置,且其中控制器构造成使音频输出装置输出可由人察觉的信号,作为命令的有声化。

示例16提供示例1的系统,且可选地其中,指向音频源的音频束是第一音频束,且其中控制器构造成:分析由图像捕获装置捕获的至少一个图像,以识别监测的区域内的噪声源;确定指示噪声源在监测的区域中的位置的一个或多个参数;基于该一个或多个参数来使成阵列的音频传感器形成指向噪声源的第二音频束;以及使用由第二音频束探测的噪声信号来对由第一音频束探测的音频信号进行滤波。

示例17提供一种系统,其包括:音频束形成和信号处理系统;以及第二系统,其中音频束形成和音频信号处理系统包括:至少一个图像捕获装置,其构造成捕获监测的区域的图像;和成阵列的音频传感器,其构造成探测来自监测的区域内的一个或多个音频源的音频信号;控制器,其构造成:分析由图像捕获装置捕获的至少一个图像来识别监测的区域内的音频源;确定指示音频源在监测的区域中的位置的两个或更少音频源位置参数;基于该两个或更少音频源位置参数来使成阵列的音频传感器形成指向音频源的音频束;将由音频束探测的音频信号或音频信号的代表传输至第二系统,且其中第二系统构造成响应于接收自音频束形成和信号处理系统的音频信号或其代表而运行第二系统的功能。

示例18提供示例17的系统,且可选地其中,第二系统包括住宅安全性系统、住宅自动化系统、物理访问控制系统和个人紧急响应系统中的至少一个。

示例19提供示例17的系统,且可选地其中:控制器构造成基于一个音频源位置参数来使成阵列的音频传感器形成音频束,该一个音频源位置参数指示音频源在监测的区域中沿第一方向的位置;且由成阵列的音频传感器形成的音频束沿第一方向与音频源对准且沿垂直于第一方向的第二方向伸长。

示例20提供示例17的系统,且可选地其中:控制器构造成基于第一音频源位置参数和第二音频源位置参数来使成阵列的音频传感器形成音频束,第一音频源位置参数指示音频源在监测的区域中沿第一方向的位置,且第二音频源位置参数指示音频源在监测的区域中沿第二方向的位置,第一方向和第二方向彼此垂直;且由成阵列的音频传感器形成的音频束沿第一方向和第二方向与音频源对准。

示例21提供示例17和20的系统,且可选地其中,控制器使成阵列的音频传感器形成音频束包括:计算沿第一方向与音频源对准且沿第二方向伸长的第一音频束;计算沿第二方向与音频源对准且沿第一方向伸长的第二音频束;以及使成阵列的音频传感器将音频束形成为计算的第一音频束和计算的第二音频束之和。

示例22提供示例17的系统,且可选地其中,指向音频源的音频束是第一音频束,且其中控制器构造成:分析由图像捕获装置捕获的至少一个图像,以识别监测的区域内的噪声源;确定指示噪声源在监测的区域中的位置的一个或多个参数;基于指示噪声源在监测的区域中的位置的该一个或多个参数来使成阵列的音频传感器形成指向噪声源的第二音频束;以及使用由第二音频束探测的噪声信号来对由第一音频束探测的音频信号进行滤波。

示例23提供一种方法,其包括:使用图像捕获装置来捕获监测的区域的至少一个图像;由控制器分析由图像捕获装置捕获的至少一个图像来识别监测的区域内的音频源;由控制器确定指示音频源在监测的区域中的位置的两个或更少音频源位置参数;以及基于该两个或更少音频源位置参数来由成阵列的音频传感器形成指向音频源的音频束。

示例24提供示例23的系统,且可选地包括,基于一个音频源位置参数来形成音频束,该一个音频源位置参数指示音频源在监测的区域中沿第一方向的位置;且由成阵列的音频传感器形成的音频束沿第一方向与音频源对准且沿垂直于第一方向的第二方向伸长。

示例25提供示例23的系统,且可选地包括,基于第一音频源位置参数和第二音频源位置参数来形成音频束,第一音频源位置参数指示音频源在监测的区域中沿第一方向的位置,第二音频源位置参数指示音频源在监测的区域中沿第二方向的位置,第一方向和第二方向彼此垂直,且由成阵列的音频传感器形成的音频束沿第一方向和第二方向与音频源对准。

示例26提供示例23和25的系统,且可选地其中,基于第一音频源位置参数和第二音频源位置参数来形成音频束包括:由控制器计算沿第一方向与音频源对准且沿第二方向伸长的第一音频束;由控制器计算沿第二方向与音频源对准且沿第一方向伸长的第二音频束;以及由成阵列的音频传感器将音频束形成为计算的第一音频束和计算的第二音频束之和。

示例27提供示例23的系统,且可选地其中,指向音频源的音频束是第一音频束,且还包括:由控制器分析由图像捕获装置捕获的至少一个图像,以识别监测的区域内的噪声源;由控制器确定指示噪声源在监测的区域中的位置的一个或多个参数;基于指示噪声源在监测的区域中的位置的该一个或多个参数来由成阵列的音频传感器形成指向噪声源的第二音频束;以及由控制器使用由第二音频束探测的噪声信号来对由第一音频束探测的音频信号进行滤波。

已经描述本公开的各种方面。这些和其他方面处于所附权利要求的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1