用于获取声信号的方法、电路、设备、系统和相关计算机可执行代码与流程

文档序号：11143022阅读：610来源：国知局

本发明通常涉及声信号或声音获取的领域。本发明涉及音频信号的处理。本发明还涉及用于获取、处理和音频再现定向声信号的电路、设备、系统和相关计算机可执行代码。

背景

听力损失、聋症、重听、听力障碍是部分或全部失听。在儿童中，它可影响语言的发展并可引起对成人的工作相关的困难。它可由很多因素——包括遗传、衰老、暴露于噪声、疾病、化学品和物理创伤引起。虽然听力测试的结果以分贝表示，听力损失通常被描述为轻度、轻度-中度、中度、中度严重、严重或十分严重的。

听力损失通常是由在生命中的某个时候没有听力障碍的人具有的。在世界上听力损失在某种程度上影响人口的大约10％。存在可防止听力损失的很多措施，包括大噪声、化学药剂和物理创伤的避免。

对于由于听力损失而需要听力帮助的那些人，存在助听器，其通常是设计成通常为了使语音变得更易理解而为穿戴者放大声音的电声设备。被称为喇叭状助听器或耳角的较早的设备是设计成收集声能并将它引导到耳道内的无源漏斗状放大圆锥体。类似的设备包括骨锚式助听器和耳蜗植入物。

到目前为止提供的所有助听器的主要缺点是它们不能够在空间上分离背景噪声与穿戴者希望听到的感兴趣的声音。

也被称为身体携带的计算机或穿戴式设备的穿戴式计算设备是由持有人在衣服里面、与衣服一起或在衣服的最上面戴着的微型电子设备。为了通用或专用信息技术和媒体发展而开发了穿戴式设备。

存在对可执行来可选地使用穿戴式计算设备获取、处理并再现声信号的提高的方法、电路、设备、系统和相关计算机的需要。

发明概述

本发明可包括用于获取声信号例如人类语音和/或各种其它声音类型的方法、电路、设备、系统和相关机器可执行代码。根据另外的实施方式，本发明可包括用于处理、标准化、均衡和/或音频再现所获取的声信号例如人类语音和/或其它可听得见的声音的方法、电路、设备、系统和相关机器可执行代码。根据又一些另外的实施方式，本发明可包括用于转录、翻译和/或用图形再现所获取的人类语音的方法、电路、设备、系统和相关机器可执行代码。本发明包括用于动态地将声信号(例如声音)获取组件的方向性对准由光学跟踪系统识别和/或跟踪的声源(例如人类说话者)的方向的方法、电路、设备、系统和相关机器可执行代码。

根据实施方式，可提供移动计算设备，例如穿戴式计算设备，包括(1)电气地可配置的声信号(即声音)获取组件，其操作和可选地方向性可由电信号动态地改变；以及(2)光学跟踪系统，其适合于光学地跟踪一个或声源并向声信号获取组件输出电信号或指示符以调节声信号获取组件的操作和/或方向性，以便获取来自被光学地跟踪的声源的一个方向的声信号，同时实质上抑制、丢弃、排除和/或以其他方式屏蔽来自除了被光学地跟踪的声源的该方向以外的方向的声信号信息。根据实施方式，光学跟踪系统可适合于随着目标声源相对于计算设备移动而更新它的输出电信号或指示符，从而使声信号获取组件的方向性改变并跟踪移动的声源，而组件不物理地移动。

根据一些实施方式，移动设备可以是以眼镜的形式，该眼镜具有遍及眼镜的框架和/或杆和在框架和/或杆内布置的麦克风的阵列。根据这样的实施方式，光学跟踪系统可包括前视光学图像传感器，和/或光学跟踪系统可包括面向内的光学眼睛跟踪传感器。眼镜实施方式还可包括通信接口——有线或无线的——以将眼镜连接到可用作眼镜的用户接口的智能电话。智能电话的触摸屏可用于观看潜在跟踪目标并选择用于由光学跟踪系统实际跟踪的一个或多个潜在目标。智能电话还可用于提供对通过眼镜的声获取组件获取的语音的机器转录(即语音到文本)。智能电话也可用于提供对通过眼镜的声获取组件获取的语音的机器翻译。

根据一些实施方式，移动设备可以是以耳机的形式，该耳机具有遍及耳机的主体和框架和在主体和框架内布置的麦克风的阵列。根据这样的实施方式，光学跟踪系统可包括在耳机的前向表面上的前视光学图像传感器。耳机实施方式还可包括通信接口——有线或无线的——以将耳机连接到可用作耳机的用户接口的智能电话。智能电话的触摸屏可用于观看潜在跟踪目标并选择用于由光学跟踪系统实际跟踪的潜在目标。智能电话还可用于提供针对通过耳机的声获取组件获取的语音的机器转录(即语音到文本)功能。智能电话也可用于提供针对通过耳机的声获取组件获取的语音的机器翻译功能。

根据本发明的方面，可提供光学传感器引导的定向音频信号(或音频流)产生，其中定向音频信号/流产生可包括下列项中的一个或多个：(a)麦克风选择，(b)声波束形成，和/或(c)声波束操纵。根据实施方式，包括光学传感器组件(例如具有光学器件的CCD或CMOS)和跟踪电路(例如执行图像特征识别和跟踪算法的处理器)的光学跟踪系统可产生信号或指示符以引导定向音频流产生。可使用与被配置或编程为定向音频流产生器的音频信号处理电路成整体或以其他方式在功能上相关的声麦克风阵列来执行定向音频信号/流(也可被称为“定向音频信号”)产生。

根据本发明的一些实施方式，可提供电气地可配置的声获取组件，该声获取组件可包括具有距离彼此一定距离定位的两个或更多个麦克风的麦克风阵列，其中每个麦克风可适合于将到达麦克风的声信号(即声音)转换成电信号，例如模拟或数字音频信号。麦克风阵列可包括匹配麦克风组，其中匹配麦克风可具有实质上相同的频率响应特征和/或方向性特征。麦克风阵列可包括为全向麦克风、多定向麦克风和/或定向麦克风的麦克风。

根据本发明的实施方式的阵列的定向麦克风可被定位和/或固定在阵列内以具有不同的方向性并促进不同的声信号获取覆盖区。阵列麦克风的方向性可相对于麦克风结构是固定的或可电气地可操纵的，如由在美国专利申请公布号US20130142358A1中示出的MEMS麦克风教导的。根据一些实施方式，根据实施方式的阵列的两个单独定向麦克风中的每个的声信号获取覆盖区可部分地或完全重叠。今天已知的或在未来将被设计的任何定向麦克风结构可应用于本发明的方面。

根据一些实施方式的阵列的麦克风可具有模拟信号输出或数字信号(例如I²C或I²S)输出。根据本发明的一些实施方式，可以有在同一阵列上的模拟和数字麦克风的混合。根据包括模拟麦克风的本发明的实施方式，可提供用于对来自模拟麦克风的输出信号采样并数字化的模拟信号到数字信号转换电路(“A/D”)。

电气地可配置的声信号获取组件可与定向音频流产生器(DASG)成整体、包括DASG和/或以其他方式电耦合到DASG，DASG可适合于选择、激活、接收和/或采样来自一个或多个阵列麦克风的输出信号。DASG可适合于将来自一个或多个阵列麦克风的电音频信号输出转换成方向特定电音频信号——数字或模拟的。对于相对于阵列的特定方向(例如阵列的切线轴左边30度)产生的方向特定电音频信号(也可被称为“方向特定音频信号”或“DSAS”)可以是电信号，其被产生和/或调制，以便(a)主要包括或携带来自从特定方向到达麦克风的声信号的声信号信息，特定方向也可被称为特定到达方向(DOA)；以及(b)实质上抑制、丢弃、排除、不包括和/或以其他方式屏蔽来自从除了特定方向以外的方向到达麦克风的声信号的声信号信息。

DASG可通过下列项将阵列麦克风输出信号——模拟或数字的——转换成对于给定声信号DOA的DSAS：(a)选择和/或采样一个或多个阵列麦克风的输出，阵列麦克风的方向性与给定声信号DOA重叠；(b)阵列麦克风输出信号到具有瞄准给定声信号DOA的方向性的波束形成的音频信号的声波束形成和/或声波束操纵；和/或(c)选定阵列麦克风的输出的阵列麦克风选择、激活、输出采样和波束形成的组合。一些阵列麦克风可以是定向麦克风，且DASG可包括麦克风选择电路，其可选择在产生方向特定音频信号时激活或以其他方式利用的麦克风。此外，DASG可包括一个或多个信号组合电路以组合来自选定定向和/或全定向麦克风的信号。DASG可包括声波束形成电路以产生具有可操纵的方向性的声学地波束形成的音频信号，其中源于阵列麦克风的输入音频信号可由波束形成电路(a)直接从阵列麦克风的全部或子集、(b)从将选定麦克风输出信号引导到波束形成电路的麦克风选择电路、(c)从可组合麦克风输出信号的信号组合电路和/或(d)从(a)到(c)的某种组合接收。

根据实施方式，DASG可包括背景噪声消减或去除功能。根据这样的实施方式，在产生与预期DOA相关的DSAS期间或之后，被估计为背景噪声的声音信号分量可从DSAS减去。可通过对来自具有除了预期DOA以外的方向性的阵列麦克风的音频信号采样来估计背景噪声。然而应理解，今天已知的或将在未来被设计的任何声噪声消除电路、算法和/或技术可应用于本发明。

根据一些实施方式的设备可包括适合于光学地跟踪一个或多个声源并提供指示所跟踪的声源相对于设备的方向的方向指示符或信号的光学跟踪系统(OTS)。光学跟踪系统可包括具有光学图像传感器并具有一个或多个透镜的光学传感器组件，光学传感器可布置在设备上或设备内以面向设备的前面的场景并获取来自设备的前面的场景的图像信息。图像处理算法例如特征识别(例如躯干和/或面部识别)算法和/或已识别特征跟踪算法可由专用或多用途处理电路执行，以便跟踪并估计声源例如人脸的相对方向。OTS可进一步适合于以产生一次、间歇地或实质上连续地产生的信号、指示符或参数的形式向设备的DASG提供所估计的相对方向。

根据一些实施方式，OTS可适合于同时跟踪两个或更多个声源。根据这样的实施方式，OTS可为每个所跟踪的源产生单独的信号或指示符。根据这样的实施方式，DASG可适合于为每个所跟踪的源产生单独的DSAS。可使用下列项产生每个DSAS：(a)单独的一组一个或多个定向麦克风，所述组可重叠；(b)单独的声波束形成处理链；和/或(c)(a)和(b)的组合。

根据另外的实施方式，可提供面向设备的用户的眼睛的光学传感器组件。适合于将用户的眼睛的图像转换成所估计的用户的眼睛的观察角的图像处理算法可由专用或多用途处理电路执行。可使用观察角估计，以便进一步估计被用户注视的声源的相对方向。OTS可进一步适合于以产生一次、间歇地或实质上连续地产生的信号、指示符或参数的形式向设备的DASG提供所估计的相对方向。

根据一些实施方式，DSAS可被发送到驱动一个或多个扬声器的音频再现电路。DSAS可以是以数字信号的形式，以及音频再现电路可包括一个或多个数模转换器(D/A)。再现电路还可包括可调节放大器，可选地每个扬声器具有单独放大器。根据另外的实施方式，音频再现电路的每个音频再现输出链可(例如使用数字滤波器或数字放大器)配置特定于特定用户的耳朵的信号传输特征。

根据本发明的实施方式的设备可包括音频再现电路的一个或多个扬声器连接的输出端口。在扬声器和一个或多个输出端口之间的连接可以是有线的或无线的(例如蓝牙)。根据一些实施方式，两个扬声器中的每个可连接到音频再现电路的单独输出端口，每个扬声器可以与耳接口例如耳塞或耳机成整体或以其他方式在功能上相关。

根据又一些另外的实施方式的设备可包括例如以在眼镜上的眼投影仪的形式的显示组件。显示组件可以给用户提供设备获取的语音的转录和/或翻译。显示器也可用作用于下列操作的接口的部分：(a)对要跟踪的声源的选择和(2)指示DSAS正指向哪些声源。

本发明的实施方式包括产生信号来调节动态地可调节的声传感器阵列的方向性的光学传感器和电路。

附图的简要说明

被视为本发明的主题在说明书的结束部分中被特别指出并清楚地主张。然而通过参考与附图一起被阅读的下面的详细描述可最好地理解本发明关于组织和操作方法的方面，连同本发明的对象、特征及其优点，其中：

图1A示出根据本发明的实施方式的示例性声信号获取设备的功能方框图；

图1B示出根据本发明的实施方式的、包括声信号获取设备的示例步骤的流程图；

图2A示出根据本发明的实施方式的与眼镜有关的设备的图；

图2B示出根据图2A的设备的示例性功能方框图；

图2C示出根据本发明的实施方式的、与头戴受话器、更具体地耳机有关的设备的图；

图3A到3D示出根据实施方式的设备的所示使用例子；以及

图4A和4B示出分别包括模拟麦克风和数字麦克风的本发明的实施方式的功能方框图。

将认识到，为了说明的简单和清楚，在附图中所示的元件不一定按比例绘制。例如，为了清楚，一些元件的尺寸可相对于其它元件放大。此外，在被考虑为适当的场合，参考数字可在附图当中重复以指示相应的或相似的元件。

详细描述

在下面的详细描述中，阐述了很多特定的细节，以便提供对本发明的彻底理解。然而本领域中的技术人员将理解，可在没有这些特定细节的情况下实施本发明。在其它实例中，没有详细描述公知的方法、过程、部件和电路，以便不使本发明模糊。

除非另有特别规定，如从下面的讨论明显的，应认识到，在整个说明书讨论中，利用术语例如“处理”、“计算(computing)”、“计算(calculating)”、“确定”等指计算机或计算系统或类似的电子计算设备的动作和/或过程，这些设备操作被表示为在计算系统的寄存器和/或存储器内的物理量例如电子量的数据和/或将表示为在计算系统的寄存器和/或存储器内的物理量例如电子量的数据转换成类似地被表示为在计算系统的存储器、寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。

本发明的实施方式可包括用于执行本文的操作的装置。该装置可特别构造成用于期望目的，或它可包括选择性地由存储在计算机中的计算机程序激活或重新配置的通用计算机。这样的计算机程序可存储在计算机可读存储介质中，计算机可读存储介质例如但不限于任何类型的磁盘，包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、电可编程只读存储器(EPROM)、电可擦除和可编程只读存储器(EEPROM)、磁卡或光卡或适合于存储电子指令并能够耦合到计算机系统总线的任何其它类型的介质。

在本文提出的过程和显示并不内在地涉及任何特定的计算机或其它装置。各种通用系统可与根据本文的教导的程序一起使用，或构造更专业的装置以执行期望方法可证明是方便的。各种这些系统的期望结构将从下面的描述明显。此外，没有参考任何特定的编程语言描述本发明的实施方式。将认识到，各种编程语言可用于实现如本文所述的发明的教导。

根据实施方式，可通过将从光学跟踪系统得到的一个或多个方向参数应用于与麦克风阵列相关的模拟和/或数字电路来产生方向特定音频信号或音频数据流。麦克风阵列可包括全向麦克风、定向麦克风或这两者的组合。光学跟踪系统可跟踪一个或多个对象的特征、眼睛的位置或这两者的组合。与麦克风阵列相关的模拟和/或数字电路可包括麦克风驱动器电路、麦克风选择电路、信号调节电路、放大器电路、信号组合电路、信号消减电路、信号滤波电路、模拟声波束形成电路、模数转换器、数字滤波器、数字声波束形成电路和/或音频再现电路。

现在转到图1A，示出根据本发明的实施方式的示例性声信号获取设备的功能方框图。设备可包括具有麦克风组或麦克风阵列的声获取组件，麦克风相对于彼此具有固定间距和方位。组件可与定向音频流产生器(DASG)成整体或以其他方式在功能上相关，DASG从光学跟踪系统(OTS)接收声源目标方向信号、指示符、参数和矢量。DASG可包括选择一个或多个阵列麦克风的麦克风选择电路、接入选定麦克风端子或端口的切换电路和激活并驱动选定麦克风的激活或驱动电路。

根据一些实施方式，麦克风选择电路可选择具有相应于目标方向的方向性的一个或多个阵列麦克风。方向特定音频流或信号(DSAS)可以只包括来自一个或多个选定定向麦克风的信号。可选地，声波束形成可应用于两个或更多个麦克风的麦克风输出。DASG可包括用于产生DSAS的声波束形成电路，例如模拟声波束形成电路。根据DASG包括数字声波束形成电路且麦克风具有模拟输出的例子，DSAG也可包括模数转换器(D/A)来转换。图4A示出本发明的实施方式，其中阵列麦克风是模拟麦克风以及DASG包括在处理电路(例如DSP、FPGA、ASIC或处理器)上运行的数字声波束形成处理管线。图4B示出本发明的实施方式，其中阵列麦克风是数字麦克风以及DASG包括在处理电路(例如DSP、FPGA、ASIC或处理器)上运行的数字声波束形成处理管线。根据一些实施方式，波束形成电路可包括模拟和数字波束形成部件的组合。今天已知的或将在未来被设计的任何声波束形成电路、技术或技能可应用于本发明的方面。

OTS与前视摄像头成整体或连接，并且在OTS中的光学处理电路可包括特征识别处理以识别存在于设备的前面的对象或人的一个或多个特征。一个或多个特征可以是人躯干部分、人脸、人嘴唇、视频呈现设备、音频呈现设备和任何潜在声信号源。OTS可包括用于估计指示相应于一个或多个所识别的特征的方向的方向参数的处理。方向参数可指示在设备和所识别的对象之间的相对方向。可以为与两个或更多个单独对象或人(例如两个或更多个单独的人)中的每个相关的两个或更多个单独的所识别的特征中的每个产生至少一个单独的方向参数。

给定对象或人的给定所识别的特征的方向参数可由DASG使用来选择可在收集从给定对象或人发出的声信号时利用的麦克风阵列中的那些麦克风。给定对象的方向参数可用于计算波束形成参数，例如在朝着给定对象或人操纵声波束并收集从给定特征发出的声信号时利用的波束形成参数。给定的识别特征的方向参数可用于麦克风选择和波束形成参数计算。

根据图1A的实施方式的设备还可包括用于跟踪设备的穿戴者的眼睛的位置的眼跟踪器。可使用瞄准穿戴者的眼睛的光学跟踪系统来实现眼跟踪器。可使用今天已知的或在未来将被设计的任何跟踪技术来实现光学跟踪系统。眼跟踪器可包括用于估计方向参数的处理，方向参数指示如由穿戴者的被跟踪的眼睛的位置指示的设备穿戴者的观察方向。

图1A的音频再现组件可包括一个或多个音频扬声器和适合于驱动所述一个或多个扬声器中的每个的音频信号再现电路(引擎)。音频信号产生器可适合于基于第一方向特定音频信号来产生一个或多个音频信号。音频信号产生器可适合于为两个扬声器中的每个产生单独的音频信号，其中在单独信号之间的相对音量和延迟可基于第一声信号到达方向。音频信号产生器可包括耳朵特定信号定制电路以基于特定耳朵的频率敏感度来改变音频信号。音频信号产生器可包括背景噪声抑制电路。

根据另外的实施方式，OTS可适合于：(1)跟踪在设备和对象的所识别的特征之间的相对方向中的改变，以及(2)更新由所述DASG使用来产生第一音频数据流的至少一个方向参数。OTS也可适合于跟踪两个或更多个所识别的特征并为两个或更多个所识别的特征中的每个产生单独的方向数据。图3A示出本发明的实施方式，其中设备是以眼镜的形式，且OTS正对单独的人进行跟踪。为这两个被跟踪的声源(即人)中的每个产生单独的DSAS。图3B到3D示出其中OTS跟踪静止和移动的声源且被跟踪的人(声获取目标)的DSAS相应地被调节或操纵的场景。还示出用户随意开始并中断对特定声源的跟踪和声音获取。

根据又一些另外的实施方式，设备可包括适合于允许穿戴者选择为哪个所识别的特征产生方向特定音频信号的用户接口电路。接口电路可包括从由下列项组成的组选择的显示器：(1)功能相关触摸屏，以及(2)光学头部安装的显示器。接口电路可从跟踪器接收用户输入。接口电路可从功能相关触摸屏接收用户输入。接口电路可包括在设备上的一个或多个电子按钮、开关或计量仪器。图1A、2A和2B、2C和2D示出包括接口电路以将设备连接到可用作用户接口的部分的智能电话的实施方式。

图1B示出包括根据本发明的实施方式的声信号获取设备的示例性步骤的流程图。光学跟踪系统光学地跟踪也被称为DSAS目标的一个或多个声源。计算了目标声源的相对方向值、参数或矢量。定向音频流产生器选择、接通、激活和/或采样被计算、估计或以其他方式被确定为可用于产生在目标声源的方向上的方向特定音频流/信号(DSAS)的阵列麦克风。可选地，定向音频流产生器使用与目标声源的方向相关的波束形成参数激活声波束形成处理管线。音频再现引擎或电路将(例如D/A)DSAS转换成一个或多个模拟信号以驱动一个或多个扬声器。可选地，音频再现引擎或电路可调节在左右扬声器驱动信号之间的振幅和延迟以给收听者提供对DSAS的目标声源的方向的感知。

图2A示出根据本发明的实施方式的与眼镜有关的设备的图。根据这个实施方式，麦克风阵列是穿戴式麦克风阵列。拥有麦克风阵列的设备可与可选地以眼镜、耳机(图2C)或其它头戴受话器的形式的任何穿戴式设备结合或以其他方式在功能上相关。光学跟踪系统的至少一部分也可与被示为摄像头R和摄像头L的与麦克风阵列相同的穿戴式设备结合或以其他方式在功能上相关。光学跟踪系统和/或相关电路的一些或所有部分可以是与麦克风阵列相同的设备的部分。根据另外的实施方式，跟踪和/或信号处理功能的部分可由功能相关设备例如由有线或无线通信链路连接到设备的智能电话执行。

如图2B所示，图2B是根据图2A的设备的示例性功能方框图，眼镜可包括用于外部通信设备的接口。外部通信设备可提供在DSAS内的定向地获取的语音的转录(语音到文本)和翻译。根据实施方式，DSAS可存储在设备的非易失性存储器(NVM)设备上或位于在线数据NVM设备上。DSAS可被提供到语音到文本引擎，该语音到文本引擎可并入到设备内和/或可以是在功能上相关的通信设备(例如智能电话)的部分。语音到文本引擎可独立地起作用或它可利用在线语音到文本服务，例如由Google提供的语音到文本服务。根据又一些另外的实施方式，DSAS或从其得到的文本可被提供到语言翻译引擎，例如Google翻译引擎。可存储文本到语音引擎和/或语言翻译引擎的输出。文本到语音引擎和/或语言翻译引擎的输出可显示在设备的显示器上。文本到语音引擎和/或语言翻译引擎的输出可显示在功能相关设备例如智能电话的显示器上。

图2C示出根据本发明的实施方式的、与头戴受话器、更具体地耳机有关的设备的图。这个实施方式类似于眼镜的实施方式，例外是不包括眼投影显示器。

虽然在本文示出并描述了本发明的某些特征，本领域中的技术人员现在将想到很多修改、替换、改变和等效形式。因此应理解，所附权利要求并不意欲涵盖如落在本发明的真实精神内的所有这样的修改和变化。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗拉迪米尔·谢尔曼;
技术所有人：弗拉迪米尔·谢尔曼;
我是此专利的发明人

上一篇：具有用于反射声音渲染的向上发射驱动器的音频扬声器的制造方法与工艺
上一篇：头戴式耳机的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。