自适应环境声抑制和语音跟踪的制作方法

文档序号：7575857阅读：180来源：国知局

专利名称：自适应环境声抑制和语音跟踪的制作方法
自适应环境声抑制和语音跟踪
背景技术：
各种计算设备，包括但不局限于互动娱乐设备例如视频游戏系统，可被配置为接受语音输入以允许用户通过语音命令控制系统操作。这些计算设备包括一个或多个麦克风以允许该计算设备在使用期间捕获用户语音。然而，要将用户语音从环境噪声，例如来自扬声器输出、使用环境中其他人员、固定源例如计算设备风扇的噪声中区分开来是困难的。而且，在使用期间，用户的物理移动也会增加这些困难。一些解决这样的问题的当前方案包括指令用户不要在使用环境中改变位置，或执行一个动作以警告计算设备将要到来的输入。然而，这些方案可能会对语音输入环境的使用所期望的自发性和易用性产生负面影响。

发明内容
因此，在此揭示了各种涉及抑制麦克风阵列所接收的语音中环境声的实施例。例如，一个实施例提供了一种包括麦克风阵列、处理器、模数转换器和存储器的设备，所述存储器包括存储在其上由处理器执行以抑制麦克风阵列所接收的语音输入中环境声的指令。例如，指令可执行以从模数转换器接收多个数字声音信号，每个数字声音信号基于源自麦克风指令的模拟声音信号，并且还能接收多声道扬声器信号。所述指令还可执行以生成每个多声道扬声器信号的单声道近似信号(approximation signal)，并将线性回音消除器应用于每个使用所述近似信号的数字声音信号。所述指令还可执行以通过时间恒定和自适应波束生成技术的组合从多个数字声音信号的组合中生成已组合定向自适应声音信号，并应用一个或多个非线性噪声抑制技术来抑制已组合定向自适应声音信号的第二环境声部分。提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

图1是音频输入设备的实施例的操作环境的实施例的示意图。图2是音频输入设备的实施例的示意图。图3A是操作图2的音频输入设备的方法实施例的流程图。图;3B是图3A的流程图的延续。
具体实施例方式图1是音频输入设备102的实施例的操作环境100的实施例的示意图，所述音频输入设备102用于为通过音频输入设备102的麦克风阵列(图1中框150所示)从语音源 S接收的语音输入抑制环境声。例如，操作环境100可以表示家庭影院环境、视频游戏游玩空间等。应该理解地是操作环境100是一示例操作环境；单纯出于说明的目的，描述了操作环境的不同要素的尺寸、配置和安排。其他合适的操作环境也可与音频输入设备102—起使用。除了音频输入设备102之外，操作环境100可包括远程计算设备104。在一些实施例中，远程计算设备可以包括游戏控制台，而在其他实施例中，所述远程计算设备包括任意其他合适的计算设备。例如，在一个场景中，远程计算设备104可以是在网络环境中工作的远程服务器、移动设备例如移动电话、膝上型电脑或其他个人计算设备等。远程计算设备104通过一个或多个连接112被连接到音频输入设备102。应该理解图1中所示的各种连接在一些实施例中可以是合适的物理连接或在另一些实施例中可以是合适的无线连接，或它们合适的组合。而且，操作环境100可以包括通过合适的显示连接Iio连接到远程计算设备104的显示器106。操作环境100还包括一个或多个通过合适的扬声器连接114连接到远程计算设备 104的一个或多个扬声器108，通过该一个或多个扬声器可以传送扬声器信号。在一些实施例中，扬声器108可被配置为提供多声道声音。例如，操作环境100可被配置为5. 1声道的环绕声声音，并可包括左声道扬声器、右声道扬声器、中声道扬声器、低频率效应扬声器、左声道环绕扬声器和右声道环绕扬声器(这些扬声器的每个都被参考数字108标识)。这样，在示例实施例中，在所述5. 1声道环绕声扬声器信号中可以传送6个音频声道。图2是音频输入设备102的实施例的示意图。音频输入设备102包括麦克风阵列，所述麦克风阵列包括多个用于将声音，例如语音输入，转换成模拟声音信号206以在音频输入设备102中处理的麦克风205。来自麦克风的模拟声音信号被定向到模数转换器 (ADC) 207，在其中，每个模拟声音信号被转换成数字声音信号。音频输入设备102还被配置为从时钟信号源250接收时钟信号252，将在下面内容中详细描述其示例。时钟信号252可被用于同步在模数转换器207处要被转换为多个数字声音信号208的模拟声音信号206。例如，在一些实施例中，时钟信号252可以是与麦克风输入时钟同步的扬声器输出时钟信号。音频输入设备102进一步包括大容量存储器212、处理器214、存储器216以及噪声抑制器217的实施例，该实施例可存储在海量存储器212中并被加载到存储器216以供处理器214执行。如下将详细描述，噪声抑制器217在三个阶段中应用噪声抑制技术。在第一阶段，噪声抑制器217被配置为用一个或多个线性噪声抑制技术来抑制每个数字声音信号208中的环境声部分。这些线性噪声抑制技术可配置为抑制来自固定源的环境声，和/或展现些许动态活动的其他环境声。例如，噪声抑制器217的第一线性抑制阶段可以抑制来自固定源如游戏控制台的冷却风扇的电机噪声，并可抑制来自固定扬声器的扬声器噪声。这样，音频输入设备102可以被配置为接收来自扬声器信号源219的多声道扬声器信号218(例如远程计算设备104的扬声器信号输出)以帮助这种噪声的抑制。在第二阶段中，将噪声抑制器217配置为从含有有关所接收的信号源自哪个方向的信息的每个数字声音信号208，将多个数字声音信号组合成单独的已组合定向自适应声音信号210。在第三阶段中，将噪声抑制器217配置为用一个或多个非线性噪声抑制技术来抑制已组合定向自适应声音信号210中的环境声，所述非线性噪声抑制技术对源自离所接收的语音源自的那个方向更远的噪声应用比源自离该方向更近的噪声更加大量的噪声抑制。这些非线性噪声抑制技术可配置为，例如，抑制展现更多动态活动的环境噪声。在执行噪声抑制之后，将音频输入设备102配置为输出所得到的声音信号206，该所得到的声音信号206可随后被用于标识所接收语音信号中的语音输入。在一些实施例中，所得到的声音信号206可被用于语音识别。而图2示出提供给远程计算设备104的输出，可以理解所述输出可以提供给本地语音识别系统或任意其他合适位置处的语音识别系统。另外或可选地，在一些实施例中，所得到的声音信号260可用于无线电通讯应用中。在执行非线性技术之前执行线性噪声抑制技术可以提供各种优点。例如，执行线性噪声减少以从固定和/或期望源(例如风扇、扬声器声音等)移除噪声可以在相对较低的抑制期望语音输入的可能性下执行，并且还可以显著减少所述数字声音信号的动态范围，以允许减少所述数字音频信号的位深度，以提供更加有效的下游处理。这样的位深度减少将在下面进一步详述。在一些实施例中，线性噪声抑制技术的应用在噪声抑制处理开始不久后发生。申请人意识到这种方式可以减少下游非线性抑制信号处理量，这将加速下游信号处理。麦克风阵列202可以具有任意合适的配置。例如，在一些实施例中，麦克风205可以沿一公共轴安置。在这样的安置中，麦克风205可以在麦克风阵列202中彼此均勻间隔，或在麦克风阵列202中彼此不均勻间隔。使用不均勻间隔有助于避免由于破坏性干扰在所有麦克风205处在单个频率中出现的频率零值。在一特定实施例中，麦克风阵列202可根据表1中的尺寸集进行配置。可以理解，也可使用其他合适的安排。表1
长度 (m)在麦克风和阵列的中心线“Y”之司的距离整体205A-Y205B - Y205C-Y205D — Y0.225-0.11250.03050.07550.1125模数转换器207可配置为将由每个麦克风205所生成的每个模拟声音信号206转换为对应的数字声音信号208，其中源自每个麦克风205的每个数字声音信号208具有第一较高位深度。例如，模数转换器207可以是M位模数转换器以支持展示大动态范围的声音环境。这样的位深度的使用相对于较低位深度的使用而言有助于减少每个模拟声音信号 206的数字限幅。而且，如下将详细描述，所述模数转换器所输出的M位数字声音信号可以在噪声抑制处理中的中间阶段被转换成较低位深度以帮助提高下游处理效率。在一特定实施例中，模数转换器207所输出的每个数字声音信号208是单声道、16kHz、24位的数字声音信号。在一些实施例中，将模数转换器207配置为通过从远程计算设备104接收的时钟信号252将每个数字声音信号208与扬声器信号218同步。例如，由远程计算设备104的时钟信号源250生成的USB起始帧分组信号可用于同步模数转换器207以将每个麦克风205 处接收的声音与扬声器信号218同步。将扬声器信号218配置为包括用于在扬声器108处生成扬声器声音的数字扬声器声音信号。扬声器信号218与数字声音信号208的同步可以为在每个麦克风205接收的一部分扬声器声音的后续噪声抑制提供时间参考。模数转换器207的输出在第一阶段噪声抑制器217处被接收，在其中，噪声抑制器移除第一部分的环境噪声。在所描述的实施例中，每个数字声音信号208通过时-频域变换(TFD)模块220处的变换被转换成频域。例如，可使用变换算法，例如傅利叶变换、调制复重叠变换、快速傅利叶变换或任意其他合适的变换算法，来将每个数字声音信号208转换为频域。在模块220处被转换成频域的数字声音信号208被输出到多声道回音消除器 (MEC) 224。将多声道回音消除器2M配置为从扬声器信号源219接收多声道扬声器信号 218。在一些实施例中，扬声器信号218还被传送给快速傅利叶变换模块220以将扬声器信号218变换为具有频域的扬声器信号，并随后输出给多声道回音消除器224。每个多声道回音消除器2 包括多声道-单声道(MTM)变换模块225和线性音频回音消除器(AEC) 226。将每个单声道变换模块225配置为生成多声道扬声器信号218的单声道近似信号222，该单声道近似信号222近似由对应的麦克风205所接收的扬声器声音可使用预定校准信号(CS) 270来帮助生成所述单声道近似。例如，可通过从扬声器发射已知校准音频信号(CAQ 272、通过麦克风阵列接收源自校准音频信号的扬声器输出，并随后将所接收的信号输出和扬声器所接收的信号进行比较，来确定校准信号270。校准信号可以间歇地被确定，例如，在系统建立或启动时，或者也可以更加频繁地被执行。在一些实施例中，校准音频信号272可以配置为与扬声器之间无关且覆盖预定频谱的任意合适的音频信号。例如，在一些实施例中，可使用扫描正弦信号。在一些其他实施例中，可以使用乐音信号。从对应的多声道-单声道变换模块225将每个单声道近似信号222传送给对应的线性音频回音消除器226。将每个线性音频回音消除器2 配置为至少部分基于单声道近似信号222来抑制每个数字声音信号208的第一环境声部分。例如，在一个场景中，每个线性音频回音消除器2 可以被配置为将数字声音信号208与单声道近似信号222进行比较，并进一步被配置为从对应的数字声音信号208中减去单声道近似信号222。如上所述，在一些实施例中，在将线性音频回音消除器2 应用到位深度减少 (BR)模块227处的每个数字声音信号208之后，每个多声道回音消除器2M可配置为将每个数字声音信号208转换为具有第二较低位深度的数字声音信号208。例如，在一些实施例中，可以从数字声音信号208中移除至少一部分多声道扬声器信号218，以导致生成位深度减少的声音信号。这种位深度减少有助于通过允许位深度减少的声音信号的动态范围占据较少位深度来加速下游计算处理。位深度可以在任意合适的处理点处被减少，并可减少任意合适的程度。例如，在所描述的实施例中，在应用线性音频回音消除器2 之后，M位数字声音信号可以被转换为16位数字声音信号。在其他实施例中，位深度可以被减少另一数量和/或在另一合适的点被减少。而且，在一些实施例中，丢弃的位可对应于数字声音信号 208先前所包含的部分，该部分对应于在线性音频回音消除器2 处所抑制的扬声器声音。继续图2，所描述的噪声抑制器217还被配置为将线性固定音移除器(STR) 2 应用到每个数字声音信号208。将线性固定音移除器2 配置为移除由近似的恒定音处的源所发射的背景声音。例如，风扇、空调或其他白色噪声源能够发射可被麦克风阵列202接收的近似恒定音。在一场景中，线性固定音移除器2 可以被配置为创建在数字声音信号208 中检测到的近似恒定音的模型并应用噪声消除技术以移除该音。？在一些实施例中，在应用每个线性音频回音消除器2 之后且在生成已组合定向自适应声音信号210之前可以将每个线性固定音移除器2 应用到每个数字声音信号208。在一些其他实施例中，所述线性
8固定音移除器可以在噪声抑制器217中具有任意其他适合的位置。在如上所述应用了这样的线性噪声抑制处理之后，将所述多个数字声音信号提供给噪声抑制器217的第二阶段，该阶段包括波束生成器230。将波束生成器230配置为接收每个线性固定音移除器228的输出并从所述多个数字声音信号的组合中生成已组合定向自适应声音信号210。波束生成器230通过利用阵列中四个麦克风的每个麦克风处接收声音的时间之间的差值来确定声音是从哪个方向被接收的，以形成定向自适应声音信号210。可以以任何合适的方式来确定已组合定向自适应声音信号。例如，在描述的实施例中，基于时间恒定和自适应波形技术的组合来确定定向自适应声音信号。所得到的已组合信号可以具有窄方向性模式，该模式在语音源方向上前进。波束生成器230可包括时间恒定波束生成器232和自适应波束生成器236以生成已组合定向自适应声音信号210。将时间恒定波束生成器232配置为将一系列预定加权系数234应用到每个数字声音信号208，至少部分基于在麦克风阵列202的预定声音接收区域中的各向同性的环境噪声分布来计算每个预定加权系数234。在一些实施例中，时间恒定波束生成器232可以被配置为执行每个数字声音信号 208的线性组合。可以由可存储在查找表中的一个或多个预定加权系统234对每个数字声音信号208进行加权。可以提前为麦克风阵列202的预定声音接收区域计算预定加权系统 234。例如，可以在麦克风阵列202的中心线任一侧上延伸50度的声音接收区域中以10度间隔来计算预定加权系统234。时间恒定波束生成器232和与自适应波束生成器236协作。例如，预定加权系统 234可以帮助自适应波束生成器236的操作。在一场景中，时间恒定波束生成器232可为自适应波束生成器236的操作提供起始点。在第二场景中，自适应波束生成器236以预定间隔参考时间恒定波束生成器232。这对于减少集中在语音源S的一位置上的计算周期的数目有潜在益处。将自适应波束生成器236配置为应用声音源定位器238以确定相对于麦克风阵列202的语音源S的接收角θ (参见图1)，并当语音源S实时移动时至少部分基于接收角θ跟踪语音源S。接收角θ作为接收角消息237被传送给自适应波束生成器236。波束生成器230输出已组合定向自适应声音信号210以用于进一步的下游噪声抑制。例如，已组合定向自适应声音信号210可包括数字声音信号，该数字声音信号在源自语音源S的方向上具有较高强度的主波瓣，并且基于预定的加权系数234和接收角θ具有一个或多个较低强度的副波瓣。在一些实施例中，声音源定位器238可以为多个语音源S提供接收角。例如，四源声音源定位器可以为多至四个语音源提供接收角。例如，在游戏游玩空间中移动并说话的游戏玩家可以由声音源定位器238跟踪。在根据该示例的一场景中，生成用于供游戏控制台显示的图像可以响应于所跟踪的玩家位置的变化而被调整，例如使得所显示的角色的脸跟随玩家的移动。波束生成器230将定向自适应声音信号210输出给噪声抑制器217的第三阶段，在其中，将噪声抑制器217配置为应用一个或多个非线性噪声抑制技术来至少部分地基于已组合定向自适应声音信号210的方向特性来抑制该已组合定向自适应声音信号210的第二环境声部分。可使用一个或多个非线性音频回音抑制器(AEQ Μ2、非线性空间滤波器 (SF) Μ4、固定噪声抑制器(SNS)245以及自动增益控制器(AGC) 246来执行所述非线性噪声抑制。可以理解，音频输入设备102的各种实施例可以任意合适的顺序应用所述非线性噪声抑制技术。将非线性音频回音抑制器242配置为抑制已组合定向自适应声音信号210的声音量级伪像(sound magnitude artifact)，其中通过至少部分基于语音源S的方向确定并应用音频回音增益来应用该非线性音频回音抑制器。在一些实施例中，非线性音频回音抑制器242可以被配置为从已组合定向自适应声音信号210中移除残余回波伪像。可以通过估计扬声器108和麦克风205之间的功率传递函数来完成所述残余回波伪像的移除。例如，音频回音抑制器242可将依赖时间的增益应用于与已组合定向自适应声音信号210相关联的不同频率组(frequency bins)。在该示例中，应用趋于零的增益给具有较大量环境声和 /或扬声器声音的频率组，而将趋于一(approaching unity)的增益给具有较少量环境声和/或扬声器声音的频率组。将非线性空间滤波器244配置为抑制已组合定向自适应声音信号210的声音相伪像(sound phase artifact)，其中，通过至少部分基于语音源S的方向确定并应用空间滤波增益来应用该非线性空间滤波器M4。在一些实施例中，非线性空间滤波器244可以被配置为接收与每个数字声音信号208相关联的相差信息以估计多个频率组的每个到达的方向。而且，所估计的到达方向可用于为每个频率组计算所述空间滤波增益。例如，具有与语音源 S的方向不同的到达方向的频率组可分配趋于零的空间滤波增益，而具有近似于语音源S 的方向的到达方向的频率组可分配趋于一的空间滤波增益。将固定噪声抑制器245配置为抑制剩余的背景噪声，其中，通过至少部分基于剩余噪声分量的统计模型确定并应用抑制滤波增益来应用该固定噪声抑制器M5。而且，可以使用固定噪声模型和当前信号量级来为每个频率组计算抑制滤波增益。例如，具有低于噪声偏离的量级的频率组可分配趋于零的抑制滤波增益，而具有远高于噪声偏离的量级的频率组可分配趋于一的抑制滤波增益。将自动增益控制器246配置为调整已组合定向自适应声音信号210的音量增益，其中，通过至少部分基于语音源S的量级确定并应用音量增益来应用该自动增益控制器 2460在一些实施例中，自动增益控制器246可以被配置为补偿声音的不同音量能级例如，在第一游戏玩家以较柔和声音说话而第二游戏玩家以较响亮声音说话的场景中，自动增益控制器246可以调整音量增益以减少这两个玩家之间的音量差异。在一些实施例中，与自动增益控制器M6的改变相关联的时间常数近似为3-4秒。在音频输入设备102的一些实施例中，可使用包括联合增益滤波器的非线性联合抑制器M0，所述联合增益滤波器是从多个单独的增益滤波器中计算出的。例如，单独的增益滤波器可以是由非线性音频回音抑制器M2、非线性空间滤波器M4、固定噪声抑制器 245,自动增益控制器246等计算的增益滤波器。可以理解各种非线性噪声抑制技术的讨论顺序仅仅是示例顺序，并且可以在音频输入设备102的各种实施例中使用其他合适的顺序。经过一个或多个非线性噪声抑制技术的处理后，在频-时域变换(FTD)模块248 处将已组合定向自适应声音信号210从频域变换成时域，输出所导出的声音信号沈0。可通过合适的变换算法发生频域到时域的变换。例如，可使用如逆傅利叶变换、逆调制复重叠变换或逆快速傅利叶变换的变换算法。所导出的声音信号260可以被本地使用或输出给远程计算设备，例如，远程计算设备104。例如，在一场景中，所导出声音信号260可以包括对应于人类语音的声音信号，并且可与游戏音轨混合以在扬声器108输出。图3A和;3B示出用于抑制由麦克风阵列所接收的语音中的环境声的方法300的实施例。可使用与图1和2相关的如上所述的硬件和软件组件或其他合适的硬件和软件组件来实现方法300。方法300包括，在步骤302，接收在包括多个麦克风的麦克风阵列的每个麦克风处生成的模拟声音信号，每个模拟声音信号是至少部分从语音源接收的。继续，方法 300包括，在步骤304，在模数转换器处将每个模拟声音信号转换成具有第一较高位深度的对应的第一数字声音信号。在步骤306，方法300包括从扬声器信号源接收用于多个扬声器的多声道扬声器信号。继续，方法300包括，在步骤308，从扬声器信号源接收多声道扬声器信号。在步骤310，方法300包括通过从远程计算设备接收时钟信号将所述多声道扬声器信号与每个第一数字声音信号同步。在步骤312，方法300包括为每个第一数字声音信号生成多声道扬声器信号的单声道近似信号，该单声道近似信号近似于对应的麦克风所接收的扬声器声音。在一些实施例中，步骤312包括，在314，通过从扬声器发射校准音频信号、在每个麦克风处检测所述校准音频信号，并至少部分基于每个麦克风的校准信号生成单声道近似信号来为每个麦克风确定校准信号。可以理解，可以间歇执行步骤314，例如在系统建立或启动时，或者也可以在合适的地方更加频繁地被执行。继续，方法300包括在步骤316，应用线性音频回音消除器以至少部分基于所述单声道近似信号抑制每个第一数字声音信号的第一环境声部分。在步骤318，方法300包括在将线性音频回音消除器应用于每个数字声音信号之后，将每个第一数字声音信号转换为具有第二较低位深度的第二数字声音信号。在步骤320，方法300包括在生成已组合定向自适应声音信号之前，将线性固定音移除器应用于每个第二数字声音信号。继续，在步骤322，方法300包括至少部分基于用于跟踪语音源的时间恒定和/或自适应波束生成技术的组合从每个第二数字声音信号的组合中生成已组合定向自适应声音信号。在一些实施例中，步骤322包括，在步骤324，将一系列预定加权系数应用到每个声音信号，至少部分基于在麦克风阵列的预定声音接收区域中的各向同性的环境噪声分布来计算每个预定加权系数，并应用声音源定位器，以确定相对于麦克风阵列的语音源S的接收角，并当语音源S实时移动时至少部分基于接收角跟踪语音源。继续，方法300包括，在步骤326，应用一个或多个非线性噪声抑制技术来至少部分地基于已组合定向自适应声音信号的方向特性来抑制该已组合定向自适应声音信号的第二环境声部分。在一些实施例中，步骤3 包括，在步骤328，应用一个或多个用于抑制声音量级伪像的非线性音频回音抑制器，其中通过基于语音源S的方向确定并应用音频回音增益来应用该非线性音频回音抑制器；用于抑制声音相伪像的非线性空间滤波器，其中，通过基于语音源的时间特性确定并应用空间滤波增益来应用该非线性空间滤波器；非线性固定噪声抑制器，其中通过至少部分基于剩余噪声分量的统计模型确定并应用抑制滤波增益来应用该固定噪声抑制器；和/或用于调整已组合定向自适应声音信号的音量增益的自动增益控制器，其中，通过至少部分基于语音源S的相对音量确定并应用音量增益来应用该自动增益控制器。在一些实施例中，步骤3 包括在步骤330，应用包括联合增益滤波器的非线性联合噪声抑制器，所述联合增益滤波器是从多个单独的增益滤波器中计算出的。继续，方法300包括在步骤332，输出所导出的声音信号。可以理解，此处所描述的计算设备可以是被配置成执行此处所描述的程序的任何合适的计算设备。例如，计算设备可以是大型计算机、个人计算机、膝上计算机、便携式数据助理(PDA)、启用计算机的无线电话、联网计算设备或任意其他合适的计算设备。而且，可以理解，此处所描述的计算设备可以通过计算机网络，例如因特网，彼此连接。而且，可以理解，计算设备可以连接到网络云环境中工作的服务器计算设备。此处描述的计算设备通常包括处理器和相关联的易失性和非易失性存储器，并被配置成使用易失性存储器的各部分和处理器来执行存储在非易失性存储器中的程序。如在此所使用，术语“程序”是指可以由一个或多个在此描述的计算设备执行或使用的软件或固件组件。而且，术语“程序”还表示为包括下述一项或多项可执行文件、数据文件、库、驱动、脚本、数据库记录等。可以理解，可提供具有存储在其上的指令的计算机可读介质，所述指令使得计算设备执行上述方法，并且在计算设备执行指令时使得上述系统工作。应该理解，此处所述的配置和/或方法在本质上示例性的，且这些具体实施例或示例不是局限性的，因为多个变体是可能。此处所述的具体例程或方法可表示任何数量的处理策略中的一个或多个。由此，所示出的各个动作可以按所示顺序执行、按其他顺序执行、并行地执行、或者在某些情况下省略。同样，可以改变上述过程的次序。本发明的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其它特征、功能、动作、和/或特性、以及其任何和全部等效方案。
权利要求
1.一种配置用于接收语音输入的计算设备(102)，所述计算设备包括具有多个麦克风O05)的麦克风阵列(202)；与所述麦克风阵列(202)有效通信的处理器014)。与所述麦克风阵列(20 和所述处理器(214)有效通信的模数转换器O07)；包括存储在其上的指令的存储器016)，所述指令由所述处理器(214)执行以从所述模数转换器(207)接收多个数字声音信号008)，每个数字声音信号是基于源自所述麦克风阵列(202)的模拟声音信号006)，从扬声器信号源(219)接收多声道扬声器信号018)，对于每个数字声音信号008)，生成所述多声道扬声器信号的单声道近似信号022)，所述单声道近似信号(22 近似于由对应的麦克风所接收的扬声器声音，应用线性音频回音消除器0沈)，以至少部分基于所述单声道近似信号(222)来抑制每个数字声音信号O08)的第一环境声部分，至少部分基于时间恒定和自适应波束生成技术的组合，从每个数字声音信号O08)的组合中生成已组合定向自适应声音信号010)，应用一个或多个非线性噪声抑制技术，来至少部分地基于所述已组合定向自适应声音信号(210)的方向特性，来抑制所述已组合定向自适应声音信号(210)的第二环境声部分。
2.如权利要求1所述的设备，其特征在于，所述指令进一步由所述处理器执行，以在生成所述已组合定向自适应声音信号之前，将线性固定音移除器应用于每个数字声音信号。
3.如权利要求1所述的设备，其特征在于，所述第二环境声部分的抑制通过应用下述一个或多个项发生用于抑制声音量级伪像的非线性音频回音抑制器，其中，通过至少部分基于语音源的方向确定并应用音频回音增益来应用所述非线性音频回音抑制器，用于抑制声音相伪像的非线性空间滤波器，其中，通过至少部分基于所述语音源的方向确定并应用空间滤波增益来应用所述非线性空间滤波器，非线性固定噪声抑制器，其中通过至少部分基于剩余噪声分量的统计模型确定并应用抑制滤波增益来应用所述固定噪声抑制器，和/或用于调整已组合定向自适应声音信号的音量增益的自动增益控制器，其中，通过至少部分基于所述语音源的方向确定并应用音量增益来应用所述自动增益控制器。
4.如权利要求1所述的设备，其特征在于，所述第二环境声部分的抑制是通过应用包括联合增益滤波器的非线性联合抑制器来发生的，所述联合增益滤波器是从多个单独的增益滤波器中计算出的。
5.如权利要求1所述的设备，其特征在于，所述指令进一步由所述处理器执行以通过从多个扬声器的每个发射校准音频信号并在每个麦克风处检测所述校准音频信号，来为每一个麦克风确定一校准信号，并且至少部分基于每个麦克风的所述校准信号，确定所述单声道近似信号。
6.如权利要求1所述的设备，其特征在于，所述模数转换器配置为将每个麦克风生成的模拟声音信号在所述模数转换器处转换为对应的数字声音信号，其中，来自每个麦克风的每个数字声音信号具有第一较高位深度，并且其中，所述指令进一步由所述处理器执行以在将所述线性音频回音消除器应用于每个数字声音信号之后，将每个数字声音信号转换为具有第二较低位深度的数字声音信号。
7.如权利要求1所述的设备，其特征在于，所述模数转换器配置为通过从远程计算设备接收的时钟信号，将所述多声道扬声器信号与每个数字声音信号同步。
8.如权利要求1所述的设备，其特征在于，所述麦克风在所述麦克风阵列中彼此不均勻间隔。
9.如权利要求1所述的设备，其特征在于，用于生成所述已组合定向自适应声音信号的时间恒定和自适应波束生成技术的组合包括指令，所述指令由所述处理器执行以将一系列预定加权系数应用到每个数字声音信号，至少部分基于在所述麦克风阵列的预定声音接收区域中的各向同性的环境噪声分布来计算每个预定加权系数；并且应用声音源定位器以确定相对于所述麦克风阵列的语音源的接收角，并当所述语音源实时移动时至少部分基于所述接收角跟踪所述语音源。
10.一种用于抑制由麦克风阵列接收的语音中的环境声的方法，在存储器处包括了存储在其上的指令，所述指令由处理器执行以从模数转换器接收多个数字声音信号(306)，每个数字声音信号基于源自所述麦克风阵列的模拟声音信号；从扬声器信号源接收多声道扬声器信号(308)；为每个数字声音信号生成所述多声道扬声器信号的单声道近似信号(312)，所述单声道近似信号近似于由对应的麦克风所接收的扬声器声音；应用线性音频回音消除器(316)以至少部分基于单声道近似信号来抑制每个数字声音信号的第一环境声部分；至少部分基于时间恒定和自适应波束生成技术的组合，从每个数字声音信号的组合中生成已组合定向自适应声音信号(322)；应用一个或多个非线性噪声抑制技术(326)来至少部分地基于所述已组合定向自适应声音信号的方向特性来抑制所述已组合定向自适应声音信号的第二环境声部分；以及输出所得到的声音信号。
11.如权利要求10所述的方法，其特征在于，为每个数字声音信号生成所述多声道扬声器信号的单声道近似信号，所述单声道近似信号近似于由对应的麦克风所接收的扬声器声音进一步包括通过从多个扬声器的每个发射校准音频信号来为每一个麦克风确定一校准信号；在每个麦克风处检测所述校准音频信号；以及至少部分基于每个麦克风的所述校准信号生成所述单声道近似信号。
12.如权利要求10所述的方法，其特征在于，应用一个或多个非线性噪声抑制技术来至少部分地基于已组合定向自适应声音信号的方向特性来抑制所述已组合定向自适应声音信号的第二环境声部分，进一步包括应用下述一个或多个项用于抑制声音量级伪像的非线性音频回音抑制器，其中，通过基于语音源的方向确定并应用音频回音增益来应用所述非线性音频回音抑制器，用于抑制声音相伪像的非线性空间滤波器，其中，通过基于所述语音源的时间特性确定并应用空间滤波增益来应用所述非线性空间滤波器，非线性固定噪声抑制器，其中，通过至少部分基于剩余噪声分量的统计模型确定并应用抑制滤波增益来应用所述固定噪声抑制器，和/或用于调整已组合定向自适应声音信号的音量增益的自动增益控制器，其中，通过至少部分基于所述语音源的相对音量确定并应用音量增益来应用所述自动增益控制器。
13.如权利要求10所述的方法，其特征在于，应用一个或多个非线性噪声抑制技术来至少部分地基于已组合定向自适应声音信号的量级和/或时间特性来抑制所述已组合定向自适应声音信号的第二环境声部分进一步包括应用包括联合增益滤波器的非线性联合抑制器，所述联合增益滤波器是从多个单独的增益滤波器中计算出的。
14.如权利要求10所述的方法，其特征在于，还包括将每个麦克风生成的模拟声音信号在所述模数转换器处转换为对应的数字声音信号，其中，来自每个麦克风的每个数字声音信号具有第一较高位深度；以及在将线性音频回音消除器应用于每个数字声音信号之后，将每个数字声音信号转换为具有第二较低位深度的数字声音信号。
15.如权利要求10所述的方法，其特征在于，至少部分基于时间恒定和自适应波束生成技术的组合从每个数字声音信号的组合中生成已组合定向自适应声音信号以跟踪所述语音源进一步包括将一系列预定加权系数应用到每个数字声音信号，至少部分基于在所述麦克风阵列的预定声音接收区域中的各向同性的环境噪声分布来计算每个预定加权系数，并且应用声音源定位器以确定相对于所述麦克风阵列的语音源的接收角，并当语音源实时移动时至少部分基于所述接收角跟踪所述语音源。
全文摘要
提供了一种用于抑制麦克风阵列所接收的语音中的环境声的设备。该设备的一实施例包括麦克风阵列、处理器、模数转换器和包括存储在其上由处理器执行的指令的存储器。存储在存储器上的指令被配置为接收多个数字声音信号，每个数字声音信号基于源自麦克风阵列的模拟声音信号，接收多声道扬声器信号，生成多声道扬声器信号的单声道近似信号，应用线性音频回音消除器以抑制每个数字声音信号的第一环境声部分，通过时间恒定和自适应波束生成技术的组合从每个数字声音信号的组合中生成已组合定向自适应声音信号，并应用一个或多个非线性噪声抑制技术来抑制已组合定向自适应声音信号的第二环境声部分。
文档编号H04R1/08GK102131136SQ20111003092
公开日2011年7月20日申请日期2011年1月19日优先权日2010年1月20日
发明者D·麦克凯, I·塔舍夫, J·塔迪夫, J·弗莱克斯, L·兴, M·巴塞夫勒格, R·海特坎普, W·郭, 倪旭东申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·弗莱克斯;I·塔舍夫;D·麦克凯;倪旭东;R·海特坎普;W·郭;J·塔迪夫;L·兴;M·巴塞夫勒格
技术所有人：微软公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。