用于频谱对比加强的系统、方法、设备及计算机程序产品的制作方法

文档序号：2823127阅读：234来源：国知局

专利名称：用于频谱对比加强的系统、方法、设备及计算机程序产品的制作方法
技术领域：
本发明涉及语音处理。
背景技术：
以前在安静的办公室或家庭环境中进行的许多活动现今在像汽车、街道或咖啡馆的声音可变情景中进行。举例来说，一人可能希望使用话音通信信道来与另一人进行通信。所述信道可(例如)由移动无线手持机或头戴式耳机、对讲机、双向无线电、车载设备或另一通信装置提供。因此，在用户由其它人包围的环境中，在具有人们倾向于聚集之处通常碰到的种类的噪声内容的情况下，相当大数量的话音通信是使用移动装置(例如，手持机及/ 或头戴式耳机)来进行的。此噪声倾向于使电话会话的远端处的用户分心或感到恼火。此外，许多标准自动化商业交易(例如，账户余额或股票报价检查)使用基于话音辨识的数据查询，且这些系统的准确性可能会受到干扰噪声的显著妨碍。对于通信发生于有噪声环境中的应用来说，可能希望将所要语音信号与背景噪声分离。可将噪声界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包括在声环境内产生的众多噪声信号(例如，其它人的背景会话)以及从所述信号中的每一者产生的反射及回响。除非将所要语音信号与背景噪声分离，否则可能难以可靠且有效地使用所述语音信号。有噪声声环境还可能倾向于屏蔽或以其它方式使得难以听到所要的再生音频信号，例如电话会话中的远端信号。声环境可具有与由通信装置正在再生的远端信号竞争的许多非可控噪声源。此噪声可引起令人不满意的通信体验。除非可将远端信号与背景噪声区别开，否则可能难以可靠且有效地使用所述远端信号。

发明内容
根据通用配置，一种处理语音信号的方法包括使用经配置以处理音频信号的装置来对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考，且对所述语音信号执行频谱对比加强操作以产生经处理语音信号。在此种方法中，执行频谱对比加强操作包括基于来自噪声参考的信息来计算多个噪声子带功率估计；基于来自所述语音信号的信息来产生加强向量；及基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号。在此种方法中，所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据通用配置，一种用于处理语音信号的设备包括用于对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的装置，及用于对所述语音信号执行频谱对比加强操作以产生经处理语音信号的装置。用于对所述语音信号执行频谱对比加强操作的所述装置包括用于基于来自噪声参考的信息来计算多个噪声子带功率估计的装置；用于基于来自所述语音信号的信息来产生加强向量的装置；及用于基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的装置。在此种设备中，所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据另一通用配置，一种用于处理语音信号的设备包括空间选择性处理滤波器，其经配置以对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考；及频谱对比加强器，其经配置以对所述语音信号执行频谱对比加强操作以产生经处理语音信号。在此种设备中，所述频谱对比加强器包括功率估计计算器，其经配置以基于来自噪声参考的信息来计算多个噪声子带功率估计；及加强向量产生器，其经配置以基于来自所述语音信号的信息来产生加强向量。在此种设备中，所述频谱对比加强器经配置以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号。在此种设备中，所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据通用配置，一种计算机可读媒体包括在由至少一个处理器执行时使所述至少一个处理器执行处理多通道音频信号的方法的指令。这些指令包括在由处理器执行时使所述处理器对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的指令；及在由处理器执行时使所述处理器对所述语音信号执行频谱对比加强操作以产生经处理语音信号的指令。用以执行频谱对比加强操作的指令包括用以基于来自噪声参考的信息来计算多个噪声子带功率估计的指令；用以基于来自所述语音信号的信息来产生加强向量的指令；及用以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的指令。在此种方法中，所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据通用配置，一种处理语音信号的方法包括使用经配置以处理音频信号的装置来使所述语音信号的频谱平滑以获得第一平滑信号；使所述第一平滑信号平滑以获得第二平滑信号；且产生基于所述第一平滑信号及所述第二平滑信号的比率的对比加强语音信号。还揭示经配置以执行此方法的设备，以及具有在由至少一个处理器执行时使所述至少一个处理器执行此方法的指令的计算机可读媒体。

图pattern)O
卜实例的波束图(beam双平滑型式及所述平滑频谱与所述双平滑频谱的比率的实例.图角波形的应用, 4勺转移函数的i 角波形的应用,11
图27包括指示一组七个巴克标度(Bark scale)子带的边缘的一行点。图28展示子带滤波器阵列SGlO的实施方案SG12的框图。图^A说明通用无限脉冲响应(IIR)滤波器实施方案的转置直接形式II。图^B说明UR滤波器的双二阶实施方案的转置直接形式II结构。图30展示IIR滤波器的双二阶实施方案的一个实例的幅度及相位响应曲线图。图31展示一连串七个双二阶滤波器的幅度及相位响应。图32展示加强器ENlO的实施方案ENllO的框图。图33A展示混合因子计算器FC200的实施方案FC250的框图。图3 展示混合因子计算器FC250的实施方案F(^60的框图。图33C展示增益因子计算器FC300的实施方案FC310的框图。图33D展示增益因子计算器FC300的实施方案FC320的框图。图34A展示伪码列表。图34B展示图34A的伪码列表的修改。图35A及图35B分别展示图34A及图34B的伪码列表的修改。图36A展示增益控制元件CEllO的实施方案CEl 15的框图。图36B展示子带滤波器阵列FA100的包括并联布置的一组带通滤波器的实施方案 FAllO的框图。图37A展示子带滤波器阵列FA100的带通滤波器串联布置的实施方案FA120的框图。图37B展示IIR滤波器的双二阶实施方案的另一实例。图38展示加强器ENlO的实施方案EN120的框图。图39展示增益控制元件CE120的实施方案CE130的框图。图40A展示设备AlOO的实施方案A160的框图。图40B展示设备A140(及设备A165)的实施方案A165的框图。图41展示图35A的伪码列表的修改。图42展示图35A的伪码列表的另一修改。图43A展示设备AlOO的实施方案A170的框图。图4 展示设备A170的实施方案A180的框图。图44展示加强器ENllO的包括峰值限制器LlO的实施方案EN160的框图。图45A展示描述峰值限制操作的一个实例的伪码列表。图45B展示图45A的伪码列表的另一型式。图46展示设备AlOO的包括分离评估器EVlO的实施方案A200的框图。图47展示设备A200的实施方案A210的框图。图48展示加强器EN200(及加强器EN110)的实施方案EN300的框图。图49展示加强器EN300的实施方案EN310的框图。图50展示加强器EN300 (及加强器EN310)的实施方案EN320的框图。图51A展示子带信号产生器EC210的框图。图51B展示子带信号产生器EC210的实施方案EC220的框图。图52展示加强器EN320的实施方案EN330的框图。
图53展示加强器ENllO的实施方案EN400的框图。图M展示加强器ENllO的实施方案EN450的框图。图55展示设备AlOO的实施方案A250的框图。图56展示加强器EN450 (及加强器EN400)的实施方案EN460的框图。图57展示设备A210的包括话音活动检测器V20的实施方案A230。图58A展示加强器EN400的实施方案EN55的框图。图58B展示功率估计计算器EC120的实施方案EC125的框图。图59展示设备AlOO的实施方案A300的框图。图60展示设备A300的实施方案A310的框图。图61展示设备A310的实施方案A320的框图。图62展示设备AlOO的实施方案A400的框图。图63展示设备AlOO的实施方案A500的框图。图64A展示音频预处理器APlO的实施方案AP20的框图。图64B展示音频预处理器AP20的实施方案AP30的框图。图65展示设备A310的实施方案A330的框图。图66A展示回音消除器EClO的实施方案EC12的框图。图66B展示回音消除器EC20a的实施方案EC22a的框图。图66C展示设备AllO的实施方案A600的框图。图67A展示第一操作配置中的双麦克风手持机HlOO的图。图67B展示手持机HlOO的第二操作配置。图68A展示手持机HlOO的包括三个麦克风的实施方案HllO的图。图68B展示手持机HllO的两个其它视图。图69A到图69D分别展示多麦克风音频感测装置D300的仰视图、俯视图、正视图及侧视图。图70A展示头戴式耳机的不同操作配置的范围的图。图70B展示免持车载设备的图。图7IA到图71D分别展示多麦克风音频感测装置D350的仰视图、俯视图、正视图及侧视图。图72A到图72C展示媒体播放装置的实例。图73A展示通信装置DlOO的框图。图7 展示通信装置DlOO的实施方案D200的框图。图74A展示声码器VClO的框图。图74B展示编码器ENC100的实施方案ENCllO的框图。图75A展示设计方法MlO的流程图。图75B展示经配置以用于记录训练数据的消声腔室的实例。图76A展示自适应滤波器结构FSlO的双通道实例的框图。图76B展示滤波器结构FSlO的实施方案FS20的框图。图77说明无线电话系统。图78说明经配置以支持包交换数据通信的无线电话系统。
图79A展示根据通用配置的方法MlOO的流程图。图79B展示方法MlOO的实施方案Ml 10的流程图。图80A展示方法MlOO的实施方案M120的流程图。图80B展示任务T130的实施方案T230的流程图。图81A展示任务T140的实施方案T240的流程图。图8IB展示任务T240的实施方案T340的流程图。图81C展示方法Ml 10的实施方案M130的流程图。图82A展示方法MlOO的实施方案M140的流程图。图82B展示根据通用配置的方法M200的流程图。图83A展示根据通用配置的设备FlOO的框图。图8 展示设备FlOO的实施方案FllO的框图。图84A展示设备FlOO的实施方案F120的框图。图84B展示装置G130的实施方案G230的框图。图85A展示装置G140的实施方案G240的框图。图85B展示装置G240的实施方案G340的框图。图85C展示设备FllO的实施方案F130的框图。图86A展示设备FlOO的实施方案F140的框图。图86B展示根据通用配置的设备F200的框图。在这些图式中，除非上下文另有指示，否则相同标记的使用指示相同结构的例子。
具体实施例方式在移动环境中影响语音信号的噪声可包括各种不同组成部分，例如竞争谈话者、音乐、串音、街道噪声及/或飞机场噪声。由于此噪声的特征通常为非稳定的且接近于语音信号的频率特征(frequency signature)，所以可能难以使用传统单一麦克风或固定波束成形类型的方法来为所述噪声建模。单一麦克风噪声减少技术通常需要显著参数调谐 (parameter tuning)以实现最佳性能。举例来说，在所述情况下，合适的噪声参考可能并非直接可用，且可能有必要间接地导出噪声参考。因此，可能需要用基于多个麦克风的高级信号处理来支持在有噪声环境中使用移动装置进行话音通信。在一个特定实例中，在有噪声环境中感测语音信号，且使用语音处理方法来将所述语音信号与环境噪声(也被称作“背景噪声”或“周围噪声”)分离。在另一特定实例中，在有噪声环境中再生语音信号，且使用语音处理方法来将所述语音信号与环境噪声分离。语音信号处理在日常通信的许多领域中是重要的，因为在真实世界状况中几乎总是存在噪声。可使用如本文所描述的系统、方法及设备来支持所感测语音信号及/或再生语音信号的增加的可懂度(intelligibility)，尤其在有噪声环境中。所述技术可大体上应用于任何记录、音频感测、收发及/或音频再生应用中，尤其所述应用的移动或其它便携型例子。举例来说，本文所揭示的配置范围包括驻留于经配置以使用码分多址(CDMA)无线接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将理解，具有如本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员所已知的各种各样的技术的各种通信系统中的任一者中，所述通信系统例如是经由有线及/或无线(例如，CDMA、TDMA、14FDMA、TD-SCDMA或OFDM)发射信道使用话音IP( “VoIP”)的系统。除非受其上下文明确地限制，否则术语“信号”在本文中用以指示其普通意义中的任一者，包括在导线、总线或其它传输媒体上表示的存储器位置(或存储器位置的集合)的状态。除非受其上下文明确地限制，否则术语“产生”在本文中用以指示其普通意义中的任一者，例如计算或以其它方式得到。除非受其上下文明确地限制，否则术语“计算”在本文中用以指示其普通意义的任一者，例如计算、评估、平滑及/或从多个值中进行选择。除非受其上下文明确地限制，否则术语“获得”用以指示其普通意义中的任一者，例如计算、导出、接收(例如，从外部装置)及/或检索(例如，从存储元件的阵列)。在术语“包含”用于本描述及权利要求书中时，其并不排除其它元件或操作。术语“基于”(如在“A是基于B”中) 用以指示其普通意义中的任一者，包括以下情况⑴“导出自”(例如，“B为A的前体”)； ( ) “至少基于”(例如，“A至少基于B”)，及在特定情形下适当时，(iii) “等于”(例如， “A等于B”)。类似地，术语“响应于”用以指示其普通意义中的任一者，包括“至少响应于”。除非另外指示，否则对具有特定特征的设备的操作的任何揭示还明确地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示还明确地希望揭示根据类似配置的方法(且反之亦然)。如由其特定上下文所指示，术语“配置” 可参考方法、设备及/或系统来使用。除非由特定上下文另外指示，否则一般地且可互换地使用术语“方法”、“过程”、“程序”及“技术”。除非由特定上下文另外指示，否则还一般地且可互换地使用术语“设备”与“装置”。术语“元件”及“模块”通常用以指示较大配置的一部分。除非由其上下文明确地限制，否则术语“系统”在本文中用以指示其普通意义中的任一者，包括“相互作用以实现共同目标的一群组元件”。通过引用文档的一部分而做出的任何并入还应理解为并入在所述部分内提及的术语或变量的定义(其中所述定义出现于文档中的别处)以及所述并入部分中提及的任何图。可互换地使用术语“编码器”、“编解码器”及“编码系统”以表示一系统，所述系统包括经配置以接收音频信号的帧并对其进行编码(可能在例如感知加权及/或其它滤波操作的一个或一个以上预处理操作后)的至少一个编码器及经配置以接收所述经编码帧及产生所述帧的对应经解码表示的对应解码器。此种编码器及解码器通常部署于通信链路的相对终端处。为了支持全双工通信，编码器及解码器两者的例子通常部署于此种链路的每一端处。在此描述中，术语“所感测音频信号”表示经由一个或一个以上麦克风接收到的信号。音频感测装置(例如，通信或记录装置)可经配置以存储基于所述所感测音频信号的信号及/或将此信号输出到经由导线或用无线方式耦合到所述音频发送装置的一个或一个以上其它装置。在此描述中，术语“再生音频信号”表示由从存储装置检索及/或经由到另一装置的有线或无线连接接收到的信息来再生的信号。音频再生装置(例如，通信或播放装置) 可经配置以将再生音频信号输出到所述装置的一个或一个以上扬声器。或者，此装置可经配置以将再生音频信号输出到耳机、其它头戴式耳机或经由导线或用无线方式耦合到所述装置的外部扬声器。参考用于话音通信的收发器应用(例如，电话)，所感测音频信号为将由收发器发射的近端信号，且再生音频信号为由收发器接收到(例如，经由有线及/或无线通信链路)的远端信号。参考移动音频再生应用(例如，所记录音乐或语音(例如，MP3、音频图书、播客)的播放或此内容的流式传输)，再生音频信号为所播放或流式传输的音频信号。语音信号的可懂度可相对于所述信号的频谱特性而改变。举例来说，图1的清晰度指数曲线图展示语音可懂度的相关组成如何随着音频频率而改变。此曲线图说明在IkHz 与4kHz之间的频谱分量对于可懂度来说尤其重要，相对重要峰值大约在2kHz。图2展示经由电话应用的典型窄带信道来发射及/或接收的语音信号的功率谱。此图说明此信号的能量在频率增加高于500Hz时快速地减少。然而，如图1所示，达4kHz 的频率对于语音可懂度来说可能非常重要。因此，在500Hz与4000Hz之间的频带中人工提升能量可预期改善此电话应用中语音信号的可懂度。由于高于4kHz的音频频率通常不如IkHz到4kHz带对可懂度那么重要，所以经由典型带限通信信道发射窄带信号通常足以具有可懂的会话。然而，对于通信信道支持宽带信号的传输的情况来说，可预期个人语音特点的增加的清晰性及更好的通信。在话音电话情形中，术语“窄带”指代从约OHz到500Hz (例如，0、50、100或200Hz)到约3kHz到5kHz (例如，3500、4000或4500Hz)的频率范围，且术语“宽带”指代从约OHz到500Hz (例如，0、50、 100或200Hz)到约7kHz到8kHz (例如，7000、7500或8000Hz)的频率范围。可能需要通过提升语音信号的选定部分来增加语音可懂度。举例来说，在助听器应用中，可使用动态范围压缩技术来通过提升再生音频信号中的特定频率子带来补偿所述子带中的已知听力损失。真实世界充满多个噪声源(包括单点噪声源)，其通常侵入多个声音中，从而造成回响。背景声噪声可包括由一般环境产生的众多噪声信号及由其它人的背景会话产生的干扰信号，以及从所述信号中的每一者产生的反射及回响。环境噪声可影响所感测音频信号(例如，近端语音信号)及/或再生音频信号(例如，远端语音信号)的可懂度。对于通信发生于有噪声环境中的应用来说，可能需要使用语音处理方法来将语音信号与背景噪声区别开且加强语音信号的可懂度。此处理在日常通信的许多领域中可为重要的，因为在真实世界状况中几乎总是存在噪声。自动增益控制(AGC，也被称作自动音量控制或AVC)为可用以增加在有噪声环境中感测或再生的音频信号的可懂度的处理方法。可使用自动增益控制技术来将所述信号的动态范围压缩到有限振幅带中，借此提升所述信号的具有低功率的区段并减少具有高功率的区段中的能量。图3展示典型语音功率谱(其中自然语音功率滚降使功率随频率减少) 及典型噪声功率谱(其中功率大体上在至少语音频率范围内恒定)的实例。在此情况下，语音信号的高频率分量可具有比噪声信号的对应分量少的能量，从而导致对高频率语音带的屏蔽。图4A说明AVC对此实例的应用。如此图中所示，通常实施AVC模块以无差别地提升语音信号的所有频带。此方法可能需要将放大信号的大动态范围用于高频率功率的适度提升。背景噪声对高频率语音内容的淹没速度通常比对低频率内容快得多，因为高频带中的语音功率通常远小于低频带中的语音功率。因此，仅提升信号的总音量将不一定提升低于IkHz的低频率内容，此可能不会显著地有助于可懂度。可能需要改为调整音频子带功率以补偿对语音信号的噪声屏蔽效应。举例来说，可能需要与噪声语音子带功率的比率成反比地提升语音功率，且在高频率子带中不成比例地提升语音功率，以便朝着高频率补偿语音功率的固有滚降。可能需要在由环境噪声占主导的频率子带中补偿低话音功率。举例来说，如图4B 所示，可能需要对选定子带起作用以通过将不同增益提升应用于语音信号的不同子带(例如，根据语音噪声比率)来提升可懂度。与图4A所示的AVC实例对比，可预期所述均衡提供更清楚及更可懂的信号，同时避免对低频率分量的不必要提升。为了以此方式选择性地提升语音功率，可能需要获得对环境噪声电平的可靠且同时的估计。然而，在实际应用中，可能难以使用传统单一麦克风或固定波束成形类型的方法来根据所感测音频信号为环境噪声建模。虽然图3表明噪声电平随频率而恒定，但在通信装置或媒体播放装置的实际应用中，环境噪声电平通常随时间及频率两者而显著且快速地改变。在典型环境中，声噪声可包括串音噪声、飞机场噪声、街道噪声、竞争谈话者的话音，及/或来自干扰源(例如，电视机或收音机)的声音。因此，此噪声通常为非稳定的且可具有接近于用户自身话音的频谱的平均频谱。根据单一麦克风信号计算出的噪声功率参考信号通常仅为近似稳定噪声估计。此外，此计算通常必然伴有噪声功率估计延迟，使得可仅在显著延迟后才执行对子带增益的对应调整。可能需要获得对环境噪声的可靠且同时的估计。图5展示根据通用配置的经配置以处理音频信号的设备AlOO的框图，所述设备包括空间选择性处理滤波器SSlO及频谱对比加强器EN10。空间选择性处理(SSP)滤波器 SSlO经配置以对M通道感测音频信号SlO (其中M为大于一的整数)执行空间选择性处理操作以产生源信号S20及噪声参考S30。加强器ENlO经配置以基于来自噪声参考S30的信息来动态地更改语音信号S40的频谱特性以产生经处理语音信号S50。举例来说，加强器ENlO可经配置以使用来自噪声参考S30的信息来相对于语音信号S40的至少一个频率子带来提升语音信号S40的至少一个其它频率子带及/或使其衰减以产生经处理语音信号 S50。可实施设备A100，使得语音信号S40为再生音频信号(例如，远端信号)。或者，可实施设备A100，使得语音信号S40为所感测音频信号(例如，近端信号)。举例来说，可实施设备A100，使得语音信号S40基于多通道感测音频信号S10。图6A展示设备AlOO的此实施方案AllO的框图，其中加强器ENlO经布置以将源信号S20作为语音信号S40来接收。图6B展示设备AlOO (及设备A110)的另一实施方案A120的框图，实施方案A120包括加强器ENlO的两个例子EmOa及ENlOb。在此实例中，加强器EWOa经布置以处理语音信号S40 (例如，远端信号)以产生经处理语音信号S50a，且加强器EmOa经布置以处理源信号S20(例如，近端信号)以产生经处理语音信号S50b。在设备AlOO的典型应用中，所感测音频信号SlO的每一通道是基于来自M个麦克风的阵列中的对应一者的信号，其中M为具有大于一的值的整数。可经实施以包括具有此麦克风阵列的设备AlOO的实施方案的音频感测装置的实例包括助听器、通信装置、记录装置及音频或视听播放装置。所述通信装置的实例包括(不限于)电话机(例如，有绳或无绳电话、蜂窝式电话手持机、通用串行总线(USB)手持机)、有线及/或无线头戴式耳机(例如，蓝牙头戴式耳机)，及免持车载设备。所述记录装置的实例包括(不限于)手持型音频及/或视频记录器及数字相机。所述音频或视听播放装置的实例包括(不限于)经配置以17再生流式传输或预记录的音频或视听内容的媒体播放器。可经实施以包括具有此麦克风阵列的设备AlOO的实施方案且可经配置以执行通信、记录及/或音频或视听播放操作的音频感测装置的其它实例包括个人数字助理(PDA)及其它手持型计算装置；上网本(netbook) 计算机、笔记本计算机、膝上型计算机及其它便携型计算装置；及桌上型计算机及工作站。可实施M个麦克风的阵列以具有经配置以接收声信号的两个麦克风(例如，立体声阵列)或两个以上的麦克风。所述阵列中的每一麦克风可具有全向、双向或单向(例如，心形线)的响应。可使用的各种类型的麦克风包括(不限于)压电式麦克风、动圈式麦克风(dynamic microphone)及驻极体麦克风(electret microphone)。在用于便携式话音通信的装置(例如，手持机或头戴式耳机)中，此阵列中的相邻麦克风之间的中心到中心间隔通常在约1. 5cm到约4. 5cm的范围中，但在例如手持机的装置中，较大间隔(例如，达IOcm 或15cm)也是可能的。在助听器中，此阵列中的相邻麦克风之间的中心到中心间隔可小如约4mm或5mm。此阵列中的麦克风可沿着一条线布置，或替代地，使得其中心位于二维(例如，三角形)或三维形状的顶点处。可能需要通过对由所述阵列的麦克风产生的信号执行一个或一个以上预处理操作来获得所感测音频信号S10。所述预处理操作可包括取样、滤波(例如，用于回音消除、噪声减少、频谱整形等等)及可能甚至预分离(例如，通过如本文所描述的另一 SSP滤波器或自适应滤波器)以获得所感测音频信号S10。对于例如语音的声应用来说，典型取样速率的范围是从8kHz到16kHz。其它典型预处理操作包括模拟及/或数字域中的阻抗匹配、增益控制及滤波。空间选择性处理(SSP)滤波器SSlO经配置以对所感测音频信号SlO执行空间选择性处理操作以产生源信号S20及噪声参考S30。此操作可经设计以确定所述音频感测装置与特定声音源之间的距离、减少噪声、加强从特定方向到来的信号分量，及/或将一个或一个以上声音分量与其它环境声音分离。所述空间处理操作的实例描述于2008年8月 25日申请的题为“用于信号分离的系统、方法及设备(SYSTEMS，METHODS, AND APPARATUS FOR SIGNAL SEPARATION) ”的第12/197，924号美国专利申请案及于2008年11月24日申请的题为“用于加强的可懂度的系统、方法、设备及计算机程序产品(SYSTEMS，METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILIIT) ” 的第 12/277，283号美国专利申请案中且包括(不限于)波束成形及盲源分离操作。噪声分量的实例包括(不限于)漫射环境噪声(例如，街道噪声、汽车噪声及/或串音噪声)及方向性噪声(例如，干扰扬声器及/或来自例如电视、收音机或播音系统的另一点源的声音)。空间选择性处理滤波器SSlO可经配置以将所感测音频信号SlO的方向性所要分量(例如，用户的话音)与所述信号的一个或一个以上其它分量(例如，方向性干扰分量及 /或漫射噪声分量)分离。在此情况下，SSP滤波器SSlO可经配置以集中所述方向性所要分量的能量，使得源信号S20包括比所感测音频通道SlO的每一通道包括的能量多的所述方向性所要分量的能量(也就是说，使得源信号S20包括比所感测音频通道SlO的任何个别通道包括的能量多的所述方向性所要分量的能量)。图7展示SSP滤波器SSlO的此实例的波束图，其表明滤波器响应相对于麦克风阵列的轴的方向性。可使用空间选择性处理滤波器SSlO来提供对环境噪声的可靠且同时的估计。在一些噪声估计方法中，通过对输入信号的不活动帧(例如，仅含有背景噪声或为寂静的帧)求平均来估计噪声参考。所述方法可能会对环境噪声的改变反应缓慢，且通常对于为非稳定噪声(例如，脉冲噪声)建模为无效的。空间选择性处理滤波器SSlO可经配置以将噪声分量甚至与输入信号的活动帧分离以提供噪声参考S30。通过SSP滤波器SSlO分离到此噪声参考的帧中的噪声可基本上与源信号S20的对应帧中的信息内容同时，且此噪声参考还被称作“瞬时”噪声估计。空间选择性处理滤波器SSlO通常经实施以包括由滤波器系数值的一个或一个以上矩阵表征的固定滤波器FF10。可使用如下文更详细描述的波束成形、盲源分离(BSS)或组合的BSS/波束成形方法来获得这些滤波器系数值。空间选择性处理滤波器SSlO还可经实施以包括一个以上的级。图8A展示SSP滤波器SSlO的此实施方案SS20的框图，实施方案SS20包括固定滤波器级FFlO及自适应滤波器级AF10。在此实例中，固定滤波器级FFlO 经布置以对所感测音频信号SlO的通道S10-1及S10-2进行滤波以产生经滤波信号S15的通道S15-1及S15-2，且自适应滤波器级AFlO经布置以对通道S15-1及S15-2进行滤波以产生源信号S20及噪声参考S30。在此情况下，如下文更详细地描述，可能需要使用固定滤波器级FFlO来为自适应滤波器级AFlO产生初始条件。还可能需要对SSP滤波器SSlO的输入执行自适应缩放(例如，以确保IIR固定或自适应滤波器组的稳定性)。在SSP滤波器SS20的另一实施方案中，自适应滤波器AFlO经布置以将经滤波的通道S15-1及所感测音频通道S10-2作为输入来接收。在此情况下，可能需要自适应滤波器AFlO经由与固定滤波器FFlO的预期处理延迟匹配的延迟元件来接收所感测音频通道 S10-2。可能需要实施SSP滤波器SSlO以包括多个固定滤波器级，其经布置使得可在操作期间选择所述固定滤波器级中的适当一者(例如，根据各种固定滤波器级的相对分离性能)。此结构揭示于(例如)于2008年12月12日申请的题为“用于基于多麦克风的语音加强的系统、方法及设备(SYSTEMS ,METHODS，AND APPARATUS FOR MULT I-MICROPHONE BASED SPEECH ENHANCEMENT) ”的第12/334，246号美国专利申请案(代理人案号080426)中。空间选择性处理滤波器SSlO可经配置以在时域中处理所感测音频信号SlO且产生源信号S20及噪声参考S30作为时域信号。或者，SSP滤波器SSlO可经配置以在频域 (或另一变换域)中接收所感测音频信号SlO或将所感测音频信号SlO转换到此域，且在所述域中处理所感测音频信号S10。可能需要在SSP滤波器SSlO或SS20后跟着噪声减少级，所述噪声减少级经配置以应用噪声参考S30以进一步减少源信号S20中的噪声。图8B展示设备AlOO的实施方案 A130的框图，实施方案A130包括此噪声减少级NRlO。噪声减少级NRlO可实施为维纳滤波器(Wiener filter)，其滤波系数值是基于来自源信号S20及噪声参考S30的信号及噪声功率信息。在此情况下，噪声减少级NRlO可经配置以基于来自噪声参考S30的信息来估计噪声频谱。或者，噪声减少级NRlO可经实施以基于噪声参考S30的频谱来对源信号S20执行频谱相减(spectral substraction)操作。或者，噪声减少级NRlO可实施为卡尔曼滤波器，其噪声协方差是基于来自噪声参考S30的信息。噪声减少级NRlO可经配置以在频域(或另一变换域)中处理源信号S20及噪声参考S30。图9A展示设备A130的实施方案A132的框图，实施方案A132包括噪声减少级 NRlO的此实施方案NR20。设备A132还包括变换模块TR10，其经配置以将源信号S20及噪声参考S30变换到变换域中。在典型实例中，变换模块TRlO经配置以对源信号S20及噪声参考S30中的每一者执行快速傅立叶变换(FFT)(例如，128点、256点或512点FFT)以产生相应频域信号。图9B展示设备A132的实施方案A134的框图，实施方案A134还包括逆变换模块TR20，逆变换模块TR20经布置以将噪声减少级NR20的输出变换到时域(例如，通过对噪声减少级NR20的输出执行逆FFT)。噪声减少级NR20可经配置以通过根据噪声参考S30的对应频段(bin)的值来对源信号S20的频域频段进行加权来计算噪声减少的语音信号S45。在此情况下，噪声减少级 NR20可经配置以根据例如Bi = WiAi的表达式来产生噪声减少的语音信号S45，其中Bi指示噪声减少的语音信号S45的第i个频段，Ai指示源信号S20的第i个频段，且Wi指示帧的权重向量的第i个元素。每一频段可包括对应频域信号的仅一个值，或噪声减少级NR20可经配置以根据所要子带划分方案来将每一频域信号的所述值分组成多个频段(例如，如在下文参考频段化(binning)模块SG30所描述)。噪声减少级NR20的此实施方案可经配置以计算权重Wi,使得所述权重对于噪声参考S30具有低值的频段来说为较高的(例如，较接近于一)且对于噪声参考S30具有高值的频段来说为较低的(例如，较接近于零)。噪声减少级NR20的一个此实例经配置以通过根据一表达式来计算权重Wi中的每一者来阻断源信号S20的频段或使其通过，所述表达式例如在频段Ni中的值的总和(或者，平均值)小于(或者，不大于)阈值Ti时为Wi = 1且否则为Wi = 0。在此实例中，Ni指示噪声参考S30的第i个频段。可能需要配置噪声减少级NR20的此实施方案，使得阈值Ti彼此相等，或替代地，使得阈值Ti中的至少两者彼此不同。在另一实例中，噪声减少级NR20经配置以通过在频域中从源信号S20中减去噪声参考 S30(即，通过从源信号S20的频谱中减去噪声参考S30的频谱)来计算噪声减少的语音信号 S45。如下文更详细地描述，加强器ENlO可经配置以在频域或另一变换域中对一个或一个以上信号执行操作。图IOA展示设备AlOO的实施方案A140的框图，实施方案A140包括噪声减少级NR20的例子。在此实例中，加强器ENlO经布置以将噪声减少的语音信号S45 作为语音信号S40来接收，且加强器ENlO还经布置以将噪声参考S30及噪声减少的语音信号S45作为变换域信号来接收。设备A140还包括逆变换模块TR20的例子，其经布置以将经处理语音信号S50从变换域变换到时域。明确地提到，对于语音信号S40具有高取样速率(例如，44. IkHz或高于十千赫的另一取样速率)的情况，可能需要加强器ENlO通过在时域中处理信号S40来产生对应经处理语音信号S50。举例来说，可能需要避免对此信号执行变换操作的计算代价。从媒体文件或文件流再生的信号可具有此取样速率。图IOB展示设备A140的实施方案A150的框图。设备A150包括加强器ENlO的例子ENlOa，其经配置以在变换域中处理噪声参考S30及噪声减少的语音信号S45 (例如，如上文参考设备A140所描述)以产生第一经处理语音信号S50a。设备A150还包括加强器 ENlO的例子ENlOb，其经配置以在时域中处理噪声参考S30及语音信号S40(例如，远端或其它再生信号)以产生第二经处理语音信号S50b。在经配置以执行方向性处理操作的替代方案中，或除了经配置以执行方向性处理操作外，SSP滤波器SSlO可经配置以执行距离处理操作。图IlA及图IlB分别展示SSP滤波器SSlO的实施方案SSllO及SS120的框图，所述实施方案包括经配置以执行此操作的距离处理模块DS10。距离处理模块DSlO经配置以产生(作为距离处理操作的结果)距离指示信号DI10，所述信号指示多通道感测音频信号SlO的分量的源相对于麦克风阵列的距离。距离处理模块DSlO通常经配置以产生距离指示信号DIlO作为两个状态分别指示近场源及远场源的二元值指示信号，但产生连续及/或多值信号的配置也是可能的。在一个实例中，距离处理模块DSlO经配置，使得距离指示信号DIlO的状态是基于麦克风信号的功率梯度之间的类似程度。距离处理模块DSlO的此实施方案可经配置以根据(A)麦克风信号的功率梯度之间的差异与(B)阈值之间的关系来产生距离指示信号 DI10。一种此关系可表达为否则，其中θ表示距离指示信号DIlO的当前状态，I表示所感测音频信号SlO的主要通道(例如，对应于通常最直接地接收来自所要源(例如，用户的话音)的声音的麦克风的通道)的功率梯度的当前值，▽,表示所感测音频信号Sio的次要通道(例如，对应于通常比所述主要通道的麦克风较不直接地接收来自所要源的声音的麦克风的通道)的功率梯度的当前值，且Td表示阈值，所述阈值可为固定的或自适应的(例如，基于所述麦克风信号中的一者或一者以上的当前电平)。在此特定实例中，距离指示信号DIlO的状态1指示远场源，且状态0指示近场源，但当然在需要时可使用相反实施方案(即，使得状态1指示近场源且状态0指示远场源)。可能需要实施距离处理模块DSlO以将功率梯度的值计算为相继帧上所感测音频信号SlO的对应通道的能量之间的差异。在一个此实例中，距离处理模块DSlO经配置以将功率梯度力及▽,中的每一者的当前值计算为通道的当前帧的值的平方的总和与通道的先前帧的值的平方的总和之间的差。在另一个此实例中，距离处理模块DSlO经配置以将功率梯度力及1中的每一者的当前值计算为对应通道的当前帧的值的量值的总和与通道的先前帧的值的量值的总和之间的差。另外或在替代方案中，距离处理模块DSlO可经配置，使得距离指示信号DIlO的状态是基于在一系列频率上所感测音频信号Sio的主要通道的相位与次要通道的相位之间的相关程度。距离处理模块DSlO的此实施方案可经配置以根据(A)通道的相位向量之间的相关性与(B)阈值之间的关系来产生距离指示信号DI10。一个此关系可表达为=Jo, οοτν(φρ,φ3)>Τα μ = \ι,否则其中μ表示距离指示信号DIlO的当前状态，办表示所感测音频信号SlO的主要通道的当前相位向量，外表示所感测音频信号SlO的次要通道的当前相位向量，且Τ。表示阈值，所述阈值可为固定或自适应的(例如，基于通道中的一者或一者以上的当前电平)。可能需要实施距离处理模块DSlO以计算相位向量，使得相位向量的每一元素表示在对应频率下或在对应频率子带上对应通道的当前相位角。在此特定实例中，距离指示信号DIlO的状态1指示远场源且状态0指示近场源，但当然在需要时可使用相反实施方案。距离指示信号DIlO可作为控制信号应用于噪声减少级NR10，使得在距离指示信号DIlO指示远场源时，由噪声减少级NRlO执行的噪声减少得以最大化。可能需要配置距离处理模块DS10，使得距离指示信号DIlO的状态是基于上文所揭示的功率梯度及相位相关性准则两者。在此情况下，距离处理模块DSlO可经配置以将距离指示信号DIlO的状态计算为θ与μ的当前值的组合(例如，逻辑OR或逻辑AND)。或者，距离处理模块DSlO可经配置以根据这些准则(即，功率梯度类似性或相位相关性)中的一者来计算距离指示信号DIlO的状态，使得对应阈值的值是基于另一准则的当前值。SSP滤波器SSlO的替代实施方案经配置以对所感测音频信号SlO执行相位相关性屏蔽操作以产生源信号S20及噪声参考S30。SSP滤波器SSlO的此实施方案的一个实例经配置以确定在不同频率下所感测音频信号SlO的不同通道之间的相对相位角。如果多数频率下的相位角大体上相等(例如，在百分之五、十或二十内)，则滤波器使所述频率通过作为源信号S20且将其它频率下的分量(即，具有其它相位角的分量)分离到噪声参考S30 中。加强器ENlO可经布置以接收来自时域缓冲器的噪声参考S30。替代地或另外，加强器ENlO可经布置以接收来自时域缓冲器的第一语音信号S40。在一个实例中，每一时域缓冲器具有十毫秒的长度(例如，在八kHz的取样速率下的八十个样本或在十六kHz的取样速率下的160个样本)。加强器ENlO经配置以对语音信号S40执行频谱对比加强操作以产生经处理语音信号S50。可将频谱对比界定为信号频谱中相邻峰值与谷值之间的差异(例如，以分贝为单位)，且加强器ENlO可经配置以通过在语音信号S40的能量谱或幅度谱中增加峰值与谷值之间的差异来产生经处理语音信号S50。语音信号的频谱峰值还被称作“共振峰”(formant)。频谱对比加强操作包括基于来自噪声参考S30的信息来计算多个噪声子带功率估计；基于来自所述语音信号的信息来产生加强向量EVlO ；及基于所述多个噪声子带功率估计、来自语音信号S40的信息及来自加强向量EVlO的信息来产生经处理语音信号 S50。在一个实例中，加强器ENlO经配置以基于语音信号S40来产生对比加强信号 SClO (例如，根据本文所描述的技术中的任一者)、计算噪声参考S30的每一帧的功率估计，且通过根据对应噪声功率估计将语音信号S30与对比加强信号SClO的对应帧混合来产生经处理语音信号S50。举例来说，加强器Emo的此实施方案可经配置以在对应噪声功率估计为高时相称地更多使用对比加强信号SCio的对应帧，且在对应噪声功率估计为低时相称地更多使用语音信号S40的对应帧来产生经处理语音信号S50的帧。加强器ENlO的此实施方案可经配置以根据例如PSS (n) = P CES (η)+ (I-P) SS (η)的表达式来产生经处理语音信号S50的帧PSS (η)，其中CES (η)及SS (η)分别指示对比加强信号SClO及语音信号S40 的对应帧，且P指示噪声电平指示，所述噪声电平指示具有基于对应噪声功率估计的在零到一的范围中的值。图12展示频谱对比加强器ENlO的实施方案ΕΝ100的框图。加强器ΕΝ100经配置以产生基于对比加强语音信号SClO的经处理语音信号S50。加强器ΕΝ100还经配置以产生经处理语音信号S50，使得经处理语音信号S50的多个频率子带中的每一者是基于语音信号S40的对应频率子带。加强器EN100包括加强向量产生器VG100，其经配置以产生基于语音信号S40的加强向量EVlO ；加强子带信号产生器EG100，其经配置以基于来自加强向量EVlO的信息来产生一组加强子带信号；及加强子带功率估计产生器EP100，其经配置以产生一组加强子带功率估计，其各自基于来自所述加强子带信号中的对应一者的信息。加强器EN100还包括子带增益因子计算器FC100，其经配置以计算多个增益因子值，使得所述多个增益因子值中的每一者是基于来自加强向量EVlO的对应频率子带的信息；语音子带信号产生器 SG100，其经配置以基于来自语音信号S40的信息来产生一组语音子带信号；及增益控制元件CE100，其经配置以基于所述语音子带信号及来自加强向量EVlO的信息(例如，所述多个增益因子值)来产生对比加强信号SC10。加强器Emoo包括噪声子带信号产生器NG100，其经配置以基于来自噪声参考 S30的信息来产生一组噪声子带信号；及噪声子带功率估计计算器NP100，其经配置以产生一组噪声子带功率估计，其各自基于来自所述噪声子带信号中的对应一者的信息。加强器 EN100还包括子带混合因子计算器FC200，其经配置以基于来自对应噪声子带功率估计的信息来计算所述子带中的每一者的混合因子；及混合器X100，其经配置以基于来自所述混合因子、语音信号S40及对比加强信号SClO的信息来产生经处理语音信号S50。明确地提到，在应用加强器EN100 (及本文所揭示的加强器ENlO的其它实施方案中的任一者)的过程中，可能需要从已经受回音消除操作(例如，如下文参考音频预处理器 AP20及回音消除器EClO所描述)的麦克风信号获得噪声参考S30。对于语音信号S40为再生音频信号的情况来说，此操作可尤其合意。如果声回音保留于噪声参考S30中(或可由下文所揭示的加强器ENlO的其它实施方案使用的其它噪声参考中的任一者中)，则可在经处理语音信号S50与子带增益因子计算路径之间产生正反馈环路。举例来说，此环路可具有经处理语音信号S50将远端扬声器驱动得越大声则加强器将倾向于使增益因子增加得更多的效应。在一个实例中，加强向量产生器VG100经配置以通过使语音信号S40的幅度谱或功率谱升高到M次幂(M大于一(例如，在1. 2到2. 5的范围中的值，例如1. 2,1. 5,1. 7,1. 9 或二))来产生加强向量EV10。加强向量产生器VG100可经配置以根据例如yi = MXi的表达式来对对数频谱值执行此操作，其中Xi表示以分贝为单位的语音信号S40的频谱的值，且Yi表示以分贝为单位的加强向量EVlO的对应值。加强向量产生器VG100还可经配置以使功率升高操作的结果正规化及/或将加强器向量EVlO作为功率升高操作的结果与原始幅度谱或功率谱之间的比率来产生。在另一实例中，加强向量产生器VG100经配置以通过使语音信号S40的频谱的二阶导数平滑来产生加强向量EV10。加强向量产生器VG100的此实施方案可经配置以根据例如込00 = χ^+χ,^^χ,的表达式来将离散项中的二阶导数计算为二阶差分，其中频谱值Xi 可为线性或对数的(例如，以分贝为单位)。二阶差分D2(Xi)的值在频谱峰值处小于零且在频谱谷值处大于零，且可能需要配置加强向量产生器VG100以将所述二阶差分计算为此值的负数(或对经平滑二阶差分求反)以获得在频谱峰值处大于零且在频谱谷值处小于零的结果。加强向量产生器VG100可经配置以通过应用平滑滤波器(例如，加权平均滤波器(例如，三角滤波器))来使频谱二阶差分平滑。平滑滤波器的长度可基于频谱峰值的估计带宽。举例来说，可能需要平滑滤波器使具有小于所估计峰值带宽的两倍的周期的频率衰减。典型平滑滤波器长度包括三个、五个、七个、九个、十一个、十三个及十五个分接头 (tap)。加强向量产生器VG100的此实施方案可经配置以连续地执行差分及平滑计算或作为一个操作来执行。图13展示语音信号S40的帧的幅度谱的实例，且图14展示计算为由十五分接头三角滤波器平滑的二阶频谱差分的加强向量EVlO的对应帧的实例。
在类似实例中，加强向量产生器VG100经配置以通过用高斯差(DoG)滤波器来卷积语音信号S40的频谱来产生加强向量EV10，所述高斯差滤波器可根据例如下式的表达式来实施
权利要求
1.一种处理语音信号的方法，所述方法包含在经配置以处理音频信号的装置内执行以下动作中的每一者对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考；以及对所述语音信号执行频谱对比加强操作以产生经处理语音信号，其中所述执行频谱对比加强操作包括基于来自所述噪声参考的信息来计算多个噪声子带功率估计；基于来自所述语音信号的信息来产生加强向量；以及基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号，且其中所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
2.根据权利要求1所述的处理语音信号的方法，其中所述执行空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中。
3.根据权利要求1所述的处理语音信号的方法，其中所述方法包含对所述装置用无线方式接收到的信号进行解码以获得经解码语音信号，且其中所述语音信号是基于来自所述经解码语音信号的信息。
4.根据权利要求1所述的处理语音信号的方法，其中所述语音信号是基于所述多通道所感测音频信号。
5.根据权利要求1所述的处理语音信号的方法，其中所述执行空间选择性处理操作包括确定在多个不同频率中的每一者下所述多通道所感测音频信号的通道的相位角之间的关系。
6.根据权利要求1所述的处理语音信号的方法，其中所述产生加强向量包含使所述语音信号的频谱平滑以获得第一平滑信号，且使所述第一平滑信号平滑以获得第二平滑信号，且其中所述加强向量是基于所述第一平滑信号与第二平滑信号的比率。
7.根据权利要求1所述的处理语音信号的方法，其中所述产生加强向量包含减少所述语音信号的频谱峰值的幅度之间的差异，且其中所述加强向量是基于所述减少的结果。
8.根据权利要求1所述的处理语音信号的方法，其中所述产生经处理语音信号包含计算多个增益因子值，使得所述多个增益因子值中的每一者是基于来自所述加强向量的对应频率子带的信息；将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带，以获得所述经处理语音信号的第一子带；以及将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带，以获得所述经处理语音信号的第二子带，其中所述多个增益因子值中的所述第一者不同于所述多个增益因子值中的所述第二者ο
9.根据权利要求8所述的处理语音信号的方法，其中所述多个增益因子值中的每一者是基于所述多个噪声子带功率估计中的对应一者。
10.根据权利要求8所述的处理语音信号的方法，其中所述产生经处理语音信号包括使用滤波器级的级联来对所述语音信号进行滤波；且其中所述将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带包含将所述增益因子值应用于所述级联的第一滤波器级；且其中所述将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带包含将所述增益因子值应用于所述级联的第二滤波器级。
11.根据权利要求1所述的处理语音信号的方法，其中所述方法包含使用回音消除器来从所述多通道所感测音频信号中消除回音；以及使用所述经处理语音信号来训练所述回音消除器。
12.根据权利要求1所述的处理语音信号的方法，其中所述方法包含基于来自所述噪声参考的信息，对所述源信号执行噪声减少操作以获得所述语音信号；以及基于所述源信号与所述语音信号之间的关系来执行话音活动检测操作，其中所述产生经处理语音信号是基于所述话音活动检测操作的结果。
13.一种用于处理语音信号的设备，所述设备包含用于对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的装置；以及用于对所述语音信号执行频谱对比加强操作以产生经处理语音信号的装置，其中所述用于执行频谱对比加强操作的装置包括用于基于来自所述噪声参考的信息来计算多个噪声子带功率估计的装置；用于基于来自所述语音信号的信息来产生加强向量的装置；以及用于基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的装置，其中所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
14.根据权利要求13所述的用于处理语音信号的设备，其中所述空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中。
15.根据权利要求13所述的用于处理语音信号的设备，其中所述设备包含用于对所述设备用无线方式接收到的信号进行解码以获得经解码语音信号的装置；且其中所述语音信号是基于来自所述经解码语音信号的信息。
16.根据权利要求13所述的用于处理语音信号的设备，其中所述语音信号是基于所述多通道所感测音频信号。
17.根据权利要求13所述的用于处理语音信号的设备，其中所述用于执行空间选择性处理操作的装置经配置以确定在多个不同频率中的每一者下所述多通道所感测音频信号的通道的相位角之间的关系。
18.根据权利要求13所述的用于处理语音信号的设备，其中所述用于产生加强向量的装置经配置以使所述语音信号的频谱平滑以获得第一平滑信号，且使所述第一平滑信号平滑以获得第二平滑信号，且其中所述加强向量是基于所述第一平滑信号与第二平滑信号的比率。
19.根据权利要求13所述的用于处理语音信号的设备，其中所述用于产生加强向量的装置经配置以执行减少所述语音信号的频谱峰值的幅度之间的差异的操作，且其中所述加强向量是基于所述操作的结果。
20.根据权利要求13所述的用于处理语音信号的设备，其中所述用于产生经处理语音信号的装置包含用于计算多个增益因子值使得所述多个增益因子值中的每一者是基于来自所述加强向量的对应频率子带的信息的装置；用于将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带以获得所述经处理语音信号的第一子带的装置；以及用于将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带以获得所述经处理语音信号的第二子带的装置，其中所述多个增益因子值中的所述第一者不同于所述多个增益因子值中的所述第二者ο
21.根据权利要求20所述的用于处理语音信号的设备，其中所述多个增益因子值中的每一者是基于所述多个噪声子带功率估计中的对应一者。
22.根据权利要求20所述的用于处理语音信号的设备，其中所述用于产生经处理语音信号的装置包括经布置以对所述语音信号进行滤波的滤波器级的级联；且其中所述用于将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带的装置经配置以将所述增益因子值应用于所述级联的第一滤波器级，且其中所述用于将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带的装置经配置以将所述增益因子值应用于所述级联的第二滤波器级。
23.根据权利要求13所述的用于处理语音信号的设备，其中所述设备包含用于从所述多通道所感测音频信号中消除回音的装置；且其中所述用于消除回音的装置经配置及经布置以通过所述经处理语音信号来加以训练。
24.根据权利要求13所述的用于处理语音信号的设备，其中所述设备包含用于基于来自所述噪声参考的信息对所述源信号执行噪声减少操作以获得所述语音信号的装置；以及用于基于所述源信号与所述语音信号之间的关系来执行话音活动检测操作的装置，其中所述用于产生经处理语音信号的装置经配置以基于所述话音活动检测操作的结果来产生所述经处理语音信号。
25.一种用于处理语音信号的设备，所述设备包含空间选择性处理滤波器，其经配置以对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考；以及频谱对比加强器，其经配置以对所述语音信号执行频谱对比加强操作以产生经处理语音信号，其中所述频谱对比加强器包括功率估计计算器，其经配置以基于来自所述噪声参考的信息来计算多个噪声子带功率估计；以及加强向量产生器，其经配置以基于来自所述语音信号的信息来产生加强向量，且其中所述频谱对比加强器经配置以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号，且其中所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
26.根据权利要求25所述的用于处理语音信号的设备，其中所述空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中。
27.根据权利要求25所述的用于处理语音信号的设备，其中所述设备包含解码器，所述解码器经配置以对所述设备用无线方式接收到的信号进行解码以获得经解码语音信号；且其中所述语音信号是基于来自所述经解码语音信号的信息。
28.根据权利要求25所述的用于处理语音信号的设备，其中所述语音信号是基于所述多通道所感测音频信号。
29.根据权利要求25所述的用于处理语音信号的设备，其中所述空间选择性处理操作包括确定在多个不同频率中的每一者下所述多通道所感测音频信号的通道的相位角之间的关系。
30.根据权利要求25所述的用于处理语音信号的设备，其中所述加强向量产生器经配置以使所述语音信号的频谱平滑以获得第一平滑信号，且使所述第一平滑信号平滑以获得第二平滑信号，且其中所述加强向量是基于所述第一平滑信号与第二平滑信号的比率。
31.根据权利要求25所述的用于处理语音信号的设备，其中所述加强向量产生器经配置以执行减少所述语音信号的频谱峰值的幅度之间的差异的操作，且其中所述加强向量是基于所述操作的结果。
32.根据权利要求25所述的用于处理语音信号的设备，其中所述频谱对比加强器包括增益因子计算器，其经配置以计算多个增益因子值，使得所述多个增益因子值中的每一者是基于来自所述加强向量的对应频率子带的信息；以及增益控制元件，其经配置以将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带，以获得所述经处理语音信号的第一子带；且其中所述增益控制元件经配置以将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带，以获得所述经处理语音信号的第二子带，其中所述多个增益因子值中的所述第一者不同于所述多个增益因子值中的所述第二者ο
33.根据权利要求32所述的用于处理语音信号的设备，其中所述多个增益因子值中的每一者是基于所述多个噪声子带功率估计中的对应一者。
34.根据权利要求32所述的用于处理语音信号的设备，其中所述增益控制元件包括经布置以对所述语音信号进行滤波的滤波器级的级联；且其中所述增益控制元件经配置以通过将所述多个增益因子值中的所述第一者应用于所述级联的第一滤波器级而将所述增益因子值应用于所述语音信号的所述第一频率子带，且其中所述增益控制元件经配置以通过将所述多个增益因子值中的所述第二者应用于所述级联的第二滤波器级而将所述增益因子值应用于所述语音信号的所述第二频率子带。
35.根据权利要求25所述的用于处理语音信号的设备，其中所述设备包含回音消除器，所述回音消除器经配置以从所述多通道所感测音频信号中消除回音，且其中所述回音消除器经配置及经布置以通过所述经处理语音信号来加以训练。
36.根据权利要求25所述的用于处理语音信号的设备，其中所述设备包含噪声减少级，其经配置以基于来自所述噪声参考的信息对所述源信号执行噪声减少操作，以获得所述语音信号；以及话音活动检测器，其经配置以基于所述源信号与所述语音信号之间的关系来执行话音活动检测操作，其中所述频谱对比加强器经配置以基于所述话音活动检测操作的结果来产生所述经处理语音信号。
37.一种计算机可读媒体，其包含在由至少一个处理器执行时使所述至少一个处理器执行处理多通道音频信号的方法的指令，所述指令包含在由处理器执行时使所述处理器对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的指令；以及在由处理器执行时使所述处理器对语音信号执行频谱对比加强操作以产生经处理语音信号的指令，其中在由处理器执行时使所述处理器执行频谱对比加强操作的所述指令包括在由处理器执行时使所述处理器基于来自所述噪声参考的信息来计算多个噪声子带功率估计的指令；在由处理器执行时使所述处理器基于来自所述语音信号的信息来产生加强向量的指令；以及在由处理器执行时使所述处理器基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生经处理语音信号的指令，其中所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
38.根据权利要求37所述的计算机可读媒体，其中在由处理器执行时使所述处理器执行空间选择性处理操作的所述指令包括在由处理器执行时使所述处理器将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中的指令。
39.根据权利要求37所述的计算机可读媒体，其中所述媒体包含在由处理器执行时使所述处理器对包括所述媒体的装置用无线方式接收到的信号进行解码以获得经解码语音信号的指令；且其中所述语音信号是基于来自所述经解码语音信号的信息。
40.根据权利要求37所述的计算机可读媒体，其中所述语音信号是基于所述多通道所感测音频信号。
41.根据权利要求37所述的计算机可读媒体，其中在由处理器执行时使所述处理器执行空间选择性处理操作的所述指令包括在由处理器执行时使所述处理器确定在多个不同频率中的每一者下所述多通道所感测音频信号的通道的相位角之间的关系的指令。
42.根据权利要求37所述的计算机可读媒体，其中在由处理器执行时使所述处理器产生加强向量的所述指令包含在由处理器执行时使所述处理器使所述语音信号的频谱平滑以获得第一平滑信号的指令；以及在由处理器执行时使所述处理器使所述第一平滑信号平滑以获得第二平滑信号的指令，且其中所述加强向量是基于所述第一平滑信号与第二平滑信号的比率。
43.根据权利要求37所述的计算机可读媒体，其中在由处理器执行时使所述处理器产生加强向量的所述指令包含在由处理器执行时使所述处理器减少所述语音信号的频谱峰值的幅度之间的差异的指令，且其中所述加强向量是基于所述减少的结果。
44.根据权利要求37所述的计算机可读媒体，其中在由处理器执行时使所述处理器产生经处理语音信号的所述指令包含在由处理器执行时使所述处理器计算多个增益因子值使得所述多个增益因子值中的每一者是基于来自所述加强向量的对应频率子带的信息的指令；在由处理器执行时使所述处理器将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带以获得所述经处理语音信号的第一子带的指令；以及在由处理器执行时使所述处理器将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带以获得所述经处理语音信号的第二子带的指令，其中所述多个增益因子值中的所述第一者不同于所述多个增益因子值中的所述第二者。
45.根据权利要求44所述的计算机可读媒体，其中所述多个增益因子值中的每一者是基于所述多个噪声子带功率估计中的对应一者。
46.根据权利要求44所述的计算机可读媒体，其中在由处理器执行时使所述处理器产生经处理语音信号的所述指令包括在由处理器执行时使所述处理器使用滤波器级的级联来对所述语音信号进行滤波的指令；且其中在由处理器执行时使所述处理器将所述多个增益因子值中的第一者应用于所述语音信号的第一频率子带的所述指令包含在由处理器执行时使所述处理器将所述增益因子值应用于所述级联的第一滤波器级的指令；且其中在由处理器执行时使所述处理器将所述多个增益因子值中的第二者应用于所述语音信号的第二频率子带的所述指令包含在由处理器执行时使所述处理器将所述增益因子值应用于所述级联的第二滤波器级的指令。
47.根据权利要求37所述的计算机可读媒体，其中所述媒体包含在由处理器执行时使所述处理器从所述多通道所感测音频信号中消除回音的指令；且其中在由处理器执行时使所述处理器消除回音的所述指令经配置及经布置以通过所述经处理语音信号来加以训练。
48.根据权利要求37所述的计算机可读媒体，其中所述媒体包含在由处理器执行时使所述处理器基于来自所述噪声参考的信息对所述源信号执行噪声减少操作以获得所述语音信号的指令；以及在由处理器执行时使所述处理器基于所述源信号与所述语音信号之间的关系来执行话音活动检测操作的指令，其中在由处理器执行时使所述处理器产生经处理语音信号的所述指令经配置以基于所述话音活动检测操作的结果来产生所述经处理语音信号。
49.一种处理语音信号的方法，所述方法包含在经配置以处理音频信号的装置内执行以下动作中的每一者使所述语音信号的频谱平滑以获得第一平滑信号；使所述第一平滑信号平滑以获得第二平滑信号；以及产生基于所述第一平滑信号与第二平滑信号的比率的对比加强语音信号。
50.根据权利要求49所述的处理语音信号的方法，其中所述产生对比加强语音信号包含对于所述语音信号的多个子带中的每一者，基于来自对应子带的所述第一平滑信号与第二平滑信号的所述比率的信息来控制所述子带的增益。
全文摘要
本发明揭示用于基于来自由空间选择性处理滤波器从多通道所感测音频信号导出的噪声参考的信息对语音信号进行的频谱对比加强的系统、方法及设备。
文档编号G10L21/02GK102047326SQ200980119650
公开日2011年5月4日申请日期2009年5月29日优先权日2008年5月29日
发明者埃里克·维塞, 杰里米·托曼, 林鸿春申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰里米.托曼;林鸿春;埃里克.维塞
技术所有人：高通股份有限公司
我是此专利的发明人

上一篇：吸音构造体的制作方法
上一篇：语音识别装置、语音识别方法以及电子设备的制作方法