用于频谱对比加强的系统、方法、设备及计算机程序产品的制作方法

文档序号:2835124阅读:147来源:国知局
专利名称:用于频谱对比加强的系统、方法、设备及计算机程序产品的制作方法
技术领域
本发明涉及语音处理。
背景技术
以前在安静的办公室或家庭环境中进行的许多活动现今在像汽车、街道或咖啡馆的声音可变情景中进行。举例来说,一人可能希望使用话音通信信道来与另一人进行通信。所述信道可(例如)由移动无线手持机或头戴式耳机、对讲机、双向无线电、车载设备或另一通信装置提供。因此,在用户由其它人包围的环境中,在具有人们倾向于聚集之处通常碰到的种类的噪声内容的情况下,相当大数量的话音通信是使用移动装置(例如,手持机及/或头戴式耳机)来进行的。此噪声倾向于使电话会话的远端处的用户分心或感到恼火。此夕卜,许多标准自动化商业交易(例如,账户余额或股票报价检查)使用基于话音辨识的数据查询,且这些系统的准确性可能会受到干扰噪声的显著妨碍。对于通信发生于有噪声环境中的应用来说,可能希望将所要语音信号与背景噪声分离。可将噪声界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包括在声环境内产生的众多噪声信号(例如,其它人的背景会话)以及从所述信号中的每一者产生的反射及回响。除非将所要语音信号与背景噪声分离,否则可能难以可靠且有效地使用所述语音信号。有噪声声环境还可能倾 向于屏蔽或以其它方式使得难以听到所要的再生音频信号,例如电话会话中的远端信号。声环境可具有与由通信装置正在再生的远端信号竞争的许多非可控噪声源。此噪声可引起令人不满意的通信体验。除非可将远端信号与背景噪声区别开,否则可能难以可靠且有效地使用所述远端信号。

发明内容
根据通用配置,一种处理语音信号的方法包括使用经配置以处理音频信号的装置来对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考,且对所述语音信号执行频谱对比加强操作以产生经处理语音信号。在此种方法中,执行频谱对比加强操作包括:基于来自噪声参考的信息来计算多个噪声子带功率估计;基于来自所述语音信号的信息来产生加强向量;及基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号。在此种方法中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据通用配置,一种用于处理语音信号的设备包括:用于对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的装置,及用于对所述语音信号执行频谱对比加强操作以产生经处理语音信号的装置。用于对所述语音信号执行频谱对比加强操作的所述装置包括:用于基于来自噪声参考的信息来计算多个噪声子带功率估计的装置;用于基于来自所述语音信号的信息来产生加强向量的装置;及用于基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的装置。在此种设备中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据另一通用配置,一种用于处理语音信号的设备包括:空间选择性处理滤波器,其经配置以对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考;及频谱对比加强器,其经配置以 对所述语音信号执行频谱对比加强操作以产生经处理语音信号。在此种设备中,所述频谱对比加强器包括:功率估计计算器,其经配置以基于来自噪声参考的信息来计算多个噪声子带功率估计;及加强向量产生器,其经配置以基于来自所述语音信号的信息来产生加强向量。在此种设备中,所述频谱对比加强器经配置以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号。在此种设备中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据通用配置,一种计算机可读媒体包括在由至少一个处理器执行时使所述至少一个处理器执行处理多通道音频信号的方法的指令。这些指令包括:在由处理器执行时使所述处理器对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的指令;及在由处理器执行时使所述处理器对所述语音信号执行频谱对比加强操作以产生经处理语音信号的指令。用以执行频谱对比加强操作的指令包括:用以基于来自噪声参考的信息来计算多个噪声子带功率估计的指令;用以基于来自所述语音信号的信息来产生加强向量的指令;及用以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的指令。在此种方法中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。根据通用配置,一种处理语音信号的方法包括:使用经配置以处理音频信号的装置来使所述语音信号的频谱平滑以获得第一平滑信号;使所述第一平滑信号平滑以获得第二平滑信号;且产生基于所述第一平滑信号及所述第二平滑信号的比率的对比加强语音信号。还揭示经配置以执行此方法的设备,以及具有在由至少一个处理器执行时使所述至少一个处理器执行此方法的指令的计算机可读媒体。


图1展示清晰度指数曲线图。图2展示在典型窄带电话应用中的再生语音信号的功率谱。图3展示典型语音功率谱及典型噪声功率谱的实例。图4A说明自动音量控制对图3的实例的应用。图4B说明子带均衡对图3的实例的应用。图5展示根据通用配置的设备AlOO的框图。图6A展示设备AlOO的实施方案AllO的框图。图6B展示设备·AlOO (及设备A110)的实施方案A120的框图。图7展示空间选择性处理(SSP)滤波器SSlO的一个实例的波束图(beampattern)。图8A展示SSP滤波器SSlO的实施方案SS20的框图。图8B展示设备AlOO的实施方案A130的框图。图9A展示设备A130的实施方案A132的框图。图9B展示设备A132的实施方案A134的框图。图1OA展示设备A130 (及设备Al 10)的实施方案A140的框图。图1OB展示设备A140 (及设备A120)的实施方案A150的框图。图1lA展示SSP滤波器SSlO的实施方案SSllO的框图。图1lB展示SSP滤波器SS20及SSllO的实施方案SS120的框图。图12展示加强器ENlO的实施方案EN100的框图。图13展示语音信号的巾贞的幅度谱(magnitude spectrum)。图14展示对应于图13的谱的加强向量EVlO的帧。图15到图18分别展示语音信号的幅度谱、所述幅度谱的平滑型式、所述幅度谱的双平滑型式及所述平滑频谱与所述双平滑频谱的比率的实例。图19A展示加强向量产生器VG100的实施方案VGllO的框图。图19B展示加强向量产生器VGllO的实施方案VG120的框图。图20展示从图13的幅度谱产生的平滑信号的实例。图21展示从图20的平滑信号产生的平滑信号的实例。图22展示语音信号S40的帧的加强向量的实例。图23A展示用于动态范围控制操作的转移函数的实例。图23B展示动态范围压缩操作对三角波形的应用。图24A展示用于动态范围压缩操作的转移函数的实例。图24B展示动态范围压缩操作对三角波形的应用。图25展示自适应均衡操作的实例。图26A展示子带信号产生器SG200的框图。
图26B展示子带信号产生器SG300的框图。图26C展示子带信号产生器SG400的框图。图26D展示子带功率估计计算器ECllO的框图。图26E展示子带功率估计计算器EC120的框图。图27包括指示一组七个巴克标度(Bark scale)子带的边缘的一行点。图28展示子带滤波器阵列SGlO的实施方案SG12的框图。图29A说明通用无限脉冲响应(IIR)滤波器实施方案的转置直接形式II。图29B说明IIR滤波器的双二阶实施方案的转置直接形式II结构。图30展示IIR滤波器的双二阶实施方案的一个实例的幅度及相位响应曲线图。图31展示一连串七个双二阶滤波器的幅度及相位响应。图32展示加强器ENlO的实施方案ENllO的框图。图33A展示混合因子计算器FC200的实施方案FC250的框图。图33B展示混合因子计算器FC250的实施方案FC260的框图。图33C展示增益因子计算器FC300的实施方案FC310的框图。图33D展示增益因子计算器FC300的实施方案FC320的框图。图34A展示伪码列表。图34B展示图34A的伪码列表的修改。图35A及图35B分别展示图34A及图34B的伪码列表的修改。图36A展示增益控制元件CEllO的实施方案CEl 15的框图。图36B展示子带滤波器阵列FA100的包括并联布置的一组带通滤波器的实施方案FAllO的框图。图37A展示子带滤波器阵列FA100的带通滤波器串联布置的实施方案FA120的框图。图37B展示IIR滤波器的双二阶实施方案的另一实例。图38展示加强器ENlO的实施方案EN120的框图。图39展示增益控制元件CE120的实施方案CE130的框图。图40A展示设备AlOO的实施方案A160的框图。图40B展示设备A140 (及设备A165)的实施方案A165的框图。图41展示图35A的伪码列表的修改。图42展示图35A的伪码列表的另一修改。图43A展示设备AlOO的实施方案A170的框图。图43B展示设备A170的实施方案A180的框图。图44展示加强器ENllO的包括峰值限制器LlO的实施方案EN160的框图。图45A展示描述峰值限制操作的一个实例的伪码列表。图45B展示图45A的伪码列表的另一型式。图46展示设备AlOO的包括分离评估器EVlO的实施方案A200的框图。图47展示设备A200的实施方案A210的框图。图48展示加强器EN200 (及加强器ENl 10)的实施方案EN300的框图。图49展示加 强器EN300的实施方案EN310的框图。
图50展示加强器EN300 (及加强器EN310)的实施方案EN320的框图。图51A展示子带信号产生器EC210的框图。图51B展示子带信号产生器EC210的实施方案EC220的框图。图52展示加强器EN320的实施方案EN330的框图。图53展示加强器ENllO的实施方案EN400的框图。图54展示加强器ENllO的实施方案EN450的框图。图55展示设备AlOO的实施方案A250的框图。图56展示加强器EN450 (及加强器EN400)的实施方案EN460的框图。图57展示设备A210的包括话音活动检测器V20的实施方案A230。图58A展示加强器EN400的实施方案EN55的框图。图58B展示功率估计计算器EC120的实施方案EC125的框图。图59展示设备AlOO的实施方案A300的框图。图60展示设备A300的实施方案A310的框图。图61展示设备A310的实施方案A320的框图。图62展示设备AlOO的实施方案A400的框图。图63展示设备AlOO的实施方案A500的框图。图64A展示音频预处理器APlO的实施方案AP20的框图。图64B展示音频预处理器AP20的实施方案AP30的框图。图65展示设备A310的实施方案A330的框图。图66A展示回音消除器EClO的实施方案EC12的框图。图66B展示回音消除器EC20a的实施方案EC22a的框图。图66C展示设备AllO的实施方案A600的框图。图67A展示第一操作配置中的双麦克风手持机HlOO的图。图67B展示手持机HlOO的第二操作配置。图68A展示手持机HlOO的包括三个麦克风的实施方案HllO的图。图68B展示手持机HllO的两个其它视图。图69A到图69D分别展示多麦克风音频感测装置D300的仰视图、俯视图、正视图及侧视图。图70A展示头戴式耳机的不同操作配置的范围的图。图70B展示免持车载设备的图。图7IA到图71D分别展示多麦克风音频感测装置D350的仰视图、俯视图、正视图及侧视图。图72A到图72C展示媒体播放装置的实例。图73A展示通信装置DlOO的框图。图73B展示通信装置DlOO的实施方案D200的框图。图74A展示声码器VClO的框图。图74B展示编码器ENC100的实施方案ENCllO的框图。图75A展示设计方法MlO的流程图。图75B展示 经配置以用于记录训练数据的消声腔室的实例。
图76A展示自适应滤波器结构FSlO的双通道实例的框图。图76B展示滤波器结构FSlO的实施方案FS20的框图。图77说明无线电话系统。图78说明经配置以支持包交换数据通信的无线电话系统。图79A展示根据通用配置的方法MlOO的流程图。图79B展示方法MlOO的实施方案MllO的流程图。图80A展示方法MlOO的实施方案M120的流程图。图80B展示任务T130的实施方案T230的流程图。图81A展示任务T140的实施方案T240的流程图。图8IB展示任务T240的实施方案T340的流程图。图81(:展示方法肌10的实施方案M130的流程图。图82A展示方法MlOO的实施方案M140的流程图。图82B展示根据通用配置的方法M200的流程图。图83A展示根据通用配置的设备FlOO的框图。图83B展示设备FlOO的实施方案FllO的框图。

图84A展示设备FlOO 的实施方案F120的框图。图84B展示装置G130的实施方案G230的框图。图85A展示装置G140的实施方案G240的框图。图85B展示装置G240的实施方案G340的框图。图85C展示设备FllO的实施方案F130的框图。图86A展示设备FlOO的实施方案F140的框图。图86B展示根据通用配置的设备F200的框图。在这些图式中,除非上下文另有指示,否则相同标记的使用指示相同结构的例子。
具体实施例方式在移动环境中影响语音信号的噪声可包括各种不同组成部分,例如竞争谈话者、音乐、串音、街道噪声及/或飞机场噪声。由于此噪声的特征通常为非稳定的且接近于语音信号的频率特征(frequency signature),所以可能难以使用传统单一麦克风或固定波束成形类型的方法来为所述噪声建模。单一麦克风噪声减少技术通常需要显著参数调谐(parameter tuning)以实现最佳性能。举例来说,在所述情况下,合适的噪声参考可能并非直接可用,且可能有必要间接地导出噪声参考。因此,可能需要用基于多个麦克风的高级信号处理来支持在有噪声环境中使用移动装置进行话音通信。在一个特定实例中,在有噪声环境中感测语音信号,且使用语音处理方法来将所述语音信号与环境噪声(也被称作“背景噪声”或“周围噪声”)分离。在另一特定实例中,在有噪声环境中再生语音信号,且使用语音处理方法来将所述语音信号与环境噪声分离。语音信号处理在日常通信的许多领域中是重要的,因为在真实世界状况中几乎总是存在噪声。可使用如本文所描述的系统、方法及设备来支持所感测语音信号及/或再生语音信号的增加的可懂度(intelligibility),尤其在有噪声环境中。所述技术可大体上应用于任何记录、音频感测、收发及/或音频再生应用中,尤其所述应用的移动或其它便携型例子。举例来说,本文所揭示的配置范围包括驻留于经配置以使用码分多址(CDMA)无线接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员所已知的各种各样的技术的各种通信系统中的任一者中,所述通信系统例如是经由有线及/或无线(例如,CDMA、TDMA、FDMA, TD-SCDMA或OFDM)发射信道使用话音IP (“VoIP”)的系统。除非受其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括在导线、总线或其它传输媒体上表示的存储器位置(或存储器位置的集合)的状态。除非受其上下文明确地限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如计算或以其它方式得到。除非受其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义的任一者,例如计算、评估、平滑及/或从多个值中进行选择。除非受其上下文明确地限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件的阵列)。在术语“包含”用于本描述及权利要求书中时,其并不排除其它元件或操作。术语“基于”(如在“A是基于B”中)用以指示其普通意义中的任一者,包括以下情况:(i) “导出自”(例如,“B为A的前体”);(ii)“至少基于”(例如,“A至少基于B”),及在特定情形下适当时,(iii) “等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。除非另外指示,否则对具有特定特征的设备的操作的任何揭示还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示还明确地希望揭示根据类似配置的方法(且反之亦然)。如由其特定上下文所指示,术语“配置”可参考方法、设备及/或系统来使用。除非由特定上下文另外指示,否则一般地且可互换地使用术语“方法”、“过程”、“程序”及“技术”。除非由特定上下文另外指示,否则还一般地且可互换地使用术语“设备”与“装置”。术语“元件”及“模块”通常用以指示较大配置的一部分。除非由其上下文明确地限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包括“相互作用以实现共同目标的一群组元件”。通过引用文档的一部分而做出的任何并入还应理解为并入在所述部分内提及的术语或变量的定义(其中所述定义出现于文档中的别处)以及所述并入部分中提及的任何图。

可互换地使用术语“编码器”、“编解码器”及“编码系统”以表示一系统,所述系统包括经配置以接收音频信号的帧并对其进行编码(可能在例如感知加权及/或其它滤波操作的一个或一个以上预处理操作后)的至少一个编码器及经配置以接收所述经编码帧及产生所述帧的对应经解码表示的对应解码器。此种编码器及解码器通常部署于通信链路的相对终端处。为了支持全双工通信,编码器及解码器两者的例子通常部署于此种链路的每一端处。在此描述中,术语“所感测音频信号”表示经由一个或一个以上麦克风接收到的信号。音频感测装置(例如,通信或记录装置)可经配置以存储基于所述所感测音频信号的信号及/或将此信号输出到经由导线或用无线方式耦合到所述音频发送装置的一个或一个以上其它装置。在此描述中,术语“再生音频信号”表示由从存储装置检索及/或经由到另一装置的有线或无线连接接收到的信息来再生的信号。音频再生装置(例如,通信或播放装置)可经配置以将再生音频信号输出到所述装置的一个或一个以上扬声器。或者,此装置可经配置以将再生音频信号输出到耳机、其它头戴式耳机或经由导线或用无线方式耦合到所述装置的外部扬声器。参考用于话音通信的收发器应用(例如,电话),所感测音频信号为将由收发器发射的近端信号,且再生音频信号为由收发器接收到(例如,经由有线及/或无线通信链路)的远端信号。参考移动音频再生应用(例如,所记录音乐或语音(例如,MP3、音频图书、播客)的播放或此内容的流式传输),再生音频信号为所播放或流式传输的音频信号。语音信号的可懂度可相对于所述信号的频谱特性而改变。举例来说,图1的清晰度指数曲线图展示语音可懂度的相关组成如何随着音频频率而改变。此曲线图说明在IkHz与4kHz之间的频谱分量对于可懂度来说尤其重要,相对重要峰值大约在2kHz。图2展示经由电话应用的典型窄带信道来发射及/或接收的语音信号的功率谱。此图说明此信号的能量在频率增加高于500Hz时快速地减少。然而,如图1所示,达4kHz的频率对于语音可懂度来说可能非常重要。因此,在500Hz与4000Hz之间的频带中人工提升能量可预期改善此电话应用中语音信号的可懂度。由于高于4kHz的音频频率通常不如IkHz到4kHz带对可懂度那么重要,所以经由典型带限通信信道发射窄带信号通常足以具有可懂的会话。然而,对于通信信道支持宽带信号的传输的情况来说,可预期个人语音特点的增加的清晰性及更好的通信。在话音电话情形中,术语“窄带”指代从约OHz到500Hz (例如,0、50、100或200Hz)到约3kHz到5kHz(例如,3500、4000或4500Hz)的频率范围,且术语“宽带”指代从约OHz到500Hz (例如,O、50,100 或 200Hz)到约 7kHz 到 8kHz (例如,7000、7500 或 8000Hz)的频率范围。可能需要通过提升语音信号的选定部分来增加语音可懂度。举例来说,在助听器应用中,可使用动态范围压缩技术来通过提升再生音频信号中的特定频率子带来补偿所述子带中的已知听力损失。 真实世界充满多个噪声源(包括单点噪声源),其通常侵入多个声音中,从而造成回响。背景声噪声可包括由一般环境产生的众多噪声信号及由其它人的背景会话产生的干扰信号,以及从所述信号中的每一者产生的反射及回响。环境噪声可影响所感测音频信号(例如,近端语音信号)及/或再生音频信号(例如,远端语音信号)的可懂度。对于通信发生于有噪声环境中的应用来说,可能需要使用语音处理方法来将语音信号与背景噪声区别开且加强语音信号的可懂度。此处理在日常通信的许多领域中可为重要的,因为在真实世界状况中几乎总是存在噪声。自动增益控制(AGC,也被称作自动音量控制或AVC)为可用以增加在有噪声环境中感测或再生的音频信号的可懂度的处理方法。可使用自动增益控制技术来将所述信号的动态范围压缩到有限振幅带中,借此提升所述信号的具有低功率的区段并减少具有高功率的区段中的能量。图3展示典型语音功率谱(其中自然语音功率滚降使功率随频率减少)及典型噪声功率谱(其中功率大体上在至少语音频率范围内恒定)的实例。在此情况下,语音信号的高频率分量可具有比噪声信号的对应分量少的能量,从而导致对高频率语音带的屏蔽。图4A说明AVC对此实例的应用。如此图中所示,通常实施AVC模块以无差别地提升语音信号的所有频带。此方法可能需要将放大信号的大动态范围用于高频率功率的适度提升。背景噪声对高频率语音内容的淹没速度通常比对低频率内容快得多,因为高频带中的语音功率通常远小于低频带中的语音功率。因此,仅提升信号的总音量将不一定提升低于IkHz的低频率内容,此可能不会显著地有助于可懂度。可能需要改为调整音频子带功率以补偿对语音信号的噪声屏蔽效应。举例来说,可能需要与噪声语音子带功率的比率成反比地提升语音功率,且在高频率子带中不成比例地提升语音功率,以便朝着高频率补偿语音功率的固有滚降。可能需要在由环境噪声占主导的频率子带中补偿低话音功率。举例来说,如图4B所示,可能需要对选定子带起作用以通过将不同增益提升应用于语音信号的不同子带(例如,根据语音噪声比率)来提升可懂度。与图4A所示的AVC实例对比,可预期所述均衡提供更清楚及更可懂的信号,同时避免对低频率分量的不必要提升。为了以此方式选择性地提升语音功率,可能需要获得对环境噪声电平的可靠且同时的估计。然而,在实际应用中,可能难以使用传统单一麦克风或固定波束成形类型的方法来根据所感测音频信号为环境噪声建模。虽然图3表明噪声电平随频率而恒定,但在通信装置或媒体播放装置的实际应用中,环境噪声电平通常随时间及频率两者而显著且快速地改变。在典型环境中,声噪声可包括串音噪声、飞机场噪声、街道噪声、竞争谈话者的话音,及/或来自干扰源(例如,电视机或收音机)的声音。因此,此噪声通常为非稳定的且可具有接近于用户自身话音的频谱的平均频谱。根据单一麦克风信号计算出的噪声功率参考信号通常仅为近似稳定噪声估计。此外,此计算通常必然伴有噪声功率估计延迟,使得可仅在显著延迟后才执行对子带增益的对应调整。可能需要获得对环境噪声的可靠且同时的估计。图5展示根据通用配置的经配置以处理音频信号的设备AlOO的框图,所述设备包括空间选择性处理滤波器SSlO及频谱对比加强器EN10。空间选择性处理(SSP)滤波器SSlO经配置以对M通道感测音频信号SlO (其中M为大于一的整数)执行空间选择性处理操作以产生源信号S20及噪声参考S30。加强器ENlO经配置以基于来自噪声参考S30的信息来动态地更改语音信号S40的频谱特性以产生经处理语音信号S50。举例来说,加强器ENlO可经配置以使用来自噪声参考S30的信息来相对于语音信号S40的至少一个频率子带来提升语音信号S40的至少一个其它频率子带及/或使其衰减以产生经处理语音信号S50。可实施设备A100,使得语音信号S40为再生音频信号(例如,远端信号)。或者,可实施设备A100,使得语音信号S40为所感测音频信号(例如,近端信号)。举例来说,可实施设备A100,使得语音信号S40基于多通道感测音频信号S10。图6A展示设备AlOO的此实施方案AllO的框图,其中加强器ENlO经布置以将源信号S20作为语音信号S40来接收。图6B展示设备AlOO (及设备A110)的另一实施方案A120的框图,实施方案A120包括加强器ENlO的两个例子ENlOa及ENlOb。在此实例中,加强器ENlOa经布置以处理语音信号S40 (例如,远端信号)以产生经处理语音信号S50a,且加强器ENlOa经布置以处理源信号S20 (例如,近端信号)以产生经处理语音信号S50b。在设备AlOO的典型应用中,所感测音频信号SlO的每一通道是基于来自M个麦克风的阵列中的对应一者的 信号,其中M为具有大于一的值的整数。可经实施以包括具有此麦克风阵列的设备AlOO的实施方案的音频感测装置的实例包括助听器、通信装置、记录装置及音频或视听播放装置。所述通信装置的实例包括(不限于)电话机(例如,有绳或无绳电话、蜂窝式电话手持机、通用串行总线(USB)手持机)、有线及/或无线头戴式耳机(例如,蓝牙头戴式耳机),及免持车载设备。所述记录装置的实例包括(不限于)手持型音频及/或视频记录器及数字相机。所述音频或视听播放装置的实例包括(不限于)经配置以再生流式传输或预记录的音频或视听内容的媒体播放器。可经实施以包括具有此麦克风阵列的设备AlOO的实施方案且可经配置以执行通信、记录及/或音频或视听播放操作的音频感测装置的其它实例包括个人数字助理(PDA)及其它手持型计算装置;上网本(netbook)计算机、笔记本计算机、膝上型计算机及其它便携型计算装置;及桌上型计算机及工作站。可实施M个麦克风的阵列以具有经配置以接收声信号的两个麦克风(例如,立体声阵列)或两个以上的麦克风。所述阵列中的每一麦克风可具有全向、双向或单向(例如,心形线)的响应。可使用的各种类型的麦克风包括(不限于)压电式麦克风、动圈式麦克风(dynamic microphone)及驻极体麦克风(electret microphone)。在用于便携式话音通信的装置(例如,手持机或头戴式耳机)中,此阵列中的相邻麦克风之间的中心到中心间隔通常在约1.5cm到约4.5cm的范围中,但在例如手持机的装置中,较大间隔(例如,达IOcm或15cm)也是可能的。在助听器中,此阵列中的相邻麦克风之间的中心到中心间隔可小如约4_或5_。此阵列中的麦克风可沿着一条线布置,或替代地,使得其中心位于二维(例如,三角形)或三维形状的顶点处。可能需要通过对由所述阵列的麦克风产生的信号执行一个或一个以上预处理操作来获得所感测音频信号S10。所述预处理操作可包括取样、滤波(例如,用于回音消除、噪声减少、频谱整形等等)及可能甚至预分离(例如,通过如本文所描述的另一 SSP滤波器或自适应滤波器)以获得所感测音频信号S10。对于例如语音的声应用来说,典型取样速率的范围是从8kHz到16kHz。其它典型预处理操作包括模拟及/或数字域中的阻抗匹配、增益控制及滤波。空间选择性处 理(SSP)滤波器SSlO经配置以对所感测音频信号SlO执行空间选择性处理操作以产生源信号S20及噪声参考S30。此操作可经设计以确定所述音频感测装置与特定声音源之间的距离、减少噪声、加强从特定方向到来的信号分量,及/或将一个或一个以上声音分量与其它环境声音分离。所述空间处理操作的实例描述于2008年8月25日申请的题为“用于信号分离的系统、方法及设备(SYSTEMS, METHODS, ANDAPPARATUS FOR SIGNAL SEPARATION)” 的第 12/197,924 号美国专利申请案及于 2008年11月24日申请的题为“用于加强的可懂度的系统、方法、设备及计算机程序产品(SYSTEMS,METHODS, APPARATUS, AND ⑶MPUTER PROGRAM PRODUCTS FOR ENHANCEDINTELLIGIBILITY)”的第12/277,283号美国专利申请案中且包括(不限于)波束成形及盲源分离操作。噪声分量的实例包括(不限于)漫射环境噪声(例如,街道噪声、汽车噪声及/或串音噪声)及方向性噪声(例如,干扰扬声器及/或来自例如电视、收音机或播音系统的另一点源的声音)。空间选择性处理滤波器SSlO可经配置以将所感测音频信号SlO的方向性所要分量(例如,用户的话音)与所述信号的一个或一个以上其它分量(例如,方向性干扰分量及/或漫射噪声分量)分离。在此情况下,SSP滤波器SSlO可经配置以集中所述方向性所要分量的能量,使得源信号S20包括比所感测音频通道SlO的每一通道包括的能量多的所述方向性所要分量的能量(也就是说,使得源信号S20包括比所感测音频通道SlO的任何个别通道包括的能量多的所述方向性所要分量的能量)。图7展示SSP滤波器SSlO的此实例的波束图,其表明滤波器响应相对于麦克风阵列的轴的方向性。可使用空间选择性处理滤波器SSlO来提供对环境噪声的可靠且同时的估计。在一些噪声估计方法中,通过对输入信号的不活动帧(例如,仅含有背景噪声或为寂静的帧)求平均来估计噪声参考。所述方法可能会对环境噪声的改变反应缓慢,且通常对于为非稳定噪声(例如,脉冲噪声)建模为无效的。空间选择性处理滤波器SSlO可经配置以将噪声分量甚至与输入信号的活动帧分离以提供噪声参考S30。通过SSP滤波器SSlO分离到此噪声参考的巾贞中的噪声可基本上与源信号S20的对应巾贞中的信息内容同时,且此噪声参考还被称作“瞬时”噪声估计。空间选择性处理滤波器SSlO通常经实施以包括由滤波器系数值的一个或一个以上矩阵表征的固定滤波器FF10。可使用如下文更详细描述的波束成形、盲源分离(BSS)或组合的BSS/波束成形方法来获得这些滤波器系数值。空间选择性处理滤波器SSlO还可经实施以包括一个以上的级。图8A展示SSP滤波器SSlO的此实施方案SS20的框图,实施方案SS20包括固定滤波器级FFlO及自适应滤波器级AFlO。在此实例中,固定滤波器级FFlO经布置以对所感测音频信号SlO的通道S10-1及S10-2进行滤波以产生经滤波信号S15的通道S15-1及S15-2,且自适应滤波器级AFlO经布置以对通道S15-1及S15-2进行滤波以产生源信号S20及噪声参考S30。在此情况下,如下文更详细地描述,可能需要使用固定滤波器级FFlO来为自适应滤波器级AFlO产生初始条件。还可能需要对SSP滤波器SSlO的输入执行自适应缩放(例如,以确保IIR固定或自适应滤波器组的稳定性)。在SSP滤波器SS20的另一实施方案中,自适应滤波器AFlO经布置以将经滤波的通道S15-1及所感测音频通道S10-2作为输入来接收。在此情况下,可能需要自适应滤波器AFlO经由与固定滤波器FFlO的预期处理延迟匹配的延迟元件来接收所感测音频通道S10-2。

可能需要实施SSP滤波器SSlO以包括多个固定滤波器级,其经布置使得可在操作期间选择所述固定滤波器级中的适当一者(例如,根据各种固定滤波器级的相对分离性能)。此结构揭示于(例如)于2008年12月12日申请的题为“用于基于多麦克风的语音加强的系统、方法及设备(SYSTEMS, METHODS, AND APPARATUS FOR MULT 1-MICROPHONE BASEDSPEECH ENHANCEMENT)”的第12/334,246号美国专利申请案(代理人案号080426)中。空间选择性处理滤波器SSlO可经配置以在时域中处理所感测音频信号SlO且产生源信号S20及噪声参考S30作为时域信号。或者,SSP滤波器SSlO可经配置以在频域(或另一变换域)中接收所感测音频信号SlO或将所感测音频信号SlO转换到此域,且在所述域中处理所感测音频信号S10。可能需要在SSP滤波器SSlO或SS20后跟着噪声减少级,所述噪声减少级经配置以应用噪声参考S30以进一步减少源信号S20中的噪声。图8B展示设备AlOO的实施方案A130的框图,实施方案A130包括此噪声减少级NRlO。噪声减少级NRlO可实施为维纳滤波器(Wiener filter),其滤波系数值是基于来自源信号S20及噪声参考S30的信号及噪声功率信息。在此情况下,噪声减少级NRlO可经配置以基于来自噪声参考S30的信息来估计噪声频谱。或者,噪声减少级NRlO可经实施以基于噪声参考S30的频谱来对源信号S20执行频谱相减(spectral substraction)操作。或者,噪声减少级NRlO可实施为卡尔曼滤波器,其噪声协方差是基于来自噪声参考S30的信息。噪声减少级NRlO可经配置以在频域(或另一变换域)中处理源信号S20及噪声参考S30。图9A展示设备A130的实施方案A132的框图,实施方案A132包括噪声减少级NRlO的此实施方案NR20。设备A132还包括变换模块TR10,其经配置以将源信号S20及噪声参考S30变换到变换域中。在典型实例中,变换模块TRlO经配置以对源信号S20及噪声参考S30中的每一者执行快速傅立叶变换(FFT)(例如,128点、256点或512点FFT)以产生相应频域信号。图9B展示设备A132的实施方案A134的框图,实施方案A134还包括逆变换模块TR20,逆变换模块TR20经布置以将噪声减少级NR20的输出变换到时域(例如,通过对噪声减少级NR20的输出执行逆FFT)。噪声减少级NR20可经配置以通过根据噪声参考S30的对应频段(bin)的值来对源信号S20的频域频段进行加权来计算噪声减少的语音信号S45。在此情况下,噪声减少级NR20可经配置以根据例如Bi=WiAi的表达式来产生噪声减少的语音信号S45,其中Bi指示噪声减少的语音信号S45的第i个频段,Ai指示源信号S20的第i个频段,且Wi指示帧的权重向量的第i个元素。每一频段可包括对应频域信号的仅一个值,或噪声减少级NR20可经配置以根据所要子带划分方案来将每一频域信号的所述值分组成多个频段(例如,如在下文参考频段化(binning)模块SG30所描述)。噪声减少级NR20的此实施方案可经配置以计算权重Wi,使得所述权重对于噪声参考S30具有低值的频段来说为较高的(例如,较接近于一)且对于噪声参考S30具有高值的频段来说为较低的(例如,较接近于零)。噪声减少级NR20的一个此实例经配置以通过根据一表达式来计算权重Wi中的每一者来阻断源信号S20的频段或使其通过,所述表达式例如在频段Ni中的值的总和(或者,平均值)小于(或者,不大于)阈值Ti时为Wi=I且否则为Wi=O。在此实例中,Ni指示噪声参考S30的第i个频段。可能需要配置噪声减少级NR20的此实施方案,使得阈值Ti彼此相等,或替代地,使得阈值Ti中的至少两者彼此不同。在另一实例中,噪声减少级NR20经配置以通过在频域中从源信号S20中减去噪声参考S30(即,通过从源信号S20的频谱中减去噪声`参考S30的频谱)来计算噪声减少的语音信号S45。如下文更详细地描述,加强器ENlO可经配置以在频域或另一变换域中对一个或一个以上信号执行操作。图1OA展示设备AlOO的实施方案A140的框图,实施方案A140包括噪声减少级NR20的例子。在此实例中,加强器ENlO经布置以将噪声减少的语音信号S45作为语音信号S40来接收,且加强器ENlO还经布置以将噪声参考S30及噪声减少的语音信号S45作为变换域信号来接收。设备A140还包括逆变换模块TR20的例子,其经布置以将经处理语音信号S50从变换域变换到时域。明确地提到,对于语音信号S40具有高取样速率(例如,44.1kHz或高于十千赫的另一取样速率)的情况,可能需要加强器ENlO通过在时域中处理信号S40来产生对应经处理语音信号S50。举例来说,可能需要避免对此信号执行变换操作的计算代价。从媒体文件或文件流再生的信号可具有此取样速率。图1OB展示设备A140的实施方案A150的框图。设备A150包括加强器ENlO的例子ENlOa,其经配置以在变换域中处理噪声参考S30及噪声减少的语音信号S45(例如,如上文参考设备A140所描述)以产生第一经处理语音信号S50a。设备A150还包括加强器ENlO的例子ENlOb,其经配置以在时域中处理噪声参考S30及语音信号S40 (例如,远端或其它再生信号)以产生第二经处理语音信号S50b。在经配置以执行方向性处理操作的替代方案中,或除了经配置以执行方向性处理操作外,SSP滤波器SSlO可经配置以执行距离处理操作。图1lA及图1lB分别展示SSP滤波器SSlO的实施方案SSllO及SS120的框图,所述实施方案包括经配置以执行此操作的距离处理模块DS10。距离处理模块DSlO经配置以产生(作为距离处理操作的结果)距离指示信号DI10,所述信号指示多通道感测音频信号SlO的分量的源相对于麦克风阵列的距离。距离处理模块DSlO通常经配置以产生距离指示信号DIlO作为两个状态分别指示近场源及远场源的二元值指示信号,但产生连续及/或多值信号的配置也是可能的。在一个实例中,距离处理模块DSlO经配置,使得距离指示信号DIlO的状态是基于麦克风信号的功率梯度之间的类似程度。距离处理模块DSlO的此实施方案可经配置以根据(A)麦克风信号的功率梯度之间的差异与(B)阈值之间的关系来产生距离指示信号DIlOo 一种此关系可表达为:
权利要求
1.一种方法,所述方法包含在经配置以处理音频信号的装置内执行以下动作中的每一者: 在空间选择性处理过滤器内对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考;以及 在第一频谱对比加强器内对远端语音信号执行第一频谱对比加强操作以产生第一经处理语音信号。
2.根据权利要求1所述的处理所述远端语音信号的方法,包括对所述装置用无线方式接收到的信号进行解码以获得经解码语音信号,其中所述远端语音信号是基于来自所述经解码语首彳目号的彳目息。
3.根据权利要求1所述的方法,其中所述方法包括: 使用回音消除器来从所述多通道所感测音频信号中消除回音;以及 使用所述第一经处理语音信号来训练所述回音消除器。
4.根据权利要求1所述的方法,其中所述方法包括: 基于来自所述噪声参考的信息,对所述源信号执行噪声减少操作以获得所述远端语音信号;以及 基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作,其中产生所述第一经处理语音信号是基于所述话音活动检测操作的结果。
5.根据权利要求1所述的方法,其中所述执行空间选择性处理操作包括确定在多个不同频率中的每一者下所述多通道所感测音频信号的通道的相位角之间的关系。
6.根据权利要求1所述的方法,其中所述执行第一频谱对比加强操作包括: 基于来自所述噪声参考的信息来计算第一多个子带因子; 基于来自所述远端语音信号的信息来计算第二多个子带因子; 通过将所述第二多个子带因子应用到所述远端语音信号来产生第一经对比加强信号;以及 通过组合所述第一多个子带因子和所述第一经对比加强信号来生成所述第一经处理语音信号。
7.根据权利要求1所述的方法,其中所述执行空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中,并且其中所述多通道所感测音频信号包括近端语音信号。
8.根据权利要求1所述的方法,进一步包括在第二频谱对比加强器内对近端语音信号执行第二频谱对比加强操作以生成第二经处理语音信号。
9.根据权利要求8所述的方法,其中所述执行第二频谱对比加强操作包括: 基于来自所述噪声参考的信息来计算第三多个子带因子; 基于来自所述近端语音信号的信息来计算第四多个子带因子; 通过将所述第三多个子带因子应用到所述近端语音信号来产生第二经对比加强信号;以及 通过组合所述第三多个子带因子和所述第二经对比加强信号来生成第二经处理语音信号。
10.根据权利要求9所述的方法,其中所述生成第二经处理语音信号包括使用滤波器级的级联来对所述近端语音信号进行滤波。
11.一种设备,其包括: 用于对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的装置;以及 用于在第一频谱对比加强器内对远端语音信号和所述噪音参考执行第一频谱对比加强操作以产生第一经处理语音信号的装置。
12.根据权利要求11所述的设备,包括用于对所述设备用无线方式接收到的信号进行解码以获得经解码语音信号的装置,其中所述远端语音信号是基于来自所述经解码语音信号的信息。
13.根据权利要求11所述的设备,其中所述设备包括用于从所述多通道所感测音频信号中消除回音的装置,并且其中所述用于消除回音的装置经配置和设置以被所述第一经处理语音信号训练。
14.根据权利要求11所述的设备,其中所述设备包括: 用于基于来自所述噪声参考的信息对所述源信号执行噪声减少操作以获得所述远端语音信号的装置;以及 用于基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作的装置, 其中所述用于产生第一经处 理语音信号的装置经配置以基于所述话音活动检测操作的结果来产生所述第一经处理语音信号。
15.根据权利要求11所述的设备,其中用于执行第一频谱对比加强操作的装置包括: 用于基于来自所述噪声参考的信息来计算第一多个子带因子的装置; 用于基于来自所述远端语音信号的信息来计算第二多个子带因子的装置; 用于通过将所述第二多个子带因子应用到所述远端语音信号来产生第一经对比加强信号的装置;以及 用于通过用于组合所述第一多个子带因子和所述第一经对比加强信号的装置来生成第一经处理语音信号的装置。
16.根据权利要求11所述的设备,其中所述用于执行空间选择性处理操作的装置包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中,并且其中所述多通道所感测音频信号包括近端语音信号。
17.根据权利要求11所述的设备,进一步包括用于在第二频谱对比加强器内对近端语音信号和所述噪音参考执行第二频谱对比加强操作以生成第二经处理语音信号的装置。
18.根据权利要求17所述的设备,其中所述用于执行第二频谱对比加强操作的装置包括: 用于基于来自所述噪声参考的信息来计算第三多个子带因子的装置; 用于基于来自所述近端语音信号的信息来计算第四多个子带因子的装置; 用于通过将所述第四多个子带因子应用到所述近端语音信号来产生第二经对比加强信号的装置;以及 用于通过用于组合所述第三多个子带因子和所述第二经对比加强信号的装置来生成第二经处理语音信号的装置。
19.根据权利要求18所述的设备,其中所述用于生成第二经处理语音信号的装置包括经设置以对所述近端语音信号进行滤波的滤波器级的级联。
20.—种设备,包括: 空间选择性处理滤波器,其经配置以对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考;以及 第一频谱对比加强器,其耦合到所述空间选择性处理滤波器、经配置以对远端语音信号和所述噪音参考执行频谱对比加强操作以产生第一经处理语音信号。
21.根据权利要求20所述的设备,其中所述设备包括解码器,所述解码器经配置以对所述设备用无线方式接收到的信号进行解码以获得经解码语音信号,并且 其中所述远端语音信号是基于来自所述经解码语音信号的信息。
22.根据权利要求20所述的设备,其中所述第一频谱对比加强器包括回音消除器,所述回音消除器经配置以从所述多通道所感测音频信号中消除回音;并且 其中所述回音消除器经配置和设置以被所述第一经处理语音信号训练。
23.根据权利要求20所述的设备,其中所述设备包括: 噪音减小级,其经配置以基于来自所述噪声参考的信息来对所述源信号执行噪声减少操作以获得所述远端语音信号;以及 话音活动检测器,其经配置以基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作, 其中所述第一频谱对比加强器经配置以基于所述话音活动检测操作的结果来产生所述第一经处理语音信号。
24.根据权利要求20所述的设备,其中所述第一频谱对比加强器包括: 第一子带因子计算器,其经配置以基于来自噪声参考的信息计算第一多个子带因子; 第二子带因子计算器,其经配置以基于来自远端语音信号的信息计算第二多个子带因子; 控制元件,其经配置以基于将所述第二多个子带因子应用到所述远端语音信号来产生第一经对比加强信号;以及 混合器,其经配置以组合所述第一多个子带因子和所述第一经对比加强信号。
25.根据权利要求20所述的设备,其中所述空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中,并且其中所述多通道所感测音频信号包括近端语音信号。
26.根据权利要求20所述的设备,进一步包括耦合到空间选择性处理滤波器的第二频谱对比加强器,其经配置以对近端语音信号执行频谱对比加强操作以产生第二经处理语音信号。
27.根据权利要求20所述的设备,其中所述第二频谱对比加强器包括: 第三子带因子计算器,其经配置以基于来自所述噪声参考的信息来计算第三多个子带因子; 第四子带因子计算器,其经配置以基于来自所述远端语音信号的信息来计算第四多个子带因子; 控制元件,其经配置以基于将所述第二多个子带因子应用到所述远端语音信号来产生第二经对比加强信号;以及 混合器,其经配置以组合所述第三多个子带因子和所述第二经对比加强信号。
28.一种非易失性计算机可读媒体,包括在由至少一个处理器执行时使所述至少一个处理器执行一方法的指令,所述指令包含: 在由处理器执行时使所述处理器对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的指令;以及 在由处理器执行时使所述处理器在第一频谱对比加强器内对语音信号执行第一频谱对比加强操作以产生第一经处理语音信号的指令,其中所述语音信号包括远端语音信号。
29.根据权利要求28所述的非易失性计算机可读媒体,其中所述媒体包括在由处理器执行时使所述处理器对包括所述媒体的装置用无线方式接收到的信号进行解码以获得经解码语音信号的指令,其中远端语音信号是基于来自所述经解码语音信号的信息。
30.根据权利要求28所述的非易失性计算机可读媒体,其中所述媒体包括: 在由处理器执行时使所述处理器从所述多通道所感测音频信号中消除回音的指令;并且 其中所述在由处理器执行时使所述处理器消除回音的指令经配置和设置以被所述第一经处理语音信号训练。
31.根据权利要求28所述的非易失性计算机可读媒体,其中所述媒体包括: 在由处理器执行时使所述处理器基于来自所述噪声参考的信息,对所述源信号执行噪声减少操作以获得所述远端 语音信号的指令;以及 在由处理器执行时使所述处理器基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作的指令, 其中所述在由处理器执行时使所述处理器产生第一经处理语音信号的指令经配置以基于所述话音活动检测操作的结果来产生所述第一经处理语音信号。
32.—种非易失性计算机可读媒体,包括在由至少一个处理器执行时使所述至少一个处理器执行第一频谱对比加强操作的指令,所述指令包括: 在由处理器执行时使所述处理器基于来自所述噪声参考的信息来计算第一多个子带因子的指令; 在由处理器执行时使所述处理器基于来自远端语音信号的信息来计算第二多个子带因子的指令; 在由处理器执行时使所述处理器通过将所述第二多个子带因子应用到所述远端语音信号来产生经对比加强信号的指令;以及 在由处理器执行时使所述处理器组合所述第一多个子带因子和所述第一经对比加强信号的指令。
33.根据权利要求28所述的非易失性计算机可读媒体,其中所述在由处理器执行时使所述处理器执行空间选择性处理操作的指令包括在由处理器执行时使所述处理器将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中的指令,并且其中所述多通道所感测音频信号包括近端语音信号。
34.根据权利要求28所述的非易失性计算机可读媒体,进一步包括在第二频谱对比加强器内对近端语音信号执行第二频谱对比加强操作以生成第二经处理语音信号。
35.根据权利要求34所述的非易失性计算机可读媒体,包括在由至少一个处理器执行时使所述至少一个处理器执行第二频谱对比加强操作的指令,所述指令包括: 在由处理器执行时使所述处理器基于来自所述噪声参考的信息来计算第三多个子带因子的指令; 在由处理器执行时使所述处理器基于来自所述近端语音信号的信息来计算第四多个子带因子的指令; 在由处理器执行时使所述处理器通过将所述第四多个子带因子应用到所述近端语音信号来产生经对比加强信号的指令;以及 在由处理器执行时使所述处理器组合所述第三多个子带因子和所述第二经对比加强信号的指 令。
全文摘要
本申请涉及用于频谱对比加强的系统、方法、设备及计算机程序产品。本发明揭示用于基于来自由空间选择性处理滤波器从多通道所感测音频信号导出的噪声参考的信息对语音信号进行的频谱对比加强的系统、方法及设备。
文档编号G10L21/0272GK103247295SQ20131021695
公开日2013年8月14日 申请日期2009年5月29日 优先权日2008年5月29日
发明者杰里米·托曼, 林鸿春, 埃里克·维塞 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1