混响估计和抑制系统的制作方法

文档序号：2824578阅读：169来源：国知局

专利名称：混响估计和抑制系统的制作方法
技术领域：
本发明涉及信号处理系统，且更特别地涉及一种可估计和抑制混响的系统。
背景技术：
声音易受到噪声的影响，噪声可恶化、遮盖或另外影响声音的清晰度、可理解性、方向性或其它特征。反射的声音是通常的噪声源。在如麦克风的传感器上，反射的声音与原始信号的延时形式一起叠加在源信号上。也被认为是混响的叠加，通常降低了讲话或其它声音的可感知性。
混响可使声音感觉似乎距离远或很小，似乎是从隧道或洞穴被发出，或可能另外地损坏了该声音的质量或清晰度。混响一般在开放和封闭的空间内。汽车、办公室、体育馆、教堂和其它封闭空间可受到混响的似回声效果的影响。混响也可影响靠近墙、建筑物、悬崖或其它结构的开放空间。
一些先有的信号处理系统试图通过盲反卷积(blind deconvolution)来降低混响。盲反卷积试图估计房间、办公室或其它混响信号环境的传递函数。感知的信号被用于一个反向滤波器(inverse filter)以估计原始信号。
盲反卷积试图通过确定的信号环境传递函数，正确地恢复原始信号。该处理是极其复杂的，是高强度的计算技术。同样地，它不能适用于如提供了实时响应的移动电话的一些设备，或不能适用于不能为盲反卷积提供足够的处理资源的一些设备。
这就需要有估计和抑制混响信号分量的一个系统。

发明内容
本发明提供一种信号处理系统，其估计和抑制声环境中产生的非稳态信号中的混响效果。可被处理的信号的示例包括在房间或汽车内的麦克风记录的讲话或音乐。该系统分析输入信号中的频带，以自适应地估计每个频带中的混响衰变速率。每个频带中的混响衰变速率可被认为是分贝(dB)与时间单位的一个线性关系。估计的混响衰变速率被用于确定何时给定的频带被混响信号能量所控制，系统然后可衰减信号的混响部分。
该混响抑制系统包括信号分析逻辑。该信号分析逻辑识别一个或多个频带中的混响特征(如线性衰变)，并且可自适应地估计这些频带中的混响衰变速率。该混响抑制系统还包括衰减逻辑。该衰减逻辑可独立地抑制一个或多个混响频带中的信号内容。本发明可被实现为实时信号处理系统或脱机的系统。
参考附图和详尽的描述之后，对于本领域的技术人员来说，本发明的其它系统、方法、特征和优点将是明显的或变得明显。应指出的是，所有这样另外的系统、方法、特征和优点被包括在本描述内，是在本发明的范围内，并受到下文中权利要求的保护。

依据下文中的描述和附图，本发明可被更充分地被理解。图中的各部分不必要是按比例的，而重点是放在说明本发明的原理上。而且，在这些图中，相同的参考数字在所有不同的视图中表示相对应的部分。
图1是混响估计和抑制系统；图2是混响分析逻辑；图3是频带分析和混响特征比较；图4是频带分析和混响特征比较；图5是频带分析和混响特征比较；图6是混响处理逻辑和输出处理逻辑；图7是混响估计和抑制系统可采取的步骤的流程图；图8是具有预处理和后处理逻辑的混响估计和抑制系统。
具体实施例方式
该混响估计和抑制系统为混响的特征而检查一个非稳态信号(non-stationary signal)。该系统检查一个或多个频带中的信号，自适应地估计每个频带中的混响特征。当混响在一个频带中被检测到时，系统衰变该频带中的信号。本系统可被实现为实时信号处理算法或一个脱机的系统。
在图1中，混响估计和抑制系统100(系统“100”)通过信号输入102而接收一个信号。信号输入102可以是一个麦克风输入信号或表现出声混响效果的其它输入信号。信号输入102被连接到输入处理逻辑104。输入处理逻辑104在信号被混响分析逻辑106分析之前，可执行预处理，如对该信号采样和进行信噪比(SNR)估计。
混响分析逻辑106为混响特征而检查该信号。混响分析逻辑106通过分析输出108可把特征信息传送到其它系统。另外，混响分析逻辑106可提供特征信息到混响处理逻辑110。
混响处理逻辑110抑制信号中的混响。混响处理逻辑110可抑制一个或多个频带中的混响信号内容。在时间的一个既定的时刻，抑制可发生在被混响分析逻辑106识别为包含着混响能量的频带中。输出处理逻辑112然后执行后处理，如混响抑制信号的数模转换和或信号传输。
在图2中，系统100通过信号输入202接收信号。滤波逻辑204把该信号分成一个或多个频带。例如，子带滤波可被使用，并被重叠时间段的窗口FFT、带通滤波器组、多相滤波器组、小波分解或其它子带滤波技术所实现。混响特征可随频率而变化。因而，为混响内容可独立地检查每个频带。在图2中标出了3个频带，如206的带1，208的带2和210的带n。频带的准确数字和配置可取决于系统所期望的应用和执行。
信号被分成混响分析用的线性频带。在讲话处理应用中，信号可被分成所期望的频率范围上的2-16个频带或更多。对电话语音，频率范围大约是250Hz到约3500kHz。系统100也可非线性地把信号分成多个频带。
多个频带可对应于沿着耳的基膜的一个或多个听觉临界频带。听觉临界频带分析可采用非线性频率标度，如BARK标度或等矩形带宽(Equivalent Rectangular Bandwidth)(ERB)标度。临界频带标度可在系统100的电话应用中使用。
频带也可对应于彼此距离上感觉是相等的音高的一个标度。在大约500Hz之上，不断增加的更大的频带产生感觉上相等的音高增量。感觉上相等的音高增量可被建立为Mel频带。当系统100是一个语音识别应用的一部分时，Mel频率标度可被使用。
系统100可为一个或多个的“n”频带206-210提供信噪比(SNR)估计逻辑212。三个频带的SNR估计逻辑被标为214、216和218。可利用如最小统计方法的背景噪声估计技术或其它SNR估计技术而获得SNR估计214-218。
在时间的一个既定时刻，衰变速率检测逻辑220检查每个子带信号，以估计其在既定的分析时间间隔上的当前衰变速率。衰变速率估计可通过把线性斜率对应到一个时间间隔上的每个子带中的能量(以单位dB)。该线性斜率可利用线性回归或其它斜率估计技术而被获得。使用的时间间隔可取决于一些因素，如既定应用中的混响衰变速率的期望范围，信号的平均SNR，或其它因素。大约100ms的一个时间间隔可被用于20-30dB SNR的语音信号，该信号是在具有大约300ms的混响时间(RT60)的一个封闭环境中被记录。分析时间间隔对于不同的频带可不同，时间间隔也可根据如SNR的当前信号特征和估计的混响衰变速率而自适应地变化。一个给定的子带的当前估计的衰变速率可被用于更新该子带的估计的混响衰变速率(以单位dB/s)。在当前衰变速率和信号满足一定条件时，该更新可发生，这些条件比如是SNR超过一个选择的阈值，当前衰变速率是负的，线性回归误差小或其它标准。可利用漏积分器(leaky integrator)(即，一阶IIR滤波器)或一些其它的数据时间平均方法来适应估计的混响衰变速率。漏积分器的适应速率可与频带中信号的衰变的当前速率成比例。一个快速衰变的信号可产生快速适应的混响衰变速率估计。
混响衰变速率检测逻辑220保持多个频带的混响衰变速率的估计。由于环境变化，系统适应该环境，并提供在该环境中期望的混响衰变速率的估计。可替代地，一个或多个频带的期望的混响衰变速率的估计可预先存储在系统100的存储器中。
在每个频带中，混响衰变速率可根据单位为dB/s的近似不变的负斜率而被表示。在时间的既定时刻，以dB为单位的每个频带中的信号能量可被表示为20*log(‘幅度’)，其中‘幅度’可以是频带中主频分量的幅度、频带中频率分量的平均幅度、频带中频率分量的加权平均、或频带中信号的其它测量值。
另外或可替代地，在时间的既定时刻，以dB为单位的每个频带中的信号能量可被表示为10*log(‘能量’)，其中能量可以是频带中的平均能量，频带中的最大能量，或频带中能量的其它测量值。
在图2中，衰变速率检测逻辑220为影响频带的混响特征而检查每个信号频带。衰变速率检测逻辑220可跟踪每个频带中一段时间的单位为dB表示的信号强度。在206的频带1中，信号具有近似是线性的信号衰变速率222。在208的频带2中，信号水平是近似为常量224。在210的频带3中，信号具有一个信号增加速率226。
比较逻辑228可执行信号特征与已知的或预期的混响特征的比较。以dB比时间表示的声混响常常是线性或近似线性地衰变。比较逻辑228可确定一个频带中的信号衰变是否是线性或近似线性。对于这些信号来说，比较逻辑228也可比较频带中的衰变速率与预期的混响衰变速率，如那些被标为230、232和234的衰变速率。任何预期的混响衰变速率可利用如上文所描述的时间平均技术而被自适应地估计(即利用漏积分器)，可为一个频带被特别设定，或在多个频带之间共享。
特征逻辑236确定混响是否影响信号。对于每个频带来说，特征逻辑236可独立地确定混响是否存在。特征可以是一个硬件阈值或可采用软件决策逻辑，可选地包括一个既定频带和/或多个频带之间的“混响”与“非混响”决策之间的平滑过渡。确定可以是基于比较逻辑228所执行的比较。
在图3中，信号衰变速率222是近似线性的。图3还包含两个其它的衰变速率图衰变下限230和衰变上限302。这些衰变速率限制可被用于确定该子带中的信号是否是当前由混响能量所控制。如果当前信号衰变速率222是接近衰变下限230，则它可被识别为“混响”。可采用其它测试。但是，如果当前信号衰变速率222接近或大于衰变上限302，则它可被识别为“非混响”。在一般的条件下，一个声信号的衰变不会快于混响衰变速率。因此，衰变下限230可对应于该频带的预期混响衰变速率(例如，如衰变速率检测逻辑220所确定的)。衰变上限302可被设定为衰变下限230加上一个常数K-1(单位为dB/s)。该常数K-1可取决于信号特征，如平均SNR、预期的混响衰变速率等等。另外，K-1可取决于整个系统所希望的混响抑制量(因此，高于K-1的值可导致更积极的混响抑制)。由于声学系统表现出随时间降低的一个混响衰变曲线，衰变下限230和衰变上限302都具有小于0的一个斜率。
在图3中，206的频带1中的信号的衰变斜率是介于衰变下限230和衰变上限302之间，并接近衰变下限230。因此，特征逻辑236确定206的频带1当前是一个混响频带。
在图4中，频带2具有形成衰变下限的一个预期混响衰变速率232。衰变上限304也以类似于图3描述的方式被建立。在图4表示的示例中，信号衰变速率224近似是不变的。特征逻辑236确定208的频带2当前是一个非混响频带。
在图5中，210的频带n具有近似是线性的信号增加速率226。增加速率226的正斜率意味着混响能量在该频带中不是主要的。特征逻辑236确定210的频带n当前是一个非混响频带。
利用在衰变速率检测逻辑220中描述的自适应的估计方法，可建立预期的混响衰变速率。也可基于在特定环境中取得的测量而建立衰变速率。衰变速率可估计在汽车或其它车辆中的一个或多个频带的混响时间。相似地，可根据办公室，较开放的室外或封闭的空间，或其它环境中的混响时间的测量而建立衰变速率。
在图6中，混响处理逻辑110衰减减混响频带。混响处理逻辑110可包括增益控制逻辑，一个增益常数和每个频带的衰减逻辑。图示了206的频带1，208的频带2和210的频带n的增益控制逻辑602、604和606，增益参数608、610和612，衰减逻辑614、616和618。对于每个频带，衰减逻辑614、616和618乘以用幅度的单位表示的当前子带信号的增益参数608、610和612。
响应每个频带是否是一个混响频带的确定，图1的混响处理逻辑110可运行。当混响频带被检测到时，混响处理逻辑110可全部地衰减或降低该频带中的信号分量。在非混响频带中，混响处理逻辑110可通过未改变的频带中的信号分量。
混响处理逻辑110可衰减一个频带中的信号分量，这是与其衰变速率有关的。由于衰变速率接近频带中的混响衰变的预期速率，可增加衰减。当衰变速率与频带中的混响衰变的预期速率匹配时，衰变可以是最大的。
衰减也可受到信噪比(SNR)的影响。在低SNR的时段，一些或全部的混响可被背景噪声遮盖。噪声可抑制混响能量的精确检测。当SNR低时，允许的最大衰减可以也是低的。当SNR高时，混响可被更准确地检测。在高SNR时，允许的最大衰减可增加以积极抑制混响信号内容。
混响处理逻辑110可使用一个或多个频带的SNR估计214。该SNR估计可从SNR估计逻辑212获得，如图2所示。
作为对206的频带1是混响频带的响应，增益控制逻辑602可调节增益参数608。增益控制逻辑602可将增益参数608设定为1(即，无信号衰减)与等于或大于0的下限之间的一个值。该下限可对应如上所述的一个既定子带的当前最大的允许的信号衰减。实际上，在时间的既定时刻，增益参数608的值不仅基于特征结果236，而且基于信号SNR、信号衰变速率、先前的增益参数值或其它参数。衰减逻辑614可降低或消除206的频带1中每个频率的频率分量，可消除206的频带1中阈值之上的频率分量，或另外可衰减206的频带1。
作为对208的频带2是一个非混响频带的确定的响应，增益控制逻辑604可调节增益参数610。增益参数610可具有接近或等于1的一个值，并且可选择地通过208的带2的一个或多个频率分量。作为对210的频带n是一个非混响频带的确定的响应，增益控制逻辑606也可将增益参数612设定为接近或等于1的一个值，以通过210的带n的一个或多个信号分量。
一旦被处理，信号然后可通过输出处理逻辑112。输出处理逻辑112可在输出114上输出一个混响抑制信号之前，以某种希望的方式转化该信号。输出处理逻辑112可包括频带再合成处理，如合成滤波器组，IFFT和重叠并相加技术。这些技术可重新组合单个的频率子带信号为一个最终的再合成输出信号114。输出处理逻辑112的配置和执行可基于输入子带滤波204的配置而变化。输出处理逻辑112也可包括数模转换器，或可放大或另外处理混响抑制信号。
图7是分析和/或处理信号以估计和抑制混响的步骤的一个流程图。如图所示，系统100获得当前输入数据包(步骤702)。输入数据包可表示从麦克风记录的，存储在数据文件中的或从另一个声音输入获得的数字音频信号。系统100把输入信号分成根据BARK或ERB标度的频率子带或其它频带(步骤702)。每个子带中的信号的幅度可以分贝dB为单位来确定，系统100可估计一个或多个频带中的SNR(步骤704)。
当SNR为正时(步骤706)，如在讲话的时段，系统100可跟踪一段时间上的信号内容(步骤708)并检查每个频带的混响特征(步骤710)。如果衰变速率(如单位为分贝/秒)近似是线性的，系统100可为该子带自适应一个混响衰变估计(步骤714)。估计的混响衰变速率可用于更新系统100采用的衰变速率限制，以将一个子带在既定的一个时刻识别为“混响”或“非混响”(步骤716)。
当具有正的SNR的一个子带信号随着时间而线性衰变时，系统100可确定线性信号衰变是否在衰变上限和/或下限内(步骤716)。当频带中的信号内容受到混响的影响时，系统100可为该频带设定一个标记，或提供指出该频带包括混响内容的其它信息(步骤718)。当信号内容为非混响时，系统100可为该频带清除该标记，或提供其它信息(步骤720)。
系统100衰减混响信号内容(步骤722)。每个频带可独立于任何其它频带被衰减。衰减在频带之间可发生变化，可全部或部分地衰减频带内的信号。如随后是辅音声的元音声的语音可包括具有增加的能量的上频带和具有降低的能量的下频带。下频带可经过混响，并在不影响传送元音声的上频带的情况下被抑制。
在子带混响抑制之后，系统100可将当前的子带信号重新合成为时域数据(步骤724)。系统100也可继续监测所有或部分的信号持续期间的输入信号(步骤726)。当信号存在时，系统100继续跟踪信号内容并抑制混响。在其操作的任何时间，系统100可设定或改变混响阈值、衰减增益、划分多个频带或其它参数。
在图8中，系统100操作输入处理逻辑104和后处理逻辑802。系统100通过输入源804可接受输入。输入源804可包括如通信接口810的数字信号源，或例如来自麦克风806的模拟信号源。
麦克风806可以是一个全向麦克风，一个定向麦克风，其它类型的麦克风，或多个麦克风的阵列。麦克风806可通过采样系统808被连接到估计和抑制系统100。采样系统808以选择的采样速率可把麦克风806感知的模拟信号转化为数字形式。
采样速率可被选择，以捕捉任何感兴趣的非稳态信号的任何想要的频率内容。对于语音，采样速率可以大约是8kHz或11kHz或更高。对于音乐，采样速率可以大约是22kHz到44kHz。其它的采样速率可用于语音，音乐或其它非稳态信号。
数字信号源可包括一个通信接口810、可实现系统100的系统中的其它电路或逻辑、或其它信号源。系统100可以接受经过或者没有经过附加的预处理的数字信号采样。系统100也可连接到后处理逻辑802。后处理逻辑802可包括一个音频再现系统812，数字和/或模拟数据传输系统814，或其它处理逻辑。
音频再现系统812可包括数模转换器，滤波器，放大器和其它电路或逻辑。音频再现系统812可以是一个语音和/或音乐再现系统。音频再现系统812可以在蜂窝电话，汽车电话，数字媒体播放器/录音机，半导体，立体声系统，便携游戏设备，或其它利用音频再现的设备中实现。
传输系统814可提供网络连接，数字或模拟发射器，或其它传输电路和/或逻辑。传输系统814可传送系统100或其它设备产生的混响抑制信号。在汽车电话中，传输系统814可通过无线连接将来自汽车电话的增强信号传输到基站或其它接收器，这些无线连接如通过ZigBee，Mobile-Fi，Ultrawideband，Wi-Fi，或WiMax格式或网络。
系统100可在硬件，软件或硬件与软件的组合中被实现。该硬件和软件可包括执行存储器上存储的指令的一个数字信号处理器(DSP)。系统100可处理信号的数字样本，或可自己将模拟输入信号数字化，用于混响估计和抑制。使硬件执行混响估计与抑制的指令可被存储在机器可读介质上，如磁盘，闪卡或其它存储器。
尽管本发明的各种实施例已被描述，对普通的专业人士来说显然的是，本发明的范围内有更多的实施例和技术实现。因此，除了所附的权利要求及其同等物，本发明不受限制。
权利要求
1.一种混响抑制系统，包括信号分析逻辑，可被操作以识别信号的第一频带中的第一混响特征；和衰减逻辑，其对所述信号分析逻辑做出响应，并可被操作以衰减所述第一频带中的信号。
2.如权利要求1所述的系统，其中所述第一混响特征是在所述第一频带中的一个近似线性的衰变速率。
3.如权利要求1所述的系统，其中所述第一混响特征是近似满足第一混响衰变速率阈值的所述第一频带中的衰变速率。
4.如权利要求3所述的系统，其中所述第一混响衰变阈值是封闭空间的混响衰变速率阈值。
5.如权利要求3所述的系统，其中所述第一混响衰变阈值是车辆内部的混响衰变速率阈值。
6.如权利要求2所述的系统，其中所述第一混响特征是在所述第一频带中的以分贝比时间表示的近似线性的衰变。
7.如权利要求1所述的系统，其中所述信号分析逻辑还可被操作，以识别第二频带中的第二混响特征；和所述衰减逻辑，也可被操作以响应地衰减所述第二频带中的信号。
8.如权利要求3所述的系统，其中所述信号分析逻辑还可被操作，以识别第二频带中的第二混响特征，该第二混响特征包括近似满足第二混响衰变速率阈值的第二衰变速率；和所述衰减逻辑，也可被操作以响应地衰减所述第二频带中的信号。
9.如权利要求8所述的系统，其中所述第一混响衰变速率阈值和第二混响衰变速率阈值是频带阈值。
10.如权利要求1所述的系统，还包括信噪比逻辑，其中当所述信噪比逻辑确定正的信噪比时，所述分析逻辑识别所述混响特征。
11.如权利要求1所述的系统，还包括自适应滤波器逻辑，其可被操作，以提供在所述第一频带中的预期混响衰变速率的估计。
12.一种抑制混响的方法，包括确定信号被分成多个频带；识别在至少一个频带中存在的混响特征；基于所述混响特征，识别混响频带；和衰减所述混响频带中的信号。
13.如权利要求12所述的方法，其中识别混响特征包括确定信号衰变速率。
14.如权利要求12所述的方法，其中识别混响特征包括确定信号衰变速率是否近似满足混响衰变速率阈值。
15.如权利要求12所述的方法，其中识别混响特征包括确定每个频带中的信号衰变速率；确定每个频带是否是基于其自身的信号衰变速率的混响频带；和衰减每个混响频带。
16.如权利要求12所述的方法，其中识别混响特征包括确定信号衰变速率是否是线性的。
17.如权利要求15所述的方法，其中所述识别还包括确定所述信号衰变速率是否近似满足混响衰变速率阈值。
18.如权利要求14所述的方法，其中所述混响衰变速率阈值是封闭空间混响衰变速率阈值。
19.如权利要求14所述的方法，其中所述第一混响衰变阈值是车辆内部混响衰变速率阈值。
20.一种产品，包括机器可读介质；和存储在所述机器可读介质上的机器可读指令，其包括执行如权利要求12-19所述的方法的处理。
全文摘要
一种信号处理系统检测混响。该系统可抑制混响和提高信号质量。系统可分析输入信号的频带以确定混响特征是否存在。当检测到混响时，系统可衰减混响频带，以降低或消除混响。
文档编号G10L21/00GK1783214SQ200510125838
公开日2006年6月7日申请日期2005年11月30日优先权日2004年12月1日
发明者D·吉泽布雷希特, P·赫瑟林顿申请人:哈曼贝克自动系统-威美科公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.吉泽布雷希特;P.赫瑟林顿
技术所有人：哈曼贝克自动系统-威美科公司
我是此专利的发明人

上一篇：一种基于dsp的语音识别及优化方法
上一篇：用于使用户能够修改音频文件的方法和装置的制作方法