噪声抑制系统和方法

文档序号:2820375阅读:812来源:国知局
专利名称:噪声抑制系统和方法
技术领域
本发明涉及语音处理。具体而言,本发明涉及用于语音处理的噪声抑制系统和方法。
背景技术
利用数字技术传送语音正变得普遍起来,特别是在蜂窝电话和个人通信系统(PCS)应用中。这产生了改进语音处理技术的兴趣。一个正在改进的领域是噪声抑制技术。
语音通信系统中的噪声抑制一般通过从所需语音中滤除环境背景噪声改进所需音频信号的总体质量。在环境背景噪声异常高的环境下(例如飞机、运动的交通工具或嘈杂的工厂)这种语音增强技术特别需要。
有一种噪声抑制技术是谱减除或谱增益修正技术。利用这种方法,输入的音频信号被划分为频率信道,并且特定的频率信道按照其噪声能量衰减。每种频率信道的背景噪声估值被用来产生信道内语音的信噪比(SNR),并且SNR被用来计算每个信道的增益因子。随后增益因子确定特定信道衰减。衰减的信道被重新组合以产生噪声抑制的输出信号。
在涉及较高背景噪声环境的特定应用中,大多数噪声抑制技术在性能上受到明显的限制。这种应用的一个例子是蜂窝移动通信系统的车载扬声电话选项。该扬声电话选项为车辆司机提供免提操作。免提耳机一般离用户很远(例如安装在头盔上)。由于道路和刮风引起的噪声,距离较远的耳机向陆基方传送的信号的SNR较差。虽然在陆基端接收的语音通常是清楚的,但是连续处于这种背景噪声常常会增加听者的疲劳。
对于工作正常的噪声抑制系统,重要是精确确定语音的SNR。但是由于当前所用噪声检测器的局限,难以精确确定语音信号的SNR。谱减除技术在语音不出现时更新背景噪声估值。当语音不出现时,将测得的谱能量归因于噪声,并且根据测得的谱能量更新噪声估值。因此,为了获得精确的噪声能量估值以计算SNR,区分语音存在周期与语音不存在期间很重要。
一种示意性的语音检测技术采用语音度量计算器完成噪声更新判定。语音度量是对信道能量总体语音类特性的量度。首先,原始的SNR估值被用来建立语音度量表索引以获得每个信道的语音度量值。对单个信道语音度量值求和以产生能量参数,它与背景噪声更新阈值进行比较。如果语音度量之和等于或大于阈值,则信号被称为包含语音。如果语音度量之和小于阈值,输入帧被视为噪声,并且完成背景噪声更新。但是在高背景噪声、突发性背景噪声或逐渐增大的噪声源的情况下,SNR测量将很大,导致较高的语音度量,从而阻止了噪声估值的更新。
对语音度量计算器技术的进一步改进是测量信道能量偏差。该方法假定噪声在时间上具有恒定的谱能量,而语音在时间上具有变化的谱能量。因此对信道能量在时间上积分,并且如果有较大的信道能量偏差则检测出语音,而如果只有较小的信道能量偏差则检测出噪声。测量信道能量偏差的语音检测器将检测出噪声突发性的增大。但是当输入语音信号能量恒定时信道能量偏差方法提供了不精确的结果。而且对于噪声源逐渐增大的情况,输入能量的变化将导致能量偏差较大,即使需要更新也会阻止噪声估值更新。
除了精确的语音检测器以外,语音抑制系统必需适当地调整信道增益。应该调整信道增益从而在不牺牲语音质量的前提下抑制噪声。信道增益调整的其中一个方法是将增益作为语音信号的总噪声估值和SNR的函数计算。一般情况下,总噪声估值的增加导致给定SNR增益因子的降低。降低的增益因子表明衰减因子较大。该技术施加最小的增益值以防止在总噪声估值非常大时信道增益过度衰减。通过利用硬嵌位的最小增益值,在噪声抑制与语音质量之间找到了折衷。当嵌位较低时,噪声抑制得到了改进但是语音质量变差。当嵌位较高时,噪声抑制变差但是语音质量得到改进。
为了提供改进的噪声抑制系统,需要解决语音检测和信道增益计算的当前技术的限制。这些问题和缺陷由本发明按照下述方式解决。

发明内容
本发明是一种用于语音处理系统的噪声抑制系统和方法。本发明的目标是提供一种确定输入信号中是否存在语音的语音检测器。为了精确确定语音的信噪比(SNR),需要可靠的语音检测器。当判断语音不存在时,认为输入信号完全是噪声信号,并且可以测量噪声能量。随后利用噪声能量确定SNR。本发明另一个目标是提供改进的增益确定单元以抑制噪声。
按照本发明,噪声抑制系统包括确定输入信号帧内语音是否存在的语音检测器。可以根据输入信号中语音的SNR量度判断语音。SNR估值器根据能量估值器产生的信号能量估值和噪声能量估值器产生的噪声能量估值估计SNR。也可以根据输入信号编码速率判断语音。在可变速率通信系统中,每个输入帧根据输入帧的内容被指定一个从预设速率组内选定的编码速率。通常情况下,速率取决于语音活动水平,因此包含语音的帧将被指定较高的速率,而不包含语音的帧将被指定较低的速率。而且可以根据一个或更多的表征输入信号特征的模式测量判断语音。如果判断输入帧内没有语音,则噪声能量估值器更新噪声能量估值。
信道增益估值器确定输入信号帧的增益。如果帧内没有语音,则增益设定为预设的最小值。否则,根据帧的频率内容确定增益。在较佳实施例中,确定每组预定义频率信道的增益因子。对于每个信道,根据信道内语音SNR确定增益。对于每个信道,利用适于信道所在频带特性的函数定义增益。一般而言,对于预定义的频带,将增益设定为随SNR增大而线性增大。此外,每个频带的最小增益可以根据环境特性调整。例如可以实施用户可选的最小增益。根据能量估值器生成的信道能量估值和噪声能量估值器生成的信道噪声能量估值确定信道的SNR。利用增益因子调整不同信道内信号的增益,并且组合增益被调整的信道以产生噪声抑制的输出信号。
附图简要说明通过以下附图对本发明的描述可以进一步理解本发明的特征、目标和优点,附图中相同的部分用相同的标号表示,其中

图1为利用噪声抑制器的通信系统框图;图2为按照本发明的噪声抑制器框图;图3为按照本发明的实现噪声抑制的基于频率的增益因子图;以及图4为图2处理单元实施的噪声抑制中处理步骤实施例的流程图。
实施发明的较佳方式在语音通信系统中,通常利用噪声抑制器抑制不需要的环境背景噪声。大多数噪声抑制器通过估计一个或多个频带内的输入数据信号背景噪声特性并从输入信号中减除估值平均值实现抑制操作。平均背景噪声的估值在没有语音期间更新。噪声抑制器需要精确判断背景噪声水平以进行正确的操作。此外,噪声抑制水平必需根据输入信号的语音和噪声特性正确调整。这些要求由本发明的噪声抑制系统解决。
图1示出了按照本发明的示意性语音处理系统100。系统100包含耳机102、A/D转换器104、语音处理器106、发射机110和天线112。耳机102可以与图1其他单元一起位于蜂窝电话内。耳机102也可以是蜂窝通信系统车载扬声电话选项的免提耳机。车载扬声电话组件有时称为车用套件(carkit)。在耳机102是车用套件一部分的场合,噪声抑制功能特别重要。由于免提耳机一般位于离用户一定距离的位置,所以由于道路和刮风的原因,接收到的声音信号的语音SNR总是较差。
参见图1,耳机102接收包含语音和/或背景噪声的输入音频信号。输入音频信号由耳机102转换为项s(t)表示的电声信号。电声信号可以由模拟-数字转换器104从模拟信号转换为脉冲编码调制(PCM)样本。在示意性实施例中,PCM样本以64kbps由A/D转换器104输出并且如图1所示用信号s(n)表示。数字信号s(n)由包含其他单元一道的噪声抑制器108的语音处理器106接收。噪声抑制器108按照本发明抑制信号s(n)中的噪声。在车用件应用中,噪声抑制器108确定背景环境噪声的水平并调整信号增益以减弱这种环境噪声的影响。除了噪声抑制器108以外,语音处理器106一般还包含语音编码器或声码器(未画出),它通过提取与人声产生模型有关的参数压缩语音。语音处理器106也可以包含回声抵消器(未画出),它消除扬声器(未画出)与耳机102之间反馈引起的声音回波。
在语音处理器106处理之后,信号被提供给发射机110,它根据诸如码分多址(CDMA)、时分多址(TDMA)或频分多址(FDMA)之类的预设格式完成调制。在示意性的实施例中,发射机110根据题为“利用卫星或陆基中继器的扩展频谱多址通信系统”的美国专利No.4,901,307所述的CDMA调制格式调制信号,该专利作为参考文献包含在这里。发射机随后上变频和放大调制信号,并且通过天线112发送调制信号。
应该认识到,噪声抑制器108可以在不同于图1系统100的语音处理系统内实施。例如噪声抑制器108可以在包含语音邮件选项的电子邮件应用中使用。对于这类应用,图1的发射机110和天线112不再需要。相反噪声抑制信号由语音处理器106格式化以通过电子邮件网络传输。
图2示出了噪声抑制器108的实施例。如图2所示,输入的音频信号由预处理器202接收。预处理器202通过预加重和帧生成制作用于噪声抑制的输入信号。预加重通过加强信号高频语音分量对语音信号功率谱密度重新分配。预加重基本上完成的是高通滤波功能,加强了重要的语音分量以提高频域内三个分量的SNR。预处理器202也可以从输入信号样本中产生帧。在较佳实施例中,产生了80样本/帧的10微秒帧。为了使处理精度更高,帧可以包含交叠的样本。通过窗口化和对输入信号的样本加零产生帧。预处理信号被提供给变换单元204。在较佳实施例中,变换单元204对每帧输入信号产生128个点的快速傅立叶变换(FFT)。但是应该理解的是,可以采用其他手段来分析输入信号的频率分量。
变换分量被提供给信道能量估值器206a,它产生N个变换信号信道的每一个的能量估值。对于每个信道,用于更新信道能量的一种技术将当前帧能量对于当前帧信道能量作平滑更新估计如下Eu(t)=αEch+(1-α)Eu(t-1)(1)这里更新的估值Eu(t)被定义为当前信道能量Ech和先前估计信道噪声能量Eu(t-1)的函数。实施例设定α=0.55。
较佳实施例确定低频信道的能量估值和高频信道的能量估值,从而使N=2。低频信道对应250~2250Hz的频率,而高频信道噪音2250~3500Hz的频率。低频信道的当前信道能量可以通过求和对应250~2250Hz的FFT点能量而确定,高频信道的当前信道能量可以通过求和对应2250~3500Hz的FFT点能量确定。
能量估值被提供给语音检测器208,它确定接收的语音信号中是否有语音。语音检测器208的SNR估值器210a接收能量估值。SNR估值器210a根据信道能量估值和信道噪声能量估值确定N个信道的每一个的语音信噪比(SNR)。信道噪声能量估值由噪声能量估值器214a提供,通常对应在不包含语音的先前帧上平滑的估计噪声能量。
语音检测器208还包括速率判断单元212,它从预设的数据率组选择输入信号的数据率。在某些通信系统中,数据被编码使得数据率可以逐帧改变。这称为变速率通信系统。根据可变速率方案编码数据的语音编码器一般称为可变速率声码器。可变速率声码器的实施例参见题为“可变速率声码器”的美国专利No.5,414,796,它作为参考文献包含在本发明中。当没有有用语音发送时利用可变速率通信信道消除了不必要的传输。在声码器内部,根据语音活动性的变化,利用算法产生每帧内信息位数变化的速率。例如带一组四种速率的声码器可以根据讲话者的活动性产生包含16、40、80或171个信息位的20毫秒数据帧。需要通过改变通信传输速率在固定时间内发送每个数据帧。
由于帧速率依赖于时间帧期间的语音活动性,所以速率的确定提供了语音是否存在的信息。在利用变速率的系统中,判断帧是否应该以最高速率编码通常指示了语音的存在,而判断帧是否应该以最低速率编码通常指示了语音的不存在。中等速率一般指示在语音存在与不存在之间的过渡。
速率判断单元212可以用许多速率判断算法实施。在共同待批的题为“用于降低可变速率声编码的方法和装置”的美国专利申请No.08/286,842中揭示了这样一种速率判断算法,它作为参考文献包含在本发明中。该技术提供了称为模式量度的一组速率判断判据。第一种模式量度是来自先前编码帧的目标匹配信噪比(TMSNR),它提供了有关如何更好地通过将合成的语音信号与输入语言信号比较完成编码模型的信息。第二种模式量度是归一化自相关函数(NACF),它测量了语音帧中的周期性。第三种模式量度是零交叉(ZC)参数,它测量了输入语音帧内的高频内容。第四种模式量度为预测增益差分(PGD),它确定编码器是否保持其预测效率。第五种模式量度是能量差分(ED),它将当前帧内的能量与平均帧能量进行比较。利用这些模式量度,速率判断逻辑选择输入帧的编码速率。
应该理解的是,虽然图2示出了速率判断单元212作为噪声抑制器108的单元包含在其中,但是速率信息也可以由语音处理器106另一单元提供给噪声抑制器108(图1)。例如语音处理器106可以包含可变速率声码器(未画出),它判断输入信号每帧的编码速率。代之以噪声抑制器108独立完成速率判断,可以由可变速率声码器向噪声抑制器108提供速率信息。
应该理解的是,代之以利用速率判断来确定语音的存在,语音检测器208可以采用与速率判断有关的模式量度子集。例如速率判断单元212可以由NACF单元代替(未画出),它如上所述测量了语音帧内的周期性。NACF根据下列关系估值NACF=T∈[t1,t2]max{Σn=0N-1e(n).e(n-T)}0.5·Σn=0N-1{e2(n)+e2(n-T)}--(2)]]>这里N为语音帧的样本数,t1和t2为用来估计NACF的T个样本内的边界。NACF根据共振峰残余信号e(n)估计NACF。共振峰频率为语音的共振频率。采用短周期滤波器滤波语音信号以获得共振峰频率。利用短周期滤波器滤波后的残余信号为共振峰残余信号,并包含长周期语音信息,例如信号音调。
由于包含在语音信号内的信号的周期性与不包含在语音信号内的信号的周期性不同,所以NACF模式量度适于确定语音的存在与否。语音信号总是具有周期性分量的特征。当语音不存在时,信号一般不具有周期性分量。因此NACF量度是较好的指示器,可以为语音检测器208所用。
语音检测器208可以采用诸如NACF之类的量度代替无法产生速率判断情况下的速率判断。例如,如果不能从可变速率声码器得到速率判断,并且噪声处理器108不具备产生自身速率判断的处理能力,则诸如NACF之类的模式量度提供了所需的选择。这可能是处理能力受到限制的车用件应用场合。
此外应该理解的是,语音检测器208可以单独根据速率判断、模式量度或SNR估值作出语音是否存在的判断。虽然增加量度应该可改进判断的精度,但是单独一个量度已经可以得到合适的结果。
速率判断(或模式量度)和SNR估值器210a生成的SNR估值被提供给语音判断单元216。语音判断单元216根据其输入产生输入信号中语音是否存在的判断。有关语音是否存在的判断将决定是否应该更新噪声能量估值。噪声能量估值被SNR估值器210a用来确定输入信号中语音的SNR。SNR又被用来计算噪声抑制的输入信号衰减水平。如果判断存在语音,则语音判断单元216打开开关218a,防止噪声能量估值器214a更新噪声能量估值。如果判断不存在语音,则假定输入信号为噪声,并且语音判断单元216关闭开关218a,使噪声能量估值器214a更新噪声估值。虽然图2所示的为开关218a,但是应该理解的是语音判断单元216向噪声能量估值器214a提供的使能信号可以完成同样的功能。
在较佳实施例中,估值的是两个信道的SNR,语音判断单元216根据下列程序产生噪声更新判断<pre listing-type="program-listing"><![CDATA[if(rate==min)if((chsnr1>T1)OR(chsnr2>T2))if(ratecount>T3) update noise estimateelseratecount ++elseupdate noise estimateratecount=0elseratecount=0]]></pre>SNR估值器210a提供的信道SNR估值用chsnr1和chsnr2表示。由速率判断单元212提供的输入信号的速率用rate表示。计数器,即速率计数如下所述根据某些条件跟踪帧数。
语音判断单元216判断语音不存在并判断应该更新噪声估值,如果速率为可变速率中的最小速率,则chsnr1大于阈值T1或chsrr2大于阈值T2,并且速率计数大于阈值T3。如果速率最小,并且chsnr1大于阈值T1或chsnr2大于阈值T2,但是速率计数小于阈值T3,则速率计数增一但是不更新噪声估值。计数器,即速率计数通过对具有最小速率但是至少在一个信道中具有高能量的帧的计数,检测出噪声的突发性增加水平或者逐渐增大的噪声源。提供高SNR信号不包含语音的指示器的计数器被设定为计数直到信号内检测到语音。较佳实施例设定T1=T2=5dB,而T2=100帧,这里是对10毫秒的帧估值。
如果速率最小,则chsnr1小于T1,并且chsnr2小于T2,则语音判断单元216将确定语音不存在并且应该更新噪声估值。此外,速率计数复位为零。
如果速率不是最小,则语音判断单元216将确定帧包含语音并且不更新噪声估值,但是速率计数复位为零。
代之以利用速率量度来判断语音的存在,可以采用诸如NACF之类的模式量度。语音判断单元216可以根据下列程序,利用NACF量度来确定语音的存存和噪声更新判断
<pre listing-type="program-listing"><![CDATA[if(pitchPresent==FALSE)if((chsnr1>TH1)OR(chsnr2>TH2))if(pitchCount>TH3)update noise estimateelsepitchCount ++elseupdate noise estimatepitchCount=0elsepitchCount=0]]></pre>这里pitchPresent定义如下<pre listing-type="program-listing"><![CDATA[if(NACF>TT1)pitchPresent=TRUENACFcount=0elseif(TT2≤NACF≤TT1)if(NACFcount>TT3)pitchPresent=TRUE elsepitchPresent=FALSENACFcount ++elsepitchPresent=FALSENACFcount=0]]></pre>SNR估值器210a提供的信道SNR估值也用chsnr1和chsnr2表示。NACF单元(未画出)产生如上定义指示音调是否存在的量度pitchPresent。计数器,即pitchCount如下所述根据某些条件跟踪帧数。
量度pitchPresent确定如果NACF大于阈值TT1则存在音调。如果NACF在大于阈值TT3的若干帧数的中间范围内(TT2≤NACF≤TT1),则也确定存在音调。计数器,即NACFcount跟踪TT2≤NACF≤TT1的帧数。在较佳实施例中,TT1=0.6,TT2=0.4,并且TT3=8帧,这里估值是对10毫秒的帧。
语音判断单元216判断语音不存在并且应该更新噪声估值,如果pitchPresent量度指示音调不存在(pitchPresent=False),则chsnr1大于阈值TH1或chsnr2大于阈值TH2,并且pitchCount大于阈值TH3。如果pitchPresent=False,并且chsnr1大于TH1或chsnr2大于TH2,但是pitchPresent小于TH3,则pitchPresent增一但是不更新噪声估值。计数器,即pitchCount用来检测噪声的突发性增加水平或者逐渐增大的噪声源。较佳实施例设定T1=T2=5dB,而T2=100帧,这里的估值是10毫秒的帧。
如果pitchPresent指示不存在音调,并且chsnr1小于TH1和chsnr2小于TH2,则语音判断单元216将确定语音不存在和应该更新噪声估值。此外,pitchCount复位为零。
如果pitchPresent指示存在音调速率(pitchPresent=TRUE),则语音判断单元216将确定帧包含语音并且不更新噪声估值,但是pitchCount复位为零。
在判断不存在语音的基础上,关闭开关218a,使噪声能量估值器214a更新噪声估值。噪声能量估值器214a一般对输入信号N个信道的每一个产生噪声能量估值。由于不存在语音,所以假定能量都是由噪声贡献的。对于每个信道,噪声能量更新被估计为当前信道能量对于不包含语音的先前帧信道能量的平滑。例如可以根据下述关系获得更新估值Eu(t)=βEch+(1-β)Eu(t-1)(3)这里更新的估值Eu(t)被定义为当前信道能量Ech和先前估计信道噪声能量Eu(t-1)的函数。实施例设定β=0.1。更新的信道噪声能量估值被提供给SNR估值器210a。这些信道噪声能量估值将被用来获得输入信号下一帧的信道SNR估值更新。
有关是否存在语音的判断也被提供给信道增益估值器220。信道增益估值器220确定输入信号帧的增益和噪声抑制水平。如果语音判断单元216已经判断语音不存在,则帧增益设定为预设的最小增益水平。否则,增益被确定为频率的函数。在较佳实施例中,根据图3的曲线计算增益。虽然图3为曲线形式,但是应该理解的是图3所示函数可以信道增益估值器220内查询表的形式实施。
由图3可见,本发明的实施例为L个频带的每一个定义了各自的增益曲线。虽然L可以是任何大于等于1的数,但是在图3中为3个频带(L=3)。因此低频带信道的增益因子可以利用低频带曲线确定,中频带信道的增益因子可以利用中频带曲线确定,而高频带信道的增益因子可以利用高频带曲线确定。
虽然可以只利用输入信号的一条增益曲线(L=1)完成噪声抑制,但是利用多个频带可以减小语音质量下降。在环境噪声下(例如道路和刮风情况),噪声信号的能量在低频段较高,并且能量通常随频率增加而减小。
在图3中,斜率和y截距固定的线性方程被用来确定每种频带的增益因子。增益因子的确定可以用下列方程描述gain[low band](dB)=slope1*SNR+lowBandYintercept;(4)gain[mid band](dB)=slope2*SNR+midBandYintercept;(5)gain[high band](dB)=slope3*SNR+highBandYintercept. (6)较佳实施例将低频指定为125-375赫兹,中频指定为375-2625赫兹,而高频指定为2625-4000赫兹。斜率和截距根据实验确定。虽然每个频带可以采用不同的斜率,但是较佳实施例对每个频带采用同一斜率0.39。而且lowBandYintercept设定为-17dB,midBandYintercept设定为-13dB,而highBandYintercept设定为-13dB。
选项特征将向用户提供包含噪声抑制器以选择所需y截距的装置。因此可以语音质量下降的代价选择较大的噪声抑制(较低的y截距)。y截距可以是噪声抑制器108确定的某些量度的函数的变量。例如当在预定时间间隔内检测到过量噪声能量时可能需要更强的噪声抑制(较低的y截距)。当检测到诸如混串音之类的情况时可能需要较弱的噪声抑制(较高的y截距)。在混串音期间,存在背景讲话者,并且可以保证较低的噪声抑制以防止切断主要的讲话者。另一选项特征将提供可选的增益曲线斜率。而且应该理解的是,除了方程(4)-(6)所述的曲线,也可以有其他更适于确定一定情况下增益因子的曲线。
对于包含语音的每帧,确定输入信号的M个频率信道每一个的增益因子,这里M为被估值的预定信道数。较佳实施例估值16个信道(M=16)。参见图3,利用低频曲线确定具有低频范围内频率分量的信道的增益因子。利用中频曲线确定具有中频范围内频率分量的信道的增益因子。利用高频曲线确定具有高频范围内频率分量的信道的增益因子。
对于每个估值的信道,采用信道SNR,根据合适的曲线得出增益因子。图2所示信道SNR由信道能量估值器206b、噪声能量估值器214b和SNR估值器210b估值。对于每帧输入信号,信道能量估值器206b产生变换后输入信号M个信道每一个的能量估值。信道能量估值可以利用上述方程(1)的关系更新。如果语音判断单元216确定输入信号中没有语音,则开关218b关闭,并且噪声估值器214b更新信道噪声能量的估值。对于M个信道的每一个,更新的噪声能量估值基于信道能量估值器206b确定的信道能量估值。更新的估值可以利用上述方程(3)的关系估值。信道噪声估值被提供给SNR估值器210b。因此SNR估值器210b根据特定语音帧的信道能量估值和噪声能量估值器214b提供的信道噪声能量估值确定每个语音帧的信道SNR估值。
本领域内的技术人员将认识到,信道能量估值器206a、噪声能量估值器214a、开关218a和SNR估值器210a完成的功能分别相似于信道能量估值器206b、噪声能量估值器214b、开关218b和SNR估值器210b完成的功能。因此,虽然在图2中表示为单独的处理单元,信道能量估值器206a和206b可以组合为一个处理单元,噪声能量估值器214a和214b可以组合为一个处理单元,开关218a和218b可以组合为一个单元,而SNR估值器210a和210b可以组合为一个单元。作为组合单元,信道能量估值器将确定用于语音检测的N个信道和用于确定信道增益因子的M个信道的信道能量估值。值得注意的是,可能的情况是N=M。同样,噪声能量估值器和SNR估值器将在N个信道和M个信道上工作。SNR估值器随后向语音判断单元216提供N个SNR估值,并且向信道增益估值器220提供M个SNR估值。
信道增益因子由信道增益估值器220提供给增益调整器224。增益调整器224还从变换单元204接收FFT变换的输入信号。变换信号的增益按照信道增益因子作适当调整。例如在上述实施例中(其中M=16),根据合适的信道增益因子调整属于16个信道某一个的变换(FFT)点。
增益调整器224产生的增益调整信号随后被提供给逆变换单元226,在较佳实施例中,它产生信号的逆快速傅立叶变换(IFFT)。逆变换信号被提供给后处理单元228。如果输入帧已经与交叠样本一起形成,则后处理器单元228调整交叠的输出信号。如果信号经历过预加重,则后处理单元228还完成去加重。去加重使预加重期间加强的频率分离衰减。通过减少待处理频率分量外部的噪声分量,预加重/去加重过程有效地进行了噪声抑制。
应该理解的是,图2所示噪声抑制器的各种处理块可以数字信号处理器(DSP)或专用集成电路(ASIC)方式实现。本发明功能性的描述将使普通技术人员无需过度的实验就能以DSP或ASIC方式实施本发明。
参见图4的流程图,它示出了涉及图2和3所述处理的一些步骤。虽然示出的步骤是顺序的,但是本领域内技术人员将会认识到某些步骤的顺序是可交换的。
过程从步骤402开始。在步骤404,变换单元204将输入的音频信号变换为变换信号,通常为FFT信号。在步骤406,SNR估值器210b根据信道能量估值器206b提供的信道能量估值和噪声能量估值器214b提供的信道噪声能量估值确定输入信号的M个信道的语音SNR。在步骤408,信道增益估值器220根据信道频率确定输入信号的M个信道的增益因子。如果在输入信号帧内没有语音,则信道增益估值器220将增益设定在最小水平。否则根据预定的函数确定M个信道每一个的增益因子。例如参见图3,可以采用斜率和y截距固定的线性方程定义的函数,其中每个线性方程定义了预定频带的增益。在步骤410,增益调整器224利用M个增益因子调整变换信号的M个信道的增益。在步骤412,逆变换单元226逆变换经增益调整的变换信号,产生噪声抑制的音频信号。
在步骤414,SNR估值器210根据信道能量估值器206a提供的信道能量估值和噪声能量估值器214a提供的信道噪声能量估值确定输入信号的N个信道的语音SNR。在步骤416,速率判断单元212通过分析输入信号确定输入信号编码速率。另外,可以确定诸如NACF之类的一个或多个模式量度。在步骤418,语音判断单元216根据SNR估值器210提供的SNR、速率判断单元212提供的速率和/或模式量度确定输入信号中是否存在语音。如果在判断块420判断不存在语音,则假定输入信号完全是噪声,并且由噪声能量估值器214a在步骤422完成噪声估值更新。噪声能量估值器214a根据信道能量估值器206a确定的信道能量更新噪声估值。不管是否检测到语音,程序继续转入下一信号帧的处理。
以上借助实施例描述了本发明。对于本领域内技术人员来说,无需创造性的劳动即可对本发明作出各种修改。因此本发明的范围和精神由后面所附权利要求限定。
权利要求
1.一种用于抑制引起信号背景噪声的噪声抑制器,其特征在于包括信噪比(SNR)估值器,用于产生所述音频信号第一预定义频率信道组的信道SNR估值;增益估值器,用于根据对应的一个所述信道SNR估值器产生每个所述频率信道的增益因子,其中利用将增益因子定义为SNR增函数的增益函数得出所述增益因子;以及增益调整器,用于根据一个所述对应增益因子调整每个所述频率信道的增益水平。
2.如权利要求1所述的噪声抑制器,其特征在于所述增益函数依赖于频率。
3.如权利要求1所述的噪声抑制器,其特征在于所述增益函数以查询表方式实现。
4.如权利要求1所述的噪声抑制器,其特征在于所述增益函数是斜率和y截距固定的线性函数。
5.如权利要求4所述的噪声抑制器,其特征在于所述y截距是用户可选的。
6.如权利要求4所述的噪声抑制器,其特征在于所述y截距根据所述音频信号内噪声的测量特性调整。
7.如权利要求4所述的噪声抑制器,其特征在于所述斜率是用户可选的。
8.如权利要求4所述的噪声抑制器,其特征在于所述斜率根据所述音频信号内噪声的测量特性调整。
9.如权利要求1所述的噪声抑制器,其特征在于进一步包括语音检测器,用于确定所述音频信号内是否存在语音;以及噪音能量估值器,用于在所述语音检测器确定所述音频信号内没有语音时产生每个所述频率信道的更新信道噪声能量估值,所述更新信道噪声能量估值提供给所述SNR估值器以产生所述信道SNR估值。
10.如权利要求9所述的噪声抑制器,其特征在于所述语音检测器包括信噪比(SNR)估值器,用于产生所述音频信号第二预定义频率信道组的信道SNR估值;语音判断单元,用于根据所述第二频率信道组的所述信道SNR估值确定是否存在语音。
11.如权利要求10所述的噪声抑制器,其特征在于所述语音检测器进一步包括速率判断单元,用于确定所述音频信号一组可变速率的编码速率;其中所述语音判断单元根据所述编码速率确定语音的存在。
12.如权利要求10所述的噪声抑制器,其特征在于所述语音检测器进一步包括模式量度单元,用于确定至少一个表征所述音频信号的模式量度;其中所述语音判断单元根据所述至少一个模式量度确定语音的存在。
13.如权利要求12所述的噪声抑制器,其特征在于所述模式量度包括归一化自相关函数(NACF)量度。
14.一种用于抑制音频信号背景噪声的噪声抑制器,其特征在于包括用于确定所述音频信号内是否存在语音的装置;用于产生所述音频信号预定义频率信道组的信道信噪比(SNR)估值的装置;用于如果确定所述音频信号内是否存在语音的装置判断语音存在则确定每个所述频率信道的增益因子的装置,其中为一组频带的每一个定义了增益函数,并且为每个所述频带定义随SNR增大而增大的增益因子,信道增益因子根据范围包含频率信道的频带的增益函数确定;以及用于根据所述对应的信道增益因子调整每个所述频率信道的增益水平的装置。
15.如权利要求14所述的噪声抑制器,其特征在于所述用于确定增益因子的装置如果所述确定语音是否存在的装置确定语音不存在则确定每个所述频率信道的最小增益因子。
16.如权利要求14所述的噪声抑制器,其特征在于所述增益函数以查询表方式实现。
17.如权利要求14所述的噪声抑制器,其特征在于所述增益函数是斜率和y截距固定的线性函数。
18.如权利要求17所述的噪声抑制器,其特征在于每个所述y截距是用户可选的。
19.如权利要求17所述的噪声抑制器,其特征在于每个所述y截距根据所述音频信号内噪声的测量特性调整。
20.如权利要求17所述的噪声抑制器,其特征在于每个所述斜率是用户可选的。
21.如权利要求17所述的噪声抑制器,其特征在于每个所述斜率根据所述音频信号内噪声的测量特性调整。
22.如权利要求14所述的噪声抑制器,其特征在于进一步包括用于在所述确定语音是否存在的装置确定所述音频信号内没有语音时产生每个所述频率信道的更新信道噪声能量估值,所述更新信道噪声能量估值提供给用于产生SNR估值以更新所述信道SNR估值的装置。
23.如权利要求14所述的噪声抑制器,其特征在于所述确定语音是否存在的装置包括用于确定所述音频信号一组编码速率的编码速率的装置;以及用于根据所述编码速率作出语音是否存在的判断的装置。
24.如权利要求23所述的噪声抑制器,其特征在于所述确定语音是否存在的装置进一步包括用于产生所述音频信号第二预定义频率信道组的信道SNR估值的装置;其中所述作出语音是否存在判断的装置进一步根据所述SNR估值作出判断。
25.如权利要求14所述的噪声抑制器,其特征在于所述确定语音是否存在的装置包括用于确定至少一个表征所述音频信号的模式量度的装置;以及根据所述至少一个模式量度确定语音是否存在的判断的装置。
26.如权利要求25所述的噪声抑制器,其特征在于所述确定语音是否存在的装置进一步包括用于产生所述音频信号第二预定义频率信道组的信道SNR估值的装置;其中所述作出语音是否存在判断的装置进一步根据所述SNR估值作出判断。
27.如权利要求25所述的噪声抑制器,其特征在于所述模式量度包括归一化自相关函数(NACF)量度。
28.一种用于抑制音频信号背景噪声的方法,其特征在于包括以下步骤将所述语音信号变换为所述音频信号的频率表示;确定所述音频信号内是否存在语音;产生所述频率表示的预定义频率信道组的信道信噪比(SNR)估值;如果确定所述音频信号内存在语音则确定每个所述频率信道的增益因子,其中为一组频带的每一个定义了增益函数,并且为每个所述频带定义随SNR增大而增大的增益因子,因此对于每个所述频率信道,信道增益因子根据范围包含频率信道的频带的增益函数确定;根据所述对应的信道增益因子调整每个所述频率信道的增益水平;以及逆变换所述增益调整频率表示以产生噪声抑制的音频信号。
29.如权利要求28所述的方法,其特征在于包括以下步骤如果确定语音不存在则确定每个所述频率信道的最小增益因子。
30.如权利要求28所述的方法,其特征在于每个所述增益函数是斜率和y截距固定的线性函数。
31.如权利要求28所述的方法,其特征在于进一步包括以下步骤在所述确定语音是否存在的步骤确定所述音频信号内没有语音时产生每个所述频率信道的更新信道噪声能量估值,所述更新信道噪声能量估值用于产生所述信道SNR估值。
32.如权利要求28所述的方法,其特征在于所述确定语音是否存在的步骤包括产生所述音频信号第二预定义频率信道组的信道SNR估值;根据所述第二组频率信道的所述信道SNR估值判断语音是否存在。
33.如权利要求32所述的方法,其特征在于所述确定语音是否存在的步骤进一步包括确定所述音频信号一组可变编码速率的一个编码速率;以及根据所述编码速率作出语音是否存在的判断。
34.如权利要求32所述的方法,其特征在于所述确定语音是否存在的步骤进一步包括确定至少一个表征所述音频信号的模式量度;以及根据所述至少一个模式量度确定语音是否存在的判断。
35.如权利要求34所述的方法,其特征在于所述模式量度包括归一化自相关函数(NACF)量度。
全文摘要
一种用于语音处理系统(108)的噪声抑制系统和方法。增益估值器(220)确定每个输入信号帧的增益和噪声抑制水平,随后将增益设定为预定的最小值。如果帧内有语音,则调整器(224)确定频率信道预定义组每个信道的增益因子。对于每个信道,增益因子是信道内语音SNR的函数。信道SNR由SNR估值器(210b)根据能量估值器(206b)提供的信道能量估值和噪声能量估值器(214b)提供的信道噪声能量估值产生。噪声能量估值器(214b)更新由语音检测器(208)确定的没有语音的帧期间的估值。
文档编号G10L21/0232GK1312938SQ97182430
公开日2001年9月12日 申请日期1997年9月30日 优先权日1997年9月2日
发明者A·P·毛罗 申请人:夸尔柯姆股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1