语言活动性检测器的制作方法

文档序号:2819572阅读:212来源:国知局
专利名称:语言活动性检测器的制作方法
语音活动性检测器是一种通过向其提供信号输入以达到检测语音时间段或仅包含噪声的时间段的目的的装置。虽然本发明不局限于此,但这种检测器特别感兴趣的一种应用是在移动无线电电话系统中,在这种移动无线电电话系统中可以利用有关语音存在与否的知识在寂静期间关闭发射机来减小功率消耗和干扰。在这种移动无线电电话系统中,(车载单元的)噪声电平通常是较高的。在无线电系统中的另一种可能的应用是改善无线电频谱的有效利用。


图1表示在国际专利申请WO89/08910中描述的语音活动性检测器。
在噪声的语音信号在输入端1被接收。存储器2中存储有确定噪声频谱的估算或模型的数据;将这一数据与当前信号的频谱进行比较(3)来获得与阈值进行比较(4)的相似性度量。为了跟踪噪声分量的变化,仅当无语音时才根据输入更新噪声模型。并且,还可以调整阈值(适配器6)。
为了保证仅在只存在噪声的期间内进行调整,以免出现因错误判断造成的累积的错误调整的危险,在辅助检测器7的控制下进行调整,该辅助检测器7包括非发声语音检测器(unvoicedspeech detector)8和发声语音检测器(Voiced speech detector)9如果这两个检测器中的任何一个识别了语音,检测器7就认为存在语音,并且禁止主检测器的更新和阈值调整。一般来说,非发声语音检测器8获得信号的一组LPC系数并在连续的帧周期之间比较这些系数的自相关函数,发声语音检测器9检测LPC残留信号的自相关的变化。
这一装置在区分语音期间和只接收有噪声的期间方面非常有效。但是,产生了这样的问题,即信号音(signalling tones)经常被辅助检测器认为只是噪声(即不将它们识别为语音),因此主检测器就当这些信号音为噪声而去适应它们,这些信号音的传输被阻止,或者至少过早地将其加以终止。
这一问题可以通过提供一些分别被调谐到某个特定信号音频率的检音器(tone detector)来克服;但是,不可忽视世界上的不同信号音的多种多样性,因此,为了例如使正在打国际电话的移动电话用户能够可靠地听到“占线”音而不管其来自哪一个国家,就需要大量的不同的检测器。
根据本发明,提供了一种用于检测输入信号中语音的存在的语音活动性检测器,它包括(a)存储输入信号噪声分量的估算值的装置;(b)识别输入信号和被存储的估算值的频谱相似性以便产生一个输出判定信号的装置;(c)更新被存储的估算值的装置;(d)辅助检测器,用于控制更新装置,以便仅当辅助检测器指出在输入信号中无语音时才进行更新;其特征在于,用于计算输入信号的预测增益参数的装置,以及用于在预测增益超过阈值时禁止更新的修正装置。
现在参看附图举例描述本发明的某些实施例,附图中图2是根据本发明一个方面的具有语音活动性检测器的语音编码器的方框图;图3和4用图形表示各种输入信号的预测增益值;图5、6和7是本发明其它实施例的方框图。
在图2中,传统语音编码器100具有语音输入端101,语音信号被模数变换器102以8KHz的频率进行取样和变换为数字形式。开窗口单元(Windowing unit)103将语音样值划分成为(例如)160个样值的帧(即20ms的帧)、并将其乘以一个可减小在帧的开始和结束处的样值的贡献的汉明(Hamming)窗口或其它函数。相关器104接收数字化语音样值并产生每一帧的自相关系数Pi。LPC分析单元105计算具有相应于输入语音信号频谱的频率响应的滤波器(它有时称为综合滤波器)的系数ai,这里,采用例如列文森-德宾(Levinson-Durbin)或肖思(schurr)算法的已知方法。
数字化输入信号还通过被这些系数控制的反滤波器(或分析滤波器)106,以便产生出被长期预测器分析单元107进一步分析的残留信号,该长期预测器分析单元107计算根据其先前值来预测LPC残留信号的最佳延迟以及该预测值的相应增益值。分析单元106还产生第二残留信号(即当前LPC残留信号和被所获得的参数延迟和定标的LPC残留信号之间的差值)。激励单元108通过仅对LTP残留信号进行量化或利用其它普通的方法来获得用以传送给译码器的激励参数。
LPC系数ai、长期预测器延迟d和增益g、以及激励参数e都传送给译码器。
申请人先前的专利申请中的主语音活动性检测器利用平均器110来对自相关系数Ri求平均,该平均器110产生当前系数和被存储在缓冲器111中的先前帧的系数的加权和R′i。另一自相关器112产生用以传送给缓冲器113的LPC系数ai的自相关系数Bi。缓冲器的内容只在被辅助检测器(以下将描述)认为只包含噪声的期间内才被更新,因此缓冲器113的内容B′i代表了输入信号噪声频谱的估算值。乘法/加法单元114产生被如下定义的、输入信号和噪声模型之间频谱相似性的度量MM=B′o+2Σi=1nR′iB′iR′o]]>这里的零下标表示零阶自相关系数,n是语音帧中样值的数目。
度量M在比较器115中与阈值电平进行比较,并在输出端116产生表示语音的存在或不存在的信号。阈值可以根据当前噪声功率电平自适应地进行调整(117)。
由于不能识别语音将导致对具有语音信息的缓冲器的更新和随后的其它识别错误—“锁定”状态,所以在缓冲存储器113中的噪声估算值的更新不被上述检测器的输出端116进行控制。因此更新由辅助检测器200进行控制。为了区分噪声和非发声的语音,这就产生出(201)输入信号的(未平均的)自相关系数Ri和LPC系数的(未缓冲的)自相关系数Bi的乘积和。减法器202将这个和与在缓冲器203中被延迟的先前语音帧的相应的和进行比较。表示输入信号的连续帧之间频谱相似性的这一差值与阈值进行比较(204)从而产生判决信号。
为了识别发声的语音,长期预测器延迟d被音调分析单元205所测量。其输出在“或”门206中与阈值级204的输出合并—即如果单元204或205中的任何一个(或两者)产生表示语音存在的输出,辅助检测器200就认为存在语音。正如在引言中所论述的那样,如果系统传送信号音,则这些信号音必须被识别为语音而不是噪声,而刚刚所述的辅助检测器在这方面并不是非常有效。虽然它识别某些信号音,但另一些信号音(通常是具有相对纯净的频谱内容的信号音)不能被识别。由于在缓冲器113中的噪声估算值此时根据信号音来进行“训练”,所以一旦辅助检测器200已失效,则主检测器也失效。
因此,提供另一辅助检测器来检测信号音。最好注意到人为产生的信号音包含少量的频率分量(它可能是被调制的)这一事实。对于这样的信号,LPC预测器的性能极其优异,利用这一特性来区分基于信号音的信号(包括多信号音信号)和背景或环境噪声信号。
LPC预测增益Gp被定义为一语音帧的输入信号功率与输出信号功率之比,即Gp=Σi=0n-ix2(i)Σi=0n-1y2(i)]]>这里的x是滤波器输入而y是反滤波器输出y(t)=x(t)+Σi=1ny(t-i)ai]]>(这里的m是滤波系数的个数,一般为8或10)。信号x(i)和y(i)可分别从LPC编码器100内的变换器102和滤波器106的输出端获得。这些值被求平方(301,302),预测增益利用按照上述公式计算Gp的算术单元303来获得。其输出被比较器304用来与固定的阈值T作比较,如果增益超过该阈值(通常T=63或18分贝),就认为识别了信号音。对于信号音识别有几种可能的响应(a)利用“或”门303来替换主检测器的输出;(b)利用“或”门206的第三输入来替换辅助检测器;(c)以上两者(如所示)。当然,可以不计算商而将∑x2项与被乘以阈值的∑y2进行比较。图3以分贝为单位表示从背景环境噪声、语音、信号音中的背景噪声中获得的预测增益和信号音本身的频率分布图,图4表示对于不同的UK信号音,即“用户占线”音、拨号音、振铃音、“空号”音、“设备占用”音的预测增益相对于时间的曲线图。实际上,用户占线音、拨号音和“空号”音因确实是(例如来自键盘的)多频音,所以被另一检测器成功地识别。振铃音和“设备占用”音被音调分析单元205识别。
该另一检测器300可被认为是对于某些类型信号音的检测器;或者(在图2的实施例中)它可被看作是检测残留信号Yi为较小的状态,所以长期预测器107(以及由此音调分析205)的操作就不是强有力的。
检测发声的语音的另一种选择是用类似于301、302、303和304的部件来代替音调检测器205,以便产生基于长期预测器分析107的预测增益(并将其与阈值作比较)。
现在参看图5描述对图2装置的另外两种改进。首先,在图2所示的实施例中,所计算的预测增益是语音编码器100的LPC分析单元的预测增益,它一般可以采用第8或者甚至第10阶预测器。但是,应注意到这一分析单元部件的基础是信息音比环境噪声具有更高的预测增益,并且分析单元的阶次越高,则预测器模拟噪声环境的能力就越大,已经得知通过将增益计算限制为第4阶分析,则由一个或两个信号音组成的信息信号给出高的预测增益,同时可以减小环境噪声的预测增益。
这在原理上可以通过与第8阶单元105,106并列地提供第4阶分析单元和滤波器来向辅助检测器输入信号从而得到实现。但是,根据反射系数(有时称为Parcor相关系数)计算预测增益较为简单。在图5中,这些反射系数是由单元400按照已知的方法根据自相关系数Ri进行计算的(虽然根据语音编码器设计的不同,可以利用LPC分析单元105从中间点将它们取出)。预测增益的度量、即预测误差Pe可以如下地根据前4个反射系数Rci进行计算来获得Pe=Πi=14(1-R2ci)]]>这一计算在401中进行。大的预测误差相应于小的预测增益,反之亦然,所以,如果Pe小于阈值Pth,就认为存在信号音。这一比较403代替了图2的比较304。
其次,移动无线电环境中的噪声包含非常强的低频谐振,进行进一步的测试来确定“信号音”是否低于阈频率。阈频率的选择涉及到一定程度的折衷,但由于大多数信号音都高于400Hz,所以建议阈频率为385Hz。
该进一步的测试是确定LPC滤波器的极点频率。为降低分析单元的复杂性,最好用低阶滤波器。还可以进行进一步的LPC分析,但如图5那样通过根据反射系数计算LPC系数就能够容易地进行该进一步的LPC分析。假定只利用单元400的前两个反射系数,则LPC系数ai被单元404按照通常的方式进行计算,使得综合滤波器的响应是H(z)=l/{a0-a1z-1-a2z-2}然后极点在Z平面上的位置由二次方程的解来确定a0z2-a1z+a2=0a0=1即z=-a12=j4a2-a124]]>如果平方根内的项是负的,则极点位于实轴上,于是该信号不是信号音。如果它是正的,但极点位置的实数部分是负的(即a1<0),则极点在Z平面的左半侧。这就必然意味着该频率比取样速率高了25%—即对于8KHz的取样频率fs在2000Hz以上,这时该频率计算是不必要的了,可以立即产生“>385”信号。极点频率为f=arcran{-4a2-a12a1}×fs2π]]>f<385Hz的条件可表述为(取消平方根)(4a2-a12)/a12<tan2{2π×385fs}]]>或者(4a2-a12)/a12<0.0973]]>atfs=8kHz这一计算由单元405来进行。它的输出在与门406中与比较器403的输出进行合并,以便只有当预测增益是高的并且极点频率是大于385Hz时才作出“信号音”判定。
如果需要的话,还可以俘获2000Hz以上的极点频率(或者某些其它上限频率),以便高于预期信号音范围的高频不会被识别为信号音。
如果求解二次方程的额外计算可被容许,就还可以利用第三和第四反射系数,在这种情况下,有可能区分具有两个相关频率的两个复共轭极点对,可以看出,如果这两个频率都低于阈频率,就不会认为存在信号音。
已经指出图2和5的实施例在自相关计算103之前采用汉明窗口(对于基于自相关的LPC分析通常如此)。如果在语音编码器中不需要进行这种开窗口,则另一种可能的选择就是在图5的情形中省去开窗口103和通过将自相关值变换为协方差值来取代反射系数计算400,并修改单元401、404来使用协方差值而不是反射系数。或者,如图6所示(它只表示相对于图5已被改变的那些部件),开头的处理可以由协方差分析109来完成,它的输出提供给反射系数计算装置400′和改进的自相关系数单元104′。LPC分析单元105可以象以上那样与自相关单元104′连接或者如所示那样直接与协方差分析单元109连接。
上述“信号音检测”实施例产生了良好的结果;但是,它们可能对于在某些范围内使用的、用机械方式产生的信号音无效,这是由于这些信号音往往具有导致产生小的预测增益的高次谐波分量的缘故。由于滤波器的插入势必增大所有信号的自相关,并由此也使其它信号的预测增益增大,所以仅滤除高次谐滤不是一个解决方案。已发现预测器往往模拟滤波器的极点而不是输入信号的特性。但是已发现如果能够将预测增益分析局限于对只处在相应于谐波滤波器通带的频率范围内的信号的可预测性进行评估,则利用滤波就能够获得良好的结果。这可以通过在预测增益分析之前以滤波器带宽两倍的频率对信号进行二次取样来实现。
因此在其它方面与图5类似的图7实施例采用了滤波器450,这是低通等波纹FIR滤波器,其零点位于单位圆上,通带高达600(3dB点),20dB的阻带衰减位于1200Hz。阻带衰减不是太大将被认为是有利的。滤波器输出在二次取样单元451中被以1200Hz的频率进行二次取样。
由于使用这种滤波,信号音检测与语音编码器100共用元件的可能性当然被大大减少;因此滤波器450由模数变换器102直接提供数字化输入信号,并如上所述地给反射系数分析单元400″或者协方差或自相关分析单元提供信号。自相关方案将如上所述地需要开窗口。
另一实施例减轻了“谐波”问题,且不会不适当地限制预测增益分析的频率范围;这是通过利用滤波器将信号分成两个或多个频带来实现的,这每一个频带足够窄,以至于无法包含信号音的基波和三次谐波。各个频带然后被二次取样并对其进行单独的预测增益分析。
因此,在图8中,信号被滤波器450a、450b分成频带400-1200Hz和1200Hz-2000Hz,并被以1.6KHz的频率进行二次取样(451a、451b)。对这两个频带分别进行反射系数计算400″a、b、预测误差分析401a、b、和取阈值403a、b。比较器403a、403b的两个输出被传送给“或”门206的分开的输入端,所以在这两个频道的任一个之内的高的预测增益都被认为表示了信号音的存在。图7的其它部件100-303没有改变,所以不在图8中表示。
权利要求
1.一种用于检测输入信号中语音的存在的语音活动性检测器,包括(a)存储输入信号噪声分量的估算值的装置;(b)识别输入信号和被存储的估算值的频谱相似性以便产生输出判定信号的装置;(c)更新被存储的估算值的装置;(d)辅助检测器,用于控制更新装置,以便仅当辅助检测器指出在输入信号中无语音时才进行更新;其特征在于,用于计算输入信号的预测增益参数的装置,以及用于在预测增益超过阈值时禁止更新的修正装置。
2.权利要求1的语音活动性检测器,其特征在于,在该语音活动性检测器中,辅助检测器包括对从LPC残留信号中获得的信号作出响应的发声的语音检测器。
3.权利要求1或2的语音活动性检测器,其特征在于,在该语音活动性检测器中,增益参数表示第6阶或低于第6阶的LPC预测的预测增益。
4.权利要求3的语音活动性检测器,在该语音活动性检测器中,增益参数表示第4阶或低于第4阶的LPC预测的预测增益。
5.以上任一权利要求的语音活动性检测器,其特征在于,还包括用于检测输入信号的一个或多个主频率分量的装置,以及用于将这些频率与预定阈频率作比较并仅当所述主分量超过阈频率时才允许禁止更新的装置。
6.以上任一权利要求的语音活动性检测器,其特征在于,在该语音活动性检测器中,在增益计算装置前面设有用于滤除输入信号频率范围的高频部分的滤波器,仅对位于该滤波器通带内的频率分量进行增益计算。
7.权利要求6的语音活动性检测器,其特征在于,具有两个滤波器,这两个滤波器有各自的通带和用于计算各自通带的增益参数的增益计算装置,该语音活动性检测器还具有用于当在任一通带内的预测增益超过阈值时禁止进行更新的修正装置。
8.权利要求6或7的语音活动性检测器,其特征在于,包括用于对被滤波信号进行二次取样的装置。
全文摘要
通过对输入信号和存储的噪声估算值(113)的频谱进行比较(114、115)来将语音与噪声区分开来。在辅助检测器(200)的控制下在无语音期间内更新噪声估算值(在缓冲器(113)中)。为了改善具有强谐波分量的信号(例如信号音)存在时的操作,根据输入(x(i))和从在被具有与输入的频谱互补的响应的滤波器(105)滤波后的输入获得的残留信号(y(i))计算LPC预测增益,如果该增益超过阈值,缓冲器更新就被禁止。
文档编号G10L25/78GK1130952SQ9419338
公开日1996年9月11日 申请日期1994年9月14日 优先权日1993年9月14日
发明者P·A·巴列特 申请人:英国电讯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1