基于波形的周期性检测器的制作方法

文档序号:2820758阅读:442来源:国知局
专利名称:基于波形的周期性检测器的制作方法
技术领域
本发明涉及音调周期(pitch period)(周期性)检测,尤其涉及用于语音活动检测的周期性检测器。
语音活动检测(VAD)是检测供给一通信系统话筒的噪声音频信号中是否存在语言活动的技术。VAD系统用于电信领域的许多信号处理系统中。例如,在全球移动通信系统(GSM)中,如GSM技术规范中(尤其是1994年5月的GSMO6.10——全速率语音代码转换中;和GSMO6.31——全速率语音通信信道的断续传输中)所述的那样,通过令语音编码器把VAD用作断续传输(DTX)原理的实现方式部分,增大通信处理容量。在噪声抑制系统中,例如在基于波谱减法(spectralsubtraction based)方法中,VAD用来指示何时开始进行噪声估算(和噪声参数适配)。在噪声语音识别中,VAD还用来通过将适量噪声估算值加给基准模板来改善语音识别系统的噪声鲁棒性。
新一代GSM免提功能被设计成结合用于通过GSM网络所进行的高品质语音传输的降噪算法。成功背景噪声降低算法的关键部分是加强的语音活动检测算法。选择GSM-VAD算法用于新一代免提噪声抑制算法,以检测来自话筒的噪声信号中存在语音活动与否。若将s(n)定为纯语音信号,而将v(n)定为背景噪声信号,则话筒信号样本x(n)在语音活动过程中为x(n)=s(n)+v(n) (I)而话筒信号样本在非语音活动过程中为x(n)=v(n) (II)尤其是在x(n)的语音/噪声比(SNR)值为低时,例如该值是在高速公路上行驶时的汽车环境内存在的值时,对以上公式所述状态(I)和(II)检测非比寻常。
GSM VAD算法产生表示当前帧音频信号归类在哪个状态下的信息标记。在波谱减法算法中,对以上两个状态的检测很有用,该检测对背景噪声的特征进行估算,以便改善信噪比而不使语音信号失真。例如,见IEEE Trans.on ASSP.vol.ASSP-27(1979)第113-120页S.F.Boll所著的“使用波谱减法抑制语音中的声噪声(Suppressionof Acoustic Noise in Speech Using Spectral Subtraction)”;J.Makhoul & R.McAulay所著的“从降噪的语音信号中消除噪声”(Removal of Noise From Noise-Degraded SpeechSignals).National Academy Press,Washington,D.C.(1989);Proceedings of ICASSP-88.vol.1(1988)第481-485页A.Varga等人所著的“基于HMM的语音识别算法的补偿算法(CompensationAlgorithms for HMM Based Speech Recognition Algorithms)”;和Proceedings of EUROSPEECH Conf.,ISSN 1018-4074(1995)第1549-1553页P.Hndel所著的“用于语音增强的低失真波谱减法(LowDistortion Spectral Subtraction for Speech Enhancement)”。
GSM VAD算法又在其运算中采用了一种自动相关函数(ACF)和得自语音编码器的周期性信息。因此,必需在获得所执行的任何噪声抑制动作之前运行语音编码器。这种情况示于

图1中。将数字化话筒信号样本x(k)供给语音编码器101,语音编码器101又产生GSMO6.10.所规定的自动相关系数(ACF)和长期预测器滞后值(音调信息)Np。把ACF和Np信号供给VAD103。VAD103产生一个VAD判定结果,把该结果供给基于波谱减法自适应噪声抑制(ANS)单元105的一个输入端。ANS105的第二输入端接收延迟形式的原始话筒信号样本x(n)。ANS105的输出信号是一个降噪信号,然后将该降噪信号供给第二语音编码器107。(图中将第二语音编码器107示为一个分开的单元。不过,可以认为的是,第一和第二语音编码器101、107实际上可以是运行两次的同一个单元。)根据以上的讨论,显然,GSM VAD算法需要运行整个语音编码器,以便能够取出进行VAD判定所必需的短期自动相关和长期周期性信息。
通过一个长期预测器利用交叉相关算法来计算语音编码器中的周期性信息。这些算法在计算方面代价很高,并且在免提信号处理过程中会引起不必要的延迟。对新一代编码解码器(例如GSM的新一代增强型全速率(EFR)编码解码器)来说,对一种简单的周期性检测器的需要问题变得更加尖锐,因为它耗占了大量的存储器和处理能力(即,每秒需要执行的指令数),还因为与GSM的现有全速率(FR)编码解码器相比,它显著的增加了计算性延迟。
就延迟、计算性需要和存储需要来说,降噪算法中VAD判定对周期性和来自语音编码器101的ACF信息利用的采用代价很高。此外,在实现成功的语音传输之前,语音编码器必需运行两次。从信号中取出周期性信息也是在计算方面最昂贵的部分。因此,对于未来移动终端和配件中有效地执行背景噪声抑制算法来说,需要一种用来取出信号中周期性信息的复杂性较低的方法。
传统的周期性检测器如美国专利US3,920,907和US4,164,626中描述的那些检测器主要基于对信号的模拟处理,它们未能考虑材料老化和处理时间长的问题。另外,这些专利中所述的计算性方面代价很高的技术用来处理仅仅由没有附加噪声的干净信号组成的输入信号。
其他传统的周期性检测器如美国专利US5,548,680、US4,074,069和US5,127,053中描述的那些检测器采用了基于输入信号的线性预测编码(LPC)模型化的标准GSM型音调检测器。遇有上述问题的这些技术也不能使处理适应于信号的时变特性,而是采用了非时变的估计模型参数(象LPC顺序、帧长度等等)。
因此,本发明的目的是提供一种周期性检测方法和装置,它基于自适应信号处理,在计算方面非常简单,并且不作关于信号的任何先验假定(即,不管它是嘈杂的、干净的还是有相关的)。
根据本发明的一个方面,前面和其他目的在一种用来根据一输入信号产生周期性信息的方法和装置中实现。这种技术包括通过对该输入信号采用低通滤波和非线性滤波来产生一预处理信号,其中该预处理信号具有被突出的语言音调音轨。把一种自适应阈值算法用于该预处理信号,以产生一检测信号,该检测信号具有峰值被输入信号的音调周期分开的波形片段。确定该检测信号中峰值之间的周期以产生周期性信息。然后,关于该检测信号中峰值之间周期的信息用来使一定标值适于被以后步骤中的自适应阈值算法所采用。该周期性信息可以用于一种电话通信系统中的语音活动检测器中。
在本发明的另一个方面中,根据以下公式执行非线性滤波
其中y(k)是低通滤波后的输入信号的第k个样本。可以把n和β的值选为输入信号一个信噪比的函数。
在本发明的又一个方面中,自适应阈值算法根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
在本发明的再一个方面中,把比例因子G(i)调整为N(i)值的函数。
在本发明的另一个方面中,调整比例因子G(i)的步骤包括以下步骤把N(i)与一预定值作比较;如果N(i)小于该预定值则增大G(i);如果N(i)大于该预定值则减小G(i)。该预定值可以是例如一个语言信号的期望平均音调周期。
通过结合附图阅读以下详细描述,可以理解本发明的目的和优点,在这些附图中图1是一种传统语音活动检测电路的方框图;图2是根据本发明的一种周期性检测器的方框图;图3a和3b分别示出包括语音信息和汽车噪音的一个信号以及出自根据本发明一个方面的预处理级的结果信号。
现在参考附图来描述本发明的各种特征,在这些附图中,类似的部件用相同的参考符号标示。
本发明提供一种复杂性小的基于波形的周期性检测器,它消除了对仅为了得到信号信号周期性信息(即,GSMO6.10中描述的长期预测滞后值Np)而运行整个语音编码器的要求。语音活动检测器可以替代地工作在Np值加ACF值,该Np值是用本发明周期性检测器得到的,而ACF值是用已经在自适应噪声抑制单元中运行的计算例程得到的。(也就是说,传统的基于波谱减法的自适应噪声抑制算法包括ACF计算作为其信号处理的一部分。这些ACF是用许多信号处理教科书中所充分描述的现用标准算法计算的,所以在此无需详细描述它们。)这使得整个实施方案在存储器的用法和处理延迟方面都很有效。
本发明周期性检测器的典型实施例示于图2中。如图2所示的系统例如由运行一个程序的可编程处理器实现,该程序用C语言源代码或汇编语言代码写成。根据本发明的一个方面,周期性检测基于短期波形音调计算和长期音调周期比较。参见图2,首先通过由低通滤波器(LP)和非线性信号处理部件(NLP)组成的预处理级201运行离散音频信号x(k),以突出语言音轨(speech pitch tracks)。LP滤波器的目的是从嘈杂的语言中取出音调频率信号。由于找到语言中200-1000Hz范围内的音调频率信号,所以LP滤波器截止频率范围优选选在800-1200Hz。
非线性处理函数优选根据以下公式进行
n和β的值优选作为嘈杂输入信号的信噪比(SNR)函数从一速查表中选取。该SNR可以在预处理级201中受到测量,而表中的固定值可以根据经验确定。对于低SNR值(例如汽车环境中的0-6dB)来说,较大的n值用来增强峰值,而较小的β值用来避免计算过程中的溢出。对于高SNR值来说,采用相反的策略(即采用较小的n值和较大的β值。)图3a和3b示出预处理级201的结果。图3a中,示出带有汽车噪音的10dB SNR信号S1。图3b中,示出结果信号S2,它是根据本发明预处理第一信号S1的结果。在该实例中,平均音调周期是5.25秒,且在一个采样周期内为恒定值。
预处理级201简化了随后的周期性检测并增强了鲁棒性。将预处理级201的输出供给自适应阈值计算级203,自适应阈值计算级203的输出又供给峰值检测级205。自适应阈值计算级203和峰值检测级205检测含周期性(音调)信息的波形片段。自适应阈值计算级203的目的是抑制不含关于输入信号音调周期信息的预处理信号中的那些峰值。因而,抑制了预处理信号中具有自适应确定阈值以下的峰值的那些部分。自适应阈值计算级203的输出应当具有由音调周期间隔开的峰值。峰值检测级205的任务是确定自适应阈值计算级203所提供的该信号中峰值之间的样本数目。定义为N个的这些样本构成一帧信息。
自适应阈值计算级203根据以下公式产生一个输出值C(y(k))
可以看出,对于幅值超过阈值Vth(i)幅值的样本y(k)来说,自适应阈值计算级203产生一个等于输入y(k)的输出值。对于幅值小于阈值Vth(i)幅值的样本y(k)来说,输出为零。在一优选实施例中,C(y(k))总为正值,因为预处理级201的输出y(k)本身总为正。
优选根据以下公式从输入y(k)值中产生阈值电平Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,G(i)是时间i时的定标因子,N(i)是帧i的帧长度。值N(i)、G(i)以及因此的Vth(i)作为嘈杂的输入信号幅值与波谱不稳定性(即,该信号的概率密度函数(pdf)随时间改变的程度)的函数逐帧改变。对于每一帧来说,把N(i)的值作为来自峰值检测级205的反馈信号。根据一个速查表把G(i)的值作为N(i)中变化的函数进行调整。根据经验确定固定的G(i)表的值。通常,它们采用0和1之间的值,并且反过来对N(i)中的变化起作用。对于第一帧来说,可以采用推测值G(0)。随后,可以把N(i)的反馈值与语言信号的期望平均音调周期(例如与20msec相对应的样本数目)进行比较。然后,如果N(i)的值大于期望平均值,则减小G(i)的值。类似地,如果N(i)的值小于期望平均值,则增大G(i)的值。这样,自适应调整自适应阈值计算级203的输出,以便抑制不含音调周期信息的输入信号峰值,这也不会影响不含音调周期信息的信号部分。这种对信号信息的自适应跟踪在实现稳定的周期性检测方面是一重要因素。
如上所述,峰值检测级205从自适应阈值计算级203中接收C(y(k))值,并且测量检测峰值之间的周期。峰值检测级205的输出N(i)是检测峰值之间的样本数目。
把峰值检测级205的输出供给周期性估算级207,周期性估算级207通过对几个(例如三个或四个)N(i)值求平均值以及检查Np值是否接近音调周期的期望平均值来产生周期性信息Np。在本发明的另一个实施例中,周期性估算级207还检查N(i)的各个值,以避免采用对平均周期性估算值Np有不利影响的错误值。
以上已经描述了具有小计算量和存储量要求的基于波形的周期性检测方法。自适应阈值估算用来跟踪噪声所影响的语音信号的幅值和波谱不稳定性。
以上已经参照一个特定的实施例描述了本发明。不过,对本领域的那些普通技术人员来说显而易见的是,可以以上述优选实施例形式以外的其他具体形式实现本发明。这可以在不脱离本发明实质的情况下作出。该优选实施例只是起说明作用而不应被认为有任何限制性。本发明的范围由所附的权利要求书给出而不是由前述说明给出,落入本权利要求书范围内的所有变换和等同物都应包含在内。
权利要求
1.一种从一输入信号中产生周期性信息的方法,包括以下步骤通过应用低通滤波和非线性滤波而从输入信号中去除信息来产生一个预处理信号,其中去除的信息不表示语言音调信息;根据一个自适应阈值算法转换该预处理信号,以产生一检测信号,该检测信号具有峰值被输入信号音调周期分开的波形片段;确定该检测信号中峰值之间的一个周期,以产生周期性信息;和用关于该检测信号中峰值之间周期的信息使一定标值适于被以后步骤中自适应阈值算法所采用。
2.权利要求1的方法,其中根据以下公式进行非线性滤波
其中y(k)是低通滤波后的输入信号的第k个样本。
3.权利要求2的方法,其中把n和β的值选为输入信号一个信噪比的函数。
4.权利要求3的方法,其中自适应阈值算法根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
5.权利要求4的方法,还包括把定标因子G(i)作为N(i)值的函数而调整的步骤。
6.权利要求5的方法,其中调整比例因子G(i)的步骤包括以下步骤把N(i)与一预定值作比较;如果N(i)小于该预定值,则增大G(i);而如果N(i)大于该预定值,则减小G(i)。
7.权利要求2的方法,其中自适应阈值算法根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
8.权利要求7的方法,还包括把定标因子G(i)作为N(i)值的函数而调整的步骤。
9.权利要求8的方法,其中调整定标因子G(i)的步骤包括以下步骤把N(i)与一预定值作比较;如果N(i)小于该预定值,则增大G(i);而如果N(i)大于该预定值,则减小G(i)。
10.权利要求1的方法,其中自适应阈值算法根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
11.权利要求10的方法,还包括把定标因子G(i)作为N(i)值的函数而调整的步骤。
12.权利要求11的方法,其中调整定标因子G(i)的步骤包括以下步骤把N(i)与一预定值作比较;如果N(i)小于该预定值,则增大G(i);而如果N(i)大于该预定值,则减小G(i)。
13.一种用来从一输入信号中产生周期性信息的装置,包括通过应用低通滤波和非线性滤波而从输入信号中去除信息来产生一个预处理信号的装置,其中去除的信息不表示语言音调信息;根据一个自适应阈值算法转换该预处理信号以产生一检测信号的装置,该检测信号具有峰值被输入信号音调周期分开的波形片段;确定该检测信号中峰值之间的一个周期以产生周期性信息的装置;和用关于该检测信号中峰值之间周期的信息使一定标值适于被以后步骤中自适应阈值算法所采用的装置。
14.权利要求13的装置,其中根据以下公式进行非线性滤波
其中y(k)是低通滤波后的输入信号的第k个样本。
15.权利要求14的装置,其中把n和β的值选为输入信号一个信噪比的函数。
16.权利要求15的装置,其中自适应阈值算法根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
17.权利要求16的装置,还包括把定标因子G(i)作为N(i)值的函数而调整的装置。
18.权利要求17的装置,其中调整定标因子G(i)的装置包括把N(i)与一预定值作比较的装置;如果N(i)小于该预定值则增大G(i)的装置;和如果N(i)大于该预定值则减小G(i)的装置。
19.权利要求14的装置,其中自适应阈值算法根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
20.权利要求19的装置,还包括把定标因子G(i)作为N(i)值的函数而调整的装置。
21.权利要求20的装置,其中调整定标因子G(i)的装置包括把N(i)与一预定值作比较的装置;如果N(i)小于该预定值则增大G(i)的装置;和如果N(i)大于该预定值则减小G(i)的装置。
22.权利要求13的装置,其中根据自适应阈值算法转换预处理信号的装置根据以下公式产生一个阈值信号Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>这里,y(k)是预处理信号的第k个样本,G(i)是时间i时的定标因子,N(i)是以前执行的自适应阈值计算步骤所产生信号中峰值之间的样本数目。
23.权利要求22的装置,还包括把定标因子G(i)作为N(i)值的函数而调整的装置。
24.权利要求23的装置,其中调整定标因子G(i)的装置包括把N(i)与一预定值作比较的装置;如果N(i)小于该预定值则增大G(i)的装置;和如果N(i)大于该预定值则减小G(i)的装置。
全文摘要
一种用来从一输入信号中产生周期性信息的基于波形的技术,这种技术包括通过对该输入信号采用低通滤波和非线性滤波来产生一预处理信号,其中该预处理信号具有被突出的语言音调音轨。把一种自适应阈值算法用于该预处理信号,以产生一检测信号,该检测信号具有峰值被输入信号的音调周期分开的波形片段。确定该检测信号中峰值之间表示周期性信息的周期。然后,关于该检测信号中峰值之间周期的信息用来使一定标值适于被以后步骤中的自适应阈值算法所采用。该周期性信息可以用于一种电话通信系统中的语音活动检测器中。
文档编号G10L11/00GK1276897SQ98810308
公开日2000年12月13日 申请日期1998年8月7日 优先权日1997年8月25日
发明者F·迈库艾 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1