语音活动检测装置和方法

文档序号:2829968阅读:472来源:国知局
专利名称:语音活动检测装置和方法
技术领域
本发明涉及信号处理,具体地,涉及语音活动检测方法和语音活动检测器。
背景技术
由语音通信装置发送的语音信号通常在某种程度上被噪声损坏,所述噪声干扰并降低编码、检测和识别算法的性能。
为了检测同时包含语音和噪声分量的输入信号的语音周期,已经开发出了各种不同的语音活动检测器和检测方法。这种装置和方法可以应用于语音编码、语音增强以及语音识别等领域。
语音活动检测的最简单的形式是基于能量的方法,在其中,为了确定是否存在语音,而估计输入信号的功率(即,能量增加表明语音的存在)。这样的技术在信噪比高时能够很好地工作,但是在存在含噪声信号(noisysignal)时变得愈加不可靠。
在Sohn等的“A Statistical Model Based Voice Activity Detection”[IEEE Signal Processing Letters Vol.6,No.1,January 1999]中描述了基于统计模型的使用的语音活动检测方法。所描述的统计方法使用了噪声和语音的模型来计算似然比(LR)统计量(其中LR=[语音存在的概率/语音不存在的概率])。然后将这样计算得到的LR统计量与阈值相比较,以决定所分析的语音信号(或者其部分)是否包含语音。
在Cho等的“Improved Voice Activity Detection Based on a SmoothedStatistical Likelihood Ratio”,In Proceedings of ICASSP,Salt Lake City,USA,vol.2,pp 737-740,May 2001中修改了Sohn等的技术。所述技术的修改版本提出了使用经过平滑的似然比(SLR),以减少在语音偏移区域可能遇到的检测错误。
为了计算LR(或SLR),上述统计方法都需要使用已存在的噪声功率估计。利用在分析帧的先前迭代时计算的LR/SLR来获得此噪声估计。
因而在上述统计方法中存在反馈机制,在其中,利用已有的噪声估计来计算所述似然比,而又利用在先得到的似然比值来计算噪声估计。这种反馈机制导致误差累积,其影响了所述系统的整体性能。
如上所述,将计算得到的似然比与阈值相比较,以决定是否存在语音。然而,以上述技术计算得到的似然比在60dB或以上的量级上变化。如果输入信号的噪声变化很大,则阈值将成为语音存在的不准确指示,并且系统性能可能下降。

发明内容
因此,本发明的目的在于提供一种语音活动检测方法和装置,其基本上克服或减轻了现有技术中的上述问题。
根据本发明的第一方面,提供了一种语音活动检测方法,其包括如下步骤(a)在噪声功率估计器中估计具有语音分量和噪声分量的信号中的噪声功率;(b)从在步骤(a)估计的噪声信号功率和复高斯统计模型来计算在所述信号中存在语音的似然比。
本发明提出了一种基于统计模型的语音活动检测方法,其中,使用了独立的噪声估计组件来提供具有噪声估计的模型。由于现在噪声估计独立于似然比的计算,在噪声估计和LR计算之间不再有反馈环。
可通过基于分位数的噪声估计方法(例如,参见Stahl,Fischer和Bippus的“Quantile Based Noise Estimation for Spectral Subtration andWiener Filtering”,pp1875-1878,vol.3,ICASSP 2000;以及Martin的“Noise Power Spectral Density Estimation Based on Optimal Smoothingand Minimum Statistics”,IEEE Trans.Speech and Audio Processing,vol.9,No.5,July 2001,pp.504-512)方便地进行噪声估计。然而,可以使用任何合适的噪声估计技术。
优选地,通过利用一阶递归函数平滑所述噪声估计值来进一步处理该估计值。
常规的基于分位数的噪声估计方法需要在K+1个频带和T个时间帧上为每个时间帧分析信号。这在计算上很复杂,因此,可以方便地在任何一个时间帧上仅更新K+1个频率的子集。通过从已经更新的数值进行插值来得到在剩余频率的噪声估计。
可注意到,对于语音活动检测器的整体性能而言,用于估计语音存在与否的阈值非常关键。如前所述,计算得到的似然比实际上在很大的dB范围上变化,因此,优选地,可设置所述参数,使得其对于输入语音动态范围和/或噪声条件的变化具有鲁棒性。
方便地,可以利用非线性函数将计算得到的似然比限制/压缩在预定的区间内(例如,0到1之间)。通过这样压缩似然比,可以减轻SNR的变化带来的影响,并且提高语音检测器的性能。
方便地,通过如下函数ψ(t)=1-min(1,e-ψ(t)),可以将似然比限制在0到1的范围,其中,ψ(t)是t帧的经过平滑的似然比。
根据本发明的第二个方面,提供了一种语音活动检测方法,其包括如下步骤(a)估计具有语音分量和噪声分量的信号中的噪声功率;(b)从在步骤(a)估计的噪声信号功率和复高斯统计模型来计算所述信号中存在语音的似然比;(c)基于在步骤(b)计算的似然比来更新所述噪声功率估计,其中,利用非线性函数将所述似然比限制到预定区间内。
在本发明第一和第二方面所述的语音活动方法中,将计算得到的似然比与预定阈值相比较,以确定语音存在或不存在。
方便地,在本发明的两个方面中,通过快速傅立叶变换步骤将进行分析的噪声语音信号从时域变换到频域。
在本发明的第一和第二方面中,如下定义第k个频谱仓(spectral bin)的似然比(LR)Λk=P(Xk|H1,k)P(Xk|H0,k)=11+ξkexp{γkξk1+ξk}]]>其中假设H0表示不存在语音;假设H1表示存在语音;γk和ξk分别为后验和先验信噪比(SNR),被定义为γk=|Xk|2λN,k]]>和ξk=λS,kλN,k;]]>并且λN,k和λS,k分别是在频率指数k的噪声和语音方差。
方便地,可以利用一阶递归系统在对数域中平滑所述似然比,以提高性能。在这种情况下,可以如下计算所述经过平滑的似然比ψk(t)=κψk(t-1)+(1-κ)logΛk(t)其中,κ是平滑因子,而t是时间帧指数。
可以方便地将经过平滑的似然比的几何平均计算为ψ(t)=1KΣk=0K-1ψk(t),]]>并且,利用ψ(t)确定语音的存在。[注意取决于噪声特征,可以从以上求和中去除某些频带]。
在本发明的第三个方面,对应于本发明的第一个方面,提供了一种语音活动检测器,包括似然比计算器,其利用对含噪声信号中噪声功率的估计以及复高斯统计模型来计算在该含噪声信号中存在语音的似然比,其中,独立于所述VAD(语音活动检测器)计算所述噪声功率估计。
在本发明的第四个方面,对应于本发明的第二个方面,提供了一种语音活动检测器,包括似然比计算器,其利用对含噪声信号中噪声功率的估计以及复高斯统计模型来计算在该含噪声信号中存在语音的似然比,其中,利用所述似然比来更新所述检测器中的噪声估计,并且其中,利用非线性函数将所述似然比限制在预定区间中。
在本发明的再一方面中,提供了一种语音活动检测系统,其包括根据本发明第三方面的语音活动检测器或者被配置以实施本发明第一方面的语音活动检测器,以及噪声估计器,对于包含噪声分量和语音分量的信号向所述语音活动检测器提供噪声估计。
本领域技术人员可以认识到,上述补偿器(equaliser)和方法可以被具体化为在诸如硬盘、CD或DVD-ROM的载体介质上的、在诸如只读存储器(固件)的可编程存储器上的,或者在诸如光或电信号载体的数据载体上的处理器控制代码。


图1示出了现有技术的语音活动检测器的示意性说明;图2示出了根据本发明的语音活动检测器的示意性说明;图3示出了噪声语音信号的信号功率-频率图;图4示出了在T个时间帧上的信号的频率-时间图;图5示出了特定频率仓(frequency bin)的功率谱值-时间图;图6示出了包括德语语音的信号的语音识别准确率-信噪值图;图7示出了包括英国英语语音的信号的语音识别准确率-信噪值图。
具体实施例方式
下面将参考附图,通过例子进一步描述本发明的这些和其它方面。
在本发明使用的统计模型(Cho等中也进行了描述)中,通过测试两个假设,H0和H1,来作出语音活动判定,其中,H0表示不存在语音,而H1表示存在语音。
所述统计模型假设语音和噪声的每个谱分量具有复高斯分布,在其中,噪声为加性噪声,并且与语音不相关。基于此假设,给定H0,k和H1,k,噪声谱分量(noisy spectral component)Xk的条件概率密度函数(PDF)如下P(Xk|H0,k)=1πλN,kexp{-|Xk|2λN,k}---(1)]]>以及P(Xk|H1,k)=1π(λN,k+λS,k)exp{-|Xk|2λN,k+λS,k}---(2)]]>
其中,λN,k和λS,k分别是在频率指数k的噪声和语音方差。
然后,将第k个频谱仓的似然比(LR)定义为Λk=P(Xk|H1,k)P(Xk|H0,k)=11+ξkexp{γkξk1+ξk}---(3)]]>其中,γk和ξk分别是后验和先验信噪比(SNR),被定义如下γk=|Xk|2λN,k---(4)]]>以及ξk=λS,kλN,k---(5)]]>在现有技术中,通过噪声自适应(noise adaptation)得到噪声方差λN,k,在其中,以如下的递归方式来更新第t帧中的第k个谱分量的噪声谱的方差λN,k(t)=ηλN,k(t-1)+(1-η)E(|Nk(t)|2|Xk(t))---(6)]]>其中,η是平滑因子。通过如下软决策技术来估计期望的噪声功率谱 E(|Nk(t)|2|Xk(t))=|Nk(t)|2p(H0,k|Xk(t))+λN,k(t-1)p(H1,k|Xk(t))---(7)]]>其中,p(H1,k|Xk(t))=1-p(H0,k|Xk(t)),]]>并且,如下计算 p(H0,k|Xk(t))=11+p(H1,k)p(H0,k)ψk---(8)]]>因而,可注意到,在等式(6)中计算的噪声方差使用了(等式7中的)语音存在以及不存在的PDF值。反过来,该PDF计算间接使用了λN,k的值(见等式(2))。
可如下写出未知的先验的不存在语音的概率(也可以由用户预定界限来界定上界和下界)p(H0,k(t))=βp(H0,k(t-1))+(1-β)p(H0,k(t)|Xk(t))---(9)]]>因此,很清楚,在根据现有技术描述的方法中,存在反馈机制,从而导致了误差累积。
图1中示意性地表示了上述讨论,在其中根据现有技术的语音活动检测器1包括似然比计算组件3以及噪声估计组件5。LR组件的输出7馈入噪声估计组件5,而噪声估计组件的输出9馈入该LR组件。
图2中示意性地表示了根据本发明第一(和第三)方面的语音活动检测方法,在其中,语音活动检测器11包括LR组件13。独立的噪声估计组件15将噪声估计17馈入所述LR组件,以得到似然比。
根据本发明第一和第三方面的语音活动检测器利用适当的技术外部地估计噪声方差λN,k。例如,基于分位数的噪声估计方法(以下将进行详细描述)可以被用来估计噪声方差。
根据本发明第二和第四方面的语音活动检测器利用非线性函数处理在LR组件中得到的似然比,以将所述比的值限制在预定区间内。
然后,在本发明中如下估计语音方差λS,k(t)=βSλS,k(t-1)+(1-βS)max(|Xk(t)|2-λN,k(t),0)---(10)]]>其中βS是语音方差遗忘因子。
然后,可以参考等式(1)-(5)的描述计算所述似然比。然后,通过将LR与阈值相比较来计算语音存在或不存在。
可注意到,在本发明的所有方面,通过利用一阶递归系统在对数域平滑所述似然比来改进所述语音活动检测器的性能,其中,ψk(t)=κψk(t-1)+(1-κ)logΛk(t) (11)其中,t是时间帧指数,κ是平滑因子。然后,可如下计算经过平滑的似然比(SLR)的几何平均(等效于对数域的算术平均)ψ(t)=1KΣk=0K-1ψk(t)---(12)]]>然后,与前面一样,通过与阈值的比较,利用ψ(t)来检测语音存在或不存在。
对于语音活动检测器的表现和性能而言,与LR和SLR进行比较以确定语音的存在的阈值非常关键。为该参数所选的值(例如,通过模拟试验)应该对于输入语音动态范围和/或噪声条件的变化具有鲁棒性。通常,一旦SNR值变化,就需要调整此参数。
然而,如上所述,所述LR/SLR可以在很多dB的范围上变化,因此,很难将所述参数设置为适当的值。
为了减轻所述SNR的变化,可以通过非线性函数进一步处理在本发明第一和第三方面中计算得到的LR/SLR,以将似然比的值限制在特定区间,例如,在零(0)和一(1)之间。通过这样压缩似然比,能够减小噪声方差的影响,提高系统性能。可注意到,此限制性函数对应于本发明第二方面,但也可与本发明的第一方面一起使用。
一个适于将似然比数值限制在
区间的函数的例子是ψ(t)=1-min(1,e-ψ(t)) (13)在本发明的第一方面中,在似然比计算之外得到噪声估计。得到这种估计的一种方法是通过基于分位数的噪声估计(QBNE)方法。
QNBE方法通过利用这样的假设,即语音信号不平稳并且不会永久占用相同频带,来连续地估计噪声功率谱(即,即使在语音活动期间)。另一方面,假设噪声信号相对于语音信号缓慢变化,从而对于几个连续的分析帧(时间间隔),可认为其相对恒定。
在上述假设下进行工作,可以考虑在一段时间间隔上对每个频带排序含噪声信号(以建立经过排序的缓冲区),并从所构造的缓冲区得到噪声估计。
图3到5说明了所述QBNE方法。
图3示出了噪声信号18以及在两个不同时刻t1和t2的语音信号(在图中,将时刻t1的语音信号标注为19,将时刻t2的语音信号标注为20)的信号功率(功率谱)-频率图。可见,所述语音信号在各个时刻并不占用相同的频率,并且因此,当语音不占用特定频带时,可以在该特定频带估计所述噪声。在此图中,例如,可以在时刻t1估计在频率f1和f2的噪声,而在时刻t2估计在频率f3和f4的噪声。
对于含噪声信号,X(k,t)是含噪声信号的功率谱,其中k是频率仓指数,t是时间(帧)指数。如果在缓冲区中存储了过去和将来的T/2帧,则对于帧t,可以以升序在每个频率仓对这T个帧X(k,t)进行排序,使得X(k,t0)≤X(k,t1)≤…≤X(k,tT-1)(14)其中,tj∈[t-T/2,t+T/2-1]。
图4和5中说明了以上等式。回到图4,为多个时间帧示出了频率-时间图(为简洁起见,仅示出了所有T帧中的5帧)。取决于特定应用,可以在缓冲区中存储三十个时间帧,即,T=30)。在每帧,信号的功率谱是用纵向盒(vertical box)(21,23,25,27,29)表示的向量。
对于特定频率k(用图4中的纵向盒说明),如图5所说明,可以在FIFO缓冲区中存储T帧的窗口上的功率谱值。然后,利用任何快速排序技术按照升序对所存储的帧进行排序(关于以上等式14的描述)。
对于第k个频率,将噪声估计 作为在缓冲区中排序的值的第q个分位数。换言之, 其中,0<q<1,而 表示向下取整。
可以为每个频带算出噪声估计。
在计算噪声估计时,假设,对于T个帧,语音分量占用了某一特定频率至多50%的时间。因此,如果设置q等于0.5,则选择中值作为噪声估计。据认为中间分位数值(median quantile value)比其它分位数值具有更好的性能,因为其对于远离中心的变化更不易受影响。
可以通过对利用一阶递归函数从以上等式15得到的值进行平滑来改善从QBNE得到的噪声估计,其中N^(k,t)=ρ(k,t)N^(k,t-1)+(1-ρ(k,t)N~(k,t))---(16)]]>其中, 是从以上等式15得到的噪声估计, 是经过平滑的噪声估计,而ρ(k,t)是依赖于频率的平滑参数,根据信噪比(SNR)在每帧t对该平滑参数进行更新。
瞬时SNR可以被定义为输入的含噪声语音谱和当前QBNE噪声估计之间的比,即,
γ(k,t)=X(k,t)N~(k,t)---(17)]]>可选地,也可以使用来自前一帧的噪声估计,使得γ(k,t)=X(k,t)N^(k,t-1)---(18)]]>在任何一种情况下,可以如下获得所述平滑参数ρ(k,t)=γ(k,t)γ(k,t)+μ---(19)]]>其中,μ是控制QBNE估计的灵敏度的参数。
可注意到,随着SNR增加,可对其进行排列,使得特定频率的QBNE噪声估计对于更新的噪声估计的影响较小。另一方面,如果SNR较低,即,噪声在给定频率上在给定帧中占主要地位,则从一帧到下一帧的QBNE估计变得更可靠,于是,当前噪声估计对于更新的估计具有较大影响。参数μ控制QBNE估计的灵敏度。如果μ→0,则ρ(k,t)→1且 对噪声估计影响较小。另一方面,如果μ→∞,则 在每帧的估计中将占主要地位。
可注意到,常规语音分析系统通常在超过一百个频带中分析输入信号。如果还存储并分析邻近的30帧,以获取噪声估计,则为每一帧在每个频率进行噪声估计的维护和更新将带来计算上的几乎不能承受的开销。
因此,仅在被分析的所有频带的子集上更新噪声估计。例如,如果有10个频带,则对于第一帧t,可以仅为奇数频带(1,3,5,7,9)计算和更新噪声估计。在下一帧t′,为偶数频带(2,4,6,8,10)计算和更新噪声估计。
对于t帧,可以通过从奇数频率值进行插值来估计偶数频带上的噪声估计。对于t′帧,可以通过从偶数频率值进行插值来估计奇数频带上的噪声估计。
对于德语和英国英语语音发声,通过与常规的检测器对比来评价根据本发明的方面的语音活动检测器。使用VAD检测发声的起点和终点,以进行语音识别。
在第一实验中,以不同的信噪比,人工地在第一数据集中加入汽车噪声。在发声的开始和结束利用静寂时间填补语音信号。
图6示出了对于德语数据集的第一实验的语音识别准确率结果。用“FA”标注的实线表示对应于通过强制校准获得的准确端点的识别结果。
图6中的线X示出了采用现有技术的语音活动检测器(内部噪声估计且不压缩似然比)的结果,线Y示出了语音活动检测器的结果,其中所述语音活动检测器(即,根据本发明第二和第四方面的语音活动检测器)计算如以上详细描述然后被平滑和压缩的似然比,且线Z示出了采用独立的噪声估计器的语音活动检测器(即,根据本发明第一和第三方面的语音活动检测器)的结果。
可见,根据本发明的方面的语音活动检测器的性能超过了现有技术的检测器,尤其在低SNR水平的情况下。
进一步,还可以看出,当与平滑且压缩似然比(线Y)的版本相比较时,使用外部噪声估计(线Z)能够进一步改善语音活动检测器的性能。
图7示出了利用英语数据集进行的类似评价的结果。与德语发声一样,根据本发明的方面的结果相比现有技术的系统有改进。
以下的表1为另外两个数据集C和D示出了进一步的性能评价,该数据集被记录于在汽车中进行的第二实验中。
一旦再次对英国英语和德语进行评价,可以看出,根据本发明的使用独立的噪声估计的语音活动检测器优于现有技术系统。对于德语发声,识别错误率减少了约30%,对于英国英语,识别错误率减少了约25%。
表1

权利要求
1.一种语音活动检测方法,包括如下步骤(a)在噪声功率估计器中估计具有语音分量和噪声分量的信号中的噪声功率;(b)从在步骤(a)估计的噪声信号的功率和复高斯统计模型来计算在所述信号中存在语音的似然比。
2.根据权利要求1所述的语音活动检测方法,其中,利用非线性函数将步骤(b)中的所述似然比限制到预定的区间。
3.根据权利要求2所述的语音活动检测方法,其中,通过函数ψ(t)=1-min(1,e-ψ(t))限制所述似然比,其中,ψ(t)是所述似然比。
4.根据权利要求1到3中任何一个所述的语音活动检测方法,其中,所述噪声功率估计器使用基于分位数的估计方法来估计所述噪声功率。
5.根据权利要求4所述的语音活动检测方法,其中,利用一阶递归函数平滑所述噪声功率估计。
6.根据权利要求1到5中任何一个所述的语音活动检测方法,其中,在K+1个频带上分析所述信号,并且,对每个时间帧,仅在所述K+1个频带的子集上更新所述噪声功率估计。
7.根据权利要求6所述的语音活动检测方法,其中,通过从更新的频带的所述子集进行插值来在所有K+1个频带上更新所述噪声估计。
8.一种语音活动检测方法,包括如下步骤(a)估计具有语音分量和噪声分量的信号中的噪声功率;(b)从在步骤(a)估计的噪声信号的功率和复高斯统计模型来计算所述信号中存在语音的似然比;(c)基于在步骤(b)计算的所述似然比来更新所述噪声功率估计,其中,利用非线性函数将所述似然比限制到预定的区间。
9.根据权利要求1到8中任何一个所述的语音活动检测方法,其中,将所述似然比与阈值相比较,以检测语音存在或不存在。
10.根据权利要求1到9中任何一个所述的语音活动检测方法,其中,通过如下等式确定所述似然比Λk=P(Xk|H1,k)P(Xk|H0,k)=11+ξkexp{γkξk1+ξk}]]>其中,假设H0表示不存在语音;假设H1表示存在语音;λN,k和λS,k分别是在频率指数k的噪声和语音方差;且γk和ξk被分别定义为γk=|Xk|2λN,k]]>和ξk=λS,kλN,k.]]>
11.根据权利要求10所述的语音活动检测方法,其中,通过如下等式计算经过平滑的似然比ψk(t)=κψk(t-1)+(1-κ)logΛk(t)其中,κ是平滑因子,且t是时间帧指数。
12.根据权利要求11所述的语音活动检测方法,其中,所述经过平滑的似然比的几何平均被计算为ψ(t)=1KΣk=0K-1ψk(t),]]>并且,利用Ψ(t)确定语音的存在。
13.一种语音活动检测器,包括似然比计算器,其利用对含噪声信号中噪声功率的估计以及复高斯统计模型来计算在该含噪声信号中存在语音的似然比,其中,独立于所述语音活动检测器计算所述噪声功率估计。
14.一种语音活动检测器,包括似然比计算器,其利用对含噪声信号中噪声功率的估计以及复高斯统计模型来计算在该含噪声信号中存在语音的似然比,其中,利用所述似然比来更新所述检测器中的噪声估计,并且其中,利用非线性函数将所述似然比限制在预定的区间。
15.携有处理器控制代码的载体,当运行时,其实现根据权利要求1到12中任何一个所述的方法。
16.携有处理器控制代码的载体,当运行时,其实现根据权利要求13或14中任何一个所述的语音活动检测器。
17.一种语音活动检测系统,包括根据权利要求13的语音活动检测器或者被配置为实施根据权利要求1到7中任何一个所述的方法的语音活动检测器,以及噪声估计器,用于向所述语音活动检测器提供对于包含噪声分量和语音分量的信号的噪声估计。
全文摘要
一种语音活动检测方法,包括如下步骤(a)在噪声功率估计器中估计具有语音分量和噪声分量的信号中的噪声功率,以及(b)从在步骤(a)估计的噪声信号的功率和复高斯统计模型来计算在所述信号中存在语音的似然比。
文档编号G10L25/78GK101080765SQ20068000037
公开日2007年11月28日 申请日期2006年5月9日 优先权日2005年5月9日
发明者F·雅布劳恩 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1