具有噪声模型适配的递归噪声功率估计的制作方法

文档序号:16852690发布日期:2019-02-12 22:52阅读:258来源:国知局
具有噪声模型适配的递归噪声功率估计的制作方法

本发明涉及听力植入系统,更具体地涉及用于基于对输入声音信号中的噪声功率的估计和预测在听力植入系统中产生电刺激信号的技术。



背景技术:

正常耳朵如图1所示将声音通过外耳101传送到鼓膜(耳膜)102,鼓膜102使中耳103的小骨(锤骨,砧骨和镫骨)振动。镫骨足板位于卵圆窗106中,形成与充满流体的内耳(耳蜗)104的界面。镫骨的运动在耳蜗104中产生压力波,其刺激听觉系统的感觉细胞(毛细胞)。耳蜗104是绕其中心轴(称为耳蜗轴)螺旋地卷曲约两周半的狭长管。耳蜗104包括通过耳蜗管连接的称为前庭阶的上通道、称为中阶的中通道和称为鼓阶的下通道。毛细胞连接到位于耳蜗轴中的耳蜗神经113的螺旋神经节细胞。响应于由中耳103传送的所接收的声音,充满流体的耳蜗104充当换能器以生成传到耳蜗神经113并最终传到大脑的电脉冲。

当沿着耳蜗104的神经基质将外部声音转换成有意义的动作电位的能力有问题时,听力受损。为了改善受损听力,已经开发了听觉假体。例如,当损伤与中耳103的操作有关时,可以使用常规助听器或中耳植入物以放大声音的形式向听觉系统提供声学机械刺激。或者当损伤与耳蜗104有关时,具有植入的刺激电极的耳蜗植入物可以用沿着电极分布的多个电极触点递送的小电流来电刺激听觉神经组织。

图1还示出了典型的耳蜗植入系统的一些组件,其包括外部麦克风,该外部麦克风向能够实施各种信号处理方案的外部信号处理器111提供声信号输入。然后,将处理后的信号转换成数字数据格式,例如数据帧序列,以便传输到植入物108中。除了接收经处理的声信息之外,植入物108还执行诸如纠错、脉冲形成等附加信号处理,并产生通过电极引线109发送到植入的电极阵列110的刺激图案(基于提取的音频信息)。

通常,电极阵列110在其表面上包括多个电极触点112,其提供对耳蜗104的选择性刺激。在本文中,电极触点112也被称为电极通道。当今,在耳蜗植入物中,相对少量的电极通道各自与相对较宽的频带相关联,其中每个电极触点112用电刺激脉冲来处理一组神经元,所述电刺激脉冲的电荷源自该频段内的信号包络的瞬时振幅。

图2示出根据典型听力植入系统在植入的耳蜗植入物阵列中向电极触点产生电极刺激信号的信号处理装置中的各种功能框。这样的装置的伪代码示例可以设定为:

输入信号预处理:

bandpassfilter(input_sound,band_pass_signals)

包络提取:

bandpassenvelope(band_pass_signals,band_pass_envelopes)

刺激定时生成:

timinggenerate(band_pass_signals,stim_timing)

脉冲生成:

pulsegenerate(band_pass_envelopes,stim_timing,out_pulses)

在以下讨论中阐述这样的装置的细节。

在图2所示的信号处理装置中,初始的输入声音信号由一个或多个感测麦克风产生,感测麦克风可以是全向和/或定向的。预处理器滤波器组201利用一组多个并联的带通滤波器(例如,无限冲激响应(iir)或有限冲激响应(fir))对该输入声音信号进行预处理,每个滤波器与音频频率的特定频带相关联。例如,使用具有六阶k位数字巴特沃斯(butterworth)无限冲激响应(iir)型带通滤波器的滤波器组,使得声学音频信号被过滤成一些k个带通信号y1到yk,其中每个信号对应于其中一个带通滤波器的频带。用于浊音语音输入信号的足够窄的带通滤波器的每个输出可以大体上视为该带通滤波器的中心频率的正弦曲线,其通过包络信号来调制。这也是由于滤波器的品质因子(q≈3)。在浊音语音片段的情况下,该包络是近似周期性的,并且重复率等于基音频率。可替代地且非限制地,可以基于快速傅里叶变换(fft)或短时傅里叶变换(stft)的使用来实现预处理器滤波器组201。基于耳蜗的音质分布组织,鼓阶中的每个电极触点通常与预处理器滤波器组201的特定带通滤波器相关联。预处理器滤波器组201也可以执行其他初始信号处理功能,诸如但不限于自动增益控制(agc)和/或降噪和/或降低风噪声和/或波束形成以及其他公知的信号增强功能。fontaine等人在brianhears:onlineauditoryprocessingusingvectorizationoverchannels,frontiersinneuroinformatics,2011中给出了用于根据直接ii型转置结构的无限冲激响应(iir)滤波器组的伪代码的示例,该文献通过引用整体并入本文。

带通信号y1到yk(其也可以被认为是电极通道)被输出到包括包络检测器202和精细结构检测器203的刺激定时器206。包络检测器202提取表示通道特定的带通包络的特征包络信号输出y1,…,yk。包络提取可以用yk=lp(|yk|)表示,其中|.|表示绝对值,并且lp(.)是低通滤波器;例如,使用12个整流器和12个二阶iir型数字巴特沃斯低通滤波器。可替代地,如果由正交滤波器生成带通信号u1,…,uk,则包络检测器202可以提取希尔伯特(hilbert)包络。

精细结构检测器203运行以获得信号通道内瞬时频率的平滑且稳健的估计,处理所选的带通信号u1,…,uk的时间精细结构特征以生成刺激定时信号x1,…,xk。带通信号y1,…,yk可以假设为实值信号,则在分析正交滤波器组的特定情况下,精细结构检测器203仅考虑yk的实值部分。精细结构检测器203由k个独立的结构等同的并行子模块构成。

从包络检测器202提取的带通信号包络y1,…,yk以及来自精细结构检测器203的刺激定时信号x1,…,xk是从刺激定时器206输出到脉冲发生器204的信号,该脉冲发生器204产生用于植入的电极阵列205中的电极触点的电极刺激信号z。脉冲发生器204应用患者特定的映射函数——例如,使用包络信号的瞬时非线性压缩(映射法则)——其适于个别耳蜗植入物用户在植入物适配期间的需要以实现自然响度增长。脉冲发生器204可以应用带形状因数c的对数函数作为响度映射函数,其通常在所有的带通分析通道上都相同。在不同的系统中,可以使用除对数函数以外的不同特定响度映射函数,所有的信道应用一个相同的函数或者每个信道使用一个单独的函数来生成电极刺激信号。电极刺激信号通常是一组对称的两相电流脉冲。

在一些刺激信号编码策略中,刺激脉冲以恒定速率施加在所有电极通道上,而在其他编码策略中,刺激脉冲以通道特定速率施加。可以实现各种特定信号处理方案以产生电刺激信号。在耳蜗植入物领域中公知的信号处理方法包括连续交织采样(cis)、信道特定采样序列(csss)(如美国专利no.6,348,070中所述,通过引用并入本文)、频谱峰值(speak)和压缩模拟(ca)处理。

在cis策略中,信号处理器仅使用带通信号包络进行进一步处理,即,它们包含整个刺激信息。对于每个电极通道,信号包络表示为恒定重复率的两相脉冲序列。cis的特征在于所有电极通道的刺激速率相等,并且与各个通道的中心频率无关。其意图是,脉冲重复率不是患者的时间线索(即,它应该足够高以使得患者不会感知频率等于脉冲重复率的音调)。脉冲重复率通常选择为大于包络信号带宽的两倍(基于奈奎斯特(nyquist)定理)。

在cis系统中,刺激脉冲以严格的非重叠序列施加。因此,作为典型的cis特征,一次只有一个电极通道是活动的,并且整体刺激率相对较高。例如,假设总体刺激率为18kpps的12通道滤波器组,则每个通道的刺激率为1.5kpps。每个通道的这种刺激速率通常足以用于包络信号的充分时间表示。最大总刺激速率受每脉冲的最小相持续时间限制。相持续时间不能任意短,因为脉冲越短,电流幅度必须越高以引起神经元中的动作电位,并且电流幅度由于各种实际原因而受到限制。对于18kpps的总体刺激率,相持续时间为27μs,接近下限。

med-el的精细结构处理(fsp)策略在较高频率信道中使用cis,并且在较低频率、更多顶端电极的信道中使用带通信号中存在的精细结构信息。在fsp电极通道中,跟踪带通滤波时间信号的过零点,并且在每个负到正过零处,启动信道特定采样序列(csss)。通常,csss序列应用于最多3个最顶端的电极通道,覆盖频率范围高达200或330hz。fsp装置进一步描述于hochmairi,noppp,jollyc,schmidtm,h,garnhamc,andersoni的med-elcochlearimplants:stateoftheartandaglimpseintothefuture,trendsinamplification,vol.10,201-219,2006,其通过引用并入本文。fs4编码策略与fsp的不同之处在于,最多4个顶端通道可以使用其精细结构信息。在fs4-p中,刺激脉冲序列可以在4个fsp电极通道中的任何2个上并行递送。利用fsp和fs4编码策略,精细结构信息是给定电极通道的瞬时频率信息,其可以为用户提供改善的听觉、更好的语音理解和增强的感知音频质量。参见例如美国专利7,561,709;lorens等人的“finestructureprocessingimprovesspeechperceptionaswellasobjectiveandsubjectivebenefitsinpediatricmed-elcombi40+users”,internationaljournalofpediatricotorhinolaryngology74.12(2010):1372-1378;以及vermeire等人的“betterspeechrecognitioninnoisewiththefinestructureprocessingcodingstrategy.”orl72.6(2010):305-311;所述所有文献都通过引用整体并入本文。

在诸如用于听力植入物的电子通信信号的信号处理中,输入声音信号y[n]可以表征为承载信息的目标信号s[n]和不承载信息的噪声信号d[n]的加法混合。为了从目标信号s[n]中提取信息,显然希望最小化噪声信号d[n]的影响。实现这种最小化通常需要估计信号d[n]的噪声功率。

r.martin的noisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatistics,ieeetrans.speechaudioproc.,vol.9,no.5,july2001(通过引用整体并入本文)描述了一种经典方法,用于在没有语音活动检测器的情况下估计输入通信信号中的噪声功率,在通常1-3秒的相对较长时间窗口内跟踪频带中的噪声信号的功率谱的频谱最小值。这种方法的一个缺点是跟踪性能有限——如果噪声功率随时间变化,则长的观察窗口会阻止噪声功率估计以很小的延迟或没有延迟地跟随噪声功率变化。这导致低估噪声功率。但是,使观察窗更短可能会导致高估噪声功率,因为短窗口内不会发生语音暂停。

r.c.hendriks等人的noisetrackingusingdftdomainsubspacedecompositions,ieeetrans.audio,speech,andlang.proc.,vol.16,no.3,march2008(通过引用整体并入本文)也不需要语音活动检测器,并且通过由噪声离散傅里叶时间(dft)系数的时间序列构造的相关矩阵的特征值分解来实现更好的噪声功率跟踪。它在改变噪声功率方面获得了良好的跟踪性能,但是由于需要特征值分解而以高计算量为代价。一年后,r.c.hendriks等人的fastnoisepsd-estimationwithlowcomplexity,proc.ofthe34thieeeint.conf.onacoustics,speech,andsignalproc.,april2009(通过引用整体并入本文)中提出了一种具有类似噪声功率跟踪但计算要求较低的算法。该方法基于在较低分辨率滤波器组中每频带/dft箱的高分辨率周期图的构造。尽管不需要特征值分解,但是高分辨率周期图的计算是必要的,使得该方法也在计算上要求很高。

r.c.hendriks等人的mmsebasednoisepsdtrackingwithlowcomplexity,proc.ofthe35thieeeint.conf.onacoustics,speech,andsignalproc.,march2010(通过引用整体并入本文)提出了基于使用最小均方估计器(mmse)的噪声功率谱密度估计,其提供了更好的跟踪性能。t.gerkmann和r.c.hendriks的unbiasedmmse-basednoisepowerestimationwithlowcomplexityandlowtrackingdelay,ieeetrans.audio,speech,andlang.proc.,vol.20,no.4,may2012显示,该mmse噪声估计可看作是基于语音活动检测器的功率估计器,其需要对通常事先不知道的先验信噪比(snr)具有先验知识,尽管可以假设在相对宽的范围内具有固定值的均匀分布的snr来进行近似估计。

美国专利8,634,581(通过引用整体并入本文)使用组合方法来估计噪声水平。将输入信号水平与从前一时间帧的估计噪声水平和固定倍增因子导出的阈值进行比较(递归)。基于该比较,建立了当前时间帧的噪声水平的第一估计。第二种机制通过使用码本导出当前时间帧的噪声水平的第二估计。最终将两个估计中较大的一个用作噪声水平估计。

美国专利8,385,572(通过引用整体并入本文)描述了一种降噪方法,其使用多种模型用于目标信号和/或干扰的噪声信号。这种方法的原因在于这样一个事实,即已知的降噪方法(例如,y.ephraim,d.malah的speechenhancementusingaminimummean-squareerrorshort-timespectralamplitudeestimator,ieeetrans.acoustics,speech,andsig.proc.,vol.assp-32,no.6,dec.1984;或者r.martin的speechenhancementbasedonminimummean-squareerrorestimationandsupergaussianpriors,ieeetrans.speechaudioproc..,vol.13,no.5,pp.845–856,sep.2005,两者都通过引用整体并入本文)依赖于信号统计数据(目标信号和/或噪声信号)的假设,假定通常是高斯或超高斯分布。这些假设可能并不总是与现实完全匹配,因此限制了依赖于这些信号模型的降噪算法的可实现性能。为了在信号统计方面更好地匹配现实并因而潜在地提高降噪算法的性能,提出了多种信号模型并且使用例如情况分类算法来选择与现实的最佳匹配的选择过程。基于用户提供的质量度量,噪声和信号模型也可以例如由助听器声学专家更换并且在日常使用期间保持静态。还描述了使用动态模型的替代方法,由此使用输入信号和情况检测通过算法训练模型。



技术实现要素:

本发明的实施例涉及一种用于为听力植入系统生成听力植入物刺激信号的信号处理方法。表征为承载信息的目标信号和不承载信息的噪声信号的加法混合的输入声音信号被转换为多个带通信号,每个带通信号表示音频频率的相关频带。然后,在采样时间帧序列和迭代步骤中处理带通信号,以产生噪声功率估计。对于每个时间帧和迭代,所述处理包括使用噪声预测模型来确定当前观察到的信号采样是否包括目标信号。如果是,则在不使用当前观察到的信号采样的情况下更新当前噪声功率估计。如果不是,则使用当前观察到的信号采样更新当前噪声功率估计。还基于更新的噪声功率估计来适配噪声预测模型。听觉植入刺激信号由带通信号和噪声功率估计产生,以便传送到听力植入系统的植入部分。

在另一特定实施例中,使用当前观察到的信号采样更新当前噪声功率估计可以包括使用当前信号功率和来自前一时间帧与最后的迭代步骤的估计噪声功率。在不使用当前观测到的信号采样的情况下更新当前噪声功率估计可以包括维持当前噪声功率估计不变,或者附加使用具有适当选择的权重和参数的相邻噪声功率估计的加权和。

使用噪声预测模型来确定当前观察到的信号采样是否包括目标信号可以基于当前观察到的信号采样与可变阈值的硬判决比较;例如,似然比检验统计。或者可以基于使用语音缺失概率函数将当前观察到的信号采样与可变阈值进行基于概率的判断比较;例如,s型函数。

噪声预测模型可以是时变噪声模型。例如,噪声预测模型可以基于先前时间帧的噪声功率估计和/或先前的迭代功率估计。噪声预测模型可以是一阶自回归模型;例如,根据来自相邻子带的估计,或者前一迭代步骤和两个紧邻子带的估计噪声功率的线性组合的线性自回归模型,或者已经估计出的前一迭代步骤的噪声功率和两个相邻噪声功率估计的线性组合的线性自回归模型,或者非线性模型,其中预测噪声功率为估计到的噪声功率的非线性方程。

适配噪声预测模型可以基于噪声预测模型和噪声功率估计之间的差异和/或一个或多个模型优化标准的连续适配,诸如预测误差的均方误差。适配噪声预测模型可以在已经执行给定时间帧n的全部迭代步骤之后执行,或者在给定时间帧的每次迭代之后执行。

开发听力植入物刺激信号可以包括使用噪声功率估计来降噪或用于带通信号的信道选择,或者用于听力植入系统的省电功能。

附图说明

图1示出了具有耳蜗植入系统的典型人耳的解剖结构。

图2示出了用于典型耳蜗植入系统的信号处理装置中的各个功能块。

图3示出了根据本发明实施例的用于耳蜗植入系统的信号处理装置中的各个功能块。

图4示出了根据本发明另一实施例的用于耳蜗植入系统的信号处理装置中的各个功能块。

图5示出了具有预测和估计的迭代噪声功率估计过程中的功能块。

图6示出了具有两个预测步骤和两个估计步骤的迭代噪声功率估计的示例。

图7a和7b示出了具有信号功率、估计的噪声功率和阈值迹线的白噪声中的语音波形。

图8示出了具有预测、估计和调整的迭代噪声功率估计过程中的功能块。

图9示出了预测、估计和适配的算法流程图,其中适配步骤在迭代循环之外。

图10示出了预测、估计和适配的算法流程图,其中适配步骤在迭代循环内。

具体实施方式

本发明的实施例涉及一种用于盲估计输入声音信号y[n]中的噪声功率的改进方法,其特征在于是承载信息的目标信号s[n](例如,语音)和不承载信息的干扰(噪声)信号d[n]的加法混合:y[n]=s[n]+d[n],其中n是时间索引,称为时间帧。特别地,解决了当目标信号s[n]不存在时检测时间帧的问题。在所述时间帧中,由于y[n]=d[n],可以通过使用(可观察的)输入声音信号y[n]来更新噪声功率的估计。递归地重复使用噪声功率估计以更新下一估计步骤的预测。该方法不同于例如美国专利8,385,572中所述的现有方法,现有方法中没有信号模型直接用于噪声功率估计算法。

估计噪声功率能够帮助听力植入系统中的多个信号处理应用。这些应用包括:

·降噪目的——可以对给定时间帧内具有较差信噪比(snr)的子带信号进行衰减以改善snr,因此用户有可能在噪声中享有更好的语音感知。

·耳蜗植入物(ci)信号编码——仅选择具有高snr或低噪声功率的电极通道进行刺激,这样可提供改善的听觉体验。

·省电策略——在仅有噪声的情况下,可以例如通过降低刺激速率和/或幅度来改变刺激模式以省电。

图3示出了根据本发明的基于传统的电刺激耳蜗植入物的实施例的用于耳蜗植入系统的信号处理装置中的各个功能块,其中预处理器滤波器组201处理输入声音信号y[n]以执行模数转换并应用分析滤波器组以生成带通信号yk[n],每个带通信号表示音频频率的相关频带,该频带也与一组相应的听觉神经元相关联。另外,包络检测器302、精细结构检测器303、脉冲发生器304和植入物305基本上如上面参照图2所讨论的那样操作。图3中所示的装置还具有布置在降噪系统中用于噪声功率估计306、snr估计307和增益计算308的附加处理级,以基于通过增益应用309施加在频率子带上的噪声功率估计确定增益因子。听觉植入物刺激信号z由带通包络信号yk[n]和精细结构信号xk[n]产生,用于输送到听力植入系统的植入部分。图4示出了根据本发明另一实施例的用于耳蜗植入系统的信号处理装置中的各个功能块,其中噪声功率估计和/或snr估计被类似地执行并用于声音编码目的。包络检测器402、精细结构检测器403、脉冲发生器404、噪声功率估计406、snr估计407、增益计算408和植入物405基本上如上面关于图2或图3所讨论的那样操作。与图3不同,其中增益应用309阶段在包络检测器302和精细结构检测器303之前,增益计算408的输出是用于直接施加到阶段包络检测器402和精细结构检测器403的馈送。在该示例中,增益应用被集成到相应的阶段中并且可以彼此独立地施加增益因子即精细结构检测器403可以与包络检测器402不同地施加增益因子。在一个实施例中,精细结构检测器403和包络检测器402可以应用彼此相关的,例如给出特定函数关系的增益因子。该函数关系可以例如取决于互相关属性。

在这样的系统中,噪声功率估计模块306将未知噪声功率的估计分成三个主要步骤:

1.预测——首先,使用基础噪声过程的模型预测当前时间点的噪声功率。基于该预测,判断语音存在或不存在。

2.估计——使用语音存在的判断,更新当前噪声功率估计。

3.适配——使用已更新的噪声功率来更新噪声预测模型以用于预测下一步的噪声功率。

假设估计值将比预测值更接近噪声功率的真实值。在估计步骤之后关于未知噪声功率的信息的增加用于改善噪声模型。因此,改进了对下一步骤的预测,使得能够更准确地判断语音存在或不存在。

可以针对相同时间点n执行多次预测和估计,使得噪声功率估计模块306在一系列采样时间帧n和迭代步骤i=1,…,i中处理带通信号yk[n],从而产生噪声功率估计值对于每个时间帧n和迭代i,噪声功率估计模块306使用噪声预测模型来确定当前观测到的信号采样py[n,k]是否包括目标信号s[n]。如果当前观测到的信号采样py[n,k]包括目标信号s[n],则当前噪声功率估计在不使用当前观察到的信号采样py[n,k]的情况下进行更新。否则,如果当前观察到的信号采样py[n,k]不包括目标信号s[n],则使用当前观察到的信号采样py[n,k]更新当前噪声功率估计噪声预测模型也基于更新的噪声功率估计来调整。执行多个迭代步骤增加了对语音存在或不存在做出正确判断的概率,并因此导致更准确的噪声功率估计

观察到的目标信号s[n]和噪声信号d[n]被假定为局部平稳随机过程的实现,其中允许过程的统计(例如,由诸如均值和方差的统计矩表示)随着时间的推移缓慢变化。例如,信号功率是时变的,但在短时间内大致保持恒定。噪声处理可以被认为平稳(即,统计矩不改变)的时间窗口被假定为比目标(语音)处理的时间窗口更长。此外,假定噪声和语音处理在统计上独立于零均值。使用第二个假设,信号功率为py=e{(s+d)2}=e(s2)+e(d2)=ps+pd。也就是说,只需添加语音功率和噪声功率,其中e{·}表示统计期望。

通常,使用例如滤波器组(时域,dft,其他子空间......)将输入声音信号y[n]分解为多个子带:yk[n]=fb(y[n]),k=1,…,k。通常对每个时间和子带执行处理。如果不需要,则在后面隐藏时间和子带索引。由于期望操作不能在实际施用中执行,因此通常使用随时间的平均值来估计,例如通过使用低通滤波器。估计的信号功率则为py=<(s+d)2>=<s2>+<d2>=ps+pd,其中<·>表示随时间的平均值。使用上述的平方信号或者等效地使用平方包络。对于语音处理应用,低通滤波器通常具有约5-50hz的6db截止频率,其包括语音调制。在低通滤波之后,可以应用对采样频率降低十倍的明显更低的采样率(例如,80-100hz),以便降低后续阶段的计算复杂度。

图5示出了具有预测和估计的迭代噪声功率估计过程中的功能块,其中对于时间帧n和迭代步骤i,具有用于迭代索引i的迭代记忆元素502和504:为了判断当前观察到的信号采样py[n,k]是否包含目标信号s[n]以及噪声信号d[n],或者仅包含噪声信号d[n],估计模块501执行迭代假设检验。如果估计模块501判定当前观测到的信号采样py[n,k]仅包含噪声信号d[n],则估计模块501使用该信号采样py[n,k]更新当前噪声功率估计如果估计模块501判定当前观测到的信号采样py[n,k]包含目标信号s[n]和噪声信号d[n],则估计模块501更新当前噪声功率估计而不使用当前信号采样py[n,k],其保持当前噪声功率估计值不变,或者使用频带组k以外的其他子带的多个相邻噪声功率估计值更新当前噪声功率估计

更具体地,迭代i的假设检验是当前采样py与可变阈值η的简单比较:

py[n,k]≤η[n,k,i]:py[n,k]仅由噪声组成(零假设h0)

py[n,k]>η[n,k,i]:py[n,k]由噪声和语音组成(假设h1)

然后基于假设检验的决策构建噪声功率估计还可以应用随时间n和/或子带k的递归平滑,通过该平滑来考虑噪声功率随时间和/或子带的相关性。如果假设检验表明语音信号s[n]不存在(零假设h0),则使用当前信号采样py[n,k]和从时间点n-1及最后一次迭代步骤i估计的噪声功率更新噪声功率估计

使用硬阈值判定,噪声功率估计则为:

如果零假设被拒绝(存在语音),则噪声功率估计保持不变,即,

那么,噪声功率估计的更新为

替代地,在存在语音的情况下,可以附加使用相邻噪声功率估计的加权和来更新噪声功率估计

其中

其具有适当选择的权重wl,k,例如

wl,k=aexp(-b|l-k|m)

以及适当选择的参数a,b,m。利用该加权,较远的子带比相邻子带贡献少,反映了例如当频率距离增大时相关性降低。还可以使用来自n之前的时间帧或者来自时间帧n和先前迭代i的已经存在的噪声功率估计来连续地估计和更新权重wl,k和/或参数a,b,m。平滑参数α(语音不存在的情况下)和γ(存在语音的情况下)确定来自时间帧n-1的噪声功率估计的影响程度,并且以简单的方式模拟噪声功率随时间的相关性。

代替上述硬阈值判定,可以使用软阈值判定,并且这可能是有利的,因为关于语音不存在或存在的判定的错误将具有较小的权重。将与阈值η的比较的输出定义为语音不存在的概率。可以使用判定

p[n,k,i]=g(η[n,k,i],py[n,k]),

其具有适当的函数g(·)提供用于区间[0,1]中不存在语音的概率的(软)值。例如,s型函数

其中

t[n,k,i]=η[n,k,i]-py[n,k]

并且βk确定所述函数的陡度。对极限情况βk→∞实现了硬判定。使用语音缺失概率p[n,k,i],则在迭代i、时间帧n和子带k处的噪声功率估计是

其中语音存在概率为1-p[n,k,i]。对于上述第一种简单情况,噪声功率估计则是

其中具有缩放的语音缺失概率

可以使用随机信号模型导出阈值,该随机信号模型使用似然比检验统计量将所涉及的信号py,ps,pd视为随机过程(neyman,j.,pearson,e.,ontheproblemofthemostefficienttestofstatisticalhypotheses,philosophicaltransactionsoftheroyalsocietyoflondon,seriesa,containingpapersofamathematicalorphysicalcharacter231,pp.289-337,1933;通过引用整体并入本文):

其中是给定ps的过程py的条件概率密度函数(幅度分布)。将似然比与阈值进行比较,λ(py)>η,如果该不等式成立,则判定支持假设h1(存在语音)。目的是针对给定的虚警概率pfa(当实际上不存在语音时做出存在语音的判定)来使做出正确判断(在语音实际存在时做出存在语音的判定)的概率最大化。虚警概率是在语音实际不存在时测试统计量λ(py)大于阈值的概率,即假设h0有效

利用该等式,可以确定给定虚警概率的阈值。

由于py=ps+pd,所述阈值是未知噪声功率pd的函数。为了能够计算阈值,使用如下所述的时间n的未知噪声功率的预测这产生阈值其中函数η(·)取决于假定的概率密度

准确估计噪声功率的关键是正确判断当前观察到的采样py[n]是来自语音和噪声两者还是仅来自噪声。该判断基于阈值计算,并取决于目标虚警概率和噪声功率。由于噪声功率未知并且是该过程的目标,因此不能直接计算阈值。然而,可以基于先前的噪声功率估计使用基于时变噪声模型的未知噪声功率的预测值以及在先前迭代步骤中产生的估计,即然后可以通过使用例如一阶自动回归模型(ar-1)来对当前迭代步骤的噪声功率进行预测:

其中θ=[θ1,θ2,…,θm]t是模型参数。在一些特定实施例中,来自相邻子带的估计也可以用在预测模型中:

适配用于噪声功率的预测模型参数θ以提高后续预测的准确度。这是通过在时间n和最后一步迭代i使用噪声功率的最终估计和预测来完成的。具体而言,两者之间的差异给出了关于模型与实际噪声过程之间的不匹配的信息,并且用它来适配模型参数。由于模型被适配,因此参数随时间发生变化,即(线性或非线性)模型本身随时间变化。如下面进一步描述的适配规则限定了如何适配参数来适应当前情况。

为了预测噪声功率,可以使用各种不同的特定模型;例如,线性ar-11模型,其中预测的噪声功率是前一次迭代的估计噪声功率与两个直接相邻的子带的线性组合:

其中,对于i=1,即来自前一时间帧n-1的估计。或者可以采用线性ar-ml模型,其中预测噪声功率是m个已经估计的噪声功率与最后一次迭代的估计噪声功率以及2l个相邻噪声功率估计的线性组合:

或者可以使用非线性模型,其中预测的噪声功率是相对于估计的噪声功率的非线性函数,在这种情况下,可以实施许多不同的替代方案,例如递归多项式模型。

对于参数内线性预测模型,模型参数可被压缩成矢量并且该预测写为对于线性ar-11模型:

并且:

图6示出了i=2次迭代步骤的示例,其中可以估计时间帧n-1。第一次迭代的第一步是预测时间n的噪声功率。在该示例中,预测基于在n-1,k,k-1,k+1处估计的噪声功率。基于预测的噪声功率,计算出语音缺失概率(sap,p[n,k,i=1])。使用语音缺失概率,计算时间帧n和迭代i=1的噪声功率。在下一次迭代开始之前,对所有子带执行这些计算。通过每个时间帧执行多于一次的迭代,可以对例如由于关于语音存在的错误判断造成的次优估计进行校正。

可以简要地考虑两种情况,即反映易于对语音存在或不存在做出错误决定的两种情况。在噪声功率增大并且不存在语音的情况下,由于信号功率的增大,可能会决定语音存在。如果在时间帧n、子带k、迭代i=1时错误地确定语音存在,则不更新噪声功率估计并且不会跟随增大的噪声功率,即,它将太小。如果在相邻子带k-1,k+1中判断是正确的,则噪声功率的估计被正确地更新并且增大。在下一个迭代步骤中,假设噪声模型足够准确,子带k中的噪声功率将基于相邻子带中的更新的噪声功率估计进行预测并且也将增大。由于噪声功率预测将更准确,因此在此迭代步骤中正确判断语音存在或不存在的概率增加,因此判断语音不存在将更可能导致更新噪声功率估计的概率更高。

在噪声功率下降并且存在语音的另一情况下,可能由于信号水平降低而决定不存在语音。也就是说,可能在时间帧n、子带k、迭代i=1时确定不存在语音。然后噪声功率将被错误更新。假设在相邻子带中做出正确决策和更新,即,降低该处的噪声功率估计,在迭代i=2时,可以决定语音存在,从而引起噪声功率的正确更新。

利用该方法,迭代地计算语音不存在概率,并且由于子带之间的相关性,假设在一个迭代步骤中的错误判定在以下步骤之一中被校正。图7a和7b示出了白噪声中的语音的简单估计示例。示出了两个子带以及估计的噪声功率和阈值。该示例中的阈值是从仅考虑来自相同子带的一个估计噪声功率采样的时不变预测模型导出的。

图8示出了迭代噪声功率估计过程的功能块,其包括噪声功率估计模块801、噪声预测模型804、噪声模型适配模块803和迭代索引i的迭代记忆元素802和805。在适配模块803内,使用在估计步骤中获得的信息来调整预测模型参数。具体地,在最后的迭代步骤的预测和估计之间使用差异。假设在估计步骤中,与预测相比,关于未知噪声功率的知识增加。该预测仅用于判断是否存在语音。即使预测不是非常准确,关于语音存在的判定也可能是正确的。如果关于语音存在的判断是正确的,则在估计步骤中增加关于未知噪声功率的知识,并且利用该信息获取来适配预测模型。根据优化标准连续地适配模型参数,以便最小化预测误差的均方误差j=e{e[n,k,i]2},其中预测误差:

然后可以例如使用最陡下降方法来适配预测模型参数

其中固定(或时变)的步长μ确定适配的精度和跟踪速度。通常,由于因缺乏对预测误差统计的了解而无法计算期望e{·},因此可以使用随机梯度下降方法,例如,最小均方(lms)方法

有利地,所述适配仅考虑良好噪声功率估计的概率很高的情况,即,比较确定不存在语音的情况,因为此时可以高概率地准确估计噪声功率。对于ar-11预测模型

固定步长变成结合语音缺失概率的3x3对角时变步长矩阵,

使用此矩阵步长,等式更新为

θn,k=θn-1,k+qn,k,iψn,k,ie[n,k],

因此,将模型调整大致限制在语音缺失时段。

适配和迭代可通过至少两种可能的方法交替进行。图9示出了步骤901预测、步骤902估计和步骤905适配的算法流程图,其中适配步骤在迭代循环之外,使得在全部i个迭代步骤已经执行之后适配模型。因此,在由步骤903和904形成的循环内的迭代期间,模型参数保持恒定,并且模型中的估计噪声功率从i-1更新为i。最后在步骤906,时刻递增,并且重新开始对下一时刻的算法。

图10示出了步骤1001预测、步骤1002估计和步骤1003适配的流程图算法,其中适配步骤在由步骤1004和1005形成的迭代循环内,使得模型在每个迭代步骤被适配。因此,在迭代i之后,在下一次迭代前进到步骤1006中的下一时刻之前更新模型参数。在这种情况下,基于当前迭代对噪声功率的预测和估计来计算预测误差。

由于上述递归方法,可以仅用短暂的延迟来跟踪噪声功率随时间的改变。并且由于对预测模型的适配,该系统能够适应各种声学情况,尤其适用于各种噪声类型。此外,与现有装置相比,该方法具有相对较低的计算复杂性。当然,由于递归方法,系统可能因参数与输入信号的某些不利组合而变得不稳定。

本发明的实施例可以部分地在任何传统计算机编程语言中实现。例如,优选实施例可在过程编程语言(例如,“c”)或面向对象编程语言(例如,“c++”、python)中实现。本发明的替代实施例可作为预编程的硬件元件、其他相关组件或作为硬件和软件组件的组合实现。

实施例可以部分地实现为用于与计算机系统一起使用的计算机程序产品。这样的实施方式可以包括一系列的计算机指令,其固定在诸如计算机可读介质(例如,软盘、cd-rom、rom、或硬盘)的有形介质上,或者可以经由调制解调器或诸如通过媒介连接到网络的通信适配器的其他接口设备传输到计算机系统。该媒介可以是有形媒介(例如,光学或模拟通信线路)或利用无线技术(例如,微波、红外或其他传输技术)实现的媒介。所述一系列计算机指令关于系统实现这里之前描述的全部或部分功能。本领域技术人员应当理解,这样的计算机指令可以以用于许多计算机架构或操作系统的多种编程语言来编写。此外,这样的指令可以存储在诸如半导体、磁、光或其他存储设备的任何存储设备中,并且可以使用诸如光、红外、微波、或其他传输技术的任何通信技术来传输。预计这样的计算机程序产品可以作为带有印刷或电子文档的可移动媒体分发(例如,塑封软件),通过计算机系统预装载(例如,在系统rom或硬盘上),或者通过网络(例如,互联网或万维网)从服务器或电子布告栏分发。当然,本发明的一些实施例可以实现为软件(例如,计算机程序产品)和硬件二者的组合。本发明的其他实施方式实现为纯硬件,或纯软件(例如,计算机程序产品)。

尽管已经公开了本发明的各种示例性实施例,但是对于本领域技术人员来说显而易见的是,可以做出将实现本发明的一些优点的各种改变和修改而不脱离本发明的真实范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1