用于听力植入物中的瞬态声音修改的装置的制作方法

文档序号:13111306阅读:253来源:国知局
用于听力植入物中的瞬态声音修改的装置的制作方法
用于听力植入物中的瞬态声音修改的装置相关申请的交叉引用本申请要求来自于2013年12月11日提交的、标题为“AutomaticSelectionofReductionorEnhancementofTransientSounds”的美国临时申请No.61/914,653的优先权,在此通过引用将其整体合并于此。技术领域本发明涉及诸如耳蜗植入物的听力植入系统,具体地,涉及其中使用的与瞬态声音相关联的信号处理。

背景技术:
正常的耳朵如图1所示通过外耳101将声音发送到鼓膜(耳膜)102,使得中耳103的骨骼(锤骨、砧骨和镫骨)移动,使耳蜗104的卵圆窗和圆窗开口振动。耳蜗104是围绕其轴螺旋地缠绕大约两个半匝的长而窄的导管。它包括称为前庭阶的上通道和称为鼓阶的下通道,它们通过耳蜗管连接。耳蜗104形成具有称为蜗轴状的中心的直立螺旋锥,听神经113的螺旋神经节细胞驻留于此。响应于接收到的由中耳103传送的声音,充满流体的耳蜗104充当换能器,来生成电脉冲,所述电脉冲被传送到听神经113,并且最终到大脑。当沿着耳蜗104的神经基质将外部声音转换成有意义的动作电位的能力有问题时,听力受到损害。为了改善受损的听力,已经开发了听觉假体。例如,当损伤涉及中耳103的操作时,可以使用常规的助听器将声学机械刺激以放大后的声音的形式提供给听觉系统。或当损伤与耳蜗104相关联时,具有植入刺激电极的耳蜗植入物可以用由沿着电极分布的多个电极触点传递的小电流来电刺激听觉神经组织。图1还示出了典型耳蜗植入系统的一些组件,包括外部麦克风,该外部麦克风将音频信号输入提供给外部信号处理器111,其中可以实现各种信号处理方案。处理过的信号接下来被转换成诸如数据帧序列的数字数据格式,用于经由线圈107传输到植入物108。除了接收已处理的音频信息,所述植入物108还执行附加的信号处理,诸如错误校正、脉冲形成等,并且产生通过电极引线109发送到植入电极阵列110的刺激模式(基于所提取的音频信息)。通常,该电极阵列110在其表面包括提供耳蜗104的选择性刺激的多个电极112。如今在耳蜗植入物中,相对较少的电极分别与相对较宽的频率带相关联,其中每个电极通过刺激脉冲寻址一组神经元,所述刺激脉冲的电荷从该频率带之内的包络的瞬态幅值得到。在一些编码策略中,刺激脉冲以恒定的速率被施加在所有电极上,而在其他编码策略中,刺激脉冲以电极特定速率被施加。各种信号处理方案可以被实现用于产生电刺激信号。耳蜗植入物领域中公知的信号处理方法包括连续交织采样(CIS)数字信号处理、通道特定采样序列(CSSS)数字信号处理(如在美国专利No.6,348,070中所描述的,该专利通过引用并入本文)、谱峰(SPEAK)数字信号处理、和压缩模拟(CA)信号处理。例如,在CIS方法中,用于语音处理器的信号处理涉及以下步骤:(1)借助于滤波器组将音频频率范围划分为频谱带,(2)每个滤波器输出信号的包络检测,(3)包络信号的瞬态非线性压缩(映射法则,maplaw)根据耳蜗的音质分布组织,在鼓阶中的每个刺激电极与外部滤波器组的带通滤波器相关联。对于刺激,施加对称双相电流脉冲。从压缩的包络信号直接地获得刺激脉冲的幅度。这些信号被顺序地采样,并且以严格不交迭序列施加刺激脉冲。因此,作为典型的CIS特征,一次仅一个刺激通道是活动的,并且整体刺激速率相当高。例如,假设整体刺激速率是18kpps并且使用12通道滤波器组,每通道的刺激速率是1.5kpps。这样的每通道刺激速率通常对于包络信号的充分时间表示是足够的。最大整体刺激速率受限于每脉冲的最小相位持续时间。相位持续时间不能选择为任意短,因为脉冲越短,必须引起神经元中的动作电位的电流幅度越高,并且由于各种实际原因限制了电流幅度。对于18kpps的整体刺激速率,相位持续时间为27μs,其靠近下限。CIS带通滤波器的每个输出在由包络信号调制的带通滤波器的中心频率处可以被大体认为是正弦曲线。这是由于滤波器的品质因数(Q≈3)造成的。在浊音语音片段的情况下,这个包络是近似周期性的,并且重复率等于基音频率。在现有CIS策略中,只将包络信号用于进一步处理,即,它们包含整个刺激信息。对于每个通道,所述包络被表示为恒定重复速率的双相脉冲的序列。CIS的特性特征在于,该重复速率(通常1.5kpps)对于所有通道相等,并且各个通道的中心频率没有关系。希望的是,重复速率对于患者不是临时的提示,即,其应当足够高,使得患者感知不到等于重复速率的频率的音调。通常将重复速率选择在大于两倍的包络信号的带宽(奈奎斯特定理)。传送精细时间结构信息的另一耳蜗植入刺激策略是Med-El的精细结构处理(FSP)策略。跟踪带通滤波的时间信号零交叉点,并且在通道特定采样序列(CSSS)的每个负到正的零交叉点启动。通常CSSS序列仅被施加在前一个或两个最顶上的通道,覆盖频率范围高达200或330Hz。在HochmailI,NoppP,JollyC,SchmidtM,H,GarnhamC,AndersonI,MED-ELCochlearImplants:StateoftheArtandaGlimpseintotheFuture,TrendsinAmplification,vol.10,201-219,2006中描述了FSP布置,通过引用将其并入本文。图2示出了在现有耳蜗植入(CI)系统的典型信号处理布置中的主要功能块,其中包含刺激定时和幅度信息的带通信号被分配至刺激电极。预处理器滤波器组201预处理初始声学音频信号,例如自动增益控制、降噪等。预处理器滤波器组201的每个带通滤波器与音频频率的特定频带相关联,使得所述声学音频信号被过滤成一些N带通信号B1至BN,其中,每个信号对应于带通滤波器中的一个的频率的频带。带通信号B1至BN被输入到刺激脉冲发生器202,刺激脉冲发生器202提取信号特定刺激信息——例如,包络信息、相位信息、请求的刺激事件的定时等——成为一组N个刺激事件信号S1至SN,它们表示电极特定请求刺激事件。例如,可以如在美国专利6,594,525中描述的那样使用通道特定采样序列(CSSS),通过引用将其并入本文。脉冲映射模块203将非线性映射函数(一般是对数)施加到每个带通包络的幅度。这种映射函数通常自适应于在所述植入物的装配期间单独CI用户的需要以便实现自然响度生长。这可能是应用于每个请求的刺激时间信号S1至SN的特定形式的功能,所述请求的刺激时间信号S1至SN反映患者特定的感知特性以产生提供声学信号的最优电表示的一组电极刺激信号A1至AM。脉冲映射模块203控制响度映射函数。电脉冲的幅度从所分配的带通滤波器输出的包络得出。具有形式因子C的对数函数通常可应用于刺激事件信号S1至SN作为响度映射函数,其跨所有带通分析通道大致相同。在不同系统中,可以使用不同的特定响度映射函数而不是对数函数,虽然仍仅一个相同函数应用于所有通道以产生来自脉冲映射模块203的电极刺激信号A1至AM输出。通过单独幅度映射和脉冲整形器204中的脉冲形状限定来实现患者特定的刺激,所述脉冲形状限定将所述一组电极刺激信号A1至AM发展成到植入电极阵列中的电极的一组输出电极脉冲E1至EM。,它们刺激相邻的神经组织。背景噪声降低了助听器和耳蜗植入用户的语音可懂度。根据Hernandez等人的AnAssessmentOfEverydayNoisesAndTheirAnnoyance,HearingReview,2006,13(7),16-20(通过引用并入本文),33%的可感觉背景噪声是由瞬态声音形成的,诸如计算机按键敲击、摔门、盘子哗啦声等,它们都是令人不愉快的并且降低了收听的舒适感(也参见德国专利DE102005043314,通过引用并入本文)。已经发现现有助听器中的瞬态噪声减少算法,诸如来自UnitronConnect的AntiShock和来自西门子的SoundSmoothing,得以改进收听体验。参见DiGiovanni等人的EffectsofTransient-NoiseReductionAlgorithmsonSpeechIntelligibilityandRatingsofHearingAidUsers,AmericanJournalofAudiology,首次出版于2011年9月22日作为doi:1044/1059-0889(2011/10-0007),通过引用并入本文。在其它应用中也寻求瞬态噪声减少。例如,对于汽车乘客的声音质量可以通过减少在轮胎撞击障碍物时产生的瞬态道路噪声而得到提高。参见美国专利7,725,315,通过引用并入本文。另一方面,比如语音的辅音或上/偏移的短持续时间瞬态语音特征的增强可以改进某些收听条件下的语音感知,特别是对于低强度。参见:VandaliA.E.,EmphasisofShort-durationAcousticSpeechCuesforCochlearImplantUsers,TheJournaloftheAcoustivcalSocietyofAmerica,2001,109(5),2049-2061,doi:10.1121/1.1358300;以及HoldenL.K.,VandaliA.E.,SkinnerM.W.,FourakisM.S.,HoldenT.A.,SpeechRecognitionWiththeAdvancedCombinationEncoderandTransientEmphasisSpectralMaximaStrategiesinNucleus24Recipients,JouralofSpeech,Language,andHearingResearch,2005,48,681-701,其每一个通过引用整体并入本文。这还可以增强某些语音特征的开始,最终产生了增强的可理解性。参见KoningR.,WoutersJ.,ThePotentialofOnsetEnhancementforIncreasedSpeechIntelligibilityinAuditoryProstheses,J.Acoust.Soc.Am.132(4),October2012,2569-2581;以及JingChen和BrianC.J.Moore,EffectofIndividuallyTailoredSpectralChangeEnhancementonSpeechIntelligibilityandQualityforHearing-ImpairedListeners,ProceedingsofICASSP2013,Vancouver,Canada,May2013,其每一个通过引用并入本文。同样,在渲染音频数据的高端音频设备中,期望修改比如鼓槌击鼓的瞬态特征的可能性,以在音乐收听中符合不同的个体偏好。参见美国专利7,353,169,通过引用并入本文。在美国专利7,353,169中,谱通量被用于确定在高端音频设备中瞬态特征的频率特定指标。根据这些指标,应用了对应瞬态特征的修改以改善音乐的印象。由用户来决定他所偏好的数量、频率范围、和修改的种类(抑制或增强)。下面提供了针对瞬态的分别减少和增强的一些方法。瞬态噪声减少在Frühauf于2013年8月26日提交的、标题为“ReductionofTransientSoundinHearingImplants”的美国专利申请No.13/975,487(通过引用并入本文)中,声音信号被转换成K个子信号并且这些信号中的每一个对应于某个频率范围。这些子信号的包络被认为和称为子带包络。瞬态噪声信号的一个特性是在宽频率范围上的每一个通道中具有高数值的包络,其中低频界限高于约1kHz。使用输入信号的功率和子带中的包括来计算瞬态噪声特征的通道特定指标。如果所有对应的子带包络相对于整个信号的功率具有高数值,则这些指标具有高数值。高于约1kHz的频率范围中的所有指标的高数值表征了瞬态噪声特征,而辅音或摩擦音仅具有具备高数值的一些指标。因此,高于约1kHz的频率范围的指标进行相乘以得到具有用于瞬态噪声特征的高数值的指标。瞬态信号的另一特性是声音信号的快速和急剧上升包络。因此,在瞬态的出现期间,该包络具有用于短时间间隔的大得多的值。在德国专利DE102005043314中,考虑了声音信号的包络的陡度和/或幅度。如果这些值中的一个或两个超过某些阈值,则声音信号被衰减。在欧洲专利EP1371263(通过引用并入本文)中,声音信号被转换成频域中的K个子信号。然后,对于每一个子信号,计算了两个或三个子索引,其被用于将当前声音信号分类为类别“平稳噪声”、“准平稳噪声”、“期望语音和音乐”和“瞬态噪声”。这些子索引分别指的是在给定时间间隔期间的强度变化、调制频率、以及信号的非常类似的强度的持续时间。根据分类的类别,计算了增益函数,其被用于在分类的类别“平稳噪声”或“准平稳噪声”的情况下抑制瞬态声音或提高SNR。在WO99/53615(通过引用并入本文)中,瞬态检测器将输入信号分成至少两个频率带。在这些频带中的每一个中,所述包络的导数和/或幅度与至少一个阈值函数相比较以指示相应频带中的瞬态。如果在至少一个频带中检测到瞬态,则以下面这样的方式来改变自适应滤波器的系数:通过用该确定的自适应滤波器来对延迟的输入信号进行滤波来减少输入信号中的瞬态。在检测器不再检测到瞬态之后,所述滤波器系数返回到瞬态出现之前的值。在美国专利7,353,169中,谱通量被用于确定高端音频设备中的瞬态特征的频率特定指标。根据这些指标,对应瞬态特征的修改被应用以改善音乐的印象。由用户来决定他所偏好的数量、频率范围以及修改的种类(抑制或增强)。美国专利7,725,315(通过引用并入本文)描述了基于码本或神经网络使用瞬态道路噪声的模型来衰减瞬态声音。美国专利7,869,994(通过引用并入本文)描述了基于阈值的某些小波系数的衰减以抑制瞬态声音。在耳蜗植入系统中减少瞬态特征的可能性是如在美国2005/0209657(通过引用并入本文)中所建议的使用助听器算法。在B.,ZierhoferC.M.,HochmairE.S.,InfluenceofAutomaticGainControlParameterSettingsonSpeechUnderstandingofCochlearImplantUsersEmployingtheContinuousInterleavedSamplingStrategy”Ear&Hearing,1999,20,104-1161999(通过引用并入本文)中,提出了双前端AGC来减少瞬态特征。瞬态语音增强美国专利7,219,065(通过引用并入本文)描述了在声音信号的频率通道中多个包络被生成。然后,在每个通道中,在短时间窗口(60ms)内包络强度的变化被研究以计算增益,其被用于在检测到瞬态语音特征的情况下增强包络强度。对于强度的较小变化或降低值,所述增益被设置成一。如果强度在时间窗口的开始(0-20ms)、中间(20-40ms)和末尾(40-60ms)分别为低、高和低值,则实现了最高增益值(高达14dB)。此外,如果存在启动,则使用小增强,即,在开始是小值包络、接着在时间窗口的中间和末尾为高值。KoningR,WoutersJ.,ThePotentialofOnsetEnhancementforIncreasedSpeechIntelligibilityinAuditoryProstheses,J.Acoust.Soc.Am.Volume132,Issue4,pp.2569-2581(2012);(通过引用并入本文)描述了被分离成频率带的声音信号,并且通过与峰值包络信号相加来增强对应包络的启动。频带特定峰值包络是对应包络的加权修正差和加权低通滤波后的包络。研究表明,启动的这种增强提高了语音可懂度。Chen,J.,Moore,B.C.J.,EffectofIndividuallyTailoredSpectralChangeEnhancementonSpeechIntelligibilityandQualityforHearing-impairedListeners,ProceedingsofICASSP2013,Vancouver,Canada,May2013(通过引用并入本文)研究了用于听力受损收听者的频谱变化的增强的影响。输入的声音信号通过短时傅立叶变换被转换为频谱分量。然后,这些幅度的改变被增强并且变换回到时域。通过患有轻微到中度听力损伤的对象评估这些增强的信号。研究表明,语音可懂度增加,同时声音质量保持几乎相同。

技术实现要素:
根据本发明的实施例,呈现了一种在与听力植入物相关联的电极阵列中生成用于电极触点的电极刺激信号的系统和方法。输入音频信号被处理以生成多个带通通道信号,所述带通通道信号中的每一个表示音频频率的关联频带。应用平稳降噪以便从每一个通道信号提供平稳降噪后的通道包络。检测所述通道包络中的一个或多个中的瞬态。根据所述瞬态是瞬态噪声还是瞬态语音来修改所述通道包络,以便形成瞬态修改的包络。使用瞬态修改的包络来向所述电极触点生成电极刺激信号。根据本发明的相关实施例,所述方法可以包括:如果所述瞬态是瞬态噪声,则减少所述通道包络中的一个或多个中的所述瞬态噪声,以便形成所述瞬态修改的包络。替代地,如果所述瞬态是瞬态语音,则增强所述通道包络中的一个或多个中的所述瞬态语音以形成所述瞬态修改的包络。所述听力植入物可以是完全可植入的耳蜗植入物、具有外部语音处理器和包括所述电极阵列的植入刺激器两者的耳蜗植入物、或者听觉脑干植入物。根据本发明的进一步相关的实施例,检测瞬态可包括:对于每个通道包络,确定表征在所述通道信号中存在瞬态噪声的通道特定瞬态噪声指标;以及对于每个通道包络,确定表征在所述通道信号中存在瞬态语音的通道特定瞬态语音指标。所述通道特定瞬态噪声指标可以基于所述通道包络的功率与所述输入音频信号的功率的比例。确定通道特定的瞬态噪声指标可以包括高通滤波所述通道包络。对于每个通道包络,确定通道特定瞬态语音指标可以包括:高通滤波所述通道包络;低通滤波所述通道包络;确定高通滤波的通道包络、低通滤波的通道包络、和所述通道包络的范围;以及对于每个通道包络,根据所确定的范围确定通道特定瞬态语音指标。修改所述通道包络可以包括:根据它们关联的瞬态噪声指标和瞬态语音指标,将通道特定增益应用到每个通道包络,以产生所述瞬态修改的包络。时间延迟可以被引入,一旦检测到瞬态噪声,所述时间延迟允许直到在所检测到的瞬态噪声之前预定的时间修改所应用的通道特定增益。修改所述通道包络可以包括限制所述通道包络的幅度以减少由于大增强而造成的失真。根据本发明的另一个实施例,提供了一种用于生成用于与听力植入物相关联的电极阵列的电极触点的电极刺激信号的信号处理装置。所述装置包括滤波器组预处理器,所述滤波器组预处理器被配置成处理输入音频信号以生成多个带通通道信号,所述多个带通通道信号的每一个都表示音频频率的关联的频带。平稳降噪(NR)模块被配置成减少每个通道中的平稳噪声并且从每个通道信号提供平稳降噪的通道包络。瞬态修改级(TMS)被配置成检测所述通道包络中的一个或多个中的瞬态;以及根据所述瞬态是瞬态噪声还是瞬态语音来修改所述通道包络,以便形成瞬态修改的包络。刺激信号发生器被配置成使用瞬态修改的包络来向所述电极触点生成电极刺激信号。根据本发明的相关实施例,所述瞬态修改级可以被配置成:如果所述瞬态是瞬态噪声,则减少所述通道包络中的一个或多个中的所述瞬态噪声以形成所述瞬态修改的包络。如果所述瞬态是瞬态语音,则增强所述通道包络中的一个或多个中的所述瞬态语音以形成所述瞬态修改的包络。所述听力植入物可以是完全可植入的耳蜗植入物、具有外部语音处理器和包括所述电极阵列的植入刺激器两者的耳蜗植入物、或者听觉脑干植入物。所述瞬态修改级可以对于每个通道包络,确定表征在所述通道信号中存在瞬态噪声的通道特定瞬态噪声指标、以及表征在所述通道信号中存在瞬态语音的通道特定瞬态语音指标。所述瞬态修改状态可以基于所述通道包络的功率与所述输入音频信号的功率的比例来确定所述通道特定的瞬态噪声指标。所述瞬态修改状态可以基于高通滤波所述通道包络来确定所述通道特定瞬态噪声指标。所述瞬态修改级可以包括:高通滤波器,用于滤波所述通道包络;以及低通滤波器,用于滤波所述通道包络,其中,所述瞬态修改级进一步被配置成确定高通滤波的通道包络、低通滤波的通道包络、和所述通道包络的范围,并且对于每个通道包络,根据所确定的范围确定通道特定瞬态语音指标。所述瞬态修改级可以进一步被配置成根据它们关联的瞬态噪声指标和瞬态语音指标,将通道特定增益应用到每个通道包络,以产生所述瞬态修改的包络。所述瞬态修改级可以进一步被配置成提供时间延迟,一旦检测到瞬态噪声,所述时间延迟允许直到在所检测到的瞬态噪声之前预定的时间修改所应用的通道特定增益。所述瞬态修改级可以被配置成当修改所述通道包络时,限制所述通道包络的幅度以减少由于大增强而造成的失真。附图说明通过参考下面的参考附图进行的详细描述,将更容易理解实施例的前述特征,在附图中:图1示出了耳蜗植入系统中典型人耳和部件的解剖结构;图2示出了典型耳蜗植入系统的主要信号处理块;图3(a)示出了包括噪声和语音瞬态的示例性输入声音信号;而图3(b)示出了其关联的频谱图;图4示出了根据本发明实施例的用于助听器或植入物的信号处理系统的总体示意;图5示出了根据本发明实施例的更详细的示例性TMS;图6示出了根据本发明实施例的瞬态语音检测器模块的示例性实现;图7示出了根据本发明实施例的增益计算器模块的示例性实现;图8(a-d)示出了根据本发明实施例的用于各种语音瞬态的包络和对应增益。图8(a)示出了用于包括辅音[s]的语音瞬态的包络,而在图8(b)中,示出了对应增益。图8(c)示出了用于包括元音的语音瞬态的包络,而在图8(d)中,示出了对应增益;图9(a)示出了根据本发明实施例的瞬态噪声包络,而图9(b)示出了对应增益。图9(c)和9(d)分别示出了根据本发明实施例的对应包络和增益,其中增益的线性插值被应用于20ms前的增益和检测到瞬态噪声的位置之间。图10(a)示出了根据本发明实施例的TMS的信号改变的频谱图。图10(b)示出了根据本发明各个实施例的TMS的信号改变的频谱图;以及图11(a)示出了根据本发明实施例的与输入声音信号s相对应的5034.5-6811Hz的频率范围之内的所得到的增益。图11(b)示出了根据本发明实施例的与输入声音信号s相对应的6811-9000Hz的频率范围之内的所得到的增益。图12(a)示出了根据本发明实施例的与滤波器组之后的输入信号s相关联的频谱图。图12(b)示出了根据本发明实施例的与平稳噪声减少之后的输入信号s相关联的频谱图。图12(c)示出了根据本发明实施例的与瞬态修改之后的输入信号s相关联的频谱图。具体实施方式在说明性实施例中,提供了一种系统和方法,该系统和方法针对助听器或诸如耳蜗植入物的听力植入物的用户提高听觉舒适度和语音可懂度。更具体地,在各种实施例中,瞬态声音的检测器可以将瞬态自动表征为噪声或语音特征。瞬态特征的自动分配有利地允许减少令人不愉快的瞬态噪声,诸如盘子哗啦声、纸的沙沙声、或摔门声,并且增强诸如语音或音乐启动的期望声音特征。这可能导致增加听力植入物用户的语音可懂度以及收听舒适度。下面讨论细节。图3(a)示出了包括噪声和语音两者的示例性输入声音信号;而图3(b)示出了其关联的频谱图。输入声音信号包含语音、多路重合噪声、以及由于盘子哗啦声引起的两个瞬态噪声声音。这些瞬态噪声声音通过暗灰色区域来标记,并且对于助听器/听力植入物用户来说是令人不愉快的,应当被减少。另一方面,存在通过浅灰色区域标记的具有低强度的瞬态语音特征。在图3(b)中,音标被标注在括号中。这里,所述瞬态语音特征分别是名字“Wolfgang”的辅音[v]和[f]、词语“schenkt”([∫enkt])的[∫]以及词语“Tasse”([tase])的[t]和[s]。在图3(b)中,所述瞬态特征通过暗灰线(语音瞬态)和浅灰线(瞬态噪声)标记。图4示出了根据本发明实施例的用于助听器或植入物的信号处理系统的概要示意图。该听力植入物可以是但不限于耳蜗植入物,其中多通道电极阵列的电极被定位成使得它们例如在空间上划分在耳蜗内。该耳蜗植入物可部分植入,并且包括但不限于外部语音/信号处理器、麦克风和/或线圈,具有植入的刺激器和/或电极阵列。在其他实施例中,耳蜗植入物可以是完全植入的耳蜗植入物。在进一步的实施例中,所述多通道电极可以与脑干植入物相关联,诸如听觉脑干植入物(ABI)。图4中所示的信号处理系统包括单通道平稳降噪(NR)模块403和随后的瞬态修改级(TMS)405。这里,我们以数字化声音信号s开始。然后,通过滤波器组(FB)401,s被划分成K个解析信号s1,…,sK,所述滤波器组将对应的频率范围分配给它们中的每一个。滤波器组(FB)401可以被实现为具有特定截止频率的多个带通滤波器,或替代地并且没有限制地,快速傅立叶变换(FFT)或短时傅立叶变换(STFT)。接着,降噪(NR)模块403减少了每一个通道中的平稳噪声。降噪(NR)模块403的输出是减少了平稳噪声的K个包络x1,…,xK。可以在以下文献中找到该模块的可能实现:Y.Ephraim,D.Malah,SpeechEnhancementUsingaMinimumMean-SquareErrorShort-TimeSpectralAmplitudeEstimator,IEEETransactionsonAcoustic,Speech,andSignalProcessing,Vol.ASSP-32,No.6,December1984;以及S.F.Boll,SuppressionofAcousticNoiseinSpeechusingSpectralSubtraction,IEEETrans.Acoustics,Speech,andSig.Proc.,Vol.ASSP27,No.2,April1979,其每一个通过引用并入本文。这些K个包络是对于瞬态修改级(TMS)405的输入信号。在TMS405中,根据所检测到的瞬态的种类来修改每一个包络中的瞬态特征。例如,可以减少所检测到的瞬态噪声,同时可以增强所检测到的瞬态语音特征或其他期望的声音特征,诸如但没有限制的音乐启动。这导致包络的附加修改,所述包络是脉冲发生器模块407的输入信号y1,…,yK。然后,所生成的脉冲被传送到助听器或植入物。图5更详细地示出了根据本发明实施例的示例性瞬态修改级TMS405。TMS可以包括例如瞬态噪声检测器模块501、瞬态语音检测器模块503、增益计算器模块505、和增益应用模块M1,…,MK507,其中所计算的增益被应用于所述包络x1,…,xK。下面说明了这些中的每一个。瞬态噪声检测器模块瞬态噪声检测器模块501的输入信号可以包括K个包络x1,…,xK和声音信号s。这个模块的输出可以包括例如用于每一个通道的瞬态噪声的指标信号DTN1,…,DTNK。如果瞬态噪声特征存在于时间t,则所述指标可以具有但不限于高数值,而如果不存在瞬态噪声,则所述指标可以具有低数值。上文在背景技术部分描述了可以使用的用来计算瞬态噪声指标的示例性方法。说明性地,所述方法可以包括以下内容。A.使归一化的包络是与输入信号s的所有包络或能量进行比较的每一个包络的值,即,其中LP(s)是整个音频信号的功率估计。然后,归一化的一些包络的组合可以被用作瞬态噪声的指标;由于所述包络相比于瞬态语音特征在瞬态噪声位置处的大多数频率具有高数值(参见图3(b))。可能的计算通过给出,其中S是具有高于约1kHz的较低频率界限的通道集合。更详细的描述参见Frühauf的说明性算法。B.所述包络的组合可以被用作指标而不是归一化的包络。C.高通滤波的包络或归一化的包络的组合可以被用来确定所述指标。瞬态语音检测器模块瞬态语音检测器模块503可以包括与瞬态噪声检测器模块501相同的输入信号x1,…,xK,并且可进一步包括信号s。瞬态语音检测器模块503的输出信号可以包括瞬态语音的指标信号DTS1,…,DTSK。根据本发明的实施例,图6中示出瞬态语音检测器模块503的示例性实现。可以在每一个通道单独地完成指标的计算。为了简单起见,在下面的讨论中将忽略下标k。在第一步骤中,输入信号x可以在模块LP601中被低通滤波并且在模块HP603中被高通滤波。在第二步骤中,通过例如r(v)=max(0,a-m-v),不同的范围被确定用于信号LP(x)、HP(x)和x,分别单独地在范围确定模块605、607和609中使用任何合适的有界离散的或连续的函数,其中v可以是LP(x)、HP(x)或x。参数a和m可以被选择用于每一个通道,并且低通(aLP,mLP)和高通(aHP,mHP)滤波信号和信号x(ax,mx)不同。在第三步骤中,三个信号r(LP(x))、r(HP(x))和r(x)相组合以实现输出信号DTS。可以没有限制地通过乘法或查找表或其中不同范围输出为二进制——任何逻辑组合包括逻辑与、或逻辑或门——来完成所述组合。瞬态语音特征可以是瞬态启动或瞬态偏移语音特征,并且如果以下成立,则可被检测:mLP-aLP<LP(x)<mLP+aLP和mHP-aHP<HP(x)<mHP+aHP和mx-ax<x<mx+ax。如果在对应通道中发生瞬态语音特征(例如,语音的启动),则这产生具有大值的指标,如果没有瞬态语音特征,则指标具有低数值。这种情况是由于例如:●高通滤波信号对于平稳信号具有小绝对值。●在元音期间,瞬态噪声特征、或辅音x的平均值为大,即,LP(x)>mLP+aLP。●通常,语音在从50至70dB声压级(spl)的动态范围中。因此,瞬态语音特征处于x的某个间隔中。●瞬态噪声的启动非常陡并且因此高通滤波信号的绝对值大,即,HP(x)>mHP+aHP或HP(x)<mHP-aHP。在另一个实施例中,步骤2中的信号LP(x)可以进一步被高通滤波以在馈送到范围确定模块605之前形成信号HP(LP(x))。如果HP(LP(x))在间隔内,则检测到瞬态启动特征,并且如果HP(LP(x))在间隔内并且进一步满足mLP-aLP<LP(x)<mLP+aLP和mHP-aHP<HP(x)<mHP+aHP和mx-ax<x<mx+ax,则检测到瞬态偏移语音特征。以与参数aLP、mLP和aHP相同的方式,参数aon、mon和moff分别定义了用于启动和偏移瞬态语音特征的间隔界限。参数a和m可以被选择用于每一个通道,并且启动(aon,mon)和偏移(aoff,moff)不同地发信号。ron=r(HP(LP(x)))和roff=r(HP(LP(x)))分别表示用于启动和偏移语音特征的由范围确定模块605输出的信号。在第三步骤中,四个信号max(roff,roff)、r(LP(x))、r(HP(x))、和r(x)被组合以实现输出信号DTS。通过乘法而没有限制地可以完成所述组合。因此,通常在语音特征的启动和偏移期间DTS具有不等于零的值。以瞬态噪声特征可以可靠地与语音信号进行区分的方式,根据经验发现的语音的阈值来选择参数ax、mx、和aLP,mLP和aHP,mHP和aon、mon和aoff、moff。这些阈值可以取决于语言。参数还可以取决于频率,即,通道上的变化,优选地在低频通道比在高频通道具有更高的值。参数可进一步取决于输入信号,例如可以取决于输入信号是否包括归一化的包络。参数可取决于语言、频率通道和/或输入信号的任何组合。所述参数可在装配会话期间被编程到外部信号处理器111和/或耳蜗植入系统的植入物108。上文在背景技术部分中描述了可以使用的用来计算语音瞬态指标的示例性的方法。增益计算器模块增益计算器模块505可以包括瞬态噪声DTNk和语音DTSk的指标作为输入信号。输出可以是通道特定增益Gk。图7示出了根据本发明实施例的可以分成三个部分的增益计算器模块700的实现。第一模块“gc1”701生成实际增益函数h和实际的活动模式(mod∈{enh,sup})以用于所述信号的增强或抑制。第二模块“gc2”703计算信号f∈[0,1],其定义抑制或增强的量。第三模块“gc3”705最后确定输出增益G。下面更详细地描述这些模块中的每一个。这里n表示时间索引。模块“gc1”“gc1”模块701在算法中起关键作用,因为这里做出的是应当增强还是抑制信号分量的决定。一种可能的实现可以但不限于如下:假设检测到瞬态噪声,即DTN[n]>0。然后,应当立即开始瞬态噪声的抑制。因此,“gc1”模块设定mod[n]=sup用于抑制,并且h[n]=max(L,1-csup·DTN[n]),其中0<L<1是信号f的下限,并且参数csup控制指标DTN[n]用来抑制的量。在瞬态噪声的抑制的时间间隔期间(f<1),可以忽略所有检测到的瞬态语音特征。附加检测到的瞬态噪声可以增加抑制增益。如果抑制结束并且检测到瞬态语音特征(DTS[n]>0),则可以通过用参数cenh设置mod[n]=enh和h[n]=max(L,1-cenh·DTS[n])来开始增强。参数csup和cenh可以不同。用于模块“gc1”的示例性伪代码如下:模块“gc2”“gc2”模块703可以包括控制在抑制和增强模式中的攻击以及释放时间的参数asup、aenh、rsup和renh。在每种模式中,计算是相同的,但是参数值不同。所述计算可以说明性地通过以下来完成:对于抑制模式,期望快速攻击(h[n]≤f[n-1])来立即减少瞬态噪声的量,即,asup<<1。如果h[n]>f[n-1],则应用指数增加的增益,其中参数rsup控制释放时间,其应当对应于瞬态噪声的持续时间。对于增强模式,期望较慢的攻击时间以平滑地开始增强,即,0<<aenh<1。释放时间再次由参数renh控制,其可以对应于相应语音瞬态的偏移时间。模块“gc3”“gc3”模块705确定输出增益。说明性地,输出增益可以但不限于通过以下来计算:参数qg>1定义了最大增强。增益应用模块在增益应用模块M1,...,MK507中,计算的增益被应用到包络,即,yk=xk·Gk。图8(a-d)示出了根据本发明各个实施例的用于各种语音瞬态的包络和对应的增益。更具体而言,图8(a-b)示出了根据本发明各个实施例的用于各种语音瞬态的包络和对应增益,在从6811Hz至9000Hz的频率范围中在滤波器组(sk)之后,分别是平稳噪音减少级/模块(xk)以及瞬态修改级/模块TMS(yk)。图8(a)示出了根据本发明实施例的包括辅音[s]的用于语音瞬态的包络,而在图8(b)中,示出了对应增益。信号envFB指的是由滤波器组(FB)401输出的信号sk的包络,信号envNR指的是由降噪(NR)模块403输出的信号xk,并且envTR指的是由瞬态修改级(TMS)405输出的信号yk。直到时间4.36秒,平稳降噪错误地降低了包络并且模糊了语音的启动,因为模块(NR)403中的检测器识别语音太慢。之后,维持包络值,即,降噪(NR)模块403的所应用的增益gainNR等于1。在TMS中,辅音较早地被检测到。由降噪(NR)模块403应用的一些抑制部分被补偿,并且部分辅音被增强。这样做时,瞬态修改校正/抵消错误(慢)的处理。在图8(c)和8(d)中,根据本发明的实施例,在用于元音的低频中可以找到相同的属性。这里,TMS增强元音的启动。在图8(c)中,可以看出,增强了在从3.3秒至3.35秒的时间跨度期间的启动。由TMS405输出的信号envTR大于由NR模块403输出的信号envNR和envFB信号。所述信号envNR低于envFB并示出了降噪(NR)模块403不想要应用的抑制。TMS405校正/抵消降噪(NR)模块403的这个不希望有的行为。另外,可以看出,相比于来自滤波器组的信号envFB,在启动时段期间envTR更大,并由此相比于数字化的声音信号s在启动时段期间增强了语音信号。图9(a)示出了根据本发明实施例的当噪声瞬态发生但是TMS错误地确定瞬态语音特征时这个启动增强的可能不期望的副作用。特别地,与envNR和envTR一起示出了包络envFB。直到时间约3.025秒,平稳降噪级/模块降低了瞬态噪声的启动。但是在TMS中,启动被错误地确定为瞬态语音特征直到3.023秒,并且因此瞬态噪声被增强。在瞬态噪声检测器识别了瞬态噪声之后,施加所述减少。图9(b)示出了根据本发明实施例的对应增益。在各种实施例中,根据本发明的实施例,增益计算器模块505的修改可以解决不想要的增强。如果瞬态噪声被检测到时,可以修改在所检测到的瞬态噪声已经开始之前直到某个时间(在这种情况下,没有限制的,是20ms)的增益。为了实现此,可以有利地引入延迟,优选地延迟是10ms。在其他实施例中,延迟可以例如是15ms或20ms或者任何其他期望的延迟。在该时间(例如,20ms)内的该修改的增益可以从在瞬态噪声开始之前的延迟(例如,20ms)的增益值内插到检测到瞬态噪声的时刻的增益值。该内插可以是线性的。在另一个实施例中,内插可以是对数或指数。图9(c)和9(d)分别示出了对应的包络和增益,其中在检测到瞬态噪声前20ms和检测的位置的增益值之间应用TMS的增益的线性内插。另外或替代地,在TNS中的所计算的增益可以被低通滤波。在下文中,以上描述的对增益的修改将被称为TMSs并且增益和包络信号分别为gainTRs和envTRs。因此可以抑制整个瞬态噪声,但是如上所述,引入了附加延迟(例如,20ms)。应当注意,附加延迟足够短,并且不对例如语音感知或声源定位引入任何不想要的副作用。根据本发明的各种实施例,图10(a)中示出了TMS的信号改变的频谱图,图10(b)中示出了TMSs的信号改变的频谱图。在图10(a)和图10(b)中,辅音的增强和元音的启动的增强是可见的。在图10(a)中,还增强了瞬态噪声的启动,而增益的修改防止了图10(b)中的此情况。此外,在下面的频谱图中通过更平滑增强可以看到低通滤波器对增益的影响。注意到,在图10(a)和10(b)中,瞬态噪声的抑制被限于大于约1450Hz的频率。此外,图10(b)中20ms的延迟被忽略,以便更容易的比较。图11(a)示出了根据本发明实施例的与输入声音信号s相对应的5034.5-6811Hz的频率范围之内的所得到的增益。图11(b)示出了根据本发明实施例的与输入声音信号s相对应的6811-9000Hz的频率范围之内的所得到的增益。这里,两个瞬态噪声信号的衰减和语音瞬态的增强是可见的。注意到,抑制被应用于两个频率区域,而瞬态语音的增强被限于语音特征发生的频率。还可以看见语音特征的启动的增强。再次忽略20ms的延迟,以便更容易与其他曲线比较。图12(a)示出了根据本发明实施例的滤波器组之后的与输入信号s相关联的频谱图。图12(b)示出了根据本发明实施例的平稳降噪之后的与输入信号s相关联的频谱图。图12(c)示出了根据本发明实施例的在瞬态修改之后的与输入信号s相关联的频谱图。瞬态噪声和语音的抑制和增强显然是可见的。在各种实施例中,TMS模块之后的包络可以受限于滤波器组之后的包络的值以减少由于太大增强而造成的失真。平稳降噪的内部信号可以被包括在TMS处理中。示例性信号可以包括检测语音缺失和语音存在时段的话音活动检测器的输出或估计的信噪比。在TMS模块中所计算的增益的应用可以不同,例如,N-of-M编码策略可以被增益控制,因此导致修改的通道选择和刺激。不是所计算的增益,而是可以计算FIR滤波器的系数,其被应用于包络。本发明的实施例中可以以任何常规的计算机编程语言部分地被实现。例如,可以以流程编程语言(例如,“C”)或面向对象的编程语言(例如,“C++”、Python)来实现优选实施例。本发明的替代实施例可以被实现为预编程的硬件元件、其他相关组件、或实现为硬件和软件组件的组合。实施例可以部分被实现为计算机程序产品以用于与计算机系统一起使用。这样的实现可以包括固定在有形介质上的一系列计算机指令,诸如计算机可读介质(例如,磁盘、CD-ROM、ROM或固定盘)或经由调制解调器或诸如通过介质连接到网络的通信适配器的其他接口设备可传送到计算机系统。所述介质可以是有形介质(例如,光或模拟通信线路)或用无线技术实现的介质(例如,微波、红外或其他传输技术)。所述一系列计算机指令体现了在此关于所述系统先前描述的所有或一部分功能性。本领域技术人员应当理解,这样的计算机指令可以以多种编程语言编写以用于与很多计算机架构或操作系统一起使用。此外,这样的指令可以被存储在任何存储器设备中,诸如半导体、磁、光或其他存储器设备、微波、或其他传输技术。预期这样的计算机程序产品可以被分发为具有所附打印或电子文档(例如,收缩包装软件)、用计算机系统预加载的(例如,在系统ROM或固定盘上)、或通过网络(例如,因特网或万维网)从服务器或电子布告板分发的移动介质。当然,本发明的一些实施例可以被实现为软件(例如,计算机程序产品)和硬件的组合。本发明的其他实施例完全被实现为硬件,或完全被实现为软件(例如,计算机程序产品)。尽管已经公开了本发明的各种示例性实施例,对本领域技术人员应当显而易见的是,可以做出各种改变和修改,将实现本发明的一些优点而不偏离本发明的真实范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1