听觉假体声音编码的鲁棒瞬时频率估计的制作方法

文档序号:15064513发布日期:2018-07-31 22:26阅读:203来源:国知局

本申请要求2015年10月23日提交的美国临时专利申请62/245,361的优先权,通过引用的方式将其全部内容合并于此。

本发明涉及听觉植入体系统,尤其涉及用于在这种系统中产生电激励信号的技术。



背景技术:

如图1所示,正常的耳朵通过外耳101将声音传输到鼓膜102,鼓膜102移动中耳103的骨头(锤骨、砧骨和镫骨),这些骨头振动耳蜗104的椭圆形窗和圆形窗开口。耳蜗104是围绕其轴线螺旋缠绕大约两圈半的长窄管道。它包括由耳蜗管连接的称为前庭阶(scalavestibuli)的上通道和称为鼓阶(scalatympani)的下通道。耳蜗104形成中心称为蜗轴(modiolar)的直立螺旋锥体,听觉神经113的螺旋神经节细胞坐落其中。响应于所接收的通过中耳103传输的声音,充满液体的耳蜗104充当生成电脉冲的换能器,电脉冲被传输到耳蜗神经113并最终传输到大脑。

当沿着耳蜗104的神经基质将外部声音转换为有意义的动作电位的能力存在问题时,听觉受损。为了改善受损听觉,开发了听觉假体。例如,当损伤与中耳103的操作有关时,可以使用常规助听器以放大声音的形式向听觉系统提供机械激励。或者,当损伤与耳蜗104相关联时,具有植入式激励电极的耳蜗植入体可以利用通过沿电极分布的多个电极接触传送的小电流电激励听觉神经组织。

图1还示出典型的耳蜗植入体系统的一些组件,包括向可以实现各种信号处理方案的外部信号处理器111提供音频信号输入的外部麦克风。然后,将经过处理的信号转换为数字数据格式,诸如数据帧序列,用于传输到植入体108中。除了接收经过处理的音频信息之外,植入体108还进行附加的信号处理,诸如纠错、脉冲形成等等,以及产生激励模式(基于所提取的音频信息),激励模式通过电极引线109发送到植入式电极阵列110。

通常,电极阵列110在其表面包括多个电极接触112,其提供耳蜗104的选择性激励。根据背景的不同,电极接触112又称为电极通道。在目前的耳蜗植入体中,较少数量的电极通道分别与相对较宽的频率波段相关联,每个电极接触112通过电激励脉冲来寻址一组神经元,电激励脉冲的电荷得自于该频率波段内信号包络的瞬时振幅。

在本领域中公知,在耳蜗内不同位置的电激励产生不同的频率感知。正常听觉的基本机制称为音质分布原理(tonotopicprinciple)。在耳蜗植入体使用者中,耳蜗的音质分布组织得到了广泛研究;例如参见vermeire等人的neuraltonotopyincochlearimplants:anevaluationinunilateralcochlearimplantpatientswithunilateraldeafnessandtinnitus,hearres,245(1-2),2008sep12p.98-106;以及schatzer等人的electric-acousticpitchcomparisonsinsingle-sided-deafcochlearimplantusers:frequency-placefunctionsandratepitch,hearres,309,2014mar,p.26-35(两者均通过引用全部合并于此)。

在一些激励信号编码策略中,跨越所有电极通道以恒定速率施加激励脉冲,而在其他编码策略中,以通道特定速率施加激励脉冲。可以实施各种特定的信号处理方案来产生电激励信号。在耳蜗植入体领域中公知的信号处理方法包括连续交错采样(cis)、通道特定采样序列(csss)(如美国专利6,348,070中所述,通过引用合并于此)、谱峰(speak)、以及压缩模拟(ca)处理。

在cis策略中,信号处理器仅将带通信号包络用于进一步处理,即它们包含全部激励信息。对于每个电极通道,信号包络被表示为恒定重复速率下的一系列双相脉冲。cis的独特特征是对于所有电极通道而言激励速率相等,并且与各个通道的中心频率没有关系。希望脉冲重复速率并非患者的时间提示(即,它应该足够高,使得患者不能感知频率等于脉冲重复速率的音调)。通常选择脉冲重复速率大于包络信号带宽的两倍(基于奈奎斯特定理)。

在cis系统中,在严格不重叠的序列中施加激励脉冲。因此,作为典型的cis特征,一次只有一个电极通道活跃,总体激励速率较高。例如,假定总体激励速率为18kpps,通道滤波器组有12个滤波器,那么每个通道的激励速率为1.5kpps。每个通道的这种激励速率通常足以用于包络信号的充分时间表示。最大总体激励速率受每个脉冲的最小相位持续时间限制。相位持续时间不能任意短,因为脉冲越短,诱发神经元中动作电位的电流振幅就必须越高,并且由于各种实际原因,电流振幅受到限制。对于18kpps的总体激励速率,相位持续时间为27μs,其接近下限。

med-el的精细结构处理(fsp)策略在较高频率通道中使用cis,并使用较低频率、更多顶端电极通道中的带通信号中存在的精细结构信息。在fsp电极通道中,跟踪带通滤波时间信号的过零,并在每个负到正过零处开始通道特定采样序列(csss)。典型的csss序列应用于多达3个最顶端的电极通道,覆盖的频率范围高达200或330赫兹。在hochmairi,noppp,jollyc,schmidtm,h,garnhamc,andersoni,med-elcochlearimplants:stateoftheartandaglimpseintothefuture,trendsinamplification,vol.10,201-219,2006(其通过引用合并于此)中进一步描述了fsp装置。fs4编码策略与fsp的不同之处在于多达4个顶端通道可以使用其精细结构信息。在fs4-p中,可以在4个fsp电极通道中的任何2个上并行传送激励脉冲序列。通过fsp和fs4编码策略,精细结构信息是给定电极通道的瞬时频率信息,这可以为用户提供更好的听觉感受、更好的语音理解和更好的感知音频质量。例如参见美国专利7,561,709;lorens等人的"finestructureprocessingimprovesspeechperceptionaswellasobjectiveandsubjectivebenefitsinpediatricmed-elcombi40+users."internationaljournalofpediatricotorhinolaryngology74.12(2010):1372-1378;以及vermeire等人的"betterspeechrecognitioninnoisewiththefinestructureprocessingcodingstrategy."orl72.6(2010):305-311;以上均通过引用全部合并于此。

很多耳蜗植入体编码策略使用所谓的n-of-m方法,其中在给定的采样时间帧中仅激励具有最大振幅的某些数量的n个电极通道。对于给定的时间帧,如果特定电极通道的振幅保持高于其他通道的振幅,那么对于整个时间帧,选择该通道。随后,将可用于编码信息的电极通道的数量减1,这导致激励脉冲的类聚。因此,更少的电极通道可用于编码声音信号的重要时间和频谱特性,例如语音起始。

除了上面讨论的具体处理和编码方法之外,不同的特定脉冲激励模式也可以用特定电极传送激励脉冲——即单极、双极、三极、多极、以及相控阵列激励。并且还有不同的激励脉冲形状——即双相、对称三相、不对称三相脉冲、或不对称脉冲形状。这些不同的脉冲激励模式和脉冲形状分别提供不同的好处;例如,更高的音质分布选择性、更低的电子阈值、更高的电动态范围、更少不需要的副作用——诸如面部神经激励,等等。

诸如fsp和fs4这样的精细结构编码策略使用带通信号的过零来开始用于传送到相应的电极接触的通道特定采样序列(csss)脉冲序列。在没有其他频谱分量的情况下,过零相当鲁棒地反映主导瞬时频率。但是如果出现更高次谐波和噪音,就会出现问题。例如参见wo2010/085477以及gerhard,david,pitchextractionandfundamentalfrequency:historyandcurrenttechniques,regina:departmentofcomputerscience,universityofregina,2003;两者均通过引用全部合并于此。

图2示出干净语音样本的频谱图的示例,包括通过评估信号过零所反映的通道1和3的估计瞬时频率,如垂直虚线所示。水平黑色虚线示出通道频率边界——通道1、2、3和4分别在100、198、325、491和710hz之间的范围内。从图2中可以看出,在给定频率通道中单个主谐波的时段期间,瞬时频率的估计是平滑和鲁棒的;例如,在通道1中从1.6到1.9秒,在通道3中从3.4到3.5秒。当给定通道中存在附加的频率谐波时,或者当通道信号强度低时,瞬时频率估计变得不准确,并且特别地,估计的瞬时频率甚至可能脱离通道的频率范围。

上面引用的gerhard2003给出了可用于估计基频的算法的概述。这些算法包括时域方法、频域方法和统计频域方法。它们大多数在计算上太昂贵而不能实际使用和/或不能保证鲁棒性。vandali等人的"pitchrankingabilityofcochlearimplantrecipients:acomparisonofsound-processingstrategies."thejournaloftheacousticalsocietyofamerica117.5(2005):3126-3138(其通过引用全部合并于此)使用正峰值而不是过零来保留精细结构信息。但是,当给定频率通道中出现多于一个谐波和/或噪声时,峰值检测具有与过零技术相同的问题。

在wo2010/085477中,提高滤波器组分辨率来分解低频谐波。结果,在使用过零方法时,瞬时频率的估计是鲁棒的。此外,将信号相关算法用于选择高分辨率波段的通道,然后将其发送到植入体。



技术实现要素:

本发明的实施例涉及一种信号处理装置和相应的方法,其向植入式耳蜗植入体阵列中的电极接触生成电极激励信号。处理输入声音信号以生成分别表示音频频率的相关带的带通信号。针对每个带通信号,基于其振幅提取独特包络信号。针对每个带通信号生成激励定时信号,包括针对一个或多个选定带通信号使用定时功能来生成激励定时信号,所述定时功能被限定为:i.表示由带通信号时间精细结构特征确定的瞬时频率,以及ii.排除在短于带特定频率上限的时段内出现的时间精细结构特征。基于包络信号和激励定时信号来产生用于每个电极接触的电极激励信号。

在其他特定实施例中,定时功能使用的带通信号时间精细结构特征可以具体地包括带通信号的过零。针对一个或多个选定带通信号的激励定时信号特别地可以是通道特定采样序列(csss)。定时功能还可以限定为保留输入声音信号中存在的精细结构耳间时间差(itd)信息,或者不考虑保留输入声音信号中存在的精细结构耳间时间差(itd)信息。提取独特包络信号可以包括使用低通滤波器或希尔伯特(hilbert)滤波器。在没有定时功能的情况下,可以使用连续交织采样(cis)编码来针对某些带通信号生成激励定时信号。

在一些实施例中,可以进一步将定时功能限定为排除在由更新的精细结构特征历史所限定的定时平滑窗之外出现的时间精细特征。可以使用语音活动检测器(vad)来限定定时平滑窗。并且可以进一步将定时功能限定为识别带通包络信号的起始时段,并且在该起始时段期间应用定时平滑窗。

附图说明

本专利的文件至少包含一张照片。根据请求以及对必要的费用的支付,官方将提供本专利的副本和照片。

图1示出具有设计为向内耳传送电激励的典型耳蜗植入体系统的人耳的剖视图。

图2示出干净语音样本的样本频谱图,其包括通道1和通道3的估计瞬时频率。

图3示出根据本发明实施例的用于听觉植入体的信号处理装置中的各种功能模块。

图4示出根据本发明实施例的发展电极激励信号时的各种逻辑步骤。

图5示出来自麦克风的短时间段的音频语音信号的示例。

图6示出通过一组滤波器的带通滤波,将声学麦克风信号分解为一组带通信号。

图7示出根据本发明实施例的精细结构检测器中的各种功能模块。

图8示出用于估计简单信号的瞬时频率的示例性波形。

图9示出根据本发明实施例的具有通道1和通道3的估计瞬时频率的干净语音信号的频谱图。

图10示出具有基于过零的估计瞬时频率的音乐信号的频谱图。

图11示出根据本发明实施例的具有估计瞬时频率的音乐信号的频谱图。

图12示出具有过零的估计频率和有限的估计过零的通道3带通信号的示例性频谱图。

图13示出应用了均匀平滑化的图12的示例性频谱图。

图14示出根据本发明实施例的使用三种不同时间模式的示例。

图15示出具有三个时间模式的通道3的频谱图,其中粗椭圆指示起始激励的区域。

图16示出耳间时间延迟(itd)的音频原理。

图17示出通道1-4的估计itd的直方图。

图18示出根据本发明另一实施例的干净语音信号的频谱图,其具有通道1和通道3的估计瞬时频率。

具体实施方式

与正常听觉中的听觉滤波器相比,典型人工耳蜗植入体信号处理器中带通滤波器的带宽相当大,并且每个电极通道中很可能存在多于一个的频率谐波。这会导致对于给定通道中主谐波的瞬时频率的不良估计。即使在通道中存在多于一个的谐波和/或噪声,本发明的实施例也是基于激励定时事件的修改的开始点,其中与现有的过零技术相比,更鲁棒地估计瞬时频率。这可以提高语音理解度以及对音乐和音高的感知,不需要特殊的高分辨率滤波器组。并且一些实施例可以保留低频中存在的精细结构itd信息。此外,处理算法具有低复杂度并且可以容易地结合到现有的人工耳蜗植入体信号处理器中。

图3示出用于听觉植入体的信号处理装置中的各种功能模块,图4是示出根据本发明实施例的产生电极激励信号到植入式耳蜗植入体阵列中的电极接触的各种逻辑步骤的流程图。可以给出这种方法的伪代码示例如下:

在下面的讨论中给出这种装置的细节。

在图3所示装置中,通过可以是全向和/或定向的一个或多个感测麦克风产生初始输入声音信号。预处理器滤波器组301在步骤401利用一组多个并行带通滤波器(例如无限脉冲响应(iir)或有限脉冲响应(fir))对该输入声音信号进行预处理,每个滤波器与特定波段的音频相关联;例如,使用具有12个6阶无限脉冲响应(iir)类型的数字巴特沃斯带通滤波器的滤波器组,从而将声学音频信号滤波为一些k个带通信号u1到uk,其中每个信号对应于一个带通滤波器的频率带。用于有声语音输入信号的足够窄的cis带通滤波器的每个输出可以大致视为通过包络信号调制的带通滤波器的中心频率处的正弦波。这也是由于滤波器的品质因数(q≈3)。对于有声语音片段,该包络近似为周期性的,并且重复速率等于音高频率。可替选地且没有限制地,可以基于使用快速傅立叶变换(fft)或短时傅里叶变换(stft)来实施预处理器滤波器组301。基于耳蜗的音质分布组织,鼓阶中的每个电极接触通常与预处理器滤波器组301的特定带通滤波器相关联。预处理器滤波器组301还可以进行其他初始信号处理功能,诸如但不限于自动增益控制(agc)和/或噪声降低和/或风噪声降低和/或波束成形以及其他公知的信号增强功能。

图5示出来自感测麦克风的短时间段的输入语音信号的示例,图6示出通过一组滤波器进行带通滤波而分解的麦克风信号。fontaine等人的brianhears:onlineauditoryprocessingusingvectorizationoverchannels,frontiersinneuroinformatics,2011给出用于基于直接ii型转置结构的无限脉冲响应(iir)滤波器组的伪码的示例;其通过引用全部合并于此。

带通信号u1到uk(也可以视为电极通道)输出到包络检测器302和精细结构检测器303。在步骤402,包络检测器302提取独特包络信号输出y1,...,yk,它们表示通道特定带通包络。包络提取可以用yk=lp(|uk|)表示,其中|.|表示绝对值,lp(.)是低通滤波;例如使用12个整流器和12个二阶iir型数字巴特沃斯低通滤波器。可替选地,如果带通信号u1,...,uk由正交滤波器生成,那么包络检测器302可以提取希尔伯特(hilbert)包络。

在步骤403,精细结构检测器303用于获得信号通道中瞬时频率的平滑和鲁棒的估计,处理带通信号u1,...,uk的选定时间精细结构特征以生成激励定时信号x1,...,xk。在下面的讨论中,假定带通信号u1,...,uk是实数值信号,因此在分析正交滤波器组的特定情况下,精细结构检测器303仅考虑uk的实数值部分。精细结构检测器303由k个独立的等同结构的并行子模块形成。

图7示出其中一个k子模块中的各种功能块。过零检测器701接收一个带通通道的实数值信号uk的输入,并且当出现给定的时间精细结构特征——例如,uk的正到负过零——时生成其输出tk。为了简化进一步的讨论,省略通道索引k。t[n]表示检测到u的第n个过零的时间。然后,可以通过来估计u的瞬时频率。再参考图2,它示出干净语音信号的频谱图以及由过零检测器701生成的通道1和通道3的估计瞬时频率fzc。如图2所示,在通道的一个主谐波的时段期间——例如,在通道1中从1.6到1.9秒,在通道3中从3.4到3.5秒——fzc是平滑和鲁棒的。但是当通道中存在多于一个谐波时或者在低能量信号时段期间,仅通过过零检测器701估计瞬时频率将不规律和不足。具体而言,fzc甚至可能被估计为超出通道的频率范围。为了避免这种错误,精细结构检测器303在过零检测器701之后是限制模块702和平滑模块703,被布置为排除不可靠的时间精细结构特征。

在限制模块702中,将估计频率的范围限制为波段特定频率上限fup。这涉及忽略在前一个过零之后的太短时间内出现的过零。因此,如果那么将限制模块702的输出——即,检测到有限过零的时间点——设置为τ[m]=t[n]。否则忽略过零t[n]。然后由表示估计瞬时频率。

图8示出用于估计简单信号的瞬时频率的示例性波形,其说明限制模块702的影响。图8中的顶部曲线示出函数g0(t)=0.5·sin(ω0t)和g1(t)=g0(t)+0.3·sin(ω1t),其中ω0=2π·100hz,ω1=2π·200hz。在这种情况下,精细结构检测器303的目标是估计主频率。图8中的底部曲线示出估计频率。实线和点划线分别对应于通过函数g0和g1的过零t[n]的估计频率fzc。该估计对于g0是鲁棒的,但对于g1不成立,并给出超过500hz的值。但是通过限制模块702中的波段特定频率上限fup来估计频率fτ给出如图8的底部曲线中的灰色虚线所示的鲁棒结果。

平滑模块703用于使用通过更新的精细结构特征历史限定的定时平滑窗来进一步平滑估计频率,以排除窗外部出现的时间精细结构特征。窗长度可以由整数m表示。然后,平滑模块703可以通过下式将m个连续过零之间的平均时间差初始化:在一个优选实施例中,可以将m设置为2(n+1)并且n是任意正自然数,优选为2,允许有效的位移操作而不是二进制分割。然后,平滑模块703对于每个新输入信号τ[m]将该时间差更新为:其中平滑参数0<β<1。然后,平滑模块703的输出是:如果容易理解,那么在不偏离本发明精神的情况下可以使用1≤m≤m期间的其他初始化。对于m>m,这提供了瞬时频率的估计对于m>m平滑模块703可以根据限定的需要——例如取决于音频信号类型、噪声水平、或类似的用户偏好——来调整窗长度m。例如,在信噪比(snr)不良的情况下,长的窗是优选的,而对于较高的snr,可以选择短的窗。此外,可以考虑相同的信号特定考虑或用户相关考虑来调整β。参数m和β两者可以在操作期间动态地改变,或者例如在将系统适应用户需求期间初始设置。

图9示出与图2相同的语音信号的频谱图,还示出通过通道1和通道3的精细结构检测器303的瞬时频率fx的估计。这些估计是平滑的,并且鲁棒地服从主频率。图10和图11示出音乐声音信号的频谱图,其显示通道1至通道4的估计瞬时频率fzc和fx,其中用白色虚线指示滤波器组边界频率。显然,在图10中,在通道2、3和4中以及在低强度期间,甚至在通道1中,基本过零估计fzc显著地失败。相比而言,在图11中,经过改进的限制和平滑的估计瞬时频率fx是鲁棒的。在一些实施例中,可以使用精细结构检测器303中的频率通道上的连接来限制对于基频和相应谐波的检测。

在步骤404,来自包络检测器302的提取的带通信号包络y1,...,yk以及来自精细结构检测器303的激励定时信号x1,...,xk是到脉冲生成器304的输入信号,脉冲生成器304产生电极激励信号z,用于植入式电极阵列305中的电极接触。脉冲生成器304应用患者特定的映射函数——例如使用包络信号的瞬时非线性压缩(映射法则)——这适用于为了自然响度增长,在装配植入体期间单独耳蜗植入体使用者的需要。脉冲生成器304可以将具有形状因子c的对数函数用作响度映射函数,对于所有的带通分析通道,它通常是相同的。在不同的系统中,可以使用除了对数函数之外的不同的特定响度映射函数,其中只有一个相同的函数应用于所有通道或者用于每个通道的一个单独函数,以产生电极激励信号。电极激励信号通常是一组对称的双相电流脉冲。

对于每侧都有植入体的双侧系统用户,诸如fsp和fs4的精细结构编码策略使得能够在低频通道中传输信号精细结构的耳间时间差(itd)。图16示出耳间时间延迟(itd)的音频原理。如图所示,扬声器在人前-20°发出声音信号。该声音以频率相关速度vs(f)传播并且与右耳相比先到达左耳,因为从声源到左耳的距离比到右耳的距离短。频率相关itd由公式给出,其中a是左耳与右耳之间波传播路径长度的差。这种精细结构itd改善了横向定位,如majdak等人的"effectsofinterauraltimedifferencesinfinestructureandenvelopeonlateraldiscriminationinelectrichearing,"journaloftheacousticalsocietyofamerica120.4(2006):2190-2201所示;其通过引用全部合并于此。

上面讨论的用于检测精细结构信息的处理的一个缺点是不会传输精细结构itd。在图17中,四个最低频率通道1-4的itdδt分别由-33、-29、-25和-26毫秒处的黑色垂直实线表示。带通信号uk的过零在左耳与右耳之间以相同的延迟δt(f)出现。因此,使用定时t[n]来传输精细结构itd信息。这通过黑色虚线示出。

如上具体讨论的平滑模块703将模糊itd信息(参见灰色实线)。因此,在一些实施例中,可以将平滑模块703修改为按照不同方式操作,从而改善该itd信息。这个修改的步骤之后可以是之前描述的模式步骤,以在起始时段期间保留itd信息。如上计算平均时间差d,但是使用下式来修改输出的生成:

其中δt是通道特定参数。这种方法对于输出x和所得的估计频率fx给出:

■限制模块702将忽略太快的过零t[n],因此fx≤fup。

■太慢的过零(τ[m]>x[p-1]+d[m-1]+δt)仅影响平均时间差d的估计而不影响输出x。这导致平滑的估计频率:在这种情况下,未实现精细结构itd。

■在其他情况下,过零出现在区间:中。在这种情况下,传输输出x[p]=τ[m]和实际的itd。

■注意,通过减少参数δt,精细结构itd传输会降低,同时频率估计导致更平滑的估计演变。

在图17中,所得的itd传输由灰色虚线示出。这些与过零传输的结果相当。在图18中,连同按照刚刚描述的修改处理产生的通道1和通道3的瞬时频率估计一起,示出与以前相同的信号的频谱图。该估计显然比fzc更准确和更平滑,但不如原始平滑处理那样准确和平滑。

在一些实施例中,平滑模块703还可以包括语音活动检测器(vad)。在信号强度较低的时段期间,过零不可靠,这会负面影响在此期间瞬时频率的估计。因此,只有当vad检测到语音活动时(即高信号强度)才进行d的更新,而在没有检测到语音时设置d[m]=d[m-1](即低信号强度)。在这种语音期间,输出信号由x[m]=x[m-1]+d[m]生成,这导致语音暂停期间恒定的瞬时频率。可以选择其他平滑方法来生成d和/或x。

在一些其他实施例中,可以将平滑模块703修改为,或者除了如上所述进一步改善itd信息之外还以替代方式操作来改善itd信息。下面更详细地描述这一点。返回到只有一个带通通道并忽略通道索引的简化讨论,则t[n]表示检测到第n个过零的时间点,并且τ[m]是检测到第m个限制过零的时间点。然后,估计频率为:图12示出通道3带通信号的频谱图和估计频率,其中浅虚线示出过零的估计频率fzc,粗实线示出限制过零flim。在该示例中,当通道中存在强主频时(例如在0.85至1.0秒的间隔内),过零估计频率fzc的估计是鲁棒的,但是例如在未分解的谐波期间(例如从0.65到0.82秒),估计频率fzc脱离带通滤波器的转换范围。当通道能量低时也会出现这种情况。这可以通过丢弃过零的时间信息并集中于瞬时频率的平滑估计,通过如上所述限制两个连续过零之间的时间间隔来避免。在一个实施例中,可以进行相同的平滑频率估计,但是在带通包络信号的起始期间,可以保留有限过零的定时信息。

图13示出使用前面描述的算法对于图12所示的示例性频谱图得到的估计频率fx。估计频率被平滑化,并很好地估计主导瞬时频率。例如,当存在未分解的谐波时,存在到主频率的趋势(图13中的高亮粗椭圆),但是也可以看见平滑所致的延迟。经过平滑化的过零的时间信息被平滑化所模糊,这可能妨碍用于定位或语音理解度的其他有用定时信息。为了获得这两个优点,通常可以传输经过平滑化的过零,但是在检测到带通包络信号的起始之后保持有限过零达定时tonset秒。在tonset秒时段之后,对于另一个tinhib秒,忽略任何进一步检测到的带通包络信号的起始。

更具体而言,使用y[l]和dy[l]=y[l]-y[l-1]分别表示具有时间索引l的包络值和包络值的斜率。然后,如果满足y[l]>threnv和/或dy[l]>thrdenv,那么将带通包络信号的起始定义为出现。并且在下文使用来表示将第q个修正的过零传输到平滑模块703的输出端的时间点。然后可以限定三种模式——“一般”、“起始”和“禁止”——用于控制输出的选择。在起始模式期间,使用有限的过零定时:在禁止模式和一般模式期间,传输经过平滑化的过零:这两种时间模式之间的区别在于,在禁止模式期间,忽略进一步检测的起始。

如果t是当前时间,那么可以给出用于这种布置的伪代码如下:

图14示出这种方法的一个示例的图形描述,其中粗黑曲线示出通道的带通包络。一开始,激活一般模式,如亮的背景所示。在此期间,将平滑化的过零x传输到输出端。然后,带通包络上升,其被检测为起始,并且将模式改变为起始模式,如中等灰度背景所示。在起始模式期间,将有限的过零定时传输到输出端。经过tonset秒后,模式变为禁止模式,其持续tinhib秒。之后,一般模式再次变为激活。在这两个时段期间,将经过平滑化的过零x传输到输出端。在检测到下一次起始时,同一处理重新开始。图15示出经过修改处理的通道3的频谱图,其中粗椭圆指示起始激励的区域。这表明整体而言,实现了主频率的鲁棒估计,并且在包络起始期间,保持了过零的定时信息。

在一些实施例中,可以动态地改变经过平滑化的过零x。可以将除了带通包络信号起始检测之外的其他特征用于控制模式;例如,增加snr或已知的基于语音活动检测器的方法。所有这些方法都可以按照通道特定的方式使用,即基于每通道的起始确定或者同时在所有通道上的起始确定。在一些双侧系统中,可以将左右系统耦合,用于双侧先证者(proband);例如起始检测的相干耦合。

本发明的实施例可以部分地以任何传统的计算机编程语言来实现。例如,可以通过过程编程语言(例如“c”)或面向对象的编程语言(例如“c++”、python)来实施优选实施例。可以将本发明的替代性实施例实施为预编程的硬件元件、其他相关组件、或者作为硬件组件与软件组件的组合。

可以将实施例部分地实现为与计算机系统一起使用的计算机程序产品。这种实施方式可以包括一系列计算机指令,计算机指令固定在有形介质——诸如计算机可读介质(例如软盘、cd-rom、rom或固定盘)——上,或者可经由调制解调器或其他接口装置——诸如通过介质连接到网络的通信适配器——传输到计算机系统。介质可以是有形介质(例如光学或模拟通信线路),也可以是利用无线技术(例如微波、红外或其他传输技术)实施的介质。一系列计算机指令具体实施了本文关于该系统在先描述的全部或部分功能。本领域技术人员应当理解,这种计算机指令可以用多种编程语言编写,以同很多计算机体系结构或操作系统一起使用。此外,可以将这种指令存储在任何存储器装置——诸如半导体、磁学、光学或其他存储装置——中,并且可以使用任何通信技术——诸如光学、红外、微波或其他传输技术——来传输。希望可以将这样的计算机程序产品作为具有伴随的印刷或电子文档(例如收缩包装的软件)的可移除介质进行分发、通过计算机系统预装(例如在系统rom或固定盘上)、或者通过网络(例如互联网或万维网)从服务器或电子公告牌进行分发。当然,可将本发明的一些实施例实施为软件(例如计算机程序产品)与硬件的组合。可将本发明的其他实施例实施为完全的硬件或完全的软件(例如计算机程序产品)。

虽然公开了本发明的各种示例性实施例,但是对于本领域技术人员而言显然可以做出各种改变和修改,这些改变和修改将实现本发明的一部分优点而不脱离本发明的真实范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1