一种应用于电子耳蜗的语音处理方法

文档序号：2832097研发日期：2009年阅读：649来源：国知局

技术简介：
本专利针对电子耳蜗语音处理中刺激电极过多导致效率低的问题，提出通过预加重、分频段处理及调制深度分析，选择关键通道进行刺激，结合动态范围压缩优化信号传输，提升语音识别准确率。
关键词：电子耳蜗语音处理,动态压缩,调制深度选择

专利名称：一种应用于电子耳蜗的语音处理方法
技术领域：
本发明涉及应用于语音信号处理，特别涉及一种应用于电子耳蜗体外语音处理器的语音处理方法。
背景技术：
电子耳蜗(cochlearimplant)是唯一能够帮助重度耳聋患者通过电信号直接刺激残余听觉神经以恢复部分听力的装置。图1是电子耳蜗系统的信号处理流程框图，如图1所示，经麦克风采集的语音信号通过预加重处理以及ADC转换后的数字信号通过滤波器组或者FFT分为m个通道，每个通道声音信号的包络幅度信息，经非线性压縮变为动态范围较小的电信号，编码后电信号通过射频发射，刺激植入体部分电极。语音处理策略将声音信号转化为电刺激，完成语音信号的量化、滤波、编码。目前电子耳蜗采用的语音处理方法，由于连续交错采样(continuous interleaved sampling , CIS)策略可以达到较高的刺激速率和语音识别准确率是唯一被世界三家主要电子耳蜗产品采用的语音处理策略。
图2是现有的CIS语音处理策略原理框图。如图2所示，为了提升输入语音信号的高频分量，进行预加重处理，预加重后信号通过一组带通滤波器分为m个通道，每个通道经全波整流和低通滤波提取包络，提取的包络信息因动态范围较大，采用非线性函数压縮，通常采用指数函数或者对数函数将动态范围较大的语音信号压縮到适合于耳聋患者的较窄电剌激动态范围。压縮后的m个通道信号通过射频发射，用对称双相脉冲序列进行调制，调制脉冲序列时序上不同步，脉冲交替出现，最后，经脉冲序列调制后的离散序列即作为刺激电极的电刺激信号。现有的CIS语音策略在总刺激速率一定时，通过调整脉冲频率，脉冲宽度，刺激顺序，非线性压縮函数等参数，调整每个通道剌激速率。在噪声级为30dB时，现有CIS语音处理策略的 SII值(SII: speech intelligibility index言语可懂度)为0.5。
现有CIS语音处理策略在一个刺激周期内将m个通道的语音信号传递到m个电极，因此在总刺激速率一定的条件下，每个刺激电极获得的剌激速率较低是目前CIS 语音处理策略的不足之处。

发明内容
本发明的目的在于提供一种新的应用于电子耳蜗的语音处理方法，利用该方法能够解决在一个刺激周期内，总刺激速率一定时，提高每个刺激电极刺激速率的问题，以达到传递更多语音细节信息，提高电子耳蜗使用者语音识别的准确率的目的。
为实现上述发明目的，本发明的一种应用于电子耳蜗的语音处理方法，包括如下步骤
1) 将由麦克风采集的语音信号进行预加重处理，
为了提升麦克风所采集的语音信号的高频成分，进行预加重处理。通常用高通
滤波器实现预加重，高通滤波器可以采用硬件RC滤波器也可以采用数字IIR、 FIR 滤波器实现；
2) 通过ADC(Analog-to-digital conversion,模数转换器)转换器将采集的语音信号转换为数字信号,转换后的数字信号通过I2S格式或者SPI方式传输到主处理芯片，
通过ADC将预加重后的语音信号转换为数字信号，使得信号可以通过DSP芯片或者专用IC芯片进行处理，通常采样芯片可完成ADC;
3) 通过FFT方法或者滤波器组的方法将数字信号分为m个频段，即m个通道，每个通道对应一个频段，每个频段对应电极阵列中的一个电极；
4) 为得到刺激电极电流幅度，对每个通道进行包络提取，包络提取可以通过希尔伯特变换方法获得，也可以通过对每个通道的语音信号全波整流后通过一个低通滤波器实现；
5) 计算每个通道提取的包络信号的调制深度(modulation depth),即计算包络信号中最大值和最小值的比值，
调制深度通常应用于检测输入信号中是否存在语音信号，以估计输入信号的信噪比。则m个通道得到m个调制深度的值，将m个调制深度值进行由大到小的排序；
6) 选择m个通道中调制深度最大的n个通道，并输出通道的包络信号，得到的m个通道的m个调制深度的值排序后，按照由大到小的顺序选择其中调
制深度最大的n(iKm)个通道，并输出通道的包络幅度；
7) 采用非线性函数对调制深度最大的n个通道的包络进行压缩，使n个通道的动态范围满足聋人较窄的电刺激动态范围，
未压縮时，输出的n个通道包络动态范围通常达到40dB以上，但重度耳聋患者的动态范围通常只有3—10dB，因此需要采用非线性函数将其进行动态范围的压縮。通常采用的非线性函数有指数函数和对数函数；
8)将n个通道压缩后的包络幅度值以一定的编码形式(如曼彻斯特编码、PMW (pulse width modulation, 脉宽调制编码)等。)编码后，通过ASK调制发射。
本发明采用选择应用于助听器的客观评价指标SII(speech intelligibility index,言语可懂度)作为发明的评价体系。在背景噪声级为30dB时，本发明的SII值是0.82。 SII值在同样的噪声级时比现有SII值更大，具有更好的言语可懂度。
本发明的优点在于，在电子耳蜗系统中，由于总的剌激速率是有限的，总的频段数有限，分配到每个剌激电极的剌激速率是有限的，在较多的m个通道中选择调制深度最大的n( n < m)通道来剌激，可以提高每个剌激频段的刺激速率；根据调制深度大小，选择包含较多语音信号的频段刺激相应的电极，提高使用本发明的电子耳蜗植入者言语识别的准确率。

图1是典型电子耳蜗信号流程图2是现有CIS语音处理方法原理示意图3是本发明的语音处理方法原理示意图。
具体实施例方式
下面结合附图和具体实施例对本发明的一种应用于电子耳蜗的语音处理方法进行详细的说明。
图3是本发明的语音处理方法的原理框图。如图3所示，本发明的一种应用于电子耳蜗的语音处理方法，包括如下步骤-
1) 将通过麦克风采集的语音信号进行预加重处理，预加重处理通过高通滤波器实现，该高通滤波器采用硬件RC滤波器或者数字IIR、 FIR滤波器；
2) 通过ADC(Analog-to-digital conversion,模数转换器)将预加重后的语音信号转换为数字信号，转换后的数字信号通过I2S格式或者SPI方式传输到主处理芯片；
3) 通过FFT方法或者滤波器组的方法将数字信号分为m个频段，即m个通道，每个通道对应一个频段，每个频段对应电极阵列中的一个电极；
4) 为得到刺激电极电流幅度，对每个通道进行包络提取，包络提取通过希尔伯特变换方法获得，或者通过对每个通道的语音信号进行全波整流和低通滤波实现；
5) 计算每个通道提取的包络信号的调制深度，即计算包络信号中最大值和最小值的比值，调制深度应用于检测输入信号中是否存在语音信号，以估计输入信号的信噪比，m个通道得到m个调制深度的值，将m个调制深度值进行由大到小的排序;
6) 选择m个通道中调制深度最大的n个通道，并输出该n个通道的包络信号，得到的m个通道的m个调制深度的值排序后，按照由大到小的顺序选择其中调
制深度最大的n个通道，输出通道的包络幅度；
7) 采用非线性函数对调制深度最大的n个通道的包络进行压縮，使n个通道的动态范围满足聋人较窄的电剌激动态范围；
8) 将n个通道压縮后的包络幅度值以一定的编码形式(例如曼彻斯特编码、 PMW (pulse width modulation, 脉宽调制编码)等)进行编码后，通过ASK调制发射。
实施例
如图3所示，输入的语音信号经过提升高频成分的预加重处理后，通过由m个
带通滤波器组成的滤波器组，将语音信号分为m个频带，通过全波整流和低通滤波
得到m个通道的包络信号，计算每个通道的调制深度(modulation depth),即包络的
最大值A隨和最小值Amin的比值，选择其中调制深度最大的n(rKm)个通道，将
n个通道的包络进行非线性函数压縮得到较窄的动态范围，将n个通道压縮后包络幅
度信息用对称双相脉冲序列进行调制，调制脉冲序列在时序上不同步，脉冲交替出
现，消除了通道间的干扰。在总刺激速率一定的条件下，用n(n〈m)个通道刺激电
极得到每个通道的剌激速率大于用m个通道刺激电极时每个通道的刺激速率，较多
的传递了语音信号的时域细节，提高语音识别的准确率。各个步骤具体实施方式
如下
1)由麦克风从外界拾取语音信号，为了提升信号的高频成分对信号进行预加重处理。信号预加重处理采用截止频率为1.2 kHz的1阶Butterworth高通滤波器实现，其传递函数为-
7= 6。x(w) + 、x(" _ 1) + a'y(w — 1);
其中b0 =0.7736， b！ = -0.7736， a！ =-0.5472。
2) 将预加重后的信号通过采样芯片进行AD转化。
可采用24位立体声模数转换芯片CS53L21完成采样信号的AD转换，将转换后的数字信号通过I2S格式传输到主处理芯片。主处理芯片可为通用DSP芯片(如 TMS320VC5502)或者专用IC芯片；
3) 将语音信号采用带通滤波器组的方法分为m个通道。各个通道的中心频率和截止频率采用耳蜗恒Q的特性(即中心频率/带宽=常数)划分。
本发明中带通滤波器组可采用4阶Butterworth数字带通IIR滤波器实现，4阶 Butterworth滤波器组的差分方程为
4 4
其中，r和A是表达式中延时的表述变量。
另外，本发明中的通滤波器组也可以采用128阶的FIR带通滤波器，其差分方程
为
127
K") = ￡6^)x(" —W。
4) 提取带通滤波器组划分的m个通道语音信号包络幅度信息作为刺激电极的电流幅度。
本发明的语音处理方法中的包络提取处理采用每个通道进行全波整流后，通过截止频率为200 Hz、 400 Hz或者800 Hz的低通滤波器实现，
当通过截止频率为400 Hz的2阶Butterworth低通IIR滤波器实现时，低通滤波器差分方程为
少(m) _ 6。x(w) +— + 62x(w — 2) + a^(w — 1) +2>"(" — 2) 其中bo = 0.0079; bi = 0.0158; b2 = 0.0079; a! =-1.7329; a2= 0.7646
另外，该步骤中的包络提取也可以通过希尔伯特变换方法获得。希尔伯特方法理论上可以得到更好的包络幅度信息，但是在用硬件系统实现语音处理策略的时候，计算量较大，占用较多的硬件资源和系统功耗，因此本实施方式中采用了全波整流通过低通滤波器的方法。5) 得到m个通道的包络幅度，计算每个通道的调制深度，即计算m个通道的包络幅度最大值与最小值的比值，以dB为单位
6) 将计算得到的m个通道调制深度按照由大到小顺序排列。选取m个通道中调制深度最大的n ( n < m )个通道，作为一个刺激周期内的刺激通道以剌激对应电极。
7) 发明中实现动态范围压縮的非线性函数采用对数函数
_y = Jlog10x + 5，
其中;c是压縮前各个通道包络幅度，少是压縮后输出；A， B是常数，由电子耳
蜗植入者的最小听阈值THR(T-level)和最舒适度MCL值(C- level)得到
, MCX — THR
8) 压縮后的包络幅度信息以一定的编码方式(例如曼彻斯特编码、PMW(pulse width modulation, 脉宽调制编码)等。)进行编码后，通过射频方式发射。
表1给出的是将包含有幅度信息和电极信息的数据按照曼彻斯特编码方式发送的数据格式。
表1发送数据格式
<table>table see original document page 9</column></row><table>表1中发送的原始数据中设置一个起始位O; 8 bit数据位，即D7、 D6、 D5、 D4、 D3、 D2、 Dl、 D0表示传递的信息，其中3bit表示电极，5 bit表示通道幅度信息；设置一个停止位l。将原始数据进行曼彻斯特编码后产生发射数据的最后格式。编码后数据经ASK调制发射。经曼彻斯特编码后的发送数据使原始10 bit数据变为 20 bit数据，带宽的利用率降低一倍，但是这种ASK调制方式解调时较简单，容易恢复时钟，从而降低系统的功耗。
综上所述，本发明提出的一种应用于电子耳蜗的语音处理策略，比较现有的CIS 策略，在总刺激速率一定的条件下，根据每个通道语音信号不同的调制深度值，选择对语音识别影响较大的含有较多语音信号的通道作为最后的刺激频段，在一个刺激周期内，可以提高每个刺激通道的剌激速率，提高语音处理方法使用者的言语识别准确率。
本发明提出了选择最终刺激通道时，在一个刺激周期内，不是将带通滤波器组得到的m个通道刺激电流传送给m个电极，而是从m个通道中选择调制深度最大的n(iKm)个通道输出来刺激相应的n个电极。在总的刺激速率一定的条件下，减少剌激电极的个数，传递对语音识别作用较大的通道，对含有较少语音信息的通道不进行刺激，提高每个刺激电极的刺激速率。
10
权利要求
1、一种应用于电子耳蜗的语音处理方法，包括如下步骤1)将通过麦克风采集的语音信号进行预加重处理，预加重处理通过高通滤波器实现，该高通滤波器可采用硬件RC滤波器或者数字IIR、FIR滤波器；2)通过模数转换器ADC将预加重后的语音信号转换为数字信号，转换后的数字信号通过I2S格式或者SPI方式传输到主处理芯片；3)通过FFT方法或者滤波器组的方法将数字信号分为m个频段，即m个通道，每个通道对应一个频段，每个频段对应电极阵列中的一个电极；4)为得到刺激电极电流幅度，对每个通道进行包络提取，包络提取可通过希尔伯特变换方法获得，或者通过对每个通道的语音信号进行全波整流和低通滤波实现；5)计算每个通道提取的包络信号的调制深度，即计算包络信号中最大值和最小值的比值，调制深度应用于检测输入信号中是否存在语音信号，以估计输入信号的信噪比，m个通道得到m个调制深度的值，将m个调制深度值进行由大到小的排序；6)选择m个通道中调制深度最大的n个通道，并输出该n个通道的包络信号，其中n＜m；7)采用非线性函数对调制深度最大的n个通道的包络进行压缩，使n个通道的动态范围满足聋人较窄的电刺激动态范围；8)将n个通道压缩后的包络幅度值以曼彻斯特编码形式或者脉宽调制编码形式进行编码后，通过ASK调制发射。
2、如权利要求l所述的应用于电子耳蜗的语音处理方法，其特征在于，所述步骤1)中的信号预加重处理采用截止频率为1.2 kHz的高通滤波器实现，如果采用截止频率为1.2 kHz的1阶Butterworth高通滤波器时，其传递函数为X") = 6。X(rt) + 6'X(M — 1) + "J(M — 1)其中bo =0.7736; bi =-0.7736 ; ai =-0.5472。
3、如权利要求1所述的应用于电子耳蜗的语音处理方法，其特征在于，所述步骤2)中，所述预加重后的信号通过采样芯片进行AD转化，该采样芯片采用24位立体声模数转换芯片CS53L21、或者音频信号解码编码芯片TLV320AIC10。
4、如权利要求l所述的应用于电子耳蜗的语音处理方法，其特征在于，所述步骤3)中，当采用带通滤波器组的方法将数字信号分为m个通道时，各个通道的中心频率和截止频率采用耳蜗恒Q的特性进行划分，所述带通滤波器组采用4阶Butterworth数字带通IIR滤波器或者128阶的FIR带通滤波器，采用4阶Butterworth数字带通IIR滤波器时，滤波器组的差分方程为<formula>formula see original document page 3</formula>采用128阶的FIR带通滤波器时，其差分方程为<formula>formula see original document page 3</formula>
5、如权利要求l所述的应用于电子耳蜗的语音处理方法，其特征在于，所述步骤4)中，所述包络提取处理采用每个通道进行全波整流后，通过截止频率为200 Hz、 400 Hz或者800 Hz的低通滤波器实现，如果采用截止频率为400 Hz的2阶Butterworth低通滤波器，差分方程为 y(w) = 60x(w) +夂(w _ 1) + 62jc(w _ 2) + a_y(n — 1) + a2_y(w —— 2)其中b。 = 0.0079; bi = 0.0158; b2 = 0.0079; a! = -1.7329; a2= 0.7646 。
6、如权利要求1所述的应用于电子耳蜗的语音处理方法，其特征在于，所述步骤7)中所采用的非线性函数为指数函数或者对数函数，当采用对数函数时其中，x是压縮前各个通道包络幅度，；;是压縮后输出；A， B是常数，由电子耳蜗植入者的最小听阈值THR和最舒适度MCL值得到<formula>formula see original document page 3</formula>
全文摘要
本发明提供一种应用于电子耳蜗的语音处理方法。该方法将输入的语音信号经过提升高频成分的预加重处理后，通过由m个带通滤波器组成的滤波器组，将语音信号分为m个频带，通过全波整流和低通滤波得到m个通道的包络信号并计算每个通道的调制深度，选择其中调制深度最大的n个通道，将n个通道的包络进行非线性函数压缩得到较窄的动态范围，将n个通道压缩后包络幅度信息用对称双相脉冲序列进行调制，调制脉冲序列在时序上不同步，脉冲交替出现，消除了通道间的干扰。在总刺激速率一定的条件下，用n个通道刺激电极得到每个通道的刺激速率大于用m个通道刺激电极时每个通道的刺激速率，较多的传递了语音信号的时域细节，提高语音识别的准确率。
文档编号G10L15/00GK101645267SQ200910081610
公开日2010年2月10日申请日期2009年4月3日优先权日2009年4月3日
发明者丽孟, 杰崔, 灵肖申请人:中国科学院声学研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟丽;肖灵;崔杰
技术所有人：中国科学院声学研究所
我是此专利的发明人

上一篇：用于语种识别的约束异方差线性鉴别分析方法
下一篇：一种音乐处理及输出系统及其方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！