电子耳蜗中的非幅度调制语音编码方法及装置的制作方法

文档序号:2835786阅读:283来源:国知局
专利名称:电子耳蜗中的非幅度调制语音编码方法及装置的制作方法
技术领域
本发明属电子耳蜗技术领域,具体涉及一种电子耳蜗中的语音编码方 法及装置。
背景技术
耳蜗基底膜的机械特性和毛细胞的静纤毛的梯度变化是耳蜗对输入声波
进行频率和空间分析的形态学基础。根据Von Bekesy的实验结果,耳蜗基底 膜的基底部对高频声音敏感,蜗顶部对低频声音敏感,不同的声音频率沿着 基膜在不同的位置引起神经兴奋,因此耳蜗可以被认为由一组空间分布的带 通滤波器构成,而且滤波器的品质因数Q (中心频率与带宽之比)近似恒 定。而人类语言频率范围500-3000Hz刚好与基底膜从底部算起的10-25mm位 置相对应。基底膜振动时,带动相连的复膜和静纤毛发生剪切运动,使毛细 胞表皮板的电阻发生变化,调制了通过毛细胞的电流,进而产生耳蜗的感受 器电位,这就是声波的机械能转化为电能的过程。该耳蜗感受器电位可以使 毛细胞底部的表面膜电位发生变化,从而引起耳蜗神经末稍纤维兴奋,形成 突触后电位,最终产生的神经动作电位由耳蜗神经向中枢传递从而形成听 觉。
模仿耳蜗的电子耳蜗也称称耳蜗埋植,是一种能将声能转化成电能,通 过植入鼓阶或圆窗的电极直接刺激耳蜗内残存的听神经纤维使聋人恢复听觉 的植入式电子装置。
由于遗传因素、耳毒性药物、疾病以及遭到过响噪声破坏等缘故,毛细 胞受损或数量减少,无法实现正常的换能功能,使得声音的机械振动无法转 换为电信号,导致重度或完全性失聪。人工电子耳蜗就是绕过纤毛细胞这一 环节,直接对听神经进行电刺激,以达到恢复听觉的目的。根据人工电子耳蜗系统语音捕获、频谱分析、语音信号细节处理以及传 递电刺激至听神经这四个功能块,可将其分为体外和体内植入部件两个部 分,如图1所示。其中语音处理器是人工电子耳蜗系统的核心,语音编码策 略的发展决定着言语处理器的发展。
迄今为止,多通道人工电子耳蜗的语音处理方案大致可以划分为三大 类, 一类是特征提取,即提取语音信号的基频和共振峰等特征信息,然后产
生相应的刺激信号,该类方案包括F0/F2、 F0/F1/F2、 MPEAK (Multi-peak) 等;另一类是基于滤波器组的分频方法,即对语音信号进行分频段滤波,经 相关的语音细节处理后得到电极刺激信号的分频方案,根据耳蜗频率分布, 将不同的频率信息送至耳蜗相应的位置,它类似于基底膜的初步滤波作用, 该类方案包括压縮模拟CA、同时模拟刺激SAS、最大谱峰处理器SMSP、谱 峰法SPEAK (Spectral peak)、连续间隔采样CIS等。第三类同样是采用分 频的方法,语音信号经多个窄带处理后提取相应的幅度和频率信息,利用频 率信息来调制载波获得相应的剌激脉冲,该方案主要有频率幅度调制编码 FAME,。
无论是特征提取还是基于滤波器组的分频方法,都利用了语音信号的包 络信息,而目前人工电子耳蜗最常用的语音编码策略也基本上都采用幅度调 制的方法获得刺激序列。而上述的传统语音编码策略存在通道干扰、刺激脉 冲序列频率人为固定等缺点,同时这些方法还需要进行幅度调制。

发明内容
本发明要解决的技术问题能够克服旨在克服上述不足,提供一种能够保 留语音信号内部的时间相关性和相干性,反映人的耳蜗对语音信号的时间编 码特性,无需进行包络提取和严格的幅度调制,从而可避免通道之间干扰的 电子耳蜗中的非幅度调制语音编码方法及装置。
解决上述问题的技术方案是本发明方法包含下述内容对获取的语 音信号通过预加重处理以对高频成分进行补偿;再将其经过与N个电极相对应的N个通道的倍频程小波变换后,分别对各通道的信号在该通道设置的门 限选择下进行过零点检测,对经过零点检测后的信号进行一个脉冲单位的延 时,再将延时后的零点信号与延时前的零点信号求和,获得过零点的单位刺 激脉冲,将各通道的过零点脉冲进行放大微分处理后送到对应的电极阵列。
本发明装置的技术方案是体外部分设有依次连接的麦克、信号调理装 置、无线发射装置,体内部分设有依次连接的无线接收装置、抗混叠滤波波 器(信号调理装置)、模/数转换装置、DSP数字处理器、数/模转换装置、 电极阵列。
研究表明,正常耳蜗对声音同时进行位置编码和时间编码。由于声音在 耳蜗内以行波方式传播,从理论上讲,耳蜗可以被认为由一组空间分布的带
通滤波器构成,而且滤波器的品质因数Q (中心频率与带宽之比)是近似恒
定的。而小波变换是对信号进行时间和尺度分析的一种新方法,通过母小波 的伸縮和平移可以对待分析信号作多尺度分析,即在低频时小波变换的时间
分辨率较低,而频率分辨率较高;在高频时小波变换的时间分辨率较高,而
频率分辨率较低,这正符合低频信号变化缓慢而高频信号变化迅速的特点,
其功能也相当于用一组恒Q的带通滤波器对信号作多分辨率分析。因此,
小波变换的特性与耳蜗的频率分析特性极为相似,本发明提出的语音的非幅 度调制编码策略基于此相似性,于语音信号小波变换域的过零点处直接合成 刺激脉冲序列送往电极刺激,无需进行包络提取和幅度调制。
本发明方法中所述的倍频程小波变换,其采用的解析二进小波函数
o刺,必须满足倍频程(one-octave)的关系,满足此特性条件的小波函数有 Meyer小波、Gaussian差小波函数等。根据Rogan定理假设感受野区域函 数,即核函数是倍频程带限信号g(i)可以退出a-"/2g(。-V-'《-fo也是倍频程带 限信号,如果/tf)是一个无直流分量的带限信号,那么它可以由其几个通 道7;(^r,ft,hl,2,A,iV的过零点恢复出来,至多只差一个常数。如式(1)
所示<formula>formula see original document page 7</formula>
所以,经过倍频程小波变换(one-octave wavelet transform)后的各通道 的带限信号都可以根据其过零点位置完全重建出来,至多只差一个常数。对 每一个通道的输出信号,采用符号检测,以产生过零刺激脉冲的时序,这就是 所谓的时间编码。需要说明的是,本发明采用的非幅度调制与传统的特征提 取方案相比,虽然二者同样有过零检测,但检测过零点的最终目的不同。传 统特征提取方案中检测到的过零点频率用于决定刺激的具体电极,且在提取 过零点的同时提取了语音的包络用于调制基频以刺激电极;本发明非幅度调 制方案在检测到的过零点处则是直接产生刺激脉冲序列,过零点的频率即是 最终的电极刺激频率,且无需进行包络提取和严格意义上的幅度调制。与 CIS, AIS, FAME和SPEAK等基于滤波器组的分频方案相比,本发明非幅度
调制的语音编码策略不需要提取各通道的语音幅度信息来调制过零点刺激脉 冲,而且在产生刺激脉冲序列时,基于小波变换的过零剌激语音编码策略也 与CA、 CIS和SPEAK等方案完全不同。CIS和SPEAK方案的刺激脉冲序列的
时序是人为产生而且是固定不变的。本发明基于小波变换的过零刺激语音编 码策略产生刺激脉冲序列的时序完全取决于语音信号本身,因此它保持了各 个电极之间信号的相关性和相干性。从理论上来说,本发明非幅度调制语音 编码策略在一定程度上符合耳蜗对声音的频率成分敏感而对幅度信息具有大 范围自增益控制功能的生理特点。
本发明所采用的语音编码方法,是用非幅度调制方法在语音信号小波变 换域的过零点处合成刺激脉冲序列,不需要传统意义上严格的幅度调制。该 方案基于语音信号自身的时序特性产生刺激脉冲序列,即刺激听神经的脉冲 频率完全取决于语音本身,而不是人为固定或选择刺激脉冲的时序和频率, 它保留了语音信号内部的时间相关性和相干性,能够反映人的耳蜗对语音信 号的时间编码特性,无需进行包络提取和严格的幅度调制,和其他传统方案 相比具有一定的实用性和优越性。


图1、人工电子耳蜗结构示意图
图2、本发明非幅度调制语音编码方法原理图 图3、本发明方法的模拟电路实现示意图 图4、本发明装置人工电子耳蜗结构示意图 图5、本发明方法数据处理流程图 图6、原始语音信号图
图7、原始语音信号、本发明方法实施例合成的语音信号、CIS方案合成的 语音信号对比图
图8、原始语音信号、本发明方法实施例合成的语音信号、CIS方案合成的 语音信号的频谱图
具体实施例方式
本发明方法可采用图3所示的模拟电路实现,设置依次连接的 麦克用于采集语音信号;
预加重处理器对采集的语音信号高频成分进行补偿; N个带通滤波器用于对预加重处理器输出的信号进行倍频程小波变 换;
N个带通滤波器输出端分别依次连接有
门限选择匹配通道用于剔除经过倍频程小波变换后的信号的噪声(能
量小于某一特定值的信号可认为是噪声将其剔除进行); 比较器用于对门限选择匹配通道输出的信号进行过零点检测; 延时器用于对比较器输出的过零点信号进行延时;
减法器用于对延时电路输出的经过延时的过零点信号与比较器输出的 原始过零点信号进行求和处理,产生过零点脉冲信号; 放大器用于对过零点脉冲信号进行放大;
微分电路使放大后的过零点脉冲信号进行微分处理,满足电荷平衡的特征;
电极阵列分别接收各通道输出的刺激信号。
DSP强大的数据处理功能和实时性的要求会使本发明方法的实施变得十
分方便,而且其功耗、体积和价格等方面也存在巨大优势。
本实施例采用数字信号处理器TMS320VC5416芯片,通过配置硬件和编 程,实现非幅度调制的信号处理算法,实施本发明方法非幅度调制脉冲序列 合成策略的人工电子耳蜗系统如图4所示。
该人工电子耳蜗系统将人工电子耳蜗的语音处理器部分作为植入部分, 体外部分设有
麦克风用于采集语音信号;
TPA系列语音处理器对采集的语音信号进行前置放大,补偿语音高频
成分;
CPLD或MCU控制的无线收发芯片Si472x:将放大的语音信号(变为可 无线发收的信号)发送到体内植入部分; 体内植入部分设有依次连接的
TLC系列滤波器对接收的语音信号进行抗混叠滤波处理; TLV系列模数转换器对经滤波处理的语音信号进行A/D转换,将被采 样的数字语音信号送入数据处理器;
TMS320VC5416数字处理器通过软件配置对输入的数字信号进行本发
明非幅度调制算法的数据处理后输出到数模转换器;
AD75系列数模转换器将数字处理器输出的信号转成模拟电流刺激信 号输入到植入电极刺激听神经。
本装置将采集的语音信号通过无线收发传入体内,语音处理部分设置为 植入体,直接在体内编码以后将刺激信号送往电极,从而而省去了语音解码 这个环节,简化了电子耳蜗的结构和体积。
数字处理器执行的程序设计思想如图4所示,其主要过程是将采样后的每一帧语音并行进行8个倍频程关系的小波函数进行小波变 换以起到带通滤波的作用,对各频率通道的信号分别进行过零点检测和处理 后生成过零点刺激脉冲,通过软件实现本发明非幅度调制算法处理后输出到 数模转换器;
本发明方法对语音信息的处理过程依次包含下述内容
1、 用麦克获取语音信号;对获取的语音信号通过预加重处理,预加重 处理用于提升语音信号的高频部分, 一般采用具有6dB/倍频程的提升高频 特性的预加重数字滤波器/f(0"-z/戶来实现,//值接近于1, 一般取 0. 94。
2、 将经过预加重处理的语音信号进行8个通道的倍频程小波变换,其 作用相当于经过8个频率成分不同的带通滤波器滤波,倍频程小波变换选取 的小波函数,其通带满足倍频程的关系每个通道的上限频率是下限频率的 两倍;
3、 然后在各通道的门限选择下进行过零点检测即用符号函数w'g"(x)
把输入的信号变成幅度为1或-1的脉冲信号,检测过零点的方法是多种多 样的,例如可采用比较器进行过零点检测,当信号幅度小于某一特定值时其
就可看做零点;
4、 对经过过零点检测后的信号进行一个脉冲单位的延时,所述一个脉 冲单位是指最终要产生刺激脉冲的宽度或持续时间,大约为100微秒(通常 可取10-200微秒)。
5、 将延时的零点信号与延时前的零点信号求和后获得过零点的单位刺 激脉冲;
进行过零检测采样的零点有时不是很准确,本例将过零采样信号延时后 与延时前的过零信号求和,这样可以精确地提取信号的过零点;
6、 将各通道的过零点脉冲经放大微分处理后送到对应的电极阵列。经 过微分处理的脉冲信号满足电荷平衡的特点。
本例采用DSP数字处理器对采集的语音信号进行非幅度调制算法处理, 所以对采集的模拟语音信号要进行A/D转换采样,采样的频率16kHz由DSP数字处理器编程设定。
为了验证本发明非幅度调制语音编码策略的可行性和实用性,本例通过 DSP软件配置获得了经非幅度调制算法处理后的语音信号数据,将该中间数
据输入MATLAB进行仿真、合成。同时选取与非幅度调制算法通道数及带宽 相同的带通滤波器基于MATLAB实现CIS方案,并将各通道最终的刺激脉冲 和最终的合成语音进行对比
仿真过程中选取一段语音信号如图6所示,由于小波变换无法直接获取 带宽信息,为了方便和CIS方案比较本文构造了四个具有倍频程关系的带通 滤波器来模拟四个通道的小波变换,其带宽分别为300-600Hz、 600-1200Hz、 1200-2400Hz、 2400-4800Hz。同时选取与非幅度调制方案相同通道 数和相同带宽的四个带通滤波器实现CIS方案,剌激脉冲的频率为常用的 800pps,并将二者的仿真结果进行比较。
图7上、中、下三行分别为原始语音信号、非幅度调制方案处理后合成 的语音信号和CIS方案处理后合成的语音信号;图8中曲线B是非幅度调制 方案处理后的语音信号频谱,曲线A是原始语音信号频谱,曲线C是CIS方 案处理后语音频谱。因为幅度调制的关系,CIS方案获得的合成语音信号的 包络与原始语音的包络极为相似,然而,其刺激脉冲的序列人为确定且保持 固定不变,破坏了原始语音信号本身的时域相关性和相干性,这一点从二者 的频谱图就可以看出,CIS方案合成语音规律性变化的频谱与原始语音的频 谱差别稍大。尽管CIS的分频策略可以获得相当程度的语音识别,但经 Matlab仿真工具播出的语音和原始语音相比已经失真。本发明非幅度调制 语音编码策略于各通道倍频程小波变换后的语音信号本身过零点处合成的刺 激脉冲,从包络上看与原始语音信号相差甚远,然而通过分析其与原始语音 信号的频谱可以得知,合成语音信号的主要频率成分与原始语音的主要频谱 成分大致相同,只是频谱波动的范围存在差别。这与耳蜗对语音频率成分敏 感而对幅度信息具有大范围自增益控制功能的生理特点比较吻合,同时经倍 频程小波变换后的各通道过零点不会重合,这也极大的抑制了多通道同时刺激的通道干扰。通过Matlab的SPT00L工具箱将二者最终合成的刺激脉冲通 过扬声器输出,结果发现本发明非幅度调制语音编码策略获得的语音信号更 贴近原始语音。
现有人工电子耳蜗领域中传统的语音处理策略要么在幅度调制下破坏语 音信号自身的时域相关性和相干性(CIS, SPEAK, ACE, AIS等方案),要 么直接将未经处理的时域相关性和相干性信息与包络巻积在一起的原始语音 信号送往电极(CA, SAS等方案)。造成基于这些方案的人工电子耳蜗系统 只能获得一定程度的语言识别能力,噪声环境中的言语识别能力较差,并且 不能很好地辨识音调和旋律。本发明提出的非幅度调制语音编码方法,在没 有严格意义的幅度调制的情况下于语音信号小波变换域的过零点处合成刺激 脉冲序列,模拟了耳蜗的时频联合编码机制,保留了语音信号自身的时域相 关性和相干性。经Matlab仿真观察,用本发明非幅度调制方法处理后合成 的语音较CIS方案合成的语音而言更贴近原始语音。
权利要求
1、电子耳蜗中的非幅度调制语音编码方法,其特征在于,包含下述内容对获取的语音信号通过预加重处理以对高频成分进行补偿;再将其经过与N个电极相对应的N个通道的倍频程小波变换后,分别对各通道的信号在该通道设置的门限选择下进行过零点检测,对经过零点检测后的信号进行一个脉冲单位的延时,再将延时后的零点信号与延时前的零点信号求和,获得过零点的单位刺激脉冲,将各通道的过零点脉冲进行放大微分处理后送到对应的电极阵列。
2、 根据权利要求1所述的电子耳蜗中的非幅度调制语音编码方法,其 特征在于对获取的语音信号进行预加重处理时,采用具有6dB/倍频程的提升高频特性的预加重数字滤波器//(z)-l-^-'来实现,^值取0.94。
3、 根据权利要求1所述的电子耳蜗中的非幅度调制语音编码方法,其特征在于所述倍频程小波变换选取的小波函数,其通带满足倍频程的关 系,即每个通道的上限频率是下限频率的两倍。
4、 根据权利要求1所述的电子耳蜗中的非幅度调制语音编码方法,其特征在于进行过零点检测时,用符号函数^gw(x)把输入的信号变成幅度 为1或-1的脉冲信号。
5、 根据权利要求1所述的电子耳蜗中的非幅度调制语音编码方法,其 特征在于对经过零点检测后的信号进行一个脉冲单位的延时时,延时时间 为10-200微秒。
6、 根据权利要求1所述的电子耳蜗中的非幅度调制语音编码方法,其 特征在于对获取的语音信号通过预加重处理后,经过A/D转换后输入到DSP数据处理器,由DSP数据处理器完成N个通道的倍频程小波变换、过零 点检测、产生过零点的单位刺激脉冲和微分处理,再将DSP数据处理器输出 的过零点单位刺激脉冲进行数模转换后输入到电极阵列。
7、电子耳蜗装置,其特征在于体外部分设有 麦克风用于采集语音信号;语音处理器对采集的语音信号进行前置放大,补偿语音高频成分; CPLD或MCU控制的无线收发芯片Si472x:将放大的语音信号发送到体 内植入部分;体内植入部分设有依次连接的滤波器对接收的语音信号进行抗混叠滤波处理;模数转换器对经滤波处理的语音信号进行A/D转换,将被采样的数字 语音信号送入数据处理器;DSP数字处理器通过软件配置对输入的数字信号进行非幅度调制算法 的数据处理后,再输出到数模转换器;数模转换器将数字处理器输出的信号转成模拟电流刺激信号输入到植 入电极刺激听神经。
全文摘要
电子耳蜗中的非幅度调制语音编码方法及装置,对获取的语音信号通过预加重处理以对高频成分进行补偿;再将其经过与N个电极相对应的N个通道的倍频程小波变换后,分别对各通道的信号在该通道设置的门限选择下进行过零点检测,对经过零点检测后的信号进行一个脉冲单位的延时,再将延时后的零点信号与延时前的零点信号求和,获得过零点的单位刺激脉冲,将各通道的过零点脉冲进行放大微分处理后送到对应的电极阵列。本发明方法不是人为固定或选择刺激脉冲的时序和频率,而是基于语音信号自身的时序特性产生刺激脉冲序列,因此保留了语音信号内部的时间相关性和相干性,反映人的耳蜗对语音信号的时间编码特性,无需进行包络提取和严格的幅度调制。
文档编号G10L19/00GK101582260SQ20091020320
公开日2009年11月18日 申请日期2009年5月20日 优先权日2009年5月20日
发明者刘洪运, 王卫东 申请人:王卫东
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1