基于带限正交分量的声音编码方法和系统的制作方法

文档序号:1254399阅读:196来源:国知局
基于带限正交分量的声音编码方法和系统的制作方法
【专利摘要】本发明涉及一种基于带限正交分量的声音编码方法及系统,该方法用于生成人工耳蜗电极的输入信号,所述方法包含:步骤101)将麦克风采集到的音频信号进行分频带处理,得到各分频带信号xk(t);步骤102)将分频带处理后的信号xk(t)进行正交相干解调,得到两个带限正交分量uk(t)和vk(t);步骤103)根据两个带限正交分量计算得到xk(t)的包络信号mk,0(t);步骤104)按照一定的组合方式组合uk(t)和vk(t),将组合结果作为小幅震荡与mk,0(t)相加,得到刺激信号幅度mk(t);步骤105)将所得刺激信号幅度mk(t)按照人工耳蜗植入者的每个电极通道的感音阈值进行非线性动态范围压缩,得到m'k(t);步骤106)将m'k(t)调制脉冲串后发送到人工耳蜗电极上去。
【专利说明】基于带限正交分量的声音编码方法和系统

【技术领域】
[0001] 本发明提出了基于带限正交分量声音编码方法和系统,适用于人工耳蜗等采用分 频带方式的电刺激听觉辅助设备,具体涉及一种基于带限正交分量的声音编码方法和系 统。

【背景技术】
[0002] 声码器模型为音频编码中的经典模型,为了在有限的通信带宽范围内传输语音信 号,声码器模型将语音信号进行分频带处理,并提取出每个频带输出信号的包络,将各个频 带的包络信号和检测到的音高信息、清浊信息通过通信线路进行传输,这样可以降低数据 带宽。
[0003] 声码器模型还被用于语音合成、乐器音合成。另外,有研究表明,仅利用很小数量 的分频带数的包络信息就可以有效的传达语义。该模型被广泛的应用于人工耳蜗信号处理 策略中来。例如连续间隔采样策略(Continuous Interleaved Sampling, CIS),该策略为目 前人工耳蜗产品所采用的主流策略。
[0004] CIS的主要操作流程为:首先将麦克风采集到的音频信号进行分频带处理,然后 提取各个频带输出信号的包络信号,再根据听力师预先测得的人工耳蜗植入者的各个电极 的有效感知范围(即最小感知阈值和最大感受门限)进行非线性动态范围压缩,最后调制电 脉冲序列并送至各个电极。
[0005] 从以上流程可以看出,各个频带中仅保留包络信息,其他信息被抛弃掉了。有研究 表明,在安静环境下植入者利用以上类型的策略已经可以获得良好的言语识别率,但对于 声调、首乐等的感知还有待提1?,另外在噪声环境下的感知效果也有待提1?。
[0006] 针对上述存在问题,研究者们开始考虑将上面流程中"抛弃"掉的部分重新找回 来,加入到电刺激信号中,这部分信号通常被称为"精细结构"。这类研究的基本假设模型为 "包络-精细结构(Envelope-Fine Structure, EF)"模型或称为"幅度调制-频率调制"模 型。该模型中将第k个频带输出的信号xk(t)分解为x k(t) =mk(t) ?(^⑴。其中mk(t)为 包络,ck(t)为精细结构。
[0007] 在带通语音信号分解研究中,除了"包络-精细结构"模型外还有一种经典的模型 为 Rosen 提出的"包络-周期性-精细结构(Envelpe-Periodicity-Fine Structure, EPF)" 模型。EPF模型采用整流对带通语音信号进行处理,然后对每个频带的整流输出分别提取 0-50Hz,50-500HZ,>500Hz的部分分别作为包络、周期性和精细结构。
[0008] 根据心理声学理论可知,电刺激听觉感知与声刺激听觉感知有显著的差异,电刺 激听觉在信号表达上试图模拟声刺激听觉,但由于目前对于人类听觉系统的认识离完美还 有很大距离,电刺激听觉的时频分析能力远不及正常听力者的声刺激听觉感知。在现有人 工耳蜗技术中,位置理论和时间理论就体现得更为直接。基底膜上不同位置对应不同的感 音频率,然而同一个电极上的刺激幅度的起伏也会带给植入者以频率信息。
[0009] 人工耳蜗信号处理策略中常采用类似的方法取得包络信息,只是其中的低通滤波 截止频率可以根据实际情况进行选择。另外一种方法就是采用希尔伯特变换取得带通信号 的希尔伯特包络。
[0010]另外,利用EF模型,研究者们建议将精细结构信息增加到电刺激信号中来,以增 强植入者在噪声环境下的听音效果。也已经有研究者开始尝试。
[0011] 这些尝试中,典型的思想是将带通信号xk(t)建模为准正弦振荡形式:
[0012]

【权利要求】
1. 一种基于带限正交分量的声音编码方法,该方法用于生成人工耳蜗电极的输入信 号,所述方法包含: 步骤101)将麦克风采集到的音频信号x(t)进行分频带处理,得到各分频带信号 xk(t),其中,k的取值范围为" 1-K"且κ的取值为根据当前应用设定的分频带数目,Xk⑴的 频率范围为[f;k-B/2, f;k+B/2],f;k为第k个频带的中心频率,B表示当前频带的带宽; 步骤102)将分频带处理后的信号xk(t)进行正交相干解调,得到两个带限正交分量 uk(t)和 vk(t); 步骤103)基于两个带限正交分量得到包络!,具体计算公式为:
步骤104)按照一定的组合方式组合uk (t)和vk (t),所述组合方式的基本原则为组合 结果小于包络πιΜ (t),且该组合与当前时刻的输入信号xk(t)相关;将组合结果作为小幅震 荡与包络%(|(〇相加,得到刺激信号幅度m k(t); 步骤105)将所得刺激信号幅度mk(t)按照人工耳蜗植入者的每个电极通道的感音阈 值进行非线性动态范围压缩,得到m'k(t); 步骤106)将m'k(t)调制脉冲串后发送到人工耳蜗电极上去。
2. 根据权利要求1所述的基于带限正交分量的声音编码方法,其特征在于,所述步骤 102)进一步包含: 首先,将分频带信号xk(t)与相乘; 然后,通过低通滤波器得到uk(t)+ivk(t),它的实部uk(t)和虚部v k(t)为两个带限正 交分量;其中,低通滤波器的截止频率在(B/2,2f;k-B/2)范围中进行选取。
3. 根据权利要求1所述的基于带限正交分量的声音编码方法,其特征在于,所述一定 的组合方式具体包含: 组合方式一:
,其中α的取值范围为(0.5, 1]; 组合方式二,
其中β的取值范围为(〇, 2]; 其中,上述组合方式中的两个参数α和β都是用于调节包络&(|(〇振荡的幅度。
4. 根据权利要求1所述的基于带限正交分量的声音编码方法,其特征在于,所述包络 的提取采用整流加低通滤波的方法或解析信号幅度法获取。
5. -种基于带限正交分量的声音编码系统,其特征在于,所述系统包含: 若干带通滤波器,用于将麦克风采集到的音频信号x(t)进行分频带处理,得到若干分 频带信号xk(t),其中,k的取值范围为1-K且K的取值为根据当前应用所设定的分频带数 目,x k(t)的频率范围为[?·Λ-Β/2,?·Λ+Β/2],f;k为第k个频带的中心频率,B表示当前频带 的带宽; 刺激幅度获取模块,用于将分频带处理后的信号xk(t)进行正交相干解调,得到两个带 限正交分量Uk(t)和vk(t);基于两个带限正交分量得到包络
并在此 基础上增加依赖于uk(t)和vk(t)变化的小幅震荡,获取刺激信号幅度mk(t); 其中,按照一定的组合方式组合uk(t)和vk(t),所述组合方式的基本原则为在包络 的基础上增加小振幅的振荡,且该振荡与当前时刻的输入信号相关; 非线性动态范围压缩模块,用于将所得mk(t)按照人工耳蜗植入者的每个电极通道的 感音阈值进行非线性动态范围压缩,得到m'k(t);和 调制编码模块,用于将所述m'k(t)调制脉冲串后发送到人工耳蜗电极上去。
6. 根据权利要求5所述的基于带限正交分量的声音编码系统,其特征在于,所述刺激 幅度获取1?块进一步包含: 第一处理子模块,用于将各分频信号Xk(t)相乘; 低通滤波器,用于对第一处理子模块输出的信号进行低通滤波得到uk(t)+ivk(t), 它的实部Uk(t)和虚部vk(t)为两个带限正交分量;其中,低通滤波器的截止频率方位在 (B/2, 2fck-B/2)范围中进行选取; 组合模块,用于将低通滤波器输出的两个正交分量按照一定的组合方式组合以得到每 个频带最终的刺激幅度信息mk(t);和 刺激幅度生成模块,用于基于低通滤波器输出的两个带限正交分量获得包络信号 ^ (t),并在此基础上增加小幅振荡得到刺激信号幅度mk (t)。
7. 根据权利要求5所述的基于带限正交分量的声音编码系统,其特征在于,所述组合 模块采用如下的组合方式: 组合方式一:
,其中α的取值范围为(0.5, 1];
组合方式二, 其中β的取值范围为(〇, 2] , 其中,上述组合方式中的两个参数α和β都是用于调节该振荡的幅度,两个参数越大 则幅度调制深度越深。
8. 根据权利要求5所述的基于带限正交分量的声音编码系统,其特征在于,所述包络 的提取可采用整流加低通滤波的方法或解析信号幅度法获取。
【文档编号】A61F11/04GK104123947SQ201310152857
【公开日】2014年10月29日 申请日期:2013年4月27日 优先权日:2013年4月27日
【发明者】冯海泓, 孟庆林, 赵建平, 原猛, 陈友元 申请人:中国科学院声学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1