提高汉语声调识别率的人工耳蜗言语处理器和方法

文档序号:2827422阅读:241来源:国知局
提高汉语声调识别率的人工耳蜗言语处理器和方法
【专利摘要】本发明公开了一种提高汉语声调识别率的人工耳蜗言语处理器和方法,其中方法实施例中,包括以下步骤:对传送的声信号进行预加重和分频处理,并将处理的结果合并为M个通道;对每一通道进行包络提取;对基频信息进行提取;根据发声频率对基频信息进行调整;根据调整后的基频信息对每一通道的包络进行调整;对每个通道的包络进行带通滤波、包络检测、压缩和脉冲调制。本发明用于实时提取F0信息,通过提高幅度包络与F0的相关性来提高中文声调的识别。
【专利说明】提高汉语声调识别率的人工耳蜗言语处理器和方法
【技术领域】
[0001]本发明属于医疗器械领域,特别涉及一种提高汉语声调识别率的人工耳蜗言语处理器和方法。
【背景技术】
[0002]语音产生过程中声波的基频信息和周期性信息对语音理解非常重要,对声调语言如中文尤其如此,然而基频信息和周期性信息对英文语音识别的贡献比较弱。
[0003]汉语声调的识别主要通过感知频域基频(FO)的变化来实现的。其他的声学特性,在不同声调下也会有所不同,这些声学特征对声调的识别也可能有所帮助。例如,韵母长度:一般来说,发第三声的韵母的长度是最长的,而第四声是最短的;声音幅度:第三声的峰值幅度较低,而第四声的峰值幅度是最高的;幅度包络和H)轮廓相关性:很多声音的幅度变化包络与基频的变化轮廓有一定程度的相关性。在频域基频(FO)存在的情况下,这些声学特性对声识别影响很小。因此,基频轮廓为说话人的身份鉴定,韵律辨识和声调识别提供了重要信息。
[0004]人工耳蜗从各分析频段提取时域包络,用来调制传递给相应电极的电脉冲,以此来表达语音信号。由于目前现有的人工耳蜗言语处理策略不能有效地传输H)基频信息。增强H)信息的言语编码策略一直受到关注,一些研究曾经尝试对信号时域包络中周期波动进行增强,增加时域周期波动的调制深度可以产生更好的单电极电刺激下的基频感知,但对多电极而言,不能显著增强基频感知。
[0005]现有技术中,调整所有的或某一单独通道的幅度包络曲线是根据一个非实时过程。为了使幅度包络更类似于H)曲线的形状,在均方根(Root Mean Square,RMS)幅值先分别计算在一帧一帧的基础上,以匹配H)数据的离散格式,公式如下:
【权利要求】
1.一种提高汉语声调识别率的人工耳蜗言语处理器,包括预处理单元,分频包络提取单元,基频提取单元,连续间隔采样Cis单元,其特征在于,进一步包括基频调整单元和包络调整单元,其中, 所述预处理单元,用于对传送的声信号进行预加重和分频处理,并将处理的结果合并为M个通道; 所述分频包络提取单元,用于对每一通道进行包络提取; 所述基频提取单元,用于对基频信息进行提取; 所述基频调整单元,用于根据发声频率对基频信息进行调整; 所述包络调整单元,用于根据调整后的基频信息对每一通道的包络进行调整; 所述连续间隔采样单元,用于对每个通道的包络进行带通滤波、包络检测、压缩和脉冲调制。
2.根据权利要求1所述的提高汉语声调识别率的人工耳蜗言语处理器,其特征在于,对于基频包络和每一通道的包络进行拖尾保护。
3.根据权利要求1或2所述的提高汉语声调识别率的人工耳蜗言语处理器,其特征在于,通过计算帧与帧之间的差值,调整包络的均方根RMS以及以声信号中检测到的元音信号的开始几帧的能量作为标尺,按基频的变化趋势调整包络能量各占一定权重对基频包络进行实时的调整。
4.根据权利要求3所述的提高汉语声调识别率的人工耳蜗言语处理器,其特征在于,所述计算帧与帧之间的差值,调整包络的均方根RMS可通过如下公式得到:
Mkms⑴=RMS ⑴ * ( Λ FO/Basic_FO+l), 其中,Λ H)为前后帧之间H)的增量,Basic_FO是前几帧H)的均值。
5.根据权利要求3所述的提高汉语声调识别率的人工耳蜗言语处理器,其特征在于,以声信号中检测到的元音信号的开始几帧的能量作为标尺,按基频的变化趋势调整包络能量可通过如下公式得到:
Mems(i) =Basic_RMS ⑴ * ( Λ FO/Basic_FO+l), 其中,Mkms是M个通道的RMS序列,Basic_RMS是包络前几帧均方根的均值,Λ H)为前后帧之间H)的增量,Basic_FO是前几帧H)的均值。
6.一种提高汉语声调识别率的人工耳蜗言语处理方法,其特征在于,包括以下步骤: 对传送的声信号进行预加重和分频处理,并将处理的结果合并为M个通道; 对每一通道进行包络提取; 对基频信息进行提取; 根据发声频率对基频信息进行调整; 根据调整后的基频信息对每一通道的包络进行调整; 对每个通道的包络进行带通滤波、包络检测、压缩和脉冲调制。
7.根据权利要求6所述的提高汉语声调识别率的人工耳蜗言语处理方法,其特征在于,对于基频包络和每一通道的包络进行拖尾保护。
8.根据权利要求6或7所述的提高汉语声调识别率的人工耳蜗言语处理方法,其特征在于,通过计算帧与帧之间的差值,调整包络的均方根RMS以及以声信号中检测到的元音信号的开始几帧的能量作为标尺,按基频的变化趋势调整包络能量各占一定权重对基频包络进行实时的调整。
9.根据权利要求8所述的提高汉语声调识别率的人工耳蜗言语处理方法,其特征在于,所述计算帧与帧之间的差值,调整包络的均方根RMS可通过如下公式得到:
Mkms⑴=RMS ⑴ * ( Λ FO/Basic_FO+l), 其中,Λ H)为前后帧之间H)的增量,Basic_FO是前几帧H)的均值。
10.根据权利要求8所述的提高汉语声调识别率的人工耳蜗言语处理方法,其特征在于,以声信号中检测到的元音信号的开始几帧的能量作为标尺,按基频的变化趋势调整包络能量可通过如下公式得到:
Mems(i) =Basic_RMS ⑴ * ( Λ F0/Basic_F0+l), 其中,Mkms是M个通道的RMS序列,Basic_RMS是包络前几帧均方根的均值,Λ H)为前后帧之间H)的增量,Basic_F0是前几帧H)的均值。
【文档编号】G10L15/00GK103892939SQ201410145089
【公开日】2014年7月2日 申请日期:2014年4月11日 优先权日:2014年4月11日
【发明者】平利川, 傅前杰 申请人:浙江诺尔康神经电子科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1