一种基于语音前端噪声消除的提高语音识别准确率的方法

文档序号:2827577阅读:2212来源:国知局
一种基于语音前端噪声消除的提高语音识别准确率的方法
【专利摘要】本发明为大规模孤立词语音识别提供了一种基于语音前端处理消除噪声从而提高识别准确率的方法,本发明的方法解决了由于含有噪声在MFCC提取过程中语音端点检测错误导致识别准确率低的问题。计算听觉场景分析(CASA)用于语音识别的前端,相比于降噪、语音增强等传统去噪方法,通过模拟人耳的听觉神经系统,可以有效的将噪声从带噪语音中分离出来。本发明中对10240个带噪语音进行识别,相比于不进行前端噪声处理,识别的准确率由83%提高到了95.5%。
【专利说明】一种基于语音前端噪声消除的提高语音识别准确率的方法

【技术领域】
[0001] 本发明涉及孤立词语音识别领域,具体涉及一种提高大规模孤立词语音识别的准 确率的方法。

【背景技术】
[0002] 语音识别技术中研究和应用最广泛的特征参数是梅尔倒谱系数(MFCC),低频段 MFCC参数具有较高的谱分辨率,适合于语音识别。从目前使用的情况来看,梅尔刻度倒频谱 参数已基本取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与 接收声音的特性,在语音识别方面表现出了更好的鲁棒性。
[0003] 但是MFCC参数在存在较大的背景噪声的情况下,其识别率也不是很好。由于自然 界任何地方都存在噪声,因此任何人发出的语音都是混有噪声的语音,即使是在绝对安静 的环境下。在时域中,背景噪声以横波的形式叠加在语音波形上,在该情况下,在进行语音 端点检测的时候,无疑会将噪声大、语音小的部分波形也当成有用的语音帧,这样提取的语 音特征参数MFCC是不理想的,甚至是不可用的。
[0004] 人的听觉系统能够在噪声环境中区分并跟踪自己感兴趣的语音信号,即使多种声 音同时存在也能"听取"所需要的内容。听觉场景分析(ASA)正是在这一听觉生理现象上提 出的理论。CASA模拟人耳的神经听觉系统,对语音信号的处理更接近于人对混合声音信号 的听觉感知过程。因此可以用来将噪声从语音信号中分离出来,得到比较纯的语音信号,实 际上是在语音识别过程中加入一个前端处理,从而达到提高含噪声语音识别的准确率。利 用CASA进行语音增强的重点是选择合适的特征来分离目标语音和背景噪音,可用的特征 包括语谱能量、基因频率和信道互相关特征阈值。


【发明内容】

[0005] 为解决现有技术中存在的问题,本发明提出了一种通过基于语音前端噪声消除来 提高大规模孤立词语音识别准确率的方法,解决了由于含有噪声,MFCC提取过程中语音端 点检测错误导致识别准确率低的问题。
[0006] 本发明通过以下技术方案实现:
[0007] -种基于语音前端噪声消除的提高语音识别准确率的方法,其特征在于:所述方 法采用计算听觉场景分析(CASA)实现语音识别前端的噪声消除,所述方法包括以下步骤:
[0008] A. 16KHz采样的带噪语音,先通过一个32通道的Gammatone滤波器,中心频率为 50Hz?8KHz,对滤波后的信号加时间分辨率为20ms的矩形窗,帧率为100Hz ;
[0009] B.计算第i个频率第j帧的听觉谱的噪声包络和语音包络,计算公式为:
[0010]

【权利要求】
1. 一种基于语音前端噪声消除的提高语音识别准确率的方法,其特征在于:所述方法 采用计算听觉场景分析(CASA)实现语音识别前端的噪声消除,所述方法包括以下步骤: A. 16KHz采样的带噪语音,先通过一个32通道的Gammatone滤波器,中心频率为 50Hz?8KHz,对滤波后的信号加时间分辨率为20ms的矩形窗,帧率为100Hz ; B. 计算第i个频率第j帧的听觉谱的噪声包络和语音包络,计算公式为:
其中,i,j分别表示第i个频率,第j帧;N是一帧内的采样点的个数; X表示信号的时域振幅,下标L和R表示两个不同的声道; C. 计算噪声通道和语音通道的互相关函数
其中,τ是语音和噪声的特征时延,τ的取值范围是-16到16,对应16KHz的采样率 下的-lms到lms的相对时间范围; D. 通过互相关函数计算计算噪声通道和语音通道的ITD和ILD :
E. 通过将所有帧、所有频率信道上的互相关函数相加,求出该和的极值,即为语音和噪 声的特征时延τ,
判断哪一个声道输入的是语音信号,当τ为负时,第一信道信号为纯语音;反之,第二 个信道的信号为纯语音; F. 采用简单的3状态单项状态跳转ΗΜΜ模型计算第i个频率第j帧信号的掩模 m(i,j),掩模信息用来估计语音包络,其中,
G. 通过求解对数能量,提取每一帧语音的一个12维的谱系数向量,得到的系数向量可 以直接作为语音识别的特征参数,具体采用以下公式:
其中,I是Ga_atone滤波器的数量,其取值32, j、k分别表示第j巾贞中的第k个谱系 数。
【文档编号】G10L21/0308GK104064196SQ201410281240
【公开日】2014年9月24日 申请日期:2014年6月20日 优先权日:2014年6月20日
【发明者】刘明, 王明江 申请人:哈尔滨工业大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1