技术简介:
本专利针对低信噪比环境下传统语音识别特征鲁棒性差的问题,提出基于信噪比加权模板匹配的抗噪识别方法。通过引入相位MFCC特征,结合信噪比动态调整特征权重,增强噪声环境下的识别准确性。装置采用DSP/ARM芯片实现特征提取与模板匹配,提升系统适应性与效率。
关键词:信噪比加权,相位MFCC,抗噪语音识别
基于信噪比加权模板特征匹配的抗噪语音识别方法及装置制造方法
【专利摘要】本发明公开了一种基于信噪比加权模板特征匹配的抗噪语音识别方法,包括以下步骤:步骤一:对输入语音信号进行预处理,求得相位系数;步骤二:计算输入语音的特征,即相位MFCC;步骤三:对基于SNR的模板进行特征匹配。本发明还公开了一种实现基于信噪比加权模板特征匹配的抗噪语音识别方法的装置,包括:电源模块、显示模块、存储模块、DSP/ARM数字处理模块、麦克风、A/D转换器和USB接口。具有适应范围广、准确性高、成本低、使用便捷和适应性强等优点。
【专利说明】基于信噪比加权模板特征匹配的抗噪语音识别方法及装置
【技术领域】
[0001]本发明涉及一种声音信号处理技术,特别涉及一种基于信噪比加权模板特征匹配的抗噪语音识别方法及装置。
【背景技术】
[0002]语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、订票系统、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。语音识别技术在工业、家电、通信、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。如今,实际环境对语音识别的声学噪声鲁棒性要求越来越高,因此,提取具有鲁棒性和较强区分能力的特征向量对语音识别系统具有重要的意义。
[0003]现在用于语音识别的特征都基于语音信号的功率谱,功率谱表示了信号在频域范围的能量分布。当存在外部噪声时,这种能量分布还包含了噪声的能量。这就使得相应的特征向量对外部噪声十分敏感,导致在噪声环境下的语音识别系统性能不佳。
[0004]解决特征向量对外部噪声敏感的方法主要有两方面,一个是基于特征,一个是基于模型。基于特征的方法是在语音识别系统的前端使生成的特征向量尽量与噪声无关。而基于模型的方法是在语音识别系统的后端,通过测试环境下的少量自适应数据,对模型参数进行调整,逐渐将模型参数变换到实际环境,从而达到提高系统识别率的目的。基于特征的解决方法有谱减法、RASTA处理法等。基于模型的方法有并行模型混合法(PMC),基于矢量泰勒级数的自适应法(VTS),信号分解法等。
[0005]目前,用于语音识别的提取的语音信号特征参数主要有两种:线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)。LPCC特征参数能够有效地表示语音参数并且有着较高的计算速度,但没有考虑人类的听觉系统对语音处理的特点。Mel频带划分是对人耳听觉特性的一种工程化模拟,MFCC在一定程度上模拟了人耳对语音处理的特点。
[0006]然而无论是MFCC还是LPCC,现有的语音识别特征,在低信噪比环境下的识别性能都不是很好,为了克服这一弱点,本发明首先提出一种通过改变相关性度量而在低信噪比情况下具有更好鲁棒性的新特征,即采用两个时间延迟信号向量之间的夹角作为相关性度量,因为角度是传统自相关系数数量积的非线性变换,用相位可以在频域上增强波峰的作用,而波峰相对噪声鲁棒性更高。接着,根据传统特征适于高信噪比,新特征适于低信噪比,提出一种根据信噪比加权的模板匹配计算方法,最后提出相应装置。
【发明内容】
[0007]本发明的首要目的在于克服现有技术的缺点与不足,提供一种基于信噪比加权模板特征匹配的抗噪语音识别方法,该方法适应范围广,准确性高。
[0008]本发明的另一目的在于克服现有技术的缺点与不足,提供一种实现基于信噪比加权模板特征匹配的抗噪语音识别方法的装置,在DSP/ARM7芯片操作,可以使用TI的TMS320C6711 或三星的 ARM7S3C44B0 实现。[0009]本发明的首要目的通过下述技术方案实现:一种基于信噪比加权模板特征匹配的抗噪语音识别方法,包括以下步骤:
[0010]步骤一:对输入语音信号进行预处理,求得相位系数;
[0011]将数字化后的语音信号s [n]进行分帧处理,同时采用汉明窗对其进行加窗。分为T帧,
[0012]{s0 [n],S1 [n],? ? ?,st [n],? ? ?,Sim [n]}
[0013]其中
[0014]st [n] = {s [Kt], s [Kt+1],..., s [Kt+N-1]}
[0015]K为帧移,N为帧长,st [n]为在时刻t的帧信号序列。
[0016]语音信号具有短时平稳性,因此每帧信号都是平稳的。将所得帧信号进行周期延拓,由此得到自相关函数为
【权利要求】
1.一种基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,包括以下步骤:步骤一:对输入语音信号进行预处理,求得相位系数;步骤二:计算输入语音的特征,即相位MFCC ;步骤三:对基于SNR的模板进行特征匹配。
2.根据权利要求1所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述步骤一包括以下步骤:步骤A、将数字化后的语音信号s[n]进行分帧处理,同时采用汉明窗进行加窗,并分为T帧:
{s0 [n],S1 [n],? ? ?,[n],? ? ?,Sim [n]},其中:
st [n] = {s [Kt],s [Kt+1],...,s [Kt+N-1]},K 为帧移,N 为帧长,st [n]为在时刻 t 的帧信号序列;步骤B、将所得帧信号进行周期延拓,得到自相关函数:
3.根据权利要求1所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述步骤二包括以下步骤:步骤1、对Pn[k]进行DFT变换,得到相位功率谱Sp [I]:
4.根据权利要求1所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述步骤三包括以下步骤:步骤①、参考数据库中有j个参考语音数据模板,其中包含3M维的MFCC特征向量和3L维的相位MFCC特征向量;特征向量3M维MFCC的测试模板和其中第i个参考模板间的欧式距离为Dm,特征向量3L维相位MFCC的测试模板和第i参考模板间的欧式距离为Pu,i=0, 1,? ? ?,j_l ;步骤②、在不同信噪比条件下,采用不同的权重取值,得到两种特征向量在模板间距离的权重距离值Ci:
Ci=(1-W) DMi+wPLi, i=0, I,..., j-1,其中,w为相位MFCC参数模板间距离的权重;模板匹配过程指在j个参考模板中搜索,找到使min {Cj , i=0, I,..., j-1成立的模板;信噪比SNR由下式可得:
5.根据权利要求4所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述f (SNR)与X的关系的表达式如下:
6.根据权利要求4所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述f (SNR)与X的关系的表达式如下:
7.一种实现权利要求1所述的基于信噪比加权模板特征匹配的抗噪语音识别方法的装置,其特征在于,包括:电源模块、显示模块、存储模块、DSP/ARM数字处理模块、麦克风、A/D转换器和USB接口 ;所述存储模块、USB接口、显示模块、电源模块和A/D转换器的一端均与DSP/ARM数字处理模块电气连接,所述麦克风与A/D转换器的另一端电气连接;所述麦克风用于输入测试语音,所述A/D转换器用于将测试语音数字化,所述DSP/ARM芯片用于提取特征并进行模板匹配,所述存储模块用于存储参考数据库,所述显示模块用于显示结果,所述USB接口和电脑连接。
8.根据权利要求7所述的装置,其特征在于,所述A/D转换器采用ADC0832芯片;所述DSP/ARM数字处理模块采用DSP/ARM7芯片。
9.根据权利要求8所述的装置,其特征在于,所述DSP/ARM7芯片采用TI的TMS320C6711 或三星的 AR`M7S3C44B0。
【文档编号】G10L15/02GK103778914SQ201410040474
【公开日】2014年5月7日 申请日期:2014年1月27日 优先权日:2014年1月27日
【发明者】宁更新, 吴丽菲, 宁小娟 申请人:华南理工大学