语音识别方法、装置及终端的制作方法

文档序号：9912683阅读：493来源：国知局

语音识别方法、装置及终端的制作方法
【技术领域】
[0001] 本发明涉及电子领域，特别是涉及一种语音识别方法、装置及终端。
【背景技术】
[0002] 语音特征提取在语音识别过程中是非常关键的步骤，目前语音识别算法主要是在信号空间对噪声信号进行预处理（比如滤波），以得到更为纯净的语音信号，但是语音识别在嘈杂环境下识别率仍不理想；因此如何能准确有效地提取出反映语音特征的特征参数是个重要的研究课题;特征参数的鲁棒性和精确性直接影响到语音识别的准确率;同时，特征提取对语音识别系统的实时性也有着很大的影响。
[0003] 目前，特征参数提取方法主要有基音、共振峰、线性预测编码(Linear Predictive Coding，LPC)、线性预测倒谱系数（LPCC)和梅尔倒谱系数（Me 1-Frequency Cepstral CoefficientsMFCC)等。LPC和LPCC没有考虑到人耳的听觉特性，没有采用非线性的频率变换，不能精确地描述说话人的特征。MFCC参数模拟了人耳对语音不同频谱的感知能力，考虑了人耳的听觉特性，MFCC特征性能较好，计算复杂度低，具有良好的识别性能和鲁棒性;但传统的MFCC特征参数频谱能量泄露严重和描述语音信号的共振峰特性不够，因此传统的基于MFCC特征参数进行语音识别过程冗余性较高，导致低信噪比的语音识别系统鲁棒性较差和识别率下降明显。

【发明内容】

[0004] 本发明的目的在于提供一种语音识别方法、装置及终端，用以提高现有语音识别方式的抗噪性能。
[0005] 根据本发明的一个方面，本发明提供一种语音识别方法，其特征在于，包括：
[0006] 获取一帧语音信号，从所述语音信号中提取d维MFCC参数；
[0007] 对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；
[0008] 根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱 MFCC参数；
[0009] 基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0010]进一步，基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别的步骤，具体包括：
[0011] 对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值；
[0012] 根据d个所述特征补偿值，对d维所述迭代倒谱MFCC参数进行特征补偿；
[0013] 基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0014] 进一步，基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别的步骤，具体包括：
[0015] 对经过特征补偿的所述迭代倒谱MFCC参数，采用主成分分析方式进行降维处理；
[0016] 基于降维处理后的所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0017] 进一步，采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：
[0018]
[0019]其中，C(n)为第η维MFCC参数;C (η)为第η维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
[0020] 进一步，采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：
[0021]
[0022] 其中，i为迭代次数，α为扭曲因子，〇/ (n+1)为迭代初值。
[0023] 根据本发明的另一个方面，本发明提供一种语音识别装置，其特征在于，包括： [0024]参数提取模块，用于获取一帧语音信号，从所述语音信号中提取d维MFCC参数； [0025]倒谱模块，用于对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；
[0026]迭代模块，用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；
[0027] 识别模块，用于基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0028] 进一步，所述识别模块包括特征补偿单元和识别单元，
[0029] 所述特征补偿单元，用于对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值；
[0030] 根据d个所述特征补偿值，对d维所述迭代倒谱MFCC参数进行特征补偿；
[0031] 所述识别单元，用于基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0032] 进一步，所述识别模块还包括降维单元，用于对经过特征补偿的所述迭代倒谱 MFCC参数，采用主成分分析方式进行降维处理；
[0033] 所述识别单元，具体用于基于降维处理后的所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0034]进一步，所述倒谱模块采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：
[0035]
[0036]其中，C(n)为第η维MFCC参数;(η)为第η维倒谱MFCC参数或者为特征补偿的第η 维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
[0037]进一步，所述迭代模块采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：
[0038]
[0039] 其中，i为迭代次数，α为扭曲因子，〇/ (n+1)为迭代初值。
[0040] 根据本发明的再一个方面，本发明提供一种终端，所述终端包括本发明所述的语音识别装置。
[0041] 本发明有益效果如下:本发明提高在特征空间进行语音识别的抗噪性能，具体说，通过对传统的MFCC参数通过倒谱计算后进行迭代，获取MFCC参数特征的动态变化轨迹以提高抗噪性能，并在提高抗噪性能的同时也不影响语音识别的实时性能。
【附图说明】
[0042] 图1是本发明实施例中一种语音识别方法的流程图；
[0043] 图2是本发明实施例中扭曲因子与识别率的关系示意图；
[0044] 图3是本发明实施例中一种语音识别装置的结构示意图。
【具体实施方式】
[0045] 为了提高现有语音识别方式的抗噪性能，本发明提供了一种语音识别方法、装置及终端，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。
[0046] 实施例一
[0047] 本发明实施例提供一种语音识别方法，包括：
[0048] S101，获取一帧语音信号，从所述语音信号中提取d维MFCC参数;d的取值范围为正整数，一般情况下d = 24;
[0049] S102，对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；
[0050] S103,根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；
[0051 ] S104，基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。
[0052]本发明实施例实现了在特征空间来增强语音识别的抗噪性能，通过对传统的MFCC 参数通过倒谱计算后进行迭代，获取MFCC参数特征的动态变化轨迹以提高抗噪性能，并在提高抗噪性能的同时也不影响语音识别的实时性能。
[0053]以下详细说明本发明实施例。
[0054] 一、S101的具体实现：
[0055] MFCC以人耳听觉特性为基础:不同的人对不同频率的声音体现出的听觉灵敏度并不相同，但一般情况下，人耳在感知声音的这个过程中，高音较难掩盖低音，但低音则容易掩盖高音。在高频区域的声音掩蔽的临界带宽比低频区域的声音掩蔽的临界带宽大。当频率大小差不多的两个音调于同一时间发出时，由于高音被低音所掩盖，人耳通常只能够听得到低频的那一个音调。所以在语音的识别过程中可以通过滤波器对语音信号进行处理，将各频段划分成不同的语音信号特征。人耳对不同频率的语音响应灵敏度呈对数关系， MFCC参数就是基于这种Mel频率下的特征提取，所以需要对实际的线性频率进行Mel系数频率转换，转换公式如下：
[0056]
[0057] 由于人耳只能区分具有一定带宽的频率分量，所以MFCC特征提取模仿人类的听觉设计了 Mel频率三角带通滤波器来提取特征，每个带通滤波器提取一个参数，一共24个滤波器，所以一帧语音提取24个特征参数。每个滤波器的中间频率可以由如下公式表示：
[0058]
[0059]
[0060] 式中：
[0061] fh、fi分别为滤波器的最高和最低频率，取fi = 0，fh = F(s)，F(s)为最高语音频率； Μ--滤波器个数Μ=24。
[0062] 每个带通滤波器频率响应函数定义如下：
[0063]
[0064] MFCC特征提取步骤包括：
[0065]②256个采样点数为一帧，假设一段语音的帧数为η，则有η*256个数据点。
[0066] ②对每一帧的语音信号做FFT变换(Fast Fourier Transformation，快速傅氏变换），每一帧语音有256个复数形式的数据点。
[0067] ③对这些复数求功率谱，即将所有复数的实部平方和虚部平方求和得到离散功率谱，一帧语音同样有256个功率谱，但是功率谱两边对称实际上只有129个数据。
[0068]④对功率谱进行Mel滤波器计算，滤波器由24*129的矩阵表示，将它们进行叉乘运算得到24*1的运算结果。
[0069]⑤对这24个结果取对数log运算得到对数频谱S(m)。
[0070]⑥对S(m)进行离散余弦变换最终得到24个(维)MFCC参数。
[0071]
[0072] MFCC特征参数考虑到人耳听觉特性，模仿人耳听觉功能进行特征参数提取，但低频部分滤波器密集，高频部分滤波器稀疏，所以在高频部分相邻频带之间的频谱能量相互泄露严重，不利于反映高频语音信号的共振特性的问题，即对语音信号的高频部分共振特性描述不够，从而影响该特征参数的抗噪性能。
[0073] 二、S102的具体实现：
[0074]声音经过声带振动和共振腔滤波后，声音的一部分会得到强化，另一部分出现衰减，造成声音频谱分布不均匀，就像山峰一样，称这种山峰为共振峰。共振峰很好地反应了语音信号的共振特性，是语音信号的频谱中能量相对集中的区域，是音色和音质的重要参数。因此，通过对语音信号的共振峰的提取可以改善特征参数的共振特性。
[0075] 倒谱可以通过两种方式求取:一种是通过对参数的Z变换的对数模函数进行反Z变换类似LPC求倒谱的方式可以得到倒谱，这种倒谱有利于表示语音信号的共振峰，增强了语音信号的元音描述能力，却使得语音信号的辅音描述能力变差。另外一种是通过离散余弦变换对参数进行加权求取的倒谱，这种倒谱有利于增强参数的抗噪能力和低频语音信号敏感度。其中，z变换(z-transf ormat ion)可将时域信号变换为在复频域的表达式。
[0076] 本发明实施例通过类似LPC求倒谱

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎小松;傅文治;胡绩强;汪平炜;
技术所有人：宇龙计算机通信科技(深圳)有限公司;
我是此专利的发明人

上一篇：一种基于机载语音操控的无人机系统及控制方法
上一篇：用于家用电器的语音控制装置和语音控制方法