基于稀疏分解与重构的鲁棒语音特征提取方法

文档序号：2819003阅读：674来源：国知局

专利名称：基于稀疏分解与重构的鲁棒语音特征提取方法
技术领域：
本发明涉及稀疏分解与重构的语音特征提取方法。
背景技术：
让机器能像人一样感知和理解语音一直是人类的梦想，语音识别为这一梦想带来了希望。经过几十年发展，语音识别技术取得了巨大成就，从最初的孤立词识别到如今的大词表连续语音识别(Large Vocabulary Continue Speech Recognition，LVCSR)，语音识别技术已经迈出实验室并逐步走向应用。在理想环境下，目前的小词表以及中等词表识别系统的识别率能达到99%以上，LVCSR系统识别率也能超过95%，但在噪声情况下，识别率将急剧下降。数十年来，研究者们尝试用各种方法来增强语音识别系统的鲁棒性，虽取得了一定进展，但目前的语音识别系统仍然难以适应复杂的应用环境。噪声在现实应用中广泛存在，这些种噪声可能是加性的，可能是卷积性的，也可能是两者的混合。一般认为，外部环境噪声呈加性，信道影响呈卷积性。特别地，当训练环境没有噪声而测试环境存在噪声，或者训练环境和测试环境存在不同的噪声，将会引起环境失配。环境失配必然导致语音特征参数的分布存在偏差进而影响系统性能。为了增强语音识别系统的环境鲁棒性，研究者们提出了大量的方法。这些方法大致可分为两类，即特征增强和模型补偿。特征增强试图从畸变语音中提取鲁棒特征。这类方法或先对信号去噪然后提取特征，例如谱减，维纳滤波，卡尔曼滤波，子空间法等，或直接补偿特征，例如倒谱均值方差规正(C印stral Mean Normalization，CMN)，特征弯折，短时高斯化，相关谱滤波(RelAtive SpecTrAl，RASTA)，非线性滤波等。模型补偿则试图修改声学模型来适应环境，典型的有并行混合模型(Parallel Model Combination，PMC)，泰勒级数展开(Vector Taylor Series,VTS)以及各种自适应方法如最大似然线性回归(Maximum Likelihood Linear Regression，MLLR)，最大后验概率(Maxi-mum A-Posteriori，MAP)等。虽然研究者们提出了各种方法试图解决语音识别系统的噪声鲁棒性问题，但其效果仍然无法满足现实应用需求。一方面，应用环境复杂多变，存在着各种难以预测的时变噪声；另一方面，目前的方法普遍基于噪声的平稳性假设，且需要对噪声建模以实现噪声谱的估计。这决定了目前的方法在噪声平稳时能取得较好的效果，在复杂的时变噪声情况下无法取得理想的效果。近年来，随着稀疏分解与重构理论的成熟，信号的稀疏表示在信号处理各个领域展示出了巨大的潜力。信号满足稀疏性是指信号被分解在某个原子字典上时，仅有少量原子的系数不为零。现实中的大量信号，诸如图像，语音等都满足稀疏性或近似稀疏。另一方面，从人的认知角度上看，大量研究表明，人的感知神经系统总是从海量的神经元中，同时激活极少一部分以实现对外部刺激的编码。也就是说，人在感知外部刺激获取信息时，也遵从稀疏性原则。信号的稀疏表示在信号压缩、分析、去噪等各个方面均表现出了巨大的潜力。信号的稀疏分解与重构存在的问题CN 102290047 A
说明书
2/8页1、原子字典的选取目前的各种方法大多需要反复迭代，具有较高的时间复杂度，而且难以满足信号投影后稀疏；2、信号的稀疏分解目前的稀疏分解方法满足的准则有稀疏性和重构误差最小准则，考虑语音信号和噪声信号的时间相关性的较少；3、信号的重构目前的方法大多数等概率地考虑原子的贡献，忽略了原子的先验概率以及各个原子相互转换的概率。

发明内容
本发明的目的是为了解决现有1、原子字典的选取具有较高的时间复杂度，而且难以满足信号投影后稀疏；2、信号的稀疏分解考虑语音信号和噪声信号的时间相关性的较少；3、信号的重构忽略了原子的先验概率以及各个原子相互转换的概率的问题，提供一种基于稀疏分解与重构的鲁棒语音特征提取方法。基于稀疏分解与重构的鲁棒语音特征提取方法，它包括具体步骤如下步骤一、预处理，将读入的语音进行分帧、加窗，使语音从时间序列转变为帧序列；步骤二、作离散傅立叶变换，并求功率谱
权利要求
1.基于稀疏分解与重构的鲁棒语音特征提取方法，其特征是它包括具体步骤如下步骤一、预处理，将读入的语音进行分帧、加窗，使语音从时间序列转变为帧序列；步骤二、作离散傅立叶变换，并求功率谱:
2.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤一的输入的是语音的离散时间信号，预处理时，采用汉明窗
3.根据权利要求2所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤三的具体过程是在满足重构训练样本误差最小的情况下从训练语音帧中选取具有代表性的帧作为原子；对于噪声原子，考虑动态更新，以追踪时变噪声的影响，提出算法I 算法I输入训练语音巾贞/，/2,.../r(功率谱)；输出原子字典Φ(具有代表性样本集合> 初始化Φ = [ ], threshold = 1.2 for 每帧/J = I,...,Γ
4.根据权利要求3所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤四的具体过程是对混噪语音帧的稀疏分解，就是混噪语音在冗余字典上的稀疏表示；语音分量被表示在语音原子上，噪声分量被表示在噪声原子上；在重构时，将所有噪声分量上的系数置为0，仅保留语音声量上的非零系数；推导这一原理假定有语音原子0X=
和噪声原子Φν=
组成原子字典Φ =[Φ3Φν]；混噪语音1 = s+v，其中s为清晰语音，ν为噪声；混噪语音在冗余字典上的分解
5.根据权利要求3所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤五的具体过程是对于步骤三训练的原子字典，统计各个原子被使用到的次数，累加起来除以语音帧总数作为对应原子的先验概率；对原子之间的转移概率也做相同的统计，建立原子转移矩阵；重构时利用贝叶斯公式，在满足最大后验概率的准则下重构清晰语音帧的频谱。
全文摘要
基于稀疏分解与重构的鲁棒语音特征提取方法，涉及稀疏分解与重构的语音特征提取方法，解决了1、原子字典的选取具有较高的时间复杂度，而且难以满足信号投影后稀疏；2、信号的稀疏分解考虑语音信号和噪声信号的时间相关性的较少；3、信号的重构忽略了原子的先验概率以及各个原子相互转换的概率的问题，它包括具体步骤如下步骤一、预处理；步骤二、作离散傅立叶变换，并求功率谱；步骤三、原子字典训练，保存；步骤四、稀疏分解；步骤五、语音谱重构；步骤六、加梅尔三角滤波器并取对数；步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接，形成鲁棒特征。用于多媒体信息处理领域。
文档编号G10L15/02GK102290047SQ201110283908
公开日2011年12月21日申请日期2011年9月22日优先权日2011年9月22日
发明者何勇军, 韩纪庆申请人:哈尔滨工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩纪庆;何勇军
技术所有人：哈尔滨工业大学
我是此专利的发明人

上一篇：一种基于近邻原则合成情感模型的说话人识别方法
上一篇：基于自适应冗余字典的语音信号稀疏表示方法