基于隐马尔科夫模型的家用服务机器人语音识别系统的制作方法

文档序号：2825961阅读：1511来源：国知局

基于隐马尔科夫模型的家用服务机器人语音识别系统的制作方法
【专利摘要】基于隐马尔科夫模型的家用服务机器人语音识别系统属于语音识别领域。本发明所述整个过程由语音信号滤波、采样、量化、加窗、端点检测、特征提取、模型训练和阈值比较组成。滤波在于滤除低频干扰；语音信号是连续时变的模拟信号，必须对其进行采样量化得到离散的数字信号；分帧使得原本的信号变成一段一段的，相当于对原始信号时域内加了一个矩形窗。时域内与矩形窗相乘相当于频域内信号频谱与矩形窗的傅里叶变换进行卷积。然后通过双门限端点检测算法实现端点检测。语音信号特征参数采用美尔频率倒谱系数，通过隐马尔科夫模型对特征参数实现参数训练，再与所建立的模板库进行匹配，得出结果与阈值进行比较得到识别结果。
【专利说明】基于隐马尔科夫模型的家用服务机器人语音识别系统

【技术领域】
[0001]本发明属于语音识别系统领域，具体涉及到一种基于隐马尔科夫模型的语音信号模型训练和识别方法。

【背景技术】
[0002]语音识别就是让机器通过识别过程把人类的语音信号转变为相应的文本或命令的过程，其最终目的就是像人与人之间的谈话交流信息一样，实现人机对话自由，也就是赋予机器以听觉，使机器能够听懂人的语言，辨明话音的内容和说话人，进一步使机器能够按照人的意志进行操作，把人类从繁重或危险的劳动中解脱出来。
[0003]语音识别技术的研究广泛的涉及到声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科，因此一个识别效果良好的语音识别系统，需要考虑包括说话人的心理状态、输入设备、说话环境多方面的因素。
[0004]近年来，在语音识别领域非常活跃的课题为鲁棒性语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型以及深层次的自然语言的理解，研究的方向也越来越侧重于口语对话系统。目前说话人自适应技术的研究已经取得相当大的进步，出现了一些比较成熟的技术，如声道归一化技术、最大似然线性回归算法(MLLR, Maximum Likel ihood Linear Regress1n)、贝叶斯(Bayes)自适应估计算法。而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点。
[0005]语音识别技术主要包括语音信号预处理、特征参数提取、建立模板库、识别决策与阈值比较等模块。语音信号从麦克风输入信号，经预处理，预处理包括预滤波、采样与量化、预加重、加窗及端点检测；预处理后对信号进行特征参数提取，将所提取的参数序列，建立保存成语音参数模板库；语音识别过程是语音从麦克风输入，经过预处理、特征参数提取，将提取的特征参数与所建立的模板库进行概率计算与匹配，匹配得出结果与阈值进行比较，最终得到识别结果。

【发明内容】

[0006]本发明是一种基于隐马尔科夫模型训练的语音识别系统，主要通过matlab实现系统仿真。语音信号首先经过滤波、采样与量化得到离散的数字信号，然后就是预加重，预加重的目的在于滤除低频干扰；语音信号是一种典型的非平稳信号，具有时变特征，所以将语音信号进行分帧操作，由于分帧的作用，使原本的信号变成一段一段的，这就相当于是对原始的信号在时域内加上了一个矩形窗。时域内与矩形窗相乘也就相当于频域内信号频谱与矩形窗的傅里叶变换进行卷积，为此在分帧之后会对每一帧做一个加窗的处理，本专利中使用的是汉明窗；端点检测的目的是从包含语音的一段信号中确定语音的起点和终点，而准确的找出语音段的起始点和终止点，才有可能使采集到的数据是真正要分析的语音信号，本专利中采用双门限端点检测算法。语音识别是一个匹配的过程，对输入的语音信号进行分析，抽取所需的特征，并在所提取的特征参数基础上建立起匹配模板，为此必须对语音信号进行特征参数提取，本专利中采用一种能够很好反映人耳听觉机理的特征参数，美尔频率倒谱系数(MFCC)。语音信号的模型训练是语音识别系统的核心部分，隐马尔可夫模型(Hidden Markov Models,简称为HMM)是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征，可直接观测到)；另一重随机过程描述了每个短时平稳段是如何转变到下一个短时平稳段，即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程也是这样一种双重随机过程，因此用隐马尔科夫模型(HMM)描述语音信号的产生过程是非常精确的。

【专利附图】

【附图说明】
[0007]图1语音识别系统识别过程总体框图
[0008]图2语音信号端点检测框图
[0009]图3语音信号隐马尔科夫模型训练框图

【具体实施方式】
[0010]在对语音信号处理之前，必须要对其进行数字化，这个过程就是模/数(A/D)转化。模/数转化过程要经过采样和量化两个过程，从而得到时间和幅度上的离散数字信号。根据奈奎斯特采样定律，一般采样频率为原始信号频率的两倍以上，才能使采样过程中不会丢失信息，而且能从采样信号中准确的重构原始信号的波形。
[0011]I)语音信号预处理
[0012]对语音信号进行分析之前，一般要对语音信号加以提升(预加重)，目的是滤除低频干扰，尤其是50Hz或者60Hz的工频干扰，提升对语音识别有用的高频部分，让信号的频谱变得平坦，从而便于进行频谱分析或声道参数分析。预加重是将语音信号通过一个一阶高通滤波器1-0.9375夕，通常称之为预加重滤波器。预加重滤波器传递函数为:
[0013]H(Z) = 1-0.9375Z—1
[0014]若s (η)是预加重前的语音信号，则经过预加重滤波器后得到的信号为:
[0015]i(?) = s(n) - 0.9375s(n -1)
[0016]语音信号是一种非平稳信号,具有时变特征,但在一个短时范围内(一般认为在10-30ms)，其特性基本保持不变，因而可以将其看作是一个准稳态过程，因此可以将语音信号进行分帧操作。一般每秒的帧数约为33-100帧，视情况而定。分帧可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使得帧与帧之间平滑过渡，保持连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-0.5。由于分帧的作用，使原本的信号变成一段一段的，这就相当于是在原始的信号在时域内加上了一个矩形窗。时域内与矩形窗相乘也就相当于频域内信号频谱与矩形窗的傅里叶变换进行卷积。这会改变原始信号的频谱。为此在分帧之后要对每一帧做一个加窗的处理。从而得到加窗语音信号s (W):
[0017]s(w) = 5(/7) * w(n)
[0018]在语音信号数字处理中常用的窗函数有汉宁窗和汉明窗。本专利中使用汉明窗:
[0019]

【权利要求】
1.基于隐马尔科夫模型的家用服务机器人语音识别系统，其特征在于包括如下步骤: 步骤(1):对输入语音信号进行滤波，旨在滤除低频干扰；步骤(2):由于语音信号是连续时变的模拟信号，滤除低频干扰后的语音信号进行采样与量化得到离散的数字信号；步骤(3):分帧使得原来的信号变成一段一段的，相当于是在原始的信号时域内加上了一个矩形窗，而时域内与矩形窗相乘就相当于在频域内信号频谱与矩形窗的傅里叶变换进行卷积，因此要对语音信号进行加窗处理；步骤(4):对加窗处理完后的语音信号进行端点检测，因为正确的检测语音信号的端点是进行语音识别的前提。步骤(5):对语音信号的特征参数进行提取，为下步特征参数的模型训练做基础；步骤(6):通过隐马尔科夫模型(HMM)对所提取的语音信号特征参数进行模型训练；步骤(7):建立语音信号的模板库，将经过隐马尔科夫训练的特征参数与模板库匹配，通过阈值比较，最终得到识别结果。
2.根据权利要求1所述基于隐马尔科夫模型的家用服务机器人语音识别系统，其特征在于所述步骤4)的端点检测采用的方法是双门限端点检测算法。
3.根据权利要求1所述基于隐马尔科夫模型的家用服务机器人语音识别系统，其特征在于所述步骤5)标准的美尔频率倒谱参数只反映语音参数的静态特性，实际上受发音的物理条件限制，不同帧间语音变化是连续的，相关的，所以在识别参数中还使用一阶差分Mel倒谱参数其定义为:
其中k为常数，一般取2，c，d都表示一帧语音参数，在使用中将MFCC参数和差分参数合并为一个向量，作为一帧语音信号的参数。
4.根据权利要求1所述基于隐马尔科夫模型的家用服务机器人语音识别系统，其特征在于所述步骤6)采用隐马尔科夫模型训练所提取的特征参数需要解决三个问题，它们分别是评估问题、最佳状态链的确定问题、模型参数优化问题；而解决这三个问题所采用的方法分别是前向后向算法、Viterbi算法和Baum-Welch算法。
【文档编号】G10L15/02GK104078039SQ201310102175
【公开日】2014年10月1日申请日期:2013年3月27日优先权日:2013年3月27日
【发明者】刘治, 苏敏发, 谢杰腾申请人:广东工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘治;苏敏发;谢杰腾
技术所有人：广东工业大学
我是此专利的发明人

上一篇：一种人声提取方法、系统以及人声音频播放方法及装置制造方法
上一篇：均衡器控制器和控制方法