语音识别方法和装置的制造方法

文档序号：9418692阅读：513来源：国知局

语音识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及机器学习和语音识别领域，特别是指一种语音识别方法和装置。
【背景技术】
[0002] 人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够通过语音进行交流，无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的不断发展，人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本，以便机器理解和产生相应的操作，对实现机器智能具有重要的意义。
[0003] 近年来，涌现了一些的语音识别方法，比较常用的语音识别方法有：模板匹配的方法和利用人工神经网络的方法。其中，隐马尔科夫模型（HMM，Hidden Markov Model)是最常用的模板匹配方法，该方法能够合理地模仿人的言语过程，较好地描述语音信号的整体非平稳性和局部平稳性；人工神经网络（ANN，Artificial Neural Network)能够模拟人类神经元的活动，具有自适应性、容错性、鲁棒性和学习性。但是，隐马尔科夫模型没有考虑帧与帧之间的相关性，其对概率密度的先验分布的假设缺乏非线性的判别能力，会导致系统精确度差，而且对操作环境的变化十分敏感；而人工神经网络增加了训练的计算要求，由于神经网络缺少对时间依赖问题的建模能力，不能适应语音时间序列，在连续识别任务方面表现很差。

【发明内容】

[0004] 本发明要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。
[0005] 为解决上述技术问题，本发明提供技术方案如下：
[0006] 一种语音识别方法，包括：
[0007] 获取待识别的语音信号；
[0008] 采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；
[0009] 将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；
[0010] 其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
[0011] 一种语音识别装置，包括：
[0012] 获取模块：用于获取待识别的语音信号；
[0013] 提取模块：用于采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征；
[0014] 识别模块：用于将所述MFCC特征输入预先训练好的RNN，得到识别出的文本信息；
[0015] 其中，所述RNN通过逐层训练得到，所述RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
[0016] 本发明的实施例具有以下有益效果：
[0017] 本发明的语音识别方法和装置，首先采用MFCC算法对所述语音信号进行特征提取，得到MFCC特征，MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数，能很好的反应出人耳的感知特性，同时，MFCC特征模拟了人的听觉特性，符合人听觉特性的语音特征参量，在实际应用中能够取得较高的识别率。然后，本发明利用逐层训练的方法训练RNN，所述RNN包含若干隐含层：当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数；当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中，采用的逐层训练 RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力，使得每层RNN提取的特征既可以很好的表征原始信号，又具有良好的分类能力，此外，RNN还具有收敛速度快的特点。与现有技术相比，本发明的具有速度快、精度高的优点。
【附图说明】
[0018] 图1为本发明的语音识别方法的流程示意图；
[0019] 图2为本发明的语音识别方法的MFCC特征提取的流程示意图；
[0020] 图3为本发明的语音识别方法的非递归层的RNN逐层训练方法的流程示意图；
[0021] 图4为本发明的语音识别方法的递归层的RNN逐层训练方法的流程示意图；
[0022] 图5为本发明的语音识别方法的end-to-end训练方法的流程示意图；
[0023] 图6为本发明的语音识别方法的语音识别的整体流程示意图；
[0024] 图7为本发明的语音识别方法的RNN的连接方式示意图；
[0025] 图8为本发明的语音识别方法的自动编码器的原理示意图；
[0026] 图9为本发明的语音识别装置的结构示意图；
[0027] 图10为本发明的语音识别装置的结构示意图一；
[0028] 图11为本发明的语音识别装置的结构示意图二；
[0029] 图12为本发明的语音识别装置的结构示意图三。
【具体实施方式】
[0030] 为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。
[0031] 名词解释：
[0032] RNN(Recurrent Neural Network):递归神经网络，是一种序列模型，在神经网络的基础上，考虑相邻时间t和t-Ι的隐含层神经元之间的连接关系。
[0033] CTC(Connectionist Temporal Classification):联结时间分类，通过对齐RNN的输出和语音序列标签最小化目标函数。
[0034] -方面，本发明提供一种语音识别方法，如图1所示，包括：
[0035] 步骤SlOl :获取待识别的语音信号；
[0036] 本步骤中的语音信号可以在本发明的不同应用场景中获取，其中，本发明可以应用在多种不同的应用场景中，如手机聊天工具中、手机语音搜索功能中、学习外语的校正系统中，以及人与电脑进行语音交互的系统中等。
[0037] 步骤S102 :采用MFCC算法对语音信号进行特征提取，得到MFCC特征；
[0038] 本步骤中，MFCC特征的提取过程，如图2所示，MFCC特征是基于人耳听觉特性的 Mel频率倒谱系数，该特性充分考虑了人耳的听觉系统的非线性特性，将语音信号的频谱转化为基于Mel频率的非线性频谱，再转换到倒谱域上，因此MFCC具有良好识别性能和抗噪能力。
[0039] 步骤S103 :将MFCC特征输入预先训练好的RNN，得到识别出的文本信息；
[0040] 本步骤中，采用的RNN是一种序列模型，在神经网络的基础上，考虑相邻时间的隐含层单元之间的连接关系，对非线性时间序列信号中的有效信息有突出的表征能力。
[0041] 其中，RNN通过逐层训练得到，RNN包含若干隐含层，当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数，当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
[0042] 本发明的语音识别方法，首先采用MFCC算法对语音信号进行特征提取，得到MFCC 特征，MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数，能很好的反应出人耳的感知特性，同时，MFCC特征模拟了人的听觉特性，符合人听觉特性的语音特征参量，在实际应用中能够取得较高的识别率。然后，本发明利用逐层训练的方法训练RNN，RNN 包含若干隐含层：当隐含层为非递归层时，只训练该层与前一层连接的权重矩阵和偏差向量参数；当隐含层为递归层时，只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中，采用的逐层训练RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力，使得每层RNN提取的特征既可以很好的表征原始信号，又具有良好的分类能力，此外，RNN还具有收敛速度快的特点。与现有技术相比，本发明的具有速度快、精度高的优点。
[0043] 作为本发明的一种改进，如图3所示，RNN的逐层训练方法包括：
[0044] 步骤S201 :当隐含层为非递归层时，采用自动编码器对训练样本依次进行编码和解码操作，计算得到训练样本的每个时间步的重构误差；
[0045] 步骤S202 :采用误差反向传播算法使得重构误差最小，更新参数值，采用更新后的参数计算使重构误差最小时训练样本的每个时间步的激活值，作为原始输入的抽象表示；
[0046] 上述步骤S201和S202中，采用的自动编码器，具有良好的学习数据特征的能力，自动编码器能够学习数据中的特征，同时降低特征维数。本发明的实施过程为：
[0047] 时间步t从1递增到T，编码过程为：
[0048]
{ 1 )
[0049] 其中W(1)，b(1)为网络参数，解码过程为：
[0050]
( 2 )
[0051] 其中

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘孟竹;唐青松;张祥德;
技术所有人：北京天诚盛业科技有限公司;
我是此专利的发明人

上一篇：一种确定左右声道音频相关系数的方法及装置的制造方法
上一篇：一种音频频域连续性图谱计算方法