语音识别方法和装置的制造方法

文档序号:9418692阅读:513来源:国知局
语音识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及机器学习和语音识别领域,特别是指一种语音识别方法和装置。
【背景技术】
[0002] 人类最重要的交流方式就是通过语音互相传递信息。如果人与计算机之间也能够 通过语音进行交流,无疑会极大的提高人机界面的易用性。随着计算机技术及机器学习的 不断发展,人与机器之间的交流也越来越广泛。语音识别把语音转换为相应的文本,以便机 器理解和产生相应的操作,对实现机器智能具有重要的意义。
[0003] 近年来,涌现了一些的语音识别方法,比较常用的语音识别方法有:模板匹配的方 法和利用人工神经网络的方法。其中,隐马尔科夫模型(HMM,Hidden Markov Model)是最 常用的模板匹配方法,该方法能够合理地模仿人的言语过程,较好地描述语音信号的整体 非平稳性和局部平稳性;人工神经网络(ANN,Artificial Neural Network)能够模拟人类 神经元的活动,具有自适应性、容错性、鲁棒性和学习性。但是,隐马尔科夫模型没有考虑帧 与帧之间的相关性,其对概率密度的先验分布的假设缺乏非线性的判别能力,会导致系统 精确度差,而且对操作环境的变化十分敏感;而人工神经网络增加了训练的计算要求,由于 神经网络缺少对时间依赖问题的建模能力,不能适应语音时间序列,在连续识别任务方面 表现很差。

【发明内容】

[0004] 本发明要解决的技术问题是提供一种速度快、精度高的语音识别方法和装置。
[0005] 为解决上述技术问题,本发明提供技术方案如下:
[0006] 一种语音识别方法,包括:
[0007] 获取待识别的语音信号;
[0008] 采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
[0009] 将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
[0010] 其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归 层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练 该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值 参数。
[0011] 一种语音识别装置,包括:
[0012] 获取模块:用于获取待识别的语音信号;
[0013] 提取模块:用于采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;
[0014] 识别模块:用于将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信 息;
[0015] 其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归 层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练 该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值 参数。
[0016] 本发明的实施例具有以下有益效果:
[0017] 本发明的语音识别方法和装置,首先采用MFCC算法对所述语音信号进行特征提 取,得到MFCC特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参 数,能很好的反应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特 性的语音特征参量,在实际应用中能够取得较高的识别率。然后,本发明利用逐层训练的方 法训练RNN,所述RNN包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接 的权重矩阵和偏差向量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、 偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。本发明中,采用的逐层训练 RNN参数对非线性时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的 特征既可以很好的表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的 特点。与现有技术相比,本发明的具有速度快、精度高的优点。
【附图说明】
[0018] 图1为本发明的语音识别方法的流程示意图;
[0019] 图2为本发明的语音识别方法的MFCC特征提取的流程示意图;
[0020] 图3为本发明的语音识别方法的非递归层的RNN逐层训练方法的流程示意图;
[0021] 图4为本发明的语音识别方法的递归层的RNN逐层训练方法的流程示意图;
[0022] 图5为本发明的语音识别方法的end-to-end训练方法的流程示意图;
[0023] 图6为本发明的语音识别方法的语音识别的整体流程示意图;
[0024] 图7为本发明的语音识别方法的RNN的连接方式示意图;
[0025] 图8为本发明的语音识别方法的自动编码器的原理示意图;
[0026] 图9为本发明的语音识别装置的结构示意图;
[0027] 图10为本发明的语音识别装置的结构示意图一;
[0028] 图11为本发明的语音识别装置的结构示意图二;
[0029] 图12为本发明的语音识别装置的结构示意图三。
【具体实施方式】
[0030] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具 体实施例进行详细描述。
[0031] 名词解释:
[0032] RNN(Recurrent Neural Network):递归神经网络,是一种序列模型,在神经网络 的基础上,考虑相邻时间t和t-Ι的隐含层神经元之间的连接关系。
[0033] CTC(Connectionist Temporal Classification):联结时间分类,通过对齐RNN的 输出和语音序列标签最小化目标函数。
[0034] -方面,本发明提供一种语音识别方法,如图1所示,包括:
[0035] 步骤SlOl :获取待识别的语音信号;
[0036] 本步骤中的语音信号可以在本发明的不同应用场景中获取,其中,本发明可以应 用在多种不同的应用场景中,如手机聊天工具中、手机语音搜索功能中、学习外语的校正系 统中,以及人与电脑进行语音交互的系统中等。
[0037] 步骤S102 :采用MFCC算法对语音信号进行特征提取,得到MFCC特征;
[0038] 本步骤中,MFCC特征的提取过程,如图2所示,MFCC特征是基于人耳听觉特性的 Mel频率倒谱系数,该特性充分考虑了人耳的听觉系统的非线性特性,将语音信号的频谱转 化为基于Mel频率的非线性频谱,再转换到倒谱域上,因此MFCC具有良好识别性能和抗噪 能力。
[0039] 步骤S103 :将MFCC特征输入预先训练好的RNN,得到识别出的文本信息;
[0040] 本步骤中,采用的RNN是一种序列模型,在神经网络的基础上,考虑相邻时间的隐 含层单元之间的连接关系,对非线性时间序列信号中的有效信息有突出的表征能力。
[0041] 其中,RNN通过逐层训练得到,RNN包含若干隐含层,当隐含层为非递归层时,只训 练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前 一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。
[0042] 本发明的语音识别方法,首先采用MFCC算法对语音信号进行特征提取,得到MFCC 特征,MFCC特征是将人耳听觉感知特性与语音的产生相结合的一种特征参数,能很好的反 应出人耳的感知特性,同时,MFCC特征模拟了人的听觉特性,符合人听觉特性的语音特征参 量,在实际应用中能够取得较高的识别率。然后,本发明利用逐层训练的方法训练RNN,RNN 包含若干隐含层:当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向 量参数;当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层 内连接的权重矩阵和初始状态激活值参数。本发明中,采用的逐层训练RNN参数对非线性 时间序列信号中的有效信息具有突出的表征能力,使得每层RNN提取的特征既可以很好的 表征原始信号,又具有良好的分类能力,此外,RNN还具有收敛速度快的特点。与现有技术 相比,本发明的具有速度快、精度高的优点。
[0043] 作为本发明的一种改进,如图3所示,RNN的逐层训练方法包括:
[0044] 步骤S201 :当隐含层为非递归层时,采用自动编码器对训练样本依次进行编码和 解码操作,计算得到训练样本的每个时间步的重构误差;
[0045] 步骤S202 :采用误差反向传播算法使得重构误差最小,更新参数值,采用更新后 的参数计算使重构误差最小时训练样本的每个时间步的激活值,作为原始输入的抽象表 示;
[0046] 上述步骤S201和S202中,采用的自动编码器,具有良好的学习数据特征的能力, 自动编码器能够学习数据中的特征,同时降低特征维数。本发明的实施过程为:
[0047] 时间步t从1递增到T,编码过程为:
[0048]
{ 1 )
[0049] 其中W(1),b(1)为网络参数,解码过程为:
[0050]
( 2 )
[0051] 其中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1