一种基于深度长短期记忆循环神经网络的连续语音识别方法_2

文档序号：8224535阅读：来源：国知局

入，1 G [1，口用于对全部户求和；0代表矩阵元素相乘。
[0023] 所述两个深度长短期记忆循环神经网络模块中，分别取一个位于同一级的长短期记忆神经网络子模块的输出作为一个更新子模块的两个输入，一个更新子模块由交叉滴和线性循环投影层二组成，多个更新子模块串联组成更新模块，一个更新子模块的输出作为下一个更新子模块的输入，最后一个子模块的输出为整个更新模块的输出。
[0024] 所述更新子模块中的交叉滴按照如下公式计算：
[002引 d (X。X2) = / 又1 In Xgdt- / 又2 Inxidt
[0026] 其中d为交叉滴，Xi和X 2分别代表本更新子模块的两个输入，即W原始纯净语音信号和带噪信号为输入的长短期记忆神经网络模块中的长短期记忆神经网络子模块的输出；
[0027] 线性循环投影层二的输出按照如下公式计算：
[002引 y，= soft maXk(Wy' d+by'）
[0029] 其中y'为整个更新模块的输出矢量，Wy代表参数更新输出到线性循环投影层输出的权重，d代表交叉滴，by，代表偏差量。
[0030] 现有的深度神经网络声学模型在安静的环境下具有很好的性能，但在环境噪声较大使得信噪比急剧下降的情况下失效。与深度神经网络声学模型相比，本发明循环神经网络声学模型中的单元之间存在有向循环，可W有效的描述神经网络内部的动态时间特性，更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列，因此用于构建语音识别的声学模型能够取得更好的效果。进一步，在深度长短期记忆循环神经网络声学模型结构中需要降低噪声特征对神经网络参数的影响，提高语音识别系统在环境噪声干扰下的抗噪性及鲁椿性。
【附图说明】
[0031] 图1是本发明的深度长短期记忆神经网络模型流程图。
[0032] 图2是本发明的深度长短期记忆循环神经网络更新模块流程图。
[0033] 图3是本发明的鲁椿深度长短期记忆神经网络声学模型流程图。
【主权项】
1. 一种基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，包括：步骤一，建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块；步骤二，分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块；步骤三，对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异，并通过线性循环投影层二实现交叉熵参数更新；步骤四，通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出，实现连续语音识别。
2. 根据权利要求1所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述深度长短期记忆循环神经网络模块中，语音信号X = [Xl，...，χτ]作为整个模块的输入，同时也作为第一个长短期记忆层的输入，第一个长短期记忆层的输出作为第一个线性循环投影层的输入，第一个线性循环投影层的输出作为下一个线性循环投影层的输入，下一个线性循环投影层的输出再作为下下一个线性循环投影层的输入，依次类推，其中，以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块中，最后一个线性循环投影层的输出作为整个深度长短期记忆循环神经网络模块的输出y = [yi，...，yT]，T为语音信号的时间长度，而以带噪信号为输入的深度长短期记忆循环神经网络模块中，最后一个线性循环投影层的输出舍弃。
3. 根据权利要求1或2所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述长短期记忆层由记忆细胞、输入门、输出门、遗忘门、tanh函数以及乘法器组成，其中长短期记忆层即长短期记忆神经网络子模块，在t e [l，T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算： Ginput= sigmoid(Wixx+WicCell' +b) Gf〇rget =si gmo i d (ff fxx+fffcCe 11' +bf) Cell = m' +GforgetΘ Cell' +G input0 tanh (ff cxx) Θ m' +bc Goutput= sigmoid (W 〇xx+W〇cCell' +b0) m = tanh(GoutputΘ Cell Θ m'） y = Softmaxk (ffymm+by) 其中Ginput为输入门的输出，G fOTgrt为遗忘门的输出，Cell为记忆细胞的输出，Cell'为 t-Ι时刻记忆细胞的输出，Gratput为输出门的输出，G' __为t-Ι时刻输出门的输出，m为线性循环投影层的输出，m'为t-Ι时刻线性循环投影层的输出；X为整个长短期记忆循环神经网络模块的输入，y为一个长短期记忆循环神经网络子模块的输出；匕为输入门i的偏差量，1^为遗忘门f的偏差量，b。为记忆细胞c的偏差量，b。为输出门。的偏差量，b y为输出 y的偏差量，不同的b代表不同的偏差量;Wix为输入门i与输入X之间的权重，W ic;为输入门i与记忆细胞c之间的权重，Wfx为遗忘门f与输入X之间的权重，W f。为遗忘门f与记忆细胞c之间的权重，W。。为输出门〇与记忆细胞c之间的权重，W ym为输出y与输出m之间的权重，且有
，其中Xk表示第 k e [1，K]个softmax函数的输入，I e [1，K]用于对全部Y求和；Θ代表矩阵元素相乘。
4. 根据权利要求3所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述两个深度长短期记忆循环神经网络模块中，分别取一个位于同一级的长短期记忆神经网络子模块的输出作为一个更新子模块的两个输入，一个更新子模块由交叉熵和线性循环投影层二组成，多个更新子模块串联组成更新模块，一个更新子模块的输出作为下一个更新子模块的输入，最后一个子模块的输出为整个更新模块的输出。
5. 根据权利要求4所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述更新子模块中的交叉熵按照如下公式计算： (I(X11X2) = / X1In x2dt- / X2Inx1Clt 其中d为交叉熵，^和X 2分别代表本更新子模块的两个输入，即以原始纯净语音信号和带噪信号为输入的长短期记忆神经网络模块中的长短期记忆神经网络子模块的输出；线性循环投影层二的输出按照如下公式计算： y' = soft maxk (ffy> d+by>) 其中d即交叉熵，y'为整个更新模块的输出矢量，Wy代表参数更新输出到线性循环投影层输出的权重，u代表交叉熵，by，代表偏差量。
【专利摘要】一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法，将带噪语音信号和原始纯净语音信号作为训练样本，构建两个结构完全相同的深度长短期记忆循环神经网络模块，在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异，并用线性循环投影层对交叉熵参数进行更新，最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型；本发明提出的方法，通过构建深度长短期记忆循环神经网络声学模型，提高了对带噪连续语音信号的语音识别率，避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题，具有计算复杂度低、收敛速度快等特点，可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。
【IPC分类】G10L15-16
【公开号】CN104538028
【申请号】CN201410821646
【发明人】杨毅, 孙甲松
【申请人】清华大学
【公开日】2015年4月22日
【申请日】2014年12月25日...

完整全部详细技术资料下载

当前第2页1 2