基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

文档序号:8382005阅读:402来源:国知局
基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
【技术领域】
[0001] 本发明属于音频技术领域,特别涉及一种基于选择性注意原理的深度长短期记忆 循环神经网络声学模型的构建方法。
【背景技术】
[0002] 随着信息技术的迅速发展,语音识别技术已经具备大规模商业化的条件。目前 语音识别主要采用基于统计模型的连续语音识别技术,其主要目标是通过给定的语音序 列寻找其所代表的概率最大的词序列。基于统计模型的连续语音识别系统的任务是根据 给定的语音序列寻找其所代表的概率最大的词序列,通常包括构建声学模型和语言模型 及其对应的搜索解码方法。随着声学模型和语言模型的快速发展,语音识别系统的性能 在理想声学环境下已经大为改善,现有的深度神经网络-隐马尔科夫模型(De印Neural Network-HiddenMarkovModel,DNN_HMM)初步成熟,通过机器学习的方法可以自动提取有 效特征,并能对多帧语音对应的上下文信息建模,但是此类模型每一层都有百万量级的参 数,且下一层的输入是上一次的输出,因此需要使用GPU设备来训练DNN声学模型,训练时 间长;高度非线性以及参数共享的特性也使得DNN难以进行参数自适应。
[0003] 循环神经网络(RecurrentNeuralNetwork,RNN)是一种单元之间存在有向循 环来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应 用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度神 经网络而言,循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。
[0004] 作为循环神经网络的一种,长短期记忆(LongShort-TermMemory,LSTM)模型比 循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加 了记忆模块(memoryblock)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能 力与循环神经网络灵活利用长跨度上下文的能力结合,使得基于TIMIT库的音素识别错误 率降至17. 1%。
[0005] 但是循环神经网络中使用的梯度下降法存在梯度消散(vanishinggradient) 问题,也就是在对网络的权重进行调整的过程中,随着网络层数增加,梯度逐层消散,致使 其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型,在以前的深 度LSTM-RNN模型中增加了线性循环投影层(RecurrentProjectionLayer),用于解决梯 度消散问题。对比实验表明,RNN的帧正确率(FrameAccuracy)及其收敛速度明显逊于 LSTM-RNN和DNN;在词错误率及其收敛速度方面,最好的DNN在训练数周后的词错误率为 11. 3%;而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10. 9%,训练100/200 小时后,词错误率降低至10. 7/10. 5 (%)。
[0006] 慕尼黑大学提出的深度双向长短期记忆循环神经网络(DeepBidirectional LongShort-TermMemoryRecurrentNeuralNetworks,DBLSTM-RNN)声学模型,在神经 网络的每个循环层中定义了相互独立的前向层和后向层,并使用多隐藏层对输入的声学特 征进行更高层表征,同时对噪声和混响进行有监督学习实现特征投影和增强。此方法在 2013?45041〇^1^数据集上,在信噪比[-6(18,9(18]范围内实现了词错误率从基线的55% 降低到22%。
[0007] 但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能,即使利 用目前主流的DNN声学模型方法,在包括噪声、音乐、口语、重复等复杂环境条件下的连续 语音识别数据集上也只能获得70%左右的识别率,连续语音识别系统中声学模型的抗噪性 和鲁棒性仍有待改进。
[0008] 随着声学模型和语言模型的快速发展,语音识别系统的性能在理想声学环境下已 经大为改善,现有的DNN-HMM模型初步成熟,通过机器学习的方法可以自动提取有效特征, 并能对多帧语音对应的上下文信息建模。然而大多数识别系统对于声学环境的改变仍然十 分敏感,特别是在cross-talk噪声(两人或多人同时说话)干扰下不能满足实用性能的要 求。与深度神经网络声学模型相比,循环神经网络声学模型中的单元之间存在有向循环,可 以有效的描述神经网络内部的动态时间特性,更适合处理具有复杂时序的语音数据。而长 短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列,因 此用于构建语音识别的声学模型能够取得更好的效果。
[0009] 人脑在处理复杂场景的语音时存在选择性注意的现象,其主要原理为:人脑具 有听觉选择性注意的能力,在听觉皮层区域通过自上而下的控制机制,来实现抑制非目 标流和增强目标流的目的。研宄表明,在选择性注意的过程中,听觉皮层的短期可塑性 (Short-TermPlasticity)效应增加了对声音的区分能力。在注意力非常集中时,在初级听 觉皮层可以在50毫秒内开始对声音目标进行增强处理。

【发明内容】

[0010] 为了克服上述现有技术的缺点,本发明的目的在于提供一种基于选择性注意原理 的深度长短期记忆循环神经网络声学模型的构建方法,建立了基于选择性注意原理的深度 长短期记忆循环神经网络声学模型,通过在深度长短期记忆循环神经网络声学模型中增加 注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处 在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时 间序列上存在间隔。通过对包含cross-talk噪声的大量语音数据进行训练获得的上述神 经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通 过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的。
[0011] 为了实现上述目的,本发明采用的技术方案是:
[0012] 一种基于选择性注意原理的连续语音识别方法,包括如下步骤:
[0013] 第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
[0014] 从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记 忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入,如此重复,最后一个长 短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络 中,语音信号\为t时刻的输入,Xt_i为t-1时刻的输入,以此类推,总时间长度上的输入为 X= [Xl,...,xT]其中te[1,T],T为语音信号的总时间长度;t时刻的长短期记忆循环神 经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t-1 时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、 乘法器组成;总时间长度上的隐藏层输出为y= [yi,...,yT];
[0015] 第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
[0016] 在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意 门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深 度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络 组成。
[0017] 如何在复杂环境干扰,特别是在cross-talk噪声干扰下进行识别,一直是语音识 别的难点之一,阻碍了语音识别的大规模应用。与现有技术相比,本发明借鉴人脑在处理复 杂场景的语音时存在选择性注意的现象来实现抑制非目标流和增强目标流,通过在深度长 短期记忆递归神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改 变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单 元体现的是短期可塑性效应,因此在时间序列上存在间隔。在一些包含Cross-talk噪声的 连续语音识别数据集上采用这种方法,可以获得比深度神经网络方法更好的性能。
【附图说明】
[0018] 图1是本发明的基于选择性注意原理的深度长短期记忆循环神经网络流程图。
[0019] 图2是本发明的基于选择性注意原理的深度长短期记忆神经网络声学模型流程 图。
【具体实施方式】
[0020] 下面结合附图和实施例详细说明本发明的实施方式。
[0021] 本发明利用基于选择性注意原理的深度长短期记忆循环神经网络声学模型,实现 了连续语音识别。但本发明提供的模型及方法不局限于连续语音识别,也可以是任何与语 音识别有关的方法和装置。
[0022] 本发明主要包括如下步骤:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1