一种基于深度学习的口语评测方法和系统与流程

文档序号:13706179阅读:278来源:国知局
技术领域本发明涉及语音识别和评价技术领域,尤其涉及一种基于深度学习的口语评测方法和系统。

背景技术:
语音信号处理技术是语音处理和语音识别领域中的一个重要分支,也是现今语音识别和语音评价系统的主要核心技术。如今科技迅速发展,语音信号处理技术已深入到各个领域,包括语言学习以及口语自动评分,而在语言学习和自动评分中,运用语音信号处理的目的是将最新的语音技术与当前的教学和学习方法结合,建立辅助语言学习的系统或者口语智能评分系统。近年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。将深度学习研究引入到语音识别模型训练,极大提高了语音识别的准确率。本发明采用深度学习算法,通过深度自动编码器构建语音识别模型和情感识模型,以及其他语音处理方法,包括语音信号预处理、语音识别、情感识别和发音质量评分。发音情感是一项对口语发音质量评价的重要指标,也是一项目前较难识别的指标,本发明将采用多个特征参数通过深度学习算法对情感进行识别和评价,结合其他评估指标构建科学,全面的口语朗读评价方法。深度学习的概念源于人工神经网络的研究,由Hinton等人于2006年提出。2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点:(1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;(2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wisepre-training)来有效克服,在文章中逐层初始化是通过无监督学习实现的。由此可见,深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。现有将深度学习方法应用于移动互联网有如下方式:(1)基于DTW(DynamicTimeWarping)的口语发音评价系统DTW是语音识别中出现较早、较为经典的一种算法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题。DTW在训练中几乎不需要额外的计算,因而在孤立词语音识别中最为简单有效。(2)基于HMM(HiddenMarkovModel)的口语发音评价系统HMM是一种参数表示的用于描述随机过程统计特性的概率模型,由Markov链演变来,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较为理想的语音识别模型。(3)基于ANN(ArtificialNeuralNetwork)的口语发音评价系统ANN是利用数学模型模拟大脑神经网络的结构和功能而建立的一种信息处理系统。基于神经网络的语音识别系统本质上是一个自适应非线性动力学系统,一般由神经元、训练算法及网络结构三大要素构成。上述方法存在如下技术缺陷:(1)DTW但由于没有一个有效的用统计方法进行训练的框架,也不容易将底层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时存在较大缺陷。(2)HMM也有一定的局限性。首先,基于HMM的方法没有考虑感知的影响。其次,需要采集大规模的语音语料库来训练标准语音的HMM模板以获得稳健的HMM。再者,由于CALL是辅助第二语言学习,更多涉及非母语语音的识别。在识别非母语语音时,通常由母语语音训练的HMM识别性能会大幅下降,因此要进行非母语语音的自适应。即使这样,自适应后的HMM对非母语语音的识别仍难以取得良好的结果。(3)ANN的理论分析的难度较大,不能很好地解释语音信号的时间动态特性;在训练学习网络模型时较容易过拟合,较难调整模型参数,需要不少经验和技巧,而且速度较慢,在层次较少(小于等于3)时效果并不优于其它方法,因此浅层人工神经网络在这个时期并没有过大的突破与发展。

技术实现要素:
本发明实施例的目的在于提供一种基于深度学习的口语评测方法和系统,能够提高对口语语音识别和发音质量评价的准确度。为了实现上述目的,一方面,本发明实施例提供了一种基于深度学习的口语评测方法,包括:用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;用深度学习算法对整个句子发音质量作总体评价。进一步的,所述用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价,包括:通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;计算标准语音与所述测试语音的MFCC特征的相关系数,判断所述测试语音的流利度;根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。进一步的,所述深度自动编码器包括:编码器、解码器和隐含层;所述编码器采用如下关系式进行编码:h=f(X)=Sf(WX+bj)其中,X为输入语音的特征向量,W为输入向量的权值,bj表示第j个神经元的阈值,或者称为偏置,h是得到的隐含层值,Sf是非线性激活函数,其表达式为:sigmoid(z)=11+z-1]]>解码器采用如下关系式进行解码:y=g(H)=Sg(WH+bh)其中,H为隐含层向量,这里作为输入,W为对应的权值向量,bh为阈值,Sg是解码器的激活函数;对深度自动编码器的训练过程是在训练样本集D上寻找参数W,bj,bh构成的最小化重构误差,重构误差的表达式为:JAE=Σx∈DL(x,g(f(x))]]>其中,x为上述公式的输入,g(f(x))为上述公式的解码器输出,L是重构误差函数,表示为:L(x,y)=-Σi=1dxxilogyi+(1-xi)log(1-y).]]>进一步的,所述对深度自动编码器的训练过程包括:(1)输入用作训练的语音特征参数,在语音数据无类别标签的情况下,无监督训练出第一个AE;(2)以第一个AE的输出作为下一个AE的输入,训练出第二个AE;(3)重复步骤(2),直到完成预设数量隐含层的训练为止;(4)在最后一个隐含层上增加一个分类预测网络模型,实现对所述分类预测网络模型的权重微调。进一步的,所述用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价,具体为:通过深度信念网络模型进行情感识别,判断情感正确度;计算标准语音与所述测试语音特征参数的相关系数;根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。进一步的,所述深度信念网络模型的建立包括:10、构建RBM,描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为:Eθ(v,h)=-Σiaivi-Σjbjhj-Σijviwijhj,]]>其中θ={W,a,b
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1