一种基于深度学习的口语评测方法和系统与流程

文档序号:13706179阅读:来源:国知局
技术特征:
1.一种基于深度学习的口语评测方法,其特征在于,包括:用深度学习算法对语段音准度进行评测,得到测试语音的发音准确度评价;用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价;用深度学习算法对整个句子发音质量作总体评价。2.如权利要求1所述的基于深度学习的口语评测方法,其特征在于,所述用深度学习算法对语段音准度进行评测,得到发音准确度评价,包括:通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别,判断所述测试语音的完整度;计算标准语音与所述测试语音的MFCC(MelFrequencyCepstrumCoefficient)特征的相关系数,判断所述测试语音的流利度;根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。3.如权利要求2所述的基于深度学习的口语评测方法,其特征在于,所述深度自动编码器包括:编码器、解码器和隐含层;所述编码器采用如下关系式进行编码:h=f(X)=Sf(WX+bj)其中,X为输入语音的特征向量,W为输入向量的权值,bj表示第j个神经元的阈值,或者称为偏置,h是得到的隐含层值,Sf是非线性激活函数,其表达式为:sigmoid(z)=11+z-1]]>解码器采用如下关系式进行解码:y=g(H)=Sg(WH+bh)其中,H为隐含层向量,这里作为输入,W为对应的权值向量,bh为阈值,Sg是解码器的激活函数;对深度自动编码器的训练过程是在训练样本集D上寻找参数W,bj,bh构\t成的最小化重构误差,重构误差的表达式为:JAE=Σx∈DL(x,g(f(x))]]>其中,x为上述公式的输入,g(f(x))为上述公式的解码器输出,L是重构误差函数,表示为:L(x,y)=-Σi=1dxxilogyi+(1-xi)log(1-y).]]>4.如权利要求3所述的基于深度学习的口语评测方法,其特征在于,所述对深度自动编码器的训练过程包括:(1)输入用作训练的语音特征参数,在语音数据无类别标签的情况下,无监督训练出第一个AE(Autoencoder);(2)以第一个AE的输出作为下一个AE的输入,训练出第二个AE;(3)重复步骤(2),直到完成预设数量隐含层的训练为止;(4)在最后一个隐含层上增加一个分类预测网络模型,实现对所述分类预测网络模型的权重微调。5.如权利要求1所述的基于深度学习的口语评测方法,其特征在于,所述用深度学习算法对语音情感度进行评测,得到测试语音的情感准确度评价,具体为:通过深度信念网络模型进行情感识别,判断情感正确度;计算标准语音与所述测试语音特征参数的相关系数;根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。6.如权利要求5所述的基于深度学习的口语评测方法,其特征在于,所述深度信念网络模型的建立包括:10、构建RBM(RestrictedBoltzmannMachine),描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为:Eθ(v,h)=-Σiaivi-Σjbjhj-Σijviwijhj,]]>其中θ={W,a,b
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1