一种声调评估方法与流程

文档序号：11954763阅读：来源：国知局

技术特征：

1.一种声调评估方法，其特征在于，包括：

分别建立基于帧级别特征的声调模型FLTM和基于音段级别特征的声调模型SLTM；

根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比；

根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率；

根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。

2.如权利要求1所述的声调评估方法，其特征在于，所述根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比，包括：

提取所述待识别语音的梅尔频率倒谱系数MFCC特征以及基频F0特征；

基于提取的所述待识别语音的MFCC特征，利用深度神经网络DNN分类器获取所述待识别语音的发音特征；

基于所述待识别语音的所述MFCC特征、所述基频F0特征以及所述发音特征，利用深度神经网络-隐马尔可夫模型DNN-HMM获取所述待识别语音的所述平均帧级别后验概率和所述对数后验比。

3.如权利要求2所述的声调评估方法，其特征在于，所述平均帧级别后验概率由以下公式估计：

$<mrow> <mi>A</mi> <mi>F</mi> <mi>L</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>|</mo> <mi>o</mi> <mo>;</mo> <msub> <mi>t</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>≈</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>t</mi> <mi>e</mi> </msub> <mo>-</mo> <msub> <mi>t</mi> <mi>s</mi> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mi>s</mi> </msub> </mrow> <msub> <mi>t</mi> <mi>e</mi> </msub> </munderover> <mi>log</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>$

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>s</mi> <mo>&Element;</mo> <mi>p</mi> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中，s是帧t对应的HMM状态标签，通过将所述待识别语音的音素p进行强制对齐得到，{s/s∈p}表示所有属于所述音素p的HMM状态集合，O_t是帧t输入观测向量参数，t_s或t_e分别表示所述音素p的开始和结束的帧索引号。

所述对数后验比由以下公式得到：

LPR(p_j|p_i)＝logp(p_j|o；t_s,t_e)-logp(p_i|o；t_s,t_e)

4.如权利要求2所述的声调评估方法，其特征在于，所述利用DNN分类器获取所述待识别语音的发音特征包括：

所述DNN分类器通过预先定义的发音属性类别列表提取所述待识别语音的发音特征。

5.如权利要求1所述的声调评估方法，其特征在于，所述根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率包括：

分别提取所述待识别语音的当前音节参数和相邻音节参数，其中，音节参数包括音节的基频F0曲线拟合参数、音节时长、音节基频均值和音节能量均值；

基于所述待识别语音的所述当前音节参数和所述相邻音节参数，利用DNN模型获取所述待识别语音的所述音段层级对数后验概率。

6.如权利要求5所述的声调评估方法，其特征在于，所述音段层级对数后验概率通过以下公式得到：

SLP(t_k)＝logp(t_k|o)

其中，t_k表示所述待识别语音的声调标签，k＝{1,2,3,4},o表示相应的输入参数。

7.如权利要求1-6任一所述的声调评估方法，其特征在于，根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估包括：

基于所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率、通过支持向量机SVM建立声调评估模型；

通过所述声调评估模型对所述待识别语音进行声调评估。

8.如权利要求7所述的声调评估方法，其特征在于，所述通过所述声调评估模型对所述待识别语音进行声调评估包括：

将所述待识别语音的所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率作为输入量，基于所述声调评估模型获取针对所述待识别语音的检测结果；

根据获取的检测结果分别计算错误接受率FAR、错误拒绝率FRR和诊断正确率DA，公式如下：

$<mrow> <mi>F</mi> <mi>A</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mrow> <mi>F</mi> <mi>A</mi> </mrow> <mrow> <mi>F</mi> <mi>A</mi> <mo>+</mo> <mi>T</mi> <mi>R</mi> </mrow> </mfrac> </mrow>$

$<mrow> <mi>F</mi> <mi>R</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mrow> <mi>F</mi> <mi>R</mi> </mrow> <mrow> <mi>F</mi> <mi>R</mi> <mo>+</mo> <mi>T</mi> <mi>A</mi> </mrow> </mfrac> </mrow>$

$<mrow> <mi>D</mi> <mi>A</mi> <mo>=</mo> <mfrac> <mrow> <mi>T</mi> <mi>A</mi> <mo>+</mo> <mi>T</mi> <mi>R</mi> </mrow> <mrow> <mi>T</mi> <mi>A</mi> <mo>+</mo> <mi>T</mi> <mi>R</mi> <mo>+</mo> <mi>F</mi> <mi>A</mi> <mo>+</mo> <mi>F</mi> <mi>R</mi> </mrow> </mfrac> </mrow>$

其中，TA表示正确接受的检测结果，TR表示正确拒绝的检测结果，FA表示错误接受的检测结果，FR表示错误拒绝的检测结果。

完整全部详细技术资料下载

当前第2页1 2 3