基于多特征和多系统融合的发音质量评估和错误检测方法

文档序号:2831156阅读:266来源:国知局
专利名称:基于多特征和多系统融合的发音质量评估和错误检测方法
技术领域
本发明涉及语音识别和多系统融合技术在发音质量评估和发音错误检测上的应
用技术领域,具体涉及一种基于多特征和多系统融合的发音质量评估和错误检测方法。
背景技术
目前,国内英语口语考试仍采用人工评价形式,由于需要在短时间内对大量考生 进行测试,其考务组织繁重,测试成本高,且效率低下,同时人工评判的主观性较强,很难保 证考试的客观公正性。利用计算机技术对发音质量和发音错误进行自动评估和检测可以有 效弥补人工评价手段的不足,并可以为语言辅助教学提供巨大帮助。 现有的发音质量评估和错误检测方法普遍依赖于语音识别的后验概率,并且使用 单一的特征或方法进行评检。模式识别和机器学习领域的大量理论和实践都表明,单一的 特征和方法很难进一步提高系统性能,而使用多种特征并对多个系统进行信息融合可以充 分发挥不同特征和方法的优势,取得单一特征和系统难以达到的效果。

发明内容
( — )要解决的技术问题 有鉴于此,针对现有技术使用单一特征和方法进行发音质量评估和错误检测的不 足,本发明的主要目的在于提供一种基于多特征和多系统融合的发音质量评估和错误检测 方法,以有效利用多种语音特征,充分使用多种评估和检测系统并进行信息融合,从而在最 大程度上发挥各种特征和系统的优势,保证发音评估和检错的准确性和可靠性。
( 二 )技术方案 为达到上述目的,本发明采用的技术方案如下 —种基于多特征和多系统融合的发音质量评估和错误检测方法,该方法利用多种
特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误
检测,包括以下步骤 语音识别及其自动切分对齐; 提取用于发音质量评估和检错的特征参数; 获取发音质量评估和检错模型训练数据; 训练多个发音质量评估和检错系统; 多个发音质量评估和检错系统的融合;以及 对发音质量进行评估和对发音错误进行检测。 上述方案中,所述语音识别及其自动切分对齐的步骤,具体包括 收集发音语料,并对收集的发音语料进行词和音素级的人工标注; 利用收集的发音语料训练语音识别和切分对齐需要的发音模型; 在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语
音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。
上述方案中,所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的 发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语 言约束关系。 上述方案中,所述提取用于发音质量评估和检错的特征参数的步骤,具体包括
提取语音帧的PLP、 Pitch和Formant特征,并将音素边界内所有帧的PLP、 Pitch 和Formant特征作为G匪评检系统的特征; 将语音帧的PLP、Pitch和Formant特征转换为GLDS特征,并将音素边界内所有帧 的GLDS特征作为SVM评检系统的特征; 提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为MLP评检系统 的特征。 上述方案中,所述提取语音帧的PLP、 Pitch和Formant特征之后,进一步包括对 提取的Pitch (即FO)和Formant特征进行规一化,Formant取Fl、 F2和F3,同时提供F0、 Fl、 F2和F3的一阶和二阶差分参数。 上述方案中,所述获取发音质量评估和检错模型训练数据的步骤,具体包括
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音 素的语音样本,以此作为训练各音素G匪模型的数据; 利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音 素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以 各音素对应的正负样本作为训练各音素SVM模型的数据; 利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本 和标注结果的对应关系,以此作为训练MLP模型的数据。 上述方案中,所述将当前音素的样本作为正样本,其他音素的样本作为当前音素 的负样本,具体包括 对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对 辅音; 对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对 韵母。 上述方案中,所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构
成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。 上述方案中,所述训练多个发音质量评估和检错系统的步骤,具体包括 训练G匪评检模型; 训练SVM评检模型;以及 训练MLP评检模型。 上述方案中,所述训练G匪评检模型,具体包括 针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后
再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型; 针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后
再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型。 上述方案中,所述训练SVM评检模型,具体包括SVM训练的正负样本比例保持在i : l左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练svM
评检模型。 上述方案中,在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用 SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最 终SVM模型;当某个音素的正样本较少时,通过邻近类别音素合并的手段降低数据量不足 对SVM模型精度的影响。 上述方案中,所述训练MLP评检模型,具体包括利用语音样本和对应的标注结 果,使用MLP训练工具训练得到统一的MLP模型。 上述方案中,所述多个发音质量评估和检错系统的融合的步骤,具体包括
1)、利用G匪模型计算当前音素的GOP得分,记为score,; 2)、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为score,;
3)、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为 scoremlp ; 4)、将scoregmm、 scoresvm和scoremlp变换到统一的得分域; 5)、当前音素的最终置信度得分为score = wg_ 'score^+Ws^ 'scoresvm+w一 'scor
emlp,其中wgmm、wsvm和wmlp为G匪、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。 上述方案中,步骤1)中所述计算当前音素的GOP得分,是将当前音素在自身G匪
模型上的对数概率减去在所有G匪模型上的对数概率之和。 上述方案中,所述在计算当前音素的GOP得分的过程中,具体包括 对于英文,元音的所有G匪模型只计算元音,辅音的所有G匪模型只计算辅音; 对于中文,声母的所有G匪模型只计算声母,韵母的所有G匪模型只计算韵母。 上述方案中,步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模
型进行内积运算获得。 上述方案中,步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出
值进行动态规划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。 上述方案中,所述对发音质量进行评估和对发音错误进行检测的步骤,具体包
括 1)、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量 评分,并作为不同层次上发音质量评估的指标; 2)、利用学习样本库,在音素或词汇的发音质量评分的基础上,通过设置发音错误 检测门限的方法达到检出率和误检率的平衡,并根据对检出率和误检率的实际要求调整工 作点; 3)、将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果 发音质量评分小于门限,则认为音素或词汇发生发音错误。 上述方案中,步骤1)中所述音素、词汇、句子和段落层次的发音质量评分折算方 法分别为 音素层次的发音质量评分即音素的置信度得分; 词汇层次的发音质量评分为词汇内部所有音素发音质量评分的平均值;
句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值; 段落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。 上述方案中,所述在计算词汇、句子和段落层次的发音质量评分时,对针对英文的
元音和辅音或者对针对中文的声母和韵母,音素发音质量评分以不同的权重。 上述方案中,步骤2)中所述发音错误检测门限,对于不同音素,其门限值不同。 上述方案中,步骤3)中所述对发音错误进行检测,进一步包括 将发音质量定义为正确、错误和缺陷三个层次,并通过门限1和门限2将得分域划
分为三部分,分别对应错误、缺陷和正确三个层次; 当发音质量评分小于门限1时,认为发音错误,当发音质量评分大于门限1且小于
门限2时,认为发音有缺陷,当发音质量评分大于门限2时,认为发音正确。(三)有益效果 从上述技术方案可以看出,本发明使用多种语音特征提取和多种系统融合的方法 进行发音质量评估和错误检测,综合利用了 PLP、 Pitch、 Formant、 GLDS和TRAP特征,有效 地融合了 G匪、SVM和MLP评检方法,具有以下有益效果 1)多种特征可以更加全面地刻画语音的特性和发音的质量,弥补单一特征的不 足,具体来说,PLP是识别和发音评估中比较鲁棒的主流特征,Pitch和Formant具有明显的 物理意义并增强了对元音(韵母)的描述能力,GLDS将低维特征变换成高维特征以利于提 高分类性能,TRAP相对于PLP加强了对语音时序变化的描述并与MLP实现了很好的衔接;
2)G匪是一种统计模型,多用于描述语音特征及其分布,而SVM和MLP作为区分性 辨别模型在模式分类方面表现突出,且SVM具有很强的外推能力,多系统融合充分利用了 上述系统的特点,将单个系统的优势很好地结合起来; 3)本发明充分利用了积累的大量具有人工标注的语音数据和学习样本库,考虑了 不同性别、不同年龄和不同地域的差异性,评检方法具有良好的推广性;
4)本发明涉及的多系统融合权重和错误检测门限等参数均可以根据实际情况进 行调节,便于用户使用; 5)本发明可以提供面向音素、词汇、句子和段落等多个层次的发音质量评估和错 误检测,发明中涉及的特征和评检方法对语种没有限制。


图1是本发明发音质量评估和错误检测系统框图;
图2是本发明GMM评检模型的训练流程图;
图3是本发明SVM评检模型的训练流程图;
图4是本发明MLP评检模型的训练流程图;
图5是本发明多系统融合与评检策略流程图; 图6是本发明第一实施例流程图,词汇发音的质量评估和错误检测; 图7是本发明第二实施例流程图,英语口语考试中段落朗读题型的发音质量评估
和错误检测。
具体实施例方式
首先,详细介绍本发明涉及的技术术语。 PLP :感知加权线性预测参数(Perc印tual Linear Prediction),是一种基于听觉 模型的特征,使用经过听觉模型处理后的信号替代传统的线性预测分析,同时加入了消噪 技术,对语音识别具有较高的稳健性。 Pitch :即基音频率,是指发音时声带振动引起的周期性,为语音信号最重要的特 征之一。 Formant :即共振峰,是指声音在声道内引起的共振特性,共振峰频率和轨迹是区 分不同元音或韵母的重要参数。GU)S :艮卩广义线性判别序列(Generalized Linear Discrimi鍾tSequence),对于 SVM,使用多项式映射函数将低维特征转换到高维空间,并与广义线性判别核函数做内积运算。
TRAP :时域模式特征(TempoRAl Patterns), 一种用于语音识别和音素识别的语音 特征。 G匪高斯混合模型(Gaussian Mixture Model),是一种使用多维概率密度函数对 信号的特性和分布进行描述的方法。 SVM :支持向量机(Support Vector Machine),是基于统计学习理论发展而来的一 种较新的模式识别方法。 MLP :多层感知器(Multi-Layer Perc印tron),是一种常见的用于模式识别和分类 的神经网络。 HTK:即Hidden Markov Tool Kit,是英国剑桥大学提供的用于语音识别领域的开 源工具。 本发明的核心内容是利用多种特征参数描述发音质量并使用多种评检系统相互 融合的方法对发音质量进行评估和错误检测,包括以下步骤语音识别及其自动切分对齐; 提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练 多个发音质量评估和检错系统;多个发音质量评估和检错系统的融合;以及对发音质量进 行评估和对发音错误进行检测。 所述语音识别及其自动切分对齐的步骤,具体包括收集发音语料,并对收集的发 音语料进行词和音素级的人工标注;利用收集的发音语料训练语音识别和切分对齐需要的 发音模型;在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用 语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。所述发 音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典, 所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。
所述提取用于发音质量评估和检错的特征参数的步骤,具体包括提取语音帧的 PLP、Pitch和Formant特征,并将音素边界内所有帧的PLP、Pitch和Formant特征作为G匪 评检系统的特征;将语音帧的PLP、 Pitch和Formant特征转换为GLDS特征,并将音素边界 内所有帧的GLDS特征作为SVM评检系统的特征;提取语音帧的TRAP特征,并将词汇边界内 所有帧的TRAP特征作为MLP评检系统的特征。 所述提取语音帧的PLP、 Pitch和Formant特征之后,进一 步包括对提取的 Pitch(即F0)和Formant特征进行规一化,Formant取F1、F2和F3,同时提供F0、F1、F2和F3的一阶和二阶差分参数。 所述获取发音质量评估和检错模型训练数据的步骤,具体包括利用收集的标准 发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,以此作为 训练各音素G匪模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切 分对齐分别得到各音素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为 当前音素的负样本,以各音素对应的正负样本作为训练各音素SVM模型的数据;利用收集 的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本和标注结果的对应 关系,以此作为训练MLP模型的数据。 所述将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,具 体包括对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对 辅音;对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对韵 母。 所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用 将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。 所述训练多个发音质量评估和检错系统的步骤,具体包括训练G匪评检模型;训 练SVM评检模型;以及训练MLP评检模型。 所述训练GMM评检模型,具体包括针对英文,利用所有元辅音的训练样本训练得 到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训 练得到相应的G匪模型;针对中文,利用所有声韵母的训练样本训练得到自身独立的通用 背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪 模型。 所述训练SVM评检模型,具体包括SVM训练的正负样本比例保持在1 : 1左右, 使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练SVM评检模型。 在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素 训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终SVM模型;当某个音素的 正样本较少时,通过邻近类别音素合并的手段降低数据量不足对SVM模型精度的影响。
所述训练MLP评检模型,具体包括利用语音样本和对应的标注结果,使用MLP训 练工具训练得到统一的MLP模型。 所述多个发音质量评估和检错系统的融合的步骤,具体包括
1)、利用G匪模型计算当前音素的G0P得分,记为score,; 2)、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为score,;
3)、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为 scoremlp ; 4)、将scoregmm、 scoresvm和scoremlp变换到统一的得分域; 5)、当前音素的最终置信度得分为score = wg_ 'score,+w, 'score,+w一 *scor
emlp,其中wgmm、wsvm和wmlp为G匪、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。 步骤l)中所述计算当前音素的GOP得分,是将当前音素在自身G匪模型上的对数 概率减去在所有G匪模型上的对数概率之和。所述在计算当前音素的GOP得分的过程中,对于英文,元音的所有G匪模型只计算元音,辅音的所有G匪模型只计算辅音;对于中文,声 母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母。 步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模型进行内积 运算获得。 步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出值进行动态规
划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。 所述对发音质量进行评估和对发音错误进行检测的步骤,具体包括 1)、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量
评分,并作为不同层次上发音质量评估的指标;本步骤中所述音素、词汇、句子和段落层次
的发音质量评分折算方法分别为音素层次的发音质量评分即音素的置信度得分;词汇层
次的发音质量评分为词汇内部所有音素发音质量评分的平均值;句子层次的发音质量评分
为句子内部所有音素发音质量评分的平均值;段落层次的发音质量评分为段落内部所有音
素发音质量评分的平均值。所述在计算词汇、句子和段落层次的发音质量评分时,对针对英
文的元音和辅音或者对针对中文的声母和韵母,音素发音质量评分以不同的权重。 2)、利用学习样本库,在音素或词汇的发音质量评分的基础上,通过设置发音错误
检测门限的方法达到检出率和误检率的平衡,并根据对检出率和误检率的实际要求调整工
作点;本步骤中所述发音错误检测门限,对于不同音素,其门限值不同。 3)、将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果 发音质量评分小于门限,则认为音素或词汇发生发音错误。本步骤中所述对发音错误进行 检测,进一步包括将发音质量定义为正确、错误和缺陷三个层次,并通过门限1和门限2 将得分域划分为三部分,分别对应错误、缺陷和正确三个层次,当发音质量评分小于门限1 时,认为发音错误,当发音质量评分大于门限1且小于门限2时,认为发音有缺陷,当发音质 量评分大于门限2时,认为发音正确。 以下结合具体实施例,并参照附图,对本发明进一步详细说明。
第一实施例 参见图1至图6所示,是本发明第一实施例流程图,是对词汇发音的质量进行评估 和错误检测,其步骤为 步骤101,用户读出需要评估和检错的词汇语音; 步骤102,对原始语音进行预处理,分帧处理以25ms为帧长度,10ms为帧间隔,重 复处理直至语音信号结束; 步骤103,在词汇内容已知的情况下对语音进行自动切分对齐,对词汇语音略去语 音识别环节。切分对齐使用的发音模型使用大量具有人工标注的中文或英文语料训练得 到,英文使用44个音素发音模型(20个元音,24个辅音),中文使用61个音素发音模型(36 个韵母,25个声母,包括零声母)。发音模型的训练可以采用剑桥大学的HTK工具(http:〃 htk. eng. cam. ac. uk)。本实施例经过切分对齐后获得各音素的边界信息;
步骤104,提取语音帧的PLP、F0、F1、F2、F3特征以及F0、F1、F2、F3的一阶和二阶 差分参数,并对FO、 Fl、 F2、 F3进行规一化。将音素边界内所有帧的PLP、 Pitch和Formant 特征作为音素的G匪特征送入G匪评检系统; 步骤105,将步骤104中提取的PLP、 Pitch和Formant特征转换为GLDS特征,并将音素边界内所有帧的GLDS特征作为音素的SVM特征送入SVM评检系统; 步骤106,提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为词汇
的MLP特征送入MLP评检系统; 步骤107,准备G匪评检模型训练数据利用积累的标准发音语料及其人工标注, 通过语音识别和切分对齐得到各音素的语音样本并作为训练各音素G匪模型的数据;
步骤108,训练G匪评检模型对于英文,首先利用所有元音和所有辅音的训练样 本分别训练得到元音和辅音的通用背景模型(UBM),然后再利用每个元音和辅音音素的样 本分别在元音和辅音UBM基础上训练得到相应的G匪模型。对于中文,首先利用所有声母 和所有韵母的训练样本分别训练得到声母和韵母的通用背景模型(UBM),然后再利用每个 声母和韵母音素的样本分别在声母和韵母UBM基础上训练得到相应的G匪模型;
步骤109,准备SVM评检模型训练数据利用积累的具有人工标注的标准发音语 料,通过语音识别和切分对齐得到各音素的语音样本,把当前音素的样本作为正样本,其他 音素的样本作为当前音素的负样本。对于英文,元音的其他音素只针对元音,辅音的其他音 素只针对辅音;对于中文,声母的其他音素只针对声母,韵母的其他音素只针对韵母。将各 音素对应的正负样本作为训练各音素SVM模型的数据; 步骤110,训练SVM评检模型SVM训练的正负样本比例保持在1 : l左右,为每个
音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多
个SVM模型的平均模型作为音素的最终模型,SVM模型使用广义线性核函数; 步骤lll,准备MLP评检模型训练数据将积累的具有人工标注的标准发音语料直
接作为训练MLP模型的数据; 步骤112,训练MLP评检模型利用语音样本和对应的标注结果,使用MLP训练工 具训练得到统一的MLP模型; 步骤113,利用G匪模型计算当前音素的GOP得分,记为score,。 GOP得分的计算 方法是当前音素在本身G匪模型上的对数概率减去在所有G匪模型上的对数概率之和。 对于英文,元音的所有G匪模型只计算元音,辅音的所有G匪模型只计算辅音;对于中文,声 母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母; 步骤114,将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为 score,。 SVM得分的计算方法是直接通过GLDS特征与SVM模型进行内积运算获得;
步骤115,将当前词所有帧的TRAP特征送入MLP模型后归整得到各音素的MLP得 分,记为score自。MLP得分的计算方法是对当前词所有帧的MLP输出值进行动态规划,以 最佳路径回溯归整得到的平均得分作为各音素的MLP得分; 步骤116,统一 score,、 scoresvm禾口 scoremlp的得分域,score, = exp (score,), scoresvm = sigmoid (score,) , scoremlp = exp (scoremlp); 步骤117,将各系统输出的得分加权得到音素最终的置信度得分,score = w,*sc ore,+w, 'score,+w一 'score由,其中wgnm、wsvm和wmlp表示G匪、SVM和MLP方法的权重,设 置为0. 3,0. 4,0. 3 ; 步骤118,音素的发音质量评分即音素的置信度得分。词汇的发音质量评分为词 汇内部所有音素发音质量评分的加权平均值,对于英文,元音和辅音得分的权重分别为0. 6 和0. 4,对于中文,韵母和声母得分的权重分别为0. 6和0. 4 ;
步骤119,利用学习样本库,在音素和词汇发音质量评分的基础上,将检出率90% 和误检率10%作为当前工作点,并以此分别设置各音素和词汇的发音错误检测门限;
步骤120,将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,
如果发音质量评分小于门限,则认为音素或词汇的发音错误。
第二实施例 参见图1至图5,以及图7所示,是本发明第二实施例流程图,对英语口语考试中段
落朗读题型的发音质量进行评估和错误检测,其步骤为
步骤201,考生朗读需要评估和检错的英文段落; 步骤202,对原始语音进行预处理,分帧处理以25ms为帧长度,10ms为帧间隔,重 复处理直至语音信号结束; 步骤203,在段落内容已知的情况下进行语音识别和自动切分对齐。利用大量具有 人工标注的英文语料训练得到发音模型,共44个音素模型(20个元音,24个辅音)。使用 带发音变异的BEEP词典,利用已知段落内容脚本生成识别过程中需要的语言模型。模型训 练和识别引擎可以采用HTK工具,本发明对此不加以限制。本实施例经过识别和切分后获 得各词和音素的边界信息; 步骤204,提取语音帧的PLP、 FO、 Fl 、 F2、 F3特征以及FO、 Fl 、 F2、 F3的一阶和二阶 差分参数,F0、F1、F2、F3进行规一化。将音素边界内所有帧的PLP、 Pitch和Formant特征 作为音素的G匪特征送入G匪评检系统; 步骤205,将步骤204中提取的PLP、 Pitch和Formant转换为GLDS特征,并将音 素边界内所有帧的GLDS特征作为音素的SVM特征送入SVM评检系统;
步骤206,提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为词汇 的MLP特征送入MLP评检系统; 步骤207,准备G匪评检模型训练数据利用积累的标准发音语料及其人工标注, 通过语音识别和切分对齐得到各音素的语音样本并作为训练各音素G匪模型的数据;
步骤208,训练G匪评检模型首先利用所有元音和所有辅音的训练样本分别训练 得到元音和辅音的通用背景模型(UBM),然后再利用每个元音和辅音音素的样本分别在元 音和辅音UBM基础上训练得到相应的G匪模型; 步骤209,准备SVM评检模型训练数据利用积累的具有人工标注的标准发音语 料,通过语音识别和切分对齐得到各音素的语音样本,把当前音素的样本作为正样本,其他 音素的样本作为当前音素的负样本。元音的其他音素只计算元音,辅音的其他音素只计算 辅音。将各音素对应的正负样本作为训练各音素SVM模型的数据; 步骤219,训练SVM评检模型SVM训练的正负样本比例保持在1 : l左右,为每个
音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多
个SVM模型的平均模型作为音素的最终模型,SVM模型使用广义线性核函数; 步骤211 ,准备MLP评检模型训练数据将积累的具有人工标注的标准发音语料直
接作为训练MLP模型的数据; 步骤212,训练MLP评检模型利用语音样本和对应的标注结果,使用MLP训练工 具训练得到统一的MLP模型; 步骤213,利用G匪模型计算当前音素的GOP得分,记为score,。 GOP得分的计算方法是当前音素在本身G匪模型上的对数概率减去在所有G匪模型上的对数概率之和,元 音的所有GMM模型只计算元音,辅音的所有GMM模型只计算辅音; 步骤214,将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为 score,。 SVM得分的计算方法是直接通过GLDS特征与SVM模型进行内积运算获得;
步骤215,将当前词所有帧的TRAP特征送入MLP模型后归整得到各音素的MLP得 分,记为score自。MLP得分的计算方法是对当前词所有帧的MLP输出值进行动态规划,以 最佳路径回溯归整得到的平均得分作为音素的MLP得分; 步骤216,统一 score,、 scoresvm禾口 scoremlp的得分域,score, = exp (score,), scoresvm = sigmoid (score,) , scoremlp = exp (scoremlp); 步骤217,将各系统输出的得分加权得到音素最终的置信度得分,score = W, sc ore,+w, 'score,+w一 'score由,其中wgnm、wsvm和wmlp表示G匪、SVM和MLP方法的权重,设 置为0. 3,0. 4,0. 3 ; 步骤218,分别给出音素、词汇、句子和段落层次的发音质量评估。音素层次的发 音质量评分即音素的置信度得分,词汇层次的发音质量评分为词汇内部所有音素发音质量 评分的平均值,句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值,段 落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。在质量评分折算过程 中,元音和辅音得分的权重分别为0. 6和0. 4 ; 步骤219,利用学习样本库,在音素和词汇发音质量评分的基础上,将检出率90% 和误检率10%作为当前工作点,并以此分别设置各音素和词汇的发音错误检测门限;
步骤220,将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较, 如果发音质量评分小于门限,则认为音素或词汇的发音错误。 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
权利要求
一种基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测,包括以下步骤语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错系统;多个发音质量评估和检错系统的融合;以及对发音质量进行评估和对发音错误进行检测。
2. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述语音识别及其自动切分对齐的步骤,具体包括收集发音语料,并对收集的发音语料进行词和音素级的人工标注;利用收集的发音语料训练语音识别和切分对齐需要的发音模型;在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。
3. 根据权利要求2所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。
4. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述提取用于发音质量评估和检错的特征参数的步骤,具体包括提取语音帧的感知加权线性预测参数PLP、基音频率Pitch和共振峰Formant特征,并将音素边界内所有帧的PLP、 Pitch和Formant特征作为高斯混合模型G匪评检系统的特征;将语音帧的PLP、Pitch和Formant特征转换为广义线性判别序列GLDS特征,并将音素边界内所有帧的GLDS特征作为支持向量机SVM评检系统的特征;提取语音帧的时域模式特征TRAP,并将词汇边界内所有帧的TRAP特征作为多层感知器MLP评检系统的特征。
5. 根据权利要求4所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述提取语音帧的PLP、 Pitch和Formant特征之后,进一步包括对提取的Pitch和Formant特征进行规一化,Pitch即为F0, Formant取F1、F2和F3,同时提供F0、F1、F2和F3的一阶和二阶差分参数。
6. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述获取发音质量评估和检错模型训练数据的步骤,具体包括利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,以此作为训练各音素G匪模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以各音素对应的正负样本作为训练各音素SVM模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本和标注结果的对应关系,以此作为训练MLP模型的数据。
7. 根据权利要求6所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,具体包括对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对辅对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对韵母。
8. 根据权利要求6所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。
9. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练多个发音质量评估和检错系统的步骤,具体包括训练GMM评检模型;训练SVM评检模型;以及训练MLP评检模型。
10. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练G匪评检模型,具体包括针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型;针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型。
11. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练SVM评检模型,具体包括SVM训练的正负样本比例保持在1 : l左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练SVM评检模型。
12. 根据权利要求11所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终SVM模型;当某个音素的正样本较少时,通过邻近类别音素合并的手段降低数据量不足对SVM模型精度的影响。
13. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练MLP评检模型,具体包括利用语音样本和对应的标注结果,使用MLP训练工具训练得到统一的MLP模型。
14. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述多个发音质量评估和检错系统的融合的步骤,具体包括1) 、利用G匪模型计算当前音素的G0P得分,记为score,;2) 、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为score,;3) 、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为scoremlp ;4) 、将score,、 scoresvm和scoremlp变换到统一的得分域;5) 、当前音素的最终置信度得分为score = w, 'scoreg腿+w, 'score,+w由*scoremlp,其中wgnm、wsvm和wmlp为G匪、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。
15. 根据权利要求14所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,步骤1)中所述计算当前音素的GOP得分,是将当前音素在自身G匪模型上的对数概率减去在所有G匪模型上的对数概率之和。
16. 根据权利要求15所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述在计算当前音素的GOP得分的过程中,具体包括对于英文,元音的所有G匪模型只计算元音,辅音的所有G匪模型只计算辅音;对于中文,声母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母。
17. 根据权利要求14所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模型进行内积运算获得。
18. 根据权利要求14所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。
19. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述对发音质量进行评估和对发音错误进行检测的步骤,具体包括1) 、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量评分,并作为不同层次上发音质量评估的指标;2) 、利用学习样本库,在音素或词汇的发音质量评分的基础上,通过设置发音错误检测门限的方法达到检出率和误检率的平衡,并根据对检出率和误检率的实际要求调整工作点;3) 、将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果发音质量评分小于门限,则认为音素或词汇发生发音错误。
20. 根据权利要求19所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,步骤1)中所述音素、词汇、句子和段落层次的发音质量评分折算方法分别为音素层次的发音质量评分即音素的置信度得分;词汇层次的发音质量评分为词汇内部所有音素发音质量评分的平均值;句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值;段落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。
21. 根据权利要求20所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述在计算词汇、句子和段落层次的发音质量评分时,对针对英文的元音和辅音或者对针对中文的声母和韵母,音素发音质量评分以不同的权重。
22. 根据权利要求19所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,步骤2)中所述发音错误检测门限,对于不同音素,其门限值不同。
23.根据权利要求19所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,步骤3)中所述对发音错误进行检测,进一步包括将发音质量定义为正确、错误和缺陷三个层次,并通过门限1和门限2将得分域划分为三部分,分别对应错误、缺陷和正确三个层次;当发音质量评分小于门限1时,认为发音错误,当发音质量评分大于门限1且小于门限2时,认为发音有缺陷,当发音质量评分大于门限2时,认为发音正确。
全文摘要
本发明公开了一种基于多特征和多系统融合的发音质量评估和错误检测方法,利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测,包括以下步骤语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错系统;多个发音质量评估和检错系统的融合;以及对发音质量进行评估和对发音错误进行检测。利用本发明,有效地利用了多种语音特征,充分使用了多种评估和检测系统并进行信息融合,从而在最大程度上发挥了各种特征和系统的优势,保证了发音评估和检错的准确性和可靠性。
文档编号G10L15/08GK101727903SQ20081022540
公开日2010年6月9日 申请日期2008年10月29日 优先权日2008年10月29日
发明者徐波, 李宏言, 李鹏, 梁家恩, 王士进, 高鹏 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1