具有情感识别功能的英语语音发音质量评价系统及方法

文档序号：2826199研发日期：2013年阅读：915来源：国知局

技术简介：
本专利针对传统语音评价系统无法识别情感的问题，提出融合情感识别的英语发音质量评价系统。通过多模块协同处理，结合MFCC、基频等特征参数与分段均值降维算法，利用情感HMM模型匹配实现情感识别，并基于标准语句模型库进行语速、重音等维度的客观评价，提升语音质量评估的全面性与准确性。
关键词：情感识别,语音评价,HMM模型

具有情感识别功能的英语语音发音质量评价系统及方法
【专利摘要】本发明涉及语音识别（包括情感识别）与评价的【技术领域】，更具体地，涉及具有情感识别功能的英语语音发音质量评价系统及方法。具有情感识别功能的英语语音发音质量评价系统，包括依次连接的语音采集模块、语音预处理模块、语音识别模块、语音情感识别模块、客观评价模块以及反馈指导模块，还包括分别与语音识别模块、语音情感识别模块、客观评价模块、反馈指导模块连接的标准语句模型库，通过模型匹配得到结果；实现英语句子的语音识别、情感识别、客观评价和反馈指导等功能。本发明具有语音识别效率、情感识别效率和准确率更高，语音评价和反馈指导准确客观等优点。
【专利说明】具有情感识别功能的英语语音发音质量评价系统及方法

【技术领域】
[0001] 本发明涉及语音识别(包括情感识别）与评价的【技术领域】，更具体地，涉及一种可识别说话人的情感信息，并将语音信号识别后转变为相应的翻译结果，并给出客观评价和反馈指导的具有情感识别功能的英语语音发音质量客观评价系统。本发明还涉及该系统的语音情感识别、语音识别与评价方法。

【背景技术】
[0002] 语音识别技术就是让机器通过识别和理解，把人发出的语音信号转变为相应的文本或做出设定命令的技术，它正逐步成为信息技术中人机交互的关键技术。而情感识别技术就是让机器自动识别出说话人的情感状态及其变化，是进一步建立智能和谐人机环境的关键。如何从语音信号中自动识别说话者的情感状态，如何更好地对语音进行客观评价，近年来已受到各领域研究者的广泛关注。因此，具有情感识别功能的英语语音发音质量客观评价系统有着巨大的发展潜力与应用前景。研究成果可用于日常的英语教学中，如口语练习及口语考试，还可运用到计算机批量改卷中，大大减少改卷中耗费的人力物力。此外，可以用于自动远程电话服务中心，及时发现客户的不满情绪；用于远程教学和婴儿教育，及时识别学生的情绪并做出适当的处理，从而提高教学质量；也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。

【发明内容】

[0003] 本发明为克服上述现有技术所述的至少一种缺陷，提供具有情感识别功能的英语语音发音质量评价系统，实现英语句子的情感识别、语音识别、口语翻译、客观评价和反馈指导等功能。此外，本发明具有情感识别时可信度较高；语音识别时效率更高，识别准确率更高；语音评价时，评价指标更全面，客观评价和反馈指导准确客观，真实性和可信性高的特点。
[0004] 进一步的，本发明还提供应用该系统的方法，可对语音情感识别、语音识别与评价。
[0005] 为解决上述技术问题，本发明采用的技术方案是：具有情感识别功能的英语语音发音质量评价系统，其包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、语音情感识别模块、客观评价模块及反馈指导模块，还包括分别与语音识别模块、语音情感识别模块、客观评价模块、反馈指导模块连接的标准语句模型库。
[0006] 语音采集模块对语音信号进行采集，语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理；语音特征提取模块对语音信号进行语音特征参数的提取；语音识别模块、语音情感识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、情感识别、客观评价和反馈指导。
[0007] 所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元，通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价；所述语速评价单元通过计算待评价语句与标准语句的时长比，与所设置的语速阈值进行比较；所述准确度评价单元采用短时能量作为特征来提取语句的强度曲线，进而采用抽查值的方法将待评价语句规整到与标准语句相近的程度，再将之与标准语音的强度曲线图进行对比，通过比较其拟合程度进行评价；所述重音评价单元在规整后强度曲线图的基础上，设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长，进行重音单元的划分；进而采用DTW算法对待评价语句和标准语句进行模式匹配；所述节奏评价单元采用改进的dPVI参数计算公式，根据语音单元时长差异性的特征，将标准语句与待评价语句的音节单元片段时长分别进行对比计算，并转换出相对应的参数；所述语调评价单元通过提取语句发音的语速、能量、基频、共振峰等短时特征参数并加以分析，通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化，再将之与标准语音的语调变化进行对比，最后通过语调的拟合程度进行打分。
[0008] 同时，本发明还提供具有情感识别功能的英语语音发音质量评价的方法，其包括以下步骤： (1) 语音采集模块对语音信号进行采集，并根据奈奎斯特采样定理将模拟信号数字化； (2) 语音预处理模块对所得的语音信号进行预加重、分帧、加窗、端点检测预处理； (3) 语音特征提取模块对预处理后的语音信号进行语音特征参数MFCC、情感特征参数语音基频、共振峰等参数的提取； (4) 语音识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，然后通过与标准语句模型库的匹配，以语音和文本的形式输出识别结果； (5) 情感识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，让后通过与标准语句模型库的相匹配，以语音和文本的形式输出识别结果； (6) 客观评价模块和反馈指导模块通过与标准语句模型库的匹配从语句的语速、准确度、重音、节奏和语调方面进行客观评价和反馈指导。
[0009] 所述标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM 模型库，情感HMM模型库和文本库。
[0010] 标准语句模型库用于对语音信号进行语音识别、情感识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号，包括语音信号的强度曲线图、时长、重音、共振峰及标准发音；特征参数库存储标准语句的特征参数；聚类分组库存储标准语句的所属分组；HMM模型库存储标准语句的HMM模型；情感HMM模型库存储句子的情感HMM模型；文本库存储标准语句的中英文文本。
[0011] 聚类分组库、HMM模型库和情感HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi算法进行语音特征降维、分组建模和模型匹配；所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题，聚类模型交叉分组算法解决分组性能较低问题，HMM模型聚类分组技术解决Viterbi算法运算量和混合高斯分布概率计算量大问题，Viterbi算法解决HMM的解码问题。
[0012] 步骤（5)具体还包括如下步骤： (a)采用分段均值数据降维算法对语音特征提取模块得到的短时特征进行降维处理； (b)通过与标准语句模型库的匹配，利用改进的DTW算法确定语音特征聚类分组K ； (c)对第K组内的情感HMM模型参数进行计算：将短时特征参数作为隐马尔可夫模型的观察序列；训练得到的语音单元为状态序列，通过Viterbi算法解出状态转移序列； (d)采用决策判决，得到最大概率的状态转移序列； (e)通过与标准语句模型库的匹配，根据最佳状态序列对应出句子情感。
[0013] 本发明通过对采集到的语音信号进行预处理和分段均值降维处理，使系统在后期进行语音识别和评价时效率更高，准确率也更高。采用隐马尔可夫模型，并结合聚类交叉分组算法训练模型库，再用其进行模型匹配，使识别过程更加准确高效。，通过比较待评价语句和标准语句的准确度、语速、重音、节奏和语调等方面进行客观评价，并给予反馈指导，使评价结果更加准确客观。
[0014] 与现有技术相比，有益效果是：本发明具有口语翻译，同时融合和语音情感识别，使得语音识别时效率更高，识别准确率更高；语音评价时评价指标更加全面，客观评价和反馈指导准确客观，真实性和可信性高等优点，在语音识别、语音情感识别与评价系统领域具有很大的消费市场。

【专利附图】

【附图说明】
[0015] 图1为本发明的模块原理图。
[0016] 图2为MFCC参数提取流程图。
[0017] 图3为语首基频提取不意图。
[0018] 图4为语音特征参数分段均值降维示意图。
[0019] 图5为聚类模型交叉分组训练算法示意图。
[0020] 图6为HMM模型聚类分组图。
[0021] 图7为本发明的语音识别过程图。
[0022] 图8为隐马尔可夫模型识别过程图。
[0023] 图9为DTW算法约束后的匹配范围。
[0024] 图10为基于DTW算法的评价示意图。
[0025] 图11为同一句子在四种情感状态下的基频曲线。
[0026] 图12为共振峰提取原理图。

【具体实施方式】
[0027] 附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。
[0028] 本发明设计并实现了一种具有情感识别功能的英语语音发音质量客观评价系统。本发明的模块原理图如图1所示，通过语音采集模块1采集输入的语音信号；通过语音预处理模块2对所得的语音信号进行预处理；通过语音特征提取模块3对预处理后的语音信号进行语音特征参数提取；通过情感识别模块4与标准语句模型库6进行匹配，以语音和文本的形式输出识别结果；通过语音识别模块5与标准语句模型库6进行匹配，以语音和文本的形式输出识别结果；通过客观评价模块7与标准语句模型库6进行匹配，对待评价语句的重音、语速、语调、节奏等方面进行评价，实现上述处理功能的是语速因素评价单元71、准确度评价单元72、重音因素评价单元73、节奏因素评价单元74和语调因素评价单元75 ;通过反馈指导模块8与标准语句模型库6进行匹配，给予反馈指导。
[0029] 下面分别对涉及到的各个模块单元进行说明：一、标准语句模型库6 本发明的标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM 模型库，情感HMM模型库和文本库。
[0030] 标准语句模型库用于对语音信号进行语音识别、情感识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号，包括语音信号的强度曲线图、时长、重音、共振峰及标准发音等；特征参数库存储标准语句的特征参数；基频特征参数；聚类分组库存储标准语句的所属分组；HMM模型库存储标准语句的HMM模型；情感HMM模型库存储语句的情感HMM模型；文本库存储标准语句的中英文文本。
[0031] 其中，聚类分组库和HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi算法进行语音特征降维、分组建模和模型匹配；所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题，聚类模型交叉分组算法解决分组性能较低问题，HMM模型聚类分组技术解决Viterbi算法运算量和混合高斯分布概率计算量大问题，Viterbi算法解决HMM的解码问题。
[0032] 1、特征参数提取一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明，高兴时，通常是语速较快，音量较大；悲伤时，通常是语速缓慢，音量较小。基音是最常用的判定情感的语音特征，它反映了超音段的信息。在语音情感识别中使用的特征参数有基频（Pitch)，其次才是能量（Energy)、语速（Speech Rate)、共振峰频率（Formant)、单个音节的持续时间（Duration)、音节之间的停顿时间（Pause)、线性预测系数（LPC)、Mel倒谱系数(MFCC)等，以及它们的各种变化形式，如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征，因此和人的生理构造有着密切的关系，在不同的个体上显现出较强的相异性。
[0033] 基于心理学和韵律学研究的结果，说话者的情感在语音中最直观的表现就是韵律特征和语音质量的变化。因此对语音情感识别的研究普遍从韵律特征和音质特征开始，尤其是韵律特征，被认为是最主要的语音情感特征。
[0034] 因此对于英语句子的情感识别，主要从韵律特征、声学特征、全局与时序结构特征并用的参数提取，非线性分析提取的特征参数四个方面提取语音特征参数。情感相关的语音韵律特征包括：信号的持续时间、信号的振幅、基频、基音周期和共振峰频率，情感语句的语速差异基于不同情感说话速率的不同。在提取持续时间时应注意包括无声部分，因为无声部分本身对情感是有贡献的。信号的振幅特征与各种情感信息具有较强的相关性。求取语音信号每帧的短时振幅，分析随时间的变化情况。基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数，反映情感信息的重要特征参数。提取共振峰参数主要有带通滤波器组法、倒谱法和线性预测法（LPC)。
[0035] 语音特征是声音的类型，包括元音、辅音和它们的发音。韵律特征包括重音、节奏和语调等。
[0036] (l)MFCC 特征提取本文采用的提取基于听觉特性的MFCC语音特征作为识别的特征。Mel倒谱系数 (Mel-Frequency Cepstral Coefficients,MFCC)是根据人类听觉系统的特性提出的，模拟人耳对不同频率语音的感知。人耳分辨声音频率的过程就像一种取对数的操作。图2为MFCC 参数提取流程图。
[0037] (2)基频提取基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征。
[0038] 自相关函数的性质：若原信号具有周期性，那么它的自相关函数也具有周期性，并且周期与原信号的周期相同。清音信号没有周期性，它的自相关函数R(k)会随着k的增大呈衰减趋势；浊音信号具有准周期性，它的R(k)在基音周期整数倍上有很大的峰值，通常取第一最大峰值点为基音周期点。自相关函数法基音检测正是利用这一性质对语音信号进行基音检测的，同时结合滤波和三电平削波及后处理使基频提取更准确、高效。
[0039] 如图3所示，基频提取的流程为：带通滤波、采样分帧、三电平削波、基频计算、后期处理去除"野点"。
[0040] 2、分段均值数据降维算法本发明采用一种分段均值的方法对语音特征参数进行降维，首先将语音信号特征参数进行平均分段，语音特征参数可表示为！(；￡,·/；)，其中κ是特征参数的阶数，j为分段后特征参数的帧数，T为原语音帧数。则将特征参数平均分为N段的计算公式如下：

【权利要求】
1. 具有情感识别功能的英语语音发音质量评价系统，其特征在于，包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、情感识别模块、客观评价模块及反馈指导模块，还包括分别与语音识别模块、情感识别模块、客观评价模块、反馈指导模块连接的具备四种情感的标准语句模型库，包括语音信号库、特征参数库、聚类分组库、HMM模型库，情感HMM模型库和文本库；语音采集模块对带有高兴、悲伤、愤怒、中性这四种情感的语音信号进行采集；语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理；语音特征提取模块对语音信号进行语音特征参数的提取；其中特征参数提取包括语音识别特征参数和情感特征参数；情感特征参数包括语音基频在内的十二个参数进行提取；情感识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，然后通过与标准语句模型库的相匹配，以语音和文本的形式输出识别情感结果；语音识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、客观评价和反馈指导。
2. 根据权利要求1所述的具有情感识别功能的英语语音发音质量评价系统，其特征在于，所述的情感识别模块采用情感HMM模型，调用标准模型库中已训练好的语音模型，同输入语音进行匹配，解出状态转移序列
，最终采用决策判决，得到最大概率的状态转移序列；根据最佳状态序列对应出英语句子的情感，并以文本的形式输出识别结果；所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元，通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价。
3. 根据权利要求2所述的具有情感识别功能的英语语音发音质量评价系统，其特征在于，所述情感识别模块通过提取语句的信号的持续时间、信号的振幅、基频、基音周期和共振峰频率，并求取语音信号每帧的短时振幅，分析随时间的变化情况；接着用分段均值数据降维算法对所得的语音特征进行降维处理，通过与标准语句模型库的参数范围相匹配来得到识别结果；所述语速评价单元通过计算待评价语句与标准语句的时长比，与所设置的语速阈值进行比较；所述准确度评价单元采用短时能量作为特征来提取语句的强度曲线，进而采用抽查值的方法将待评价语句规整到与标准语句相近的程度，再将之与标准语音的强度曲线图进行对比，通过比较其拟合程度进行评价；所述重音评价单元在规整后强度曲线图的基础上，设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长，进行重音单元的划分；进而采用DTW算法对待评价语句和标准语句进行模式匹配；所述节奏评价单元采用改进的dPVI参数计算公式，根据语音单元时长差异性的特征，将标准语句与待评价语句的音节单元片段时长分别进行对比计算，并转换出相对应的参数；所述语调评价单元通过提取语句发音的语速、能量、基频、共振峰等短时特征参数并加以分析，通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化，再将之与标准语音的语调变化进行对比，最后通过语调的拟合程度进行打分。
4. 根据权利要求3所述的具有情感识别功能的英语语音发音质量评价系统，其特征在于，所述标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库，情感HMM模型库和文本库；标准语句模型库用于对语音信号进行情感识别、语音识别、客观评价和反馈指导的模式匹配；语音信号库存储标准语句的语音信号，包括语音信号的强度曲线图、时长、重音、共振峰及标准发音；特征参数库存储标准语句的特征参数；聚类分组库存储标准语句的所属分组；HMM模型库存储标准语句的HMM模型；情感HMM模型库存储情感语句的HMM模型；文本库存储标准语句的中英文文本。
5. 应用权利要求1至4任一所述的具有情感识别功能的英语语音发音质量评价系统的方法，其特征在于包括以下步骤： (1) 语音采集模块对语音信号进行采集，并根据奈奎斯特采样定理将模拟信号数字化；(2) 语音预处理模块对所得的语音信号进行预加重、分帧、加窗、端点检测预处理；(3) 语音特征提取模块对预处理后的语音信号进行语音短时特征参数的提取；(4) 语音识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，然后通过与标准语句模型库的匹配，以语音和文本的形式输出识别结果；(5) 情感识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，让后通过与标准语句模型库的相匹配，以语音和文本的形式输出识别结果；(6) 客观评价模块和反馈指导模块通过与标准语句模型库的匹配从语句的语速、准确度、重音、节奏和语调方面进行客观评价和反馈指导。
6. 根据权利要求5所述的方法，其特征在于，所述的步骤（5)具体还包括如下步骤： (a) 采用分段均值数据降维算法对语音特征提取模块得到的短时特征进行降维处理；(b) 通过与标准语句模型库的匹配，利用改进的DTW算法确定语音特征聚类分组K ;(c) 对第K组内的情感HMM模型参数进行计算：将短时特征参数作为隐马尔可夫模型的观察序列；训练得到的语音单元为状态序列，通过Viterbi算法解出状态转移序列；(d) 采用决策判决，得到最大概率的状态转移序列；(e) 通过与情感标准语句模型库的匹配，根据最佳状态序列对应出句子情感。
【文档编号】G10L15/14GK104050965SQ201310391948
【公开日】2014年9月17日申请日期:2013年9月2日优先权日:2013年9月2日
【发明者】李心广, 李苏梅, 姚敏锋, 任达成, 辛昊旭, 沈东雄, 江立锐, 林雅婷, 陈嘉华, 何智明申请人:广东外语外贸大学, 李心广, 李苏梅, 姚敏锋, 任达成, 辛昊旭, 沈东雄, 江立锐, 林雅婷, 陈嘉华, 何智明

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李心广;李苏梅;姚敏锋;任达成;辛昊旭;沈东雄;江立锐;林雅婷;陈嘉华;何智明
技术所有人：广东外语外贸大学;李心广;李苏梅;姚敏锋;任达成;辛昊旭;沈东雄;江立锐;林雅婷;陈嘉华;何智明
我是此专利的发明人

上一篇：基于语音识别的多功能无线测量工程装置制造方法
下一篇：外语自然语文本集中控制家电的方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！