基于重音突显度的英语发音质量评价方法

文档序号：2830192阅读：447来源：国知局

专利名称：基于重音突显度的英语发音质量评价方法
技术领域：
本发明属于语音信号技术领域，具体地说，涉及利用语音信号处理技术实现英语发音质量评价方法，可用于计算机辅助语言学习系统。
背景技术：
发音质量客观评价是计算机辅助语言学习系统中最重要的功能之一，是进行人机交互式学习的前提。发音质量客观评价可以分为两个方面，一个方面是从语音信号学角度进行评价，主要考察音素或单词的发音是否准确；另一个方面是从音韵学角度进行评价，主要从韵律方面进行考察，包括重音、语调、语速、停顿等。其中，重音的特征主要表现为音高的提高，音节段长的延长和音强的增大等，也就是对应基频、段长和能量这三个语音信号基本参数。由于现有技术的局限，目前发音质量客观评价方法的性能还不够理想。由于韵律特征很难判断，特别是重音和语调很难准确检测，传统的发音质量评价方法只是考察了音素或单词的发音是否准确，并不考虑发音的韵律特性。近年来，也有些研究通过比较测试语音信号和参考语音信号的基频、段长和能量等参数的匹配程度，从而提高原来的发音质量评价的性能。中国发明专利申请第200510114848. 8号公开了一种基于HMM的发音质量评价方法，该方法主要依靠声学模型，只是从音素发音是否准确来评价发音质量。中国发明专利申请第200810102076. X号提出了一种以教师的发音作为参考语音的评价方法，该方法从声学、感知、和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别，但是在韵律上只是使用基频和段长，但由于基频和段长只是韵律的低层次参数，还不能很好的反映韵律特性。本发明针对现有技术中存在的问题，提出一种基于重音凸显度的发音质量评价方法。该方法充分考虑了韵律中的重音发音情况，在没考虑音素和单词的匹配分数的情况下，其性能已经十分接近现有的最好技术水平。本发明的发音质量评价方法稳健性好，能与音素和单词的匹配分数结合使用，以进一步提高其与专家评分的相关性，可以用于交互式的语言学习系统和自动口语评测系统中。

发明内容
本发明的目的是为克服已有技术的不足之处，提出一种基于重音突显度的发音质量评价方法，可用于计算机辅助语言学习系统，其得到的机器分数与专家的主观分数的相关性达到0. 774。本发明的特征在于所述方法是在计算机中依次按以下步骤实现的步骤(1)计算机初始化建立一个大规模语音信号数据库，该数据库中的语音都有相应的音素级别标注，且该语音中包含了英语所有音素的语音。建立一个大规模语音信号的重音训练数据库，该数据库中包含多段语音，语音的所有音节都手工标注为重读或者非重读；建立一个语音发音质量评价数据库，该数据库由多段测试语音和对应的参考语音组成，且每一段测试语音都由英语评分专家给出了一个发音质量评价分数，作为主观评价分数；步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路，分别得到相应的分帧语音信号，每帧语音信号长度为30ms ；步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算电路，按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段长步骤(3. 1)利用预先训练好的隐含马尔可夫模型HMM，采用维特比Viterbi解码算法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准，得到所述两种分帧语音信号中每个音素以及每个单词的时间分隔信息，所述音素分为元音和辅音，辅音又分为前辅音和后辅音，元音分为单词重音和非单词重音，共计四类音素；步骤(3. 2)根据步骤(3. 1)得到的各音素的时长，按下式计算参考语音信号和测试语音信号中第i个音素的归一化段长
权利要求
1. 一种基于重音突显度的英语发音质量评价方法，其特征在于，所述方法是在计算机中依次按以下步骤实现的步骤(1)计算机初始化建立一个大规模语音信号数据库，该数据库中的语音都有相应的音素级别标注，且该语音中包含了英语所有音素的语音。建立一个大规模语音信号的重音训练数据库，该数据库中包含多段语音，语音的所有音节都手工标注为重读或者非重读；建立一个语音发音质量评价数据库，该数据库由多段测试语音和对应的参考语音组成，且每一段测试语音都由英语评分专家给出了一个发音质量评价分数，作为主观评价分数；步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路，分别得到相应的分帧语音信号，每帧语音信号长度为30ms ；步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算电路，按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段长步骤(3. 1)利用预先训练好的隐含马尔可夫模型HMM，采用维特比Viterbi解码算法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准，得到所述两种分帧语音信号中每个音素以及每个单词的时间分隔信息，所述音素分为元音和辅音，辅音又分为前辅音和后辅音，元音分为单词重音和非单词重音，共计四类音素；步骤(3. 2)根据步骤(3. 1)得到的各音素的时长，按下式计算参考语音信号和测试语音信号中第i个音素的归一化段长
全文摘要
基于重音突显度的英语发音质量评价方法，属于语音信号技术领域，其特征包括计算音节归一化段长，计算音节最高归一化响度，计算音节最高归一化半音程；利用突显度模型，计算音节段长突显度、音节响度突显度和音节半音程突显度；利用Bayes分类器计算音节归一化重音突显度；计算重音突显度分数，并对分数进行映射。本发明的发音质量评价方法稳健性好，能与匹配分数结合使用，以进一步提高其与专家评分的相关性，可以用于交互式的语言学习系统和自动口语评测系统中。
文档编号G10L15/10GK101996635SQ20101026676
公开日2011年3月30日申请日期2010年8月30日优先权日2010年8月30日
发明者刘加, 李坤, 袁桦申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李坤;袁桦;刘加
技术所有人：清华大学
我是此专利的发明人

上一篇：基于蚁群聚类算法的码书分类方法及其码书分类装置的制作方法
上一篇：校正二进掩模中的错误的方法