一种用于口语测试的文本朗读水平自动评估诊断方法

文档序号：2555316阅读：169来源：国知局

专利名称：一种用于口语测试的文本朗读水平自动评估诊断方法
技术领域：
本发明涉及计算机辅助语言学习领域，具体涉及一种用于口语测试的文本朗读水
平自动评估诊断方法，它要求测试者朗读预先设定的文本，然后利用收集到的语音对测试者的口语能力做出自动评估。
背景技术：
近十年来，计算机辅助学习技术得到业界的广泛关注，并且取得了长足的进步，尤其是在口语学习领域，人机交互的学习方式几已趋于使用。在这种情况下，将口语评估从全人工的方式中解脱出来更是大势所趋。要做到这一点，计算机作为"虚拟教师"，必须能对测试者的口语能力做出一个公允、准确、详尽的评估。这就需要设计者在大量的历史评估数据中收集足够多的样例，用于改进计算机的评估效果。在大规模数据的支持下，相比于传统的人工口语评估中所存在的随意性和主观性，计算机评估更能为测试者做出一个公平公正的评估结果。至于如何在收集到的大量评估数据基础上，开发出有效的自动评估算法，则成为自动口语评估所需要研究的内容。目前已有的自动口语评估方法的框架大体都是基于朗读语音评估，通过评估测试者的朗读语音得出机器评分，其选用的特征主要是发音和汉语声调，并且诊断信息不足。

发明内容
本发明的目的是在收集到的大量评估数据基础上，开发出有效的自动评估方法，通过对测试者的朗读语音进行处理，从而自动评估其口语能力，为此本发明提出一种用于口语测试的文本朗读水平自动评估诊断方法。为达成所述目的，本发明提供一种用于口语测试的文本朗读水平自动评估诊断方法，其技术方案如下所述测试者朗读预先设定的文本，提取测试者按照给定文本朗读语音的特征，选取完整性、准确性和流利性三方面特征作为机器评估的评判标准，在历史评估数据上提取并训练其统计模型和拟分模型用于实际的评估。测试的时候，同样提取测试人朗读语音的特征，在统计模型上打分，最后通过拟分模型得出实际的机器分。同时，对该测试者的各项语言能力，该发明可以按照不同的分类给出其相应的诊断信息，用于纠正测试者的错误，使其能够在测试中不断进步。本发明的有益效果本发明基于测试人朗读语音的语言能力自动评估，利用大量的历史评估数据，该方法能够做到公允、准确、详尽的口语能力评估，并且能有效地克服人工评分的随意性和主观性，从而促进测试者的语言学习过程。本发明的特点是利用改进的发音、声调、语速和音节段长特征，同时加入特有的对齐特征、停顿特征和编辑特征，将特征分别归为完整性、准确性和流利性三大类，分门别类对测试者的语音做评估和诊断。同时针对不需要诊断信息和需要诊断信息的场合，分别采用直接拟合和分层拟合框架做机器分拟合。此外，采用分段拟合来处理失衡的训练数据。

图1是本发明的朗读语音评估总体框架。
图2是本发明的直接拟合框架。图3是本发明的分层拟合框架。图4是本发明的英语口语诊断界面示例图。图5是本发明的汉语声调诊断界面示例图。
具体实施例方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，
所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。请参阅图l，本发明的朗读语音评估总体框架。对照图l，为了达到朗读评估的目
的，需要在一台配备录音设备的计算机上实现本发明的朗读语音评估，还需要准备的资源
包括历史评估数据和朗读文本；需要使用通用编程语言(如C++)编制总体结构各模块的
程序，包括模型训练模块、拟合参数训练模块、特征提取模块和分数拟合模块；在测试时
候也需要要求测试者按照朗读文本进行朗读录音。至此，实际的评估流程为测试者利用模
型训练模块按照朗读文本进行录音，然后利用特征提取模块提取测试者按照给定文本进行
朗读语音的各项特征，利用拟合参数训练模块训练朗读特征与人工评分的拟分模型；利用
分数拟合模块测试时依据其朗读特征并且用拟分模型得出机器评估分数和相关的诊断信
息。其中特征提取模型和拟分模型的参数是通过历史评估数据训练出来的。
下面对本发明方法的具体特征说明如下 —、特征部分； 1、完整性特征，其是用于表征测试者朗读内容与标准答案的符合度。根据侧重点不同，完整性特征又分为词对齐特征和段对齐特征。
其提取方法是将测试者朗读语音做自动识别的结果Sr与标准文本Sd分别做正
向和反向的动态匹配，取两次匹配的交集(加上不匹配部分的边界重复段)为匹配集合&。
对于属于匹配集合Sa的每一个词Wa，将紧临Wa的两个词都标记为匹配，这时候得到的匹配
集合是Sm。这样就有词对齐特征WRM = Sa/Sd。段对齐特征SM = Sm/Sd。 2、准确性特征，其包括发音和声调两部分。发音特征向量Fp的提取方法是取完整性特征中匹配集合Sa，做音素级别的自动强制对齐，对于对齐后的每个音素P及其语音信号O，计算给定音素P的声学模型Mp情况下，语音信号0的模型打分P(OlMp)作为发音打分Ppi。将M种不同的模型打分方法计算出的分数合并为一个发音打分向量作为发音特征Pp = [Ppl， Pp2， . . . ， PPM]，并按照朗读文本做加
权。最终发音特征向量其中、是音素P的发音权重。 <formula>formula see original document page 5</formula> 模型打分方法有如下几种
a)基于隐马模型对数似然分LL :<formula>formula see original document page 6</formula>
其中音素对应语音0t，长度为Ni，起始时间是t。， logP (ot I qi)是0t在qi上的声
学模型打分。最终的打分是在整句上做平均，其中句长M:
似
J 7W
丄丄=——5]丄丄(《,)
M台
b)基于隐马模型对数后验概率分LPP : "尸(仏)去》k)g尸fek)
^': f。
bg骚)二bg-她刚声调特征Ft的提取方法是取完整性特征中匹配集合Sa，做音节级别的自动强制对齐，对于对齐后的每个音节W及其语音信号0，计算给定音节W的声调模型Tw情况下，语音信号0的后验概率P(OlTj作为声调打分P^并按照朗读文本做加权。最终声调特征Ft 表示如下
= Z尸人
5>(o, l力)尸(力)
其中对应语音0t，长度为Ni，起始时间是t。， logP (ot I qi)是0t在qi上的声学模 Q是qi的竞争音素集合。最终的打分是在整句上做平均，其中句长M :
根据竞争音素不同计算方法，LLP有多种变形，包括全音素LLP,临近音素LLP，动 ROS = n/T
ART = n' /T' 其中n是总音素个数，T是总时长；n'是去除重复音素的总音素个数，T'是去除音素间间隔的总时长。 2)音节段长评估特征SDS，其特点是利用各音素的段长模型对朗读语音打分，最后按音素做算术平局
6<formula>formula see original document page 7</formula> 其中M是总音素个数，P (t I Pi， o)是给定音素Pi和语音o情况下时长为t的概率。 3)停顿特征PD的检测，其特点是利用静音检测出的停顿点，在停顿模型上对测试
者的停顿次数和分布进行打分平均停顿时长PDur = np/Tp 平均停顿次数NDur = np/M 停顿分布向量Pd = [Pn P2， . . . ， P10] 其中rip是总停顿次数，Tp是总停顿时长，M是句子音素个数，Pi是停顿间隔排序后，第i/10部分的停顿时长。 4)编辑特征ED，其特点是利用语言编辑模型检测朗读语音中音素的重复个数N。插入个数&和删除个数Nd，然后对朗读文本长度归一化。五D二 … ,, ^ 其中M是总音素个数，~ Wi和wd分别是三种现象的权重。
二、分数拟合在上述特征基础上，最终的回归方法采用线性回归
Y = P 。x。+ P !x一. + P nxn+ e 其中x。. . xn是拟合输入的归一化向量，13 。， . . . 13 n是在大规模数据上训练得到的回归系数，e是残差。本发明具体的拟合方法有两种不同的框架，对于不同的应用，采取不同的框架做拟合。下面详述这两种框架 1)直接拟合框架(参见图2):对于仅需要机器分数而不需要诊断信息的场合(如考试)，为了加快计算速度，采取直接拟合模块。这里不需要按照先前的特征划分方式(完整性、准确性和流利性特征)，而是直接将最基本的特征提取出来，直接用于训练拟分模型。这些特征包括词对齐特征、段对齐特征、发音特征、声调特征、语速特征、段长特征、停顿特征及编辑特征，它们之间是并列的关系，拼接起来作为拟分模型的训练输入。也就是说，训练该拟分模型的时候，使用上述所有特征作为x。. . Xn，人工评分为Y，计算模型参数
P。，... Pn。测试的时候，使用各项特征作为&..&，利用P。，... Pn直接计算出机器评估分。
2)分层拟合框架(参见图3): 在需要诊断信息的场合，采取分层拟合框架。这里不同于直接拟合框架的地方在于，需要将直接拟合框架的训练输入特征按照各自不同的分类分别进行拟合。也就是说，将上述特征按照完整性(词对其特征、段对齐特征)、准确性特征(发音特征、声调特征)和流利性特征(语速特征、段长特征、停顿特征、编辑特征)分类，计算完整分拟合模型、准确分
拟合模型和流利分拟合模型各自的模型参数Pl。，…，13^， P2,。，…，|32, 和|33,。，…，
Pu，然后再训练从完整性特征、准确性特征和流利性特征拟合机器分的参数P。，！^， e2。
测试的时候，同样先将特征分三类，按照h,。，…，h,n， P2,。，…，h,n和P3,。，…，P3,n计算完整性特征、准确性特征和流利性特征，得到完整性打分、准确性打分和流利性打分，
再利用分层拟合模型进行分层拟合，得到机器分的参数P。，！^，！32，然后使用P。，！^， e2计算出机器分。对于训练集合中人工标注数据分布不均匀的情况，需要采取分段拟合的策略使得
拟合模型能够得到较好的效果，尤其是在缺乏特别好或特别差数据的情况下。这需要按照实际的分数分布将分数分段，使得各分数段内部的人工打分趋于平衡，从而减少数据失衡对拟合的影响。分段方法如下设总体分布区间是[Sd，Sj，最终分数段集合是Q，参数P用于控制分数段内部不均衡的程度步骤A :设置Q为空集，S丄=Sd， S2 = S,l，取Va为S丄对应打分个数；这里S丄和S2
分别做为备选分数区间的开始和结束位置。
步骤B :取V2为S2对应打分个数，如果<formula>formula see original document page 8</formula> 则S2 = S2+l，到步骤C ;否则Q = Q U [S" S2) ， S丄=S2+l，到步骤D ; 步骤C:如果S2大于Su，Q二Q U S2]，到步骤E ;否则对[S"S厂1]集合中所有
点对应的打分个数取算术平均，更新Va，返回步骤B ; 步骤D :如果S丄< Su_l，则S2 = S,l，取Va为S丄对应打分个数，返回步骤B ;否则Q = Q U [Sp SJ，到步骤E ; 步骤E，输出最终分数段集合是Q，算法完成，退出。在得到分数段集合后Q，对于Q中每一个集合建立一个拟合模型，同时，各类之间建立分数段分类器。在测试时候，对于不同的数据，先用分数段分类器判断该测试样本属于哪一个分数段，然后再用该分数段的拟合模型拟合出该样本的机器分。
三、诊断信息图4是本发明的英语口语诊断界面示例。图中测试者(考生)的语音波形显示在图下方，图中的参考语音是用于提示考生正确的读法。测试者的各项诊断信息以评估报告的形式展示在图的中部，在此不再赘述。图5是本发明的汉语口语诊断界面示例。图中测试者的语音整体波形显示在左上部。左下部是测试者的声调与标准调型的对比信息。测试者朗读文本右上部是错误点定位的报告说明，测试者朗读文本右下部是汉语发音诊断信息的总体评价报告说明，以评估报告形式给出。图中，整体波形是该考生朗读的所有语音的波形显示；而当前波形是当前在整体波形中高亮的那个词的波形显示；相应的，声调对比是该词的实际声调与标准调值的比对。本发明在给出测试者口语评测结果的同时，诊断信息也会按照不同的特征分类给出 1)完整性诊断对于没有朗读和朗读不完整的部分，在用户界面上用特定的颜色标识出来。 2)准确性诊断汉语的每个字都会给出对应的声调诊断信息。请参阅图4，本发明的汉语声调诊断界面示例，左下部显示出了的测试者调值和标准调值的对比。
此外，对于错误的音素和字，也会在用户界面上高亮显示。其中汉语和英语按照各
自不同的发音规范作为诊断标准 a)对于元音，按照其舌位给出诊断 i.舌位的高低； ii.舌位的前后； iii.嘴唇的圆展。 b)对于辅音，按照其发音部位和发音方法给出诊断 i.发音部位双唇、唇齿、齿间、舌尖前、舌尖中、舌尖后、舌叶、舌面、舌跟、小舌、喉。
ii.发音方式塞音、擦音、塞擦音、颤音、闪音、边音、半元音。
3)流利性诊断按照特征分类显示。语速诊断包括测试者的语速信息和与标准语速的对比；音节段长异常的音素、不合理的停顿和重复插入删除都在界面上高亮显示。
以上所述，仅为本发明中的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
一种用于口语测试的文本朗读水平自动评估诊断方法，其特征是步骤1测试者朗读预先设定的文本，提取测试者按照给定文本朗读语音的特征，所述朗读语音特征包括可客观计算的完整性特征、准确性特征和流利性特征；步骤2在历史评估数据上提取并训练朗读特征与人工评分的拟分模型；步骤3测试时依据其朗读特征和拟分模型拟合出机器评分，并给出测试者朗读特征的诊断信息。
2. 根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是所述完整性特征提取包括将测试者朗读语音做自动识别的结果与标准文本分别做正向和反向的动态匹配，取两次匹配和匹配部分的边界重复段的交集为匹配集合，然后根据各自不同的匹配度计算词对齐特征和段对齐特征，用于表征测试者朗读内容与标准答案的符合度。
3. 根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是所述准确性特征提取包括发音特征和汉语的声调特征，其中所述发音特征向量提取是取完整性特征中匹配集合，做音素级别的自动强制对齐，对于对齐后的每个音素及其语音信号，计算给定音素的声学模型情况下，语音信号的模型打分P(Oll)作为发音打分；将M种不同的模型打分计算出的分数合并为Pp = [Ppl，Pp2，PpM]，并按照朗读文本做加权；最终计算发音特征向量FP为<formula>formula see original document page 2</formula>其中kw是音素P的发音权重，Sa是完整性特征中匹配集合a， Mp是给定音素的声学模型，O是语音信号；所述声调特征提取是取完整性特征中匹配集合，做音节级别的自动强制对齐，对于对齐后的每个音节其语音信号，计算给定音节的声调模型情况下，语音信号的后验概率 P(0|Tw)作为声调打分，并按照朗读文本做加权，最终计算声调的特征Ft为<formula>formula see original document page 2</formula>其中hw是音节W的声调权重，Tw是声调模型，Pw是声调打分。
4. 根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是所述流利性特征提取包括测试者的语速评估特征、音节段长评估特征、停顿特征和编辑特征以及相应的计算，各特征之间是并列关系，如下所述语速评估特征提取包括利用语速提取测试者单位时间内说出的音素个数；利用调音速率提取测试者去掉重复的现象的平均音素时长；音节段长评估特征提取是利用各音素的段长模型对朗读语音打分，最后将该打分按音素做算术平局；停顿特征提取是利用静音检测出的停顿点，在停顿模型上对测试者的停顿次数和分布进行打分；编辑特征提取是利用语言编辑模型检测朗读语音中的重复、插入和删除现象的个数，然后对朗读文本长度归一化。
5. 根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是所述训练朗读特征与人工评分的拟分模型是利用训练集合中的人工标注数据，采用回归法，将多个朗读特征拟合为机器分；对于在人工打分方面分布失衡的训练数据，需要采取分段拟合的策略，按照分数分布将分数分段，使得各分数段内部的人工打分趋于平衡，用于减少数据失衡对拟合的影响。
6. 根据权利要求1所述计算机评估测试者口语朗读语言能力的方法，其特征是所述诊断信息还包括在需要评分、不需要诊断信息的评估场合选用直接拟合框架，直接用各项朗读特征通过拟合模型得出机器分；在需要评分、又要诊断信息场合，选用分层拟合框架，先拟合基本特征分数和完整分、准确分和流利分和相应的诊断信息，然后在此基础上再拟合出机器分。
7. 根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是所述诊断信息是按照各自不同的分类，给出详细的测试者诊断信息为完整性诊断是将计算词对齐特征和段对齐特征过程中没有匹配上的字或词在用户界面上用颜色标识出完整性诊断；准确性诊断是对汉语或英语的每个音素给出其发音准确性诊断信息包括错误发音和发音方式诊断，具体方式是将所有后验概率低于预定门限的发音标记为错误发音，并且按照其发音方式分类结果，给出对应的诊断信息；其中对于元音，按照其舌位给出诊断信息；对于辅音，按照其发音部位和发音方法给出诊断信息；对汉语的声调诊断信息凡识别出的声调与汉字的候选发音不同，则标记为错误声调，同时按照识别出的声调给出诊断信息；流利性诊断是按照特征分类显示，为语速诊断包括测试者的语速信息和与标准语速的对比、音节段长异常的音素、不合理的停顿和重复插入删除都在界面上高亮显示。
全文摘要
本发明涉及一种用于口语测试的文本朗读水平自动评估诊断方法，该方法提取测试者按照给定文本进行朗读语音的各项特征；训练朗读特征与人工评分的拟分模型；测试时依据其朗读特征和拟分模型拟合出机器评分，并给出相关的诊断信息。它要求测试者朗读预先设定的文本，然后利用收集到的语音对测试者的口语能力做出自动评估。其特点是利用计算机提取测试者朗读语音的各项特征，在拟分模型上拟和得出机器评分，从而达到评估测试者口语语言能力的目的。
文档编号G09B7/00GK101739868SQ20081022667
公开日2010年6月16日申请日期2008年11月19日优先权日2008年11月19日
发明者徐波, 徐爽, 柯登峰, 江杰, 浦剑涛, 陈振标申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐波;江杰;柯登峰;徐爽;浦剑涛;陈振标
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种基于先验知识的发音评估与诊断系统的制作方法
上一篇：运用计算机对口语翻译质量进行评分的方法