口语评测方法及系统的制作方法

文档序号：2826408阅读：437来源：国知局

口语评测方法及系统的制作方法
【专利摘要】本发明涉及语音信号处理【技术领域】，公开了一种口语评测方法及系统，该方法包括：接收待评测的语音信号；利用至少两种不同的语音识别系统分别获取所述语音信号中各基本语音单元对应的语音片断；从所述语音片断中分别提取对应不同特征类型的评测特征；计算所述评测特征的原始得分；按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；根据不同评测特征的综合得分计算所述语音信号的得分。利用本发明，可以提高口语评测的准确性，减少异常评分。
【专利说明】口语评测方法及系统
【技术领域】
[0001]本发明涉及语音信号处理【技术领域】，具体涉及一种口语评测方法及系统。
【背景技术】
[0002]作为人际交流的重要媒介，口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧，人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法使教师和学生在教学时间和空间上受到很大限制，在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡；人工评测无法避免评估者自身的个体偏差，从而不能保证评分标准的统一，有时甚至无法准确反映被测者的真实水平；而对于大规模口语测试，则需要大量的人力、物力和财力支持，限制了经常性、规模性的评估测试。为此，业界相继开发出了一些语言教学和评测系统。
[0003]在现有技术中，口语评测系统通常采用单识别器对接收到的语音信号进行语音识另IJ (如问答题)或者语音文本对齐(如朗读题)，从而获取各基本语音单元对应的语音片断。随后系统从各语音片断中分别提取描述各基本语音单元发音标准度或流畅度等衡量口语评测标准的特征，最后基于所述特征通过预测分析得到评测最终得分。
[0004]在安静的环境下使用高保真的录音设备时，语音识别系统由于能提供较高的识别准确率因而后续口语评测也能提供较为客观准确的结果。然而在实际应用中特别是对于大规模口语考试，录音环境不可避免会受到考场噪声、环境噪声等因素的影响，语音识别准确率下降导致口语评测过程中会出现一定比例的异常评分语音。显然这种现象使得大规模口语考试中计算机自动评分很难真正实用，限制了口语评测系统的应用范围和推广，对很多至关重要的考试无法应用，否则一旦出现异常评分就会造成评卷事故。

【发明内容】

[0005]本发明实施例提供一种口语评测方法及系统，以提高口语评测的准确性，减少异常评分。
[0006]为此，本发明提供如下技术方案:
[0007]一种口语评测方法，包括:
[0008]接收待评测的语音信号；
[0009]利用至少两种不同的语音识别系统分别获取所述语音信号中各基本语音单元对应的语音片断；
[0010]从所述语音片断中分别提取对应不同特征类型的评测特征；
[0011]计算所述评测特征的原始得分；
[0012]按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；
[0013]根据不同评测特征的综合得分计算所述语音信号的得分。[0014]优选地，所述特征类型包括以下一种或多种:完整性特征、发音准确性特征、流利性特征、韵律特征。
[0015]优选地，所述计算所述评测特征的原始得分包括:
[0016]加载与所述评测特征的特征类型相对应的评分预测模型；
[0017]计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。
[0018]优选地，对应不同题型的同一特征类型的评分预测模型不同。
[0019]优选地，所述按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分包括:
[0020]针对同一特征类型的基于不同语音识别系统得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。
[0021]一种口语评测系统，包括:
[0022]接收模块，用于接收待评测的语音信号；
[0023]语音片断获取模块，用于利用至少两种不同的语音识别系统分别获取所述语音信号中各基本语音单元对应的语音片断；
[0024]特征提取模块，用于从所述语音片断中分别提取对应不同特征类型的评测特征；
[0025]计算模块，用于计算所述评测特征的原始得分；
[0026]优化融合模块，用于按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；
[0027]评分模块，用于根据不同评测特征的综合得分计算所述语音信号的得分。
[0028]优选地，所述特征类型包括以下一种或多种:完整性特征、发音准确性特征、流利性特征、韵律特征。
[0029]优选地，所述计算模块包括:
[0030]加载单元，用于加载与所述评测特征的特征类型相对应的评分预测模型；
[0031]相似度计算单元，用于计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。
[0032]优选地，对应不同题型的同一特征类型的评分预测模型不同。
[0033]优选地，所述评分模块，具体用于针对同一特征类型的基于不同语音识别系统得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。
[0034]本发明实施例提供的口语评测方法及系统，通过采用多语音识别系统分别评分综合的方式，减少了单系统评分带来的识别和评测特征提取异常的情况，进而减少了识别错误带来的评分误差，实现了对用户口语水平的全面准确评测。
【专利附图】

【附图说明】
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0036]图1是本发明实施例口语评测方法的流程图；[0037]图2是本发明实施例中构建评分预测模型的流程图；
[0038]图3是本发明实施例口语评测系统的结构示意图。
【具体实施方式】
[0039]为了使本【技术领域】的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0040]针对现有技术中受环境因素影响语音识别准确率下降会导致口语评测过程中出现一定比例的异常评分语音的问题，本发明实施例提供一种口语评测方法及系统，首先对待评测的语音信号采用多种语音识别方式进行识别，得到多种识别结果；然后分别从每种识别结果中提取基于不同特征类型的评测特征，并根据所述评测特征分别计算评分；随后按照特征类型对各识别结果的所述评分进行优化融合得到不同特征类型的综合评分；最后对不同特征类型的综合评分进行转换确定所述语音信号的最终得分。
[0041]如图1所示，是本发明实施例口语评测方法的流程图，包括以下步骤:
[0042]步骤101，接收待评测的语音信号。
[0043]步骤102，采用至少两种不同的语音识别系统分别获取所述语音信号中各基本语音单元对应的语音片断。
[0044]所述基本语音单元可以是音节、音素等。不同的语音识别系统将基于不同的声学特征如基于MFCC (Mel-Frequency Cepstrum Coeff icients,美尔倒谱系数)特征的声学模型、基于PLP (Perceptual Linear Predictive,感知线性预测)特征的声学模型等,或采用不同的声学模型如Hidden Markov Model-Gaussian Mixture Model,隐马尔可夫模型-高斯混合模型)、基于DBN (Dynamic BeyesianNetwork,动态贝叶斯网络)的神经网络声学模型等，甚或采用不同的解码方式如Viterbi搜索，A*搜索等，对语音信号解码。这样，可以得到所述语音信号的基本语音单元及对应的语音片断序列。
[0045]具体地，对于问答题等没有文本标注的语音信号可以通过连续语音识别获取所述语音信号对应的文本即基本语音单元序列，以及各基本语音单元所对应的语音片断。而对于朗读题等具有标准答案的语音信号则采用语音对齐方式获得各基本语音单元所对应的语音片断的时间边界。
[0046]由于不同的语音识别系统具有不同的解码优势，其识别结果之间往往具有一定的互补性。
[0047]步骤103，从所述语音片断中分别提取对应不同特征类型的评测特征。
[0048]所述特征类型可以包括以下一种或多种:完整性特征、发音准确性特征、流利性特征、韵律特征等。其中:
[0049]所述完整性特征用于描述所述语音片断序列对应的基本语音单元序列相应于标准答案的文本完整度。
[0050]在本发明实施例中，可以通过将所述基本语音单元序列与预先构建的标准答案网络进行匹配，获得最优路径，将最优路径和语音单元序列的匹配度作为完整性特征。
[0051]需要说明的是，针对不同的题型，所述标准答案网络的形式可以不同，比如，对朗读题型，其标准答案为题面字词序列，而对于问答题等半开放题型，其标准答案往往由确定的核心字词及其它辅助性连接字词构成。此外由于答案的不确定性，其表达形式往往较多，相应的标准答案网络通常由多个标准答案构成，表现为多个答案句式或网格形式的标准答案。
[0052]当然，在标准答案不唯一时，还可以根据各标准答案的出现概率构建一个带权重的标准答案网络，并选择相应的加权匹配率计算最优路径和语音单元序列的匹配度，将对应各语音单元的匹配度作为完整性特征。
[0053]更进一步地，在半开放题型的答案网络中，答案中确定的核心字词对答案正确与否描述的重要性要远高于其他连接性字词，为了突显核心字词对答案完整度的重要性，可以分别对核心字词以及连接字词设置不同数值的权重，在带权重的标准答案网络中搜索所述基本语音单元序列的最优路径，并将最优路径的累计得分作为匹配度。
[0054]所述发音准确性特征用于描述各语音片断的发音标准度。具体地，可以分别计算各语音片断相应于其所对应基本语音单元预设的发音声学模型的相似度，将所述相似度作为发音准确性特征。
[0055]所述流利性特征用于描述用户语句表述的通顺性，包括但不限于语句平均语速(如语音时长和语音单元个数的比例等)、语句平均语流长度、语句有效停顿比例等。此外，为了补偿不同发音人在语速上的差异，还可以采用音素段特征，对所有发音部分进行归一化后共同组成流利性特征。具体地，可以通过统计上下文无关音素的时长离散概率分布，计算归一化后时长评分的对数概率，得到音素的段长评分。
[0056]所述韵律特征用于描述用户发音的韵律特点，包括基频变化起伏等特征。具体地，可以提取各语音片断的基频特征序列，也可以随后进一步获取其动态变化特征，如提取一阶差分、二阶差分等作为补充韵律特征。
[0057]上述对应不同特征类型的评测特征分别从不同角度描述了当前用户发音的特点，彼此具有一定的互补性。
[0058]步骤104，计算每种评测特征的原始得分。
[0059]对于不同特征类型的评测特征可以分别加载对应的评分预测模型并计算所述评测特征相应于该评分预测模型的相似度，将所述相似度作为所述评测特征的原始得分。
[0060]需要说明的是，在实际应用中，还可以根据不同题型加载相应的评分预测模型，对应不同题型的同一特征类型的评分预测模型可以相同，也可以不同，从而进一步提高评分的细致度和准确性。各评分预测模型的构建将在后面详细说明。
[0061]步骤105，按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分。
[0062]由于不同的语音识别系统采用了不同的识别算法或声学模型，往往具有不同的识别结果，相应的基于不同语音片断提取的同一特征类型的评测特征也不尽相同，评测特征的得分也存在一定的互补性(完整性、准确性、流利度、韵律等)。
[0063]在本发明实施例中，首先针对不同语音识别系统得到的针对同一特征类型的评测特征的原始得分进行优化融合，全面衡量该评测特征表征的用户发音水平。具体地，可以根据不同考试的需求和语音识别系统的个数，采用取最大、取中位数、取平均值等方式对所述得分进行优化融合。比如，如果基于不同语音识别系统得到的评测特征的原始得分相差在设定的阈值内，则将各原始得分的平均值作为该评测特征的综合得分；如果某个或某些语音识别系统得到的评测特征的原始得分高于其他语音识别系统得到的该评测特征的原始得分，则取其中的最大值或最大值附近的平均值作为该评测特征的综合得分。
[0064]通过上述综合得分，可以在一定程度上降低单个语音识别系统异常或者评测特征提取异常导致的得分异常情况。
[0065]步骤106，根据不同评测特征的综合得分计算所述语音信号的得分。
[0066]经过上述步骤105的融合过程后，可以得不同评测特征的综合得分。在本发明实施例中，可以从实际应用出发，考虑到不同类型的评测特征的综合得分具有一定的相关性，基于线性回归的转换方法，计算总得分，即按以下公式计算语音信号的得分:
I N
[0067]
【权利要求】
1.一种口语评测方法，其特征在于，包括: 接收待评测的语音信号；利用至少两种不同的语音识别系统分别获取所述语音信号中各基本语音单元对应的语音片断；从所述语音片断中分别提取对应不同特征类型的评测特征；计算所述评测特征的原始得分；按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；根据不同评测特征的综合得分计算所述语音信号的得分。
2.根据权利要求1所述的方法，其特征在于，所述特征类型包括以下一种或多种:完整性特征、发音准确性特征、流利性特征、韵律特征。
3.根据权利要求1所述的方法，其特征在于，所述计算所述评测特征的原始得分包括: 加载与所述评测特征的特征类型相对应的评分预测模型；计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。
4.根据权利要求3所述的方法，其特征在于，对应不同题型的同一特征类型的评分预测模型不同。
5.根据权利要求1至4任一项所述的方法，其特征在于，所述按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分包括: 针对同一特征类型的基于不同语音识别系统得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。
6.一种口语评测系统，其特征在于，包括: 接收模块，用于接收待评测的语音信号；语音片断获取模块，用于利用至少两种不同的语音识别系统分别获取所述语音信号中各基本语音单元对应的语音片断；特征提取模块，用于从所述语音片断中分别提取对应不同特征类型的评测特征；计算模块，用于计算所述评测特征的原始得分；优化融合模块，用于按照所述特征类型对基于不同语音识别系统得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；评分模块，用于根据不同评测特征的综合得分计算所述语音信号的得分。
7.根据权利要求6所述的系统，其特征在于，所述特征类型包括以下一种或多种:完整性特征、发音准确性特征、流利性特征、韵律特征。
8.根据权利要求6所述的系统，其特征在于，所述计算模块包括: 加载单元，用于加载与所述评测特征的特征类型相对应的评分预测模型；相似度计算单元，用于计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。
9.根据权利要求8所述的系统，其特征在于，对应不同题型的同一特征类型的评分预测模型不同。
10.根据权利要求6至9任一项所述的系统，其特征在于，所述评分模块，具体用于针对同一特征类型的基于不同语音识别系统得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。
【文档编号】G10L25/03GK103559892SQ201310554703
【公开日】2014年2月5日申请日期:2013年11月8日优先权日:2013年11月8日
【发明者】王士进, 刘丹, 陈进, 魏思, 胡郁, 刘庆峰申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王士进;刘丹;陈进;魏思;胡郁;刘庆峰
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：基于分数阶傅里叶变换的语音非语音检测方法
上一篇：口语评测方法及系统的制作方法