专利名称:英语口语考试系统中的朗读题自动评分方法和设备的制作方法
技术领域:
本发明属于语言考试自动评分技术领域,具体地说,本发明涉及一种用于非英语母语考生参加的英语口语考试中的朗读题自动评测方法。
背景技术:
随着人们对英语口语的重视逐渐加强,目前,口语测试己经成为大多数英语水平考试的重要组成部分。口语考试规模的日益增大使大量考生的口语数据需要进行评分,这需要大量的人力资源。人工评分是传统的评分方法,但有很多不易解决的问题,如评分员资源短缺、人工评测成本高、评分较主观,即使是同一个评分者对相同的样本,在不同的时间受各种条件的影响也可能评出不同的分数。尤其是对超大规模的评测,人工评测已难以满足其需求。因此,一种能够客观地、可批量化处理的机器评分方法是目前所急需的。英语口语考试中的一个常见的题型是段落朗读。在此题型中,考生被要求大声朗读一段语段,语段的长度通常不少于100个单词。该题型由于朗读的文本固定,因此相对于其他题型,更适于使用机器进行自动批量评分。正是关于这些及其他考虑才作出了本发明。
发明内容
本发明的目的是对非英语母语考生参加英语口语考试的朗读题录音样本,提供一种机器自动评分的方法,该方法是一种通过从基于隐马尔科夫模型的强制对齐结果中提取评分特征,使用训练数据训练评分模型,使用评分模型进行评分的统计性方法。为实现上述发明目的,本发明在第一方面提供一种英语口语朗读自动评分方法,其特征在于,包括如下步骤对输入语音进行预处理,该预处理中包括分帧处理;从预处理的语音中提取语音特征;利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐,得到各音素分割点信息;按照各音素分割点信息,计算每个音素的后验概率;基于音素的后验概率,提取多维评分特征;根据评分特征和人工评分信息,训练非线性回归模型,以便利用该非线性回归模型对英语口语朗读进行评分。优选地,所述预处理包括预加重和/加窗处理。优选地,所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数;计算每帧语音的能量特征;计算能量特征和倒谱特征的差分;对于每一中贞语音,生成语音特征的特征向量。优选地,所述利用线性语法网络和声学模型,对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络,把单词网络展开成音素网络;以便利用该音素网络对语音特征向量序列强制对齐。
优选地,所述根据强制对齐结果,提取多维评分特征包括用单位时间的音素通过 率作为一个评分特征。
优选地,所述基于每个音素的后验概率,提取多维评分特征包括用音素后验概率 均值作为评分特征。
优选地,所述基于每个音素的后验概率,提取多维评分特征包括对带环境信息的 三音子按照良好发音数据的后验概率均值聚成多个类别,得到三音子聚类表;利用根据三 音子聚类表,对输入语音数据中的多个类别的音素的后验概率分别求平均值,得到多维评 分特征。
在第二方面,本发明提供一种英语口语朗读自动评分方法,其特征在于,包括如下 步骤
对输入语音进行预处理,该预处理中包括分帧处理;
从输入语音中提取语音特征;
利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对 齐,得到各音素分割点信息;
按照各音素分割点信息,计算每个音素的后验概率;
基于音素的后验概率,提取多维评分特征;
利用训练过的非线性回归模型根据评分特征进行评分。
优选地,所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔 域倒谱参数系数;计算每帧语音的能量特征;计算能量特征的差分和倒谱特征的差分;对 于每一帧语音,生成语音特征的特征向量。
优选地,所述利用线性语法网络和声学模型,对语音特征向量序列进行强制对齐 的步骤包括利用朗读文本搭建单词串联网络,把单词网络展开成音素网络,再扩展为状态 网络;以便利用该状态网络对语音特征向量序列强制对齐。
优选地,所述根据强制对齐结果,提取多维评分特征包括用单位时间的音素通过 率作为一个评分特征。
优选地,所述基于音素的后验概率,提取多维评分特征包括用基于聚类表的音素 后验概率均值作为评分特征。
优选地,所述基于音素的后验概率,提取多维评分特征包括对带环境信息的三音 子按照良好发音数据的后验概率均值聚成M个类别,得到三音子聚类表;利用根据三音子 聚类表,对考生数据中的M个类别的音素的后验概率分别求平均值,得到多维评分特征。
在第三方面,本发明提供一种英语口语朗读自动评分设备,其特征在于,包括
对输入语音进行预处理的模块,该预处理中包括分帧处理;
从预处理的语音中提取语音特征的模块;
利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对 齐,得到各音素分割点信息的模块;
按照各音素分割点信息,计算每个音素的后验概率的模块;
基于音素的后验概率,提取多维评分特征的模块;
对训练数据,根据评分特征和人工评分信息,训练非线性回归模型,以便利用该非线性回归模型对英语口语朗读进行评分的模块。在第四方面,本发明提供一种英语口语朗读自动评分设备,其特征在于,包括对输入语音进行预处理的模块,该预处理中包括分帧处理;从预处理的语音中提取语音特征的模块;利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐,得到各音素分割点信息的模块;按照各音素分割点信息,计算每个音素的后验概率的模块;基于音素的后验概率,提取多维评分特征的模块;利用该非线性回归模型根据评分特征对英语口语朗读进行评分的模块。本发明的优点是,使用专家打分数据训练评分模型,从统计上保证了机器评分的结果不会偏离人工评分,从而达到计算机对专家评分的高度模拟,并且由于计算机相对于人类的不受干扰的优势,机器评分 有可能比专家打分更加稳定。
图1是本发明第一实施例的评分模型获取方法的流程图;图2是本发明第二实施例的对考生数据进行评分的流程图;图3是朗读题自动评分所用状态图的搭建示意图。
具体实施例方式下面结合附图及具体实施例对本发明的朗读评分方法做进一步地描述。图1是本发明第一实施例的朗读评分方法的流程图。如图1所示,按照该朗读题自动评分方法,在步骤102,将待识别语音输入语音识别系统中。在步骤104,对输入语音进行预处理,主要是进行分帧处理。在一个例子中,预处理可以采用如下流程2-1)首先,将语音信号按照16K (或8K)采样率进行数字化;2-2)然后,通过预加重进行高频提升。一个预加重滤波器的例子是=H(Z)=1-CiZ'其中 α =0. 98 ;2-3)接着,将数据进行分帧处理取帧长25ms、帧间重叠15ms,可根据需要适当调整;2-4)最后,加窗处理。窗函数采用常用的hamming窗函数w(n) = 0.54 — 0.46cos(,_)其中,O 彡 η 彡 N-10
N -\需要说明,上述流程仅属举例,本发明还可以采用其它形式的预处理。比如仅仅进行预加重或者加窗处理。在步骤106,提取语音特征。可采用PLP (Perceptual Linear Predictive,感知加权线性预测)或者MFCC (mel-frequency cepstral coefficient,美尔域倒谱系数)参数特征提取方法。在一个例子中,一个提取语音特征的具体流程如下3-1)首先,计算每帧语音的PLP或MFCC参数系数c (m),I彡m彡N。,其中N。为倒谱系数的个数,N。= 12。
3-2)计算每帧语音的能量特征;
3-3)计算能量特征和倒谱特征的一阶和二阶差分。采用如下的回归公式计算差分倒谱系数
权利要求
1.一种英语口语朗读自动评分方法,其特征在于,包括如下步骤 对输入语音进行预处理,该预处理中包括分帧处理; 从预处理的语音中提取语音特征; 利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐,得到各音素分割点信息; 按照各音素分割点信息,计算每个音素的后验概率; 基于音素的后验概率,提取多维评分特征; 根据评分特征和人工评分信息,使用支持向量回归法训练非线性回归模型,以便利用该非线性回归模型对英语口语朗读进行评分。
2.根据权利要求1所述的自动评分方法,其特征在于,所述预处理包括预加重和/加窗处理。
3.根据权利要求1所述的自动评分方法,其特征在于,所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数;计算每帧语音的能量特征;计算能量特征的差分和倒谱特征的差分;对于每一帧语音,生成语音特征的特征向量。
4.根据权利要求1所述的自动评分方法,其特征在于,所述利用线性语法网络和声学模型,对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络,把单词网络展开成音素网络,再扩展为状态网络;以便利用该状态网络对语音特征向量序列强制对齐。
5.根据权利要求1所述的自动评分方法,其特征在于,所述根据强制对齐结果,提取多维评分特征包括用单位时间的音素通过率作为一个评分特征。
6.根据权利要求1所述的自动评分方法,其特征在于,所述基于音素的后验概率,提取多维评分特征包括用基于聚类表的音素后验概率均值作为评分特征。
7.根据权利要求6所述的自动评分方法,其特征在于,所述基于音素的后验概率,提取多维评分特征包括对带环境信息的三音子按照良好发音数据的后验概率均值聚成多个类另Ij,得到三音子聚类表;利用根据三音子聚类表,对输入语音数据中的多个类别的音素的后验概率分别求平均值,得到多维评分特征。
8.一种英语口语朗读自动评分方法,其特征在于,包括如下步骤 对输入语音进行预处理,该预处理中包括分帧处理; 从输入语音中提取语音特征; 利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐,得到各音素分割点信息; 按照各音素分割点信息,计算每个音素的后验概率; 基于音素的后验概率,提取多维评分特征; 利用训练过的非线性回归模型根据评分特征进行评分。
9.根据权利要求8所述的自动评分方法,其特征在于,所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数;计算每帧语音的能量特征;计算能量特征和倒谱特征的差分;对于每一帧语音,生成语音特征的特征向量。
10.根据权利要求8所述的自动评分方法,其特征在于,所述利用线性语法网络和声学模型,对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络,把单词网络展开成音素网络,再将音素网络展开成状态网络;以便利用该状态网络对语音特征向量序列强制对齐。
11.根据权利要求8所述的自动评分方法,其特征在于,所述根据强制对齐结果,提取多维评分特征包括用单位时间的音素通过率作为一个评分特征。
12.根据权利要求8所述的自动评分方法,其特征在于,所述基于音素的后验概率,提取多维评分特征包括用音素后验概率均值作为评分特征。
13.根据权利要求12所述的自动评分方法,其特征在于,所述基于音素的后验概率,提取多维评分特征包括对带环境信息的三音子按照良好发音数据的后验概率均值聚成M个类别,得到三音子聚类表;利用根据三音子聚类表,对考生数据中的M个类别的音素的后验概率分别求平均值,得到多维评分特征。
14.一种英语口语朗读自动评分设备,其特征在于,包括对输入语音进行预处理的模块,该预处理中包括分帧处理;提取语音特征的模块;利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐, 得到各音素分割点信息的模块;按照各音素分割点信息,计算每个音素的后验概率的模块;基于音素的后验概率,提取多维评分特征的模块;对训练数据,根据评分特征和人工评分信息,使用支持向量回归法训练非线性回归模型,以便利用该非线性回归模型对英语口语朗读进行评分的模块。
15.一种英语口语朗读自动评分设备,其特征在于,包括对输入语音进行预处理的模块,该预处理中包括分帧处理;从预处理的语音中提取语音特征的模块;利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐, 得到各音素分割点信息的模块;按照各音素分割点信息,计算音素的后验概率的模块;基于音素的后验概率,提取多维评分特征的模块;利用该非线性回归模型根据评分特征对英语口语朗读进行评分的模块。
全文摘要
本发明提供一种英语口语朗读自动评分的方法和设备。该方法包括对输入语音进行预处理,该预处理中包括分帧处理;从预处理的语音中提取语音特征;利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐,得到各音素分割点信息;按照各音素分割点信息,计算每个音素的后验概率;基于音素的后验概率,提取多维评分特征;根据评分特征和人工评分信息,使用支持向量回归法训练非线性回归模型,以便利用该非线性回归模型对英语口语朗读进行评分。使用专家打分数据训练评分模型,从统计上保证了机器评分的结果不会偏离人工评分,从而达到计算机对专家评分的高度模拟。
文档编号G10L15/14GK103065626SQ20121055736
公开日2013年4月24日 申请日期2012年12月20日 优先权日2012年12月20日
发明者颜永红, 张俊博, 潘复平 申请人:中国科学院声学研究所, 北京中科信利技术有限公司