一种智能英语口语复述题评分方法和系统与流程

文档序号:17472956发布日期:2019-04-20 05:56阅读:1562来源:国知局
一种智能英语口语复述题评分方法和系统与流程

本发明涉及计算机辅助教育领域,尤其涉及一种智能英语口语复述题评分方法和系统。



背景技术:

随着计算机科学技术的发展,信息技术已经被广泛地应用到教育教学中,它丰富了教学资源,改善了学习环境,使学生的学习方式和教师的教学方式发生了根本的变化。另一方面,随着人工智能、声学、语言学的发展,语音智能技术已经成为一种新型的信息技术,语言教学逐渐向着计算机辅助教学迈进。但是,英语口语改卷涉及的技术问题还很多,其中主要有语音识别技术、自然语言处理技术。

传统语音识别系统采用方法之一是gmm-hmm(高斯混合模型-隐马尔科夫模型),hmm使用状态序列对语音信号的时间行为进行建模,将每个状态序列与观测的特定概率分布关联起来,高斯混合模型(gmm)则是用于估计与这些hmm状态中的每一个相关联的语音信号的概率分布的强大模型。自然语言处理(nlp)是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域。现代nlp算法是基于机器学习,特别是统计机器学习。

但是,gmm-hmm这种声学模型属于浅层结构模型,即对原始输入信号之经过较少层次(如一层)的线性或者非线性处理以达到信号与信息处理的目的,优点在于结构简单,易于学习,在数学上有比较完善的算法,但是对于语音信号这种复杂信号的处理上,表达能力存在局限性。

近年来出现了一些基于计算机和网络技术的英语口语机考系统,如上海外语教育出版社的口语机考系统、蓝鸽的系统等,实现了考官和考生在场所上的分离,支持了大规模的口语考试的组织。但在阅卷方面,仅支持客观题的阅卷。主观题的阅卷工作仍需要投入大量的人力物力。例如英语考试主观题当中的复述题。因此现实当中对于口语表达水平评分任务而言,仍然完全由人工进行批阅,且这种评分任务不仅主观性强,而且时间紧、强度高,因此阅卷的质量很难控制。



技术实现要素:

本发明实施例的目的是提供一种智能英语口语复述题评分方法和系统,能将发音过程中的特征反映出来,提高评分系统的准确率,实现全自动评分方式,节省人力物力。

为实现上述目的,本发明实施例提供了一种智能英语口语复述题评分评分方法,包括:

获取待识别的语音信号,并对所述语音信号进行预处理;

对进行完预处理后的所述语音信号进行语音特征参数的提取;

根据预先建立的语音数据模型对所述语音特征参数进行语音识别;

获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型;其中,所述语音识别的结果内容包括但不限于关键词覆盖率、词语相似度、文本相似度和语言流利度;

根据所述线性回归模型输出英语口语评分的分数。

与现有技术相比,本发明公开的智能英语口语复述题评分方法,首先获取待识别的语音信号,并对所述语音信号进行预处理;然后对进行完预处理后的所述语音信号进行语音特征参数的提取,并对所述语音特征参数进行语音识别;最后获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型,根据所述线性回归模型输出英语口语评分的分数。解决了现有技术中对于口语表达水平评分任务仍然完全由人工进行批阅,导致评分效率低下的问题。能将发音过程中的特征反映出来,提高评分系统的准确率,实现全自动评分方式,节省人力物力。

作为上述方案的改进,所述对所述语音信号进行预处理,具体包括:

根据维纳滤波器对所述语音信号进行去噪处理;

对所述语音信号进行预加重处理和加窗分帧处理;

对所述语音信号进行端点检测,以将所述语音信号中的词语分词。

作为上述方案的改进,所述对进行完预处理后的所述语音信号进行语音特征参数的提取,具体包括:

对所述语音信号进行fft变换;

通过三角窗滤波器对进行完fft变换后的所述语音信号进行滤波;

滤波完成后,计算所述三角窗滤波器输出的对数能量;

将所述对数能量代入离散余弦变换,获取所述语音特征参数。

作为上述方案的改进,所述语音数据模型为基于前馈全连接深度神经网络预先训练得到。

作为上述方案的改进,所述语言流利度包括但不限于发音犹豫度指标、停顿指标、爆破指标和整体语速指标。

作为上述方案的改进,所述词语相似度通过word2vec训练模型进行识别。

为实现上述目的,本发明实施例还提供了一种智能英语口语复述题评分系统,包括:

预处理模块,用于获取待识别的语音信号,并对所述语音信号进行预处理;

语音特征参数提取模块,用于对进行完预处理后的所述语音信号进行语音特征参数的提取;

语音识别模块,用于根据预先建立的语音数据模型对所述语音特征参数进行语音识别;

线性回归模型计算模块,用于获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型,根据所述线性回归模型输出英语口语评分的分数;其中,所述语音识别的结果内容包括但不限于关键词覆盖率、词语相似度、文本相似度和语言流利度。

与现有技术相比,本发明公开的智能英语口语复述题评分系统,首先,预处理模块获取待识别的语音信号,并对所述语音信号进行预处理;然后,语音特征参数提取模块对进行完预处理后的所述语音信号进行语音特征参数的提取,语音识别模块对所述语音特征参数进行语音识别;最后,线性回归模型计算模块获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型,根据所述线性回归模型输出英语口语评分的分数。解决了现有技术中对于口语表达水平评分任务仍然完全由人工进行批阅,导致评分效率低下的问题。能将发音过程中的特征反映出来,提高评分系统的准确率,实现全自动评分方式,节省人力物力。

作为上述方案的改进,所述预处理模块包括:

去噪处理单元,用于根据维纳滤波器对所述语音信号进行去噪处理;

预加重处理单元,用于对所述语音信号进行预加重处理;

加窗分帧处理单元,用于对所述语音信号进行加窗分帧处理;

端点检测单元,用于对所述语音信号进行端点检测,以将所述语音信号中的词语分词。

作为上述方案的改进,所述语音特征参数提取模块包括:

fft变换单元,用于对所述语音信号进行fft变换;

滤波单元,用于通过三角窗滤波器对进行完fft变换后的所述语音信号进行滤波;

对数能量计算单元,用于滤波完成后,计算所述三角窗滤波器输出的对数能量;

离散余弦变换单元,用于将所述对数能量代入离散余弦变换,获取所述语音特征参数。

作为上述方案的改进,所述语音数据模型为基于前馈全连接深度神经网络预先训练得到。

附图说明

图1是本发明实施例提供的一种智能英语口语复述题评分方法的流程图;

图2是本发明实施例提供的一种智能英语口语复述题评分方法中步骤s1的流程图;

图3是本发明实施例提供的一种智能英语口语复述题评分方法中维纳滤波器的系统框图;

图4是本发明实施例提供的一种智能英语口语复述题评分方法中步骤s2的流程图;

图5是本发明实施例提供的一种智能英语口语复述题评分方法中搭建语音数据模型的流程图;

图6是本发明实施例提供的一种智能英语口语复述题评分方法中word2vec训练模型的结构示意图;

图7是本发明实施例提供的一种智能英语口语复述题评分方法中cbow模型的结构示意图;

图8是本发明实施例提供的一种智能英语口语复述题评分系统的结构框图;

图9是本发明实施例提供的一种智能英语口语复述题评分系统中预处理模块11的结构示意图;

图10是本发明实施例提供的一种智能英语口语复述题评分系统中语音特征参数提取模块12的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

值得说明的是,本发明实施例采用已有的考试数据、高考英语口语考试数据以及成人自考英语口语数据,挑选其中日常用语部分,并按内容分文件夹分类,每一个文件夹中的语料的内容都是相同的。比如所有内容是“howareyou”的语料都存放在名字为“how_are_you”的文件夹中。语料的命名即为语料的内容,比如一个内容是“howareyou”的语料则命名为“how_are_you_1”,其中“1”是其序号。由于技术、设备和训练时间等因素的限制,为了系统的可执行性和有效性,本发明实施例决定将以往收集的高考英语口语考试数据、当前学校期末英语口语考试数据和成人自考英语口语数据用于构建语音识别语料库。由于英语口语考试主要以日常生活或简单的社会问题作为话题,其包含了我们日常生活场景和基本事件所需的大部分口语内容,针对这一部分的语料作为语音识别语料库的构建,能够将其用于日常生活所需的基本口语交流,具有一定的现实意义与价值。

实施例一

参见图1,图1是本发明实施例提供的一种智能英语口语复述题评分方法的流程图;包括:

s1、获取待识别的语音信号,并对所述语音信号进行预处理;

s2、对进行完预处理后的所述语音信号进行语音特征参数的提取;

s3、根据预先建立的语音数据模型对所述语音特征参数进行语音识别;

s4、获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型;其中,所述语音识别的结果内容包括但不限于关键词覆盖率、词语相似度、文本相似度和语言流利度;

s5、根据所述线性回归模型输出英语口语评分的分数。

优选的,参见图2,图2是本发明实施例提供的一种智能英语口语复述题评分方法中步骤s1的流程图,包括:

s11、根据维纳滤波器对所述语音信号进行去噪处理;

s12、对所述语音信号进行预加重处理和加窗分帧处理;

s13、对所述语音信号进行端点检测,以将所述语音信号中的词语分词。

具体的,在步骤s11中,所述维纳滤波器是以最小均方差准则设计的数字滤波器,通过估计噪声和带噪语音信号的功率谱,构造维纳滤波器的传递函数,然后从带噪语音功率谱中计算纯净语音信号的功率谱,再录用带噪语音频谱的相位,经过傅里叶反变换来恢复增强后的语音信号。

设有一个线性系统,它的单位脉冲响应是h(n),当输入一个观测得到的随机信号(即语音信号),简称观测值x(n),所述观测值x(n)包含噪声信号w(n)和语音信号s(n),其信号的模型为:

x(n)=s(n)+w(n)公式(1);

那么输出为y(n)为:

其中,h(m)是指把n分成若干个m,这个m尽可能小;x(n-m)≈x(n)。

我们希望输出得到的y(n)与有用信号s(n)尽量接近,因此称y(n)为s(n)的估计值,用来表示,得出一个维纳滤波器的系统框图如图3所示。这个系统的单位脉冲响应也称为对于s(n)的一种估计器。

如果该系统是因果系统,m=0,1,2,…n,则输出的y(n)可以看成是当前时刻的观测值和过去时刻的观测值x(n-1)、x(n-2)、x(n-3)…的估计值。用e(n)来表示真值和估计值之间的误差,此时所述误差满足:

显然e(n)是随机变量,维纳滤波器的误差准则就是最小均方差误差准则,此时,均方差误差满足:

所述维纳滤波器是根据全部过去观测值和当前观测值来估计信号的当前值,因此它的解析形式是系统的传递函数h(z)或单位脉冲效应h(n)。可见设计维纳滤波器就是寻求在最小均方误差下滤波器的单位脉冲响应h(n)或传递函数h(z)的表达式,其实质就是解维纳-霍夫(wiener-hopf)方程。求解方程可得:

其中,rss表示有用信号s的自相关函数,rww表示噪声信号w的自相关函数,n表示滤波器的阶数,然后可以根据所述最小均方误差e[e2(n)]min精度来计算维纳滤波器的单位脉冲响应h(n),从而求解出输出y(n),进而能够对所述语音信号进行去噪处理。

具体的,在步骤s12中,对进行完去噪处理后的所述语音信号进行预加重处理,所述预加重处理其实是将语音信号通过一个高通滤波器,预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。

对进行完预加重处理的语音信号进行加窗分帧处理,所述语音信号具有短时平稳性(10-30ms内可以认为语音信号近似不变),这样就可以将所述语音信号分为一些短段来来进行处理,这就是分帧,所述语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33~100帧,视情况而定。

具体的,在步骤s13中,语音设备采集的所述语音信号需要经过模数转换转为计算机能够处理的数据,语音一般分为无声段,清音段和浊音段。语音信号是一个非平稳态过程,不能用处理平稳信号的信号处理技术对其进行分析处理。但由于语音信号本身的特点,在10-30ms的短时间范围内,其特性可以看作是一个准稳态过程,即具有短时性,因此在进行语音端点检测时,一般是采用基于短时平均能量的端点检测。

无声段的短时能量为零,清音段的短时能量又比浊音段的短时能量大,而在过零率方面,理想的情况是无声段的过零率为零,浊音段的过零率比清音段的过零率要大的多。所以,如果某部分短时能量和过零率都为零或者是很小的值,就可以认为这部分为无声段;如果该部分语音短时能量很大但是过零率很小,则认为该部分语音为浊音段;如果该部分短时能量很小但是过零率很大,则认为该部分语音为清音段。这种端点检测的方法可以提高检测的准确性,对连续语音词语的切割,主要根据连续语音在单词与单词之间的停顿时,短时能量和过零率发生突变的原理。本发明实施例利用的是短时能量和短时平均过零率的乘积能零积作为单词与单词之间的停顿指标,对英语口语语音进行词语的切分。

值得说明的是,通过语音录制设备录制的语音转化为输入系统的语音信号,其中输入的英语语音信号存在着:发音人不同、发音环境不同、语音数据量大和不能直接用于语音识别等差异,会严重影响了识别的准确度。为此本发明实施例对预处理后语音的进行语音特征参数的提取,也就是对输入的语音信号分析处理,提取能够代表语音特征的所述语音特征参数来进行识别。其中,所述语音特征参数必须满足以下特点:体现语音信号的听觉特征和声学特征、特征参数在提取算法上尽可能简单准确,有利于语音识别系统的实现,加快语音识别速率。

优选的,参见图4,图4是本发明实施例提供的一种智能英语口语复述题评分方法中步骤s2的流程图;包括:

s21、对所述语音信号进行fft变换;

s22、通过三角窗滤波器对进行完fft变换后的所述语音信号进行滤波;

s23、滤波完成后,计算所述三角窗滤波器输出的对数能量;

s24、将所述对数能量代入离散余弦变换,获取所述语音特征参数。

具体的,在步骤s21中,由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。快速傅立叶变换(fastfouriertransformation,fft)能够将时域信号变换成为信号的功率谱。

具体的,在步骤s22中,用一组mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个所述三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应,能够对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。

具体的,在步骤s23~s24中,计算每个滤波器输出的对数能量,将所述对数能量代入离散余弦变换,经过所述离散余弦变换后能够去除各维信号之间的相关性,将信号映射到低维空间,进而获取所述语音特征参数。

具体的,在步骤s3中,根据预先建立的语音数据模型对所述语音特征参数进行语音识别;其中,所述语音数据模型为基于前馈全连接深度神经网络预先训练得到。

值得说明的是,前馈全连接深度神经网络(dnn)本质上是一个包含多个隐层的多层感知机,dnn采用层级的结构,分为输入层,隐层和输出层。相邻层的节点采用全连接的方式,而在同一层的节点之间不存在连接。隐层节点的激活值是前一层激活值和当前层网络权重的线性加权求和再通过非线性激活函数得到。

优选的,参见图5,图5是本发明实施例提供的一种智能英语口语复述题评分方法中搭建语音数据模型的流程图;包括:

s31、获取样本语言信号,对所述样本语音信号进行预处理;

s32、对进行完预处理的所述样本语音信号进行样本语音特征参数的提取,从而建立dnn输入样本;

s33、根据dnn训练算法对所述dnn输入样本进行训练。

具体的,步骤s31中所述的预处理过程请参考步骤s1中对所述语音信号进行预处理的工作过程,步骤s32中对所述样本语音信号进行样本语音特征参数的提取的过程请参考步骤s2中对所述语音信号进行语音特征参数的提取的工作过程,在此不再赘述。

具体的,在步骤s33中,通过对所述样本语音信号的特征提取操作后,得到了所述样本语音特征参数,将所述样本语音参数作为网络的输入,并进行dnn训练。当dnn训练好后,即可将训练的模型用于匹配和识别。

其中,所述dnn训练算法描述如下:

对于包含l个隐层的dnn,假设其输入为h0=x,那么其隐层的激活值的计算可以用如下的公式进行表示:

al=wlhl-1+bl,(1≤l≤l+1)公式(7);

hl=f(al),(1≤l≤l+1)公式(8);

其中,wl和bl分别代表网络第l层的权重和偏置向量;al表示隐层节点;f(al)表示隐层节点的非线性激活函数。

传统的dnn普遍采用sigmoid激活函数,其函数表达式如下:

对于分类任务,dnn的输出层通常采用softmax函数对于输入观察样本的后验概率分布进行建模,公式如下:

其中,ys代表网络的输出向量y的第s个元素。

当使用dnn接收输入x并产生相对应的输出y的过程,称之为前向传播过程(forwardpropagation)。得到网络的输出后需要和指导信号或者目标信号进行比对,此过程需要建立相应的优化目标函数。本发明实施例采用基于随机梯度下降(sgd)的误差反向传播算法(bp)来进行优化。基于bp的训练过程,其核心思想是通过链导法则计算出目标函数关于每层的输出相对应的反向传播的误差信号,然后进一步得到网络参数的梯度。

具体的,目标函数关于网络第l层的线性输出信号其误差信号可以表示成:

当l为dnn的输出层时,相应的误差信号的表达式如下:

其中,sr表示指导信号的标签位置,当s=sr时,δr(s)的取值为1,否则为0;

而当l为dnn的隐层时,可以通过链导法则得到其对应的误差信号的表达如下式:

其中,⊙表示向量的按位点乘运算。

得到第l层线性输出的误差信后,权重的梯度就可以通过误差信号计算得到,如下公式:

可以采用如下的公式进行权重的更新:

其中,p和η分别表示动量因子和学习速率,β称为权重衰减因子,通常是一个很小的值,例如0.0001。

重复步骤s31~s33的过程直到算法收敛,即误差小于给定的阈值。当dnn训练好后,即可将训练的用于匹配和识别。

具体的,所述语音识别的结果过程包括但不限于关键词覆盖率、词语相似度、文本相似度和语言流利度。

优选的,关键词的匹配是口语题型的核心考查点,传统的单模式匹配算法诸如kmp算法、bp算法等,在口语题具有多个关键词、且学生录音文本庞大的情况下,匹配速率会大打折扣,因此本发明实施例选择了多模式匹配的经典ac算法,基于kmp算法和trie树为理论基础,其中,该算法由三部分构成:goto表,failure表和output表,对所述语音信号进行关键词的识别,从而输出所述关键词覆盖率。

优选的,所述词语相似度通过word2vec训练模型进行识别,word2vec训练模型,是具有一个隐含层的神经元网络。它的输入是词汇表向量,当看到一个训练样本时,对于样本中的每一个词,就把相应的在词汇表中出现的位置的值置为1,否则置为0。它的输出也是词汇表向量,对于训练样本的标签中的每一个词,就把相应的在词汇表中出现的位置的值置为1,否则置为0。那么,对所有的样本,训练这个神经元网络。收敛之后,将从输入层到隐含层的那些权重,作为每一个词汇表中的词的向量。

在自然语言处理任务中,我们将自然语言交给机器学习算法来处理,但机器无法直接理解人类的语言,因此我们需要将语言数字化,也就是通过“词向量”的方式来实现。一种最简单的词向量是one-hotrepresentation,就是用一个很长的向量来表示一个词,向量的长度为词典d的大小n,向量的分量只有一个1,其它全为0,1的位置对应该词在词典中的索引。但这种方法容易受维数灾难的困扰,且不能刻画词与词之间的相似性。

另一种词向量是distributedrepresentation,通过训练将某种语言中的每一个词映射成一个固定长度的短向量,所有这些向量构成词向量空间,而每一向量则可视为该空间中的一个点,在这个空间上引入“距离”,就可以根据词之间的距离来判断它们之间的相似性了。在本发明中,将语料库中每一个词映射成词向量,语料库中的所有词汇构成一个词向量空间。要计算考生复述使用的词语与原文使用的词语的相似度,将这个两次词语影射为词向量。通过计算这两个词向量在词向量空间之中的“距离”,计算两个词语之间的相似性。

word2vec中有两个重要模型——cbow模型(continuousbag-of-wordsmodel)和skip-gram模型(coutinuousskip-grammodel)。由图6可见,两个模型都包含三层:输入层、投影层和输出层。cbow模型是在一直当前词wt的上下文wt-2,wt-2,wt+1,wt+2的前提下预测当前词wt;而后者恰恰相反,是在已知当前词wt的前提下,预测其上下文wt-2,wt-2,wt+1,wt+2。在本发明实施例中,采用cbow模型。

cbow模型的结构示意图参见图7;其中,

cbow模型输入层:包含context(w)中2c个词的词向量v(context(w)1),v(context(w)2),…,v(context(w)2c∈rm;其中,m的含义表示词向量的长度:

投影层:将输入层的2c个向量做求和累加,即

输出层:输出层对应一棵二叉树,它是以语料中出现过的词当叶子节点,以各词在语料中出现的次数当权值构造出来的huffman树。在这棵huffman树中,叶子节点共n(=|d|)个,分别对应词典d中的词,非叶子节点n-1个。

word2vec训练过程包括:

(1)、根据语料库建立词汇表v,v中的所有词均初始化一个k维向量,并根据词频构建哈夫曼树;将语料库中的文本依次进行训练,以一个文本为例,将单词wi的上下文窗口内的词向量输入模型,由投影层累加(或求均值),得到k维的中间向量wnew,wnew在哈夫曼树中沿着某个特定的路径到达某个叶子节点(即当前词wi);

(2)、由于已知wi,则根据wi的哈夫曼编码,可以确定从根节点到叶节点的正确路径,也确定了路径上所有分类器(非叶结点)上应该作出的预测。举例来说,如果wi的编码为“01101”,则从哈夫曼树的根节点开始,我们希望中间向量与根节点相连经过softmax计算分为0的概率接近于1,在第二层输入1的概率接近于1,以此类推,直至到达叶子节点;

(3)、根据(2)中一直进行下去,把一路上计算得到的概率想乘,即可得到wi在当前网络下的概率p,那么残差就是(1-p),于是就可以采用梯度下降法调整路径中非叶结点的参数,以及最终上下文词的向量,使得实际路径向正确路径靠拢,经过n次迭代收敛后,即可得到每个词的向量表示,通过训练得到两个词的向量x,y,计算余弦相似度cos(θ),满足以下公式:

其中,n=1,2…i;xi为第i个词向量x;yi为第i个词向量y。

优选的,采用jaccard算法计算文本相似度指标的得分情况。相似文本判别在很多领域上都有重要应用,比如在搜索引擎系统中,人们进行查询后,利用文本相似度判别,对结果文档集合进行分析,可以精确地返回更为相关的信息。在本发明中,首先通过语音识别算法将考生语音转化为文本,再将考生复述的语音文本与原文文本进行文本相似度的计算。jaccardindex又称为jaccardsimilaritycoefficient,用于比较有限样本集之间的相似性和差异性。算法如下:

给定两个集合a,b,本发明实施例中,a,b分别为考生复述的语音文本和原文文本。集合中的元素是指文本中出现的词语。需要将两个文本中的词语统计出来,按照如下公式进行计算:

jaccard系数定义为a与b交集的大小与并集大小的比值,满足以下公式:

jaccard值j(a,b)越大说明相似度越高,当a和b都为空时,j(a,b)=1;

与jaccard系数相关的指标是jaccard距离,用于描述不相似度,满足以下公式:

优选的,本发明中评估语言流利度使用的是基于发音犹豫度指标、停顿指标、连读、失去爆破指标、整体语速指标的流利度算法。

具体的,所述发音犹豫度指标首先使用反向动态规划算法对识别结果和标准脚本进行匹配,计算第i个单词发音犹豫时间,满足以下公式:

其中,为第i个单词发音犹豫时间,ti,start表示该单词的发音开始时间;ti-1,end表示前一个单词发音结束时间;表示词内部或词与词之间较短的停顿时间;ti,sil表示词和词之间较长的时间停顿;

计算平均单词发音犹豫时间,满足以下公式:

其中,sl为平均单词发音犹豫时间;i=1,2…n。

优选的,对于所述停顿指标的评判要求为:在恰当的词汇,意群之间进行恰当长度的停顿,在不应该停顿的连续词汇之间不应该停顿。

对于标注过停顿的单词计算正确停顿个数,满足以下公式:

ti,start-ti-1,end>threcpr公式(21);

其中,threcpr为正确停顿的阈值时间;

对于未标注停顿的单词计算错误停顿个数,满足以下公式:

ti,start-ti-1,end>threepr公式(22);

其中,threepr为错误停顿的阈值时间。

优选的,训练语言模型的过程中,对于原有词汇,以及其对应的连读、失去爆破词汇采用相同的权重在语料中产生不同的副本进行训练。测试者在阅读中有连读或失去爆破的技巧,在词数中则对应词表的词会以高的得分优先识别出来,之后对识别结果进行分析,统计连读或失去爆破词汇占所有应连读或失去爆破词汇的比率,作为连读得分和失去爆破得分。

优选的,语速是衡量英语发音流利度的一个重要尺度。正常的流利发音应该是150-160词/min为宜。所述整体语速指标以时间段内识别结果作为衡量标准,统计单位时间段内发音phone的个数,满足以下公式:

sros=nphone/(trec-tsil-tsp)公式(23);

其中,nphone代表单位时间内识别出音素(phone)的总个数;trec代表该时间内识别结果所占时长;tsil代表静音时长之和;tsp代表停顿时长之和。

在步骤s4~s5中,获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型;利用线性回归模型,训练每个特征的权重,其中,所述线性回归模型满足:

y=a0+a1x1+a2x2+…+anxn公式(24);

其中,x1~xn是特征向量;a0~an是特征的权重(即所述预设权重);y是专家评分的平均值;所述线性回归模型是基于均方误差小准则进行训练的。

对于训练集,提取的特征分别用向量x1~xn表示,在本发明实施例中,提取到的特征包括但不限于:所述关键词覆盖率、所述词语相似度、所述文本相似度和所述语言流利度。表示专家的评分均值向量用y表示,根据均方误差小准则不断训练,选出最优权重a0~an。

对于测试集,提取和训练集对应的特征,并利用已经训练出的权重,分配到本项目中流利度评分,关键词覆盖率和文本相似度中去。最后,我们算出的平均值y就是我们最后的评价得分。

具体实施时,首先获取待识别的语音信号,并对所述语音信号进行预处理;然后对进行完预处理后的所述语音信号进行语音特征参数的提取,并对所述语音特征参数进行语音识别;最后获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型,根据所述线性回归模型输出英语口语评分的分数。

与现有技术相比,本发明公开的智能英语口语复述题评分方法,解决了现有技术中对于口语表达水平评分任务仍然完全由人工进行批阅,导致评分效率低下的问题。能将发音过程中的特征反映出来,提高评分系统的准确率,实现全自动评分方式,节省人力物力。

实施例二

参见图8,图8是本发明实施例提供的一种智能英语口语复述题评分系统的结构框图;包括:

预处理模块11,用于获取待识别的语音信号,并对所述语音信号进行预处理;

语音特征参数提取模块12,用于对进行完预处理后的所述语音信号进行语音特征参数的提取;

语音识别模块13,用于根据预先建立的语音数据模型对所述语音特征参数进行语音识别;

线性回归模型计算模块14,用于获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型,根据所述线性回归模型输出英语口语评分的分数;其中,所述语音识别的结果内容包括但不限于关键词覆盖率、词语相似度、文本相似度和语言流利度。

优选的,参见图9,图9是本发明实施例提供的一种英语口语评分系统中预处理模块11的结构示意图;所述预处理模块11包括:

去噪处理单元111,用于根据维纳滤波器对所述语音信号进行去噪处理;

预加重处理单元112,用于对所述语音信号进行预加重处理;

加窗分帧处理单元113,用于对所述语音信号进行加窗分帧处理;

端点检测单元114,用于对所述语音信号进行端点检测,以将所述语音信号中的词语分词。

具体的,所述维纳滤波器是以最小均方差准则设计的数字滤波器,所述去噪处理单元111通过估计噪声和带噪语音信号的功率谱,构造维纳滤波器的传递函数,然后从带噪语音功率谱中计算纯净语音信号的功率谱,再录用带噪语音频谱的相位,经过傅里叶反变换来恢复增强后的语音信号。

具体的,所述预加重处理单元112对进行完去噪处理后的所述语音信号进行预加重处理,所述预加重处理其实是将语音信号通过一个高通滤波器,预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。

具体的,所述加窗分帧处理单元113对进行完预加重处理的语音信号进行加窗分帧处理,所述语音信号具有短时平稳性(10-30ms内可以认为语音信号近似不变),这样就可以将所述语音信号分为一些短段来来进行处理,这就是分帧,所述语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33~100帧,视情况而定。

具体的,所述端点检测单元114利用的是短时能量和短时平均过零率的乘积能零积作为单词与单词之间的停顿指标,对英语口语语音进行词语的切分。

值得说明的是,本发明实施例中所述预处理模块11的详细工作过程请参考上述实施例一所述的智能英语口语复述题评分方法中步骤s11~s13的过程,在此不再赘述。

优选的,参见图10,图10是本发明实施例提供的一种智能英语口语复述题评分系统中语音特征参数提取模块12的结构示意图,所述语音特征参数提取模块12包括:

fft变换单元121,用于对所述语音信号进行fft变换;

滤波单元122,用于通过三角窗滤波器对进行完fft变换后的所述语音信号进行滤波;

对数能量计算单元123,用于滤波完成后,计算所述三角窗滤波器输出的对数能量;

离散余弦变换单元124,用于将所述对数能量代入离散余弦变换,获取所述语音特征参数。

具体的,由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所述fft变换单元121通过快速傅立叶变换(fastfouriertransformation,fft)能够将时域信号变换成为信号的功率谱。

具体的,所述滤波单元122用一组mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个所述三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应,能够对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。

具体的,所述对数能量计算单元123计算每个滤波器输出的对数能量,所述离散余弦变换单元124将所述对数能量代入离散余弦变换,经过所述离散余弦变换后能够去除各维信号之间的相关性,将信号映射到低维空间,进而获取所述语音特征参数。

具体的,所述语音识别模块13根据预先建立的语音数据模型对所述语音特征参数进行语音识别;其中,所述语音数据模型为基于前馈全连接深度神经网络预先训练得到,具体训练过程请参考上述实施例所述的一种智能英语口语复述题评分方法中步骤s31~s33的过程,在此不再赘述。

具体的,所述线性回归模型计算模块14获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型;利用线性回归模型,训练每个特征的权重,其中,所述线性回归模型满足:

y=a0+a1x1+a2x2+…+anxn公式(24);

其中,x1~xn是特征向量;a0~an是特征的权重(即所述预设权重);y是专家评分的平均值;所述线性回归模型是基于均方误差小准则进行训练的。

对于训练集,提取的特征分别用向量x1~xn表示,在本发明实施例中,提取到的特征包括但不限于:所述关键词覆盖率、所述词语相似度、所述文本相似度和所述语言流利度。表示专家的评分均值向量用y表示,根据均方误差小准则不断训练,选出最优权重a0~an。

对于测试集,提取和训练集对应的特征,并利用已经训练出的权重,分配到本项目中流利度评分,关键词覆盖率和文本相似度中去。最后,我们算出的平均值y就是我们最后的评价得分。

具体实施时,首先,预处理模块11获取待识别的语音信号,并对所述语音信号进行预处理;然后,语音特征参数提取模块12对进行完预处理后的所述语音信号进行语音特征参数的提取,语音识别模块13对所述语音特征参数进行语音识别;最后,线性回归模型计算模块14获取所述语音识别的结果,并结合预设权重得到英语口语评分的线性回归模型,根据所述线性回归模型输出英语口语评分的分数。

与现有技术相比,本发明公开的智能英语口语复述题评分系统,解决了现有技术中对于口语表达水平评分任务仍然完全由人工进行批阅,导致评分效率低下的问题。能将发音过程中的特征反映出来,提高评分系统的准确率,实现全自动评分方式,节省人力物力。

本发明主要解决英语口语复述题智能评分问题,探讨在噪声环境下录制的考生答题语音内容的识别,发音质量评价、答题总分的计算及答题指导等问题。在现有人工口语复述题评分标准的基础上,研究出一套科学、准确的自动评分模型实现机器自动评卷。具体包括:采用基于深度神经网络的答题语音识别方法、答题语音的准确分词与分句方法、通过训练word2vec词向量实现对关键词的语义分析、采用jacard算法,利用其对录音语句的相似度进行描述,进行句子相似度评分。采用线性回归模型获取最佳评分分配权重。根据评分发现测试者答题中的问题,系统输出学习指导意见。另外,本发明实施例构建了可靠性高的相关的语音识别语料库,及基于词对齐的用于训练在线翻译系统的汉英双语平行语料库、反馈指导学习语料库。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1