一种动态自适应语音分析技术以用于人机口语考试的方法及系统与流程

文档序号:11213894阅读:394来源:国知局
一种动态自适应语音分析技术以用于人机口语考试的方法及系统与流程

本发明涉及一种动态自适应语音分析技术以用于人机口语考试的方法,属于计算机软件技术领域,尤其涉及互联网教育技术领域。



背景技术:

在英语口语考试中,试题的类型分为客观题、主观题两大类。客观题是指有标准答案,学生的回答必须符合标准答案的内容的试题,又分为短文朗读、多项分支两小类,短文朗读就是给出一段英文文章,要求学生按文字进行朗读;多项分支选择,就是一段话后,有几个备选答案,其中只有一个正确的,学生读出正确的才得分。而主观题是指没有标准答案,需要根据某些特定的标准才能判定正误的试题,又分为交际问答、口头作文两小类,交际问答是采用一问一答的方式,答案是开放性的;口头作文是给出一段材料,材料可能是文字或图片或音频,或者是其组合,学生看过或听过后,口头说上一段英文。

现有技术的运用,导致了在英语考试的过程中,题目类型不完备,满足不了全国广大范围内用户的要求,即或有一些产品能部分满足要求,也是把每个题目的内容及答案上传到服务器,完全依赖服务器端的判定、打分,如果网络条件不好就非常影响用户体验。而本发明通过客观题在客户端完全在本地打分,主观题才上传到服务端打分的方式,将对网络的依赖尽量减小。

造成这种问题的原因是我国地域广大,经济发展水平、文化水平差异极大,造成了不同地方的考试要求、考试内容差异也非常大,各地的计算机网络条件也有很大的差异,很多地方不知道怎样对学生考核主观题,导致了考试题目的不完备。



技术实现要素:

针对英语口语人机交互式测评考试系统的口语考试环节中,系统反应速度与题目开放性的矛盾问题,本发明的目的在于提供一种动态自适应语音分析技术以用于人机口语考试的方法及系统。通过使用本技术,客观题在本地打分,主观题则通过试卷的特别编辑来满足变化的要求,可以在英语口语考试中,达到反应速度与题目开放性的较好平衡。

本发明的技术方案为:

一种动态自适应语音分析技术以用于人机口语考试的方法,其步骤为:

1)编辑试卷,标记试卷中每一试题的类型;所述类型包括客观题、主观题;对于类型为客观题的试题,设置该试题的正确答案并保存到每一客户端;对于类型为主观题的试题,根据该试题的内容,设置该试题的关键词集合,并将该试题与对应关键词集合上传到服务端;

2)考试阶段,客户端记录用户回答当前试题的音频,并判断当前试题的类型;如果是客观题则客户端在本地根据当前试题的音频及该试题的正确答案进行判分;如果是主观题,则将当前试题的音频与试题序号传给服务端,由服务端根据该试题的关键词集合进行判分,然后将得分返回给该客户端;

3)客户端根据该用户的每一试题的得分计算该用户的总分。

进一步的,对类型为客观题的试题进行判分的方法为:首先根据试题的正确答案对应的文本对音频进行边界对齐,在单词边界内部,对每个时间点的音频进行特征提取,根据提取的特征计算单词的音素的后验概率,然后对这些音素的概率进行平均,得到该试题的正确答案的音素概率,并建立该试题得分的映射标准;然后根据该映射标准和计算得到的回答该试题的音频的音素概率确定该试题的分数。

进一步的,建立试题得分的映射标准的方法为:选取该试题的多个音频并计算每一音频的音素概率,其中,选取的每一音频对应一不同分数;然后将不同音频的因素概率与该试题的正确答案的音素概率对比,试题得分的映射标准。

进一步的,对类型为主观题的试题进行判分的方法为:服务端根据试题序号查询得到该试题的关键词集合,然后将该关键集合中每一单词对应的音频与该试题的音频进行匹配,判断该试题的音频中是否包含该单词的音频,如果包含则记录该单词;然后记录的单词数量与该关键词集合中的单词数计算得出该试题的分数。

一种动态自适应语音分析技术以用于人机口语考试的系统,其特征在于,包括试卷、一服务端,与该服务端网络连接的多个客户端;其中,所述试卷中根据每一试题的类型对该试题进行标记,所述类型包括客观题、主观题;对于类型为客观题的试题,设置该试题的正确答案并保存到每一客户端;对于类型为主观题的试题,根据该试题的内容,设置该试题的关键词集合,并将该试题与对应关键词集合上传到服务端;所述客户端记录用户回答当前试题的音频,并判断当前试题的类型;如果是客观题则客户端在本地根据当前试题的音频及该试题的正确答案进行判分;如果是主观题,则将当前试题的音频与试题序号传给服务端,由服务端根据该试题的关键词集合进行判分,然后将得分返回给该客户端;最终客户端根据该用户的每一试题的得分计算该用户的总分。

与现有技术相比,本发明的积极效果为:

本发明能够同时满足客观题、主观题两类题型,最大范围的适应各个地方的不同情况,并在判定客观题时,直接在本地判定,不需要上传到网络,完全免除了网络传输时间;在判定主观题时,将回答上传到服务端,由服务端进行判定并返回结果。虽然两类题型判定结果的方式并不相同,但在对待两种题型时,系统自动进行判定,对使用者完全是透明的,学生在回答问题时并不知道自己回答的问题是具体的哪种类型。

附图说明

图1为本发明的方法流程图;

图2为本发明的考试流程图。

具体实施方式

下面参照本发明的附图,更详细地描述本发明的具体实施方法。

此发明包括两步,试卷编辑与考试,如图1所示。

在试卷编辑时,需要指明试卷中每一试题是客观题,还是主观题:如果是客观题,需要进一步指明该题正确的答案;如果是主观题,进一步确定到底是哪种小类型,无论对于交际问答,口头作文哪种小类型,都需要编辑根据试题的内容,手工抽取确定一系列关键词,并将试题本身与关键词集合上传到服务端。

语音识别是机器学习的一个重要邻域。语音信号是一个时序信号,是声波信号,通常hmm(hiddenmarkovmodel)用来建模时序数据。hmm的隐状态代表人的声带处于某个状态,然后通过状态与状态之间不断的跳转实现信号的变化。人感知到的其实是空气波的震动,震动通过声波展现出来,称为观测信号o=o1,o2,…,on。语音识别的过程就是通过观测信号反推出来声带具体处于哪个状态si,进而推断出处于哪个单词wi。在深度学习出现以前,都是用gmm(gaussianmixturemodel)对观测信号建模,通过gmm计算出观测信号处于每个状态的概率,然后利用viterbi解码得到单词序列和状态序列。

语音评测首先利用大量带有转写文本的音频,训练出声学模型,声学模型可以精确到上下文相关的音素建模。对于客观题型,需要给出正确答案对应的文本,根据文本对音频进行边界对齐,在单词边界内部,对每个时间点的音频提取特征,计算单词的音素的后验概率,然后对这些音素的概率进行平均,然后根据这个概率映射到得分,映射标准由老师事先对一批音频打分。对于主观题型,比如口头作文,会先对音频进行识别,得到文本,然后和该题对应的关键词集合作对比,分析语义相似度,语法错误个数等,再结合评分标准,得到评分模型。

学生在进行口语考试时,对于客观题,程序根据录下的学生音频进行分析,确定是原先设定的正确答案的概率,根据这个概率在本地进行比对,然后给出该题的分数。如果是主观题,将音频与试题序号传给服务端,先由服务端根据试题序号查询得到关键词的集合,再分析学生音频,看关键词集合中有多少单词的音频是与学生朗读的音频比较吻合的,对于每一个关键词来说,如果概率较大,就说明学生读了,如果概率很小,就说明学生未读。再根据学生读的关键词集合中的单词数与该试题所有关键词单词数,经过一系列计算,得出分数,返回给客户端。在客户端,客观题得分加上主观题得分,就是该次考试的成绩。

学生在回答时,流程如图2所示,学生在进行考试时,首先进入某一试题,根据试题的内容进行回答,然后系统根据试题的类型进行分析,是客观题还是主观题;如果是客观题,就调用本地评判方式,进行评判;如果是主观题,将试题的内容与学生的回答上传到服务端,由服务端进行判定,然后将主观题的得分返回给客户端,然后由客户端将该学生此次考试的客观题得分与主观题得分相加,获得此次考试的最终成绩。由于两者都是在后台自动运行的,学生在使用时,除了感觉主观题获得分数要稍微慢些外,察觉不到其它的差别,实现了无论哪种题型,对于学生来说都是一样的感觉,不用手动确定回答的是客观题还是主观题。在完成该题后,系统判定是否还有下一题,如果有,就进入下一试题,过程与上面一样;如果没有,就完成考试,并给出此次考试各个试题的分数及总分。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1