一种口语考试偏题检测方法及装置的制造方法

文档序号:8258491阅读:156来源:国知局
一种口语考试偏题检测方法及装置的制造方法
【技术领域】
[0001]本发明涉及语音数据处理技术领域,特别涉及一种口语考试偏题检测方法及装置。
【背景技术】
[0002]近年来随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的热情达到了前所未有的高度。相应的作为检测教学质量、检验学习效果的语言评测对评估客观性、公正性以及规模化测试的评估效率也提出了越来越高的要求。
[0003]现有的计算机自动评分技术更多关注的是考试的语音学方面的相关特征,这样一来,考生在回答问题时只需要发音流利清晰,评分系统都会给出一定的分数。,会有一些能力较差考生提前熟练背诵一些常用的文本,也能从系统中得到一个分数,导致口语考试评分的公平性受到严重影响。

【发明内容】

[0004]为了解决上述问题,本发明实施例提供了一种口语考试偏题检测方法及装置。所述技术方案如下:
[0005]一方面,提供了一种口语考试偏题检测方法,所述方法包括:
[0006]根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
[0007]通过对所述考生答题文本序列进行语义分析,提取考生的语义特征;
[0008]对所述考生答题文本序列进行词性标注,生成答题文本的语法树,根据所述语法树特征,提取考生的语法特征;
[0009]根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围。
[0010]可选地,根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列包括:
[0011]根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;
[0012]根据所述考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
[0013]可选地,通过对所述考生答题文本序列进行语义分析,提取考生的语义特征包括:
[0014]对所述考生的答题文本序列进行语义分析,提取考生的语义特征,所述考生的语义特征至少包括:基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量方法计算的文本相似度特征。
[0015]可选地,基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括:
[0016]基于所述关键词库和所述同义词库,根据向量空间模型,计算关键词向量;
[0017]基于所述关键词库和所述同义词库,结合所述考生的答题文本系列,将两者数量比例作为关键词分布特征。
[0018]可选地,利用词向量方法计算文本相似度特征包括:
[0019]基于所述关键词和近义,计算考生答案的TF-1DF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用所述语义特征计算考生的答题文本相似度特征矢量;
[0020]使用考题信息以及考生答题音频文件,建立WOrd2VeC模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
[0021]可选地,根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围包括:
[0022]利用多元线性回归方法,根据所述考生的语义特征、所述考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
[0023]另一方面,提供了一种口语考试偏题检测装置,所述装置包括:
[0024]文本序列识别模块,用于根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
[0025]语义特征提取模块,用于通过对所述考生答题文本序列进行语义分析,提取考生的语义特征;
[0026]语法特征提取模块,用于所述考生答题文本序列进行词性标注,生成答题文本的语法树,根据所述语法树特征,提取考生的语法特征;
[0027]偏题判断模块,用于根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围。
[0028]可选地,所述文本序列识别模块用于根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;根据所述考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
[0029]可选地,所述语义特征提取模块用于对所述考生的答题文本序列进行语义分析,提取考生的语义特征,所述考生的语义特征至少包括:基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量装置计算的文本相似度特征;基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括:基于所述关键词库和所述同义词库,根据向量空间模型,计算关键词向量;基于所述关键词库和所述同义词库,结合所述考生的答题文本系列,将两者数量比例作为关键词分布特征;利用词向量装置计算文本相似度特征包括:基于所述关键词和近义,计算考生答案的TF-1DF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用所述语义特征计算考生的答题文本相似度特征矢量;使用考题信息以及考生答题音频文件,建立Word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
[0030]可选地,所述偏题判断模块用于利用多元线性回归装置,根据所述考生的语义特征、所述考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
[0031]本发明实施例提供的技术方案带来的有益效果是:
[0032]通过提取考生答题音频文件的语义特征和语法特征,并以这些特征为基础客观地检测考生答案是否偏离考题范围,为口语考试的评分提供有力的帮助,提高了口语考试的公平性和准确性。
【附图说明】
[0033]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是本发明实施例提供的口语考试偏题检测方法流程图;
[0035]图2是本发明实施例提供的口语考试偏题检测装置结构示意图。
【具体实施方式】
[0036]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0037]图1是本发明实施例提供的口语考试偏题检测方法的流程图。参见图1,该方法包括:
[0038]101、根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
[0039]其中,该考生的答题文本序列可以包括词级序列和音素级序列等。
[0040]在本发明实施例中,根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列包括:根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;根据该考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
[0041]102、通过对该考生答题文本序列进行语义分析,提取考生的语义特征;
[0042]在本发明实施例中,通过对该考生答题文本序列进行语义分析,提取考生的语义特征包括:对该考生的答题文本序列进行语义分析,提取考生的语义特征,该考生的语义特征至少包括:基于该关键词库和该同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量方法计算的文本相似度特征。
[0043]其中,在本发明实施例中,基于该关键词库和该同义词库计算考生的答题文本的关键词分布特征包括:基于该关键词库和该同义词库,根据向量空间模型,计算关键词向量;基于该关键词库和该同义词库,结合该考生的答题文本系列,将两者数量比例作为关键词分布特征。
[0044]其中,在本发明实施例中,利用词向量方法计算文本相似度特征包括:基于该关键词和近义,计算考生答案的TF-1DF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用该语义特征计算考生的答题文本相似度特征矢量;使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
[0045]103、对该考生答题文本序列进行词性标注,生成答题文本的语法树,根据该语法树特征,提取考生的语法特征;
[0046]在本发明实施例中,可以利用词性标注方法,使用基于概率的上下文无关语法方法,生成答案文本的语法树,根据语法树的形状大小等特征,提取出用于检测答案的语法特征。
[0047]104、根据该考生的语义特征、该考生的语法特征以及考题信息,检测该考生的答题是否偏离考题范围。
[0048]在本发明实施例中,利用多元线性回归方法,根据该考生的语义特征、该考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1