本发明涉及口语评测,尤其涉及一种零资源口语评测方法及系统。
背景技术:
1、自动口语评测是用人工智能方法对发音人发音水平进行自动评价技术,在外语学习中有重要作用,可以帮助学习者自查,也可以用来作为官方客观评测的标准。目前,自动口语评测在辅助英语学习、汉语等级考试等场景中有广泛应用。
2、现有技术中进行自动口语评测主要通过应用一个预先训练好的语音识别系统(asr),该系统在每个时刻对每个音素qi生成一个后验概率p(qi|ot),其中qi代表第i个音素,ot为t时刻的语音帧。再把这些后验概率进行统计,得到每个单词或一句话的打分。这一方法的优点在于只需要母语者的发音模型,即可对任何母语背景的发音人进行评测,但是后验概率信息过于单一,性能受限;难以对不同母语背景的人群进行系统优化;或者提出基于asr输出信息作为特征,构建分类模型(如神经网络或支持向量机),再利用母语发音人本身的错误发音数据对分类模型进行训练,最后由分类模型输出评价结果。这一结果可以解决第一种方法的问题,但需要大量母语发音人的实际发音数据,不能实现零迁移;通过扩展解码网络的方法,在解码时考虑母语者可能的发音错误模式,加入解码旁枝,当发音人进入发音错误模式时可以被识别出来。这一方法不需要母语者数据,只需发音错误的先验知识,因此可实现零迁移,但当解码旁枝量较大时,性能会显著下降;神经网络端到端的方法需要收集大量母语发音人的音频数据,特别是错误发音的数据。将这些数据用于训练一个大规模神经网络,直接输出错误发音的词或短语。这种方法需要大量母语发音者的错误发音数据,不能用于零迁移。因此,现有的方法不能零迁移地实现口语评测。
技术实现思路
1、本发明提供一种零资源口语评测方法及系统,用以解决现有口语评测依赖数据迁移、性能不佳的问题。
2、本发明提供一种零资源口语评测方法,包括:
3、获取训练数据,将所述训练数据中的语音转换为特征提取序列;
4、通过预设的语音识别模型将所述特征提取序列与训练数据中的音素串进行强制对齐;
5、基于对齐结果,随机改变音素串中的某些音素,模拟错误发音,生成错误样本;
6、通过所述错误样本对预设的分类模型进行训练,通过训练后的分类模型进行口语评测。
7、根据本发明提供的一种零资源口语评测方法,所述获取训练数据,将所述训练数据中的语音转换为特征提取序列,具体包括:
8、将一个标准发音的数据集作为训练数据,一条训练数据包括一条语音和此语音的音素串;
9、提取发音特征,将语音转换为特征提取序列。
10、根据本发明提供的一种零资源口语评测方法,所述随机改变音素串中的某些音素,模拟错误发音,生成错误样本,具体包括:
11、随机替换发音文本中的某个词,使之与发音内容不匹配;
12、在发音文本中随机加入或删除一些词,模拟漏音和加音现象;
13、改变发音文本中某些音素的音调,模拟音调错误;
14、随机调节音频文件中的基频,模拟发音变异;
15、随机调节音频中音素和词的长度,模拟不合理的发音节奏,汇总生成错误样本。
16、根据本发明提供的一种零资源口语评测方法,通过所述错误样本训练分类模型,具体包括:
17、将音素串中的每个音素独立拆开,每一个音素作为分类模型的一条训练数据;
18、分类模型的输入为音素所对应的发音特征,包括语音识别模型输出的后验概率向量以及后验概率之间的比值,输出为该音素是否被发音正确,每个音素训练一个单独的分类模型。
19、根据本发明提供的一种零资源口语评测方法,通过语言学知识构建一个偏误矩阵,将所述偏误矩阵引入分类模型中;
20、在对分类模型训练过程中,通过加入的偏误矩阵针对不同发音背景人群优化。
21、根据本发明提供的一种零资源口语评测方法,所述偏误矩阵的构造方法为:
22、通过语言学家的经验进行构造,确定将一个音发成另一个音的可能性大小;
23、或者从一个包含错误发音的数据集中进行统计,统计数据集中把一个音发成另一个音的可能性大小。
24、本发明还提供一种零资源口语评测系统,所述系统包括:
25、数据获取模块,用于获取训练数据,将所述训练数据中的语音转换为特征提取序列;
26、对齐模块,用于通过预设的语音识别模型将所述特征提取序列与训练数据中的音素串进行强制对齐;
27、错误样本生成模块,用于基于对齐结果,随机改变音素串中的某些音素,模拟错误发音,生成错误样本;
28、评测模块,用于通过所述错误样本训练分类模型,通过训练后的分类模型进行口语评测。
29、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述零资源口语评测方法。
30、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述零资源口语评测方法。
31、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述零资源口语评测方法。
32、本发明提供的一种零资源口语评测方法及系统,通过改变音素串内某些音素,模拟错误发音,构建错误样本,无需目标发音人群的语音数据,实现依成本快速零迁移;可集成语言学信息优化性能,可调节性高;并且分类器简单高效,可根据用户反馈在线学习,实现快速自适应。
1.一种零资源口语评测方法,其特征在于,包括:
2.根据权利要求1所述的零资源口语评测方法,其特征在于,所述获取训练数据,将所述训练数据中的语音转换为特征提取序列,具体包括:
3.根据权利要求1所述的零资源口语评测方法,其特征在于,所述随机改变音素串中的某些音素,模拟错误发音,生成错误样本,具体包括:
4.根据权利要求1所述的零资源口语评测方法,其特征在于,通过所述错误样本训练分类模型,具体包括:
5.根据权利要求1所述的零资源口语评测方法,其特征在于,还包括:
6.根据权利要求5所述的零资源口语评测方法,其特征在于,所述偏误矩阵的构造方法为:
7.一种零资源口语评测系统,其特征在于,所述系统包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述零资源口语评测方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述零资源口语评测方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述零资源口语评测方法。