本申请涉及智能辅助领域,且更为具体地,涉及一种用于发音训练的教学辅助系统及其方法。
背景技术:
1、发音准确和流利是有效的语言交流的关键。学生在练习发音和语言表达的时候,会导致发音错误,发音不够准确,从而影响口语的准确表达和与他人之间的交流。但由于现有的技术中对学生的发音很难准确地判断是否发音正确,进而进行正确的纠正,使他们能够清晰地表达,减少交流过程中的误解。
2、因此,期待一种优化的用于发音训练的教学辅助方案。
技术实现思路
1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于发音训练的教学辅助系统及其方法,其采用基于深度神经网络模型的人工智能技术,获取发音语音信号和发音语音信号的波形图,分别通过卷积神经网络模型进行特征提取,然后进行空间关联,以得到用于表示发音是否准确的分类结果。进而可以提供客观的反馈,帮助学生了解他们的发音问题,并针对性地进行训练和改进。
2、根据本申请的一个方面,提供了一种用于发音训练的教学辅助系统,其包括:
3、发音语音信号采集模块,用于获取发音语音信号和发音语音信号的波形图;
4、域变换模块,用于对所述发音语音信号进行傅里叶变换以得到多个频域特征值;
5、排列模块,用于将所述多个频域特征值排列为频域特征向量;
6、语音频域特征提取模块,用于将所述频域特征向量通过作为特征提取器的卷积神经网络模型以得到语音频域特征向量;
7、发音语音特征提取模块,用于将所述发音语音信号的波形图通过作为过滤器的卷积神经网络模型以得到发音语音特征向量;
8、空间关联模块,用于对语音频域特征向量和发音语音特征向量进行特征向量间的特征空间关联以得到分类特征向量;
9、分类结果模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示发音是否准确。
10、在上述用于发音训练的教学辅助系统中,所述语音频域特征提取模块,用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行:对所述输入数据进行基于一维卷积核的卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化处理以得到池化特征图;对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络模型的第一层的输入为所述频域特征向量,所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述语音频域特征向量。
11、在上述用于发音训练的教学辅助系统中,所述发音语音特征提取模块,用于:使用所述作为过滤器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:基于卷积核对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图的通道维度的各个特征矩阵进行全局均值池化以得到池化特征图;以及,对所述池化特征图中各个位置的特征值进行非线性激活以生成激活特征增图;其中,所述作为过滤器的卷积神经网络的最后一层的输出为所述发音语音特征向量,所述作为过滤器的卷积神经网络的第二层至最后一层的输入为上一层的输出,所述作为过滤器的卷积神经网络的第一层的输入为所述发音语音信号波形图。
12、在上述用于发音训练的教学辅助系统中,所述空间关联模块,包括:内积计算单元,用于计算所述语音频域特征向量和所述发音语音特征向量之间的内积;基底构造单元,用于响应于所述语音频域特征向量和所述发音语音特征向量之间的内积为零,将所述语音频域特征向量和所述发音语音特征向量作为分类特征向量的基底;施密特正交化单元,用于响应于所述语音频域特征向量和所述发音语音特征向量之间的内积不为零,对所述语音频域特征向量和所述发音语音特征向量进行施密特正交化以得到正交的第一单位特征向量和第二单位特征向量;以及,融合单元,用于以误差最小化来融合所述第一单位特征向量和所述第二单位特征向量以得到所述分类特征向量。
13、在上述用于发音训练的教学辅助系统中,所述分类结果模块,包括:全连接编码单元,用于使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类结果生成单元,用于将所述编码分类特征向量输入所述分类器的softmax分类函数以得到所述分类结果。
14、根据本申请的另一方面,提供了一种用于发音训练的教学辅助方法,其包括:
15、获取发音语音信号和发音语音信号的波形图;
16、对所述发音语音信号进行傅里叶变换以得到多个频域特征值;
17、将所述多个频域特征值排列为频域特征向量;
18、将所述频域特征向量通过作为特征提取器的卷积神经网络模型以得到语音频域特征向量;
19、将所述发音语音信号的波形图通过作为过滤器的卷积神经网络模型以得到发音语音特征向量;
20、对语音频域特征向量和发音语音特征向量进行特征向量间的特征空间关联以得到分类特征向量;
21、将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示发音是否准确。
22、与现有技术相比,本申请提供的一种用于发音训练的教学辅助系统及其方法,其采用基于深度神经网络模型的人工智能技术,获取发音语音信号和发音语音信号的波形图,分别通过卷积神经网络模型进行特征提取,然后进行空间关联,以得到用于表示发音是否准确的分类结果。进而可以提供客观的反馈,帮助学生了解他们的发音问题,并针对性地进行训练和改进。
1.一种用于发音训练的教学辅助系统,其特征在于,包括:
2.根据权利要求1所述的用于发音训练的教学辅助系统,其特征在于,所述语音频域特征提取模块,用于:
3.根据权利要求2所述的用于发音训练的教学辅助系统,其特征在于,所述发音语音特征提取模块,用于:
4.根据权利要求3所述的用于发音训练的教学辅助系统,其特征在于,所述空间关联模块,包括:
5.根据权利要求4所述的用于发音训练的教学辅助系统,其特征在于,所述分类结果模块,包括:
6.一种用于发音训练的教学辅助方法,其特征在于,包括:
7.根据权利要求6所述的用于发音训练的教学辅助方法,其特征在于,将所述频域特征向量通过作为特征提取器的卷积神经网络模型以得到语音频域特征向量,包括:
8.根据权利要求7所述的用于发音训练的教学辅助方法,其特征在于,将所述发音语音信号的波形图通过作为过滤器的卷积神经网络模型以得到发音语音特征向量,包括:
9.根据权利要求8所述的用于发音训练的教学辅助方法,其特征在于,对语音频域特征向量和发音语音特征向量进行特征向量间的特征空间关联以得到分类特征向量,包括:
10.根据权利要求9所述的用于发音训练的教学辅助方法,其特征在于,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示发音是否准确,包括: