本发明涉及语音识别,特别是一种基于ai语音识别的韩语发音教学辅助系统。
背景技术:
1、随着全球化进程的不断推进,韩语作为一门重要的外语,越来越受到学习者的关注和重视;传统的韩语学习方法通常依赖于教师的指导和课堂教学,然而,韩语的发音规则复杂且富有变化,发音的准确性和流利度是学习过程中最具挑战性的部分;传统韩语发音教学辅助系统存在以下不足之处:首先,传统的韩语发音教学辅助系统通常依赖于预录音频反馈来评估学习者的发音;这类系统的最大问题在于无法提供实时的反馈,且对于发音的细节分析不足,缺乏动态交互和及时反馈的教学模式,往往使学习者在发音纠正过程中感到困难,进而影响学习效果;其次,传统系统无法深入识别音节之间的微小差异,尤其在复杂的韩语发音结构中,系统对于高阶音节的判定往往会产生误差,导致评分结果不够精准,进而影响学习者的发音改进;因此,亟需一种新的韩语发音教学辅助系统,能够克服传统系统的不足,通过更精细的发音特征分析和更高效的实时反馈机制,提高发音评分的准确性,并有效支持学习者在发音技巧上的提升。
技术实现思路
1、本发明提供了一种基于ai语音识别的韩语发音教学辅助系统,旨在解决传统韩语发音教学中存在的发音反馈不及时、分析不精准的问题,通过引入先进的语音识别与深度学习技术,实现实时、精准的发音评分和详细的发音分析,进而提升韩语学习者的发音准确性和流利度;系统采用增强型xlsr模型进行发音特征的提取,通过引入mel滤波器组和扩散过程,优化音频信号的特征数据,捕捉学习者发音中的关键频率特征和时序信息,生成有效的线性投影数据;结合双向mamba多阶时序模型,系统对提取的特征进行深入分析,评估学习者的音节、音调和节奏发音特征,生成发音评分,和详细的发音分析报告,从而为学习者制定个性化的学习路径和改进建议,能够显著提升韩语学习者的发音水平和学习效果。
2、本发明提供了一种基于ai语音识别的韩语发音教学辅助系统,该系统包括音频输入与预处理模块、特征提取模块、发音评分与分析模块和反馈模块;
3、音频输入与预处理模块,通过麦克风实时监听并捕捉学生输入的韩语音频信号,得到原始韩语音频信号,对原始韩语音频信号进行噪声抑制、信号增强和去除无关背景噪音,以确保音频质量,得到预处理韩语音频信号;
4、特征提取模块,建立xlsr模型,引入mel滤波器和扩散过程与逆扩散过程改进xlsr模型,构建增强型xlsr模型,通过增强型xlsr模型处理预处理韩语音频信号,生成线性投影特征数据;
5、发音评分与分析模块,结合自注意力机制、高阶非线性特征变换和状态空间建模,构建双向mamba多阶时序模型;通过双向mamba多阶时序模型处理线性投影特征数据,生成k-pronscore特征数据;根据k-pronscore特征数据,对学生的韩语发音进行评分,并分析发音的音节、音调和节奏,生成评分结果和分析报告;双向mamba多阶时序模型包括正向mamba层、反向mamba层和线性层;
6、反馈模块,根据评分结果和分析报告,制定个性化的学习路径和建议。
7、进一步的,特征提取模块,生成线性投影特征数据的过程,具体包括以下步骤:
8、步骤s1:对预处理韩语音频信号进行短时傅里叶变换,将时域信号转换为频域表示;通过将预处理韩语音频信号分割成若干个小的时间窗口,计算每个时间窗口的频谱,以捕捉音频信号的频率特征,生成频率特征图;
9、步骤s2:通过mel滤波器组处理频率特征图,将频率特征图转换为mel频率尺度,模拟人类听觉系统的感知特性;该转换增强频率特征图中低频区域的频率分辨率,并对频率特征图的高频区域进行降采样,得到mel频谱;
10、步骤s3:对mel频谱执行离散余弦变换,压缩mel频谱的冗余信息,并提取mel频谱倒谱系数,生成mfcc特征数据;引入扩散过程,通过添加噪声对mfcc特征数据进行扰动,生成扰动mfcc特征数据,再通过逆扩散过程恢复扰动mfcc特征数据,去除无关噪声信息,生成优化mfcc特征数据,所用公式如下:
11、;
12、其中,表示mfcc维度索引,表示mel频谱索引,表示mel频谱的总维度,表示第维的mel频率倒谱系数;表示第个mel频带的能量,表示取对数后的mel频谱值,表示余弦变换项;
13、;
14、其中,表示时间步索引,表示在时间步下的扰动后mfcc特征数据,表示之前时间步下的mfcc特征数据,表示扩散噪声参数,表示归一化系数,表示标准高斯噪声,表示服从均值0和单位协方差矩阵的多元高斯分布;
15、;
16、其中,表示可训练参数,表示在参数下,给定扰动后的估计原始的概率分布;表示均值,表示方差,表示预测mfcc服从的高斯分布;
17、步骤s4:通过xlsr模型对优化mfcc特征数据进行进一步处理,生成丰富音频特征表示;
18、步骤s5:将丰富音频特征表示进行线性投影,标准化丰富音频特征表示,得到线性投影特征数据。
19、进一步的,步骤s4,具体包括以下步骤:
20、步骤s41:通过卷积神经网络对优化mfcc特征数据进行初步特征提取,生成卷积mfcc特征数据;
21、步骤s42:采用transformer编码器对卷积mfcc特征数据进行更深层次的时序依赖建模,捕捉全局上下文信息,生成丰富音频特征表示。
22、进一步的,发音评分与分析模块,生成k-pronscore特征数据的过程,具体包括以下步骤:
23、步骤c1:前向特征处理:通过正向mamba层对线性投影特征数据按照时间顺序进行逐层处理,分析前向特征,捕捉前向时间依赖关系,生成正向mamba特征数据;
24、步骤c2:后向特征处理:将线性投影特征数据进行倒序排列,得到倒序线性投影特征数据,通过反向mamba层处理倒序线性投影特征数据,分析后向特征,捕捉后向时间依赖关系,增强全局上下文的理解,生成反向mamba特征数据;
25、步骤c3:特征拼接:将正向mamba特征数据和反向mamba特征数据进行拼接,生成拼接mamba特征数据;
26、步骤c4:将拼接mamba特征数据输入到线性层,通过线性变换进一步处理,得到k-pronscore特征数据。
27、进一步的,步骤c1,具体包括以下步骤:
28、步骤c11:局部特征提取:将线性投影特征数据通过一维卷积进行处理,提取局部时间特征,生成正向卷积特征数据;
29、步骤c12:捕捉全局信息:将正向卷积特征数据通过自注意力机制捕捉全局上下文信息,生成注意力特征数据;
30、步骤c13:将注意力特征数据进行非线性激活,生成非线性特征数据,引入高阶多项式特征变换,捕捉非线性特征数据的复杂时序关系;引入交叉项对非线性特征数据进行幂次组合,捕捉非线性特征数据之间的非线性交互作用,生成优化非线性特征数据,所用公式如下:
31、;
32、其中,表示幂次,表示多项式变换的最大阶数,即最大幂次;表示交叉项特征数据,表示交叉项的权重矩阵,表示注意力特征数据,表示对进行次幂变换,表示对进行次幂变换;
33、;
34、其中,表示优化非线性特征数据,表示激活函数的参数,表示可学习的激活函数,表示偏置项,表示的权重;表示多项式变换权重,表示多项式特征变换;
35、步骤c14:建模长时序依赖:建立状态空间模型,将优化非线性特征数据传递到状态空间模型,更新当前状态并捕捉长时序依赖,生成正向状态空间特征数据;
36、步骤c15:特征融合:通过残差连接将正向状态空间特征数据与优化非线性特征数据融合,生成正向mamba特征数据。
37、进一步的,步骤c2,具体包括以下步骤:
38、步骤c21:将倒序线性投影特征数据通过一维卷积进行处理,提取局部时间特征,生成反向卷积特征数据;
39、步骤c22:将反向卷积特征数据传递到状态空间模型,更新当前状态并捕捉长时序依赖,生成反向状态空间特征数据,作为反向mamba特征数据。
40、采用上述方案,本发明取得的有益效果如下:
41、本发明提供了一种基于ai语音识别的韩语发音教学辅助系统,通过引入增强型xlsr模型,并结合mel滤波器和扩散过程与逆扩散过程,有效优化了韩语发音特征的提取过程;mel滤波器组模拟了人类听觉系统的感知特性,能够更精确地捕捉到学习者发音中的频率特征,尤其是在低频和高频区域的分辨率处理上,提升了系统对于复杂音频信号的适应性;同时,扩散过程和逆扩散过程的引入,通过扰动特征数据并再恢复,去除了噪声和无关背景信息,使得特征数据更加干净和准确;这一技术显著提高了系统对学习者发音特征的捕捉能力,为后续发音评分和分析提供了更加可靠的输入数据,最终提升了发音评分的准确性和系统对学习者发音质量的敏感度;
42、此外,本发明在发音评分与分析模块中引入了自注意力机制、高阶非线性特征变换和状态空间建模,有效解决了传统发音评分系统无法精准捕捉发音细节、分析不充分的问题;自注意力机制能够加强对音频中重要信息的关注,捕捉全局上下文信息,使得系统能够全面理解学习者的发音特征;高阶非线性特征变换通过引入高阶多项式特征变换,捕捉了发音数据中的复杂时序关系,提升了系统对复杂发音模式的适应能力;同时,交叉项的引入增强了系统在特征间的非线性交互作用,进一步提高了模型对发音特征的细致分析和评分能力;
43、通过上述技术手段的结合,系统能够实时捕捉学习者发音中的细节变化,并根据评分结果及时调整学习路径,帮助学习者更加高效地纠正发音错误;通过上述技术方案不仅优化了发音教学过程,还显著提升了学习者的学习效果,使其在短时间内实现更高效的发音提升。