本发明涉及语言训练,具体为基于人工智能的声音听觉语言训练方法及系统。
背景技术:
1、传统方法通常采用统一的训练方案,无法针对每个训练者的发音特点进行个性化调整,训练内容和难度往往是固定的,不能根据训练者的具体发音质量差异进行精细优化,因此可能无法满足不同训练者的需求;且传统方法多依赖人工评估或简化的算法进行发音质量的判断,缺乏充分的数据分析和自动化的诊断能力,训练者的发音问题可能未能得到及时、准确的发现和定位,导致问题可能被忽视或误诊,例如,无法深入分析发音的具体环节,忽略了潜在的生理或器质性发音障碍;并且传统训练方法通常缺乏持续的评估和实时反馈,训练进度和难度调整较为固定,当训练者在某一阶段取得进展时,不会自动提升训练难度,导致训练的进展可能陷入停滞,此外,训练方案的调整也缺乏针对性,难以实现真正的个性化训练;而且传统方法往往难以有效抑制环境噪声,导致数据的纯净性无法得到保障,外界噪声和其他干扰因素可能影响语音数据的质量,从而降低训练效果,传统方法对于噪声和混响的处理通常较为简单,未能达到优化训练数据的水平;以及传统方法无法通过自动化的方式分析发音中的关键节点,缺少发音异常分析和器质性障碍的检测,训练者可能无法及时得到精准的发音障碍诊断报告,也没有针对性的训练方案来纠正这些问题。
技术实现思路
1、为实现上述目的,本发明提供如下技术方案:基于人工智能的声音听觉语言训练方法,包括:
2、获取训练者的预设语言训练方案,基于所述预设训练方案控制语音采集设备进行预训练,并获取所述训练者在预训练过程中产生的实际语音数据;
3、确定所述训练者在训练过程中应达到的预设语音模型,根据所述实际语音数据与所述预设语音模型对所述训练者的发音质量进行评价,生成第一评价结果或第二评价结果;
4、若为第一评价结果,则表示所述训练者的发音符合预设标准,可进入下一阶段强化训练;
5、若为第二评价结果,则对所述训练者的发音环节进行关联度分析,定位引发发音质量不达标的关键发音节点;
6、对所述关键发音节点进行发音异常分析,若所述关键发音节点存在器质性发音障碍的后验概率大于预设概率阈值,则生成发音障碍诊断报告;
7、若所述关键发音节点存在器质性发音障碍的后验概率不大于预设概率阈值,则生成个性化训练调整方案,并将所述个性化训练调整方案发送至所述训练者的终端设备。
8、优选的,根据所述实际语音数据与所述预设语音模型对所述训练者的发音质量进行评价,生成第一评价结果或第二评价结果,包括:
9、将所述实际语音数据与所述预设语音模型映射至所述向量空间中,以得到语音特征向量空间;
10、根据所述语音特征向量空间提取所述实际语音数据的声纹特征参数和所述预设语音模型的基准特征参数,所述声纹特征参数包括基频、共振峰频率、语速和音强;
11、根据所述声纹特征参数和所述基准特征参数计算所述实际语音数据与所述预设语音模型在相同发音单元上的特征参数差异度;
12、其中,所述特征参数差异度通过动态时间规整算法计算发音时序偏移量和通过余弦相似度算法计算声纹特征相似度;
13、将所述特征差异度与预设差异阈值进行对比,若所述特征差异度小于所述预设差异阈值,则生成第一评价结果;若所述特征差异度不小于所述预设差异阈值,则生成第二评价结果。
14、优选的,若为第二评价结果,则对所述训练者的发音环节进行关联度分析,定位引发发音质量不达标的关键发音节点,包括:
15、若为第二评价结果,则提取所述实际语音数据中特征差异度超过预设差异阈值的发音单元,将所述发音单元标记为异常发音片段;
16、获取所述训练者在发音过程中的生理参数,所述生理参数包括舌位坐标、唇部开合度和气流压力。
17、优选的,若为第二评价结果,则对所述训练者的发音环节进行关联度分析,定位引发发音质量不达标的关键发音节点,还包括:
18、将所述异常发音片段与生理参数进行时序对齐,分析异常发音片段对应的生理参数异常值;
19、构建发音器官运动模型,将所述生理参数异常值输入所述发音器官运动模型中,确定各发音器官运动轨迹与标准轨迹的偏离度;
20、将所述偏离度大于预设偏离阈值的发音器官运动节点标记为引发发音质量不达标的关键发音节点。
21、优选的,对所述关键发音节点进行发音异常分析,若所述关键发音节点存在器质性发音障碍的后验概率大于预设概率阈值,则生成发音障碍诊断报告,包括:
22、获取所述训练者的历史发音数据;提取所述历史发音数据中的异常发音模式特征;其中,所述异常发音模式特征包括偏离度和特征差异度;
23、构建基于神经网络的发音障碍诊断模型,所述发音障碍诊断模型的输入参数包括异常发音模式特征;
24、将所述关键发音节点对应的异常发音模式特征输入所述发音障碍诊断模型,输出关键发音节点存在器质性发音障碍的后验概率;
25、若所述后验概率大于预设概率阈值,则生成发音障碍诊断报告;其中,所述发音障碍诊断报告包括关键发音节点所对应的发音器官。
26、优选的,若所述关键发音节点存在器质性发音障碍的后验概率不大于预设概率阈值,则生成个性化训练调整方案,并将所述个性化训练调整方案发送至所述训练者的终端设备,包括:
27、构建包括发音纠正案例库和训练参数优化规则的知识库,所述案例库包括不同发音缺陷类型对应的纠正策略;
28、提取关键发音节点的声纹特征异常模式特征,根据所述声纹特征异常模式特征生成特征编码标签;
29、基于所述特征编码标签在所述知识库中检索匹配的纠正策略和训练参数调整规则。
30、优选的,若所述关键发音节点存在器质性发音障碍的后验概率不大于预设概率阈值,则生成个性化训练调整方案,并将所述个性化训练调整方案发送至所述训练者的终端设备,还包括:
31、根据所述纠正策略和所述训练参数调整规则生成包括发音动作指导、重复次数和训练时长建议的个性化训练调整方案;
32、将所述个性化训练调整方案通过移动终端应用推送至所述训练者,并同步更新至语音训练设备的控制模块。
33、优选的,基于所述预设训练方案控制语音采集设备进行预训练,并获取所述训练者在预训练过程中产生的实际语音数据,包括:
34、通过语音采集设备采集训练者在预训练过程中的原始语音信号,对所述原始语音信号进行预加重、分帧及加窗处理;
35、采用深度学习降噪模型对处理后的原始语音信号进行背景噪声抑制和混响消除,以得到纯净语音信号;
36、对所述纯净语音信号进行端点检测和语音活动检测,分割出有效发音片段;
37、将所述有效发音片段存储为结构化语音数据文件,通过语音可视化工具生成实际语音数据的语谱图和声纹波形图。
38、优选的,所述方法,还包括:
39、基于所述个性化训练调整方案控制语音训练设备执行动态训练模式;
40、当连续三次出现所述第一评价结果,则触发训练阶段晋升机制,进入更高难度的训练模块。
41、基于人工智能的声音听觉语言训练系统,其适用于上述的基于人工智能的声音听觉语言训练方法,包括:
42、语音采集单元,所述语音采集单元用于获取训练者的预设语言训练方案,基于所述预设训练方案控制语音采集设备进行预训练,并获取所述训练者在预训练过程中产生的实际语音数据;
43、发音评价单元,所述发音评价单元用于确定所述训练者在训练过程中应达到的预设语音模型,根据所述实际语音数据与所述预设语音模型对所述训练者的发音质量进行评价,生成第一评价结果或第二评价结果;
44、强化训练单元,所述强化训练单元用于若为第一评价结果,则表示所述训练者的发音符合预设标准,可进入下一阶段强化训练;
45、发音定位单元,所述发音定位单元用于若为第二评价结果,则对所述训练者的发音环节进行关联度分析,定位引发发音质量不达标的关键发音节点;
46、障碍诊断单元,所述障碍诊断单元用于对所述关键发音节点进行发音异常分析,若所述关键发音节点存在器质性发音障碍的后验概率大于预设概率阈值,则生成发音障碍诊断报告;
47、训练调整单元,所述训练调整单元用于若所述关键发音节点存在器质性发音障碍的后验概率不大于预设概率阈值,则生成个性化训练调整方案,并将所述个性化训练调整方案发送至所述训练者的终端设备。
48、与现有技术相比,本发明的有益效果是:
49、(1)本发明通过获取训练者的实际语音数据与预设语音模型的对比分析,能够为每个训练者生成个性化的训练调整方案,此方案不仅考虑到每个训练者的发音特点,还能够根据其发音质量的差异进行精准的优化,增强了训练的针对性;且如果在发音质量评估中发现异常,可以进一步进行发音异常分析,定位到具体的关键发音节点,并根据生理参数分析可能存在的发音障碍,通过神经网络模型的辅助,可以自动诊断是否存在器质性发音障碍,为训练者提供专业的发音障碍诊断报告;
50、(2)本发明通过结合了语音采集、噪声抑制、动态时间规整和余弦相似度等技术,使得语音数据的处理更为精确,能够较好地避免环境噪声和其他干扰因素,确保训练过程中数据的纯净性,进而提升训练质量;且如果训练者在某一阶段达到预设标准,则可进入更高难度的训练模块,逐步提升其发音能力,而对于发音不合格的情况,可以通过发音环节的关联度分析和发音器官运动模型,精确地找到问题所在,并实施针对性的训练;
51、(3)本发明通过持续的评估与反馈,能够根据训练者的进展动态调整训练方案,例如,若训练者在某一阶段表现优异,会自动提升训练难度,确保训练不至于停滞不前;且通过移动终端应用,个性化训练方案可即时推送到训练者的设备中,极大提高了训练的便捷性与实时性,同时增强了训练者的参与感和成就感。