本申请涉及语音处理,尤其涉及一种脑卒中后构音障碍分类模型训练方法、分类方法及装置。
背景技术:
1、脑卒中后构音障碍是一种常见的中风后遗症,该后遗症不仅影响患者的生活质量,甚至还会危及到患者的生命。而传统上对于构音障碍的诊断主要是通过一系列流程来诊断,包括患者访谈、喉镜、内窥镜等仪器侵入性外科检查,声学分析,医生的主观语音评估等,这些方法耗时长、操作繁琐。近年来,随着机器学习算法的发展,图像、语音等分类算法的性能越来越优越。因此,可以探索借助这些算法协助医生进行构音障碍等病态言语的识别,这种方法可以实现无创、经济、无偏见的检测,并能快速评估言语病理。
2、语音信号包含了许多信息,直接对其分类的效率、准确率都不高。因此可以先对语音信号做预处理,从中提取对语音分类系统有用的语音特征,然后可以再通过使用机器学习的算法进行语音信号的处理分类。但是现有技术通常提取语音数据的一种特征进行语音分类,而对单一的语音特征进行分类的准确性不高。
技术实现思路
1、本申请提供了一种脑卒中后构音障碍分类模型训练方法、分类方法及装置,用于改善现有技术采用单一的语音特征进行脑卒中后构音障碍语音分类,存在分类准确性不高的技术问题。
2、有鉴于此,本申请第一方面提供了一种脑卒中后构音障碍分类模型训练方法,包括:
3、获取多个脑卒中后构音障碍患者用户和正常用户的语音数据;
4、从各所述语音数据中提取频域特征和时域特征;
5、对各所述语音数据的频域特征和时域特征进行特征融合,得到各所述语音数据的时频融合特征;
6、以各所述语音数据的时频融合特征为输入,以各所述语音数据对应的用户类别为输出训练目标网络,得到脑卒中后构音障碍分类模型。
7、优选的,所述频域特征包括梅尔倒频谱系数,所述时域特征包括短时傅里叶变换系数和自相关系数。
8、优选的,所述对各所述语音数据的频域特征和时域特征进行特征融合,得到各所述语音数据的时频融合特征,包括:
9、对各所述语音数据的梅尔倒频谱系数以及短时傅里叶变换系数中的每一行特征分别进行求平均运算并对平均运算结果取绝对值,得到各所述语音数据一维梅尔倒频谱系数以及一维短时傅里叶变换系数;
10、对各所述语音数据的一维梅尔倒频谱系数、一维短时傅里叶变换系数以及自相关系数进行特征拼接,得到各所述语音数据的时频融合特征。
11、优选的,所述方法还包括:
12、构建目标网络,具体包括:
13、将二维的残差网络修改为一维的残差网络;
14、增加所述一维的残差网络的卷积核大小,在所述一维的残差网络增加扩张卷积层;
15、删除所述一维的残差网络的输入层中的池化层,在输出层中添加双向的长短期记忆网络。
16、优选的,所述以各所述语音数据的时频融合特征为输入,以各所述语音数据对应的用户类别为输出训练目标网络,得到脑卒中后构音障碍分类模型,包括:
17、将各所述语音数据的时频融合特征输入到目标网络中进行特征提取和类别预测,输出各所述语音数据的预测类别;
18、根据各所述语音数据的预测类别和实际的用户类别计算损失值,通过所述损失值更新所述目标网络的网络参数,直至所述目标网络收敛,得到训练好的目标网络;
19、通过获取测试语音数据对所述训练好的目标网络进行测试,若测试结果满足预置要求,则将所述训练好的目标网络作为脑卒中后构音障碍分类模型。
20、本申请第二方面提供了一种脑卒中后构音障碍分类方法,包括:
21、获取用户的语音数据;
22、从所述语音数据中提取频域特征和时域特征;
23、对所述语音数据的频域特征和时域特征进行特征融合,得到时频融合特征;
24、将所述时频融合特征输入到脑卒中后构音障碍分类模型中进行特征提取和分类,以确定所述用户是否为脑卒中后构音障碍患者;其中,所述脑卒中后构音障碍分类模型通过第一方面任一种所述的脑卒中后构音障碍分类模型训练方法训练得到。
25、本申请第三方面提供了一种脑卒中后构音障碍分类模型训练装置,包括:
26、数据获取单元,用于获取多个脑卒中后构音障碍患者用户和正常用户的语音数据;
27、特征提取单元,用于从各所述语音数据中提取频域特征和时域特征;
28、特征融合单元,用于对各所述语音数据的频域特征和时域特征进行特征融合,得到各所述语音数据的时频融合特征;
29、训练单元,用于以各所述语音数据的时频融合特征为输入,以各所述语音数据对应的用户类别为输出训练目标网络,得到脑卒中后构音障碍分类模型。
30、本申请第四方面提供了一种脑卒中后构音障碍分类装置,包括:
31、数据获取单元,用于获取用户的语音数据;
32、特征提取单元,用于从所述语音数据中提取频域特征和时域特征;
33、特征融合单元,用于对所述语音数据的频域特征和时域特征进行特征融合,得到时频融合特征;
34、分类单元,用于将所述时频融合特征输入到脑卒中后构音障碍分类模型中进行特征提取和分类,以确定所述用户是否为脑卒中后构音障碍患者;其中,所述脑卒中后构音障碍分类模型通过第一方面任一种所述的脑卒中后构音障碍分类模型训练方法训练得到。
35、本申请第五方面提供了一种电子设备,所述设备包括处理器以及存储器;
36、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
37、所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的脑卒中后构音障碍分类模型训练方法,或执行第二方面所述的脑卒中后构音障碍分类方法。
38、本申请第六方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现第一方面任一种所述的脑卒中后构音障碍分类模型训练方法,或实现第二方面所述的脑卒中后构音障碍分类方法。
39、从以上技术方案可以看出,本申请具有以下优点:
40、本申请提取语音数据的频域特征和时域特征,然后对其进行特征融合,通过对融合特征做进一步的处理和分类,实现了提取多种类型的语音特征进行语音分类,有助于提高脑卒中后构音障碍语音分类的准确性,从而改善了采用单一的语音特征进行脑卒中后构音障碍语音分类,存在分类准确性不高的技术问题。
1.一种脑卒中后构音障碍分类模型训练方法,其特征在于,包括:
2.根据权利要求1所述的脑卒中后构音障碍分类模型训练方法,其特征在于,所述频域特征包括梅尔倒频谱系数,所述时域特征包括短时傅里叶变换系数和自相关系数。
3.根据权利要求2所述的脑卒中后构音障碍分类模型训练方法,其特征在于,所述对各所述语音数据的频域特征和时域特征进行特征融合,得到各所述语音数据的时频融合特征,包括:
4.根据权利要求1所述的脑卒中后构音障碍分类模型训练方法,其特征在于,所述方法还包括:
5.根据权利要求1-4任一项所述的脑卒中后构音障碍分类模型训练方法,其特征在于,所述以各所述语音数据的时频融合特征为输入,以各所述语音数据对应的用户类别为输出训练目标网络,得到脑卒中后构音障碍分类模型,包括:
6.一种脑卒中后构音障碍分类方法,其特征在于,包括:
7.一种脑卒中后构音障碍分类模型训练装置,其特征在于,包括:
8.一种脑卒中后构音障碍分类装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现权利要求1-5任一项所述的脑卒中后构音障碍分类模型训练方法,或实现权利要求6所述的脑卒中后构音障碍分类方法。