本发明涉及信息识别,特别涉及一种基于语音情绪检测的疼痛识别系统。
背景技术:
1、疼痛是人体对不良刺激的生理和心理反应,疼痛评估在医疗诊断和治疗中具有重要作用,尤其对于一些无法直接表达疼痛的患者(如婴幼儿、老年人、重症患者等)。传统的评估方法主要依赖患者的主观描述(如视觉模拟量表、nrs评分等)和医务人员的观察,但这种方法主观性强,依赖患者的认知和语言表达能力,无法实时、客观地量化疼痛程度。近几年,出现一种采用生物信号(如心电、脑电、肌电等)的疼痛检测方法逐渐兴起,但这类方法需要额外的可穿戴设备配合才可以识别到疼痛信息,如此不但使用成本高,而且操作也很复杂。
技术实现思路
1、鉴于上述问题,本发明的目的在于提供一种具有非接触性、低成本和实时性的优势,及疼痛评估的效率和准确性高的基于语音情绪检测的疼痛识别系统。
2、为实现上述目的,本发明提供的一种基于语音情绪检测的疼痛识别系统,其中,该系统包括从患者处获取原始语音信号的语音采集模块、与语音采集模块连接且对语音信号进行了预处理操作的语音预处理模块、与语音预处理模块连接且对语音信号中情绪类型和强度进行精确识别的语音情绪分类模块,及与语音情绪分类模块连接且对情绪分类判定后进行疼痛评分的疼痛识别模块。
3、在一些实施方式中,语音预处理模块包括的处理方法如下:
4、(1)语音去噪:由于语音信号采集完成后,语音信号会受到环境噪声的影响,预处理模块使用频谱减法去噪技术来减少背景噪声;
5、(2)分帧与加窗:为了更好地分析语音信号的局部特征,信号被切分为多个短时帧,之后对每帧应用窗函数hamming窗减少频谱泄漏,增强特征提取的精度;
6、(3)情绪特征提取:语音中承载着丰富的情绪信息,包括音高、音强、语速、语调。
7、在一些实施方式中,使用频谱减法去噪技术实现方式为:
8、首先,系统获取信号中的噪声频谱;
9、然后,通过以下公式去除噪声部分:
10、sclean(f)=snoisy(f)-α·n(f)
11、其中,sclean(f)是去噪后的信号,snoisy(f)是原始的带噪音的语音信号,n(f)是噪声的频谱,α是控制噪声抑制强度的系数。
12、在一些实施方式中,短时傅里叶变换的公式如下:
13、
14、其中,x(t,f)是时刻t和频率f下的短时傅里叶变换结果,x[n]是语音信号的样本点,w[n-t]是加窗函数。
15、在一些实施方式中,情绪特征提取步骤:
16、(1)梅尔频率倒谱系数mfcc:该过程包括将语音信号转换到梅尔尺度上,计算其功率谱,并通过离散余弦变换获取倒谱系数;梅尔频率倒谱系数mfcc捕捉了人类听觉系统的非线性响应,适合于表达情感状态的变化;
17、
18、其中,xk是信号的频谱分量,k是频率带的数量,n是mfcc的维度;
19、(2)基频f0:基频反映了语音的音调,能够显著影响情绪的表达,特别是疼痛相关的情绪波动;
20、
21、其中,t为时间窗口的大小,fundamental_frequency(t)是在时刻t处的基频值;
22、(3)能量特征:语音的能量强度反映了发音者的情绪激烈程度,疼痛引起的情绪变化通常伴随语音能量的变化;因此,通过计算每个短时帧的能量值,可以进一步揭示发音者的情绪状态;能量特征的计算可以通过对每个帧内所有样本点的平方求和来完成,即:
23、
24、其中,x(t)是语音信号的时域波形,e是能量的大小。
25、在一些实施方式中,语音情绪分类模块为了精确识别情绪的类型及强度,尤其是情绪的连续性和疼痛的持久性选择了长短期记忆网络lstm作为主要的时间序列模型,结合注意力机制来解决情绪变化的时序性问题,最近的情绪波动对当前情绪判别结果有更大的影响;
26、长短期记忆网络lstm是由于情绪是一个动态变化的过程,情绪的波动往往与前一时刻的情绪状态紧密相关;长短期记忆网络lstm能够通过门控机制保持和更新时间序列中的长短期记忆,使得每个时刻的情绪状态不仅仅受到当前输入的影响,还能够受到历史情绪状态的反馈;
27、注意力机制是确保模块在处理时序数据时能够动态地为不同时间步赋予不同的重要性权重;所述的注意力机制的作用是根据每个时间步的情绪状态ht和一个查询向量q计算加权系数αt,该加权系数表示在当前时刻,哪一时刻的情绪变化对最终判别结果的贡献最大;这个查询向量q可以是一个由过去情绪状态总结出来的上下文向量,指示了当前情绪的演化趋势;
28、(1)计算注意力权重:对于每个时间步t,使用多层感知机打分函数,利用非线性映射能力,计算当前情绪状态ht和查询向量q的相似度;具体地,首先将时间步t的隐藏状态ht和查询向量q拼接成一个向量xt=[ht;q],然后通过多层感知机对该拼接向量进行非线性变换,计算打分值score(ht,q),其表达式为:
29、score(ht,q)=w1·σ(w0·xt+b0)+b1
30、其中,w1和w0是多层感知机中的权重矩阵,σ(·)是激活函数,b0和b1是偏置项,xt=[ht;q]是合并后的输入向量;
31、随后,将打分值转化为可用于注意力机制的权重,需要对所有时间步的打分值进行softmax归一化,从而得到每个时间步的注意力权重αt;
32、该过程如下所示:
33、
34、通过softmax归一化,所有时间步的权重αt会被调整到[0,1]范围内,并且权重和为1;这样,每个时间步的注意力权重αt就表示了在情绪判别过程中,当前时刻的情绪状态ht对最终判别结果的相对重要性;
35、(2)加权求和:接下来,基于计算得到的注意力权重αt,对所有时间步的lstm输出进行加权求和,得到加权后的情绪特征向量hfinal,该向量包含了根据情绪演化的重要性加权后的信息:
36、
37、这个加权后的情绪特征向量将作为情绪判别的最终输入。
38、所述的基于lstm网络和注意力机制输出的加权情绪特征向量,将该向量传入一个全连接层,对情绪进行分类;由于情绪分类只有正面和负面两类,因此该分类器的输出是一个概率值pnegative,表示当前情绪属于负面的概率。
39、在一些实施方式中,长短期记忆网络lstm设置为双向长短期记忆网络lstm,意味着长短期记忆网络lstm不仅能够理解过去的情绪演化,也能捕捉未来情绪的潜在信息;每个时间步的长短期记忆网络lstm输出ht表示当前时间步的情绪状态,这些状态将被传递到后续的注意力机制中,用来计算情绪的加权表示。
40、在一些实施方式中,疼痛识别模块如果将情绪分类判定为正向情绪,则直接输出0;在情绪分类阶段判定情绪为负面后,系统将进入疼痛评分预测阶段;此阶段结合情绪特征和语音信号中的其他动态特征,利用xgboost回归模型预测疼痛的强度:评分范围为1到10;疼痛评分预测的核心任务是将情绪的波动、语音中的生理特征以及动态变化融合起来,通过回归模型计算出疼痛评分;
41、(1)输入特征:
42、疼痛评分的回归模型基于以下特征进行训练和预测:负面情绪的概率pnegative,情绪特征向量hfinal,mfcc特征,f0,能量波动;
43、因此,最终的输入特征向量x变为:
44、x=[pnegative,hfinal,mfcc,f0,energy]
45、(2)xgboost回归模型
46、xgboost回归模型用于根据这些输入特征来预测疼痛的强度p,输出为预测值,范围:1到10。xgboost通过训练一系列决策树来拟合回归问题,模型将通过集成的方式提升预测性能。
47、xgboost的基本公式为:
48、
49、其中,f(x)为模型的预测疼痛评分,x是输入特征向量,θk是每棵树tk(x)的权重,tk(x)是第k个决策树的输出;
50、在xgboost中,每棵树tk(x)都是通过优化损失函数来学习的,损失函数l是均方误差;为了提高训练的稳定性和防止过拟合,xgboost采用了正则化项ω,控制模型的复杂度。
51、损失函数定义为:
52、
53、其中,yi是实际的疼痛评分值,f(xi)是通过xgboost模型预测的评分,λ是正则化参数避免过拟合;
54、(3)xgboost的训练
55、通过梯度提升的方式来训练模型;每一轮迭代,模型通过最小化损失函数来更新树的结构;
56、训练过程可以通过以下步骤进行描述:
57、a、初始化:从初始模型开始,初始化为零;
58、b、计算梯度:根据当前模型的预测误差,计算每个样本的梯度偏差;
59、这些梯度值反映了每个样本在当前模型下的误差程度:
60、
61、c、构建新树:通过计算梯度和二阶导数信息,构建一棵新的决策树,来校正当前模型的误差。
62、d、更新模型:每次迭代都会调整模型参数θk,通过逐步减小误差,最终得到一个能够预测疼痛评分的强大模型。
63、(4)输出疼痛评分
64、经过xgboost训练后,最终的回归模型将能够根据输入的情绪特征、负向情绪概率和音频特征预测出疼痛的强度评分p;该评分p是一个数值,越大表示疼痛越强烈。
65、在一些实施方式中,语音采集模块为采集环境音频信号的麦克风,所述的麦克风与智能手机、智能音箱或者耳戴式装置或者医疗设备连接。
66、本发明的有益效果是具有非接触性、低成本和实时性的优势,及疼痛评估的效率和准确性高的效果。由于语音信号作为自然、无接触的信号来源,包含丰富的情绪和生理信息。疼痛会显著影响人类的语音特征,如语速、音调、重音和颤抖。利用人工智能和情绪检测技术,自动识别语音中的疼痛信号,具有非接触性、低成本和实时性的优势,能够显著提高疼痛评估的效率和准确性。利用语音信号中的情绪特征,辅助判断患者的疼痛程度,特别适用于无法清晰表达疼痛的患者。也就是利用如下方法(1)基于语音情绪分析的疼痛评分预测方法:使用语音情绪分析和音频特征(mfcc、f0、能量波动)输入,通过xgboost回归模型预测疼痛评分。(2)多特征融合的疼痛评估模型:融合情绪特征和音频特征(mfcc、f0等)进行疼痛评分回归预测,提升预测精度。(3)无创实时疼痛评估:利用语音信号进行情绪分析和疼痛评分预测,实现实时、无创的疼痛评估。因此,在动态情绪-疼痛关系建模利用lstm和注意力机制,能够动态捕捉情绪的时序变化,特别是近期情绪波动对疼痛的影响,从而提升了疼痛评分的响应能力和准确性。实现了具有非接触性、低成本和实时性的优势,及疼痛评估的效率和准确性高的效果。