可解释性的语音心理危机识别方法、介质和设备

文档序号：41538648发布日期：2025-04-07 23:14阅读：60来源：国知局

本发明涉及心理危机干预，更具体地说，涉及一种可解释性的语音心理危机识别方法、介质和设备。

背景技术：

1、现有的语音识别和分析方法主要有：1）语音心理危机识别：语音心理危机识别技术通过分析语音信号来识别个体的心理状态，尤其是那些可能处于心理危机中的个体。这项技术在心理咨询、医疗健康监测、智能客服、驾驶安全监控等领域具有广泛的应用前景。随着深度学习技术的发展，情感语音识别技术得到了快速发展，基于卷积神经网络（cnn）、循环神经网络（rnn）和长短期记忆网络（lstm）等深度学习模型的语音识别技术已经取得了显著的成果。然而，情感语音识别技术在实际应用中仍面临着许多挑战。人的情感表达受到多种因素的影响，如文化背景、个人经历、语言习惯等，这使得准确识别和理解人的情感状态变得非常困难。此外，噪声干扰和环境变化、数据隐私和安全、跨语言和跨文化的研究、实时性等问题也是该领域需要解决的关键问题。为了解决这些挑战，未来的研究可能会更加关注以下几个方向：结合深度学习技术，利用更复杂的神经网络结构来提取语音特征，提高情感识别的准确性；多模态情感识别，结合面部表情、身体语言等多种模态的信息进行情感识别；强化隐私保护和数据安全，确保用户隐私和数据安全；跨语言和跨文化的研究，提高情感语音识别的泛化能力；以及提高情感语音识别的实时性和鲁棒性。目前，为了解决标注数据缺乏的问题，研究者们已经提出了多种方法，包括半监督学习和跨模态知识迁移。半监督学习通过结合少量标注数据和大量未标注数据来提高学习效果，而跨模态知识迁移则利用一个模态的标注信息来增强另一个模态的学习效果。这些方法在一定程度上缓解了数据缺乏的问题，为情感语音识别技术的发展提供了新的可能性。2）可解释性算法研究：可解释性算法研究是人工智能领域中一个日益重要的研究方向。随着机器学习模型，尤其是深度学习模型在各个行业的广泛应用，人们越来越关注模型的可解释性，即模型的决策过程和结果能够被人类理解和信任。这一需求在医疗、金融、司法等高风险领域尤为重要，因为这些领域的决策往往伴随着重大的社会影响和法律责任。可解释性算法的研究旨在开发和改进算法，使模型的内部工作机制更加透明，从而提高模型的可信度和用户的接受度。研究方法主要分为三类：基于数据的可解释性、基于模型的可解释性和基于结果的可解释性。基于数据的方法通过分析输入数据与模型输出的关系来提供解释；基于模型的方法致力于改进模型结构，使其天生具有解释性；而基于结果的方法则是在模型做出决策后，通过外部分析来解释模型的行为。目前，可解释性算法研究面临的挑战包括算法成熟度、算力成本和数据稀疏性。算法成熟度方面，尽管已有一些可解释性算法被提出，但它们在实际应用中的稳定性和准确性仍需进一步提升。算力成本方面，一些算法如lime和shap在处理大规模数据时需要巨大的计算资源。数据稀疏性方面，为了训练出具有可解释性的模型，通常需要大量的标注数据，这在实际应用中可能难以获得。未来的研究趋势可能会集中在提高算法的可解释性与性能之间的平衡、降低算法的计算成本、以及开发新的数据高效学习方法。此外，随着人工智能伦理和法律要求的提高，可解释性算法的研究也将更多地关注模型的公平性和隐私保护。在实际应用中，可解释性算法能够帮助非技术背景的用户理解模型的决策逻辑，从而提高模型的透明度和用户的信任度。例如，在医疗诊断中，可解释的ai模型能够向医生解释其诊断依据，帮助医生做出更准确的判断。在金融领域，可解释的模型能够向用户清晰展示信用评估的依据，增强用户对服务的信任。3）语言行为特征识别算法：语言是一种复杂的自然习得的人类运动能力。成人的特点是通过大约100块肌肉的协调运动，每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号，识别语音信号中出现的说话人，然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此，可接受的分类是从优良和优质的特征中衍生出来的。语音识别技术的过程包括语音信号的预处理、特征提取、模式匹配和判决三个方面。首先由系统接收语音输入，经过信号的预处理和特征提取，得到目标信息的语音数据形成语音信息模式库，再进行输入的语音信号和模式库的模式匹配得到两者信息匹配的结果。一是mel倒频谱系数(mel-frequency cepstral coefficients，mfcc)提取算法，mel频率是基于人耳听觉特性提出来的,它与hz频率成非线性对应关系。mfcc则是利用它们之间的这种关系,计算得到的hz频谱特征。mfcc最初被建议用于识别连续口语句子中的单音节词，但不用于说话人识别。mfcc计算是对人耳听觉系统的一种复制，它假设人耳是一个可靠的说话人识别器，以人为地实现人耳的工作原理。mfcc特征来源于人耳临界带宽的差异，低频线性间隔的频率滤波器和高频对数间隔的频率滤波器被用来保留语音信号的语音重要特性。语音信号通常包含不同频率的音调，每个音调都有一个实际的频率，f (hz)，主观音高在梅尔等级上计算。梅尔频率标度在1000hz以下为线性频率间隔，在1000hz以上为对数频率间隔。1 khz音高，高于感知可听阈值40 db，定义为1000 mels，作为参考点。mfcc是在滤波器组的帮助下实现信号分解的。mfcc给出了在mel频标上显示的短期能量的实对数的离散余弦变换(dct)。mfcc用于识别机票预订、电话号码和语音识别系统的安全性。为了获得更好的鲁棒性，有人对基本的mfcc算法进行了一些修改，比如在应用dct0之前将log- mel振幅提升到适当的功率(大约2或3)，并减少低能部分的影响。二是隐马尔可夫模型hmm，隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。例如我们可能得到这么一串数字（掷骰子10次）：1、6、3、5、2、7、3、5、2、4，这串数字叫做可见状态链。但是在隐马尔可夫模型中，我们不仅仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：d6、d8、d8、d6、d4、d8、d6、d6、d4、d8。三是线性预测倒谱系数(linear predictioncepstral coefficients，lpcc)，lpcc是由线性预测系数(linear predictioncoefficients，lpc)计算的频谱包络得到的倒谱系数，是lpc对数幅度谱的傅里叶变换的系数。倒谱分析是语音处理领域中常用的一种分析方法，因为它能够以有限的特征来完美地表征语音波形和特征。

2、公开号为cn114121193a的《一种心理危机干预系统及方法》提供一种心理危机干预系统及方法，通过设置自评模块、他评模块、危机上报模块、再评模块、危机审批模块、干预模块和状态监控模块，通过自评和他评，综合得到被评估者的心理危机综合情况，从而在判断存在心理危机时进行上报，进一步通过再评模块对被评估者的心理危机状态进行确认，通过危机审批模块进行审批，得出审批结果，根据预先设定的干预模型，根据危机审批结果生成干预结论，对被评估者的心理健康状况进行辅导或诊疗，帮助其恢复心理健康，减少因心理危机问题而带来的伤人和自伤风险，还通过设置状态监控模块，对被评估者的干预流程进行监控记录，从而针对干预情况进一步对干预流程进行调整，提高干预效果。

3、公开号为cn110993061a的《一种心理危机识别与干预方法及系统》公开了一种心理危机识别与干预方法及系统，通过建立具有5个心理危机因素维度的心理危机评估模型，并根据心理危机因素分值表对被评估者在5个心理危机因素进行分别评分，可以了解被评估者在个心理危机因素的健康程度，通过根据各心理危机因素权重，对被评估者的心理危机状况进行加权评分，可以得出反映被评估者整体心理健康情况的总评，通过判断被评估者的心理健康和自杀倾向程度，给出心理危机档案，可以使辅导员、心理咨询师等对被评估者的心理健康变化和干预情况进行掌握，通过提供干预流程导航，对被评估者心理危机干预进行流程指导和监控，更进一步地改善被评估者的心理健康状况，健全心理危机预防和快速反应机制。

4、在当前的心理危机干预领域，传统的语音识别和分析方法面临着诸多挑战。

5、首先，现有的危机热线语音数据来源有限，且数据质量参差不齐，这限制了语音识别系统的准确性和可靠性。

6、其次，由于录音设备和传输过程中的压缩，语音信号往往丢失了大量重要的声学信息，导致分析结果的不准确。此外，传统的机器学习方法依赖于手工特征选择，这不仅增加了工作量，还可能引入人为偏差。

7、再者，人的心理状态是复杂且动态变化的，现有的模型往往难以捕捉到语音中的上下文信息，这对于准确识别心理危机至关重要。

8、最后，深度学习模型通常被视为“黑箱”，缺乏可解释性，这限制了它们在实际应用中的推广。

技术实现思路

1、本发明的目的在于，提供一种可解释性的语音心理危机识别方法、介质和设备，能提高心理危机识别的准确性。

2、本发明提供一种可解释性的语音心理危机识别方法，包括以下步骤：s1：根据热线真实录音，利用自杀风险量表，得到危机干预热线自杀风险语音数据集；s2：根据危机干预热线自杀风险语音数据集，利用威尔科克森符号秩检验方法和曼-惠特尼u检验方法，进行副语言特征提取，得到训练数据集；s3：利用深度学习模型，构建多任务危机检测框架；s4：根据训练数据集，利用交叉验证方法，对多任务危机检测框架进行训练和验证，得到训练好的多任务危机检测框架。

3、进一步地，步骤s1具体包括：s11：对危机干预热线通话进行录音，得到热线真实录音；s12：利用自杀风险量表对热线真实录音进行交叉注释，得到注释音频；s13：按照呼叫者和操作员的语音开始时间戳，对注释音频进行分割，得到呼叫者音频片段；s14：利用音频特征提取工具对呼叫者音频片段进行合并，得到呼叫者音频完整片段；s15：按照预设持续时间和预设采样率，对呼叫者音频完整片段进行裁剪和采样，得到音频段；根据音频段，得到危机干预热线自杀风险语音数据集。

4、进一步地，步骤s2具体包括：s21：根据危机干预热线自杀风险语音数据集，利用威尔科克森符号秩检验方法，得到不同类别的呼叫者和操作员语音持续时间的差异；s22：根据危机干预热线自杀风险语音数据集，利用曼-惠特尼u检验方法，得到不同类别呼者的性别差异；s23：按照预设重采样率对危机干预热线自杀风险语音数据集中的音频段进行重采样，得到重采样的音频段；s24：根据不同类别的呼叫者和操作员语音持续时间的差异和不同类别呼者的性别差异，按照预设傅里叶窗口大小和预设步长对重采样的音频段进行特征提取，得到副语言特征；s25：对副语言特征进行归一化处理、统计分析、方差分析和事后检验，得到训练数据集。

5、进一步地，上述副语言特征包括情绪强度和动态范围特征、音色和亮度特征、语速和节奏特征、音高和语调特征和纹理和内容特征。

6、进一步地，上述多任务危机检测框架包括双重双向长短期记忆网络、自注意力机制、第一完全连接层、第二完全连接层、第一规范化层和第二规范化层；双重双向长短期记忆网络包括第一双向长短期记忆网络和第二双向长短期记忆网络。

7、进一步地，上述多任务危机检测框架还包括损失函数，如公式：

8、，

9、，

10、，

11、，

12、其中，为焦点损失，为模型正确分类实际标签的概率，为特定于类别的加权因子，为减少易分类示例影响的因子，为危机识别任务的损失，为危机识别任务的音频特征输入，为危机识别任务对应的标签，为危机类别权重，为性别识别任务的损失，为性别识别辅助任务的音频特征输入，为性别识别辅助任务对应的标签，为总损失，为分配给危机分类识别任务的权重，为分配给性别识别辅助任务的权重。

13、进一步地，上述交叉验证方法为stratifiedkfold。

14、进一步地，上述可解释性的语音心理危机识别方法还包括：利用训练好的多任务危机检测框架，对待分析语音进行心理危机识别，得到识别结果。

15、本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述可解释性的语音心理危机识别方法的步骤。

16、本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现上述可解释性的语音心理危机识别方法的步骤。

17、实施本发明提供的可解释性的语音心理危机识别方法、介质和设备，具有以下有益效果：

18、本发明针对现有技术在心理危机干预热线服务中的不足，基于深度学习和多任务学习技术，充分考虑心理学的理论知识和现有的理论研究成果，充分考虑自杀风险和心理危机现象，同时兼顾了性别差异和类别不平衡的问题，使用对应于语音频率、情感倾向性以及语义的提取算法，对语音特征值进行计算与处理；本发明结合心理学知识的深度学习模型，构建一个性别辅助的多任务危机检测框架；该模型采用双向长短期记忆网络，性别识别为辅助任务，危机检测为主要任务；核心架构的特点是双重双向长短期记忆网络（dual bi-lstm）(drop-out率为0.5)和自注意力机制，旨在精确捕捉并评估求助者的心理状态，以提升自杀干预的准确性和及时性；未来在危机干预热线中的应用将减轻危机干预工作的负担和压力，为危机干预热线的高效运行提供有力支持；本发明使用理论和数据驱动两个角度提出了危机干预热线的深度学习网络，利用深度学习技术自动提取语音特征，避免了手工特征选择可能引入的偏差，同时考虑了性别差异和类别不平衡，结合多任务学习，不仅提高了模型的性能，还增强了模型在实际应用中的可解释性，推动了模型在现实场景的应用，构建更有理论支持和可解释性的危机识别方法，可以取得更好的效果和适用性；本发明通过精心设计的数据收集和预处理流程，构建了一个高质量的语音数据集，有效地解决了现有技术中数据来源不足和数据质量参差不齐的问题；此外，针对录音质量差和声学信息丢失的挑战，本发明采用了先进的信号重构技术，这不仅显著提升了语音信号的质量，还保留了更多的有效信息，为心理危机干预提供了更为准确和可靠的语音分析基础，从而提高了心理危机识别的准确性；本发明能够准确分析和识别求助者的语音信号中蕴含的心理危机迹象，通过机器辅助自杀识别和危机检测；本发明能提高识别的准确性和干预的及时性，显著提升热线服务的效率和效果，从而更有效地预防自杀和心理危机事件的发生。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘振焘,丁钟,刘陈陵,钟宝亮,佘锦华,周洋,李洛,周智豪
技术所有人：中国地质大学（武汉）
我是此专利的发明人

上一篇：一种基于云平台的预付费管理系统及方法与流程
下一篇：风电场超速减载的功率分配方法、装置及电子设备与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！