一种多模态抑郁数据的融合分析方法

文档序号:33337406发布日期:2023-03-04 01:36阅读:32来源:国知局
一种多模态抑郁数据的融合分析方法

1.本发明属于多模态数据融合领域,具体是一种应用于情绪识别的多模态融合分析方法。


背景技术:

2.抑郁症因发病率高、危害性大,已成为国际公认的严重威胁人类身心健康的公共卫生问题,早期识别、早期干预对于降低抑郁症的风险至关重要。传统抑郁症的诊断是医生根据临床经验和量表进行,这一方法主要依赖于单一模态数据,存在主观偏差,有滞后性、被动性和受限性等缺点。jeffery等人研究发现运用多模态技术识别抑郁症的效果要优于单模态。
3.多模态技术指的是同时处理或拟合多种模态数据来增强模型性能的一种方法。不同模态的数据,因表现形式不同,表示含义不同而难以被对齐并融合。如在图像音频识别任务中,图像数据通常表现为图片,而语言数据通常表现为文字,两者因表现形式不同而难以融合;在基因测序分析中,不同测序方法之间的数据又因为表示含义不同而难以融合。
4.现存的工作也对多模态技术有很多探索。dupont,s等人用隐马尔可夫联合有限自动机的方法将语音数据与图片数据对齐,并用双模态数据识别语音与图片。该方法从一定程度上融合了不同表现形式的数据,但仍存在效率不高,可推广性较差的缺点。另一种思路是用神经网络进行多数据融合。zeng,x等人利用多模态的自编码器,将10种药物描述信息(如副作用、作用通路等)融合在一起,同时输入疾病类型对疾病的类型进行划分实现药物种类的匹配,第二步对疾病的发病症状进行分割,对每个症状在不同个体上表现的差异性,增减对应的用药量。这种多模态融合方法,未能充分考虑到模态间的关系,也没有办法融合不同表现形式的数据。综上,虽然多模态技术已经有了许多尝试,但依旧没有一个方法能很好融合多模态数据。


技术实现要素:

5.为了解决上述问题,本发明的目的是提供一种多模态抑郁数据的融合分析方法。
6.为了实现上述目的,本发明的技术方案如下:一种多模态抑郁数据的融合分析方法,将不同数据类别的数据进行多阶段数据录入,此时将录入的数据进行情绪特征提取,之后,不同模态的数据特征分别通过三个线形层求出k值、q值和v值表达,再根据融合抑郁数据注意力机制,利用k,q计算各模态数据的注意力a,将a
·
v作为融合后的特征,服务下游任务。由于融合抑郁数据注意力机制,融合后的数据特征将包含多模态信息,并能辅助下游分类任务。
7.进一步,包括以下步骤,
8.s1数据预处理,将数据组分为文本数据、图像数据和音频数据;
9.s2融合抑郁数据注意力机制,计算预处理后的数据,从而获得包含多模态信息的特征;
10.s3抑郁症识别,将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,最后一层的神经元使用softmax函数作为激活函数并输出分类预测结果。
11.进一步,s1中文本数据包括量表和电子病例,所述量表和电子病历数据进行特征初筛,缺失值处理,特征编码和归一化。
12.进一步,s1中视频数据按照每秒20帧的频率进行图像抽取,将所得图像数据去噪声和去伪影后,对每帧图像进行面部位置检测,根据眼睛位置对齐图像,随后将视频图像裁剪为256
×
256像素的面部图像。
13.进一步,s1中音频数据与抽帧获取的图像集合对齐后针对各个对齐的语音片段提取梅尔频率倒谱系数。
14.进一步,所述s2中计算文本数据、图像数据和音频数据分别对应的k值,q值,v值和k值,q值分别计算出视频、音频和文本的辅助注意力,将三种辅助注意力拼接并通过softmax函数后形成视频、音频、文本的注意力并乘以前一步算出的v值。
15.进一步,所述s3中预测结果采用交叉熵损失函数拟合预测值与真实值的差异。
16.采用上述方案后实现了以下有益效果:1、相对于通过单一模态研究抑郁症的现有技术,单一模态会受到个体差异等因素的影响,因此本技术方案利用病例集合对患者个体差异的甄别特征,随后根据甄别特征融合患者的图像、动作和声音,实现综合式诊断。
17.2、相对于传统的拼接式数据融合方式,本技术方案中产生了以下效果结合不同模态的信息,将不同的模态在媒介上信息的表示结合。其次是对齐问题,对齐不同的模态信息并处理可能存在的依赖。最后是转换问题,使多个模态信息统一形式。
附图说明
18.图1为多模态融合围产期抑郁症评估模型框架;
19.图2为融合抑郁数据注意力机制方法。
具体实施方式
20.下面通过具体实施方式进一步详细说明:
21.实施例基本如附图1和附图2所示:一种多模态抑郁数据的融合分析方法将不同数据类别的数据进行多阶段数据录入,此时将录入的数据进行情绪特征提取,之后,不同模态的数据特征分别通过三个线形层求出k值、q值和v值表达,再根据融合抑郁数据注意力机制,利用k,q计算各模态数据的注意力a,将a
·
v作为融合后的特征,服务下游任务。由于融合抑郁数据注意力机制,融合后的数据特征将包含多模态信息,并能辅助下游分类任务。
22.具体实施过程如下:本发明的输入为视频、音频与文本数据。分为三个主要阶段数据预处理,融合抑郁数据注意力机制(integrateddepressiondataattention,idda),抑郁症识别。包括以下步骤,
23.s1数据预处理,将数据组分为文本数据、图像数据和音频数据,文本数据包括量表和电子病例,所述量表和电子病历数据进行特征初筛,缺失值处理,特征编码和归一化,视频数据按照每秒20帧的频率进行图像抽取,将所得图像数据去噪声和去伪影后,对每帧图像进行面部位置检测,根据眼睛位置对齐图像,随后将视频图像裁剪为256
×
256像素的面部图像,音频数据与抽帧获取的图像集合对齐后针对各个对齐的语音片段提取梅尔频率倒
谱系数;
24.s2融合抑郁数据注意力机制,计算预处理后的数据,从而获得包含多模态信息的特征,为了更好融合数据,我们提出了新的多模态数据融合机制(idda)。首先,1、对三种数据分别计算其对应的k值,q值,v值。之后,用k值,q值分别计算出视频、音频、文本的辅助注意力;
25.将三种辅助注意力拼接并通过softmax函数后形成视频、音频、文本的注意力并乘以前一步算出的v值,获得包含多模态信息的特征。
26.将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,该数据特征作为下游任务的输入。
27.s3抑郁症识别,将包含多模态信息的特征拼接,并通过一个线性层,输出一个融合后的数据特征,我们选用了lstm作为下游任务的分类器。使用adam优化器对模型进行优化,最后一层的神经元使用softmax函数作为激活函数并输出分类预测结果。采用交叉熵损失函数拟合预测值与真实值的差异,模型的学习率为0.001。
28.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
29.以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本技术给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本技术的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1