一种应用于抑郁症检测的语音、面部特征提取方法及系统与流程

文档序号:16595234发布日期:2019-01-14 19:33阅读:518来源:国知局
一种应用于抑郁症检测的语音、面部特征提取方法及系统与流程

本发明涉及特征提取领域,特别是涉及一种应用于抑郁症检测的语音、面部特征提取方法及系统。



背景技术:

由于抑郁障碍会产生巨大的社会危害和经济损失,为此各国的学者及相关机构针对抑郁障碍展开了相关的研究,积极寻求有效的诊疗方案。目前抑郁症的判别与诊断主要从三个方面入手:1)依靠主观因素,比如:汉密尔顿抑郁量表(hamd)、贝克抑郁量表(bdi)、病人健康问卷抑郁自评量表(phq-9)等,以及临床医生的主观判断进行诊断,这势必就会存在一定程度的主观偏误;2)依靠生物学信息,基于脑电(eeg)、核磁成像(fmri)等生物技术已被用于抑郁症检测中,如,抑郁障碍人群eeg的伽马波段呈现持续增强的现象,抑郁障碍人群有大脑前额叶激活水平不对称性的增加等;3)依靠心理学相关的行为信息,基于语音、面部表情和身体姿态等行为异常特征来识别抑郁症。例如,语音属性方面的差异可以有效反映人的抑郁状态,抑郁症患者的语音声道特性变化与其抑郁生理症状有关系,面部表情的信息加工作为抑郁检测的客观指标之一,抑郁症患者对积极的情绪处理存在困难,但对于悲伤情绪却具有较强的注意力和敏感度,身体表情也是抑郁症检测的一个重要视觉线索。

目前,音视频信号下的抑郁症识别主要是采用传统的方法,首先特征提取,然后特征选择,最后用分类或回归的算法进行识别。1)利用音频信号:分析语音的韵律和声学特征,发现抑郁患者比正常人在语音上缺少韵律变化;对比分析抑郁患者与正常人的共振峰和谱特征发现,共振峰、功率谱密度、梅尔倒谱系数(mfcc)及其差分、teager能量算子(teo)等特征在抑郁症识别中均为有效特征。2)利用视频信号:视频信号对抑郁症的检测主要集中在面部表情,通过提取几何学特征(geometricalfeatures)和基于外表算法特征(appearance-basedalgorithmsfeatures)来刻画面部表情。通过提取面部的边缘、转角、坐标及方向的时间序列值刻画特定表情的变化和强度,表明抑郁患者的表现度降低;通过提取面部区域特征来描述纹理的变化,进行抑郁症面部图像分类;3)通过线性融合音频和视频特征来识别抑郁症。

利用音频和视频检测抑郁症最关键的问题在于特征的提取。然而,目前提取的音视频特征都是手工设计的特征,彼此之间会存在一定的非线性相关性,所以这些特征不足以表征抑郁症音频或视频的高层信息。再加上语音和面部表情的变化是同时发生,相关性高,而且抑郁症情感状态的变化没有明显的时间界限,情感表现也因人而异,所以简单地拼接串连语音和面部表情的特征会丢失一些重要信息,影响抑郁症的筛查结果与检测效率。



技术实现要素:

本发明的目的是提供一种应用于抑郁症检测的语音、面部特征提取方法及系统,提高抑郁症的筛查结果的精度和提高抑郁症的检测效率。

为实现上述目的,本发明提供了如下方案:

一种应用于抑郁症检测的语音、面部特征提取方法,所述方法包括:

随机选取一段音视频数据;

根据能量信息法将所述音视频数据中的音频数据进行特征提取,得到频谱参数和声学参数;

将所述频谱参数和所述声学参数输入第一深度神经网络模型,得到音频的语音深度特征数据;

将所述音视频数据中的视频图像进行静态特征提取,得到帧图像;

将所述帧图像输入第二深度神经网络模型,得到面部特征数据;

将所述音视频数据中的视频图像进行动态特征提取,得到光流图像;

将所述光流图像输入第三深度神经网络模型,得到面部运动特征数据;

将所述面部特征数据和所述面部运动特征数据输入第三深度神经网络模型,得到视频的面部深度特征数据;

将所述语音深度特征数据和所述面部深度特征数据输入第四神经网络模型,得到融合数据。

可选的,所述将所述频谱参数和所述声学参数输入第一深度神经网络模型,得到音频的语音深度特征数据,具体包括:

将所述频谱参数和所述声学参数输入第一深度置信网络,得到语音高层特征;

将所述语音高层特征输入第一长短时记忆网络模型,得到长时长高层特征和短时长高层特征;

将所述长时长高层特征和短时长高层特征输入第二深度置信网络,得到语音深度特征数据。

可选的,所述将所述帧图像输入第二深度神经网络模型,得到面部特征数据,具体包括:

将所述帧图像输入卷积神经网络模型,通过反向传播bp算法,得到面部特征数据。

可选的,所述将所述音视频数据中的视频图像进行动态特征提取,得到光流图像,具体包括;

将所述音视频数据中的视频图像进行动态特征提取,得到多帧图像将的光流位移;

根据所述光流位移采用曲度变化法和灰度值恒定假设法,得到光流图像。

可选的,所述将所述面部特征数据和所述面部运动特征数据输入第三深度神经网络模型,得到视频的面部深度特征数据,具体包括:

将所述面部特征数据和所述面部运动特征数据通过全连接层连接,得到面部整体数据;

将所述面部整体数据输入到第二长短时记忆网络模型,得到面部深度特征数据。

为实现上述目的,本发明提供了如下方案:

一种应用于抑郁症检测的语音、面部特征提取系统,所述系统包括:

选取模块,用于随机选取一段音视频数据;

第一特征提取模块,用于根据能量信息法将所述音视频数据中的音频数据进行特征提取,得到频谱参数和声学参数;

语音深度特征数据获取模块,用于将所述频谱参数和所述声学参数输入第一深度神经网络模型,得到音频的语音深度特征数据;

第二特征提取模块,用于将所述音视频数据中的视频图像进行静态特征提取,得到帧图像;

面部特征数据获取模块,用于将所述帧图像输入第二深度神经网络模型,得到面部特征数据;

第三特征提取模块,用于将所述音视频数据中的视频图像进行动态特征提取,得到光流图像;

面部运动特征数据获取模块,用于将所述光流图像输入第三深度神经网络模型,得到面部运动特征数据;

面部深度特征数据获取模块,用于将所述面部特征数据和所述面部运动特征数据输入第三深度神经网络模型,得到视频的面部深度特征数据;

融合模块,用于将所述语音深度特征数据和所述面部深度特征数据输入第四神经网络模型,得到融合数据。

可选的,语音深度特征数据获取模块,具体包括:

第一输入单元,用于将所述频谱参数和所述声学参数输入第一深度置信网络,得到语音高层特征;

第二输入单元,用于将所述语音高层特征输入第一长短时记忆网络模型,得到长时长高层特征和短时长高层特征;

第三输入单元,用于将所述长时长高层特征和短时长高层特征输入第二深度置信网络,得到语音深度特征数据。

可选的,所述面部特征数据获取模块,具体包括:

面部特征数据获取单元,用于将所述帧图像输入卷积神经网络模型,通过反向传播bp算法,得到面部特征数据。

可选的,所述第三特征提取模块,具体包括;

光流位移获取单元,用于将所述音视频数据中的视频图像进行动态特征提取,得到多帧图像将的光流位移;

光流图像获取单元,用于根据所述光流位移采用曲度变化法和灰度值恒定假设法,得到光流图像。

可选的,所述面部深度特征数据获取模块,具体包括:

面部整体数据获取单元,用于将所述面部特征数据和所述面部运动特征数据通过全连接层连接,得到面部整体数据;

面部深度特征数据获取单元,用于将所述面部整体数据输入到第二长短时记忆网络模型,得到面部深度特征数据。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明提供一种应用于抑郁症检测的语音、面部特征提取方法,通过建立抑郁症的音视频数据库,提取面向深度学习的音视频双模态融合特征,从而实现基于深度学习的音视频双模态下的抑郁症自动检测,提高了抑郁症的筛查结果的精度和提高了抑郁症的检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例应用于抑郁症检测的语音、面部特征提取方法流程图;

图2为本发明实施例情感数据库建立流程图;

图3为本发明实施例深度模型系统搭建的流程图;

图4为本发明实施例音视频深度特征提取的流程图;

图5为本发明实施例基于模型的音视频双模态融合的流程图;

图6为本发明实施例应用于抑郁症检测的语音、面部特征提取系统结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例应用于抑郁症检测的语音、面部特征提取方法流程图。如图1所示,一种应用于抑郁症检测的语音、面部特征提取方法,所述方法包括:

步骤101:随机选取一段音视频数据,所述音视频数据包括正常人音视频数据和抑郁症患者音视频数据;

步骤102:根据能量信息法将所述音视频数据中的音频数据进行特征提取,得到频谱参数和声学参数;

步骤103:将所述频谱参数和所述声学参数输入第一深度神经网络模型,得到音频的语音深度特征数据;

步骤104:将所述音视频数据中的视频图像进行静态特征提取,得到帧图像;

步骤105:将所述帧图像输入第二深度神经网络模型,得到面部特征数据;

步骤106:将所述音视频数据中的视频图像进行动态特征提取,得到光流图像;

步骤107:将所述光流图像输入第三深度神经网络模型,得到面部运动特征数据;

步骤108:将所述面部特征数据和所述面部运动特征数据输入第三深度神经网络模型,得到视频的面部深度特征数据;

步骤109:将所述语音深度特征数据和所述面部深度特征数据输入第四神经网络模型,得到融合数据。

步骤103具体包括:

将所述频谱参数和所述声学参数输入第一深度置信网络,得到语音高层特征;

将所述语音高层特征输入第一长短时记忆网络模型,得到长时长高层特征和短时长高层特征;

将所述长时长高层特征和短时长高层特征输入第二深度置信网络,得到语音深度特征数据。

步骤105具体包括:

将所述帧图像输入卷积神经网络模型,通过反向传播bp算法,得到面部特征数据。

步骤106具体包括;

将所述音视频数据中的视频图像进行动态特征提取,得到多帧图像将的光流位移;

根据所述光流位移采用曲度变化法和灰度值恒定假设法,得到光流图像。

步骤108具体包括:

将所述面部特征数据和所述面部运动特征数据通过全连接层连接,得到面部整体数据;

将所述面部整体数据输入到第二长短时记忆网络模型,得到面部深度特征数据。

由于该项目所涉及数据的敏感特性以及关系到个人隐私问题,所以一些相关的数据集无法共享,而且现有的数据集大多数是国外的受试人群。因此,为了后期可以延续开展研究,项目组建立抑郁症的音、视频情感数据库。图2为本发明实施例情感数据库建立流程图。考虑年龄、性别、抑郁水平、情感刺激方式、言语方式及情绪效价等重要因素设计实验,通过不同的情感和发声诱导方式录制被试在不同情绪效价下的音频、视频数据。被试来自于指定的精神专科类医院。设计2(被试类型:抑郁、正常)×3(情绪效价:正性、中性、负性)的混合音视频实验范式,主要包括4部分内容,分别是观看电影片段、图片描述、文本朗读和语音问答。旨在通过不同的情感诱发,以不同的言语方式诱导被试,达到研究抑郁症患者面部表情和语音变化的目的。本发明采集男性300名,女性300名,其中抑郁组400名,对照组200名,年龄在18-55岁之间。所有实验均在合作医院隔音且无电磁干扰的房间进行,麦克风、声卡采集音频信号,单声道、采样率44.1khz,采样深度24bit。高清摄像头,kinect摄像头采集视频信号,帧率30,分辨率800x600。研究要求被试在年龄、学历、性别构成上差异均无统计学意义(p>0.05)。

本发明中在对音视频数据中的音频进行分析时,接收说话人的语音信号,根据能量信息判断静音段,将非静音段进行特征提取,提取频谱参数mfcc和声学参数logf0。沿着时间轴串联频谱参数和声学参数,作为输入特征送入深度网络。深度网络是由两层的rbm(限制的玻尔兹曼机)堆叠起来的dbn(深度置信网络)网络构成。输入的特征经过dbn(深度置信网络)训练,提取出特征的更高层的表示,即高层特征。然后将高层特征再送入lstm(长短时记忆模型)深度网络,提取长、短时长下的高层特征。最后得到的该特征送入到由rbm(限制的玻尔兹曼机)堆叠起来的dbn(深度置信网络)网络中进行训练,从dbn(深度置信网络)网络输出的特征就是基于音频的深度特征。

在对音视频数据中的视频进行分析时。视频分析和语音分析是两个独立的步骤。在视频分析中,分为两个阶段,一个是静态特征的提取,一个是动态特征的提取。用到的深度网络都是cnn(卷积神经网络)。在静态特征提取中,以一幅图作为输入,送入到预先训练好的cnn(卷积神经网路)网络,预先训练的cnn(卷积神经网路)是通过公开的数据集训练出来的,包括三个卷积层、两个最大池化层和两个全连接层。将原始的图片送入到训练好的cnn(卷积神经网路)模型中,通过反向传播bp(backpropagetion)算法,从网络输出具有判别性的面部特征。在动态特征提取中,以光流图作为深度模型的输入,输出的是面部运动变化的特征。通过计算连续10帧之间的光流位移,利用曲度变化方法和灰度值恒定假设来获得光流图。接下来,将两个阶段提取出来的面部特征和运动特征进行连接,通过构建两个全连接层来整体微调拼接起来的面部特征和运动特征。两个全连接层的隐元个数逐层减少(第一层512,第二层256),面部特征和运动特征在每一层上串联起来。最后将全连接层的输出,作为lstm(长短时记忆模型)的输入,训练lstm(长短时记忆模型)网络,从lstm(长短时记忆模型)网络的输出就是基于视频的面部深度特征。

在得到了音频的深度特征和视频的深度特征后,先分别用音频的深度特征和视频的深度特征各训练一个2层的dbn(深度置信网络)网络:音频的dbn(深度置信网络)网络的输入是音频的深度特征,输出是对音频信号对抑郁症的检测结果,视频的dbn(深度置信网络)网络输入是视频的深度特征,输出是视频信号对抑郁症的检测结果。然后,将这两个检测结果作为输入信号,再次送入一个2层的dbn(深度置信网络)网络进行最终的融合,此dbn(深度置信网络)网络的输出就是最终通过音视频信号对抑郁症的检测结果。

本发明在基于抑郁症患者在语音和面部表情上的显著特点,设计实验范式,建立抑郁症情感数据库的基础上,重点解决了语音特征和视频特征的深度建模和多模态融合的问题。语音和面部表情都是随时间变化的,而且变化也是同步发生的,这些因素就决定了音频或视频信号以及音视频信号中,特征之间具有复杂的关系。本发明学习了时间和空间域上的表达,实现面向深度学习的音视频深度特征的提取。

在提取音视频多模态特征时,首先分别从音频模态和视频模态中提取语音的深度特征和面部表情的深度特征,然后将这两个模态下的深度特征进行融合产生一个新的特征,用于抑郁症的检测。在这个过程中,针对不同模态涉及不同的深度学习模型结构,存在不同的特征维度。同时考虑到音频信息和视频信息是同时发生的,那么音频模态和视频模态之间必然存在特征关联和协同关系,因此本发明利用这些因素,构建基于深度模型的多模态信息融合。

为了实现基于深度学习的音视频多模态的抑郁症检测,首先要搭建基于深度学习的音视频信号识别平台。图1的步骤b,起初分别建立两种模态的不同深度学习模型(rbm、dbn、cnn和lstm),然后用rbm-dbn进行双模态融合及识别。其中,cnn采用imagenet上预训练的模型alexnet/vgg16作为深度框架,声学特征的建模采用rbm和dbn,lstm获得长时和短时的时间变化,并同步音频和视频,最终建立cnn-lstm和rbm-dbn-lstm来提取视频和音频特征。图3为本发明实施例深度模型系统搭建的流程图。具体过程如图3所示。

视频数据包含空间和时间两方面的信息,采用双路cnn特征提取构架,分别考察视频数据中空间维度的特征提取和时间维度的特征提取,在空间维度的特征提取中,cnn是在imagenet的数据上pre-train,然后提取视频中的每一帧图片作为该cnn的输入,根据反向传播(bp)算法和损失函数对深度结构进行修改,以提取静态表情的深度特征。在时间维度的特征提取中,重点针对网络的输入,将连续几帧的光流叠加起来作为cnn的输入,用lstm对cnn最后一层的激活在时间轴上进行整合,以获取面部的运动特征。最后,将空间维度的特征和时间维度的特征进行全连接,得到基于深度学习的面部表情的高层特征。在提取音频深度特征时,本发明不仅考虑该模型能够产生反应原始语音波形的高层表示,还考虑该模型能够获得短时和长时的时序变化。因此,本发明构建一个rbm-dbn-lstm串行连接的深度模型提取语音的深度特征。在rbm-dbn-lstm模型中,利用gibbs采样、对比散度算法(cd)提取语音高层特征,通过lstm补充丢失了空间特征在时间轴上的信息。并利用二进制交叉熵(cross-entropy)损失函数和随机梯度下降法(sgd)优化整个网络。图4为本发明实施例音视频深度特征提取的流程图。具体如图4所示。

分别提取了音频和视频的深度特征后,采用基于模型的深度模型融合策略,将提取出的音视频深度特征,先分别训练音频深度特征的dbn网络和视频深度特征的dbn网络,然后合并dbn重新训练。最后级联各个模块,将融合后的多模态模型用于抑郁症公开数据库和本发明设计的数据库上进行检测和微调,最终建立音视频的抑郁症自动检测系统。图5为本发明实施例基于模型的音视频双模态融合的流程图。

图6为本发明实施例应用于抑郁症检测的语音、面部特征提取系统结构图。如图6所示,一种应用于抑郁症检测的语音、面部特征提取系统,所述系统包括:

选取模块601,用于随机选取一段音视频数据,所述音视频数据包括正常人音视频数据和抑郁症患者音视频数据;

第一特征提取模块602,用于根据能量信息法将所述音视频数据中的音频数据进行特征提取,得到频谱参数和声学参数;

语音深度特征数据获取模块603,用于将所述频谱参数和所述声学参数输入第一深度神经网络模型,得到音频的语音深度特征数据;

第二特征提取模块604,用于将所述音视频数据中的视频图像进行静态特征提取,得到帧图像;

面部特征数据获取模块605,用于将所述帧图像输入第二深度神经网络模型,得到面部特征数据;

第三特征提取模块606,用于将所述音视频数据中的视频图像进行动态特征提取,得到光流图像;

面部运动特征数据获取模块607,用于将所述光流图像输入第三深度神经网络模型,得到面部运动特征数据;

面部深度特征数据获取模块608,用于将所述面部特征数据和所述面部运动特征数据输入第三深度神经网络模型,得到视频的面部深度特征数据;

融合模块609,用于将所述语音深度特征数据和所述面部深度特征数据输入第四神经网络模型,得到融合数据。

语音深度特征数据获取模块603,具体包括:

第一输入单元,用于将所述频谱参数和所述声学参数输入第一深度置信网络,得到语音高层特征;

第二输入单元,用于将所述语音高层特征输入第一长短时记忆网络模型,得到长时长高层特征和短时长高层特征;

第三输入单元,用于将所述长时长高层特征和短时长高层特征输入第二深度置信网络,得到语音深度特征数据。

所述面部特征数据获取模块605,具体包括:

面部特征数据获取单元,用于将所述帧图像输入卷积神经网络模型,通过反向传播bp算法,得到面部特征数据。

所述第三特征提取模块606,具体包括;

光流位移获取单元,用于将所述音视频数据中的视频图像进行动态特征提取,得到多帧图像将的光流位移;

光流图像获取单元,用于根据所述光流位移采用曲度变化法和灰度值恒定假设法,得到光流图像。

所述面部深度特征数据获取模块608,具体包括:

面部整体数据获取单元,用于将所述面部特征数据和所述面部运动特征数据通过全连接层连接,得到面部整体数据;

面部深度特征数据获取单元,用于将所述面部整体数据输入到第二长短时记忆网络模型,得到面部深度特征数据。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1