一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法与流程

文档序号：19189792发布日期：2019-11-20 01:58阅读：1442来源：国知局

本发明涉及计算机技术领域，特别涉及一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法。

背景技术：

心理疾病作为众多疾病中较难确诊并不好发现的一种，一直是人们在所有疾病中重视度较低的疾病。基于对心理疾病的抵触心理以及对心理疾病缺乏基本的认识，人们往往会在心理疾病产生初期并没有及时就医，而是选择自己调节，直到心理疾病严重到影响到正常生活甚至生命的时候才迫不得已才进行就医，而抑郁症作为心理疾病中的一个相对普遍的疾病，正或多或少地影响着人们生活的方方面面。如何针对当下社会的心理疾病的情况设计出一个较好的解决方案是一个亟待解决的课题。

计算机视觉提供了较好的解决方案，通过摄像头捕捉到人的面部表情并将结果传输到计算机，通过深度学习对获得的图片进行处理分析，从而获得想要的结果。图像识别问题希望借助计算机程序来对图片中的内容进行处理、分析和理解，是的计算机可以区分图片中不同的目标和对象。

卷积神经网络作为图像处理中的一种重要技术，可以很好地提取图像中特征信息，现常见的网络架构例如resnet，vggnet，googlenet等等都有比较好的效果，通过卷积神经网络提取出来的高度压缩的特征通过变换成1维特征向量，再通过几层全连接层实现判别物体的输出。

特征金字塔网络fpn在保证高速度和高精度的基础上提供了一种可以提取图像中不同尺度的特征，通过将卷积神经网络提取出来的高压缩特征以及在卷积神经网络过程中的隐藏层进行结合，从而得到尺度不相同的特征。把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接，使得所有尺度下的特征都有丰富的语义信息。而心理疾病在脸部表现的往往是面部微表情和小块肌肉的活动，而fpn就提供了比较好的解决方案。

循环神经网络(rnn)主要针对输入数据具有依赖性且是序列模式。相比卷积神经网络，网络被赋予对前面的内容的一种“记忆”功能。lstm是循环神经网络的一种，使用lstm可以更好的捕捉较长距离的依赖关系。双向lstm(即bilstm)是由前向lstm与后向lstm组合而成，可以编码从前到后、从后到前的信息。在更细粒度的微表情识别预测抑郁症(抑郁等级)过程中，需要考虑图片序列的前后特征信息的交互。对此，bilstm能提供比较好的解决方法。

微表情是引发隐藏某种真实情绪的短暂和不自主的快速面部表情，由于面部微表情的发生时间一般非常短暂，所以近年来对微表情识别一直是计算机视觉中的难点，lbp-top和相应的预处理技术已经在微表情识别领域有了较大的突破，本发明就通过识别微表情来判断抑郁症这个课题通过对网络结构的改进来更准确地识别抑郁症。

技术实现要素：

本发明的目的在于：提出了一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法。该方法不仅可以很好地解决在心理疾病上有关抑郁症的判别问题，而且可以用于其他相关视频分析上面。

本发明包括了特征提取以及特征串联的方法，其主要步骤包括：。

特征提取：通过使用resnet对原图片进行特征提取。

产生不同尺度特征：通过使用特征金字塔网络对resnet提取出来的特征图片进行一系列卷积求和操作，从而产生不同尺度特征。

特征串联：将不同图片中提取出来的相同尺度特征通过使用双向lstm联，从而得到输出结果。

附图说明

图1是本发明具体实施的流程图。

图2是本发明具体实施的模型特征提取示意图。

图3是本发明具体实施例的模型特征产生示意图。

具体实施方式

本发明的实施分为模型的训练和模型的使用两个部分。下面根据附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

图2是本发明具体实施的模型特征提取示意图。

该特征金字塔网络的双向lstm微表情识别抑郁症方法如图1所示。其中，bottom-up部分为resnet，可以将处理过的图片送入预训练的特征网络，top-down部分为fpn核心部分，可以提供不同尺度的特征信息。resnet网络架构从图像中提取了特征，经过一层层卷积层，图片的大小被压缩，图片中每个像素点所代表的特征值随着层数的增多而增多，最终可以得到高度代表原图片的特征信息。但是因为最终提取出来的特征往往映射了原图片中很大的一部分，所以在这种情况中，图片中微小部分的特征难以较好的表示。

本发明通过使用特征金字塔网络，将最后的conv5的输出结果经过1*1的卷积非线性变换后作为一层特征m5进入到下一层网络，m5层经过2倍上采样（双线性插值法）和conv4输出结果经过1*1卷积非线性变换进行相加得到该层的输出特征值，同理，m4，m3，m2都是如此。然后通过3*3的卷积层去处理已经融合的特征图，从而消除上采样的混叠效应，得到{p2，p3，p4，p5}。在训练过程中，通过不断的迭代，改变卷积的参数，从而生成最精细的特征，由此可以得到在不同尺度下对原图片的特征值，最终通过一层全连接层展成一维的特征向量，作为下一部分双向lstm的输入。

图3是本发明具体实施的模型特征产生示意图。

由于需要识别抑郁症，单凭一张图片并不能很好地识别出结果，本发明设想通过将一秒中的视频截取为12张图片，根据12个图片的细微变化过程来判别是否有抑郁症。由于涉及时间上的依赖性，并且考虑到序列的前后特征信息的交互，本发明通过采用双向lstm模型进行前向、后向的串联。对fpn输出的不同尺度特征信息{p2，p3，p4，p5}，经过一层全连接层展成一维特征向量{q1，q2，q3，q4}，并分别作为四个相对独立的双向lstm模型的输入，得到双向lstm网络的输出{ot2，ot3，ot4，ot5}，最后再经过一层全连接层，得到最后的抑郁症识别预测结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

技术特征：

1.一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法，其特征包括，包括下列步骤：

特征提取：将1秒的视频等时间分成12张图片，通过resnet对图片分别进行特征提取；

特征产生：通过将resnet提取出的图像通过图像金字塔进行一系列卷积求和操作，从而产生不同尺度特征；

特征串联：将不同图片中提取出来的相同尺度特征通过使用双向lstm网络进行特征串联，从而得到输出结果。

2.如权利要求1所述的方法，在特征提取阶段采用resnet加特征金字塔的形式对图片中的特征进行提取，特点在于使用了残差学习的方法对图像的特征进行提取，使得网络在训练的时候能够更加快速的进行收敛，同时加大网络特征提取的能力；

若将输入设为，将某一有参网络层设为，那么以为输入的此层的输出将为；一般的cnn网络如alexnet/vgg等会直接通过训练学习出参数函数的表达，从而直接学习；

与传统卷积神经网络不同，残差网络主要特点是能够利用网络每一层有参网络对残差进行学习，即，即学习；其中这一部分为直接的identitymapping，而则为有参网络层要学习的输入输出间的残差，一般的cnn网络只是在最后输出层的时候对映射函数进行拟合，比较困难，这也是为什么普通卷积神经网络比较难以训练的原因；而resnet不去直接学习映射函数，转而去学习一个残差函数，在这个公式中，只要就构成了一个恒等映射.而且，拟合残差肯定更加容易；

经过第一步restnet特征提取之后，我们采用特征金字塔网络（fpn）对resnet提取到的特征进行进一步地处理，得到不同尺寸的特征图，这将在网络进行比较细小的图像部分识别时产生帮助；

在这一阶段fpn的输入是任意大小尺寸的图像，并通过全卷积层输出多个级别的按比例缩放的特征图，对于resnet，我们使用每个阶段的最后残差块的特征激活输出；

在fpn网络中，输入数据自上而下的经过网络每一层，在金字塔高层的网络层中，网络将上采样输入数据中空间粗略但是语义健壮的特征图，来幻化更高的分辨率特征；之后，输入数据通过横向连接从下而上地经过另外一个网络层，来增强之前提取到的特征；每个横向连接融合来自从下而上的路径和从上而下的路径同样空间尺寸的特征图；

最后，我们使用双向lstm将从特征金色塔fpn输出的特征进行串联并输出最终的结果；双向lstm的优势在于可以长期记忆之前的和之后的若干输入，而在进行微表情识别的任务中，往往需要由前面的若干输入和后面的若干输入共同决定，这样会更加准确；

网络的前向传播层和后向传播层，数据流的最终出路都是输出层，在正向计算的过程中，时间从1到t正向计算，每一个时刻隐含层的输出都将被保存；同样地，在反向计算中，从时刻t到时刻1，每一个隐含层的输出也将被分别保存，最后在每个时刻结合前向传播层和后向传播层的相应时刻输出的结果得到最终的输出；用数学表达式如下：

(1)

(2)

(3)。

3.如权利要求1,2中所述的方法，其特征是采用特征金字塔的方法，可以输出不同尺度的特征，从而可以更好地关注图像中更细小的部分，并且多种尺度的特征作为双向lstm的输入，可以输出更加准确的结果。

4.如权利要求2中所述的方法，采用了resnet网络，使用了残差网络的思想，使得参数的拟合速度加快，并且所需要的参数量相比其他常见的卷积神经网络架构少很多。

5.如权利要求2中所述的方法，采用了双向lstm，相比单向lstm，对时间线上的图片进行前后关联，更好地利于前后图片的交互，从而输出更加准确的结果。

技术总结
本发明提供一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法，包括：首先从一秒中的视频流中等时间提取出12张图片，将12张图片作为输入进入到该模型中，接着通过ResNET网络对图片的特征进行提取，经过多层Conv={Conv1，Conv2，Conv3，Conv4，Conv5}得到一个多维的图片特征，即Conv5的输出结果，之后通过2倍上采样以及经过1*1卷积变换的Conv层相加得到不同尺度的特征值M={M2，M3，M4，M5}，接着将不同图片的不同尺度{M2，M3，M4，M5}特征图通过3*3的卷积层进行去除由于上采样带来的混叠效应，之后通过全连接层将特征图展成一维的特征向量从而分别作为四个双向LSTM模型的输入，得到输出Ot={Ot2，Ot3，Ot4，Ot5}，最后将Ot经过一层全连接层得到最终的预测值。

技术研发人员：田文洪;许凌霄
受保护的技术使用者：成都中科云集信息技术有限公司
技术研发日：2019.08.14
技术公布日：2019.11.19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田文洪;许凌霄
技术所有人：成都中科云集信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。