一种基于深度神经网络的人群情绪异常检测和定位方法与流程

文档序号:11251344阅读:1285来源:国知局

本发明涉及一种计算机视觉技术领域,尤其是一种基于深度神经网络的人群情绪异常检测和定位方法。



背景技术:

随着社会的持续稳定发展和人民群众物质文化生活水平的不断提高,城市人群聚集区域的娱乐活动、商业活动等越来越被公众关注,这些活动往往场地空间有限且参与人数众多,一旦发生异常情况,极易对广大人民群众的生命和财产安全产生严重危害,为了尽早的发现异常情况,及时采取措施,主要借助城市中广泛存在的监控设备,通过监控设备进行异常情况的检测和定位;

异常检测主要分为两类:整体异常检测和局部异常检测,整体异常指的是由场景中的所有个体引发的异常,整体异常检测的任务是检测异常事件,并确定异常事件的起始和终止位置,以及它们之间的过渡;

局部异常是指由某个个体引发的异常,这个个体可能有别于其他正常的个体,局部异常检测的任务是检测异常事件,并定位异常发生的位置。

异常检测根据对异常的不同定义而有所区别,通常对于异常的定义会与具体发生的事件关联起来,而人群情绪异常的定义是指人群中整体或个体出现的不正常情绪变化,即对于异常的检测并不与具体的异常事件直接关联。例如,当人群恐慌事件发生时,人群整体上从中性情绪到恐慌情绪的变化,就是一种人群情绪异常情况,需要关注的是情绪的异常变化情况,而不需要知道具体的异常事件;

对于情绪的定义,在研究中普遍采用ekman的离散情绪模型,它将情绪分为高兴、愤怒、厌恶、恐惧、悲伤、惊奇六类,为了更有效地刻画情绪的变化,在这基础上我们增加了焦虑情绪及中性情绪,

而对于目前来说,监控设备远没有达到智能监控的程度,仍需要大量的工作人员来监测异常情况,对异常情况进行反馈,通过对监控视频异常情况的分析,不仅需要大量工作人员,而且分析结果也不准确,而且反馈具有迟延性,往往在异常情况出现时,才能发现异常情况,极其不利于工作人的监控以及对异常情况的处理。



技术实现要素:

针对现有技术的不足,本发明提供一种基于深度神经网络的人群情绪异常检测和定位方法,从而解决现有人群异常检测技术中存在的异常定义与具体异常事件直接关联而导致的检测局限性问题。

本发明的技术方案为:一种基于深度神经网络的人群情绪异常检测和定位方法,其特征在于,包括以下步骤:

s1)、数据获取:通过监控设备获取视频数据作为训练视频数据;

s2、利用视频关键帧提取技术从训练视频数据中提取视频关键帧数据;

s3)、数据处理:利用人脸检测技术从视频关键帧数据中获取每一帧的人脸图像数据,并检测人脸图像中的人脸特征点,根据人脸特征点对齐人脸图像后,按照不同个体对人脸图像进行分组,对分组后的人脸图像数据按视频关键帧顺序排序;

s4)、人脸情绪识别模型的构建:对对齐、分组、排序处理后的人脸图像数据进行情绪标记,并将情绪标注后的人脸图像数据输入到训练好的基于卷积神经网络的人脸情绪识别模型中,并根据人脸图像数据调整模型全连接层权重,从而得到训练好的基于监控视频数据的人脸情绪识别模型

s5)、构建人群情绪检测和定位模型:将人脸情绪识别模型的全连接层输出的特征按时间维度组合成时序特征,并将时序特征输入长短期记忆循环神经网络模型中,构建并训练得到整体的人群情绪检测和定位模型;

s6)、异常情绪检测和定位:重新从监控设备中获取视频数据作为监测视频数据,按照步骤s2、s3对监测视频数据进行预处理,利用训练好的人群情绪检测和定位模型,获取监测视频数据中人群情绪异常检测和定位结果并反馈给监控设备工作人员。

上述技术方案中,步骤s4)中,所述的情绪标记包括高兴、愤怒、厌恶、恐惧、悲伤、惊奇、焦虑、中性。

上述技术方案中,步骤s4)中,所述的基于卷积神经网络的人脸情绪识别模型的构建包括以下步骤:

s401)、获取公开的人脸图像数据集作为训练样本集,并对人脸表情数据集进行人脸对齐,以及进行人脸图像情绪标记;

s402)、将预处理后的训练样本集中的每一张人脸图像转换为灰度图像,由灰度图像转换为像素矩阵x=[xij]m×n,其中,xij表示图像的第i行第j列的像素值,m为图像的高(以像素为单位),n为图像的宽(以像素为单位);

s403)、对所有灰度图像的像素矩阵进行去均值处理,其计算式为:

s404)、将去均值处理后的像素矩阵x输入到卷积神经网络模型中;

s405)、对输入卷积层的灰度图像的像素矩阵进行卷积计算,计算式为:

其中,i为输入特征图的索引,j为输出特征图的索引,nin为输入特征图个数,l为网络层的索引,表示第l层网络的第j个输出特征图,表示第l层网络的第i个输入特征图对应的卷积核,为偏置;

使用下采样函数down对上一层输出的特征图进行下采样,计算式为:

其中,为偏置;

获取网络结构中最后的下采样层输出的一系列特征图将每一个特征图中的像素依次取出,拼接成一个向量,向量形式为:

s406)、将拼接后的向量rl作为全连接层的输入,其计算式为:xl=f(wlrl+bl),

其中,wl表示第l层的权重矩阵,bl表示第l层的偏置;

s407)、将全连接层输出的向量xl,经激活函数计算得到最后的预测值yi,其计算式为:

yi=g(uxl+c),

其中,u为权重矩阵,c为偏置;

s408)、使用交叉熵损失函数,计算预测值yi与真实值的损失函数值,并最小化损失函数值,其计算式为:

其中,i为人脸图像数据的索引,j为人脸图像数据所属8类情绪标识的索引;

s408)、通过随机梯度下降法,调整网络权重k、w、u和偏置a、β、b、c,根据更新后的网络权重k、w、u和偏置a、β、b、c,重新计算上述损失函数值,不断迭代直至损失函数值不再减小或到达设定的迭代次数,得到训练好的基于卷积神经网络的人脸情绪识别模型;

上述技术方案中,步骤s6)中,异常情绪检测和定位还包括以下步骤:

s601)、通过情绪异常检测和定位模型,获取人群情绪的预测结果是否异常;

s602)、若预测结果标识为异常,利用人脸情绪识别模型,输出监测视频数据中存在异常的个体对应的情绪变化情况;

s603)、根据监测视频数据中具体人群中个体情绪异常情况,根据出现异常的个体数,从而判定当前视频人群异常检测结果属于整体异常还是局部异常情况。

本发明的有益效果为:设计合理,通过模型能够得到人群情绪异常与人群异常之间的关系,避免了人群异常与具体异常事件相关联而导致的检测局限性问题,另外,模型采用了混合的深度神经网络结构模型,避免了视频数据特征提取与异常检测和定位任务分开执行的情况,从而进一步提高了视频人群情绪异常检测和定位的效率;并且能够通过以人群情绪异常的检测和定位以个体情绪作为基础,实现整体异常和局部异常的统一处理,从而进一步提高了检测的准确性。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明:

如图1所示,一种基于深度神经网络的人群情绪异常检测和定位方法,其特征在于,包括以下步骤:

s1)、数据获取:通过监控设备获取视频数据作为训练视频数据;

s2、利用视频关键帧提取技术从训练视频数据中提取视频关键帧数据;

s3)、数据处理:利用人脸检测技术从视频关键帧数据中获取每一帧的人脸图像数据,并检测人脸图像中的人脸特征点,根据人脸特征点对齐人脸图像后,按照不同个体对人脸图像进行分组,对分组后的人脸图像数据按视频关键帧顺序排序;

s4)、人脸情绪识别模型的构建:对对齐、分组、排序处理后的人脸图像数据进行情绪标记,并将情绪标注后的人脸图像数据输入到训练好的基于卷积神经网络的人脸情绪识别模型中,并根据人脸图像数据调整模型全连接层权重,从而得到训练好的基于监控视频数据的人脸情绪识别模型;

s5)、构建人群情绪检测和定位模型:将人脸情绪识别模型的全连接层输出的特征按时间维度组合成时序特征,并将时序特征输入长短期记忆循环神经网络模型中,构建并训练得到整体的人群情绪检测和定位模型;

s6)、异常情绪检测和定位:重新从监控设备中获取视频数据作为监测视频数据,按照步骤s2、s3对监测视频数据进行预处理,利用训练好的人群情绪检测和定位模型,获取监测视频数据中人群情绪异常检测和定位结果并反馈给监控设备工作人员。

上述技术方案中,步骤s4)中,所述的情绪标记包括高兴、愤怒、厌恶、恐惧、悲伤、惊奇、焦虑、中性。

上述技术方案中,步骤s4)中,所述的基于卷积神经网络的人脸情绪识别模型包括以下步骤:

s401)、获取公开的人脸图像数据集作为训练样本集,并对人脸表情数据集进行人脸对齐,以及进行人脸图像情绪标记;

s402)、将预处理后的训练样本集中的每一张人脸图像转换为灰度图像,由灰度图像转换为像素矩阵x=[xij]m×n,其中,xij表示图像的第i行第j列的像素值,m为图像的高(以像素为单位),n为图像的宽(以像素为单位);

s403)、对所有灰度图像的像素矩阵进行去均值处理,其计算式为:

s404)、将去均值处理后的像素矩阵x输入到卷积神经网络模型中;

s405)、对输入卷积层的灰度图像的像素矩阵进行卷积计算,计算式为:

其中,i为输入特征图的索引,j为输出特征图的索引,nin为输入特征图个数,l为网络层的索引,表示第l层网络的第j个输出特征图,表示第l层网络的第i个输入特征图对应的卷积核,为偏置;

使用下采样函数down对上一层输出的特征图进行下采样,计算式为:

其中,为偏置;

获取网络结构中最后的下采样层输出的一系列特征图将每一个特征图中的像素依次取出,拼接成一个向量,向量形式为:

s406)、将拼接后的向量rl作为全连接层的输入,其计算式为:xl=f(wlrl+bl),

其中,wl表示第l层的权重矩阵,bl表示第l层的偏置;

s407)、将全连接层输出的向量xl,经激活函数计算得到最后的预测值yi,其计算式为:

yi=g(uxl+c),

其中,u为权重矩阵,c为偏置;

s408)、使用交叉熵损失函数,计算预测值yi与真实值的损失函数值,并最小化损失函数值,其计算式为:

其中,i为人脸图像数据的索引,j为人脸图像数据所属8类情绪标识的索引;

s408)、通过随机梯度下降法,调整网络权重k、w、u和偏置a、β、b、c,根据更新后的网络权重k、w、u和偏置a、β、b、c,重新计算上述损失函数值,不断迭代直至损失函数值不再减小或到达设定的迭代次数,得到训练好的基于卷积神经网络的人脸情绪识别模型;

上述技术方案中,步骤s6)中,异常情绪检测和定位还包括以下步骤:

s601)、通过情绪异常检测和定位模型,获取人群情绪的预测结果是否异常;

s602)、若预测结果标识为异常,利用人脸情绪识别模型,输出监测视频数据中存在异常的个体对应的情绪变化情况;

s603)、根据监测视频数据中具体人群中个体情绪异常情况,根据出现异常的个体数情况从而判定当前视频人群异常检测结果属于整体异常还是局部异常情况,若出现异常的个体数超过检测到的个体数的50%,则判定当前视频人群异常检测结果属于整体异常。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1