一种利用红外摄像头的室内人员跌倒检测方法与流程

文档序号:24379941发布日期:2021-03-23 11:14阅读:367来源:国知局
一种利用红外摄像头的室内人员跌倒检测方法与流程

本发明涉及防跌倒技术领域,特别涉及一种利用红外摄像头的室内人员跌倒检测方法。



背景技术:

跌倒是人类常见的伤害事件,智能识别室内活动人员的安全异常情况尤为重要。考虑到各种室内场景,尤其是安装在敏感区域的摄像头应当充分保证人员的隐私安全。

目前对于人员跌倒检测有两种基本做法:一是基于可穿戴设备,通过传感器进行跌倒检测;二是基于计算机视觉,利用摄像头采集视频信息,利用图像处理技术进行处理后从而进行跌倒检测。但是传统的检测方法识别时间较长,准确率低。



技术实现要素:

本发明的目的在于提供一种利用红外摄像头的室内人员跌倒检测方法,以解决传统的检测方法识别时间较长、准确率低,并且无法保护个人隐私的问题。

为解决上述技术问题,本发明提供了一种利用红外摄像头的室内人员跌倒检测方法,包括:

步骤1、收集人体基本姿态的红外视频数据集,根据是否发生跌倒行为将数据训练分为正、负样本集合,并且标记好相应的类别标签;

步骤2、从样本集合中逐个提取视频中的红外热成像图像帧序列,进行图像预处理;

步骤3、构建红外视频数据的光流帧生成网络,并采用标注好的数据集训练生成光流帧生成网络;

步骤4、采用步骤2中得到的红外热成像图像帧序列,输入到训练好的光流帧生成网络,生成表征视频数据中人体姿态信息的光流帧序列;

步骤5、以光流帧序列作为输入,构建长时递归卷积神经网络,并利用步骤1中得到的数据集训练该网络;

步骤6、级联步骤3的光流帧生成网络和步骤5的长时递归卷积神经网络,获得人体姿态预测模型;

步骤7、获取待识别人体姿态视频,经步骤2处理后得到红外热成像图像帧序列,输入到人体姿态预测模型,识别出红外视频中是否存在人员跌倒。

可选的,所述步骤2中的图像预处理包括:

头部粗定位,寻找头部的大致位置,即找到头部区域的像素;

头部精确定位,寻找头部区域的中心点;以及,人体躯干定位。

可选的,所述头部粗定位包括如下步骤:

根据常识可知人体头部的温度较高,反映在红外图像中即头部区域的亮度较高,由此锁定头部的粗略位置;

首先对红外图像统一缩放为ω×h的大小,进行标准化,ω,h分别是标准化图像的宽和高;

再进行二值化,取二值化后取值为真的像素组成头部候选区域,人的头部处于图像中间偏上位置;由此,利用空间位置约束,对于头部粗定位即可建模为一个优化问题:

其中,ω表示二值化图像的像素集合,fb(x,y)表示二值化图像中坐标为(x,y)的像素的值,人体头部初始位置设为(ω/2,h/6),表示初始位置与(x,y)之间的距离,其定义如下:

其中,λ是横纵距离代价的权值;当λ=1时,表示与(x,y)之间的欧氏距离;考虑到人体头部在图像横向的中间位置,因此横向距离高于纵向距离的代价,式中λ取值为1.5;

人体头部粗定位的优化问题通过按距离递增,遍历二值化图像,寻找取值为真的像素点的方式快速求解。

可选的,所述头部精确定位包括如下步骤:

将头部粗定位的结果作为输入,搜索亮度最高的像素的位置作为头部中心位置;头部精确定位可以建模为以下优化问题:

其中,fs(x,y)表示标准化红外图像中坐标为(x,y)的像素的值,ω表示标准化红外图像的像素集合;

在给定的粗定位为中心的局部区域中定位人体头部中心的过程是一个单峰搜索的过程,利用爬山法实现人体头部精确定位。

可选的,所述人体躯干定位包括如下步骤:

首先根据头部定位的结果划分躯干的候选区域,通过候选区域中各个像素垂直投影得到候选区域的累加直方图;取其中最大值对应的横坐标作为躯干的水平偏移量,记为x0

由此,人体躯干的中心位置为:(xb,yb)=(xh+x0,yh+h2/2);

其中,h2表示人体躯干的高度,设为3h/8;根据人体图像模型的先验研究,所估计的躯干中心位置应当有如下约束:头部中心位置与躯干中心位置的连线与图像垂线的夹角不大于12°;若此约束条件不满足,将重新计算躯干的位置。

可选的,所述光流帧生成网络包括:光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法;

光流图像帧提取网络采用了基于卷积神经网络的网络模型flownet2.0,该模型的网络架构采用了堆叠方式,由基础网络flownetc(flownetcorrelation)和flownets(flownetsample)组成,通过网络架构的重设计实现视频段中大位移和小位移的有效处理;

flownets(flownetsimple)是直接将两张图像按通道维重叠后输入;flownetc(flownetcorr)为了提升网络的匹配性能,人为模仿标准的匹配过程,设计出“互相关层”,即先提取特征,再计算特征的相关性;相关性的计算实际上是两张图像的特征在空间维做卷积运算。

可选的,所述步骤4中,生成光流帧序列的过程如下:

(1)将红外热成像图像序列中的前后两帧:图像一和图像二,输入到光流帧生成网络中的flownetc网络中,生成光流子图一;

(2)将图像一、图像二、图像二的双线性插值图、光流子图一以及亮度误差图,一起输入光流帧生成网络的flownets网络中,生成光流子图二;

(3)将图像一、图像二、图像二的双线性插值图、光流子图二以及亮度误差图,一起输入光流帧生成网络的flownets网络中,生成光流子图三;

(4)将红外热成像图像序列中的前后两帧:图像一和图像二,输入到光流帧生成网络中的flownetsd网络中,生成光流子图四;

(5)光流子图三、光流子图四以及亮度误差图,一起输入卷积神经网络中,生成光流帧序列。

可选的,所述步骤5包括:

(1)利用红外探测器,获取人体行为视频段;

(2)编写图像帧提取算法,提取红外视频中的图像帧序列;

(3)将红外图像帧序列作为hw-flownet光流提取网络的输入;

(4)读取第一帧视频帧,并设当前读取帧数为n,初始值设为1;

(5)判定当前帧编号n+30是否大于输入红外视频图像帧的总帧数n;

(6)若是,则结束光流帧预测;

(7)若否,则继续读取第n+30帧视频帧;

(8)将读取的n帧和n+30帧代入hw-flownetcss和hw-flownetsd,得到两个预测光流帧;然后采用图像融合方法实现,生成最终的预测光流帧;

(9)执行n=n+1操作;

(10)跳至(5),继续判定。

可选的,构建长时递归卷积神经网络的过程如下:

(1)将光流帧序列的每一帧输入以残差网络为基础网络的卷积神经网络,提取特征向量,从而获得特征向量序列;

(2)将特征向量序列输入长短期记忆网络,将长短期记忆网络的输出作为后续全连接层的输入;

(3)基于特征向量序列,采用svm支持向量机二分类器预测每帧图像中对应的人员是否跌倒。

可选的,所述步骤7中,人体姿态预测模型的应用过程如下:

(1)设置待识别视频段为vd=[i1,i2,……,in],vd的每一帧in(1≤n≤n)经过所述人体姿态预测模型,得到检测到人员是跌倒和未跌倒的预测概率分别是由此可得到vd在时间域模型下的预测概率矩阵:

(2)对是否跌倒的两种行为类型而言,其平均预测概率为:

(3)由此得到视频段vd在时间域下的预测概率向量:

(4)最后,取向量pa的最大值对应的行为类型作为视频段的行为类型识别结果。

可选的,所述视频数据集收集的来源包括监控系统的成像设备、视频网站和人体红外视频公共视频库。

在本发明提供的利用红外摄像头的室内人员跌倒检测方法中,读取测试红外视频段;基于视频提取算法提取红外视频帧;光流视频帧序列输入行为预测模型,得到人体行为预测结果;基于lrcn模型,得到最终的行为预测结果。

本发明具有以下有益效果:

(1)红外摄像头可以布设在洗手间,医院,养老院等需要着重注意人员是否跌倒的场所,有着广阔的应用场景,并且利用红外摄像头的优势在于热成像原理可以有效保护人员的隐私;

(2)利用三分图生成算法对红外图像帧进行预处理,能够有效滤除环境干扰,为后续的识别算法降低难度;

(3)采用光流法对图像进行处理,能够有效识别出人体的姿态动作,尤其是对于跌倒这样一个比较大的姿态幅度有很好的检测效果;

(4)一旦检测到有人员跌倒,可以实时报警,根据摄像头的设备id号定位跌倒人员的位置。

附图说明

图1是本发明提供的利用红外摄像头的室内人员跌倒检测方法流程示意图;

图2是基于全自动抠图的红外目标增强方法示意图;

图3是人体区分示意图;

图4是lrcn模型示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种利用红外摄像头的室内人员跌倒检测方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。

实施例一

本发明提供了一种利用红外摄像头的室内人员跌倒检测方法,其流程如图1所示,包括如下步骤:

步骤s11:从监控系统的成像设备,或者视频网站,或者人体红外视频公共视频库中,收集人体基本姿态的红外视频数据集。根据视频片段中是否发生跌倒行为将训练数据分为正、负样本集合,并且标记好相应的类别标签;

步骤s12:从样本集中逐个提取视频中的红外热成像图像帧序列并进行图像预处理;

红外图像相对于可见光图像来讲,有着不受光照因素影响,且具有保护人员隐私的独特优势,但是其存在分辨率低以及颜色信息缺失的问题,导致可用信息非常有限。考虑到自然图像抠图技术提供了一种从杂乱背景中精确分离前景的工具,因此利用如图2所示的一种基于自动抠图增强的红外目标增强的算法对这些图像进行预处理,提高检测准确率。

该图像预处理的过程实现了对前景目标的增强以及对无关背景的抑制,能“专注于”感兴趣的前景物体(人体)的特征,产生的三分图提供人体的头部和躯干部分区域、部分的背景区域,其余为未知区域。三分图自动生成算法首先对人体头部进行定位,然后利用头部和躯干之间的约束对躯干部位进行定位。

面向红外目标的三分图自动生成算法:

(1)头部粗定位:目标是寻找出人头部的大致位置,即找到头部区域的像素。根据常识可知人体头部的温度较高,反映在红外图像中即头部区域的亮度较高,由此锁定头部的粗略位置;对红外图像统一缩放为ω×h的大小,进行标准化,ω,h分别是标准化图像的宽和高;再进行二值化,取二值化后取值为真的像素组成头部候选区域,人的头部通常处于图像中间偏上位置;由此利用空间位置约束,对于头部粗定位即可建模为一个优化问题:

其中,ω表示二值化图像的像素集合,fb(x,y)表示二值化图像中坐标为(x,y)的像素的值,人体头部初始位置设为(ω/2,h/6),表示初始位置与(x,y)之间的距离,其定义如下:

其中,λ是横纵距离代价的权值。当λ=1时,表示与(x,y)之间的欧氏距离。考虑到人体头部通常在图像横向的中间位置,因此横向距离高于纵向距离的代价,式中λ取值为1.5。人体头部粗定位的优化问题可以通过按距离递增,遍历二值化图像,寻找取值为真的像素点的方式快速求解。

(2)头部精确定位:寻找人体头部区域的中心点。由于人体的体温在大部分情况下比背景物体的温度高,所以人体的头部较背景区域辐射出更多的能量,在远红外图像中表现为人体头部区域比背景区域亮。此外,远红外成像时头部中心区域有更多的能量可以入射到传感器中,使得头部中心区域比头部的边缘区域更亮,因此,头部中心点是个局部极大值。头部精确定位将头部粗定位的结果作为输入,在局部区域中搜索人体头部的中心位置,最终使用亮度最高的像素的位置作为头部中心位置。头部精确定位可以建模为以下优化问题:

其中,fs(x,y)表示标准化红外图像中坐标为(x,y)的像素的值,ω表示标准化红外图像的像素集合,表示坐标与坐标(x,y)之间的欧氏距离,h1是人体头部区域的高,取值为h/16。在给定的粗定位为中心的局部区域中定位人体头部中心的过程可以认为是一个单峰搜索的过程,利用爬山法实现人体头部精确定位。

(3)人体躯干定位:如图3所示,首先根据头部定位的结果划分躯干候选区域,对所有候选区域中各个像素垂直投影得到累加直方图,取累加直方图中最大值记为x0,作为躯干的水平偏移量。

则人体躯干的中心位置为:(xb,yb)=(xh+x0,yh+h2/2)

其中,h2表示人体躯干的高度,取值为3h/8;xh为人体头部中心点的横向坐标,yh为人体头部中心点的纵向坐标。根据人体图像模型的先验研究,所估计的躯干中心位置应当有如下约束:头部中心位置与躯干中心位置的连线与图像垂线的夹角不大于12°。若该约束不满足,重新计算躯干的位置。

由此三分图按照如下方式生成:事先规定好人体头部和躯干的三分图模板,设置为标准化后图像同样大小取值全为零的单通道图像。将模板的头部和躯干的锚点分别与估计的人体头部中心和躯干的中心位置对齐。由此得到了面向红外目标的三分图。

步骤s13:构建红外视频数据的光流帧生成网络,并采用标注好的数据集训练生成光流帧生成网络;

光流帧生成网络包括:光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

光流图像帧提取网络采用了基于卷积神经网络的网络模型flownet2.0,该模型的网络架构采用了堆叠方式,由基础网络flownetc(flownetcorrelation)和flownets(flownetsample)组成,通过网络架构的重设计实现视频段中大位移和小位移的有效处理。flownets(flownetsimple)通常是直接将两张图像按通道维重叠后输入。flownetc(flownetcorr)为了提升网络的匹配性能,人为模仿标准的匹配过程,设计出“互相关层”,即先提取特征,再计算特征的相关性。相关性的计算实际上可以看做是两张图像的特征在空间维做卷积运算。

步骤s14:采用步骤2中得到的红外热成像图像帧序列,输入到训练好的光流帧生成网络,从而生成表征视频数据中人体姿态信息的光流帧序列;

生成光流帧序列的过程如下:

(1)将红外热成像图像序列中的前后两帧:图像一和图像二,输入到光流帧生成网络中的flownetc网络中,生成光流子图一;

(2)将图像一、图像二、图像二的双线性插值图、光流子图一以及亮度误差图,一起输入光流帧生成网络的flownets网络中,生成光流子图二;

(3)将图像一、图像二、图像二的双线性插值图、光流子图二以及亮度误差图,一起输入光流帧生成网络的flownets网络中,生成光流子图三;

(4)将红外热成像图像序列中的前后两帧:图像一和图像二,输入到光流帧生成网络中的flownetsd网络中,生成光流子图四;

(5)光流子图三、光流子图四以及亮度误差图,一起输入卷积神经网络中,生成光流帧序列。

基于卷积神经网络的红外视频段光流图像帧提取网络训练步骤:

(1)利用红外探测器,获取人体行为视频段;

(2)编写图像帧提取算法,提取红外视频中的图像帧序列;

(3)将红外图像帧序列作为hw-flownet光流提取网络的输入;

(4)读取第一帧视频帧,并设当前读取帧数为n,初始值设为1;

(5)判定当前帧编号n+30是否大于输入红外视频图像帧的总帧数n;

(6)若是,则结束光流帧预测;

(7)若否,则继续读取第n+30帧视频帧;

(8)将读取的n帧和n+30帧代入到hw-flownetcss和hw-flownetsd,得到两个预测光流帧;然后采用图像融合方法实现,生成最终的预测光流帧;

(9)执行n=n+1操作;

(10)跳至(5),继续判定。

步骤s15:以步骤4得到的光流帧序列作为输入,构建长时递归卷积神经网络(lrcn),并利用步骤s11中得到的数据集训练该网络;

构建长时递归卷积神经网络(long-termrecurrentconvolutionalnetwork,lrcn)过程如下:

(1)将光流帧序列的每一帧输入以残差网络为基础网络的卷积神经网络,提取特征向量,从而获得特征向量序列;

(2)将特征向量序列输入长短期记忆网络,将长短期记忆网络的输出作为后续全连接层的输入;

(3)基于特征向量序列,采用svm支持向量机二分类器预测每帧图像中对应的人员是否跌倒;

lrcn(long-termrecurrentconvolutionalnetworks,长时递归卷积神经网络)模型如图4所示,lrcn人体行为识别网络的训练步骤:

(1)采用随机初始化的方法对i3d网络的参数初始化(权值初始化为一个标准差为0.1的正态分布噪声,偏置值初始化为0);

(2)读取红外人体热成像数据子集;

(3)在子集上对基于i3d的lrcn网络进行预训练;

(4)读取训练样本的图像帧,并设置迭代次数i=1,初始学习率α=0.001,学习率衰减次数k=1,n为模型训练总共迭代的次数,n表示每经过n次迭代学习率衰减一次;

(5)判断当前迭代次数i是否小于等于总的迭代次数n,如果是,则转至(6),否则结束当前训练;

(6)判断当前迭代次数i是否等于n次迭代与学习率衰减次数k的乘积,如果是在,则转至(7),否则转至(8);

(7)迭代n次后,学习率α降至原学习率的10%,学习率衰减次数加1;

(8)计算损失值,并更新权值和偏置;

(9)迭代次数i加1,并转至(5)。

步骤s16:级联步骤3的光流帧生成网络和步骤5的长时递归卷积神经网络,获得人体姿态预测模型;

步骤s17:获取待识别人体姿态视频,经步骤2处理后得到红外热成像图像帧序列,输入到人体姿态预测模型,识别出红外视频中是否存在跌倒行为。

步骤7中,人体姿态预测算法的应用过程如下:

(1)设置待识别视频段为vd=[i1,i2,……,in],vd的每一帧in(1≤n≤n)经过时间域模型,得到检测到人员是跌倒和未跌倒的预测概率分别是由此可得到vd在时间域模型下的预测概率矩阵:

(2)对是否跌倒的两种行为类型而言,其平均预测概率为

(3)由此得到视频段vd在时间域模块下的预测概率向量pa:

是人员跌掉的平均预测概率,是人员未跌倒的平均预测概率。

(4)最后,取向量pa的最大值对应的行为类型作为视频段的行为类型识别结果。

本发明利用红外摄像头,可以安装在一些敏感区域,例如洗手间、卧室等环境,红外摄像头拍摄的红外图像能够有效保证室内人员的隐私安全,并且在夜晚仍然具有良好的检测识别效果,确保行动不便的人员在夜间行为的安全保障,存在较高的实际运用价值。基于深度学习的人体姿态识别算法相较于传统先提取手工特征(hog,hof,densetrajectories等),然后使用分类器进行分类的做法相比,具有识别时间短,识别准确率高等显著优点。

上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1