基于深度摄像头的多模态信息融合的学习专注度分析方法与流程

文档序号:11408272阅读:165来源:国知局
基于深度摄像头的多模态信息融合的学习专注度分析方法与流程

本发明涉及智能分析领域,具体涉及一种基于深度摄像头的多模态信息融合的学生学习时专注度分析的方法。



背景技术:

学生学习时的专注度一直是家长所关心的重要问题。自制能力差的学生往往因为专注度不够而影响学习效率,造成原本只需很短时间即可完成的作业花费了大量时间也没能完成。目前已经有通过可穿戴设备去监测专注度的方法,但需要学生佩戴额外的设备,影响其舒适性,甚至因此而导致学生专注度下降。

如今家长可以通过安装摄像头来监控孩子学习时的视频录像,观察其在学习时有没有做与学习无关的事,这不仅耗费家长的时间来观看录像,而且也不能分析出孩子学习过程中是否专注。例如:家长在录像中看到孩子长时间坐在书桌前,但却不知道孩子大多数时间可能处于发呆或者犯困的状态。针对这种局限性,我们需要一种有效的智能分析学生学习时的专注度的方法。



技术实现要素:

为克服现有的专注度分析方法的不足,本发明提出基于深度摄像头的多模态信息融合的学习专注度分析的方法,具体技术方案如下。

基于深度摄像头的多模态信息融合的学生学习专注度分析方法,包含数据获取,专注度初始化,睡眠判断,发呆判断,专注度计算,专注度归零,专注度输出。

所述数据获取获得并存储用于专注度分析的视频数据;所述专注度初始化在每一次数据获取之前初始化专注度为一个常数;所述睡眠判断分析学生是否在学习时进入睡眠状态;所述发呆判断分析学生是否在学习时进入发呆状态;所述专注度计算,在所述睡眠判断判定为非睡眠状态,所述发呆判断判定为非发呆状态时,利用所述数据获取保存的数据来计算出专注度值;所述专注度归零,在所述睡眠判断判定睡眠状态,或者所述发呆判断判定为发呆状态时,输出零作为专注度的值;所述专注度输出,即将所述专注度计算的结果或所述专注度归零的结果作为一段时间内的专注度。

进一步地,所述初始化专注度为一常值具体是,获取一段时间内的视频数据,并进行睡眠判断,若判定为睡眠状态,则专注度归零,输出零作为该段时间内的专注度;若判定为非睡眠状态,则进行发呆判断。若发呆判断判定为发呆状态,则专注度归零,输出零作为该段时间内的专注度;若判定为非发呆状态,则利用该段时间内的视频数据进行专注度计算,并将计算后的结果作为该段时间内的专注度。

进一步地,所述数据获取采用深度摄像头获取多种类型的数据。包括面部表情(闭左眼,闭右眼,抬眉、吐舌头、嘟嘴、鼓腮、咧嘴笑的置信度得分,均为0-100),眼睛视线(向左看,向右看的程度),头部角度(向右扭,向上抬,向右肩倾斜的程度)和人脸矩形(人脸矩形框左上角坐标,宽度,高度)。

进一步地,所述睡眠判断包括时间初始化,短时间内连续视频帧数据获取,闭眼判断,头部稳定性判断,时间增加,持续时间判断。通过分析短时间内连续几帧双眼是否闭合及头部是否达到类似睡眠时的稳定性来决定是否符合睡眠的动作标准,只要其中一项不满足即为非睡眠状态,若符合睡眠的动作标准则再分析达到动作标准的持续时间是否够达到睡眠的时间标准。若时间标准也符合,则判定为睡眠状态,若时间标准未达到则返回数据获取,进行下一个短时间周期的判断,直到有状态输出。

进一步地,所述发呆判断包括时间初始化,短时间内连续视频帧数据获取,视线判断,头部稳定性判断,人脸稳定性判断,时间增加,持续时间判断。通过分析短时间内连续几帧双眼视线是否呆滞,头部是否达到类似发呆时的稳定性,人脸是否达到类似发呆时的稳定性来决定是否符合发呆的动作标准,只要其中一项不满足即为非发呆状态,若符合发呆的动作标准则再分析达到动作标准的持续时间是否够达到发呆的时间标准。若时间标准也符合,则判定为发呆状态,若时间标准未达到则返回数据获取,进行下一个短时间周期的判断,直到有状态输出。

进一步地,所述专注度计算包括“鬼脸”计算和“左顾右盼”计算两部分。“鬼脸”计算主要通过所述数据获取存储的部分面部表情动作(抬眉、吐舌头、嘟嘴、鼓腮、咧嘴笑)去分析,表情动作越多,动作幅度越大,专注度下降越明显。“左顾右盼”计算主要通过所述数据获取存储的眼睛视线(向左看,向右看),头部角度(向右扭,向上抬,向右肩倾斜),人脸矩形框(左上角横坐标,左上角纵坐标,宽,高)数据去分析,眼睛视线摆动越大,头部晃动越频繁,人脸位置变化越显著,则专注度下降越明显。

1.根据权利要求1所述的专注度分析方法,其特征在于,所述专注度分析采用多模态信息融合的方法,即结合了深度摄像头获取的多种不同类型数据来分析。

与现有技术相比,本发明具有如下优点和技术效果:

本发明使用深度摄像头获得学生的面部表情置信度,眼睛视线位置,头部角度及人脸矩形等参数,通过多模态信息融合的方法智能分析学生学习时的专注度。本发明方法通过深度摄像头可以实时提取视野内学生的彩色和深度视频流,分析学生的面部表情,眼睛视线,头部角度及人脸矩形等相关参数,从而做到一种实时性强,信息种类多,准确度高的专注度分析。

附图说明:

图1为学生学习专注度分析方法总体流程图;

图2为图一专注度分析中睡眠判断具体流程图;

图3为图一专注度分析中发呆判断具体流程图;

图4为图一专注度分析中专注度计算具体流程图。

具体实施方式:

下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。

如图1所示,一种基于realsense深度摄像头的多模态信息融合的学生学习专注度分析方法,包括数据获取,专注度初始化,睡眠判断,发呆判断,专注度计算,专注度归零,专注度输出几个过程。

所述数据获取过程采用英特尔realsense深度体感摄像头放在学生书桌上,面对学生。实时获取学生学习时的彩色及深度数据。

所述专注度初始化过程,即在每一次获取数据分析专注度之前初始化专注度为一个常数,也就是满专注度值,如:100。

所述睡眠判断过程,通过双眼闭合是否达到一定时间,于此同时该时间内头部角度变化是否足够小来判断学生是否在学习时进入睡眠状态。

所述发呆判断过程,通过分析一定时间内视线是否几乎不移动,头部角度变化以及人脸位置变化是否足够小来判断学生是否在学习时进入发呆状态。

所述专注度计算过程,在学生既不处在睡眠状态,也不处于发呆状态时通过一段时间内面部表情,眼睛视线,头部角度及人脸矩形的变化来计算出一个值作为该段时间的专注度。

所述专注度归零过程,即在学生处于睡眠或发呆状态时,认为学生完全不够专注,将零作为专注度的值输出。

所述专注度输出过程,即将一个专注度值代表一段时间内的专注度输出。

图一所示流程图在学生学习阶段是一个循环过程,即输出一段时间内的专注度之后立马进入下一个专注度分析时间段,如此往复。

如图2所示,专注度分析中睡眠判断的具体流程。包括时间初始化,短时间内连续视频帧数据获取,闭眼判断,头部稳定性判断,时间增加,持续时间判断几个具体步骤。

所述时间初始化,是在每次睡眠判断之前将计时器t清零,在之后配合时间增加步骤

继而进行持续时间判断。

所述短时间内连续视频帧数据获取,是指利用realsense获取面部表情中闭左眼(cle)和闭右眼(cre)的置信得分(得分范围为0-100,数值越大表示面部出现该表情动作的可能性越大)及头部角度参数(yaw为向右扭的程度,pitch为向上抬的程度,roll为向右肩倾斜的程度,数值越大则角度越大)。在帧率为30fps的情况下,本睡眠判断中具体可取0.5s内连续15帧的数据。

所述闭眼判断,即判断所抓取的每一帧数据里闭左眼和闭右眼的置信的分是否都超过阈值1(本睡眠判断中具体可取阈值1为90),若是,则闭眼判断成功,进入头部稳定性判断,否则闭眼判断失败,将状态确定为非睡眠状态。

所述头部稳定性判断,即判断短时间内头部是否处于类似睡眠时相对稳定的状态。实现上,可分别计算短时间内连续几帧向右扭,向上抬,向右肩倾斜的方差(具体为0.5s内连续15帧yaw,pitch和roll的方差var_yaw,var_pitch,var_roll),若三个方差足够小,即分别小于阈值2,阈值3,阈值4(具体可取阈值2为10,阈值3为5,阈值4为5),则判断头部较为稳定,进入时间增加步骤,若方差较大则头部不稳定,将状态确定为非睡眠状态。

所谓时间增加步骤,即当短时间内连续几帧数据满足了闭眼判断和头部稳定判断,要将计时器增加,进入下一个短时间段。

所谓持续时间判断,即在短时间内(0.5s)认为满足了闭眼和头部较为稳定的条件后,判断这种闭眼和头部稳定是否能持续一定的时间,达到睡眠状态的标准。若持续时间达到了阈值5(具体可取10s),则睡眠判断成功,将状态确定为睡眠状态;若持续时间未到阈值,则进入下一个短时间段(0.5s)进行闭眼和头部稳定性判断。

如图3所示,专注度分析中发呆判断的具体流程。包括时间初始化,短时间内连续视频帧数据获取,视线判断,头部稳定性判断,人脸稳定性判断,时间增加,持续时间判断几个具体步骤。

所述时间初始化,与睡眠判断中的类似,是在每次发呆判断之前将计时器t清零,在之后配合时间增加步骤继而进行持续时间判断。

所述短时间内连续视频帧数据获取,是指利用realsense获取眼睛视线向左看(lf)和向右看(lr)的程度(数值越大表示眼睛视线向此方向倾斜的程度越大),头部角度参数(yaw为向右扭的程度,pitch为向上抬的程度,roll为向右肩倾斜的程度,数值越大则角度越大)以及人脸矩形框参数((x,y)为人脸矩形左上角坐标,w为矩形宽度,h为1矩形高度值)。在帧率为30fps的情况下,本发呆判断中具体可取0.5s内连续15帧的数据。

所述视线判断,即判断短时间内视线是否呆滞。实现上,可分别计算短时间内连续几帧眼睛向左看和向右看的方差(具体为0.5s内连续15帧lf和lr的方差var_lf,var_lr),若两个方差足够小,即分别小于阈值6和阈值7(具体可取阈值6为100,阈值7为100),则判断视线较为呆滞,进入头部稳定性判断;否则视线处于活跃状态,将状态确定为非发呆状态。

所述头部稳定性判断,即判断短时间内头部是否处于类似发呆时相对稳定的状态。实现上,可分别计算短时间内连续几帧向右扭,向上抬,向右肩倾斜的方差(具体为0.5s内连续15帧yaw,pitch和roll的方差var_yaw,var_pitch,var_roll),若三个方差足够小,即分别小于阈值8,阈值9,阈值10(不同于睡眠状态的头部稳定性,发呆状态的头部稳定性较睡眠状态要低,具体可取阈值8为15,阈值3为10,阈值4为10),则判断头部较为稳定,进入时间增加步骤,若方差较大则头部不稳定,将状态确定为非发呆状态。

所述人脸稳定性判断,即判断短时间内学生的脸部是否处于类似发呆时相对稳定的状态。由于个体的差异性,部分人学习时面部会平行于摄像头平面进行移动造成头部扭动及视线变化并不明显,上述的视线判断和头部稳定性判断有可能将其误判为发呆,人脸稳定性判断就很好的解决了上述问题。实现上,可分别计算短时间内连续几帧人脸矩形宽度和高度的方差(具体为0.5s内连续15帧w和h的方差var_w,var_h),若两个方差足够小,即分别小于阈值12,阈值13(在像素为640*480的情况下具体可取阈值12为20,阈值13为15),同时要判断短时间内连续几帧人脸矩形左上角坐标(x,y)是否都在以(`x,`y)为圆心,一定阈值为半径的圆内(具体可取阈值11为10)。若上述几个条件都满足,则判断脸部较为稳定,进入时间增加步骤,否则脸部未满足发呆状态标准,将状态确定为非发呆状态。

所谓时间增加步骤,即当短时间内连续几帧数据满足了视线判断,头部稳定性判断和人脸稳定性判断,要将计时器增加,进入下一个短时间段。

所谓持续时间判断,即在短时间内(0.5s)认为满足了视线呆滞,头部和人脸都较为稳定的条件后,判断这种稳定状态是否能持续一定的时间,达到发呆状态的标准。若持续时间达到了阈值14(具体可取8s),则发呆判断成功,将状态确定为发呆状态;若持续时间未到阈值,则进入下一个短时间段(0.5s)进行视线,头部及人脸稳定性判断。

如图4所示,专注度分析中专注度计算具体流程图。排除了睡眠和发呆两种情况,专注度下降主要考虑“鬼脸”和“左顾右盼”。

其中“鬼脸”主要通过学生面部表情动作去分析,包括抬眉、吐舌头、嘟嘴、鼓腮、咧嘴笑等(置信得分的范围均为0-100)。对上述的每一种面部表情,若其在短时间内连续几帧的置信得分的均值超过阈值15而不超过阈值16,则将专注度在原有基础上乘以权值1;若连续几帧的置信得分的均值超过阈值16,则将专注度在原有基础上乘以权值2(具体为0.5s内连续15帧的均值大于0而不超过5,则将专注度乘以0.8;若均值大于5,则将专注度乘以0.7)。对上述提到的每一种表情都做此处理,故鬼脸动作越多,动作越大,专注度下降越明显。

“左顾右盼”主要通过眼睛视线,头部角度,人脸矩形框在短时间内的变化去分析。

对于眼睛视线,若向左看或向右看的程度在短时间内连续几帧的方差超过阈值17而不超过阈值18,则将专注度在原有基础上乘以权值3;若方差超过阈值18,则将专注度在原有基础上乘以权值4(具体为向左看或向右看的程度在0.5s内连续15帧的方差大于200而不超过500,则将专注度乘以0.9;若方差都大于500,则将专注度乘以0.8)。

对于头部角度,分别对向右扭的程度(yaw),向上抬的程度(pitch)和向右肩倾斜的程度(roll)进行判断处理。若其在短时间内连续几帧的方差超过阈值19而不超过阈值20,则将专注度在原有基础上乘以权值5;若方差超过阈值20,则将专注度在原有基础上乘以权值6(具体为每有一个头部角度参数在0.5s内连续15帧的方差大于25而不超过50,则将专注度乘以0.9;若方差大于50,则将专注度乘以0.8)。

对于人脸矩形的分析,分别对人脸矩形的左上角横坐标(x),左上角纵坐标(y),宽度(w),高度(h)进行判断处理。不同于发呆判断中将左上角坐标对作为一个整体去处理,这里将左上角坐标拆分为横坐标和纵坐标两个参数去处理。作为一个整体在判断其稳定性上更方便,而拆开则更适合不稳定性的判断。对上述四个参数,若其在短时间内连续几帧的方差超过阈值21而不超过阈值22,则将专注度在原有基础上乘以权值7;若方差超过阈值22,则将专注度在原有基础上乘以权值8(具体为每有一个人脸矩形的参数在0.5s内连续15帧的方差大于50而不超过100,则将专注度乘以0.9;若方差大于100,则将专注度乘以0.8)。

经过“鬼脸”及“左顾右盼”判分之后的专注度值则代表着该段短时间内的专注度,以该方法为例,在帧率为30fps的情况下,每15帧,即每0.5秒分析出一个专注度值。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1