人体行为检测方法、教师行为检测方法及相关系统和装置与流程

文档序号：22614411发布日期：2020-10-23 19:13阅读：178来源：国知局

本申请涉及人体行为检测技术领域，尤其是涉及一种人体行为检测方法、教师行为检测方法及相关系统和装置。

背景技术：

现今，在视频监控领域，对出现在监控图像中的人体进行行为检测，并对该人体的行为进行统计分析变得越来越重要。其中，通过对监控图像中目标人体当前的行为进行判断后归类，以能够根据相应的行为统计对目标人体的表演、教学效果或运动姿态等行为特征进行测评。例如，在学校，特别是小学、初中和高中的教育中，由于教师在讲台上的活动非常丰富，如对着ppt(powerpoint，幻灯片)进行讲解或通过写板书来开展教学工作，而在实际教学中，特别是在教学视频录播中，教师的背对状态及写板书的姿态会影响到学生的学习状态，此时教学督导组无法全方位定位到这些问题，从而不能对教师行为进行长期有效地监督，最终影响到对该教师的评估。

而近年来，随着互联网的发展，通过监控装置自动对目标人体进行行为检测，以进而统计评估的应用也得到了较大的发展。但是，在现有的视频监控的方式中，却鲜有对出现在监控区域中的目标人体的行为进行实时检测，以判断分类后进行统计分析，且也无法进行有效而准确地人体行为检测。

技术实现要素：

本申请主要解决的技术问题是提供一种人体行为检测方法、教师行为检测方法及相关系统和装置，该人体行为检测方法能够解决现有技术中无法对出现在监控图像中的目标人体进行实时，且有效而准确地人体行为检测的问题。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种人体行为检测方法，其中，该人体行为检测方法包括：监控装置获取到包括目标人体的监控图像，并在监控图像中确定目标区域；对监控图像中的目标人体进行定位，确定目标人体的位置信息；基于位置信息判断目标人体是否在目标区域内；如果目标人体在目标区域内，基于监控图像确定目标人体的朝向及动作中的至少一种特征信息；以及利用目标人体的预设关键点确定目标人体的动作；根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为。

其中，基于监控图像确定目标人体的朝向及动作中的至少一种特征信息的步骤包括：利用深度学习网络的分类模型对监控图像中目标人体的朝向和/或动作的类型进行分类预测，得到目标人体的朝向和/或动作。

其中，利用目标人体的预设关键点确定目标人体的动作的步骤包括：利用深度学习网络检测目标人体的预设关键点的位置，并根据预设关键点的位置对目标人体的行为类型进行分类，得到目标人体的动作。

其中，根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为的步骤具体包括：根据至少一种特征信息确定目标人体的当前行为，并通过目标人体的动作对确定的目标人体的当前行为的结果进行修正，以获取到目标人体当前行为的分类结果。

其中，利用深度学习网络的分类模型对监控图像中目标人体的朝向和/或动作的类型进行分类预测，得到目标人体的朝向和/或动作的步骤之前，还包括：对目标区域进行目标人体检测，以得到包括有目标人体检测框的特征图像；按照预设比例系数对特征图像中目标人体检测框的面积进行扩大，以对扩大后的目标人体检测框内的目标图像进行截取；利用深度学习网络的分类模型对监控图像中目标人体的朝向和/或动作的类型进行分类预测，得到目标人体的朝向和/或动作的步骤包括：利用深度学习网络的分类模型对目标图像中目标人体的朝向和/或动作的类型进行分类预测，得到目标人体的朝向和/或动作。

其中，监控装置获取到包括目标人体的监控图像，并从监控图像中确定目标区域的步骤具体包括：监控装置对设定监控区域进行实时监控，以在设定监控区域出现有目标人体时，获取到包括目标人体的监控图像；根据目标人体的活动区域在监控图像中划定出目标区域。

其中，对监控图像中的目标人体进行定位，确定目标人体的位置信息的步骤包括：利用经训练的检测网络模型对监控图像中的目标人体进行定位，以确定目标人体的位置信息。

其中，根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为的步骤之后，还包括：分别对在设定时间内目标人体的每一当前行为出现的次数、单次持续时间以及持续总时长进行统计，并显示本次统计结果。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种教师行为检测方法，其中，该教师行为检测方法包括：监控装置获取到包括教师的监控图像，并在监控图像中确定讲台区域；对监控图像中的教师进行定位，确定教师的位置信息；基于位置信息判断教师是否在讲台区域；如果教师在讲台区域，基于监控图像确定教师是否面向学生以及是否书写板书中的至少一种特征信息；以及利用教师的人体预设关键点确定教师的动作；根据至少一种特征信息以及教师的动作确定教师当前是否属于书写板书状态。

其中，根据至少一种特征信息以及教师的动作确定教师当前是否属于书写板书状态的步骤之后，还包括：分别对在设定时间内教师面向学生、背向学生非书写板书以及背向学生书写板书出现的次数、单次持续时间以及持续总时长进行统计，并显示本次统计结果。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种人体行为检测系统，其中，该人体行为检测系统包括智能终端以及与智能终端连接的摄像头；其中，摄像头用于获取包括目标人体的监控图像；智能终端用于接收摄像头发送的监控图像，并在监控图像中确定目标区域，以对监控图像中的目标人体进行定位，确定目标人体的位置信息，并基于位置信息判断目标人体是否在目标区域内，以在确定目标人体在目标区域时，基于监控图像确定目标人体的朝向及动作中的至少一种特征信息，以及利用目标人体的预设关键点确定目标人体的动作，以根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为。

为解决上述技术问题，本申请采用的第四个技术方案是：提供一种教师行为检测系统，其中，该教师行为检测系统包括智能终端以及与智能终端连接的摄像头；其中，摄像头用于获取包括教师的监控图像；智能终端用于接收摄像头发送的监控图像，并在监控图像中确定讲台区域，以对监控图像中的教师进行定位，确定教师的位置信息，并判断教师是否在讲台区域，以在确定教师在讲台区域时，确定教师是否面向学生以及是否书写板书中的至少一种特征信息，并利用教师的人体预设关键点确定教师的动作，以根据至少一种特征信息以及教师的动作确定教师当前是否属于书写板书状态。

为解决上述技术问题，本申请采用的第五个技术方案是：提供一种智能终端，其中，该智能终端包括相互耦接的存储器和处理器；存储器存储有程序数据；处理器用于执行程序数据，以实现如上任一项所述的检测方法。

为解决上述技术问题，本申请采用的第六个技术方案是：提供一种计算机可读存储介质，其中，该计算机可读存储介质存储有程序数据，程序数据能够被处理器执行以实现如上任一项所述的检测方法。

本申请的有益效果是：区别于现有技术，本申请中的人体行为检测方法通过监控装置获取到包括有目标人体的监控图像，并在该监控图像中确定目标区域，以对监控图像中的目标人体进行定位，确定目标人体的位置信息，并基于该位置信息判断目标人体是否在目标区域内，如果目标人体在目标区域内，基于监控图像确定目标人体的朝向及动作中的至少一种特征信息，以及利用目标人体的预设关键点确定目标人体的动作，以根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为，从而能够对出现在监控图像的目标区域中的目标人体进行实时行为检测，且通过融合两种对目标人体进行的行为检测判断的方式，有效地提升了最终行为判断的准确率。

附图说明

图1是本申请人体行为检测方法第一实施例的流程示意图；

图2是本申请人体行为检测方法第二实施例的流程示意图；

图3是本申请人体行为检测方法三实施例的流程示意图；

图4是本申请教师行为检测方法第一实施例的流程示意图；

图5是本申请教师行为检测方法第二实施例的流程示意图；

图6是本申请教师行为检测方法一具体应用场景的流程示意图；

图7是本申请人体行为检测系统一实施例的结构示意图；

图8是本申请教师行为检测系统一实施例的结构示意图；

图9是本申请智能终端一实施例的结构示意图；

图10是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

请参阅图1，图1是本申请人体行为检测方法第一实施例的流程示意图。本实施例包括如下步骤：

s11：监控装置获取到包括目标人体的监控图像，并在监控图像中确定目标区域。

具体地，监控装置获取到在其监控区域出现有目标人体的监控图像，以进一步在获取到的该监控图像中划定出一目标区域，例如，在该监控图像中的设定区域对应生成一检测框，以将该检测框内的区域确定为目标区域。

其中，该监控图像可以是监控视频，也可以是对该监控视频进行抽帧而获得的监控图片，本申请对此不做限定。

其中，目标人体是指监控装置进行人体行为检测的目标对象，目标区域是指监控图像中的一个指定区域，该区域可由用户指定，也可以由机器识别。以目标人体为教师，监控装置的监控区域为教室为例，该指定区域，也即目标区域主要是教师进行教学活动的讲台区域。

可选地，监控装置可以是具有视频监控功能的智能电子设备，例如，智能相机、智能机器人、无人机等智能电子设备中的一种，也可以是由摄像头以及与该摄像头建立有无线或有线通讯连接的智能终端组合而成的监控装置，其中，该智能终端可以是手机、平板电脑、计算机及服务器等中的一种，本申请对此不做限定。

s12：对监控图像中的目标人体进行定位，确定目标人体的位置信息。

具体地，对监控图像中的目标人体进行人体检测并定位，以确定该目标人体位于监控图像中的位置信息。其中，在一具体的实施例中，将该监控图像输入到监控装置内部集成的一经训练的检测网络模型中，以通过该检测网络模型得到该监控图像中目标人体在该监控图像中的位置信息。

s13：基于位置信息判断目标人体是否在目标区域内。

进一步地，监控装置基于目标人体在监控图像中的位置信息判断该目标人体是否在监控图像中的目标区域内，例如，判断该目标人体在监控图像中的位置信息是否与该目标区域在监控图像中的位置信息相匹配，也即判断该目标区域在监控图像中的位置信息是否包括有该目标人体在监控图像中的位置信息或该目标人体中心点处的位置信息，以进而判断该目标人体是否在该目标区域内。

在另一实施例中，监控装置分别在监控图像中的目标区域以及目标人体各关节点围成的区域对应生成一检测框和人体检测框，以通过判断该人体检测框是否在该检测框内的方式，进而判断该目标人体是否在目标区域内。

其中，如果目标人体在目标区域内时，则执行s14，如果目标人体不在目标区域内时，则执行s17。

s14：基于监控图像确定目标人体的朝向及动作中的至少一种特征信息。

具体地，在确定目标人体在监控图像的目标区域内时，进一步基于该监控图像确定目标人体的朝向及行为动作中的至少一种特征信息，例如，将该监控图像输入到一经训练的深度网络学习模型中，以确定该目标人体是否面向或背向监控镜头或一指定方向，并对该目标人体的当前行为动作进行分类，以确定该目标人体当前的行为是否属于设定动作中的一种，从而确定目标人体的朝向及动作中的至少一种特征信息。

s15：利用目标人体的预设关键点确定目标人体的动作。

具体地，当目标人体的当前行为表现为设定行为动作时，其相应的各关节点一般具有特定的相对位置关系，例如，其头部、腕关节、肘关节、肩关节及脚踝等重要关节点会与目标人体的当前行为对应表现为特定的相对位置关系，以能够通过检测目标人体的预设关键点的信息，也即目标人体各重要关节点的相对位置关系来确定目标人体当前的动作。

其中，预设关键点是指全部人体骨骼对应的17个关键点的位置处，其依次为人体的头部、颈部、左肩关节点、右肩关节点、左手肘关节、右手肘关节、左手腕关节、右手腕关节、左胸、右胸、左髋部、右髋部、骨盆、左膝关节、右膝关节、左脚踝、右脚踝。

s16：根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为。

具体地，在基于监控图像确定目标人体的朝向及动作中的至少一种特征信息后，进一步利用目标人体的预设关键点确定目标人体的动作，以在利用目标人体的预设关键点确定的目标人体当前的动作与基于监控图像确定的目标人体的动作不一致时，对基于监控图像给出的分类结果中召回率或置信度较低的结果进行删除，以提升对目标人体的行为类型进行分类的准确率，并最终确定目标人体的当前行为。例如，在基于监控图像通过经训练的深度学习网络的分类模型的确定目标人体当前动作为书写板书时，进一步利用目标人体的预设关键点再次对目标人体的当前动作进行检测分类，以在确定目标人体的当前动作不是书写板书，且通过深度学习网络的分类模型给出的当前动作为书写板书的结果的召回率较低时，删除基于监控图像给出的当前动作为书写板书的分类结果，以不断增删基于监控图像给出的分类结果，进而提升对目标人体的行为类型进行分类的准确率。

s17：继续保持实时监控。

具体地，在基于目标人体在监控图像中的位置信息判断该目标人体不在监控图像的目标区域内时，继续保持实时监控，而不对目标人体的行为动作进行检测判断。

区别于现有技术，本申请中的人体行为检测方法通过监控装置获取到包括有目标人体的监控图像，并在该监控图像中确定目标区域，以对监控图像中的目标人体进行定位，确定目标人体的位置信息，并基于该位置信息判断目标人体是否在目标区域内，如果目标人体在目标区域内，基于监控图像确定目标人体的朝向及动作中的至少一种特征信息，以及利用目标人体的预设关键点确定目标人体的动作，以根据至少一种特征信息以及目标人体的动作确定目标人体的当前行为，从而能够对出现在监控图像的目标区域中的目标人体进行实时行为检测，且在基于监控图像对目标人体的当前动作进行检测分类后，进一步通过对目标人体的预设关键点进行检测分类，以在确定其与基于监控图像给出的分类结果不一致时，将基于监控图像给出的分类结果中召回率或置信度较低的分类结果删除，以有效地提升对目标人体最终进行的行为判断的准确率。

请参阅图2，图2是本申请人体行为检测方法第二实施例的流程示意图。本实施例包括如下步骤：

s21：监控装置对设定监控区域进行实时监控，以在设定监控区域出现有目标人体时，获取到包括目标人体的监控图像。

具体地，监控装置对其设定监控区域进行实时监控，以在检测到其设定监控区域出现有目标人体时，获取包括有目标人体的监控图像，例如，截取出包括有目标人体的监控视频，或对该监控视频进行抽帧以获取到相应的包括有目标人体的监控图片，以将其发送给监控装置的处理中枢。

其中，设定监控区域是指监控装置被安装到指定区域后能够拍摄到的最大监控区域，该指定区域由用户确定。

s22：根据目标人体的活动区域在监控图像中划定出目标区域。

具体地，为对目标人体的行为动作进行检测，首先确定该目标人体在监控装置的监控区域中的主要活动区域，或针对该目标人体进行的行为检测的行为动作类别确定出该目标人体在监控装置的监控区域中的主要观察区域，以确定为目标区域，进而在相应的监控图像中划定出目标区域，例如，在该监控图像中的目标人体的活动区域对应生成一检测框，以将该检测框内的区域确定为目标区域。

s23：利用经训练的检测网络模型对监控图像中的目标人体进行定位，以确定目标人体的位置信息。

具体地，将获取到的监控图像输入到监控装置内部集成的一经训练的检测网络模型中，以通过该检测网络模型得到该监控图像中目标人体在该监控图像中的位置信息。

s24：基于位置信息判断目标人体是否在目标区域内。

进一步地，监控装置基于目标人体在监控图像中的位置信息，以判断该目标人体是否在确定的监控图像中的目标区域内，例如，判断该目标人体在监控图像中的位置信息是否与该目标区域在监控图像中的位置信息相匹配，也即判断该目标区域在监控图像中的位置信息是否包括有该目标人体在监控图像中的位置信息或其中心点处的位置信息，以进而判断该目标人体是否在该目标区域内。

在另一实施例中，监控装置分别在监控图像中的目标区域以及目标人体所在的位置处对应生成一检测框和人体检测框，以通过判断该人体检测框是否在检测框内的方式，进而判断目标人体是否在目标区域内。

其中，如果目标人体在目标区域内时，则执行s25，如果目标人体不在目标区域内时，则执行s29。

s25：利用深度学习网络的分类模型对监控图像中目标人体的朝向和/或动作的类型进行分类预测，得到目标人体的朝向和/或动作。

具体地，在确定目标人体在监控图像的目标区域内时，将该监控图像输入到一经训练的深度学习网络的分类模型中，以通过该分类模型对该监控图像中目标人体的朝向，例如，该目标人体属于面向或背向监控镜头或一指定方向的情况进行分类预测。其中，还可以通过该分类模型对该监控图像中目标人体的当前行为动作的类型进行分类预测，以获取到目标人体的朝向和/或动作。

其中，对目标人体的朝向进行的分类预测和对目标人体的动作类型进行的分类预测可以是利用同一个深度学习网络的分类模型，也可以是利用不同的深度学习网络的分类模型，本申请对此不做限定。

其中，对深度学习网络的分类模型的训练方法包括：获取到已标注目标人体朝向和动作的监控图像，以将该目标图像输入到预设网络模型中，通过该预设网络模型给出相应的分类预测结果，进而通过该分类预测结果和在监控图像中对目标人体已做的标注类型对预设网络模型进行训练，从而获取到深度学习网络的分类模型。

s26：利用深度学习网络检测目标人体的预设关键点的位置，并根据预设关键点的位置对目标人体的行为类型进行分类，得到目标人体的动作。

进一步地，将包括有目标人体，且该目标人体在监控图像中的目标区域内的监控图像输入到深度学习网络中，以通过该深度学习网络对目标人体的预设关键点的位置进行检测。

其中，当目标人体的当前行为表现为设定类型的行为动作时，其相应的各关节点一般具有特定的相对位置关系，例如，其头部、腕关节、肘关节、肩关节及脚踝等重要关节点会与目标人体的当前行为对应表现为特定的相对位置关系，例如，当目标人体正在书写板书时，其腕关节在目标人体站立方向上的位置高于其肩关节或肘关节的位置，以能够通过检测目标人体的预设关键点的位置，也即通过检测目标人体各重要关节点的相对位置关系来确定目标人体当前的动作。

其中，该深度学习网络能够根据检测到的预设关键点的位置对目标人体的行为类型进行分类，例如，该深度学习网络能够以监控图像左上角的顶点或左下角顶点为原点建立平面坐标系，并对目标人体上相应的预设关键点在该平面坐标系中的坐标值进行检测，进而能够根据预设的位置对应关系和预设关键点的坐标值对目标人体的行为类型进行分类，从而确定目标人体的动作。其中，该预设关键点可以根据需要合理选取目标人体上的重要关节点，如目标人体的头部、腕关节、肘关节、肩关节及脚踝等重要关节点中的任意两种或多种，本申请对此不做限定。

s27：根据至少一种特征信息确定目标人体的当前行为，并通过目标人体的动作对确定的目标人体的当前行为的结果进行修正，以获取到目标人体当前行为的分类结果。

具体地，首先利用深度学习网络的分类模型对监控图像中目标人体的行为类型进行分类，以根据目标人体的朝向及动作中的至少一种特征信息确定目标人体的当前行为，并进一步通过利用深度学习网络检测目标人体的预设关键点的位置对目标人体的行为类型进行分类，而得到目标人体的动作对根据至少一种特征信息确定的目标人体的当前行为的分类结果进行修正，例如，增删根据至少一种特征信息确定的目标人体的当前行为中召回率低的分类结果，以提升对目标人体的行为类型进行分类的准确率，从而获取到最终的目标人体当前行为的分类结果。

s28：分别对在设定时间内目标人体的每一当前行为出现的次数、单次持续时间以及持续总时长进行统计，并显示本次统计结果。

进一步地，监控装置分别对在设定时间内目标人体每一出现过的行为动作，例如，朝向一指定方向、背向该指定方向以及背向该指定方向做出设定动作等行为动作出现的次数、单次持续时间以及持续总时长进行统计，并通过该监控装置上的显示屏显示出本次统计结果，以能够根据本次统计结果对目标人体在设定时间内的行为进行分析或给出评分。

其中，该设定时间可以是45分钟或60分钟等任一合理时长中的一种，其可以由用户根据需要进行合理设定，本申请对比不做限定。

s29：继续保持实时监控。

请参阅图3，图3是本申请人体行为检测方法第三实施例的流程示意图。本实施例的人体行为检测方法是图2中的人体行为检测方法的一细化实施例的流程示意图，包括如下步骤：

s31：监控装置对设定监控区域进行实时监控，以在设定监控区域出现有目标人体时，获取到包括目标人体的监控图像。

s32：根据目标人体的活动区域在监控图像中划定出目标区域。

s33：利用经训练的检测网络模型对监控图像中的目标人体进行定位，以确定目标人体的位置信息。

s34：基于位置信息判断目标人体是否在目标区域内。

其中，s31、s32、s33以及s34分别与图2中的s21、s22、s23以及s24相同，具体请参阅s21、s22、s23以及s24及其相关的文字描述，在此不再赘述。

s35：对目标区域进行目标人体检测，以得到包括有目标人体检测框的特征图像。

具体地，在确定目标人体在监控图像的目标区域内时，对目标区域进行目标人体检测，以将目标人体各关节点围成的区域对应生成一检测框，从而获取到包括有目标人体检测框的特征图像。

s36：按照预设比例系数对特征图像中目标人体检测框的面积进行扩大，以对扩大后的目标人体检测框内的目标图像进行截取。

进一步地，按照预设比例系数对特征图像中目标人体检测框的面积进行扩大，例如，对目标人体检测框在目标人体站立方向上的两端分别延伸扩大10％，而在与目标人体站立方向垂直方向上的两端分别延伸扩大25％，以对扩大后的目标人体检测框内的图像进行截取，从而获取到相应的目标图像。

可理解的是，将目标人体当前的关节点围成的区域确定为的目标人体检测框，显然并不能完全囊括后续目标人体每一可能出现的行为动作，如伸展手臂或腿部，而在将目标人体检测框的面积进行扩大后再截图，则能够有效地在截图中显示出目标人体的每一行为动作，且留有余量。

在其他实施例中，对目标人体检测框进行扩大的预设比例系数还可以是其他组合，其可以由用户根据需要进行设定，以能够有效囊括目标人体的每一可能做到的行为动作为准，本申请对比不做限定。

s37：利用深度学习网络的分类模型对目标图像中目标人体的朝向和/或动作的类型进行分类预测，得到目标人体的朝向和/或动作。

进一步地，在获取到目标图像后，将该目标图像输入到一经训练的深度学习网络的分类模型中，以通过该分类模型对该目标图像中目标人体的朝向，例如，该目标人体属于面向或背向监控镜头或一指定方向的情况进行分类预测。其中，还可以通过该分类模型对该监控图像中目标人体的当前行为动作的类型进行分类预测，以获取到目标人体的朝向和/或动作。

其中，对深度学习网络的分类模型的训练方法包括：获取到已标注目标人体朝向和动作的目标图像，以将该目标图像输入到预设网络模型中，并通过该预设网络模型给出相应的分类预测结果，进而通过该分类预测结果和在目标图像中对目标人体已做的标注类型对预设网络模型进行训练，从而获取到深度学习网络的分类模型。

可理解的是，相较于利用深度学习网络的分类模型直接对监控图像中目标人体的朝向和/或动作的类型进行分类预测，通过目标图像进行相应的模型训练，并通过分类模型给出分类结果，显然更能突出目标图像中目标人体的动作特征，从而能够有效提升对目标人体的朝向和/或动作的类型给出分类结果的准确率，且有效地降低了相应监控装置的计算量。

s38：利用深度学习网络检测目标人体的预设关键点的位置，并根据预设关键点的位置对目标人体的行为类型进行分类，得到目标人体的动作。

s39：根据至少一种特征信息确定目标人体的当前行为，并通过目标人体的动作对确定的目标人体的当前行为的结果进行修正，以获取到目标人体当前行为的分类结果。

s310：分别对在设定时间内目标人体的每一当前行为出现的次数、单次持续时间以及持续总时长进行统计，并显示本次统计结果。

s311：继续保持实时监控。

其中，s38、s39、s310以及s311分别与图2中的s26、s27、s28以及s29相同，具体请参阅s26、s27、s28以及s29及其相关的文字描述，在此不再赘述。

请参阅图4，图4是本申请教师行为检测方法第一实施例的流程示意图。其中，本实施方式的教师行为检测方法为上述人体行为检测方法的具体应用。本实施例包括如下步骤：

s41：监控装置获取到包括教师的监控图像，并在监控图像中确定讲台区域。

具体地，监控装置获取到在其监控区域出现有教师的监控图像，以进一步在获取到的该监控图像中划定出讲台区域，例如，在该监控图像中教师进行教学活动的讲台区域对应生成一检测框，以将该检测框内的区域确定为讲台区域。

其中，该监控图像可以是监控视频，也可以是对该监控视频进行抽帧而获得的监控图片，本申请对此不做限定。

s42：对监控图像中的教师进行定位，确定教师的位置信息。

具体地，对监控图像中的教师进行人体检测并定位，以确定该教师位于监控图像中的位置信息。其中，在一具体的实施例中，将该监控图像输入到监控装置内部集成的一经训练的检测网络模型中，以通过该检测网络模型得到该监控图像中教师在该监控图像中的位置信息。

s43：基于位置信息判断教师是否在讲台区域。

进一步地，监控装置基于教师在监控图像中的位置信息判断该教师是否在监控图像中的讲台区域内，例如，判断该教师在监控图像中的位置信息是否与该讲台区域在监控图像中的位置信息相匹配，也即判断该讲台区域在监控图像中的位置信息是否包括有该教师在监控图像中的位置信息或该教师对应图像的中心点处的位置信息，以进而判断该目标人体是否在该讲台区域内。

在另一实施例中，监控装置分别在监控图像中的讲台区域以及教师各关节点围成的区域对应生成一检测框和人体检测框，以通过判断该人体检测框是否在该检测框内的方式，进而判断教师是否在讲台区域内。

其中，如果教师在讲台区域内时，则执行s44，如果教师不在讲台区域内时，则执行s47。

s44：基于监控图像确定教师是否面向学生以及是否书写板书中的至少一种特征信息。

具体地，在确定教师在监控图像的讲台区域内时，进一步基于该监控图像确定教师是否面向学生，例如，将该监控图像输入到一经训练的深度网络学习模型中，以确定该教师是否面向学生，并确定该教师是否正在书写板书，从而确定该教师是否面向学生以及是否书写板书中的至少一种特征信息。

s45：利用教师的人体预设关键点确定教师的动作。

具体地，当教师正背向学生且书写板书时，其相应的各重要关节点一般具有特定的相对位置关系，例如，其左手或右手的腕关节在该教师站立方向上的位置高于该教师对应的肩关节或肘关节的位置，以能够通过检测教师的人体预设关键点的位置，也即通过检测该教师各重要关节点的相对位置关系来确定教师当前的动作。

s46：根据至少一种特征信息以及教师的动作确定教师当前是否属于书写板书状态。

具体地，在实际教学中，特别是在教学视频录播中，因教师的背对状态及写板书的姿态会影响到学生的学习状态，而此时教学督导组无法全方位定位到这些问题，从而不能对该教师的行为进行长期有效地监督，以最终影响到对该教师的评估，而录播教育在现代教育中却有着重要的作用。其中，录播教育主要是将教师的授课过程通过视频录下来，以将该视频播放给学生学习，但教师的背对行为以及书写板书的姿态等行为对教学效果有很大的影响。

因而对教师的背对和写板书等行为进行实时的检测和行为统计分析也便显得尤为重要，在一实施例中，在基于监控图像确定出教师是否属于面向学生以及是否正在书写板书中的至少一种特征信息后，进一步利用教师的人体预设关键点确定教师的动作，以在利用教师的人体预设关键点确定的教师当前的动作与基于监控图像确定的教师的动作不一致时，对基于监控图像给出的分类结果中召回率或置信度较低的结果进行删除，以提升对教师的行为类型进行分类的准确率，并最终确定教师的当前行为。

s47：继续保持实时监控。

具体地，在基于教师在监控图像中的位置信息判断该教师不在监控图像的讲台区域时，继续保持实时监控，而不对教师的行为动作进行检测判断。

请参阅图5，图5是本申请教师行为检测方法第二实施例的流程示意图。本实施例包括如下步骤：

s51：监控装置对设定监控区域进行实时监控，以在设定监控区域出现有教师时，获取到包括教师的监控图像。

具体地，监控装置对其设定监控区域进行实时监控，以在检测到其设定监控区域出现有教师时，获取包括有教师的监控图像，例如，截取出包括有教师的监控视频，或对该监控视频进行抽帧以获取到相应的包括有教师的监控图片，以将其发送给监控装置的处理中枢。

其中，设定监控区域是指监控装置被安装到指定区域，例如，教室后能够拍摄到的最大监控区域，该指定区域由用户确定。

s52：根据教师的活动区域在监控图像中划定出讲台区域。

具体地，为对教师的行为动作进行检测，首先确定该教师在监控装置的监控区域中的主要活动区域，以在监控图像中划定出讲台区域，例如，在该监控图像中的教师进行教学活动的讲台区域对应生成一检测框，以将该检测框内的区域确定为讲台区域。

s53：利用经训练的检测网络模型对监控图像中的教师进行定位，以确定教师的位置信息。

具体地，将获取到的监控图像输入到监控装置内部集成的一经训练的检测网络模型中，以通过该检测网络模型得到该监控图像中教师在该监控图像中的位置信息。

s54：基于位置信息判断教师是否在讲台区域。

其中，如果教师在讲台区域内时，则执行s55，如果教师不在讲台区域内时，则执行s59。

s55：利用深度学习网络的分类模型对监控图像中教师是否面向学生和/或书写板书状态的类型进行分类预测，得到教师是否面向学生和/或书写板书状态。

具体地，在确定教师在监控图像的讲台区域内时，将该监控图像输入到一经训练的深度学习网络的分类模型中，以通过该分类模型对该监控图像中教师是否面向学生进行分类预测。其中，还可以通过该分类模型对该监控图像中教师是否书写板书的状态进行分类预测，以获取到教师是否面向学生和/或书写板书状态。

其中，对教师是否面向学生进行的分类预测和对教师是否书写板书的状态进行的分类预测可以是利用的同一个深度学习网络的分类模型，也可以是利用不同的深度学习网络的分类模型，本申请对此不做限定。

其中，对深度学习网络的分类模型的训练方法包括：获取到已标注教师面向学生、教师背向学生非书写板书、教师背向学生书写板书的监控图像，以将该监控图像输入到预设网络模型中，并通过该预设网络模型给出相应的分类预测结果，进而通过给出的该分类预测结果和在监控图像中对教师已做的标注类型对预设网络模型进行训练，从而获取到深度学习网络的分类模型。

在另一实施例中，在s55之前，还包括：在确定教师在监控图像的讲台区域时，对该讲台区域进行人体检测，以将该教师的各关节点围成的区域对应生成一检测框，从而获取到包括有人体检测框的特征图像。进一步按照预设比例系数对该特征图像中人体检测框的面积进行扩大，例如，对该人体检测框在教师站立方向上的两端分别延伸扩大10％，而在与该教师站立方向垂直方向上的两端分别延伸扩大25％，以对扩大后的人体检测框内的图像进行截取，从而获取到相应的目标图像。

其中，在获取到目标图像后，将该目标图像输入到一经训练的深度学习网络的分类模型中，以通过该分类模型对该目标图像中教师是否面向学生和/或书写板书状态的类型进行分类预测，以获取到教师是否面向学生和/或书写板书状态。

s56：利用深度学习网络检测教师的预设关键点的位置，并根据预设关键点的位置对教师的行为类型进行分类，得到教师的动作。

进一步地，将包括有教师，且该教师在监控图像中的讲台区域内的监控图像输入到深度学习网络中，以通过该深度学习网络对教师的预设关键点的位置进行检测。

其中，当教师为背向学生书写板书时，其相应的各关节点一般具有特定的相对位置关系，例如，其左手或右手的腕关节在该教师站立方向上的位置高于该教师对应的肩关节或肘关节的位置，以能够通过检测该教师的预设关键点的位置，也即通过检测教师的重要关节点的相对位置关系来确定教师当前是否正在书写板书。

其中，该深度学习网络能够根据检测到教师的预设关键点的位置对教师的行为类型进行分类，例如，该深度学习网络能够以监控图像左上角顶点或左下角顶点为原点建立平面坐标系，并对该教师相应的预设关键点在该平面坐标系中的坐标值进行检测，进而能够根据相应坐标值相对大小与教师是否书写板书的对应关系和教师重要关节点的坐标值对教师的是否书写板书进行分类，从而确定教师的动作。

具体地，在一实施例中，当检测到教师右手腕关节的纵坐标值大于该教师右肩关节或其右肘关节的纵坐标值时，则确定该教师正在书写板书。

s57：根据至少一种特征信息确定教师当前是否属于书写板书状态，并通过教师的动作对确定的教师当前是否属于书写板书状态的分类结果进行修正，以获取到教师当前是否属于书写板书状态的分类结果。

具体地，首先利用深度学习网络的分类模型对监控图像中的教师是否属于书写板书的状态进行分类，以获取到该教师是否属于书写板书的分类结果，并进一步通过检测教师的预设关键点的位置对教师是否书写板书的状态进行的分类结果对通过监控图像获取到的该教师是否属于书写板书的分类结果进行修正，例如，删除根据监控图像确定的教师当前行为属于背对学生非书写板书，如背对学生讲解ppt，或背对学生书写板书中召回率低的分类结果，以提升对教师的行为类型进行分类的准确率，从而获取到最终的教师当前行为的分类结果。

s58：分别对在设定时间内教师面向学生、背向学生非书写板书以及背向学生书写板书出现的次数、单次持续时间以及持续总时长进行统计，并显示本次统计结果。

进一步地，监控装置在检测到教师当前正面向学生，或背对学生非书写板书，或背对学生书写板书时，对该教师当前的行为动作进行计时，并进一步对该教师在设定时间内每一进行过的行为动作出现的次数，单次持续时间及持续总时长分别进行统计，并通过该监控装置上的显示屏显示出本次统计结果，以能够提供给教学督导组对该教师本次进行的教学活动进行分析评估。

其中，该设定时间可以是45分钟或60分钟等任一合理时长中的一种，其可以由用户根据需要进行合理设定，本申请对比不做限定。

s59：继续保持实时监控。

具体地，在基于教师在监控图像中的位置信息判断该教师不在监控图像的讲台区域时，继续保持实时监控，而不对教师的行为动作进行检测判断。

在一具体实施例中，请参阅图6，图6是本申请教师行为检测方法一具体应用场景的流程示意图。其中，在启动监控装置对其监控区域进行视频监控后，开启该监控装置进入人体行为检测模式，如图6所示，依次执行s61，开始；以在检测到其监控区域中出现有目标人体时，执行s62，其中，以该目标人体为教师为例，在获取到相应的包括有教师的监控视频时，对该监控视频进行抽帧，以获取到相应的监控图像。

进一步执行s63，将该监控图像输入到一深度学习网络模型中，以通过该深度学习网络模型对目标人体进行人体检测，并在该监控图像中划定出讲台规则区域，且将该目标人体的各关节点围成的区域对应生成一人体检测框后，执行s64，以判断该人体检测框是否在监控图像中的讲台规则区域内。

其中，当监控装置确定该人体检测框在监控图像中的讲台规则区域时，分别进行s65和s67，按照预设比例系数对该人体检测框进行外扩并截图，例如，在教师站立的方向上对该人体检测框的两端分别扩大10％，而在其与教师站立的方向垂直的方向上对该人体检测框的两端分别扩大25％，以获取到相应的目标图像。

而在外扩人体检测框并截图后，分别进一步执行s66和s68，其中，s65和s67中对人体检测框进行外扩并截图可以是同一步骤，以在得到截图后，将获取到的目标图像分别输入到经训练的关键点网络模型及深度学习网络的分类模型中，以分别对目标图像中的教师是否面向学生及是否背向学生书写板书的状态进行分类后，执行s69，对两个网络模型给出的分类结果进行融合，以去除召回率低的分类结果。

进一步执行s610，获取到最终对教师当前行为进行分类的结果，并对每一分类结果在设定时间内出现的次数，单次持续时间及持续总时长分别进行统计分析后，结束本次人体行为检测任务。

基于总的发明构思，本申请还提供了一种人体行为检测系统，请参阅图7，图7是本申请人体行为检测系统一实施例的结构示意图。其中，人体行为检测系统71包括智能终端711以及连接于智能终端711的摄像头712。

其中，摄像头712用于获取至少包括有目标人体的监控图像，其具体可以是，通过一安装在指定区域的摄像头712对其监控区域进行实时监控拍摄，以在获取到包括有目标人体的监控图像时，将其输入到智能终端711中。

智能终端711用于接收摄像头712发送的监控图像，并在该监控图像中确定目标区域，以对该监控图像中的目标人体进行定位，并确定该目标人体的位置信息。

智能终端711进一步基于该位置信息判断目标人体是否在目标区域内，以在确定该目标人体在目标区域时，基于该监控图像确定目标人体的朝向及动作中的至少一种特征信息，并利用目标人体的预设关键点确定目标人体的动作，以能够根据至少一种特征信息以及目标人体的动作来最终确定目标人体的当前行为。

在另一实施例中，摄像头712还可以集成于智能终端711中，例如，在直接通过无人机或智能机器人等任一种智能终端711上自带的摄像头712获取到至少包括有目标人体的监控图像后，通过智能终端711的处理器对该监控图像进行处理。

可选地，智能终端711分别对在设定时间内该目标人体的每一当前行为出现的次数、单次持续时间以及持续总时长进行统计，并通过其显示屏显示出本次统计结果。

可选地，该智能终端711可以是手机、平板电脑、计算机及服务器等中的一种，本申请对此不做限定。

基于总的发明构思，本申请还提供了一种教师行为检测系统，请参阅图8，图8是本申请教师行为检测系统一实施例的结构示意图。其中，教师行为检测系统81包括智能终端811以及连接于智能终端811的摄像头812。

其中，摄像头812用于获取到至少包括有教师的监控图像，其具体可以是，通过安装在一教室的设定位置处的摄像头812对该教室内的区域进行监控拍摄，以获取到包括有教师的监控图像，并将其输入到智能终端811中。

智能终端811用于接收摄像头812发送的监控图像，并在该监控图像中确定出相应的讲台区域，以对监控图像中的教师进行定位，确定该教师的位置信息，并判断该教师是否在讲台区域，以在确定该教师在讲台区域时，进一步确定该教师是否面向学生以及是否属于书写板书状态中的至少一种特征信息，并利用该教师的人体预设关键点确定该教师的动作，以根据至少一种特征信息以及教师的动作确定教师当前是否属于书写板书状态。

在另一实施例中，摄像头812还可以集成于智能终端811中，例如，在直接通过智能相机、无人机或智能机器人等任一种智能终端811上自带的摄像头812获取到至少包括有教师的监控图像后，通过智能终端811的处理器对该监控图像进行处理。

可选地，智能终端811分别对在设定时间内教师面向学生、背向学生非书写板书以及背向学生书写板书出现的次数、单次持续时间以及持续总时长进行统计，并通过其显示屏显示出本次统计结果。

可选地，该智能终端811可以是手机、平板电脑、计算机及服务器等中的一种，本申请对此不做限定。

基于总的发明构思，本申请还提供了一种智能终端，请参阅图9，图9是本申请智能终端一实施例的结构示意图。

其中，智能终端91包括相互耦接的存储器911和处理器912，存储器911存储有程序数据，处理器912用于执行该程序数据，以实现如上任一项所述的检测方法。

基于总的发明构思，本申请还提供了一种计算机可读存储介质，请参阅图10，图10是本申请计算机可读存储介质一实施例的结构示意图。其中，计算机可读存储介质101中存储有程序数据1011，该程序数据1011能够被执行以实现以上任一所述的检测方法。

在一个实施例中，计算机可读存储介质101可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，处理器或存储器的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个处理器与存储器实现的功能可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或连接可以是通过一些接口，装置或单元的间接耦合或连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王原原
技术所有人：浙江大华技术股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。