一种学生课堂行为识别系统、方法、介质及终端设备与流程

文档序号:21105176发布日期:2020-06-16 21:12阅读:258来源:国知局
一种学生课堂行为识别系统、方法、介质及终端设备与流程

本发明涉及智慧校园技术领域,具体的说,是一种学生课堂行为识别系统、方法、介质及终端设备。



背景技术:

随着智慧校园建设的蓬勃发展,高校信息化和网络化建设己经从数字化迈向智能化。在教学过程中,学生的课堂行为对教学活动的展开与教学策略的调整具有重要的借鉴意义。在传统课堂教学中,学生行为识别主要通过人工观察实现,但该方法不仅繁琐且耗时,显然无法满足教育大数据时代的需求。因此探索如何利用机器自动识别学生行为成为一个函待解决的问题;

课堂观察是一种评估教师教学水平的重要方式。研究显示,课堂中学生的参与状态、互动状态对于学生课堂知识吸收情况影响较大。参与状态具体指学生是否认真听讲,是否参与记笔记,是否有走神以及东张西望等动作。互动状态具体指学生是否举手发言、站立回答问题等都反映了学生的课堂参与度。可见学生课堂上的行为与姿态不仅反映学生课堂参与度,同时也反映了教师教学水平与教学吸引力。

由于学生行为往往具有连贯性,因此基于视频的学生课堂行为识别效果要优于单帧图像的识别效果,但是由于视频对应的深度学习模型结构非常复杂,对训练样本规模要求极高。针对目前学生行为识别缺少大量标记样本的现状。



技术实现要素:

本发明的目的在于提供一种学生课堂行为识别系统、方法、介质及终端设备,有效的提高了课堂观察效率;有效的辅助教师进行课堂评估,从而帮助教师及时改进教育方法。

本发明通过下述技术方案实现:

一种学生课堂行为识别方法,具体包括以下步骤:

步骤s1:图像获取与分类,并构建数据集;

步骤s2:将数据集按照比例分为训练集、验证集和测试集,并对图像进行预处理;

步骤s3:通过数据扩容的方式扩大训练集;

步骤s4:使用在imagenet数据集上训练好的resnet50网络结构作为预训练模型对数据扩容后的训练集进行训练,根据验证集的验证结果对网络参数进行微调,训练得到的分类模型用于后期学生图像行为识别;

步骤s5:利用训练好的分类模型对测试集进行测试,观察图像分类情况与实际情况之间的差异,得到模型的分类效果,保存分类结果。

进一步地,为了更好的实现本发明,所述步骤s1具体是指:将所述学生课堂行为视频划分为n个视频段,并从各个视频段中分别抽取一帧图像作为输入图像并构建数据集,n为大于1的整数。

进一步地,为了更好的实现本发明,所述步骤s2中的对图像进行预处理包括以下步骤:

步骤s21:利用yolov3检测算法获取图像中学生的位置信息;

步骤s22:根据学生的位置信息利用opencv裁剪学生图像,并将图像统一缩放。

进一步地,为了更好的实现本发明,所述步骤s21具体包括以下步骤:

步骤s211:将训练集中的图像输送到yolov3检测框架中,yolov3检测框架将图像分割为s*s个网格,每个网格负责该网格区域内的物体检测,且输出该网格的目标物体类别;

步骤s212:定义训练标签,对每个网格定义向量,则:

(1);

其中,表示是否含有目标对象;

表示目标物体的中点;

分别表示边界框的高和宽;

依次表示是否含有训练集中第1到第n类的目标对象;

步骤213:通过卷积神经网络中的前向操作提取每个网格中的特征,并定位算法与分类技术识别每个网格,输出每个网格中目标对象图像的左上角坐标以及裁剪框的宽与高;

步骤s214:组合s*s网格标签以获得目标输出。

进一步地,为了更好的实现本发明,所述步骤s3中数据扩容的方式包括仿射变化、翻转变化、平移变换、尺度变换、对比度变换、噪声扰动、灰度值设置为零、设置部分像素值为零、中值模糊、均值模糊以及颜色变化;

具体是指:对训练集进行增弧;即利用已有的数据空间坐标变换关系得到更多数据;

所述空间坐标变换如下:

(2);

其中,是原图像中像素的坐标,是变换后图像中像素的坐标;t为仿射变换矩阵。

一种基于深度学习的学生课堂行为识别系统,包括:

图像获取模块,用于获取学生课堂行为视频;

图像抽取模块:将所述学生课堂行为视频划分为n个视频段,并从各个视频段中分别抽取一帧图像作为输入图像,n为大于1的整数;

图像处理模块,用于图像的缩放裁剪、训练集的扩大处理;图像的缩放裁剪具体采用yolov3算法检测学生位置,并利用opencv裁剪学生图像,并将图像统一缩放;以此提高图像的精度;

训练模块:对数据扩容后的训练集进行训练,根据验证集的验证结果对网络参数进行微调,训练得到的分类模型用于后期学生图像行为识别;

行为识别模块,用于观察图像分类情况与实际情况之间的差异,得到模型的分类效果,保存分类结果。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现所述的学生课堂行为识别方法的步骤。

一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现所述的学生课堂行为识别方法的步骤。

本发明与现有技术相比,具有以下优点及有益效果:

(1)本发明采用yolov3算法与opencv裁剪相结合使得所得到的图像无关背景小,有用信息信息量大;

(2)本发明有效的提高了课堂观察效率;有效的辅助教师进行课堂评估,从而帮助教师及时改进教育方法。

附图说明

图1为本发明中学生课堂行为识别方法的工作流程图;

图2为本发明中学生课堂行为识别系统的连接关系示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。

实施例1:

本发明通过下述技术方案实现,图1所示,一种学生课堂行为识别方法,具体包括以下步骤:

步骤s1:图像获取与分类,并构建数据集;具体是指:将所述学生课堂行为视频划分为n个视频段,并从各个视频段中分别抽取一帧图像作为输入图像并构建数据集,n为大于1的整数。目前无公开的学生行为图像数据库,采集学生的七类行为图像构建学生课堂行为识别数据库,具体的课堂行为包括:看书、睡觉、举手、写字、听讲、站立与左顾右盼。

步骤s2:将数据集按照比例分为训练集、验证集和测试集,并对图像进行预处理;训练集:验证集:测试集=4:2:4;

步骤s3:通过数据扩容的方式扩大训练集;

步骤s4:使用在imagenet数据集上训练好的resnet50网络结构作为预训练模型对数据扩容后的训练集进行训练,根据验证集的验证结果对网络参数进行微调,训练得到的分类模型用于后期学生图像行为识别;resnet50网络结构作为预训练模型对数据扩容后的训练集进行训练主要是通过将拟合目标转化为拟合残差函数,把输出变为拟合和输入的叠加,使得网络对输入之间的微小波动更加敏感。

步骤s5:利用训练好的分类模型对测试集进行测试,观察图像分类情况与实际情况之间的差异,得到模型的分类效果,保存分类结果。

需要说明的是,通过上述改进,imagenet数据集是为了促进计算机图像识别技术发展而设立的一个大型图像数据集,是目前世界上图像识别最大的数据库,imagenet中包含2万多个类别,由于在imagenet数据集中存在学生类别,且图像数量大,因此将imagenet数据集作为训练集,使用resnet50的深度学习网络结构训练网络参数所得到的预训练模型已经学习到了imagenet数据集中学生的特征,能够拟合这一批数据集,因此当训练学生图像时,并不需要重新训练网络结构,而是可以在已经学习参数的预训练模型基础上再进行训练,这样做的好处是可以解决由于原始数据集样本少而造成的模型泛化能力较差的问题,同时也能加快模型训练的速度。

实施例2:

本实施例在上述实施例的基础上做进一步优化,进一步地,为了更好的实现本发明,所述步骤s2中的对图像进行预处理包括以下步骤:

步骤s21:利用yolov3检测算法获取图像中学生的位置信息;

步骤s22:根据学生的位置信息利用opencv裁剪学生图像,并将图像统一缩放为224*224。

利用yolov3算法提取学生后,得到了无关背景更少的学生图像,由于深度卷积神经网络要求输入的图像大小为224*224大小,但是实际所拍摄的学生图像大小并不统一,因此需要统一将图像缩放到224*224大小。为了克服在缩放过程中学生产生形变,通过对图像填充矩形框的操作将图像填充为长宽等比例,再缩放到224*224大小。

采用上述方案使得得到的图像无关背景少,有用信息(学生图像)占比放大,使得后期的分析更加准确,精确度高。

本实施例的其他部分与上述实施例相同,故不再赘述。

实施例3:

本实施例在上述实施例的基础上做进一步优化,图1所示,进一步地,为了更好的实现本发明,所述步骤s21具体包括以下步骤:

步骤s211:将训练集中的图像输送到yolov3检测框架中,yolov3检测框架将图像分割为s*s个网格,每个网格负责该网格区域内的物体检测,且输出该网格的目标物体类别;

步骤s212:定义训练标签,对每个网格定义向量,则:

(1);

其中,表示是否含有目标对象;

表示目标物体的中点;

分别表示边界框的高和宽;

依次表示是否含有训练集中第1到第n类的目标对象;

步骤213:通过卷积神经网络中的前向操作提取每个网格中的特征,并定位算法与分类技术识别每个网格,输出每个网格中目标对象图像的左上角坐标以及裁剪框的宽与高;

步骤s214:组合s*s网格标签以获得目标输出。

需要说明的是,通过上述改进,yolo算法的模型结构主要以googlenet网络结构为基础,在yolo结构中卷积层的作用是提取图像特征,全连接层的作用是预测图像。

本实施例的其他部分与上述实施例相同,故不再赘述。

实施例4:

本实施例在上述实施例的基础上做进一步优化,进一步地,为了更好的实现本发明,所述步骤s3中数据扩容的方式包括仿射变换、翻转变化、平移变换、尺度变换、对比度变换、噪声扰动、灰度值设置为零、设置部分像素值为零、中值模糊、均值模糊以及颜色变化;本发明中采用数据增强的方式实现学生图像扩容;数据扩容包括两种手段,一种为收集新的数据,但是往往采集新的数据比较困难。第二种是数据集进行增弧;即利用已有的数据进行翻转、旋转等操作得到更多数据,使得神经网络具有更好的泛化能力;本发明中采用第二种手段进行;

数据增强实际上就是改变图像中像素之间的空间关系,在数据增强中,空间变换关系主要由两个基本操作组成,空间的坐标变换以及灰度内插。其中坐标变换由

所述空间坐标变换如下:

(2);

其中,是原图像中像素的坐标,是变换后图像中像素的坐标;t为仿射变换矩阵。

本发明中采用仿射变换的方式来实现空间坐标变换;其公式为:

本实施例的其他部分与上述实施例相同,故不再赘述。

实施例5:

图2所示,一种基于深度学习的学生课堂行为识别系统,包括:

图像获取模块,用于获取学生课堂行为视频;

图像抽取模块:将所述学生课堂行为视频划分为n个视频段,并从各个视频段中分别抽取一帧图像作为输入图像,n为大于1的整数;

图像处理模块,用于图像的缩放裁剪、训练集的扩大处理;图像的缩放裁剪具体是指采用yolov3算法检测学生位置,并利用opencv裁剪学生图像,并将图像统一缩放;

训练模块:使用在imagenet数据集上训练好的resnet50网络结构作为预训练模型对数据扩容后的训练集进行训练,根据验证集的验证结果对网络参数进行微调,训练得到的分类模型用于后期学生图像行为识别;

行为识别模块,用于观察图像分类情况与实际情况之间的差异,得到模型的分类效果,保存分类结果。

本实施例的其他部分与上述实施例相同,故不再赘述。

实施例6:

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现实施例1-实施例4的步骤。

一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现实施例1-实施例4的步骤。

其中处理器和存储器可以通过总线或者其他方式连接。

处理器可以为中央处理器(centralprocessingunit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。

本实施例的其他部分与上述实施例相同,故不再赘述。

实施例7:

本实施例为本发明的最佳实施例,图1所示,一种学生课堂行为识别方法,具体包括以下步骤:

步骤s1:图像获取与分类,并构建数据集;将所述学生课堂行为视频划分为n个视频段,并从各个视频段中分别抽取一帧图像作为输入图像并构建数据集,n为大于1的整数。

步骤s2:将数据集按照比例分为训练集、验证集和测试集,并对图像进行预处理;对图像进行预处理包括以下步骤:

步骤s21:利用yolov3检测算法获取图像中学生的位置信息;

步骤s22:根据学生的位置信息利用opencv裁剪学生图像,并将图像统一缩放。

进一步地,为了更好的实现本发明,所述步骤s21具体包括以下步骤:

步骤s211:将训练集中的图像输送到yolov3检测框架中,yolov3检测框架将图像分割为s*s个网格,每个网格负责该网格区域内的物体检测,且输出该网格的目标物体类别;

步骤s212:定义训练标签,对每个网格定义向量,则:

(1);

其中,表示是否含有目标对象;

表示目标物体的中点;

分别表示边界框的高和宽;

依次表示是否含有训练集中第1到第n类的目标对象;

步骤213:通过卷积神经网络中的前向操作提取每个网格中的特征,并定位算法与分类技术识别每个网格,输出每个网格中目标对象图像的左上角坐标以及裁剪框的宽与高;

步骤s214:组合s*s网格标签以获得目标输出。

步骤s3:通过数据扩容的方式扩大训练集;数据扩容的方式包括仿射变化、翻转变化、平移变换、尺度变换、对比度变换、噪声扰动、灰度值设置为零、设置部分像素值为零、中值模糊、均值模糊以及颜色变化;

具体是指:对训练集进行增弧;即利用已有的数据空间坐标变换关系得到更多数据;

所述空间坐标变换如下:

;(2)

其中,是原图像中像素的坐标,是变换后图像中像素的坐标;t为仿射变换矩阵。

步骤s4:使用在imagenet数据集上训练好的resnet50网络结构作为预训练模型对数据扩容后的训练集进行训练,根据验证集的验证结果对网络参数进行微调,训练得到的分类模型用于后期学生图像行为识别。

步骤s5:利用训练好的分类模型对测试集进行测试,观察图像分类情况与实际情况之间的差异,得到模型的分类效果,保存分类结果。

本实施例的其他部分与上述实施例相同,故不再赘述。

以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1