区域编码和样本平衡优化的课堂参与度识别方法和装置

文档序号:32466938发布日期:2022-12-07 05:45阅读:45来源:国知局
区域编码和样本平衡优化的课堂参与度识别方法和装置

1.本技术涉及智能教育和计算机视觉交叉研究技术领域,尤其涉及一种区域编码和样本平衡优化的课堂参与度识别方法和装置。


背景技术:

2.在线教育提供了一种全新的知识传播模式和学习方式,通过mooc等网络教育平台,教师们可以进行直播教学、录播回放、在线答疑、批改作业等教育活动,学生们可以按照自己的节奏完成学习任务。在线教学具有学习资源丰富、知识获取及时、学习方式多样等特性,已经逐渐成为正常教育教学活动的有机组成部分。师生互动是教学过程中的关键环节。在传统课堂环境中,教师可以直接观察学生的面部表情和行为判断学生的投入程度。然而,在线课堂上,受制于教学场景等因素,学生缺乏跟教师面对面交流的真实性和实时性的互动,注意力易分散,教师无法获得学生投入状态的实时反馈,学生的学习效果只能通过课堂提问和课后作业反馈来判断。因此,如何通过计算机视觉技术,实现在线学习环境中学生学习参与度自动评估,是当前亟待解决的问题。
3.参与度自动识别的研究可以分为基于传统机器学习和基于深度学习两类。传统的基于计算机视觉技术的识别方法,通常是通过面部特征或手工提取的其他模态的特征,并通过机器学习估计参与度。对于参与度识别任务来说,无论是线上课堂还是线下课堂,大多数学生都能认真听讲,只有少数学生注意力不集中,因此自然环境下采集的参与度数据存在较严重的样本分布不平衡问题,即低参与度的样本数量极少,高参与度的样本数量占较大比例。而目前大多数参与度识别算法虽然在整个分类任务中能够得到较高的准确率,但往往提高的是对多数类的分类能力,忽略了对少数类样本的判别。另外,由于自然环境下学生在学习过程中的行为不受人为约束,经常会不经意的用手遮住部分面部区域,导致其面部表情变化无法被捕捉到,这种情况很容易被模型错误地识别为注意力分散而得到较低的参与度预测值。
4.综上所示,现有技术中学习参与度识别方法并未充分考虑参与度识别任务的样本数据分布不平衡、参与度样本手遮挡情况等特点,具有识别准确率低的缺陷。


技术实现要素:

5.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
6.为此,本技术的第一个目的在于提出一种区域编码和样本平衡优化的课堂参与度识别方法,解决了现有参与度识别方法的参与度识别任务中样本分布极不平衡和手遮挡面部的技术问题,通过提出一种stargan(star generative adversarial networks,星形生成对抗网络)模型生成低参与度样本,增强参与度数据库,同时提出一种用于面部区域编码的rcn(region coding network,区域编码网络)模型,能够自适应地学习不同面部区域的注意权值,并联合建模特征学习和遮挡区域编码,显著提升了网络模型的判别力和鲁棒性。
7.本技术的第二个目的在于提出一种区域编码和样本平衡优化的课堂参与度识别
装置。
8.本技术的第三个目的在于提出一种非临时性计算机可读存储介质。
9.为达上述目的,本技术第一方面实施例提出了一种区域编码和样本平衡优化的课堂参与度识别方法,包括:获取学生在线学习的视频数据,并根据视频数据生成原始样本数据,其中,原始样本数据包括高参与样本数据和低参与样本数据;将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本;将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型;获取待识别视频数据,根据待识别视频数据生成待识别图像数据;将待识别图像数据输入训练好的rcn模型,得到参与度识别结果。
10.可选地,在本技术的一个实施例中,根据视频数据生成原始样本数据,包括:
11.利用人工及先验信息,定义视频数据的参与度标签;
12.从视频数据提取图像帧,并裁剪提取图像帧的人脸区域,得到人脸图像作为原始样本数据,其中,根据参与度标签将原始样本数据分为高参与样本数据和低参与样本数据。
13.可选地,在本技术的一个实施例中,stargan模型包括:映射网络、风格编码器、生成器和鉴别器,在将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本之前,还包括:
14.获取低参与训练数据,其中,低参与训练数据为人脸图像;
15.将低参与训练数据输入stargan模型进行训练,通过损失函数对stargan模型进行迭代优化。
16.可选地,在本技术的一个实施例中,stargan模型的损失函数,包括:对抗损失、风格重建损失、多样性敏感损失和循环一致性损失,其中,
17.对抗损失表示为:
[0018][0019]
其中,l
adv
表示对抗损失,e()表示数学期望值,x表示输入图像,y表示输入图像的原始域,dy(x)是鉴别器在原始域y的输出,表示目标域,z表示随机高斯噪声,表示映射网络根据随机高斯噪声生成目标域的风格特征,表示鉴别器对生成器生成的图像的输出结果,表示生成器根据输入图像和目标风格特征生成域为y的虚假图像;
[0020]
风格重建损失表示为:
[0021][0022]
其中,l
sty
表示风格重建损失,e()表示数学期望值,x表示输入图像,y表示输入图像的原始域,表示目标域,z表示随机高斯噪声,表示映射网络根据随机高斯噪声生成目标域的风格特征,表示生成器根据输入图像和目标风格特征生成域为y的虚假图像;
[0023]
多样性敏感损失表示为:
[0024][0025]
其中,l
ds
表示多样性敏感损失,e()表示数学期望值,z1和z2表示随机高斯噪声向量,和分别表示由映射网络根据随机高斯噪声向量z1和z2输出得到的风格特征向量,
表示生成器根据输入图像和风格特征生成的图像,表示生成器根据输入图像和风格特征生成的图像;
[0026]
循环一致性损失表示为:
[0027][0028]
其中,l
cyc
表示循环一致性损失,e()表示数学期望值,x表示输入图像,y表示输入图像的原始域,表示目标域,z表示随机高斯噪声,是输入图像x的估计风格编码,表示使用生成器将生成的虚假图像和进行重构,得到带有风格的图像,表示生成器根据输入图像和风格特征生成的图像;
[0029]
使用目标函数对stargan模型进行优化,其中,目标函数表示为:
[0030]
min
g,f,e
maxdl
adv

sty
l
sty-λ
ds
l
ds

cyc
l
cyc;
[0031]
其中,min
g,f,e
表示通过训练生成器、映射网络和风格编码器最小化目标函数,maxd表示通过训练判别器最大化目标函数,l
adv
表示对抗损失,l
sty
表示风格重建损失,l
ds
表示多样性敏感损失,l
cyc
表示循环一致性损失,λ
sty
、λ
ds
和λ
cyc
是用于平衡各项损失的超参数。
[0032]
可选地,在本技术的一个实施例中,将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本,包括:
[0033]
将低参与样本数据中的人脸图像输入stargan模型,通过映射网络或风格编码器生成不同的风格特征,通过生成器根据输入的人脸图像和不同的风格特征,生成具有不同风格的目标低参与样本。
[0034]
可选地,在本技术的一个实施例中,rcn模型包括特征提取单元、区域注意单元和全局注意单元,将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型,包括:
[0035]
将原始样本数据和目标低参与样本输入rcn模型中,通过特征提取单元对原始样本数据和目标低参与样本进行特征提取,得到样本局部区域特征;
[0036]
在特征空间中,通过区域注意单元学习不同面部区域的注意力权重对样本局部区域特征进行区域编码,得到样本全局特征;
[0037]
将样本局部区域特征分别和样本全局特征进行串联,得到样本特征,通过全局注意单元得到样本特征的注意力权重,对样本特征进行加权融合得到最终样本特征;
[0038]
根据最终样本特征,通过联合区域偏差损失和交叉熵损失,使用sgd算法对rcn模型的网络参数进行迭代更新和优化,得到训练好的rcn模型。
[0039]
可选地,在本技术的一个实施例中,将待识别图像数据输入训练好的rcn模型,得到参与度识别结果,包括:
[0040]
将待识别图像数据输入特征提取单元进行特征提取,得到特征图,将特征图随机裁剪成预设数量的区域特征;
[0041]
将区域特征输入区域注意单元,计算区域特征的注意力权重,对区域特征进行加权,得到全局特征;
[0042]
将区域特征分别与全局特征进行串联,得到目标特征,并通过全局注意单元得到目标特征的注意力权重,对目标特征进行加权,得到最终特征,对最终特征进行识别分类,
得到待识别图像数据的参与度识别结果。
[0043]
为达上述目的,本技术第二方面实施例提出了一种区域编码和样本平衡优化的课堂参与度识别装置,包括:
[0044]
第一获取模块,用于获取学生在线学习的视频数据,并根据视频数据生成原始样本数据,其中,原始样本数据包括高参与样本数据和低参与样本数据;
[0045]
生成模块,用于将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本;
[0046]
训练模块,用于将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型;
[0047]
第二获取模块,用于获取待识别视频数据,根据待识别视频数据生成待识别图像数据;
[0048]
识别模块,用于将待识别图像数据输入训练好的rcn模型,得到参与度识别结果。
[0049]
可选地,在本技术的一个实施例中,根据视频数据生成原始样本数据,包括:
[0050]
利用人工及先验信息,定义视频数据的参与度标签;
[0051]
从视频数据提取图像帧,并裁剪提取图像帧的人脸区域,得到人脸图像作为原始样本数据,其中,根据参与度标签将原始样本数据分为高参与样本数据和低参与样本数据。
[0052]
为了实现上述目的,本技术第三方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种区域编码和样本平衡优化的课堂参与度识别方法。
[0053]
本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法、装置和非临时性计算机可读存储介质,解决了现有参与度识别方法的参与度识别任务中样本分布极不平衡和手遮挡面部的技术问题,通过提出一种stargan模型生成低参与度样本,增强参与度数据库,同时提出一种用于面部区域编码的区域编码网络,能够自适应地学习不同面部区域的注意权值,并联合建模特征学习和遮挡区域编码,显著提升了网络模型的判别力和鲁棒性。
[0054]
本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
[0055]
本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0056]
图1为本技术实施例一所提供的一种区域编码和样本平衡优化的课堂参与度识别方法的流程图;
[0057]
图2为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的另一个流程图;
[0058]
图3为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的基于stargan模型生成在线学习低参与图像的结构示意图;
[0059]
图4为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的基于stargan模型生成的低参与样本示意图;
[0060]
图5为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的特征提取卷积神经网络结构示意图;
[0061]
图6为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的基于rcn模型的参与度识别框架示意图;
[0062]
图7为本技术实施例二所提供的一种区域编码和样本平衡优化的课堂参与度识别装置的结构示意图。
具体实施方式
[0063]
下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
[0064]
下面参考附图描述本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法和装置。
[0065]
图1为本技术实施例一所提供的一种区域编码和样本平衡优化的课堂参与度识别方法的流程图。
[0066]
如图1所示,该区域编码和样本平衡优化的课堂参与度识别方法,包括以下步骤:
[0067]
步骤101,获取学生在线学习的视频数据,并根据视频数据生成原始样本数据,其中,原始样本数据包括高参与样本数据和低参与样本数据;
[0068]
步骤102,将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本;
[0069]
步骤103,将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型;
[0070]
步骤104,获取待识别视频数据,根据待识别视频数据生成待识别图像数据;
[0071]
步骤105,将待识别图像数据输入训练好的rcn模型,得到参与度识别结果。
[0072]
本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法,通过获取学生在线学习的视频数据,并根据视频数据生成原始样本数据,其中,原始样本数据包括高参与样本数据和低参与样本数据;将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本;将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型;获取待识别视频数据,根据待识别视频数据生成待识别图像数据;将待识别图像数据输入训练好的rcn模型,得到参与度识别结果。由此,能够解决现有参与度识别方法的参与度识别任务中样本分布极不平衡和手遮挡面部的技术问题,通过提出一种stargan模型生成低参与度样本,增强参与度数据库,同时提出一种用于面部区域编码的区域编码网络,能够自适应地学习不同面部区域的注意权值,并联合建模特征学习和遮挡区域编码,显著提升了网络模型的判别力和鲁棒性。
[0073]
进一步地,在本技术实施例中,根据视频数据生成原始样本数据,包括:
[0074]
利用人工及先验信息,定义视频数据的参与度标签;
[0075]
从视频数据提取图像帧,并裁剪提取图像帧的人脸区域,得到人脸图像作为原始样本数据,其中,根据参与度标签将原始样本数据分为高参与样本数据和低参与样本数据。
[0076]
示例性的,可以通过摄像机获取学生在线学习的视频,每10秒保存为一个视频,并
利用人工及先验信息,给每个视频定义参与度标签{0,1,2,3}。
[0077]
本技术采用opencv提取图像帧,采用人脸识别开源工具face_recognition裁剪提取图像帧的人脸区域并保存到数据库中,其中,可以根据视频数据的参与度标签将原始样本数据分为高参与样本数据和低参与样本数据,例如,将参与度标签为0和1的视频生成的原始样本数据分为低参与样本数据,将参与度标签为2和3的视频生成的原始样本数据分为高参与样本数据。
[0078]
进一步地,在本技术实施例中,stargan模型包括:映射网络、风格编码器、生成器和鉴别器,在将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本之前,还包括:
[0079]
获取低参与训练数据,其中,低参与训练数据为人脸图像;
[0080]
将低参与训练数据输入stargan模型进行训练,通过损失函数对stargan模型进行迭代优化。
[0081]
本技术通过引入生成对抗网络的“对抗博弈”思想,基于星形生成对抗网络stargan,并基于对抗网络stargan生成低参与度样本,扩充数据库的少样本数量,增强参与度数据库,以改善数据集不平衡带来的影响。
[0082]
初始化stargan模型参数,将参与度标签为0和1的低参与样本数据输入stargan模型中,生成具有不同风格的低参与样本,增强数据库。
[0083]
本技术的stargan模型包括映射网络、风格编码器、生成器和鉴别器。其中,映射网络由带有多个输出分支的多层感知器构成,能够将给定的随机高斯噪声映射成多样化的风格特征表示。风格编码器能够根据给定的不同参考图像,使用一个深度网络提取不同的风格特征表示。映射网络和风格编码器均具有多个输出分支,每个分支对应特定域的风格特征。生成器根据给定的输入图像和风格特征,生成具有多种风格但内容不变的虚假图像。鉴别器有多个输出分支对应于多个目标域,每个输出分支都是二分类器,在其特定的目标域上判别输入图像是否真实。
[0084]
在stargan模型训练的过程中,生成器结合输入的风格特征尽可能生成具有某种风格特征的逼真图像,而鉴别器尽可能将生成器生成的虚假图像鉴别出来,二者不断相互博弈,生成器生成逼真图像的能力不断提升,最终使得生成器生成的虚假图像与真实图像尽可能接近。
[0085]
根据学生在线学习参与度的数据分布,基于学生的参与程度设置参与度数据的域,即本技术中的“域”的概念是指参与度标签,图像的风格特征包括人物发型、肤色、胡须、是否佩戴眼镜以及眼睛凝视屏幕的角度、姿势等。
[0086]
进一步地,在本技术实施例中,stargan模型的损失函数,包括:对抗损失、风格重建损失、多样性敏感损失和循环一致性损失,其中,
[0087]
对抗损失表示为:
[0088][0089]
其中,l
adv
表示对抗损失,e()表示数学期望值,x表示输入图像,y表示输入图像的原始域,dy(x)是鉴别器在原始域y的输出,表示目标域,z表示随机高斯噪声,表示映射网络根据随机高斯噪声生成目标域的风格特征,表示鉴别器对生成器生成的
图像的输出结果,表示生成器根据输入图像和目标风格特征生成域为y的虚假图像,将虚假图像和目标域输入鉴别器中,使得鉴别器学习辨别输入图像的真假;
[0090]
风格重建损失表示为:
[0091][0092]
其中,l
sty
表示风格重建损失,e()表示数学期望值,x表示输入图像,y表示输入图像的原始域,表示目标域,z表示随机高斯噪声,表示映射网络根据随机高斯噪声生成目标域的风格特征,表示生成器根据输入图像和目标风格特征生成域为y的虚假图像;
[0093]
多样性敏感损失表示为:
[0094][0095]
其中,l
ds
表示多样性敏感损失,e()表示数学期望值,z1和z2表示随机高斯噪声向量,和分别表示由映射网络根据随机高斯噪声向量z1和z2输出得到的风格特征向量,表示生成器根据输入图像和风格特征生成的图像,表示生成器根据输入图像和风格特征生成的图像,该方法使具有不同风格的生成图像之间的损失最大化,从而鼓励生成器在训练过程中生成更富有多样性风格的图像;
[0096]
循环一致性损失表示为:
[0097][0098]
其中,l
cyc
表示循环一致性损失,e()表示数学期望值,x表示输入图像,y表示输入图像的原始域,表示目标域,z表示随机高斯噪声,是输入图像x的估计风格编码,表示使用生成器将生成的虚假图像和进行重构,得到带有风格的图像表示生成器根据输入图像和风格特征生成的图像,通过约束与输入图像x之间的l1损失,使得生成器在改变风格的同时保留x的部分原始特征;
[0099]
使用目标函数对stargan模型进行优化,其中,目标函数表示为:
[0100]
min
g,f,e
maxdl
adv

sty
l
sty-λ
ds
l
ds

cyc
l
cyc

[0101]
其中,min
g,f,e
表示通过训练生成器、映射网络和风格编码器最小化目标函数,maxd表示通过训练判别器最大化目标函数,l
adv
表示对抗损失,l
sty
表示风格重建损失,l
ds
表示多样性敏感损失,l
cyc
表示循环一致性损失,λ
sty
、λ
ds
和λ
cyc
是用于平衡各项损失的超参数。
[0102]
本技术的stargan模型的损失函数包括对抗损失、风格重建损失、多样性敏感损失和循环一致性损失。其中,对抗损失使得生成器与鉴别器在训练过程中对抗优化,不断提升模型性能。风格重建损失使得生成器在生成图像时使用某个特定风格表示,若使用其他风格表示会得到较大损失值。多样性敏感损失通过最大化不同域的两个图像之间的l1损失,使得生成器生成的图像富有多样性,其中,l1损失用于最小化误差,表示为真实值与预测值之间差的绝对值。循环一致性损失用于保证输入图像的某些不被改变的特征能够被正确地保留到生成图像中。
[0103]
进一步地,在本技术实施例中,将低参与样本数据输入stargan模型,生成具有不
同风格的目标低参与样本,包括:
[0104]
将低参与样本数据中的人脸图像输入stargan模型,通过映射网络或风格编码器生成不同的风格特征,通过生成器根据输入的人脸图像和不同的风格特征,生成具有不同风格的目标低参与样本。
[0105]
进一步地,在本技术实施例中,rcn模型包括特征提取单元、区域注意单元和全局注意单元,将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型,包括:
[0106]
将原始样本数据和目标低参与样本输入rcn模型中,通过特征提取单元对原始样本数据和目标低参与样本进行特征提取,得到样本局部区域特征;
[0107]
在特征空间中,通过区域注意单元学习不同面部区域的注意力权重对样本局部区域特征进行区域编码,得到样本全局特征;
[0108]
将样本局部区域特征分别和样本全局特征进行串联,得到样本特征,通过全局注意单元得到样本特征的注意力权重,对样本特征进行加权融合得到最终样本特征;
[0109]
根据最终样本特征,通过联合区域偏差损失和交叉熵损失,使用sgd算法对rcn模型的网络参数进行迭代更新和优化,得到训练好的rcn模型。
[0110]
本技术通过学习不同面部区域的注意力权重进行区域编码,使得模型更关注权重较大的区域,进一步提高模型识别性能。
[0111]
本技术将原始样本数据和目标低参与样本共同输入到rcn中,首先对输入样本进行特征提取,然后在特征空间中,通过学习不同面部区域的注意力权重进行区域编码;将所有局部区域特征进行加权融合后得到全局特征,将局部特征和全局特征串联后,采用注意力机制得到更精确的权重,加权融合后得到最终的特征表示;最后通过联合区域偏差损失和交叉熵损失,用sgd算法对网络参数进行迭代更新和优化,得到更优的参与度识别模型。
[0112]
其中,区域偏差损失用于约束注意力权值αi,即使用一个超参数δ约束存在某个局部区域fi的注意力权重αi大于带边缘的原始人脸图像f0的权重α0,
[0113]
区域偏差损失表示为
[0114]
l
rb
=max{0,δ-(α
max-α0)}
[0115]
其中,l
rb
表示区域偏差损失,δ表示超参数,α0是原始人脸图像的注意力权重,α
max
表示所有局部区域的最大权重。
[0116]
交叉熵损失表示为:
[0117][0118]
其中,l
ce
(p,y)表示交叉熵损失,n表示样本数量,yi表示第i个样本的标签,pi表示经过模型计算输出后第i个结果。
[0119]
进一步地,在本技术实施例中,将待识别图像数据输入训练好的rcn模型,得到参与度识别结果,包括:
[0120]
将待识别图像数据输入特征提取单元进行特征提取,得到特征图,将特征图随机裁剪成预设数量的区域特征;
[0121]
将区域特征输入区域注意单元,计算区域特征的注意力权重,对区域特征进行加
权,得到全局特征;
[0122]
将区域特征分别与全局特征进行串联,得到目标特征,并通过全局注意单元得到目标特征的注意力权重,对目标特征进行加权,得到最终特征,对最终特征进行识别分类,得到待识别图像数据的参与度识别结果。
[0123]
采用opencv从待识别视频提取图像帧,并采用人脸识别开源工具face_recognition裁剪提取图像帧的人脸区域,得到人脸面部图像作为待识别图像;将待识别图像输入训练好的rcn模型,首先提取输入图像的面部特征并进行随机裁剪,然后通过自适应地学习不同面部区域的权重,加权融合得到全局特征;将局部特征和全局特征串联后进行参与度识别,输出识别结果。
[0124]
本技术中rcn模型包括特征提取单元、区域注意单元和全局注意单元。
[0125]
下面详细说明基于rcn模型对待识别图像进行识别的方法。
[0126]
特征提取单元将尺寸为224
×
224
×
3的待识别的人脸表情图像作为输入,使用一个卷积神经网络进行特征提取,得到28
×
28
×
512大小的特征图f0。卷积神经网络包括10个卷积层和3个池化层。首先经过64个卷积核的两次卷积后进行一次池化,然后经过128个卷积核的两次卷积后再进行一次池化,然后经过256个卷积核的三次卷积后再进行一次池化,最后经过512个卷积核的三次卷积后,得到特征图f0。然后将f0随机裁剪成n个大小为6
×6×
512的区域特征fi(i=1,2,...,n),每个区域分别由区域注意单元进行处理。区域注意单元由一个注意力网络实现,该网络包括一个池化层、卷积核分别为512和128的两个卷积层、一个全连接层和sigmoid层组成。通过计算输入的区域特征fi(i=0,1,...,n)的注意力权重αi(i=0,1,...,n),对区域特征fi进行加权,得到全局注意表示fm,从全局角度来辅助优化区域编码机制,自适应调节权重参数。
[0127]
其中,区域特征的注意力权重αi表示为:
[0128]
αi=sigmoid(f
it
·
q)
[0129]
其中,sigmoid()为非线性激活函数,f
it
表示转置后的区域特征,q全连接层参数,
[0130]
全局注意表示fm表示为:
[0131][0132]
其中,n表示区域数量,αi表示区域特征的注意力权重,fi表示区域特征。
[0133]
在区域注意单元中使用一个区域偏差损失用于约束注意力权值αi,即约束存在某个区域fi(i=1,2,...,n)的注意力权重αi大于带边缘的原始人脸图像f0的权重α0,通过“鼓励”rcn模型提高对重要区域的关注度,使得模型能够获得更好的区域和全局表示权值。
[0134]
区域偏差损失损失函数表示为:
[0135]
l
rb
=max{0,δ-(α
max-α0)}
[0136]
其中,lrb表示区域偏差损失,δ是超参数,α
max
表示所有局部区域的最大权重。
[0137]
全局注意单元由一个注意力网络实现,该网络包括一个全连接层和sigmoid层。将区域特征fi(i=0,1,...,n)分别与全局表示特征fm进行串联,得到目标特征[fi:fm],然后通过全局注意单元得到注意力权重βi(i=0,1,...,n),对[fi:fm]进行加权得到最终特征表示p,最后对p进行识别分类。
[0138]
其中,目标特征的注意力权重βi表示为:
[0139][0140]
其中,sigmoid()为非线性激活函数,表示区域特征和全局特征串联后转置后的特征,表示全连接层参数。
[0141]
最终特征表示p表示为:
[0142][0143]
其中,n表示区域数量,αi表示区域特征的注意力权重,βi表示目标特征注意力权重,[fi:fm]表示目标特征。
[0144]
图2为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的另一个流程图。
[0145]
如图2所示,该区域编码和样本平衡优化的课堂参与度识别方法,包括利用摄像头捕获受教育者实时在线学习画面,同步进行数据预处理;将低参与样本输入stargan模型中,通过映射网络或风格编码器生成具有不同风格的低参与样本,扩充数据库的少样本数量,以改善数据集不平衡带来的影响;将原始数据和生成的低参与样本共同输入到rcn中,通过学习不同面部区域的注意力权重进行区域编码,使得模型更关注权重较大的区域;在线采集的实时学习视频通过训练后的参与度识别框架得到参与度识别结果。
[0146]
图3为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的基于stargan模型生成在线学习低参与图像的结构示意图。
[0147]
如图3所示,将随机高斯噪声z和参考图像分别输入到映射网络和风格编码器,生成目标风格特征将目标风格特征和给定图像x输入到生成器g中生成虚假图像,最后由鉴别器d对生成图像进行鉴别,得到低参与样本。
[0148]
图4为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的基于stargan模型生成的低参与样本示意图。
[0149]
如图4所示,在给定输入图像和参考图像情况下,经过不同训练迭代次数后,得到不同的低参与生成图像样例。
[0150]
图5为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的特征提取卷积神经网络结构示意图。
[0151]
如图5所示,特征提取单元使用卷积神经网络进行特征提取,将尺寸为224
×
224
×
3的人脸表情图像作为输入进行特征提取,经过vgg16模型后特征的宽和高的维度减少,通道数不断增加,最终得到维度为28
×
28
×
512的特征图。
[0152]
图6为本技术实施例的区域编码和样本平衡优化的课堂参与度识别方法的基于rcn模型的参与度识别框架示意图。
[0153]
如图6所示,原始图像和生成图像输入特征提取单元进行特征提取,得到特征图f0,将f0随机裁剪成n个区域特征fi(i=0,1,...,n),通过区域注意单元计算输入的区域特征fi(i=0,1,...,n)的注意力权重αi(i=0,1,...,n),并对区域特征fi进行加权,得到全局注意表示fm,将区域特征fi(i=0,1,...,n)分别与全局表示特征fm进行串联,得到目标特征[fi:fm],然后通过全局注意单元得到注意力权重βi(i=0,1,...,n),并对[fi:fm]进行加权
得到最终特征表示p。
[0154]
图7为本技术实施例二所提供的一种区域编码和样本平衡优化的课堂参与度识别装置的结构示意图。
[0155]
如图7所示,该区域编码和样本平衡优化的课堂参与度识别装置,包括:
[0156]
第一获取模块10,用于获取学生在线学习的视频数据,并根据视频数据生成原始样本数据,其中,原始样本数据包括高参与样本数据和低参与样本数据;
[0157]
生成模块20,用于将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本;
[0158]
训练模块30,用于将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型;
[0159]
第二获取模块40,用于获取待识别视频数据,根据待识别视频数据生成待识别图像数据;
[0160]
识别模块50,用于将待识别图像数据输入训练好的rcn模型,得到参与度识别结果。
[0161]
本技术实施例的区域编码和样本平衡优化的课堂参与度识别装置,包括第一获取模块,用于获取学生在线学习的视频数据,并根据视频数据生成原始样本数据,其中,原始样本数据包括高参与样本数据和低参与样本数据;生成模块,用于将低参与样本数据输入stargan模型,生成具有不同风格的目标低参与样本;训练模块,用于将原始样本数据和目标低参与样本输入rcn模型中进行训练,得到训练好的rcn模型;第二获取模块,用于获取待识别视频数据,根据待识别视频数据生成待识别图像数据;识别模块,用于将待识别图像数据输入训练好的rcn模型,得到参与度识别结果。由此,能够解决现有参与度识别方法的参与度识别任务中样本分布极不平衡和手遮挡面部的技术问题,通过提出一种stargan模型生成低参与度样本,增强参与度数据库,同时提出一种用于面部区域编码的区域编码网络,能够自适应地学习不同面部区域的注意权值,并联合建模特征学习和遮挡区域编码,显著提升了网络模型的判别力和鲁棒性。
[0162]
进一步地,在本技术实施例中,根据视频数据生成原始样本数据,包括:
[0163]
利用人工及先验信息,定义视频数据的参与度标签;
[0164]
从视频数据提取图像帧,并裁剪提取图像帧的人脸区域,得到人脸图像作为原始样本数据,其中,根据参与度标签将原始样本数据分为高参与样本数据和低参与样本数据。
[0165]
为了实现上述实施例,本技术还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的区域编码和样本平衡优化的课堂参与度识别方法。
[0166]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0167]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0168]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0169]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0170]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0171]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0172]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0173]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1