注意力评估方法、装置、终端设备及计算机可读存储介质与流程

文档序号：16899495发布日期：2019-02-19 17:49阅读：185来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明属于视频图像处理领域，尤其涉及一种注意力评估方法、装置、终端设备及计算机可读存储介质。

背景技术：

随着移动互联网技术的迅猛发展，电子课堂教育得到了不断的普及，由于电子课堂教育的特点，使得教师无法充分地了解到学生的注意力情况，难以针对学生的注意力情况及时对教学方式进行调整，从而导致教学效果较差。

技术实现要素：

有鉴于此，本发明实施例提供了一种注意力评估方法、装置、终端设备及计算机可读存储介质，以解决在电子课堂教育中，教师无法充分地了解到学生的注意力情况，教学效果较差的问题。

本发明实施例的第一方面提供了一种注意力评估方法，可以包括：

获取待评估用户的视频；

从所述视频中提取所述待评估用户的特征；

将所述待评估用户的特征输入到回归网络中进行处理，得到对所述待评估用户的注意力评估结果，所述回归网络为预先训练好的进行注意力评估的神经网络模型。

进一步地，所述从所述视频中提取所述待评估用户的特征可以包括：

将所述视频划分为n个视频段，n为正整数；

分别从各个视频段中提取所述待评估用户的特征。

进一步地，所述分别从各个视频段中提取所述待评估用户的特征可以包括：

分别从各个视频段中提取所述待评估用户的姿态特征；

和/或

分别从各个视频段中提取所述待评估用户的人脸特征；

和/或

分别从各个视频段中提取所述待评估用户的三正交平面局部二值模式特征；

和/或

分别从各个视频段中提取所述待评估用户的三维卷积特征。

进一步地，所述将所述待评估用户的特征输入到回归网络中进行处理，得到对所述待评估用户的注意力评估结果可以包括：

将各种特征分别输入到由长短期记忆网络和全连接层组成的回归网络中进行处理，得到基于各种特征的评估结果；

将基于各种特征的评估结果进行融合处理，得到对所述待评估用户的注意力评估结果。

进一步地，所述回归网络在训练过程中使用如下式所示的损失函数：

其中，y为网络输出，g为标准值，且g＝c(f(m(t1),θ),f(m(t2),θ),......)，c为所述回归网络的处理函数，f为特征计算函数，m为每个时间段的矩阵，θ为网络节点的参数，ti为不同的时间段，lr为正则项公式，且i为同属一个特征的集合，k为i中的元素数量，yi为当前的样本输出。

本发明实施例的第二方面提供了一种注意力评估装置，可以包括：

视频获取模块，用于获取待评估用户的视频；

特征提取模块，用于从所述视频中提取所述待评估用户的特征；

注意力评估模块，用于将所述待评估用户的特征输入到回归网络中进行处理，得到对所述待评估用户的注意力评估结果，所述回归网络为预先训练好的进行注意力评估的神经网络模型。

进一步地，所述特征提取模块可以包括：

视频段划分单元，用于将所述视频划分为n个视频段，n为正整数；

特征提取单元，用于分别从各个视频段中提取所述待评估用户的特征。

进一步地，所述特征提取单元可以包括：

第一特征提取子单元，用于分别从各个视频段中提取所述待评估用户的姿态特征；

和/或

第二特征提取子单元，用于分别从各个视频段中提取所述待评估用户的人脸特征；

和/或

第三特征提取子单元，用于分别从各个视频段中提取所述待评估用户的三正交平面局部二值模式特征；

和/或

第四特征提取子单元，用于分别从各个视频段中提取所述待评估用户的三维卷积特征。

将各种特征分别输入到由长短期记忆网络和全连接层组成的回归网络中进行处理，得到基于各种特征的评估结果；

将基于各种特征的评估结果进行融合处理，得到对所述待评估用户的注意力评估结果。

进一步地，所述回归网络在训练过程中使用如下式所示的损失函数：

本发明实施例的第三方面提供了一种注意力评估终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以上任一种注意力评估方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以上任一种注意力评估方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例首先获取待评估用户的视频，然后从所述视频中提取所述待评估用户的特征，并将所述待评估用户的特征输入到回归网络中进行处理，由于所述回归网络为预先训练好的进行注意力评估的神经网络模型，使用其对待评估用户的特征进行处理，可以得到对所述待评估用户的注意力评估结果。通过本发明，可以在电子课堂教育中，使得教师充分地了解到学生的注意力情况，针对学生的注意力情况及时对教学方式进行调整，从而带来教学效果的显著提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的注意力评估方法的示意流程图；

图2为本发明实施例提供的注意力评估方法的一种具体实现方式的示意图；

图3为本发明实施例提供的注意力评估装置的示意框图；

图4是本发明实施例提供的注意力评估终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一：

如图1所示，是本发明实施例提供的一种注意力评估方法的示意流程图，所述方法可以包括：

步骤s101、获取待评估用户的视频。

该视频即为待评估用户在电子课堂上听课的视频，所述电子课堂包括但不限于大规模开放的在线课程(massiveopenonlinecourse，mooc)。一般地，用户可以通过手机、平板电脑、笔记本电脑或者台式电脑等终端设备连接电子课堂进行听课学习，在该用户听课的过程中，可以通过这些终端设备的摄像头采集该用户的听课视频，并将该视频作为待该用户进行注意力评估的依据。

步骤s102、从所述视频中提取所述待评估用户的特征。

在本实施例中，可以首先将所述视频划分为n个视频段，然后分别从各个视频段中提取所述待评估用户的特征。

其中，n为正整数，其具体取值可以根据实际情况设置，例如，可以将其设置为5、10、20或者其它取值，在本实施例中，优选取n＝10。

在本实施例中，利用了多示例学习(multipleinstancelearning，mil)的方法和原理，对视频进行分段处理，把每个视频看成一个包(bag)，把每个分段看成这个包里的示例(instance)。针对不同长度的视频，每个段的帧数也是不一样的，即可以随着视频的长度而去自适应地生成分段的长度。训练的时候是将这些视频段作为一个输入单元输入网络，出来的结果是一个视频的预测结果。测试的时候是将这些视频段按照顺序一起送入网络，出来一个结果。与将单帧拿出来做回归比起来，这样做的优点在于以下三点：第一，单帧训练完全丢失了时序信息，而这种方法保留了时序信息，对于最后回归的准确性有很大地帮助；第二，将视频分成不同的段，可以一定程度上减轻视频标签与段的实际情况或者帧的实际情况不一致的现象；第三，每个分段里面包括了很多帧，既有时序信息，也有空间上的变化情况，这种变化的时序和空间信息对于回归的任务是有积极意义的。

所述分别从各个视频段中提取所述待评估用户的特征可以包括：

分别从各个视频段中提取所述待评估用户的姿态特征；

和/或

分别从各个视频段中提取所述待评估用户的人脸特征；

和/或

分别从各个视频段中提取所述待评估用户的三正交平面局部二值模式(localbinarypatternsfromthreeorthogonalplanes，lbp-top)特征；

和/或

分别从各个视频段中提取所述待评估用户的三维卷积(3dconvolution，c3d)特征。

在本实施例中，优选对各个视频段同时进行姿态特征、人脸特征、lbp-top特征以及c3d特征这四种特征的提取，这样多方位的综合考虑各种特征，可以有效增加评估结果的准确性。

具体地，可以通过卷积神经网络(convolutionalneuralnetwork，cnn)提取人脸特征，在本实施例中优选采用人脸识别框架openface进行对人脸特征点信息的提取，并将每段特征保存成mat文件的形式。

针对人的姿态特征，可以同样使用cnn对姿态信息进行提取，在本实施例中优选采用基于骨架模型的动作识别框架openpose进行姿态特征的提取，用openpose将人的上半身关键点进行提取，并去除一些不经常出现的点，例如这个数据集里面的手肘，因为神经网络里面由太多的0会导致稀疏，这对回归分析是不利的，openpose在检测回归人的关节点坐标的时候，如果没有检测到关键点，便会把那个坐标记为(0，0)，如果保存这些信息，将会得到很多扰动的信息，故需要将偶尔出现的关节点去除。

lbp-top特征是局部二值模式(localbinarypatterns，lbp)特征从二维到三维的拓展，单张的图像只有x、y两个方向，而一个视频或者图像序列除了x、y方向之外，还有一个沿着时间轴t的方向，而x-y，x-t和y-t三个方向是相互正交的。一个图像序列，给出三个正交平面的纹理图，x-y就是一般正常看到的图像，x-t是每一行沿着时间轴扫描而过的纹理，y-t是每一列沿着时间轴扫描而过的图像，简单来说，可以在这三个平面都提取lbp特征，然后把三个平面的lbp特征连接起来，就是lbp-top。本实施例在进行lbp-top特征的提取后，可以获得3*59的特征矩阵，再把该特征矩阵调整到1*177的特征矩阵。

对于c3d特征，同样可以使用cnn做特征提取，在本实施例中，可以采用残差网络resnet18在预设的数据集sports_1m上预训练的模型进行特征提取，把全连接层前一层的特征抽取出来，这个特征的维度是768维度的。

视频的各个分段在加载数据的时候作为一个批次，这样每次评估的时候是将一个视频完整的特征都利用上，得到一个结果。同时综合这四个特征做一个融合，从而将所能获得的信息充分利用。

步骤s103、将所述待评估用户的特征输入到回归网络中进行处理，得到对所述待评估用户的注意力评估结果。

所述回归网络为预先训练好的进行注意力评估的神经网络模型，该回归网络由长短期记忆(longshort-termmemory，lstm)网络和全连接(fullconnect，fc)层组成，以下简称为lstm+fc，该回归网络的运行机制是在lstm中每16次循环迭代为一个周期，然后把最后一个阶段的特征送入fc中做分类。

在本实施例中，可以首先将各种特征分别输入到回归网络中进行处理，得到基于各种特征的评估结果，然后将基于各种特征的评估结果进行融合处理，得到对所述待评估用户的注意力评估结果。

具体地，如图2所示，视频首先被划分为若干个视频段，然后分别对各个视频段中进行姿态特征、人脸特征、lbp-top特征以及c3d特征这四种特征的提取，将这些特征分别输入到lstm+fc的回归网络中进行处理，得到基于各种特征的评估结果，再将各个视频段基于同一特征的评估结果进行融合处理，也即将第1个视频段基于姿态特征的评估结果、第2个视频段基于姿态特征的评估结果、第3个视频段基于姿态特征的评估结果、…、第n个视频段基于姿态特征的评估结果进行融合处理，得到整个视频基于姿态特征的评估结果；将第1个视频段基于人脸特征的评估结果、第2个视频段基于人脸特征的评估结果、第3个视频段基于人脸特征的评估结果、…、第n个视频段基于人脸特征的评估结果进行融合处理，得到整个视频基于人脸特征的评估结果；将第1个视频段基于lbp-top特征的评估结果、第2个视频段基于lbp-top特征的评估结果、第3个视频段基于lbp-top特征的评估结果、…、第n个视频段基于lbp-top特征的评估结果进行融合处理，得到整个视频基于lbp-top特征的评估结果；将第1个视频段基于c3d特征的评估结果、第2个视频段基于c3d特征的评估结果、第3个视频段基于c3d特征的评估结果、…、第n个视频段基于c3d特征的评估结果进行融合处理，得到整个视频基于c3d特征的评估结果。最后，将整个视频基于姿态特征的评估结果、基于人脸特征的评估结果、基于lbp-top特征的评估结果、基于c3d特征的评估结果进行融合处理，得到对所述待评估用户的注意力评估结果。所述融合处理包括但不限于求均值处理及加权平均处理等等。

在进行正式的注意力评估之前，所述回归网络需要预先经过大量的样本训练，在本实施例中，进行训练的样本数据集是在实验室环境下采集的，被试者被要求根据自己的理解去录制出四个等级注意力集中程度的听课视频，四个等级分别是(0，1，2，3)，0代表注意力一点也不集中，1代表注意力有点不集中，2代表注意力比较集中，3代表注意力非常集中，每个人录制的视频背景是不一样的，而且有的情况下还会出现有其余的人在后面走动，甚至出现在同一个屏幕里。对于这些样本视频，通过上述步骤s102中所述的过程提取出被试者的特征，并输入到回归网络中进行处理，得到对被试者的注意力评估结果。

所述回归网络在训练过程中使用如下式所示的损失函数对样本的训练结果进行评估：

可以看出，该损失函数的第一部分是均方差值(meansquareerror，mse)损失函数，第二部分是正则(regularization)损失函数，该损失函数使用调和平均，可以有效的限制某一类的极值分布，从而限制此类的离散程度，有效的提升算法对不平衡数据的鲁棒性，也可以有效地防止过拟合。

在训练过程中，若使用样本数据集对回归网络进行训练后，该损失函数大于预设的阈值，则需要对回归网络的参数进行调整，并再次使用样本数据集对回归网络重新进行训练后，不断重复这一过程，直至该损失函数小于或等于该阈值为止，此时，则可结束对回归网络的训练，并使用训练好的回归网络进行用户的注意力评估。

综上所述，本发明实施例首先获取待评估用户的视频，然后从所述视频中提取所述待评估用户的特征，并将所述待评估用户的特征输入到回归网络中进行处理，由于所述回归网络为预先训练好的进行注意力评估的神经网络模型，使用其对待评估用户的特征进行处理，可以得到对所述待评估用户的注意力评估结果。通过本发明，可以在电子课堂教育中，使得教师充分地了解到学生的注意力情况，针对学生的注意力情况及时对教学方式进行调整，从而带来教学效果的显著提升。

实施例二：

如图3所示，是本发明实施例提供的一种注意力评估装置的示意框图，所述装置可以包括：

视频获取模块301，用于获取待评估用户的视频；

特征提取模块302，用于从所述视频中提取所述待评估用户的特征；

注意力评估模块303，用于将所述待评估用户的特征输入到回归网络中进行处理，得到对所述待评估用户的注意力评估结果，所述回归网络为预先训练好的进行注意力评估的神经网络模型。

进一步地，所述特征提取模块可以包括：

视频段划分单元，用于将所述视频划分为n个视频段，n为正整数；

特征提取单元，用于分别从各个视频段中提取所述待评估用户的特征。

进一步地，所述特征提取单元可以包括：

第一特征提取子单元，用于分别从各个视频段中提取所述待评估用户的姿态特征；

和/或

第二特征提取子单元，用于分别从各个视频段中提取所述待评估用户的人脸特征；

和/或

第三特征提取子单元，用于分别从各个视频段中提取所述待评估用户的三正交平面局部二值模式特征；

和/或

第四特征提取子单元，用于分别从各个视频段中提取所述待评估用户的三维卷积特征。

将各种特征分别输入到由长短期记忆网络和全连接层组成的回归网络中进行处理，得到基于各种特征的评估结果；

将基于各种特征的评估结果进行融合处理，得到对所述待评估用户的注意力评估结果。

进一步地，所述回归网络在训练过程中使用如下式所示的损失函数：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

应理解，上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图4是本发明一实施例提供的注意力评估终端设备的示意框图。如图4所示，该实施例的注意力评估终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个注意力评估方法实施例中的步骤，例如图1所示的步骤s101至步骤s103。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至模块303的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述注意力评估终端设备4中的执行过程。例如，所述计算机程序42可以被分割成视频获取模块、特征提取模块、注意力评估模块。

所述注意力评估终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述注意力评估终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是注意力评估终端设备4的示例，并不构成对注意力评估终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述注意力评估终端设备4还可以包括输入输出设备、网络接入设备、总线等。

所述处理器40可以是中央处理单元(centralprocessingunit，cpu)，还可以是其它通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述注意力评估终端设备4的内部存储单元，例如注意力评估终端设备4的硬盘或内存。所述存储器41也可以是所述注意力评估终端设备4的外部存储设备，例如所述注意力评估终端设备4上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，所述存储器41还可以既包括所述注意力评估终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述注意力评估终端设备4所需的其它程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔宇;王锴;彭小江;杨剑飞
技术所有人：中国科学院深圳先进技术研究院
我是此专利的发明人

上一篇：一种终端类型识别方法、装置、电子设备及存储介质与流程
上一篇：一种景观苗木种植方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。