一种基于全局人脸识别的课堂考勤方法及系统与流程

文档序号:15494244发布日期:2018-09-21 21:19阅读:175来源:国知局

本发明涉及人脸识别技术领域,更具体地,涉及一种基于全局人脸识别的课堂考勤方法及系统。



背景技术:

在教育领域,得到课堂中学生的出勤名单,从而使老师和学校更好的掌握学生的学习状况,基于课堂监控视频的自动考勤具有很高的应用价值。

对于课堂考勤方面的研究,目前主要有以下的研究:

在2004年,kawaguchi,yohei等人提出了一种方法,其通过固定学生的座位(比如,在一个学期或者一个月的时间内,学生的座位均是固定不变的)并进行持续的人脸监控和识别来自动的标记课堂中的学生图像。这个方法能够持续对每一位学生进行观察识别,通过不断的将捕捉到的学生人脸与该位置学生的标准照片进行比较得到最终的出勤结果。简单来说,就是事先对每一位学生安排了座位,当某一次上课时,对某一个位置的学生的人脸图像进行拍摄,并将拍摄的人脸图像与该座位的学生的标准照进行匹配验证,进而来确定该座位的学生是否出勤。该方案更多地侧重于对每一个座位上的学生的出勤情况进行验证。类似的通过固定学生座位的方式,visar等人提出了在现有的学习管理系统基础上加入实时的人脸检测,其使用了位于教室前方和屋顶的两个摄像头获取图像信息并将其与各个位置的学生在数据库中的图像进行比较从而确定课堂的出勤名单。这些固定学生座位的方法虽然能够准确的得到课堂的出勤名单但是使用范围却受到了很大的限制,因为在大学课堂中学生的座位并不固定,这就使得上述方法在这种场景下并不适用。

为了在更广的应用场景中使用课堂自动考勤系统,jha,abhishek提出了使用pca和lda方法提取检测到的人脸特征并将其逐个与参考数据集中的图像特征进行对比的方法来进行人脸识别。类似的,也有采用viola-jones算法进行人脸检测,并利用lbp特征进行人脸识别。这些方法为了从视频中采集到更高质量的学生人脸图像,采用了调整摄像头角度的方法,将摄像头在上课之前对准教室门口,以便在学生进入教室时就对学生进行人脸检测和识别,并通过树莓派单片机来控制摄像头的拍摄角度。该种方法虽然能够获得质量更高的学生人脸图像,但是其缺点是需要在原有的系统中再附加摄像头的控制系统,需要增加额外的硬件。

另外,采用上述的方法,均是将拍摄到的每一个学生的人脸图像逐一地与各个学生的标准照进行对比,匹配速度慢、匹配精度低;而且当课堂中人脸的角度变化比较大或者有遮挡时,摄像头拍摄出的人脸图像模糊不清,则可能无法识别。



技术实现要素:

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于全局人脸识别的课堂考勤方法及系统,克服了现有技术中的通过人脸识别匹配精确度不高的问题。

根据本发明的一个方面,提供基于全局人脸识别的课堂考勤方法,包括:

s1,从视频流的每一帧图像中提取出人脸图像,得到所述视频流中所有的人脸图像,并对所有的人脸图像进行人脸追踪,得到多条人脸轨迹,其中,所述视频流为拍摄课堂场景获得;

s2,将所述多条人脸轨迹与选课名单中所有学生对应的标准照进行全局人脸匹配,得到与每一条人脸轨迹匹配的一张标准照,根据每一张标准照对应的学生,输出课堂出勤名单。

根据本发明的另一个方面,提供了一种基于全局人脸识别的课堂考勤系统,包括:

人脸追踪模块,用于从视频流的每一帧图像中提取出人脸图像,得到所述视频流中所有的人脸图像,并对所有的人脸图像进行人脸追踪,得到多条人脸轨迹,其中,所述视频流为拍摄课堂场景获得;

全局人脸匹配模块,用于将所述多条人脸轨迹与选课名单中的每一位学生对应的标准照进行全局人脸匹配,得到与每一条人脸轨迹匹配的一张标准照,根据每一张标准照对应的学生,输出课堂出勤名单。

本发明对所有的人脸图像进行人脸追踪,得到所有人脸图像的多条人脸轨迹,每一条人脸轨迹包括追踪得到的一位学生的人脸图像序列,以及其中每一张人脸图像的位置信息、帧数信息和尺寸信息,对所有在课堂上的学生对应的一系列人脸轨迹进行全局人脸匹配,一次性地得到课堂出勤名单,无需学生主动配合,也无需增加额外的硬件,一次性得到考勤数据,也提高了考勤的效率。

附图说明

图1为本发明一个实施例的基于全局人脸识别的课堂考勤方法流程图;

图2为本发明一个实施例的基于全局人脸识别的课堂考勤系统连接框图;

图3为本发明另一个实施例的基于全局人脸识别的课堂考勤系统连接框图;

图4为图2和图3中人脸追踪模块的内部连接框图;

图5为本发明又一个实施例的基于全局人脸识别的课堂考勤系统连接框图;

图6为本发明一个实施例的服务器的实体结构示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

参见图1,提供了本发明一个实施例的基于全局人脸识别的课堂考勤方法,包括:s1,从视频流的每一帧图像中提取出人脸图像,得到所述视频流中所有的人脸图像,并对所有的人脸图像进行人脸追踪,得到多条人脸轨迹,其中,所述视频流为拍摄课堂场景获得;s2,将所述多条人脸轨迹与选课名单中所有学生对应的标准照进行全局人脸匹配,得到与每一条人脸轨迹匹配的一张标准照,根据每一张标准照对应的学生,输出课堂出勤名单。

本发明实施例中,摄像头安装在教室的前方,拍摄学生上课的画面,得到学生上课画面的视频流,对视频流进行解码得到学生上课的课堂场景图像。其中学生在上课的过程中,在座位上的位置基本上是不变的,在上课的整个过程中,所有学生的移动范围是微小的。随后对视频流中的每一帧场景图像都利用fasterr-cnn模型进行人脸检测,即从每一帧场景图像中检测出人脸图像,即人脸图像为帧场景图像中的一个子图像,比如,一帧场景图像的尺寸大小为w*h像素,其中的人脸图像的尺寸大小为m*n像素,其中,m<w,n<h。在从视频流的帧场景图像中检测出人脸图像的过程中,同时可以对检测出的人脸图像进行人脸追踪,即人脸图像的检测过程与人脸图像追踪的过程可以同时进行,这样更具有时效性以及更节约整个人脸追踪的时间。其中,人脸图像的追踪即是对每一位学生的人脸图像序列进行追踪,一位学生的人脸图像序列组成一条人脸轨迹。通常人脸轨迹数与教室课堂上的学生人数相同,当然,由于人脸轨迹的追踪误差,人脸轨迹数可能大于实际进入教室的学生人数,比如,属于同一个学生的人脸图像序列经过人脸轨迹追踪,可能会形成两条人脸轨迹,这样,最后追踪得到的人脸轨迹数大于课堂上学生的人数。本发明实施例支持人脸轨迹数大于学生人数的情况,即每一个标准照可以分配给多条人脸轨迹,比如,同一个学生的人脸图像序列形成了两条人脸轨迹,那么最终人脸轨迹与标准照匹配的结果为这两条人脸轨迹均与某一张标准照匹配。在本发明实施例中,一张标准照可以与多条人脸轨迹匹配,但是这多条人脸轨迹需要满足一个条件,即这多条人脸轨迹出现的时间交集必须为空。

基于得到的多条人脸轨迹,将这多条人脸轨迹与选课名单中的所有学生的标准照进行全局人脸匹配,得到与每一条人脸轨迹对应匹配的一张学生标准照,其中,一条人脸轨迹只能匹配一张标准照,根据人脸轨迹与标准照的匹配结果,以及每一个标准照对应的学生,输出课堂出勤名单。

本发明实施例对所有的人脸图像进行人脸追踪,得到所有人脸图像的多条人脸轨迹,一条人脸轨迹上包括一位学生的人脸图像序列,以及每一个人脸图像的位置信息、帧数信息和尺寸信息。由于人脸轨迹追踪的误差,一位学生的所有人脸图像序列不一定被追踪为一条人脸轨迹,前面已经说明了。随后,对所有在课堂上的学生对应的一系列人脸轨迹进行全局人脸匹配,一次性地得到课堂出勤名单,无需学生主动配合,也无需增加额外的硬件,一次性得到考勤数据,也提高了考勤的效率。

在上述实施例的基础上,本发明的一个实施例中,所述步骤s1具体包括:s11,对视频流的每一帧图像进行人脸检测,从每一帧图像中提取出人脸图像,得到整个视频流的所有人脸图像,并获取每一张人脸图像在对应帧图像中的位置信息、所在帧图像的帧数信息和尺寸信息;s12,根据每一张人脸图像的位置信息、帧数信息和尺寸信息,确定每一张人脸图像所属的人脸轨迹。

在对视频流中的每一帧课堂场景图像进行人脸检测的过程中,将人脸图像从帧场景图像中裁剪出来,并对裁剪出来的人脸图像进行人脸对齐,最后将对齐后的人脸图像进行人脸追踪。需要说明的是,在本实施例中人脸图像的检测过程与人脸图像追踪的过程可以同时进行,即从帧场景图像中检测出一张人脸图像,就可以对该张人脸图像进行追踪,这样体现了人脸追踪的时效性,以及为整个人脸轨迹的追踪提高了时间的效率。

其中,在从帧场景图像中进行人脸检测时,由于基于fasterr-cnn模型对人脸检测方面取得了很大的成功,因此,本发明实施例采用fasterr-cnn模型对图像中的人脸进行检测。其中,fasterr-cnn模型包括三个部分,分别为一个基本的convnet模块、一个区域提议网络(regionproposalnetwork,简称为rpn)和一个fastr-cnn模块。基本的convnet模块负责对输入的帧场景图像进行卷积和池化操作以生成帧场景图像对应的卷积特征图。区域提议网络rpn是在卷积特征图之上构建的一个卷积网络,其负责产生一组最可能包含人脸的区域提案,即人脸在整个帧场景图像中的位置区域,比如,一帧场景图像中包含有多个人脸,则区域提议网络rpn检测该帧场景图像中每一个人脸所在的区域,对每一个人脸划定一个区域,该区域基本上能够涵盖整个人脸,由于在上课过程中,学生的位置基本上是固定不动的,因此,摄像头拍摄的同一个学生的人脸图像的尺寸大小基本上是相同的,对于不同排的学生,比如,坐在前排的学生与坐在后排的学生检测出的人脸图像的尺寸大小在上课的过程中是不相同的。

区域提议网络rpn对每一帧场景图像中的人脸区域进行检测后,得到人脸框位置的预提案,fastr-cnn模块提取出帧场景图像中的每一个人脸区域,得到精确调整后的人脸框位置。本发明实施例中对视频流中的每一帧图像采用fasterr-cnn模型进行人脸检测,检测出每一帧图像中的人脸图像,以及人脸图像在对应的帧场景图像中的位置信息、该人脸图像所在的帧场景图像在整个视频流中的帧数信息以及该人脸图像的尺寸信息,其中,每一个人脸图像的帧数信息可以表征该人脸图像的时间信息,其中,整个fasterr-cnn模型最终输出调整后的人脸框位置,进而得到帧场景图像中的人脸图像。其中,人脸对齐是指在人脸相关的应用中,将人脸的关键点对齐到同一位置(如按照双眼位置进行对齐),这样可以尽可能的消除因角度不一致带来的特征差别。

提取了每一个人脸图像在所在帧场景图像中的位置信息、人脸图像的时间信息(可以理解为人脸图像所在帧场景图像的帧数信息)以及尺寸信息,就能够对所有的人脸图像进行人脸追踪,即哪些人脸图像可以划归为同一条人脸轨迹,最终将所有的人脸图像划归为多条人脸轨迹,一条人脸轨迹包含一个学生的人脸图像序列。

在上述实施例的基础上,本发明的另一个实施例中,所述s12具体包括:a,针对每一张人脸图像,基于当前人脸图像的位置信息、帧数信息和尺寸信息与已经存在的每一条人脸轨迹的最后一张人脸图像的位置信息、帧数信息和尺寸信息,判断当前人脸图像能否与已经存在的每一条人脸轨迹的最后一张人脸图像进行链接,若能,执行步骤b;若否,执行步骤c;b,将当前人脸图像链接到已经存在的人脸轨迹中的其中一条人脸轨迹上,其中,所述当前人脸图像能够与该人脸轨迹上的最后一张人脸图像链接;c,基于当前人脸图像创建一条新的人脸轨迹,返回步骤a。

当从视频流的帧图像中检测出一张人脸图像时,就对该张人脸图像进行人脸追踪,即人脸图像的检测过程与人脸图像的追踪过程是同时进行的。从检测的第一张人脸图像开始,初始创建一条人脸轨迹,对于后续按照顺序的每一张人脸图像,判断该张人脸图像能否与每一条已经存在的人脸轨迹的最后一张人脸图像衔接上,其中,一条人脸轨迹是由多张人脸图像按照顺序串联组成的,在具体判断过程中,根据当前人脸图像的位置信息、时间信息和尺寸信息,以及已经存在的每一条人脸轨迹的最后一张人脸图像的位置信息、时间信息和尺寸信息判断当前人脸图像是否能够与人脸轨迹的最后一张人脸图像衔接。如果可以,则将该张人脸图像链接到最合适的人脸轨迹上;如果当前人脸图像不能够链接到已经存在的任何一条人脸轨迹上,则基于当前人脸图像创建一条新的人脸轨迹,一直到所有的人脸图像均链接到对应的人脸轨迹为止。

其中,当对一张人脸图像检测出了位置信息、时间信息和尺寸信息后,就可以对人脸轨迹进行人脸追踪,在人脸追踪的过程中,会出现两种操作,即人脸轨迹的链接和人脸轨迹的创建。首先,计算当前人脸图像fi链接到已经存在的人脸轨迹tj上的代价值c(tj→fi):

其中,j∈[1,n],i∈[1,m],fi是当前人脸图像,n是已存在的人脸轨迹数,m是视频流中人脸图像的总数量,是第j条人脸轨迹上最后一张人脸图像的位置信息,li是当前人脸图像fi的位置信息;是第j条人脸轨迹上最后一张人脸图像的时间信息,ti是当前人脸图像fi的时间信息,是第j条人脸轨迹上最后一张人脸图像的尺寸信息,si是当前人脸图像fi的尺寸信息;δl、δt和δs分别是当前人脸图像与一条人脸轨迹的最后一条人脸图像能够衔接的最大位置距离阈值、最大时间差阈值以及最大尺寸差阈值。

根据公式(1),能够计算出当前人脸图像fi与已经存在的j条人脸轨迹链接的代价值,得到当前人脸图像fi对应的j个代价值。将这j个代价值与预设代价值进行比较,如果这j个代价值均大于预设代价值,则当前人脸图像fi不能链接到已经存在的任何一条人脸轨迹上,需要基于当前人脸图像fi创建一条新的人脸轨迹。若这j个代价值有一部分小于等于预设代价值,也有一部分代价值大于预设代价值,或者所有的代价值均小于等于预设代价值,将小于等于预设代价值的代价值都筛选出来,找到其中最小代价值对应的人脸轨迹,则将当前人脸图像fi链接到其中最小代价值对应的人脸轨迹上。也可以理解为,从多个代价值中找到最小的代价值,判断该最小的代价值是否低于预设阈值,若否,则基于当前人脸图像创建一条新的人脸轨迹;若是,则将当前人脸图像链接到所述最小的代价值对应的人脸轨迹上。将所有的人脸图像进行人脸轨迹的链接或者创建,就完成了整个视频流中的所有人脸图像的人脸轨迹的追踪。

从上述可以得出,人脸追踪的大致过程为,分析当前人脸图像的位置信息、当前人脸图像的时间信息(也可以理解为当前人脸图像所在帧场景图像的帧数信息)以及当前人脸图像的尺寸信息与每一条人脸轨迹的最后一张人脸图像的位置信息、时间信息以及尺寸信息是否能够衔接上,若当前人脸图像的位置信息、时间信息以及尺寸信息与某一条人脸轨迹上最后一张人脸图像的位置信息、时间信息以及尺寸信息能够衔接,则当前人脸图像能够与该人脸轨迹链接;相反,若当前人脸图像的位置信息、时间信息以及尺寸信息与任何一条人脸轨迹上最后一张人脸图像的位置信息、时间信息以及尺寸信息都不能够衔接,则当前人脸图像与任意一条人脸轨迹均不能链接,则只能为该当前人脸图像创建一条新的人脸轨迹。

在上述各实施例的基础上,本发明的一个实施例中,所述提取每一条人脸轨迹的人脸特征具体包括:s21,提取每一条所述人脸轨迹的人脸特征;s22,计算每一条人脸轨迹的人脸特征与选课名单中每一个学生的标准照的人脸特征之间的相似度,得到多条人脸轨迹与多个学生的标准照之间的相似度矩阵;s23,根据所述相似度矩阵,设定全局人脸匹配的约束条件,根据所述约束条件求解得到多条人脸轨迹与多个学生的标准照之间的匹配结果;其中,所述约束条件确保每一条人脸轨迹只能匹配一个学生的标准照,以及一个学生的标准照不能被匹配给时间上存在交集的两个人脸轨迹。

其中,对所有的人脸图像进行人脸追踪后,每一条人脸轨迹是由多张人脸图像组成的人脸图像序列构成的,因此,本发明实施例通过提取一条人脸轨迹上的每一张人脸图像的人脸特征,进而来提取整条人脸轨迹的人脸特征,具体为,对于任意一条人脸轨迹,采用深度卷积神经网络提取该人脸轨迹的每一张人脸图像的人脸特征;同样的,对于选课名单中的每一个学生的标准照,也利用深度卷积神经网络提取每一张标准照的人脸特征,其中,一位学生对应有一张标准照。计算人脸轨迹的每一张人脸图像的人脸特征与每一张标准照的人脸特征的相似度,对于每一张标准照,都得到该张标准照与同一条人脸轨迹中的每一张人脸图像之间的相似度,将与每一张标准照之间的相似度最高的人脸图像的人脸特征作为所在人脸轨迹的人脸特征。

其中,可以利用余弦相似度来评估一条人脸轨迹中的第i张人脸图像的人脸特征与第j张标准照的人脸特征之间的相似度sij:

其中,fi是第i张人脸图像的人脸特征,fj是第j张标准照的人脸特征,选取该条人脸轨迹的多个人脸图像中和标准照的最大余弦相似度的人脸图像的人脸特征,作为该条人脸轨迹的人脸特征,进而将该人脸图像的人脸特征与各标准照的人脸特征之间的相似度作为该人脸轨迹与各标准照之间的相似度。

skj=maxsijs.t,i∈track(k);(3)

其中,k∈[1,m],j∈[1,n],skj指的是第k个人脸轨迹与第j张标准照之间的相似度,sij是一条人脸轨迹中第i张人脸图像与地j张标准照之间的相似度,计算出了每一条人脸轨迹的人脸特征与每一位学生的标准照的人脸特征之间的相似度,最终得到一个m×n的矩阵s,其代表了m个人脸轨迹与n张标准照之间的相似度。

对于得到的每一条人脸轨迹,提取人脸轨迹的人脸特征,并将每一条人脸轨迹的人脸特征与选课名单中所有学生对应的标准照的人脸特征进行相似度的计算,得到多条人脸轨迹与多个学生的标准照之间的相似度矩阵,比如,存在m个人脸轨迹,选课名单中的学生人数为n,则计算了每一条人脸轨迹的人脸特征和每一个学生的标准照的人脸特征之间的相似度后,形成了一个m*n的相似度矩阵。得到人脸轨迹和标准照之间的相似度矩阵后,采用全局人脸匹配的优化方法,一次性将多条人脸轨迹与多个学生的标准照进行匹配,得到匹配结果,即哪一条人脸轨迹与哪一个学生的标准照匹配,得到最终的匹配结果后,输出课堂出勤名单。

具体全局匹配的过程为,将全局人脸匹配定义为以下的优化问题:

在式(4)中,xij是一个为1或0的二值变量,xij为1代表第i个人脸轨迹与第j张标准照匹配,xij为0表示的意思是第i个人脸轨迹与第j张标准照不匹配。式(4)的含义是寻找一种匹配方式使得所有人脸轨迹与标准照的总相似度最高。

其中,sij为第i条人脸轨迹与第j张标准照之间的相似度,所有的sij均大于0,由式(4)可以看出,当xij均为1时,式(4)的值为最大,此时的结果是每一条人脸轨迹与每一张标准照都是匹配的,这显然是不可能的。因此,在求解的过程中,建立了求解的约束条件,可以参看式(5)和式(6),式(5)的约束条件确保了每一条人脸轨迹只能与一张学生标准照,即对于任意一个轨迹i,其只能与一个标准照j匹配,式(6)的约束考虑了人脸轨迹在时间上的互斥性,即一个学生的标准照不能与时间上出现交集的两个人脸轨迹匹配。考虑人脸轨迹在视频流中的出现情况,假设视频流有t帧,可以构建一个m×t维的二值约束矩阵cm*t,cm*t表示了m个人脸轨迹中的每一个人脸图像的帧数信息,可以理解为时间信息:

其中,i∈(1,m),j∈(1,t),矩阵中cij=1意味着第i条人脸轨迹出现在了第j帧中,cm*t的每一行代表每一条人脸轨迹的时间信息,从二值约束矩阵的第一行开始扫描,每次比较两行(cp,cq),cp代表二值约束矩阵中前一条人脸轨迹的时间信息,cq代表二值约束矩阵中的后一条人脸轨迹的时间信息,判断它们时间的交集是否为空,即判断这两行是否有相同的列为1,如果不为空,则说明这两条人脸轨迹在同一时刻出现,那么这两条人脸轨迹必定不是同一个学生的人脸图像序列,所以这两条人脸轨迹不能与同一张学生标准照匹配,通过逐行的扫描,最多会添加m(m-1)/2个限制条件。

其中,具体的处理步骤为,首先根据每条人脸轨迹中包含的人脸图像序列以及每一张人脸图像的帧数信息构造二值约束矩阵cm*t;以矩阵cm*t的第一行为标准行,从第二行开始逐行扫描,如果标准行和扫描到的行在同一时间上有交集,则添加一条约束条件,即对应的两条人脸轨迹不能与同一张标准照匹配。以此类推,重复上述步骤,以矩阵cm*t的第二至第m-1行为标准行,从标准行的下一行开始逐行扫描,如果两行在时间上有交集,则添加约束条件,这样最多可能添加m(m-1)/2个约束条件。根据上述产生的一系列约束条件以及式(5)中的约束条件,求解公式(4)中的xij,这样就得到了最佳的全局匹配结果,即每一条人脸轨迹与所有学生对应的标准照之间的最佳全局匹配结果。

通过求解上述带约束条件的优化问题,所有人脸轨迹都在同时被进行了匹配,最终求解得到的匹配结果是使整体的识别效果最优的。本发明实施例通过约束条件对多条人脸轨迹进行全局人脸匹配,相比现有技术中将每一张人脸图像与学生标准照进行匹配,准确度更高,不会出现一张人脸图像与多张标准照匹配的情况出现,求解后,每一条人脸轨迹就被指定了对应的一个学生标准照,这些匹配到的学生标准照就是得到的最终课堂出勤名单,如果某位学生的标准照没有对应的人脸轨迹与之匹配,则该位学生为缺勤的学生。

在上述各实施例的基础上,本发明的一个实施例中,所述基于深度卷积神经网络提取每一张人脸图像或每一个学生的标准照的人脸特征具体包括:将人脸图像或者学生的标准照输入训练后的深度卷积神经网络中,输出人脸图像或学生标准照的人脸特征,其中,所述人脸特征为多维特征向量。

其中,对人脸图像或者学生标准照的人脸特征进行提取时,是采用已经训练好的深度卷积神经网络来提取的。其中,深度卷积神经网络的训练过程为,采用大规模的人脸数据集为训练样本,所述人脸数据集中包括多张训练用人脸图像;将每一张训练用人脸图像在对齐后按照固定位置分块裁剪为预设数量的图像块;基于每一张训练用人脸图像中的每一个图像块,分别训练与一个图像块对应的一个深度卷积神经网络。比如,采用webface数据集,webface数据集中的每一张人脸图像均经过仿射变换进行了对齐,形成尺寸大小相同的人脸图像。将数据集中的每一张人脸图像按照固定的位置分割为7个图像块,基于每一个图像块分别训练一个深度卷积神经网络,即训练7个深度卷积神经网络。通过人脸图像分块的方式可以得到鲁棒性更好的特征,使得训练后的深度卷积神经网络更加可靠。

对深度卷积神经网络进行训练后,将人脸图像或学生标准照在对齐后按照固定位置分块裁剪为预设数量的图像块,将人脸图像或学生标准照对应的任意一个图像块输入训练后对应的深度卷积神经网络中,输出该图像块对应的多维特征向量,将每一个图像块的多维特征向量按照位置顺序进行首尾拼接得到该张人脸图像或学生标准照的多维特征向量。

将分割后的图像块输入深度卷积神经网络进行训练,深度卷积神经网络训练后,在测试时,将一张人脸图像或者学生的标准照分块输入训练后对应的深度卷积神经网络后,输出每一张人脸图像对应的多个图像块的160维人脸特征向量或者学生标准照对应的多个图像块的160维人脸特征向量,将人脸图像的多个图像块的160维人脸特征向量进行串联得到该人脸图像的人脸特征向量,以及将学生标准照的多个图像块的160维人脸特征向量进行串联得到该学生标准照的人脸特征向量。

参见图2,提供了一种基于全局人脸识别的课堂考勤系统,包括人脸追踪模块21和全局人脸匹配模块22。

人脸追踪模块21,用于从视频流的每一帧图像中提取出人脸图像,得到所述视频流中所有的人脸图像,并对所有的人脸图像进行人脸追踪,得到多条人脸轨迹,其中,所述视频流为拍摄课堂场景获得。

全局人脸匹配模块22,用于将所述多条人脸轨迹与选课名单中的每一位学生对应的标准照进行全局人脸匹配,得到与每一条人脸轨迹匹配的一张标准照,根据每一张标准照对应的学生,输出课堂出勤名单。

参见图3,提供了本发明另一个实施例的基于全局人脸识别的课堂考勤系统,包括人脸检测模块20、人脸追踪模块21和全局人脸匹配模块22、特征提取模块23和计算模块24。

人脸追踪模块21,用于从视频流的每一帧图像中提取出人脸图像,得到所述视频流中所有的人脸图像,并对所有的人脸图像进行人脸追踪,得到多条人脸轨迹,其中,所述视频流为拍摄课堂场景获得。

全局人脸匹配模块22,用于将所述多条人脸轨迹与选课名单中的所有学生对应的标准照进行全局人脸匹配,得到与每一条人脸轨迹匹配的一张标准照,根据每一张标准照对应的学生,输出课堂出勤名单。

其中,人脸检测模块20,用于对视频流的每一帧图像进行人脸检测,从每一帧图像中提取出人脸图像,得到整个视频流的所有人脸图像,并获取每一张人脸图像在对应帧图像中的位置信息、所在帧图像的帧数信息和尺寸信息。

人脸追踪模块21,用于根据每一张人脸图像的位置信息、帧数信息和尺寸信息,确定每一张人脸图像所属的人脸轨迹。

特征提取模块23,用于提取每一个所述人脸轨迹的人脸特征。

计算模块24,用于计算每一条人脸轨迹的人脸特征与选课名单中每一个学生的标准照的人脸特征之间的相似度,得到多条人脸轨迹与多个学生的标准照之间的相似度矩阵。

相应的,全局人脸匹配模块22,具体用于根据所述相似度矩阵,设定全局人脸识别的约束条件,根据所述约束条件求解得到多条人脸轨迹与多个学生的标准照之间的匹配结果;其中,所述约束条件确保每一条人脸轨迹只能匹配一个学生的标准照,以及一个学生的标准照不能被匹配给时间上存在交集的两个人脸轨迹。

参见图4,人脸追踪模块21包括创建单元211、判断单元212和链接单元213。

创建单元211,用于基于当前人脸图像创建一条新的人脸轨迹。

判断单元212,用于针对每一张人脸图像,基于当前人脸图像的位置信息、帧数信息和尺寸信息与已经存在的每一条人脸轨迹的最后一张人脸图像的位置信息、帧数信息和尺寸信息,判断当前人脸图像能否与已经存在的每一条人脸轨迹的最后一张人脸图像进行链接,若能,则执行链接单元213;若否,则执行创建单元211。链接单元213,用于将当前人脸图像链接到已经存在的人脸轨迹中的其中一条人脸轨迹上。

其中,判断单元212,具体用于根据计算出的当前人脸图像链接到每一条已经存在的人脸轨迹的代价值,得到多个代价值,判断多个代价值中最小的代价值是否小于预设阈值,若否,则调用创建单元211,否则,调用链接单元213;其中,基于当前人脸图像的位置信息、时间信息和尺寸信息与已经存在的每一条人脸轨迹的最后一张人脸图像的位置信息、时间信息和尺寸信息,计算当前人脸图像链接到每一条已经存在的人脸轨迹的代价值,得到当前人脸图像对应的多个代价值。

相应的,链接单元213,具体用于将当前人脸图像链接到最小代价值对应的人脸轨迹上。

上述的特征提取模块23,还用于对于任意一条人脸轨迹对应的多张人脸图像,基于深度卷积神经网络提取该张人脸图像的人脸特征;以及基于深度卷积神经网络提取选课名单的每一个学生的标准照的人脸特征;相应的,计算模块24,还用于计算所述人脸轨迹对应的每一张人脸图像的人脸特征与每一个学生的标准照的人脸特征之间的相似度,将与所有学生的标准照的人脸特征之间的相似度最大的人脸图像的人脸特征作为对应人脸轨迹的人脸特征。

其中,特征提取模块23,用于将人脸图像或者学生的标准照输入训练后的深度卷积神经网络中,输出人脸图像或学生标准照的人脸特征,其中,所述人脸特征为多维人脸特征向量。

参见图5,上述实施例提供的基于全局人脸识别的课堂考勤系统还包括训练模块25,用于以人脸数据集为训练样本,所述人脸数据集中包括多张训练用人脸图像;将每一张训练用人脸图像进行人脸对齐后按照固定位置分块裁剪为预设数量的图像块;基于每一张训练用人脸图像中的每一个图像块,对深度卷积神经网络进行训练。

相应的,特征提取模块23具体用于:将人脸图像或学生标准照对齐后按照固定位置分块裁剪为预设数量的图像块;将人脸图像或学生标准照对应的预设数量的图像块输入训练后的深度卷积神经网络中,输出人脸图像或学生标准照的每一个图像块的多维特征向量;将每一个图像块的多维特征向量按照顺序进行首尾拼接得到该张人脸图像或学生标准照的多维特征向量。

参见图6,示例了一种服务器的实体结构示意图,如图5所示,该服务器可以包括:包括处理器(processor)610、存储器(memory)620和总线630;其中,所述处理器610和存储器620通过所述总线630完成相互间的通信。

所述处理器610用于调用所述存储器620中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:从视频流的每一帧图像中提取出人脸图像,得到所述视频流中所有的人脸图像,并对所有的人脸图像进行人脸追踪,得到多条人脸轨迹,其中,所述视频流为拍摄课堂场景获得;将所述多条人脸轨迹与选课名单中的每一位学生对应的标准照进行全局人脸匹配,得到与每一条人脸轨迹匹配的一张标准照,根据每一张标准照对应的学生,输出课堂出勤名单。

此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明提供的一种基于全局人脸识别的课堂考勤方法及系统,对所有的人脸图像进行人脸追踪,得到所有人脸图像的多条人脸轨迹,一条人脸轨迹包括一位学生的人脸图像序列,对所有在课堂上的学生对应的一系列人脸轨迹进行全局人脸匹配,一次性地得到课堂出勤名单,无需学生主动配合,也无需增加额外的硬件,一次性得到考勤数据,也提高了考勤的效率;在对视频流采集的过程中,只需要一个摄像头即可,无需对摄像头的角度进行调整,也无需增加额外的硬件,摄像头通过采集课堂上每一位学生的场景;在进行图像的人脸特征进行提取的过程中,采用训练后的深度卷积神经网络进行提取,在对深度卷积神经网络训练的过程中,采用对图像进行分块的方法,增大了训练样本中用于训练用的人脸图像的样本数量。

最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1