本发明属于图像处理技术领域中的人脸识别技术,具体涉及一种基于监控视频的人脸聚类方法。
背景技术:
人脸识别的研究具有悠久的历史,近几十年来发展尤为迅速,人脸识别的发展史可以说是人脸特征提取方法的进化史。目前主流的特征提取算法有:
(1)以lbp和gabor特征为代表的基于局部特征的提取算法,这类方法考虑了像素间关系,以邻域像素为基础进行特征提取,然后通过子空间分析等方法进行特征变换,能够比较精准地刻画人脸的局部细节特征和纹理特征。但是这些方法的泛化能力较差,只适用于某些特定场景。
(2)针对多光照和多姿态问题提出的算法,如光锥法和3d变形模型(3dmorphablemodel),在现实生活中,这类方法仅适用于少数对安全性要求较高的场合。
(3)基于深度学习的提取算法,其中,卷积神经网络(convolutionalneuralnetworks,cnn)由于其强大的学习能力和非线性建模能力成为最具代表性也是应用最广泛的技术之一,其中影响力较大的卷积神经网络框架模型有:牛津大学提出的基于alexnet思想加深的vggne,谷歌提出的基于inception结构的googlenet,以及微软提出的基于残差结构的resne。
技术实现要素:
本发明的目的在于运用深度学习的提取算法,提供一种基于监控视频的人脸聚类方法,解决监控视频下人脸聚类速度缓慢以及人脸搜索效率差的问题。
本发明的技术方案如下:
一种基于监控视频的人脸聚类方法,其特征在于包括以下步骤:
(1)采用yolov3+deepsort的方法实现对监控视频中的人脸跟踪,采用tenengrad梯度函数进行图片的模糊处理;
(2)按照以下规则从人脸轨迹图片集中选取图片:每条轨迹选择10张图片,若轨迹图片数目小于等于10张,则全选;若轨迹图片数目大于10张且小于20张,则选择中间的10张;若图片数目大于等于20张,则除去前五张和最后五张,剩余图片按照等步长选取10张;
(3)采用dlib库提供的函数进行人脸关键点定位和人脸对齐,采用基于chinesewhispers的人脸动态聚类算法进行聚类;
(4)按照以下规则进行人脸轨迹图片集的合并:若同一簇内存在两个及以上人脸轨迹图片集的图片,且不同人脸轨迹之间没有相互重叠的部分,则合并人脸轨迹图片集。
为了验证本专利提出的基于监控视频的人脸聚类算法的有效性,我们在youtube和bbt_s01e01两个公开视频数据集上进行了测试。其中youtube人脸数据集包含1595个不同人的3425个人脸跟踪片段,共621126张人脸图片。bbt_s01e01人脸数据集是一个时长22分钟的电视剧,一共包括7个不同人的622个人脸跟踪片段,共39198张人脸图片。具体实验结果见表1。
表1实验结果
从结果看,本发明的人脸聚类速度以及人脸搜索效率均高于现有算法。
附图说明
图1是基于监控视频的人脸聚类流程图。
具体实施方式
由于监控视频在时间上的连续性和空间上的相关性,为基于监控视频的人脸聚类提供了一定的先验信息,本发明利用这些先验信息来提高人脸聚类的效果,采用了人脸检测+人脸追踪的方法避免了对监控视频下同一人脸进行多次人脸特征提取和特征比对,同时采用图片模糊检测算法进行模糊图片的过滤,避免了因图片质量较差对聚类结果的负面影响,此外,采用动态聚类算法,提高聚类效率。技术实现框架如图1所示,实现流程如下:
(1)采用yolov3+deepsort的方法实现对监控视频中的人脸跟踪,采用tenengrad梯度函数进行图片的模糊处理。
(2)按照以下规则从人脸轨迹图片集中选取图片:每条轨迹选择10张图片,若轨迹图片数目小于等于10张,则全选;若轨迹图片数目大于10张且小于20张,则选择中间的10张;若图片数目大于等于20张,则除去前五张和最后五张,剩余图片按照等步长选取10张;
(3)采用dlib库提供的函数进行人脸关键点定位和人脸对齐,采用基于chinesewhispers的人脸动态聚类算法进行聚类。
(4)按照以下规则进行人脸轨迹图片集的合并:若同一簇内存在两个及以上人脸轨迹图片集的图片,且不同人脸轨迹之间没有相互重叠的部分,则合并人脸轨迹图片集。
本发明实验的硬件环境为geforcegtx1080ti,intelcorei7-7700hcpu3.60ghz,ram16.0gb。
在本发明的一个具体实施例中,将人脸聚类视频监控系统在室内和室外场景分别进行了部署。室内场景监控内容是公司大楼一楼大厅指纹打卡机,摄像头距离打卡机大约2米,在一画面出现的人脸数量为1到8人,遮挡情况较多,环境较复杂。采集到的人脸包括正脸和侧脸,像素在75*75到210*210之间,共收集到47个不同人脸的126个人脸跟踪片段,15k张人脸图片。室外场景监控内容为公司大楼一楼门口处,相对于室内场景,室外场景更为复杂,且易受室外光照变化的影响,同一画面出现的人脸数量为1到5人,采集到的人脸像素在45*45到145*145之间,共收集到121个不同人脸的551个人脸跟踪片段,21k张人脸图片。经实际测试后,室内场景的f1-measure值为90.2%,室外场景的f1-measure值为87.9%。
1.一种基于监控视频的人脸聚类方法,其特征在于包括以下步骤:
(1)采用yolov3+deepsort的方法实现对监控视频中的人脸跟踪,采用tenengrad梯度函数进行图片的模糊处理;
(2)按照以下规则从人脸轨迹图片集中选取图片:每条轨迹选择10张图片,若轨迹图片数目小于等于10张,则全选;若轨迹图片数目大于10张且小于20张,则选择中间的10张;若图片数目大于等于20张,则除去前五张和最后五张,剩余图片按照等步长选取10张;
(3)采用dlib库提供的函数进行人脸关键点定位和人脸对齐,采用基于chinesewhispers的人脸动态聚类算法进行聚类;
(4)按照以下规则进行人脸轨迹图片集的合并:若同一簇内存在两个及以上人脸轨迹图片集的图片,且不同人脸轨迹之间没有相互重叠的部分,则合并人脸轨迹图片集。