一种大规模人脸模式分析样本库的构建方法和装置的制造方法

文档序号：8457577阅读：389来源：国知局

一种大规模人脸模式分析样本库的构建方法和装置的制造方法
【技术领域】
[0001] 本发明涉及一种大规模人脸模式分析样本库的构建方法和装置，属于计算机图像处理以及模式识别技术领域。
【背景技术】
[0002] 在大数据和人工智能的背景下，如何获取、存储和处理规模庞大的数据是个有很强挑战性的问题。在研宄智能算法和工程实践的过程中，实验样本是训练和评测智能算法的重要工具，实验样本的规模甚至比算法模型的精妙设计更为重要。目前相关领域的科研人员和工程师们普遍手工建立人脸库，其过程耗时耗力，严重限制了样本库的规模和扩展。
[0003] 当今用于人脸模式分析的样本库的规模普遍偏小。一方面，规模过小的样本库带来的问题在于，不能充分训练算法并且实验结果不够客观可靠。另一方面，随着深度网络理论的提出及其成功应用于人脸识别等领域，亟待解决的问题是如何才能够建立大规模有标记和无标记人脸模式分析样本库去充分拟合深度模型。因此存在简单易实现且效率较高的用于自动获取人脸样本的需求，需要减少实验人员在建立样本库时的主观介入，使样本库的建立更客观更科学。

【发明内容】

[0004] 为了解决上述问题，本文结合图像处理和模式识别技术提供一种大规模人脸模式分析样本库的构建方法和装置，通过构建自动样本收集和处理的流程框架，将样本库建立过程中大部分的工作量交由计算机自动处理，从而最大程度上避免科研人员花费大量的时间和精力在繁琐的重复性工作上。
[0005] 本发明采用的技术方案为：一种大规模人脸模式分析样本库的构建方法，包括如下步骤：A、通过本地和/或远程网络批量获取图片；B、采用基于Harr-Iike特征的 Viola-Jones人脸检测算法对获取的图片进行人脸检测并进行筛选，保留包含人脸的图片； C、基于人脸比例对包含人脸的图片进行自适应图片分辨率的剪裁，并使包含人脸的图片归一化到预设的尺寸；D、采用主成分分析法和线性判别分析方法融合的算法对裁剪的图片进行性别分类以得到不同性别的人脸图片库；E、分别在不同性别的人脸图片库中，对图片进行灰度直方图的相似度比对以确定重复的图片，然后删除重复的图片，并且输出建立好的人脸样本库；F、根据需要对建立好的人脸样本库进行二次筛选和人工标记，然后储存适用的人脸样本库至本地存储器。
[0006] 进一步，所述步骤A包括：利用网络爬虫脚本从本地和/或远程网络批量获取图片，其中基于广度优先策略使网络爬虫执行路径检索，在预设的网络路径抓取所有与统一资源定位符（URL)所对应的图片，从而控制抓取效率和图片的来源。
[0007] 进一步，所述步骤C包括：在包含人脸的图片上会生成矩形标定框；根据图片中的人脸尺寸和位置来设置标定框的位置、宽度和高度；根据标定框裁剪图片。
[0008] 优选地，所述步骤C还包括：在预设数量的人脸图片中计算眉毛到下嘴唇间的垂直距离与眉毛到头顶距离的垂直距离的比值以及眉毛到下嘴唇的垂直距离与下嘴唇到下巴的垂直距离的比值；经过统计分析得出适用的比值数据，用于确定所述矩形标定框的裁剪系数以实现标定框的缩放。
[0009] 进一步，所述步骤D包括：在采用主成分分析法进行数据降维处理过程中，维数是由的已知性别图片的训练样本集的协方差矩阵的97%以上的矩阵特征值的个数来确定。 [0010] 进一步，所述步骤E包括：分别计算基准图片和待比对图片的灰度直方图；分别在基准图片和待比对图片的灰度直方图中获取对应的灰度级像素的频率值，并且计算基准图片和待比对图片的灰度级像素的频率值之间的巴氏系数；如果计算的巴氏系数值超过预设的阀值，则认定基准图片和待比对图片为重复图片。
[0011] 优选地，所述的大规模人脸模式分析样本库的构建方法，其特征在于所述方法还包括：在采用主成分分析法和线性判别分析方法融合的算法对裁剪的图片进行性别分类以得到不同性别的人脸图片库之后，对人脸进行校准使人脸处于规范化的位置和姿态。
[0012] 优选地，对人脸进行校准使图像中的人脸处于规范化的位置和姿态的步骤还包括：采用已获取到的包含人脸的图片作为训练集并利用无监督联合校准算法对人脸进行校准。
[0013] 进一步，采用已获取到的包含人脸的图片作为训练样本并利用无监督联合校准算法对人脸进行校准包括：提取训练集的每张图片中每个像素点的SURF特征；对应提取的 SURF特征点依次对分布域中每个元素的概率、分布域的j：商、似然函数和整体j：商进行计算；重复上述步骤并实施迭代计算，从而计算出使得计算的整体熵的值最小的仿射变换矩阵，其中所述仿射变换矩阵包含对训练集的X轴平移、y轴平移、旋转变换、X轴尺度变换以及y 轴尺度变换。本发明另一方面还提供一种用于构建大规模人脸模式分析样本库的装置，包括：用于获取图片的网络通信接口；用于显示图片的显示设备；用于图片筛选的输入设备；用于储存计算机程序指令和储存图片的存储器；至少一个处理器，其中当所述处理器执行所述指令时，所述计算机程序指令触发处理器执行前述的根据本发明方案的大规模人脸模式分析样本库的构建方法。
[0014] 本发明的有益效果为：整合和改进现有算法，通过简单易实现且较高效率的方式实现了自动获取大规模的人脸样本并且构建了人脸模式分析样本库；减少了构建人脸模式分析样本库的过程中实验人员的主观介入，使样本库的构建更客观更科学；最大程度利用计算机来自动获取和处理样本，大大降低了人工操作的强度，提升样本素材的获取速度和规模，具体实现80%以上的工作量都交于计算机自动完成，且自动构建样本库的效率为人工操作的10倍以上；根据科研和工程实践中需求的不同，在整个人脸模式分析样本库的构建框架下部分模块是可定制的，比如预处理模块中的人脸校准以及图像分析模块中的性别分类等，通过修改框架中的部分模块，本发明亦可用于年龄分析、情绪识别等其它人脸相关的模式识别课题，甚至调整相关模块后可以用于车牌识别、场景识别等课题。
【附图说明】
[0015] 图1所示为根据本发明大规模人脸模式分析样本库的构建方法的流程示意图；
[0016] 图2所示为根据本发明实施例的构建大规模人脸模式分析样本库的流程框图；
[0017] 图3所示为根据本发明实施例的图片预处理示意图；
[0018] 图4所示为根据本发明实施例的图片裁剪处理示意图；
[0019] 图5所示为根据本发明实施例的图片裁剪处理效果图；
[0020] 图6所示为根据本发明实施例的无监督联合校准算法中像素栈的示意图。
【具体实施方式】
[0021] 为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。应注意到，根据合法使用和公开人像的协定，需要对附图中涉及的人脸进行局部模糊或遮盖处理，对附图中的人脸进行模糊或遮盖不作为对本发明实施例及其技术效果的限制。
[0022] 参照图1，在一个实施例中，根据本发明的大规模人脸模式分析样本库的构建方法包括如下步骤：
[0023] A、通过网络，比如通过本地网络或者远程互联网，自动地获取批量的有可能包含人脸的图片。具体地，可以利用网络爬虫脚本从本地和/或远程网络批量获取图片。网络爬虫（又被称为网页蜘蛛，网络机器人）是一种按照一定的规则自动抓取网络信息的程序或者脚本。网络爬虫的抓取策略可以分为深度优先、广度优先和最佳优先三种。其中广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。在本实施例中，优选地采用基于广度优先策略使网络爬虫执行路径检索，在预设的网络路径抓取所有与统一资源定位符（URL)所对应的图片，从而控制抓取效率和图片的来源。可以预设特定的地址或者站点，使用所述策略可以使爬虫尽可能多地尝试下载该特定地址或站点的资源，例如，给定一个种子地址"/ab/abc/abcd/"，网络爬虫也会尝试检索"/ab/abc/"、 "/ab/"和根目录"/"。
[0024] B、利用的Viola-Jones人脸检测算法对获取的图片进行人脸检测，然后对图片进行筛选，保留包含人脸的图片。Viola-Jones人脸检测算法是本领域公知的成熟的人脸检测算法之一，该算法利用积分图像来提取图像特征值，所以速度非常快，而且还利用Adaboost 分类器的特征筛选特性，保留最有用特征，这也减少了检测时的运算复杂度。优选地，在本实施例中采用的Viola-Jones人脸检测算法是基于Harr-Iike特征。
[0025] C、基于人脸比例对包含人脸的图片进行剪裁并使包含人脸的图片归一化到预设的尺寸。该方法是在Viola-Jones人脸检测算法基础上的一种改进，

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：翟懿奎;甘俊英;王斌;彭超;曾军英;
技术所有人：五邑大学;
我是此专利的发明人

上一篇：基于张量半监督标度切维数约减的高光谱图像分类方法
上一篇：一种基于局部密度和测地距离的分层谱聚类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。