本发明涉及图片数据处理技术领域,特别涉及一种电子装置、图片样本集生成方法和计算机可读存储介质。
背景技术
深度学习工程应用领域,数据比算法更重要,但是样本训练集很难获取,并且原始得到的人脸照片,很多时候都混肴着很大杂质的照片,这样导致训练集的噪声很大,从而训练出的模型的效果不佳。
技术实现要素:
本发明提供一种电子装置、图片样本集生成方法和计算机可读存储介质,旨在实现快速的获取杂质少的图片样本集,以用于训练出更好的模型。
为实现上述目的,本发明提出的电子装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图片样本集生成系统,所述图片样本集生成系统被所述处理器执行时实现如下步骤:
a1、逐一播放预先录制的视频;
b1、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;
c1、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;
d1、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;
e1、针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;
f1、将各个文件夹中的图片合并形成图片样本集。
优选地,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:
先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;
在该文件夹中提取出到所述均值向量的距离最近的n个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;
筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。
优选地,所述对该帧图片进行识别及标记处理的步骤包括:
识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;
若识别历史记录中存在与当前识别结果相同的识别结果,则采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;
若识别历史记录中不存在与当前识别结果相同的识别结果,则采用新增的标记对当前帧图片进行标记。
优选地,在所述步骤e1之后,所述处理器还用于执行所述图片样本集生成系统,以实现如下步骤:
获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;
采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。
本发明还提出一种图片样本集生成方法,该方法包括步骤:
a2、逐一播放预先录制的视频;
b2、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;
c2、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;
d2、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;
e2、针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;
f2、将各个文件夹中的图片合并形成图片样本集。
优选地,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:
先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;
在该文件夹中提取出到所述均值向量的距离最近的n个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;
筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。
优选地,所述对该帧图片进行识别及标记处理的步骤包括:
识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;
若识别历史记录中存在与当前识别结果相同的识别结果,则采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;
若识别历史记录中不存在与当前识别结果相同的识别结果,则采用新增的标记对当前帧图片进行标记。
优选地,在所述步骤e2之后,所述图片样本集生成方法还包括:
获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;
采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有图片样本集生成系统,所述图片样本集生成系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
逐一播放预先录制的视频;
在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;
在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;
针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;
针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;
将各个文件夹中的图片合并形成图片样本集。
优选地,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:
先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;
在该文件夹中提取出到所述均值向量的距离最近的n个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;
筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。
本发明技术方案,先通过在预先录制的视频的播放过程中,追踪识别出每一帧图片中的人并进行标记,识别出为同一个人的任意两帧图片标上相同标记,对识别为非同一个人的任意两帧图片分别标上不同标记;然后根据标记种数,创建与标记一一对应的文件夹,将识别出的所有图片按照标记分别存入对应的文件夹;再利用预先训练好的人脸识别的深度学习模型和聚类算法对每个文件夹中的图片分别进行清洗,去除各个文件夹中的杂质图片;最终得到由各个文件夹合并形成的图片样本集。本方案实现了通过视频资源快速生成图片样本集,并且该图片样本集经过了聚类算法进行杂质图片清洗,从而得到的图片样本集的杂质少,利用该图片样本集作为训练集,噪声小,训练出的模型的效果更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明图片样本集生成方法一实施例的流程示意图;
图2为本发明图片样本集生成方法二实施例的流程示意图;
图3为本发明图片样本集生成方法三实施例的流程示意图;
图4为本发明图片样本集生成系统一实施例的运行环境示意图;
图5为本发明图片样本集生成系统一实施例的程序模块图;
图6为本发明图片样本集生成系统二实施例的程序模块图;
图7为本发明图片样本集生成系统三实施例的程序模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提出一种图片样本集生成方法。
如图1所示,图1为本发明图片样本集生成方法一实施例的流程示意图。
本实施例中,该图片样本集生成方法包括:
步骤s10,逐一播放预先录制的视频;
系统数据库中存有预先录制好的一个或多个视频,每一个视频均由多人参与录制,并且每一个视频中的每一个人均具有多种姿态。首先,将预先录制的视频一个接一个的进行播放,即播放完一个后接着播放下一个,直至所有预先录制的视频播放完。
步骤s20,在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;
在视频播放时,对每一帧图片进行识别并对该帧图片进行标记,两帧图片如果识别为同一个人,则这两帧图片标为相同标记,两帧图片如果识别为非同一个人,则这两帧图片标为不同标记,例如,识别为对象a的各帧图片的标记为a,识别为对象b的各帧图片的标记为b,识别为对象c的各帧图片的标记为c,……。本实施例中,对每一帧图片的识别具体可以采用图片轨迹特征方式判定追踪识别的各帧图片之间哪些是同一个人,哪些不是同一人;也可以采用现有人脸识别软件或模型进行追踪识别。
步骤s30,在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;
例如,在所有视频播放完成后,通过对每一帧图片的识别和标记处理,得到x种标记,则对应创建x个文件夹,x个文件夹与这x种标记一一对应,将每一种标记对应的所有图片存放到该标记对应的文件夹中。创建的各个文件夹分别进行命名,例如按索引大小依次命名01、02、03……、x,则每个文件夹中分别存放着一个人的所有图片。
步骤s40,针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;
虽然每个文件夹内存放的都是通过识别得到的属于同一个人的相应图片,但仍然可能存在有个别图片为不是同一个人(即为杂质图片),因此本实施例进一步对各个文件夹分别进行照片清洗处理,以去除各个文件夹中的杂质图片。首先,针对每个文件夹,采用预先训练好的人脸识别的深度学习模型提取出文件夹中的每一张图片的特征向量。
步骤s50,针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;
在得到所有文件夹中的每一张图片的特征向量后,利用聚类算法对文件夹中的特征向量进行聚类处理,从而清洗去除每一个文件夹中的杂质图片。
步骤s60,将各个文件夹中的图片合并形成图片样本集。
在将各个文件夹中的杂质照片清洗去除后,每个文件夹中的所有图片都是该文件夹对应的一个人的照片,采用这些文件夹的图片资源形成的图片样本集的杂质少,将该图片样本集作为模型的训练集时,训练集的噪声小,训练出的模型的效果更佳。
本实施例技术方案,先通过在预先录制的视频的播放过程中,追踪识别出每一帧图片中的人并进行标记,识别出为同一个人的任意两帧图片标上相同标记,对识别为非同一个人的任意两帧图片分别标上不同标记;然后根据标记种数,创建与标记一一对应的文件夹,将识别出的所有图片按照标记分别存入对应的文件夹;再利用预先训练好的人脸识别的深度学习模型和聚类算法对每个文件夹中的图片分别进行清洗,去除各个文件夹中的杂质图片;最终得到由各个文件夹合并形成的图片样本集。本方案实现了通过视频资源快速生成图片样本集,并且该图片样本集经过了聚类算法进行杂质图片清洗,从而得到的图片样本集的杂质少,利用该图片样本集作为训练集,噪声小,训练出的模型的效果更佳。
如图2所示,图2为本发明图片样本集生成方法第二实施例的流程示意图。
在本实施例中,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:
步骤s51,先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;
根据得到的该文件夹中的各图片的特征向量计算得到该各个图片的特征向量的均值向量,然后,对于该文件夹中的每一图片的特征向量,均计算该特征向量到该均值向量的距离(本实施例优选欧式距离为例)。
步骤s52,在该文件夹中提取出到所述均值向量的距离最近的n个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;
在计算出该文件夹中的每一图片的特征向量到该均值向量的欧式距离后,将其中与该均值向量的欧式距离最近的n个(例如3个)特征向量作为种子,然后再计算出该文件夹中除去种子外的其余特征向量分别到各个种子的余弦距离,即对于余下的每一个特征向量分别会计算得到n个余弦距离。
步骤s53,筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。
系统中预先设置了余弦距离的阈值(即预设阈值,例如65%),根据该预设阈值对该文件夹中的图片进行筛选,筛选出到每一个种子的余弦距离均大于该预设阈值的特征向量,将筛选出的所有特征向量对应的图片保留,同时各个种子对应的图片也保留。各个种子为距离该文件夹的均值向量最近的特征向量,因此种子对应的图片不会是杂质图片;到各个种子的余弦距离均满足预设阈值要求的特征向量,说明该特征向量与每个种子都很接近,该特征向量对应的图片与各个种子对应的图片都很相似,判定为不是杂质图片。而余下的图片的特征向量,则为至少到一个种子的余弦距离不大于预设阈值的特征向量,也有可能到每个种子的预先距离都不大于预设阈值的特征向量,说明这些图片至少与一个种子的图片相差较远,如果文件夹中有杂质图片,则最有可能的就是存在于这些余下的图片中,因此这些余下的图片从该文件夹中删除,以更好的确保该文件夹的样本纯度。
进一步地,本实施例的图片样本集生成方法中,所述对该帧图片进行识别及标记处理的步骤包括:
识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;
识别历史记录包括为对在前帧图片的识别结果记录和对标记记录;只在第一次对视频的第一帧图片识别时,因在前没有过识别处理,此时识别历史记录为空。本实施例中,识别结果可为面部特征,对识别结果的比对则可为面部特征的相似度比对,相似度超过一定值(例如95%)确定为识别结果相同,否则为不同。
若识别历史记录中存在与当前识别结果相同的识别结果,则采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;
如果通过比对确定在识别历史记录中存在与当前识别结果相同的识别结果,则采用该相同的识别结果所对应的标记来标记当前帧图片;
若识别历史记录中不存在与当前识别结果相同的识别结果,则采用新增的标记对当前帧图片进行标记。
如果比对得出识别历史记录中不存在与当前识别结果相同的识别结果,则新增标记以标记该帧图片。
如图3所示,图3为本发明图片样本集生成方法第三实施例的流程示意图。
本实施例中,该图片样本集生成方法在所述步骤s50之后还包括:
步骤s70,获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;
系统数据库中预先保存了参与录制视频的每一个人员的样本照片,各样本照片分别标有对应的姓名标签,以确定其身份归属。
步骤s80,采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。
首先使用预先训练好的人脸识别的深度学习模型提取出各个样本照片的特征向量,并获取各个文件夹中的所有图片对应的特征向量,然后通过knn(k-nearestneighbor,邻近算法)计算出每个文件夹分别与哪个样本照片对应,即计算出各个文件夹中的图片对应的身份归属,再将每个文件夹中的所有图片均标注上其对应的样本照片的姓名标签。如此,将各个文件夹中的所有图片合并后可直接用于训练集对模型进行训练。
此外,本发明还提出一种图片样本集生成系统。
请参阅图4,是本发明图片样本集生成系统10较佳实施例的运行环境示意图。
在本实施例中,图片样本集生成系统10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图4仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如图片样本集生成系统10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行图片样本集生成系统10等。
显示器13在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。电子装置1的部件11-13通过系统总线相互通信。
请参阅图5,是本发明图片样本集生成系统10较佳实施例的程序模块图。在本实施例中,图片样本集生成系统10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图5中,图片样本集生成系统10可以被分割成播放模块101、标记模块102、整理模块103、提取模块104、清洗模块105及合并模块106。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述图片样本集生成系统10在电子装置1中的执行过程,其中:
播放模块101,用于逐一播放预先录制的视频;
电子装置1的数据库中存有预先录制好的一个或多个视频,每一个视频均由多人参与录制,并且每一个视频中的每一个人均具有多种姿态。首先,将预先录制的视频一个接一个的进行播放,即播放完一个后接着播放下一个,直至所有预先录制的视频播放完。
标记模块102,用于在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;
在视频播放时,对每一帧图片进行识别并对该帧图片进行标记,两帧图片如果识别为同一个人,则这两帧图片标为相同标记,两帧图片如果识别为非同一个人,则这两帧图片标为不同标记,例如,识别为对象a的各帧图片的标记为a,识别为对象b的各帧图片的标记为b,识别为对象c的各帧图片的标记为c,……。本实施例中,对每一帧图片的识别具体可以采用图片轨迹特征方式判定追踪识别的各帧图片之间哪些是同一个人,哪些不是同一人;也可以采用现有人脸识别软件或模型进行追踪识别。
整理模块103,用于在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;
例如,在所有视频播放完成后,通过对每一帧图片的识别和标记处理,得到x种标记,则对应创建x个文件夹,x个文件夹与这x种标记一一对应,将每一种标记对应的所有图片存放到该标记对应的文件夹中。创建的各个文件夹分别进行命名,例如按索引大小依次命名01、02、03……、x,则每个文件夹中分别存放着一个人的所有图片。
提取模块104,用于针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;
虽然每个文件夹内存放的都是通过识别得到的属于同一个人的相应图片,但仍然可能存在有个别图片为不是同一个人(即为杂质图片),因此本实施例进一步对各个文件夹分别进行照片清洗处理,以去除各个文件夹中的杂质图片。首先,针对每个文件夹,采用预先训练好的人脸识别的深度学习模型提取出文件夹中的每一张图片的特征向量。
清洗模块105,用于针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;
在得到所有文件夹中的每一张图片的特征向量后,利用聚类算法对文件夹中的特征向量进行聚类处理,从而清洗去除每一个文件夹中的杂质图片。
合并模块106,用于将各个文件夹中的图片合并形成图片样本集。
在将各个文件夹中的杂质照片清洗去除后,每个文件夹中的所有图片都是该文件夹对应的一个人的照片,采用这些文件夹的图片资源形成的图片样本集的杂质少,将该图片样本集作为模型的训练集时,训练集的噪声小,训练出的模型的效果更佳。
本实施例技术方案,先通过在预先录制的视频的播放过程中,追踪识别出每一帧图片中的人并进行标记,识别出为同一个人的任意两帧图片标上相同标记,对识别为非同一个人的任意两帧图片分别标上不同标记;然后根据标记种数,创建与标记一一对应的文件夹,将识别出的所有图片按照标记分别存入对应的文件夹;再利用预先训练好的人脸识别的深度学习模型和聚类算法对每个文件夹中的图片分别进行清洗,去除各个文件夹中的杂质图片;最终得到由各个文件夹合并形成的图片样本集。本方案实现了通过视频资源快速生成图片样本集,并且该图片样本集经过了聚类算法进行杂质图片清洗,从而得到的图片样本集的杂质少,利用该图片样本集作为训练集,噪声小,训练出的模型的效果更佳。
参照图6,在本实施例的图片样本集生成系统中,所述清洗模块105包括:
第一计算子模块1051,用于针对每一个文件夹,计算出该文件夹中的所有特征向量的均值向量,以及计算该文件夹中的每个特征向量分别到所述均值向量的距离;
根据得到的该文件夹中的各图片的特征向量计算得到该各个图片的特征向量的均值向量,然后,对于该文件夹中的每一图片的特征向量,均计算该特征向量到该均值向量的距离(本实施例优选欧式距离为例)。
第二计算子模块1052,用于在该文件夹中提取出到所述均值向量的距离最近的n个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;
在计算出该文件夹中的每一图片的特征向量到该均值向量的欧式距离后,将其中与该均值向量的欧式距离最近的n个(例如3个)特征向量作为种子,然后再计算出该文件夹中除去种子外的其余特征向量分别到各个种子的余弦距离,即对于余下的每一个特征向量分别会计算得到n个余弦距离。
图片清理子模块1053,用于筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。
电子装置1中预先设置了余弦距离的阈值(即预设阈值,例如65%),根据该预设阈值对该文件夹中的图片进行筛选,筛选出到每一个种子的余弦距离均大于该预设阈值的特征向量,将筛选出的所有特征向量对应的图片保留,同时各个种子对应的图片也保留。各个种子为距离该文件夹的均值向量最近的特征向量,因此种子对应的图片不会是杂质图片;到各个种子的余弦距离均满足预设阈值要求的特征向量,说明该特征向量与每个种子都很接近,该特征向量对应的图片与各个种子对应的图片都很相似,判定为不是杂质图片。而余下的图片的特征向量,则为至少到一个种子的余弦距离不大于预设阈值的特征向量,也有可能到每个种子的预先距离都不大于预设阈值的特征向量,说明这些图片至少与一个种子的图片相差较远,如果文件夹中有杂质图片,则最有可能的就是存在于这些余下的图片中,因此这些余下的图片从该文件夹中删除,以更好的确保该文件夹的样本纯度。
进一步地,本实施例的图片样本集生成系统中,所述标记模块102包括:
比对子模块,用于识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;
识别历史记录包括为对在前帧图片的识别结果记录和对标记记录;只在第一次对视频的第一帧图片识别时,因在前没有过识别处理,此时识别历史记录为空。本实施例中,识别结果可为面部特征,对识别结果的比对则可为面部特征的相似度比对,相似度超过一定值(例如95%)确定为识别结果相同,否则为不同。
标记子模块,用于在识别历史记录中存在与当前识别结果相同的识别结果时,采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;以及用于在识别历史记录中不存在与当前识别结果相同的识别结果时,采用新增的标记对当前帧图片进行标记。
如果通过比对确定在识别历史记录中存在与当前识别结果相同的识别结果,则采用该相同的识别结果所对应的标记来标记当前帧图片;如果比对得出识别历史记录中不存在与当前识别结果相同的识别结果,则新增标记以标记该帧图片。
参照图7,本实施例的图片样本集生成系统还包括:
获取模块107,用于获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;
电子装置1的数据库中预先保存了参与录制视频的每一个人员的样本照片,各样本照片分别标有对应的姓名标签,以确定其身份归属。
标注模块108,用于采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。
首先使用预先训练好的人脸识别的深度学习模型提取出各个样本照片的特征向量,并获取各个文件夹中的所有图片对应的特征向量,然后通过knn(k-nearestneighbor,邻近算法)计算出每个文件夹分别与哪个样本照片对应,即计算出各个文件夹中的图片对应的身份归属,再将每个文件夹中的所有图片均标注上其对应的样本照片的姓名标签。如此,将各个文件夹中的所有图片合并后可直接用于训练集对模型进行训练。
进一步地,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有图片样本集生成系统,所述图片样本集生成系统可被至少一个处理器执行,以使所述至少一个处理器执行上述任一实施例中的图片样本集生成方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。