一种样本筛选方法与流程

文档序号:12671387阅读:1377来源:国知局
一种样本筛选方法与流程

本发明属于图像抽取对比技术改进领域,尤其涉及一种样本筛选方法及系统。



背景技术:

人脸是人的重要信息,是区分不同的人的重要依据,因此人脸比对是较指纹、虹膜等技术更自然、更直接的比对方式。

人脸比对是将图像或视频输入的人脸通过提取特定的人脸特征信息,与数据库中已注册的人脸特征信息相比较,获得匹配的人脸极其相似度,确认是否与数据库中人脸为同一。

人脸比对在很多场合下都具有非常重要的作用,例如手机彩信中的视频彩信、人机界面、权限控制、智能监视系统等。比对的准确性、精度和鲁棒性问题一直是业界关心的主要问题。

现有技术方法是通过人工的方式依次去判断不同文件夹之间是否为同一人物。该方法效率低,耗时长,且不够准确。



技术实现要素:

本发明的目的在于提供一种样本筛选方法,旨在解决现有技术效率低、耗时长、不够准确的技术问题。

本发明是这样实现的,一种样本筛选方法,所述样本筛选方法包括以下步骤:

A、计算两个待比较文件夹中图片的相似值的平均值;

B、根据得到的平均值求出该平均值下的概率;

C、根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。

本发明的进一步技术方案是:所述步骤A中还包括以下步骤:

A1、依次计算两个文件夹中所有图片的相似值;

A2、根据所得到的所有相似值求和并进而求出平均值。

本发明的进一步技术方案是:所述步骤A2中两文件夹中图片的平均值为savg,其公式为:m,n为文件夹A和B中分别有图片张数,为A中图片ai和B中图片bj的相似值。

本发明的进一步技术方案是:所述步骤B中两文件夹中图片为同一人的概率为PAB,其公式为其中,savg为两文件夹中图片的平均值,Psc为两张图片为同一人物的概率,1-Psc为两张图片为不同人物的概率,Pf(s)为两张图片是不同人物且相似度为s的概率,Pt(s)为两张图片为相同人物且相似度为s的概率。

本发明的另一目的在于提供样本筛选方法,所述样本筛选方法包括以下步骤:

a、依次计算两个文件夹中所有图片的相似值;

b、根据所得到的所有相似值求和;

c、根据相似值求得的和计算出平均值;

d、根据得到的平均值判断两个文件夹中图片是否为同一人,当平均值越高时,则两个文件夹中的图片为同一人物的几率越大,当平均值越低时,则两个文件夹中的图片为同一人物的几率越小。

本发明的进一步技术方案是:所述步骤a中的相似值为sAB,其公式为其中,m、n为两个文件夹中图片的张数,为A中图片ai和B中图片bj的相似值。

本发明的另一目的在于提供一种样本筛选方法,所述样本筛选方法包括以下步骤:

(1)、依次计算两个待比较文件夹中图片为同一人物的概率;

(2)、将所求得的所有概率值相加求出平均值;

(3)、根据求得的平均概率值判断两文件夹中图片是否为同一人物,当平均概率值越大,则两个文件夹中图片为同一个人的几率越大,当平均概率值越小,则两个文件夹中图片为同一个人的几率越小。

本发明的进一步技术方案是:所述步骤(1)中根据局部人工抽样筛选之后的数据统计与计算两张图片为同一人物的概率为Psc,其公式为:N为图片集中的图片张数,S为相同人物图片对数。

本发明的进一步技术方案是:所述步骤(1)中两张图片为相同人物且相似度为s的概率为Pt(s),其公式为两张图片是不同人物且相似度为s的概率为Pf(s),其公式为N为图片集中的图片张数,S为相同人物图片对数,TS为相同人物且相似度为s的图片对数,FS为不是同一人物且相似度为s的图片对数。

本发明的有益效果是:通过计算图片文件夹之间为同一人物的概率,将图片按照概率从大到小的顺序展示在筛选工具界面上供用户筛选,能够让用户很快的锁定与当前图片有极大可能为同一人物的所有图片。该方法能极大的加快筛选的速度和效率,同时能够尽可能的找到训练样本中所有的重复数据。

附图说明

图1是本发明实施例提供的样本筛选方法的流程图一。

图2是本发明实施例提供的样本筛选方法的流程图二。

图3是本发明实施例提供的样本筛选方法的流程图三。

具体实施方式

图1示出了本发明提供的样本筛选方法的流程图,其详述如下:

步骤S11,计算两个带比较文件夹中图片的相似值的平均值;通过相似值求和的平均值法和概率法相结合,可以先算出待比较的两个文件夹中图片相似值的平均值;其中求平均值,首先,依次计算两个文件夹中所有图片的相似值;对于任意两个待比较的文件夹,可以依次计算一个文件夹中图片与另一文件夹中所有图片的相似值;其次,根据所得到的所有相似值求和并进而求出平均值;然后将计算所得的所有相似值求和,进而求出平均值;其中,两文件夹中图片的平均值为savg,其公式为:m,n为文件夹A和B中分别有图片张数,为A中图片ai和B中图片bj的相似值。

步骤S12,根据得到的平均值求出该平均值下的概率;根据该平均值求出该平均值下的概率为PAB,其中,两文件夹中图片为同一人的概率为PAB,其公式为其中,savg为两文件夹中图片的平均值,Psc为两张图片为同一人物的概率,1-Psc为两张图片为不同人物的概率,Pf(s)为两张图片是不同人物且相似度为s的概率,Pt(s)为两张图片为相同人物且相似度为s的概率;Pf(s),Pt(s)是根据前期大量的实验数据统计出来的两个函数,s是某个相似度。

步骤S13,根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。可以根据前面求得的概率来表示这两个文件夹之间图片为同一人物的可能性。当该概率越大,则表明这两个文件夹之间图片为同一人物的可能性越大。反之则当该概率越小,则表明这两个文件夹之间图片为同一人物的可能性越小。

如图2所示,本发明的另一目的在于提供一种样本筛选方法的流程图,其详述如下:

步骤S21,依次计算两个文件夹中所有图片的相似值;对于任意两个待比较的文件夹,可以依次计算一个文件夹中图片与另一文件夹中所有图片的相似值;其中相似值为sAB,其公式为其中,m、n为两个文件夹中图片的张数,为A中图片ai和B中图片bj的相似值。假设待比较文件夹A和B中分别有m,n张图片,为A中图片ai和B中图片bj的相似值,AB文件夹的相似值为:

步骤S22,根据所得到的所有相似值求和;将计算所得的所有相似值进行求和,其中,在该式中分子为相似值求和,该式的值就是平均值,也就是AB文件夹的相似值。

步骤S23,根据相似值求得的和计算出平均值;利用相似值所求取到的和,进而求出平均值。

步骤S24,根据得到的平均值判断两个文件夹中图片是否为同一人,当平均值越高时,则两个文件夹中的图片为同一人物的几率越大,当平均值越低时,则两个文件夹中的图片为同一人物的几率越小。利用求得到的平均值可以用于衡量两个文件夹之间图片为同一人物的可能性大小,当平均值越高时,则表明这两个文件夹之间图片为同一人物的可能性越大,当平均值越低时,则两个文件夹中的图片为同一人物的几率越小。

如图3所示,本发明的另一目的在于提供一种样本筛选方法的流程图,其详述如下:

步骤S31,依次计算两个带比较文件夹中图片为同一人物的概率;对于任意两个待比较文件夹,可以用两个文件夹之间图片为同一人物的概率来衡量两个文件夹之间图片为同一人物的可能性。根据局部人工抽样统计得到在一个很大的图片集中两张图片为同一人物的概率。根据大量实验统计可以得到,任意两张图片为相同人物且相似度为s时的概率以及任意两张图片为不同人物且相似度为s的概率。根据以上两个概率可以求出任意两张图片为同一人物的概率,可以依次计算待比较文件夹中一个文件夹中图片与另一文件夹中所有图片的为同一人物的概率,根据局部人工抽样筛选之后的数据统计与计算两张图片为同一人物的概率为Psc,其公式为:N为图片集中的图片张数,S为相同任务图片对数。在两张图片为相同人物且相似度为s的概率为Pt(s),其公式为两张图片是不同人物且相似度为s的概率为Pf(s),其公式为N为图片集中的图片张数,S为相同任务图片对数,TS为相同人物且相似度为s的图片对数,FS为不是同一人物且相似度为s的图片对数。

根据局部人工抽样筛选之后的数据统计与计算,可以得到,在一个很大的图片集中,两张图片为同一人物的概率为Psc,两张图片为不同人物的概率是为1-Psc

假设实验图片集中共有N张图片,其中相同人物图片对数为S,可以得知:

(2)根据大量实验可以得出,两张图片为相同人物且相似度为s的概率为Pt(s),两张图片是不同人物且相似度为s的概率为Pf(s)。

假设实验图片集中共有N张图片,统计得到相同人物图片对数S,是相同人物且相似度为s的图片对数为TS,不是同一人物且相似度为s的图片对数为FS,则可以计算:

计算:

(1)计算A文件夹中图片ai和B文件夹中图片bj的相似度,记为。根据ai和bj的相似度,计算出ai和bj为同一人物的概率:

(2)假设A和B文件夹中分别有m,n张图片,A和B文件夹为同一人物的概率:

步骤S32,将所求得的所有概率值相加求出平均值;将步骤S31中得到的所有的概率值相加之后求出其平均值。

步骤S33,根据求得的平均概率值判断两文件夹中图片是否为同一人物,当平均概率值越大,则两个文件夹中图片为同一个人的几率越大,当平均概率值越小,则两个文件夹中图片为同一个人的几率越小。利用步骤S32中求出的平均概率,来衡量这两个文件夹中图片为同一人物的可能性,其中求出的平均概率越大,则表明这两个文件夹之间图片为同一人物的可能性越大。反之,其中求出的平均概率越小,则表明这两个文件夹之间图片为同一人物的可能性越小。

当两张图片的比对分数s与P(s)之间满足线性关系时,易知方案一公式(9)和方案三公式(7)是等价的,但是实验结果表明s与P(s)之间并不满足线性关系,在这种情况下,公式(9)的计算结果并不准确,公式(7)更能准确的计算出两个文件夹为同一人物的概率。所以方案三比方案一的计算结果更准确可靠。

方案二用两个文件夹图片相似度的平均值savg表示两文件夹图片为同一人物的可能性,方案一用savg对应的概率表示两文件夹图片为同一人物的可能性。假设A文件夹和B,C文件夹相似度的平均值分别为sAB,sAC,对应的概率分别为很明显可函数P(s)为递增函数,即若sAB≥sAC则所以可以知道方案二和方案一的衡量方式是等价,其衡量结果也是一致的。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1