基于描述符匹配的去除重复图像的方法与流程

文档序号:16538877发布日期:2019-01-08 20:09阅读:296来源:国知局
基于描述符匹配的去除重复图像的方法与流程

本发明涉及图像处理技术领域,具体为一种基于描述符匹配的去除重复图像的方法。



背景技术:

图像识别的深度学习中,需要将图片分为训练集和测试集。一个经常出现的现象是识别效果在训练集上很好,但是在测试集上较差,此现象叫做过拟合,是衡量深度学习效果的重要指标之一。为了准确的评估过拟合的程度,我们必须严格保证训练集和测试集中没有相同的图片,但图片的主要来源之一是网络数据爬取,所以其中难免会出现一些相同的图片。这些图片可能经过剪切,缩放,平移,颜色调整或者加水印,所以不能通过简单的像素对比来去重。

现有技术有通过md5码对比图片,具体是计算每张图片的md5码,然后所有图片两两比较md5码,md5码相同的代表这两张图片是相同图片,缺点是图片只要有任何改变,哪怕只是格式的改变也会导致md5码不同。

现有技术还有通过颜色直方图对比图片,具体是统计图片中颜色的频率分布,分布相近的说明是相同图片,缺点是不适用于过大变形的图片,且容易误判。

专利号为cn107633023a的专利公开了一种图像去重方法和装置,可以获取对应同一视频数据的所有图像帧;获取所述图像帧的深度特征;所述深度特征包括基于所述图像帧获取的用以表征所述图像帧之间相似性的特征向量;基于所述图像帧的深度特征,判断所述图像帧是否为冗余帧;如果所述图像帧是冗余帧,则将所述图像帧删除。由此解决了现有的图片库中存在大量冗余图片,造成存储空间浪费,以及在以图搜剧时返回的检索结果中包含大量的重复点位信息,影响用户的视频检索体验的技术问题。但是该专利不适用于训练集和测试集的图片去重。

专利号为cn108228872a的专利公开公开了一种人脸图像去重方法和装置、电子设备、存储介质、程序,其中,方法包括:对获得的多个人脸图像执行过滤操作,得到图像质量达到第一预设条件的至少一个人脸图像;将所述至少一个人脸图像中的各所述人脸图像与图像队列中预存的至少一个人脸图像进行匹配,得到匹配结果;根据所述匹配结果确定是否针对所述人脸图像执行去重操作。本发明实施例实现了基于质量的过滤,大大缩减了人脸图像的数量,获得的人脸图像质量满足后续对人脸图像的处理需求,并且避免了重复处理大量人脸图像的问题;并且实现更快速的重复人脸识别。但是该专利不适用于训练集和测试集的图片去重,且不适用于过大变形的图片,容易误判。



技术实现要素:

本发明针对现有技术存在的问题,提出了一种基于描述符匹配的去除重复图像的方法,即使在图片变形后,仍然可以找出相同的图片,从而去除测试集和训练集中重复的图片。

本发明解决其技术问题所采用的技术方案是:一种基于描述符匹配的去除重复图像的方法,包括以下步骤:

1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符;

2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特征点,根据所述测试特征点计算所述测试图片的测试描述符;

3)根据所述测试描述符结合dbow算法获取所述训练集中与所述测试图片最相似的n张候选图片;

4)按顺序在n张候选图片中选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,匹配结果为相同,则将测试集中的所述测试图片删除并返回步骤2);否则,继续执行步骤4)至n张候选图片均匹配结束并返回步骤2)。

作为优选,所述步骤4)中匹配过程具体为,

41)将所述测试图片的测试描述符与所述候选图片的描述符进行暴力匹配,获取所述测试图片与所述候选图片描述符匹配的测试描述符集合一;

42)将所述测试描述符集合一中与距离最近的测试描述符之间距离大于一定阈值d的测试描述符删除以获得测试描述符集合二;

43)将所述测试描述符集合二中不符合旋转不变性的测试描述符删除以获得测试描述符集合三;

44)将所述测试描述符集合三中不符合缩放不变性的测试描述符删除以获得测试描述符集合四;

45)计算所述测试描述符集合四中测试描述符的个数,当个数大于阈值m时,进入下一步骤;否则判定所述测试图片与所述后选图片的匹配结果为不相同;

46)判定测试描述符集合四中的测试描述符是否匹配在水印上,是则判定所述测试图片与所述后选图片的匹配结果为不相同,否则判定所述测试图片与所述后选图片的匹配结果为相同。

作为优选,所述步骤42)中两测试描述符之间的距离为两测试描述符之差的模。

作为优选,所述步骤43)中旋转不变性为所述测试描述符集合二中的某一测试描述符与其他任意两测试描述符之间形成的测试夹角与所述候选图片对应的描述符形成的夹角相等。

作为优选,所述步骤44)中缩放不变性计算过程具体为

441)将所述测试描述符集合三中的测试描述符任意两两配对形成多组测试描述符;

442)计算每组测试描述符中两测试描述符之间的测试距离,并计算所述候选图片中与每组测试描述符对应的描述符之间的候选距离;

443)计算每组测试距离与对应的候选距离之间的比值,并计算所有比值的比值平均值;

444)将每组测试描述符求得的比值与比值平均值作差,当差值大于一定阈值时,则该组的两个测试描述符不符合缩放不变性。

作为优选,所述步骤46)具体为计算所述测试描述符集合四中测试描述符两两距离的平均值,如果所述平均值小于所述测试图片对角线长度的a%,则判定所述测试描述符集合四中的测试描述符匹配在水印上,否则判定所述测试描述符集合四中的测试描述符不匹配在水印上。

作为优选,所述步骤46)中,如果所述平均值小于所述测试图片对角线长度的10%,则判定所述测试描述符集合四中的测试描述符匹配在水印上,否则判定所述测试描述符集合四中的测试描述符不匹配在水印上。

作为优选,所述特征点及所述测试特征点采用fast算法计算获得。

作为优选,所述描述符及所述测试描述符采用orb算法计算获得。

作为优选,n张候选图片中n取值为5,阈值d取值为30,阈值m取值为10。

本发明的有益效果是,本发明将测试集中的图片依次取出来和训练集中的所有图片对比,通过dbow方法找出最相似图片,通过描述符进行图片匹配,通过缩放信息筛除误匹配,通过旋转信息筛除误匹配,通过匹配区域是否在水印处删除误匹配,图片匹配效果好,能够适用于变形和有水印的图片。

附图说明

图1为本发明一种基于描述符匹配的去除重复图像的方法的流程图;

图2为本发明测试集图片去重的实施例一的流程图。

具体实施方式

以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。

如图1所示,一种基于描述符匹配的去除重复图像的方法,使用描述符的匹配,加上利用旋转不变性和缩放不变性筛除误匹配,最终根据剩下的特征点匹配数量以及匹配区域是否在水印处来判断测试集中图片是否存在训练集中,具体包括以下步骤:

1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符。特征点提取可以使用fast算法,描述符计算可以使用orb算法。特征点是图像中那些明暗变化突出的点。描述符是每个特征点的标识,一般是通过提取特征点附近的像素信息得到,可以用来判断不同图片中,哪些特征点对应的是物体上相同的点,这个过程叫做特征点的匹配。描述符的特点之一是图像在经过缩放、旋转、平移后,描述符并不发生变化,描述符最终以向量形式呈现,比如64个1byte的数。

2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特征点,根据所述测试特征点计算所述测试图片的测试描述符。测试特征点提取可以使用fast算法,测试描述符计算可以使用orb算法。

3)根据所述测试描述符结合dbow算法获取所述训练集中与所述测试图片最相似的n张候选图片。

为了加速描述符的匹配速度,本方法同时使用dbow算法提速。通常训练集图片的数量在几十万级,测试集的数量在几万级。如果直接两两进行暴力匹配的话,会花费大量时间,大大降低本发明的匹配效率。使用dbow算法后,只需要一次对比,就可以找出最相近的图片,然后再通过描述符的匹配和匹配特征点的位置关系来确定两图片是否是相同片。dbow算法是一种高效的回环检测算法,dbow算法的全称为bagsofbinarywordsforfastplacerecognitioninimagesequence,使用的特征检测算法为fast,描述子使用的是brief描述子。

4)按顺序在n张候选图片中选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,匹配结果为相同,则将测试集中的所述测试图片删除并返回步骤2);否则,继续执行步骤4)至n张候选图片均匹配结束并返回步骤2)。

通过图片两两间描述符的匹配度,可以判断是否图片相同。比如相同的图片能够匹配上的特征点数目远大于不同的图片。并且因为描述符的平移、缩放、旋转不变性,所以即使图片进行了变形处理,也能被匹配上。再因为描述符是局部特征,图片加上不同的水印后,们也不影响匹。所述步骤4)中匹配过程具体为,

41)将所述测试图片的测试描述符与所述候选图片的描述符进行暴力匹配,获取所述测试图片与所述候选图片描述符匹配的测试描述符集合一。

简单进行描述符的匹配不是完全可靠的,那些错误的匹配叫做误匹配,正确匹配的时候不管图片怎么变形,特征点之间的相对关系保持不变,但误匹配的特征点杂乱无章,所以可以通过这个规律来排除误匹配。

42)将所述测试描述符集合一中与距离最近的测试描述符之间距离大于一定阈值d的测试描述符删除以获得测试描述符集合二。所述步骤42)中两测试描述符之间的距离为两测试描述符之差的模。此步骤可以删除独立的匹配特征点。

43)将所述测试描述符集合二中不符合旋转不变性的测试描述符删除以获得测试描述符集合三。所述步骤43)中旋转不变性为所述测试描述符集合二中的某一测试描述符与其他任意两测试描述符之间形成的测试夹角与所述候选图片对应的描述符形成的夹角相等。

例如,候选图片存在特征点1,特征点2和特征点3,三个特征点连接后形成三角形1,测试图片存在测试特征点1,测试特征点2和测试特征点3,三个测试特征点连接后形成三角形2,且特征点1与测试特征点1匹配,特征点2与测试特征点2匹配,特征点3与测试特征点3,假设候选图片与测试图片是相同的,则三角形1与三角形2的形状是相同的,否则,三角形1与三角形2的形状很大概率是不同的。

44)将所述测试描述符集合三中不符合缩放不变性的测试描述符删除以获得测试描述符集合四。所述步骤44)中缩放不变性计算过程具体为,

441)将所述测试描述符集合三中的测试描述符任意两两配对形成多组测试描述符。

442)计算每组测试描述符中两测试描述符之间的测试距离,并计算所述候选图片中与每组测试描述符对应的描述符之间的候选距离。

443)计算每组测试距离与对应的候选距离之间的比值,并计算所有比值的比值平均值。

444)将每组测试描述符求得的比值与比值平均值作差,当差值大于一定阈值时,则该组的两个测试描述符不符合缩放不变性。

例如,候选图片存在特征点d1,特征点d2,特征点d3和特征点d4,测试图片存在测试特征点s1,测试特征点s2,测试特征点s3和测试特征点s4,且特征点d1与测试特征点s1匹配,特征点d2与测试特征点s2匹配,特征点d3与测试特征点s3,特征点d4与测试特征点s4匹配,其中,测试特征点s1与测试特征点s2之间的距离比上特征点d1与特征点d2之间的距离为比值1,测试特征点s3与测试特征点s4之间的距离比上特征点d3与特征点d4之间的距离为比值2,假设候选图片与测试图片是相同的,则比值1和比值2是相同的。本发明先求得比值的平均值,再用实际比值与平均比值作比较,可判断测测试特征点的描述符与候选图片的描述符是否真的匹配。

45)计算所述测试描述符集合四中测试描述符的个数,当个数大于阈值m时,进入下一步骤;否则判定所述测试图片与所述后选图片的匹配结果为不相同。

46)判定测试描述符集合四中的测试描述符是否匹配在水印上,是则判定所述测试图片与所述后选图片的匹配结果为不相同,否则判定所述测试图片与所述后选图片的匹配结果为相同。所述步骤46)具体为计算所述测试描述符集合四中测试描述符两两距离的平均值,如果所述平均值小于所述测试图片对角线长度的a%,则判定所述测试描述符集合四中的测试描述符匹配在水印上,否则判定所述测试描述符集合四中的测试描述符不匹配在水印上。

具体实施例一,如图2所示,一种基于描述符匹配的去除重复图像的方法,包括以下步骤:

1)提取训练集中所有图片各自的特征点,并根据所述特征点计算相应图片的描述符。特征点提取可以使用fast算法,描述符计算可以使用orb算法。

2)按顺序在测试集中提取一张测试图片并计算所述测试图片的测试特征点,根据所述测试特征点计算所述测试图片的测试描述符。测试特征点提取可以使用fast算法,测试描述符计算可以使用orb算法。

3)根据所述测试描述符结合dbow算法获取所述训练集中与所述测试图片最相似的5张候选图片。

4)按顺序在5张候选图片中选取一张候选图片,将所述候选图片的描述符与所述测试图片的测试描述符进行匹配,匹配结果为相同,则将测试集中的所述测试图片删除并返回步骤2)处理下一张测试集的图片。即如果5张候选图片中只要有一张图片被判定为相同,那么说明测试集中的图片在训练集中有重复,所以删除该测试图片。

否则,继续执行步骤4)至5张候选图片均匹配结束并返回步骤2)处理下一张测试集的图片。

所述步骤4)中匹配过程具体为,

41)将所述测试图片的测试描述符与所述候选图片的描述符进行暴力匹配,获取所述测试图片与所述候选图片描述符匹配的测试描述符集合一。

42)将所述测试描述符集合一中与距离最近的测试描述符之间距离大于30的测试描述符删除以获得测试描述符集合二。所述步骤42)中两测试描述符之间的距离为两测试描述符之差的模。

43)将所述测试描述符集合二中不符合旋转不变性的测试描述符删除以获得测试描述符集合三。所述步骤43)中旋转不变性为所述测试描述符集合二中的某一测试描述符与其他任意两测试描述符之间形成的测试夹角与所述候选图片对应的描述符形成的夹角相等。

44)将所述测试描述符集合三中不符合缩放不变性的测试描述符删除以获得测试描述符集合四。所述步骤44)中缩放不变性计算过程具体为,

441)将所述测试描述符集合三中的测试描述符任意两两配对形成多组测试描述符。

442)计算每组测试描述符中两测试描述符之间的测试距离,并计算所述候选图片中与每组测试描述符对应的描述符之间的候选距离。

443)计算每组测试距离与对应的候选距离之间的比值,并计算所有比值的比值平均值。

444)将每组测试描述符求得的比值与比值平均值作差,当差值大于一定阈值时,则该组的两个测试描述符不符合缩放不变性。

45)计算所述测试描述符集合四中测试描述符的个数,当个数大于10时,进入下一步骤;否则判定所述测试图片与所述后选图片的匹配结果为不相同。

46)判定测试描述符集合四中的测试描述符是否匹配在水印上,是则判定所述测试图片与所述后选图片的匹配结果为不相同,否则判定所述测试图片与所述后选图片的匹配结果为相同。所述步骤46)具体为计算所述测试描述符集合四中测试描述符两两距离的平均值,如果所述平均值小于所述测试图片对角线长度的10%,则判定所述测试描述符集合四中的测试描述符匹配在水印上,否则判定所述测试描述符集合四中的测试描述符不匹配在水印上。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1