一种带分割标注的图像数据集重复目标去重方法

文档序号：34467385发布日期：2023-06-15 11:09阅读：41来源：国知局

本发明涉及图像去重方法领域，尤其涉及的是一种带分割标注的图像数据集重复目标去重方法。

背景技术：

1、当前，随着深度学习图像技术的蓬勃发展，在深度学习的模型构建与训练中，首要的任务是如何高效、准确地获取或构建图像数据集，但在获取或构建的图像数据集的过程中，难免会存在有图像(或图片，下同)重复收集、同一个目标个体(或目标对象)多次出现在多张图片(或图像，下同)中等信息冗余的情况，从而导致在深度学习的模型训练过程中出现偏差，因此，如何实现图像数据集的图像及图像内的目标高效率、准确地去重具有重要意义。

2、现有的图像去重技术主要以匹配特征的方法，对重复图片或相似图片进行去重，例如，现有发明专利文献《一种图像去重方法、装置、电子设备及存储介质》（申请号202210394688.0）中，在获取图像特征后，对各待去重图像进行匹配，并在进行分组之后，根据各图像分组进行各待去重图像的去重操作；又如，现有发明专利文献《管道图像去重方法、计算机装置、产品及存储介质》（申请号202210142276.8）中，抽帧获取管道的相近两张图像帧，基于fpn网络获取图像特征，并计算两张图像相似度，从而进行图像的去重操作。

3、但是，上述两件现有技术仅仅对整张图片进行去重操作，并没有保留两张图片之间仍有价值的非重叠信息，如果目标个体在被舍弃的图片中以及图像背景仍存在值得利用的信息，那么在对整张图片去重的同时，就是对数据集中有价值信息的丢弃；而存在该局限或导致该缺陷的主要原因是，上述两件现有技术仅考虑在图像层次进行去重，并未考虑在带标注图像下，对有价值信息进行保留及利用。

4、因此，现有技术尚有待改进和发展。

技术实现思路

1、为解决上述技术问题，本发明提供一种带分割标注的图像数据集重复目标去重方法，可高效、准确地实现图像数据集的图像及图像内的目标去重。

2、本发明的技术方案如下：一种带分割标注的图像数据集重复目标去重方法，其中：

3、当两两匹配的图片i和j存在有部分特征重叠的情况时，载入图片i和j的标注文件，获取 n个匹配对索引的特征点对及其坐标对，其中，代表图片i中匹配点的横坐标，代表图片i中匹配点的纵坐标，代表图片j中匹配点的横坐标，代表图片j中匹配点的横坐标；

4、通过累加求均值法计算x轴和y轴的坐标偏移量 dx和 dy：，，其中， n代表匹配对数量， n代表匹配对索引，代表两个匹配点横坐标的绝对值，代表两个匹配点纵坐标的绝对值，并对图片i的标注文件进行坐标转换；

5、获取交集区域，生成去重掩膜的坐标和大小（x，y，w，h），其中，x代表去重掩膜横坐标并取所有匹配点横坐标最小值，y代表去重掩膜纵坐标并取所有匹配点纵坐标最小值，w代表去重掩膜宽度并取值 dx，h代表去重掩膜高度并取值 dy；

6、利用去重掩膜在图片i的对应区域及其标注文件进行置零去重处理。

7、所述的带分割标注的图像数据集重复目标去重方法，其中：先对图像数据集进行下采样操作，并将其储存在待匹配图像文件夹中；同时获取待匹配图像文件夹中的图像数量m，初始化匹配度阈值t的最小值t_min和最大值t_max，初始化被匹配图像索引i、匹配图像索引j的初始值均为1，和初始化被删除图片数量d的初始值为0。

8、所述的带分割标注的图像数据集重复目标去重方法，其中：判断被匹配图像索引i是否等于1？是则进入结束条件判断步骤；否则载入图片j，将图片i与图片j进行匹配并获得匹配度阈值t，进入匹配及筛选流程，经匹配及筛选后，再返回待匹配图像排序流程中，令j=j+1，进入索引匹配判断步骤。

9、所述的带分割标注的图像数据集重复目标去重方法，其中：判断匹配图像索引j是否小于i？是则载入图片j，与图片i进行匹配并获得匹配度阈值t，进入匹配及筛选流程，经匹配及筛选后，再回到待匹配图像排序流程中，令j=j+1，回到索引匹配判断步骤；否则进入结束条件判断步骤。

10、所述的带分割标注的图像数据集重复目标去重方法，其中：判断被匹配图像索引i是否小于图像数量m？是则令i=i+1，且j=1，载入图片i后，进入初始化判断步骤；否则流程结束。

11、所述的带分割标注的图像数据集重复目标去重方法，其中：

12、当匹配度阈值t小于等于最小值t_min，进入匹配图像排序流程继续进行匹配，令j=j+1，回到索引匹配判断步骤；

13、当匹配度阈值t处于t_min与t_max之间，进入去重流程中进行部分去重操作；

14、当匹配度阈值t大于等于最大值t_max，进入去重流程中进行删除图片及标注文件操作。

15、所述的带分割标注的图像数据集重复目标去重方法，其中：当匹配度阈值t大于等于最大值t_max，则将整张图片i及其标注文件删除，且将被删除图片数量d值增加1，并返回待匹配图像排序流程，令j=j+1，回到索引匹配判断步骤。

16、所述的带分割标注的图像数据集重复目标去重方法，其中：在利用去重掩膜在图片i的对应区域及其标注文件进行置零去重处理时，判断图片i中的各特征点是否落在去重掩膜的区域内，是则获取图片i特征点掩膜坐标，去掉去重掩膜部分，将图片i去重掩膜部分置零，并返回匹配图像排序流程继续进行匹配；否则直接将图片i去重掩膜部分置零，并返回匹配图像排序流程继续进行匹配，令j=j+1，回到索引匹配判断步骤。

17、所述的带分割标注的图像数据集重复目标去重方法，其中：分割标注为语义分割标注、实例分割标注或全景分割标注。

18、所述的带分割标注的图像数据集重复目标去重方法，其中：在每个目标的分割标注信息中包含有分类及其轮廓线的端点坐标组。

19、本发明所提供的一种带分割标注的图像数据集重复目标去重方法，为筛选出图像采集人员重复标定的目标个体或目标对象，通过sift算法，识别出数据集中图像间交集区域，生成去重掩膜，并将重叠部分进行置零、删除个体标定信息等处理，形成一种特定的去重方法，适用于数据集重复标定个体去重处理，从而生成更高质量的数据集，为后续深度学习的模型训练提供更高质量的数据支持；在前期确定好阈值t的最小值t_min和最大值t_max以及图像下采样的尺寸参数之后，可形成自动去重，相比人工去重，具有避免缺漏、不重复的优势，且具有高效率、运行准确的显著有益效果。

技术特征：

1.一种带分割标注的图像数据集重复目标去重方法，其特征在于：

2.根据权利要求1所述的带分割标注的图像数据集重复目标去重方法，其特征在于：先对图像数据集进行下采样操作，并将其储存在待匹配图像文件夹中；同时获取待匹配图像文件夹中的图像数量m，初始化匹配度阈值t的最小值t_min和最大值t_max，初始化被匹配图像索引i、匹配图像索引j的初始值均为1，和初始化被删除图片数量d的初始值为0。

3.根据权利要求2所述的带分割标注的图像数据集重复目标去重方法，其特征在于：判断被匹配图像索引i是否等于1？是则进入结束条件判断步骤；否则载入图片j，将图片i与图片j进行匹配并获得匹配度阈值t，进入匹配及筛选流程，经匹配及筛选后，再返回待匹配图像排序流程中，令j=j+1，进入索引匹配判断步骤。

4.根据权利要求3所述的带分割标注的图像数据集重复目标去重方法，其特征在于：判断匹配图像索引j是否小于i？是则载入图片j，与图片i进行匹配并获得匹配度阈值t，进入匹配及筛选流程，经匹配及筛选后，再回到待匹配图像排序流程中，令j=j+1，回到索引匹配判断步骤；否则进入结束条件判断步骤。

5.根据权利要求4所述的带分割标注的图像数据集重复目标去重方法，其特征在于：判断被匹配图像索引i是否小于图像数量m？是则令i=i+1，且j=1，载入图片i后，进入初始化判断步骤；否则流程结束。

6.根据权利要求5所述的带分割标注的图像数据集重复目标去重方法，其特征在于：

7.根据权利要求6所述的带分割标注的图像数据集重复目标去重方法，其特征在于：当匹配度阈值t大于等于最大值t_max，则将整张图片i及其标注文件删除，且将被删除图片数量d值增加1，并返回待匹配图像排序流程，令j=j+1，回到索引匹配判断步骤。

8.根据权利要求7所述的带分割标注的图像数据集重复目标去重方法，其特征在于：在利用去重掩膜在图片i的对应区域及其标注文件进行置零去重处理时，判断图片i中的各特征点是否落在去重掩膜的区域内，是则获取图片i特征点掩膜坐标，去掉去重掩膜部分，将图片i去重掩膜部分置零，并返回匹配图像排序流程继续进行匹配；否则直接将图片i去重掩膜部分置零，并返回匹配图像排序流程继续进行匹配，令j=j+1，回到索引匹配判断步骤。

9.根据权利要求1所述的带分割标注的图像数据集重复目标去重方法，其特征在于：分割标注为语义分割标注、实例分割标注或全景分割标注。

10.根据权利要求1所述的带分割标注的图像数据集重复目标去重方法，其特征在于：在每个目标的分割标注信息中包含有分类及其轮廓线的端点坐标组。

技术总结
本发明公开了一种带分割标注的图像数据集重复目标去重方法，当两两匹配的图片存在有部分特征重叠的情况时，载入两图片的标注文件，获取各特征点对及其坐标对；通过累加求均值法计算x轴和y轴的坐标偏移量，并对被匹配图片的标注文件进行坐标转换；获取交集区域，生成去重掩膜的坐标和大小，利用去重掩膜在被匹配图片的对应区域及其标注文件进行置零去重处理；适用于数据集重复标定个体去重处理，最大限度地保留了有价值的信息，且避免了冗余信息，能生成更高质量的数据集，为后续深度学习的模型训练提供更高质量的数据支持；可形成自动去重，相比人工去重，具有避免缺漏、不重复的优势，且具有高效率、运行准确的显著有益效果。

技术研发人员：马文军,殷李华,方悦怡,肖建鹏,刘涛,何冠豪,胡建雄,容祖华,黄栩滨
受保护的技术使用者：暨南大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马文军殷李华方悦怡肖建鹏刘涛何冠豪胡建雄容祖华黄栩滨
技术所有人：广东省公共卫生研究院广东省疾病预防控制中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。