一种针对图像样本不平衡的数据增强方法与流程

文档序号:23727269发布日期:2021-01-26 17:37阅读:52来源:国知局
一种针对图像样本不平衡的数据增强方法与流程

[0001]
本申请涉及数字图像处理、图像变换、图像检测领域,特别涉及图像数据增强方面。


背景技术:

[0002]
深度卷积神经网络(cnn)由于参数众多和丰富的表达能力,在图像分类和图像处理任务中取得了显著成效。然而,具有大量参数的cnn存在过度拟合的风险,造成这一风险的原因之一在于数据集。数据集中若样本量过少或各样本量之间比例不平衡,都可能造成基于此类数据集训练得到的cnn网络过拟合或泛化能力不强。数据增强被用来解决这个问题。常见的数据增强方式有图像翻转、调整图像大小、随机裁剪和颜色转换等。
[0003]
目前图像数据增强方法基本只是对小样本平衡数据集进行处理,没有一种针对样本不平衡的图像数据增强方法。若样本不平衡,即使数据集非常大,通过该数据集训练出的网络对数据集中样本量小的特征仍会出现过拟合情况,训练出的网络泛化能力不强。


技术实现要素:

[0004]
本发明目的在于针对小样本且样本量不平衡的图像数据集,提出一种针对图像样本不平衡的数据增强方法(random feature cropping and patching,rfcap)。
[0005]
本发明是通过以下技术方案来实现的:一种针对图像样本不平衡的数据增强方法。
[0006]
具体包括的步骤:
[0007]
1、一种针对图像样本不平衡的数据增强方法,具体步骤如下:
[0008]
(1)分析图像数据集,将数据集划分为包含特征的数据集和不包含特征的数据集,统计包含特征数据集中各样本比例。对整个数据集进行图片翻转、平移、旋转、色域变换、增加噪声等基础数据增强操作。
[0009]
(2)划分特征图像与非特征图像选取比例,构建随机函数a。
[0010]
(3)根据样本比例计算各样本被选取的概率,通过算出各样本的被选概率构建随机函数b,通过随机函数a、b选取4张图像。
[0011]
(4)使用改进的标准分布计算图像拼接点。改进方法为标准分布中加入随机变量t,限制标准分布取到边界点。
[0012]
(5)将特征填补位置划分为5个位置,构建随机函数c选取特征填补位置。
[0013]
(6)使用随机函数c剪切4张图像,拼接得到一张新图像。
[0014]
2、一种针对图像样本不平衡的数据增强方法,其特征在于,步骤(1)中,不同于一般数据增强中随机选取图像、裁剪图像后拼接的方法,该方法在使用时需要根据数据集中不同样本量在数据集中的比例进行后续随机函数的设定。在统计样本类别后,对样本图像进行组合基础的数据增强操作,对原本数据集进行第一次扩容。
[0015]
3、一种针对图像样本不平衡的数据增强方法,其特征在于,步骤(2)中,在拼接特
征图像的同时,增加非特征(不包括特征)图像或其他无关类别的图像。通过加入无关图像和非特征图像,可强化通过该数据集训练得到网络的鲁棒性,泛化模型检测能力,避免小样本数据集易过拟合问题。划分非特征图像与特征图像拼接的比例,构建随机函数a。通过随机函数a保证在选取图像的同时能够使特征图像与非特征图像比例为1:1,同时保证在该比例下图像选取的随机性。
[0016]
4、一种针对图像样本不平衡的数据增强方法,其特征在于,步骤(3)中,基于步骤(1)中计算得出的样本比例,计算各样本应被选取的概率使得进行数据增强后各样本在数据集中比例基本一致。通过计算出的被选比例构建随机函数b。随机函数b能够保证数据集中样本比例基本一致的同时,不影响该比例下图像选取的随机性。
[0017]
5、一种针对图像样本不平衡的数据增强方法,其特征在于,步骤(4)中,在图像二维坐标上选择一个点(w,h)作为四张裁剪后图像的拼接点,为保证拼接点随机且尽量在图像中间,故使用标准分布计算拼接点(w,h),为了限制在标准分布中将拼接点(w,h)取到图像边缘,故在拼接点(w,h)标准分布中引入随机变量t,使计算得到的拼接点随机分布在图像中央。
[0018]
6、一种针对图像样本不平衡的数据增强方法,其特征在于,步骤(5)中,对选取图像中标注的特征框进行裁剪,若选取的特征框小于拼接部分的面积,需要图像其他区域进行填补。提出5个缺陷框可以存放的位置随机确定裁剪背景内容。特征框分别位于图像坐上角、右上角、中间、左下角、右下角,构建随机函数c,随机为特征框选取位置。随机函数c保证了特征框在剪切图像上位置的多样性。
[0019]
本发明的有益效果是:
[0020]
1.发明了一种针对小样本且样本量不平衡的数据增强方式。可以有效改善数据集中样本不平衡的情况。
[0021]
2.模型不容易由于样本不平衡在某一类样本中出现过拟合现象。
附图说明:
[0022]
图1为本发明的实施流程图;
[0023]
图2为特征选取位置示意图;
[0024]
图3为实例展示图;
[0025]
具体实施方法:
[0026]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述地实施例仅是本发明一部分实施例,而不是全部地实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0027]
如图1所示,一种针对图像样本不平衡的数据增强方法,其具体步骤如下:
[0028]
步骤一:分析样本数据集,筛选数据集中存在特征的图像与不存在特征的图像。统计存在特征的样本比例,数据集图像进行基础数据增强操作。数据增强使用组合的基础数据增强方式,随机选取若干种数据增强方式,如:图像翻转、图像平移、增加噪声、颜色改变等。
[0029]
步骤二:划分特征图像与非特征图像比例,构建随机函数a。从(0-1)取随机选择特
征图像或不包含特征的图像,随机函数a对应随机数选取图像类型表格如下表1。包含特征的图像与不包含特征的图像比例为1:1,每次选择时使用随机函数判断选取包含特征的图像或不包含特征的图像。
[0030]
表1
[0031][0032]
通过随机函数a,选择图像类型。
[0033]
步骤三:根据样本比例计算各样本被选取的概率,通过算出各样本的被选概率构建随机函数b,通过随机函数a、b选取4张图像。从(1-100)范围取随机数选取特征图像进行拼接。假设当前存在6种特征,各类特征在数据集种所占的比例为5%、20%、9%、15%、34.9%、15.3%。对各特征的比例求倒数,计算在选取特征时每种特征被选取得概率。随机函数b对应随机数选取特征类型图像表格如下表2。
[0034]
表2
[0035][0036]
使用随机函数a、b,选择四张图像。
[0037]
步骤四:通过改进的标准分布计算图像拼接点。在选择4张需要提取的图像之后,在图像二维坐标上选择一个点(w,h)作为四张裁剪后图像的拼接点。(w,h)的所有可能值在[0,ix]和[0,iy]范围内选择。使用标准正态分布作为拼接点(w,h)在图像中的分布,分布如公式x所示:
[0038][0039]
其中ix、iy为要拼接图像的宽度和高度。
[0040]
为了限制在标准分布中将拼接点(w,h)取到图像边缘,故改进标准分布计算拼接点(w,h)。引入一个新的变量t,将拼接点(w,h)限制在修补图像的中心区域,如图x所示,拼接点(w,h)的分布如公式(2)为:
[0041][0042]
通过上述改进分布计算拼接点(w,h)。
[0043]
步骤五:将特征填补位置划分为5个位置,构建随机函数c选取特征填补位置。通过拼接点(w,h)获取四块区域中每一块区域的裁剪尺寸,四块区域的寸尺分别为(w,h),(i
x
,h),(w,i
y-h),(i
x-w,i
y-h)。当缺陷标注框bbox尺寸小于对应的区域时,在裁剪bbox的同时,
需要将背景一起裁剪,为了确定需要裁剪背景的位置,使用随机函数c进行选取。特征填补位置如图2特征选取位置示意图所示,特征可存放于左上角、右上角、中间、左下角、右下角五个位置。构建随机函数c,从(1-5)范围取特征框在填充缺陷图像区域的位置。通过随机函数c的输出,确定裁剪区域。
[0044]
步骤六:将上述步骤中裁剪的图像进行图像放大或缩小后,在拼接点(w,h)处将图像进行拼接,生成新的图像数据。图3为实例展示。
[0045]
本文中对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1