一种多尺度纹理随机化的数据增强方法与流程

文档序号：22968433发布日期：2020-11-19 21:45阅读：454来源：国知局

本发明涉及人工智能领域，尤其涉及计算机视觉典型目标检测任务训练数据预处理阶段，具体地说，是一种多尺度纹理随机化的数据增强方法。

背景技术：

在现实的应用场景中，往往会大量存在遮挡问题。在目标检测任务的训练样本当中，就存在大量标记目标重叠的情况，这就会导致被遮挡的目标，在训练过程中存在部分其他目标的特征，从而影响其识别检测效果。

论文《improvedregularizationofconvolutionalneuralnetworkswithcutout》（https://arxiv.org/abs/1708.04552）中提出了一种数据增强的方法，在图像上进行随机位置和一定大小的区域进行裁剪。该方法是在尽可能的在训练中添加遮挡的样本，却无法很好处理训练样本中自身存在大量遮挡样本的情况。

论文《mixup:beyondempiricalriskminimizatio》（https://arxiv.org/abs/1710.09412）中提出了一种数据增强的方法，随机挑选两张图片进行叠加。在目标检测任务中，并未针对重叠区域重叠比例的样本进行有效的区分。该方法旨在组合生成出更多的样本，并不能很好处理训练样本中自身存在大量遮挡样本的情况。

技术实现要素：

本发明要解决的技术问题是提供一种多尺度纹理随机化的数据增强方法，增加样本特征，并对样本区域进行随机纹理掩码框填充，增加目标检测任务训练数据预处理的效果。

为了解决所述技术问题，本发明采样的技术特征是：

一种多尺度纹理随机化的数据增强方法，包括以下步骤：

s01）、选取n个训练样本p={p0,p1,…,pn-1}以及与n个训练样本相对应的标记框信息t={[x0,y0,w0,h0,l0],[x1,y1,w1,h1,l1],…,[xn-1,yn-1,wn-1,hn-1,ln-1]}；

其中p包含图像信息，如p0包含（img0，img_w0，img_h0）,img0表示图像p0，img_w0表示图像p0的宽，img_h0表示图像p0的高，p1、…、pn-1与之相同；

t包含图像的标记信息，[x,y,w,h,c]表示为一组标记框信息，分别代表标记框的左上角点（x，y），w是宽，h是高，l是该框的类别；

s02）、随机从训练样本集中挑选4个样本及4个样本对应的标记框信息，4个样本记为ptl、ptr、pbl、pbr，4个样本对应的标记框信息记为[xtl,ytl,wtl,htl,ltl],[xtr,ytr,wtr,htr,ltr],[xbl,ybl,wbl,hbl,lbl],[xbr,ybr,wbr,hbr,lbr]；

s03）、随机生成4个尺度缩放因子，即生成s=[s0,s1,s2,s3],其中s的范围在[0.5,1.0]之间；

s04）、设数据增强后的样本为pout,设置pout的图像信息为（img，img_w，img_h），其中img表示数据增强后的图像pout，img_w表示图像pout的宽度，img_h表示图像pout的高度；

s05）、设数据增强后的样本pout中心点坐标为（xc,yc），则

xc=img_w/2+b（1），

yc=img_h/2+b（2），

其中b∈[-(img_w+img_h)/16,(img_w+img_h)/16]；

s06）、当输入样本为ptl时，图像imgtl乘以尺度缩放因子s0，改变其图像尺度，输出图像记为ptl0，同理另外三个输入样本，经过尺度缩放得到输出图像记为ptr1、pbl2、pbr3，输出样本pout为ptl0、ptr1、pbl2、pbr3不同尺度的拼接，并且将对应的标记框信息进行变换，记为tout；

s07）、随机生成n个不同大小、不同形状、不同颜色的纹理掩码框，记为mask=[m0,m1,…,mn-1]；

s08）、计算每个生成的掩码框与输出样本标记框的重叠区域，重叠区域记为overlap=[o0,o1,…,on-1]；

s09）、假设随机生成掩码框mi与输出样本中某个标记框tj重叠，重叠区域的面积为areai，则oi=areai/（wj*hj），其中标记框tj的位置信息为[xj,yj,wj,hj];

s10）、当重叠区域的值oi大于阈值ost，则删除该掩码框mi。

进一步的，ptl0、ptr1、pbl2、pbr3不同尺度拼接形成输出样本pout的过程为：

s61）、将ptl0样本的部分区域放置pout的左上角，具体转换公式为：

x1a=max(xc-imgtl0_w,0)，

y1a=max(yc-imgtl0_h,0)，

x2a=xc，

y2a=yc，

x1b=imgtl0_w–(x2a–x1a)，

y1b=imgtl0_h–(y2a–y1a)，

x2b=imgtl0_w，

y2b=imgtl0_h，

img[y1a:y2a,x1a:x2a]=imgtl0[y1b:y2b,x1b:x2b]；

s62）、将ptr1样本的部分区域放置pout的右上角，具体转换公式为：

x1a=xc，

y1a=max(yc-imgtr1_h,0)，

x2a=min(xc+imgtr1_w,img_w)，

y2a=yc，

x1b=0，

y1b=imgtr1_h–(y2a–y1a)，

x2b=min(imgtr1_w,x2a–x1a)，

y2b=imgtr1_h，

img[y1a:y2a,x1a:x2a]=imgtr1[y1b:y2b,x1b:x2b]；

s63)、将pbl2样本的部分区域放置pout的左下角，具体转换公式为：

x1a=max(xc–imgbl2_w,0)，

y1a=yc，

x2a=xc，

y2a=min(img_h,yc+imgbl2_h)，

x1b=imgbl2_w–(x2a–x1a)，

y1b=0，

x2b=max(xc,imgbl2_w)，

y2b=min(y2a–y1a,imgbl2_h)，

img[y1a:y2a,x1a:x2a]=imgbl2[y1b:y2b,x1b:x2b]；

s64)、将pbr3样本的部分区域放置pout的右下角，具体转换公式为：

x1a=xc，

y1a=yc，

x2a=min(xc+imgbr3_w,img_w)，

y2a=min(img_h,yc+imgbr3_h)，

x1b=0，

y1b=0，

x2b=min(imgbr3_w,x2a–x1a)，

y2b=min(y2a–y1a,imgbr3_h)，

img[y1a:y2a,x1a:x2a]=imgbr3[y1b:y2b,x1b:x2b]。

进一步的，ost的值选取为0.5。

本发明的有益效果：本发明将随机4个训练样本拼接形成一个输出样本，输出样本保留了4个训练样本的特征，可以增加样本特征，防止训练时的过拟合；随机增加纹理掩码框，比较纹理掩码框与样本标记框自检的重叠区域，如果重叠区域小于设定阈值，则保留该掩码框，样本标记框为重叠区域标记框的话，则实现了重叠区域的处理。本发明通过对训练样本进行多尺度纹理随机化的数据增强，可以提高目标检测任务训练数据预处理的效果，提高识别检测效果。

附图说明

图1为实施例1中4个训练样本拼接形成输出样本的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行进一步的说明。

实施例1

本实施例公开一种多尺度纹理随机化的数据增强方法，本方法包括以下步骤：

s01）、选取n个训练样本p={p0,p1,…,pn-1}以及与n个训练样本相对应的标记框信息t={[x0,y0,w0,h0,l0],[x1,y1,w1,h1,l1],…,[xn-1,yn-1,wn-1,hn-1,ln-1]}；

其中p包含图像信息，如p0包含（img0，img_w0，img_h0）,img0表示图像p0，img_w0表示图像p0的宽，img_h0表示图像p0的高，p1、…、pn-1的含义与之相同；

t包含图像的标记信息，如图1所示，一个训练样本即一幅图片中存在多个标记框，因此[x,y,w,h,c]表示为一组标记框信息，分别代表标记框的左上角点（x，y），w是宽，h是高，l是该框的类别；

s03）、随机生成4个尺度缩放因子，即生成s=[s0,s1,s2,s3],其中s的范围在[0.5,1.0]之间，即s∈[0.5,1.0]；

s05）、设数据增强后的样本pout中心点坐标为（xc,yc），则

xc=img_w/2+b（1），

yc=img_h/2+b（2），

其中b∈[-(img_w+img_h)/16,(img_w+img_h)/16]；

s07）、随机生成n个不同大小、不同形状、不同颜色的纹理掩码框，记为mask=[m0,m1,…,mn-1]；

s08）、计算每个生成的掩码框与输出样本标记框的重叠区域，重叠区域记为overlap=[o0,o1,…,on-1]；

s09）、假设随机生成掩码框mi与输出样本中某个标记框tj重叠，重叠区域的面积为areai，则oi=areai/（wj*hj），其中标记框tj的位置信息为[xj,yj,wj,hj];

s10）、当重叠区域的值oi大于阈值ost，则删除该掩码框mi，一般ost的值选取为0.5。

如图1所示，ptl0、ptr1、pbl2、pbr3不同尺度拼接形成输出样本pout的过程为：

s61）、将ptl0样本的部分区域放置pout的左上角，具体转换公式为：

x1a=max(xc-imgtl0_w,0)，

y1a=max(yc-imgtl0_h,0)，

x2a=xc，

y2a=yc，

x1b=imgtl0_w–(x2a–x1a)，

y1b=imgtl0_h–(y2a–y1a)，

x2b=imgtl0_w，

y2b=imgtl0_h，

img[y1a:y2a,x1a:x2a]=imgtl0[y1b:y2b,x1b:x2b]；

其中，(x1a,y1a)、(x2a,y2a)分别为图像pout的a1部分左上角、右下角的坐标，(x1b,y1b)、(x2b,y2b)分别为图像ptl0的a2部分左上角、右下角的坐标，最后一个公式表示将图像ptl0的a2部分映射至图像pout的a1部分。

s62）、将ptr1样本的部分区域放置pout的右上角，具体转换公式为：

x1a=xc，

y1a=max(yc-imgtr1_h,0)，

x2a=min(xc+imgtr1_w,img_w)，

y2a=yc，

x1b=0，

y1b=imgtr1_h–(y2a–y1a)，

x2b=min(imgtr1_w,x2a–x1a)，

y2b=imgtr1_h，

img[y1a:y2a,x1a:x2a]=imgtr1[y1b:y2b,x1b:x2b]；

其中，(x1a,y1a)、(x2a,y2a)分别为图像pout的b1部分左上角、右下角的坐标，(x1b,y1b)、(x2b,y2b)分别为图像ptr1的b2部分左上角、右下角的坐标，最后一个公式表示将图像ptr1的b2部分映射至图像pout的b1部分。

s63)、将pbl2样本的部分区域放置pout的左下角，具体转换公式为：

x1a=max(xc–imgbl2_w,0)，

y1a=yc，

x2a=xc，

y2a=min(img_h,yc+imgbl2_h)，

x1b=imgbl2_w–(x2a–x1a)，

y1b=0，

x2b=max(xc,imgbl2_w)，

y2b=min(y2a–y1a,imgbl2_h)，

img[y1a:y2a,x1a:x2a]=imgbl2[y1b:y2b,x1b:x2b]；

其中，(x1a,y1a)、(x2a,y2a)分别为图像pout的c1部分左上角、右下角的坐标，(x1b,y1b)、(x2b,y2b)分别为图像pbl2的c2部分左上角、右下角的坐标，最后一个公式表示将图像pbl2的c2部分映射至图像pout的c1部分。

s64)、将pbr3样本的部分区域放置pout的右下角，具体转换公式为：

x1a=xc，

y1a=yc，

x2a=min(xc+imgbr3_w,img_w)，

y2a=min(img_h,yc+imgbr3_h)，

x1b=0，

y1b=0，

x2b=min(imgbr3_w,x2a–x1a)，

y2b=min(y2a–y1a,imgbr3_h)，

img[y1a:y2a,x1a:x2a]=imgbr3[y1b:y2b,x1b:x2b];

其中，(x1a,y1a)、(x2a,y2a)分别为图像pout的d1部分左上角、右下角的坐标，(x1b,y1b)、(x2b,y2b)分别为图像pbr3的d2部分左上角、右下角的坐标，最后一个公式表示将图像pbr3的d2部分映射至图像pout的d1部分。

本发明将随机4个训练样本拼接形成一个输出样本，输出样本保留了4个训练样本的特征，可以增加样本特征，防止训练时的过拟合；随机增加纹理掩码框，比较纹理掩码框与样本标记框自检的重叠区域，如果重叠区域小于设定阈值，则保留该掩码框，样本标记框为重叠区域标记框的话，则实现了重叠区域的处理。本发明通过对训练样本进行多尺度纹理随机化的数据增强，可以提高目标检测任务训练数据预处理的效果，提高识别检测效果。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：井焜;陈英鹏;许野平;刘辰飞
技术所有人：神思电子技术股份有限公司
我是此专利的发明人

上一篇：一种实现劈刀盘进行预测性维护和完善的算法的制作方法
上一篇：一种基于低秩分析的图像去噪方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。