一种基于自监督学习的掩码图像建模算法的制作方法

文档序号:35683735发布日期:2023-10-09 01:06阅读:54来源:国知局
一种基于自监督学习的掩码图像建模算法的制作方法

本发明涉及掩码图像建模,尤其涉及一种基于自监督学习的掩码图像建模算法。


背景技术:

1、自监督学习可以利用大量无标注数据进行训练,提高模型的泛化能力和效率,被广泛应用于图像、语音、文本等领域。得益于掩码语言建模(masked language modeling,mlm)在自然语言处理上成功和视觉transformer的发展,掩码图像建模(masked imagemodeling,mim)在自监督视觉表示学习领域取得了卓越的成功。mim通过首先掩蔽输入的一些部分,然后基于未掩蔽的部分预测其信号来学习语义表示,例如,归一化像素、离散标记、hog特征、深度特征或频率。

2、mae(maskedautoencoders)是用于mim的自监督学习方法,优点是扩展性强,方法简单。mae会随机mask输入图片的部分patches,然后重构这些缺失的像素。mae采用非对称的编码解码结构,编码器仅仅对可见的patches进行编码,不对mask tokens进行任何处理,解码器将编码器的输出和mask tokens作为输入,重构图像。由于图像和语言数据的信息密度的差异,mae使用较高的mask比例。然而,这样会导致具有巨大的计算负担和缓慢的学习过程。且随机mask不同的patches,模型会产生不同预测结果,存在较高的不确定性。此类问题也是掩码图像建模的共性问题。

3、综上所述,本发明通过设计一种基于自监督学习的掩码图像建模深度学习范式实现高精度和高效率的掩码图像建模。


技术实现思路

1、针对现阶段自监督掩码图像建模算法的存在缺陷,本发明提供一种新的基于自监督学习的掩码图像建模算法,首将图像划分为patches并随机分为4等份,每份patches作为可见patches,其余作为掩码patches,由此的到4张掩码图像,可见patches作为编码器输入得到潜在特征表示,编码后的可见patches和掩码patches共同作为编码器的输入进行图像重建,通过将同一图像得到的不同掩码图像中的掩码patches重叠部分预测结果的平均绝对误差最小化,以增强模型重建结果的确定性。在开源数据集上掩码图像建模方法中位于前列位置。

2、为实现上述目的,本发明提供如下技术方案:

3、一种基于自监督学习的掩码图像建模算法,包括以下步骤:

4、步骤s1:mim主要使用的开源数据集是imagenet dataset、coco dataset和places365 dataset等,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,首先对数据进行转换,图像缩放到相同的大小并进行归一化处理;

5、步骤s2,将图像划分为相同大小的patches,随机对部分patches添加掩码(高掩码比),未添加掩码的可见patches作为编码器(vit)的输入进行编码,对可见patches执行线性投影,再加上位置嵌入,然后送入transformer块得到潜在特征表示;

6、步骤s3,将掩码patches和编码器的输出按照原始图像中的顺序合并,作为解码器(vit)的输入,解码器最后一层为线性投影,将潜在特征映射回像素空间,完成整张图像的重建预测;

7、步骤s4,对同一张图像,采用s2中添加掩码的方式,可以得到可见patches不重叠的多个掩码图像,任意两个掩码图像的重建预测中存在部分相同的掩码patches,将不同掩码图像中相同掩码patches的重建结果的平均绝对误差最小化,以增强模型预测结果的确定性;

8、步骤s5,根据上面重建的掩码patches,计算与原始图像patches的均方误差(mse),最小化以优化模型,模型可以直接执行图像重建任务,也可以使用不同模块替换解码器,经过微调后执行相应的下游任务。

9、一种基于自监督学习的掩码图像建模算法,s1中使用的图像数据统一缩放至224×224大小。

10、s2中划分的图像patches大小为16×16,一张224×224大小的图像可划分为14×14个图像patches,把14×14个图像patches随机等分为4部分,作为可见patches,对其余patches添加掩码,通过这种方式,一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像,每个掩码图像使用一个长度为14×14的向量t表示位置信息,向量t中每个元素都满足{0,1}二值分布,0表示掩码patches,1表示可见patches,元素索引为图像patches位置信息,每个掩码图像中包含一对互补组合x:可见patchesxv=x⊙t和掩码patches xm=x⊙(1-t),图像patches的随机划分采用以下策略:

11、(1)初始化一个14×14的向量d=[0,1,…,195];

12、(2)随机打乱向量d中的元素的顺序;

13、(3)初始化4个14×14的零向量t0,t1,t2,t3用来保存掩码图像信息;

14、(4)设i={0,1,2,3},ti更新过程如公式(1)所示:

15、ti[d[4*i:4*(i+1)]]=1       (1)

16、由此一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像。其中75%为最佳掩码比,降低掩码比会增加图像冗余信息,过高掩码比会由于图像信息过少导致图像重建效果不佳。

17、编码器采用vit,输入为向量t中位置元素为1的可见patches,就像在标准的vit中一样,编码器通过线性投影嵌入patches(为每个输入的patch生成一个token),并添加位置嵌入,然后通过一系列transformer块来处理嵌入序列,由于编码器只处理整个patches集合中的25%可见patches,可以使用较少的计算资源和硬件成本训练一个较大大的编码器,同时对图像数据的充分利用也大大减少了模型的训练难度。

18、s3中的解码器是轻量级的,由一系列transformer块组成,输入为可见patches经过编码器处理后得到的潜在特征表示和掩码tokens(向量t中位置元素为0的patches),掩码tokens是一个共享的可学习向量,表示存在一个需要预测的缺失的patch,并添加位置嵌入,解码器的最后一层是线性投影,为方便重建掩码patches,输出通道数量和一个patch内的pixel数量相同,输出的每个元素都是一个表示patch的像素值向量,然后再reshape,得到重建图像,以每个掩码patch的归一化像素值为重建目标可以有效提高特征表示的质量,解码器与编码器采用非对称设计,解码器对每个token的计算量在编码器的10%以下,大大减少模型训练时间,编解码的过程如公式(2)所示:

19、y=g(f(xv)∪xm)       (2)

20、其中xv表示可见patches,xm表示掩码patches,f(·)表示编码器,g(·)表示解码器,编码后的可见patches和掩码patches排列顺序与原始图像patches一致,位置信息记录在向量t中。

21、s4中的来自同一原始图像的4个不同掩码图像的重建结果中,两两之间有50%的掩码patches是重叠的,重叠部分oij定义为:

22、oij=ti∩tj (3)

23、其中,ti和tj为掩码图像i和j向量表示,oij为ti和tj中同为0的元素,表示重叠的掩码patches。

24、由于可见patches的不同,相同的掩码patches的重建结果也会存在一定差异,将不同掩码图像中相同掩码patches的重建结果平均绝对误差最小化,指导掩码patches重建,以增强模型预测结果的确定性,计算过程如公式(4)所示:

25、

26、其中,pi和pj表示掩码图像i和j的重建结果。

27、s5中的掩码patches的重建结果与原始图像patches在像素空间中的均方误差计算过程如公式(5)所示:

28、

29、其中xm表示掩码patches,ym表示xm的重建结果,最终训练模型使用的损失可以用公式(6)表示。

30、ltotal=lc+lw (6)

31、训练好的模型可以直接执行图像重建任务,也可以将其当作一个预训练模型,采用不同模块替换解码器后进行微调,执行分类、目标检测、实例分割等下游任务任务。

32、与现有技术相比,本发明的有益效果是:

33、针对现阶段自监督掩码图像建模算法的存在缺陷,本发明提供一种新的基于自监督学习的掩码图像建模算法,首将图像划分为patches并随机分为4等份,每份patches作为可见patches,其余作为掩码patches,由此的到4张掩码图像,可见patches作为编码器输入得到潜在特征表示,编码后的可见patches和掩码patches共同作为编码器的输入进行图像重建,通过将同一图像得到的不同掩码图像中的掩码patches重叠部分预测结果的平均绝对误差最小化,以增强模型重建结果的确定性。通过充分利用数据,大大节省了训练时间和硬件资源,在开源数据集上掩码图像建模方法中位于前列位置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1