图像预训练模型的训练方法、装置、电子设备及存储介质与流程

文档序号:34721708发布日期:2023-07-07 18:17阅读:46来源:国知局
图像预训练模型的训练方法、装置、电子设备及存储介质与流程

本申请涉及图像处理领域,尤其涉及一种图像预训练模型的训练方法、装置、电子设备及存储介质。


背景技术:

1、近年来,transformer模型在视觉任务中取得了较为显著的成果。其中,vit(vision transformer)模型是目前最先进的 transformer模型之一。

2、现有的vit模型在预训练过程中,需要采用大量的的训练数据来学习各类视觉特征,从而在各类视觉任务中取得较好的性能。

3、例如,现有的vit模型以分类任务作为预训练任务时,在每个 epoch中只对预训练数据利用一次,故预训练数据的利用率较低,对预训练数据的数据量需求较大,导致预训练成本较高;同时,现有的现有的vit模型针对k(key)、q(query)、v(value)都需要采用大量参数来进行注意力计算,注意力头数目又很多,导致模型进行注意力计算耗费大量运算时长,因而训练速度较慢。

4、可见,现有的vit模型对预训练数据的利用率较低,对预训练数据的需求量大,训练速度较慢。


技术实现思路

1、有鉴于此,本申请实施例提供了一种图像预训练模型的训练方法、装置、电子设备及存储介质,以解决现有的vit模型对预训练数据的利用率较低,对预训练数据的需求量大,训练速度较慢的问题。

2、本申请实施例的第一方面,提供了一种图像预训练模型的训练方法,包括:

3、对原始图像进行分割处理,得到形状大小相同的多个图像块;

4、将多个图像块输入全局预训练模型中,以获得锚点向量;

5、对多个图像块进行部分遮盖处理,得到未遮盖图像块和遮盖图像块;

6、重复将未遮盖图像块输入局部预训练模型中 n次,以获得第 n局部表征向量,全局预训练模型与局部预训练模型的初始模型参数相同, n为≥3的正整数,每次输入局部预训练模型的未遮盖图像块不完全相同;

7、在每一次完整预训练过程中,固定全局预训练模型的初始模型参数不变,基于锚点向量和第 n局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;

8、待每一次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型;

9、若更新全局预训练模型满足预设迭代结束条件,则结束预训练,并将更新全局预训练模型确定为图像预训练模型。

10、本申请实施例的第二方面,提供了一种图像预训练模型的训练装置,包括:

11、分割模块,被配置为对原始图像进行分割处理,得到形状大小相同的多个图像块;

12、第一编码模块,被配置为将多个图像块输入全局预训练模型中,以获得锚点向量;

13、遮盖模块,被配置为对多个图像块进行部分遮盖处理,得到未遮盖图像块和遮盖图像块;

14、第二编码模块,被配置为重复将未遮盖图像块输入局部预训练模型中 n次,以获得第 n局部表征向量,全局预训练模型与局部预训练模型的初始模型参数相同, n为≥3的正整数,每次输入局部预训练模型的未遮盖图像块不完全相同;

15、训练模块,被配置为在每一次完整预训练过程中,固定全局预训练模型的初始模型参数不变,基于锚点向量和第 n局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;

16、更新模块,被配置为待每一次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型;

17、确定模块,被配置为若更新全局预训练模型满足预设迭代结束条件,则结束预训练,并将更新全局预训练模型确定为图像预训练模型。

18、本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。

19、本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

20、本申请实施例与现有技术相比,其有益效果至少包括:一方面,采用无标注的原始图像进行图像预训练模型的训练,可以大大减少对原始图像的标注时间成本和人力成本等,有利于降低整体的预训练成本;另一方面,通过先对无标注的原始图像进行分割处理,得到形状大小相同的多个图像块,再将多个图像块输入全局预训练模型中,以获得锚点向量;重复将未遮盖图像块输入局部预训练模型中 n次,以获得第 n局部表征向量,可提高对预训练数据(无标注的原始图像)的利用率,有利于大大降低对训练数据的需求量;然后,在每一次完整预训练过程中,固定全局预训练模型的初始模型参数不变,基于锚点向量和第 n局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;待每一次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型,可以有效提高预训练模型学习到的视觉特征的稳定性,并且该方式仅有少量输入参与前向传播,可极大地减小训练的运算量,从而有利于提高训练的速度,进一步降低整体的预训练成本。



技术特征:

1.一种图像预训练模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述全局预训练模型包括全局表征模型和第一交叉注意力层;其中,所述第一交叉注意力层的结构与所述全局表征模型中的任意一层的结构相同,所述第一交叉注意力层的第一权重值和与之对应的所述全局表征模型的任意一层的第二权重值不同;

3.根据权利要求1或2所述的方法,其特征在于,所述局部预训练模型包括局部表征模型和第二交叉注意力层;其中,所述第二交叉注意力层的结构与所述局部表征模型中的任意一层的结构相同,所述第二交叉注意力层的第三权重值和与之对应的所述局部表征模型的任意一层的第四权重值不同;所述局部表征模型与全局表征模型的模型结构及初始模型参数均相同;

4.根据权利要求1所述的方法,其特征在于,基于所述锚点向量和第n局部表征向量对所述局部预训练模型的初始模型参数进行更新,得到更新局部模型参数,包括:

5.根据权利要求1所述的方法,其特征在于,采用所述更新局部模型参数对所述全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型,包括:

6.根据权利要求1所述的方法,其特征在于,对所述多个图像块进行部分遮盖处理,得到未遮盖图像块和遮盖图像块,包括:

7.根据权利要求6所述的方法,其特征在于,对每一个所述图像区域进行部分遮盖处理,得到各个图像区域对应的未遮盖图像块和遮盖图像块,包括:

8.一种图像预训练模型的训练装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。


技术总结
本申请涉及图像处理领域,提供了图像预训练模型的训练方法、装置、电子设备及存储介质。该方法包括:将多个图像块输入全局预训练模型中,以获得锚点向量;对多个图像块进行部分遮盖处理,重复将未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,N为≥3的正整数;在每次完整预训练过程中,基于锚点向量和第N局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;待每次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新;若更新全局预训练模型满足预设迭代结束条件,则结束预训练。本申请对预训练数据的利用率较高,可减少对预训练数据的需求量,训练速度较快。

技术研发人员:吴亚军,蒋敏,暴宇健
受保护的技术使用者:深圳须弥云图空间科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1