图像识别系统中的迁移学习的制作方法

文档序号：37023325发布日期：2024-02-09 13:18阅读：22710来源：国知局

本发明的实施例涉及机器学习。更特别地但非排他地，本发明的实施例涉及改进计算机视觉/图像识别以及改进迁移学习的方法，即通过提示的连续优化来针对视觉任务进行高效迁移学习。

背景技术：

1、用于使经预训练的视觉模型适应下游任务的传统方法涉及微调模型的参数中的一些或全部参数。这种途径有一些权衡问题：改变太多的参数，模型可能会失去预训练的好处中的一些好处(比如泛化能力)；改变太少，模型可能不能很好地适应下游任务。

2、迁移学习是一种用于在新任务上训练神经网络模型的有效方法，其从已经学习的参数开始解决不同的问题。这允许网络利用原始任务和新任务共同的知识，并在新颖或特定上下文中应用大型通用模型时特别有用。迁移学习有几种途径。在大量数据设置中，整个网络可以在新任务上进行训练。然而，当数据稀缺时，这种途径可能会增加泛化错误，这是因为网络“忘记”了它最初学到的知识中的一些知识。对于这样的问题，可以将网络用作具有附加组件的更大模型的“核心”(比如将核心网络的输出特征转换为概率向量的分类器网络)，并可以在保持核心网络冻结的同时训练那些其他组件。在自然语言处理(nlp)领域，通过在推理期间用一些适当的文本来提示模型，大规模经预训练的模型无需附加训练即可适应新任务。例如，可以使在大型文本语料库上预训练的语言模型通过在句子前加上“提供以下文本的概要”或附加成语“tl；dr:”来总结正文。因此，使网络适应新任务的问题变成了手动设计用于该任务的良好提示的问题。将这个构思应用于计算机视觉，比如clip之类的方法已使用联合对比训练来将来自文本和图像的映射编码到共同特征空间中。

3、发明目的

4、本发明的目的是改进计算机视觉、图像识别和/或转移学习，或者至少为公众或行业提供有用的选择。

技术实现思路

1、提供了一种用训练图像来训练图像识别系统的计算机实现的方法，该方法包括：生成一个或多个可训练向量；对于每个训练图像：通过提示网络输入可训练向量以输出提示向量；以及将可训练向量和训练图像的扁平化补丁的线性投影输入到训经练/经预训练的视觉变换器中，以训练提示网络和可训练向量。

2、可选地，提示网络是多层感知器。

3、可选地，提示网络包括全连接层。

4、可选地，方法包括向提示向量添加可训练位置嵌入。

5、可选地，提示网络训练包括随机目标函数的基于一阶梯度的优化。

6、可选地，变换器的分类分数对每个类使用若干个标签，并对相对应的特征向量求平均。

7、可选地，变换器的分类使用前缀调谐的标签。

8、可选地，方法还包括图像识别头从视觉变换器接收输出，以及产生图像识别输出，并且其中，图像识别头与提示网络和可训练向量同时被训练。

9、还提供了一种训练图像识别系统的计算机实现的方法，图像识别系统包括经预训练的视觉变换器和可训练输入参数，方法包括以下步骤：将可训练输入参数作为辅助参数与标记的训练图像一起输入到经预训练的视觉变换器中，以及修改可训练输入参数以减少相对于标记的训练图像的错误。

10、还提供了一种使用利用上述方法训练的图像识别系统来执行图像识别任务的方法。图像识别任务可以通过将待分类的图像与使用上述方法训练的可训练输入参数一起输入到经训练的视觉变换器中来执行。

技术特征：

1.一种用训练图像来训练图像识别系统的计算机实现的方法，所述方法包括：生成或接收一个或多个可训练向量；

2.如权利要求1所述的方法，其中，提示向量被添加到所述经训练的视觉变换器的第一层。

3.如权利要求1所述的方法，其中，提示向量被添加到所述经训练的视觉变换器的多个层。

4.如权利要求1至3中任一项所述的方法，其中，所述提示网络是多层感知器。

5.如权利要求1或权利要求4所述的方法，其中，所述提示网络包括全连接层。

6.如任一前述权利要求所述的方法，其中，所述方法包括将可训练位置嵌入添加到提示向量。

7.如任一前述权利要求所述的方法，其中，提示网络训练包括随机目标函数的基于一阶梯度的优化。

8.如任一前述权利要求所述的方法，其中，所述变换器的分类分数对每个类使用若干标签，并对相对应的特征向量求平均。

9.如任一前述权利要求所述的方法，其中，所述变换器的分类使用前缀调谐的标签。

10.如任一前述权利要求所述的方法，其中，所述方法还包括图像识别头接收来自所述视觉变换器的输出并产生图像识别输出，并且其中，所述图像识别头与所述提示网络和可训练向量同时被训练。

11.一种数据处理系统，包括用于执行前述权利要求中任一项所述的方法的装置。

12.一种使用图像识别系统执行图像识别任务的方法，所述图像识别系统使用如权利要求1至10中任一项所述的方法来训练。

13.一种计算机程序，包括指令，当所述程序由计算机执行时，所述指令使得所述计算机执行如权利要求1至10中任一项所述的方法。

14.一种训练图像识别系统的计算机实现的方法，所述图像识别系统包括经预训练的视觉变换器和可训练输入参数，所述方法包括以下步骤：

15.一种使用图像识别系统执行图像识别任务的方法，所述图像识别系统使用如权利要求14所述的方法来训练。

技术总结
视觉提示调谐为基于变换器的视觉模型提供微调。将提示向量作为附加输入与图像补丁一起添加到视觉变换器模型，图像补丁已经被线性投影并与位置嵌入组合。变换器架构允许使用梯度下降来优化提示，而无需修改或删除视觉变换器参数中的任何一者。具有视觉提示调谐的图像识别系统通过经过使用视觉提示调谐经预训练的视觉模型来使经预训练的视觉模型适应下游任务从而改进预训练的视觉模型。

技术研发人员：J·康德,A·内贾蒂,N·佩吉斯
受保护的技术使用者：索美智能有限公司
技术研发日：
技术公布日：2024/2/8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·康德,A·内贾蒂,N·佩吉斯
技术所有人：索美智能有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。