用于扩充视觉转换器的系统和方法与流程

文档序号：34383457发布日期：2023-06-08 04:40阅读：54来源：国知局

本公开总体上涉及机器学习系统，并且更特别地，涉及利用神经样式迁移扩充和一致性损失来训练机器学习系统。

背景技术：

1、视觉转换器（vit）最近已经跨各种计算机视觉任务表现相对良好。在vit中，只有mlp层在局部操作并且是平移等变的，而自注意力层在全局操作。照此，对于图像数据，vit被认为比传统的卷积神经网络（cnn）具有更弱的归纳偏差。然而，该特征使得vit比cnn更难训练，至少因为在训练期间，vit往往比类似大小的cnn需要更多的数据、扩充和/或正则化。用于训练vit的数据扩充策略在很大程度上继承自训练cnn，尽管与cnn架构相比，vit架构之间存在显著差异。

技术实现思路

1、以下是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述，并且这些方面的描述不旨在限制本公开的范围。实际上，本公开可以涵盖下面可能没有明确阐述的多个方面。

2、根据至少一个方面，一种计算机实现的方法包括获得内容图像、第一样式图像和第二样式图像。该方法包括执行第一样式迁移，以将第一样式从第一样式图像迁移到内容图像，以生成第一样式化潜在表示。该方法包括执行第二样式迁移，以将第二样式从第二样式图像迁移到内容图像，以生成第二样式化潜在表示。该方法包括基于第一样式化潜在表示生成第一扩充图像。该方法包括基于第二样式化潜在表示生成第二扩充图像。该方法包括经由机器学习系统为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签。该方法包括计算机器学习系统的损失输出。损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失。该方法包括基于损失输出更新机器学习系统的至少一个参数。

3、根据至少一个方面，一种计算机实现的方法包括获得内容图像、第一样式图像和第二样式图像。该方法包括基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。该方法包括基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。该方法包括经由视觉转换器为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签。该方法包括计算视觉转换器的损失输出。损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失。该方法包括基于损失输出更新视觉转换器的至少一个参数。

4、根据至少一个方面，一个或多个非暂时性计算机可读存储介质具有包括存储在其上的指令的计算机可读数据，当由一个或多个处理器执行时，所述指令执行一种方法。该方法包括基于第一图像生成内容图像，基于第二图像生成第一样式图像，以及基于第三图像生成第二样式图像。该方法包括经由第一机器学习系统至少基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。该方法包括经由第一机器学习系统至少基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。该方法包括用包括内容图像、第一扩充图像和第二扩充图像的训练数据来训练第二机器学习系统。该方法包括计算第二机器学习系统的损失输出。损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像的一致性损失。该方法包括基于损失输出更新机器学习系统的至少一个参数。

5、本发明的这些和其他特征、方面和优点根据附图在下面的详细描述中进行讨论，贯穿附图，相同的字符表示相似或相同的部分。

技术特征：

1.一种用于训练机器学习系统的计算机实现的方法，所述计算机实现的方法包括：

2.根据权利要求1所述的计算机实现的方法，其中，所述机器学习系统是视觉转换器。

3.根据权利要求1所述的计算机实现的方法，其中，所述损失输出包括（a）基于内容图像的预测标签的交叉熵损失和（b）一致性损失的总和。

4.根据权利要求1所述的计算机实现的方法，进一步包括：

5.根据权利要求4所述的计算机实现的方法，其中：

6.根据权利要求4所述的计算机实现的方法，进一步包括：

7.根据权利要求1所述的计算机实现的方法，进一步包括：

8.一种用于训练视觉转换器的计算机实现的方法，所述方法包括：

9.根据权利要求8所述的计算机实现的方法，其中，所述损失输出包括（a）基于内容图像的预测标签的交叉熵损失和（b）一致性损失的总和。

10.根据权利要求8所述的计算机实现的方法，进一步包括：

11.根据权利要求10所述的计算机实现的方法，进一步包括：

12.根据权利要求10所述的计算机实现的方法，其中：

13.根据权利要求8所述的计算机实现的方法，进一步包括：

14.根据权利要求13所述的计算机实现的方法，其中：

15.一个或多个非暂时性计算机可读存储介质，其上存储有包括指令的计算机可读数据，当由一个或多个处理器执行时，所述指令执行一种方法，所述方法包括：

16.根据权利要求15所述的一个或多个非暂时性计算机可读存储介质，其中，所述损失输出包括（a）基于内容图像的预测标签的交叉熵损失和（b）一致性损失的总和。

17.根据权利要求15所述的一个或多个非暂时性计算机可读存储介质，其中，第二机器学习系统是视觉转换器。

18.根据权利要求15所述的一个或多个非暂时性计算机可读存储介质，其中，第一机器学习系统可操作来：

19.根据权利要求18所述的一个或多个非暂时性计算机可读存储介质，其中，所述方法进一步包括：

20.根据权利要求15所述的一个或多个非暂时性计算机可读存储介质，其中，所述方法进一步包括：

技术总结
提供了用于扩充视觉转换器的系统和方法。一种计算机实现的系统和方法向机器学习系统（诸如视觉转换器）提供改进的训练。该系统和方法包括至少使用内容图像、第一样式图像和第二样式图像来执行神经样式迁移扩充。至少基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。至少基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。用至少包括内容图像、第一扩充图像和第二扩充图像的训练数据来训练机器学习系统。为机器学习系统计算损失输出。损失输出至少包括一致性损失，该一致性损失计及由机器学习系统提供的关于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签。基于该损失更新机器学习系统的至少一个参数。

技术研发人员：A·乌玛坎塔,S·A·戈勒斯塔内,J·塞梅多,林婉怡
受保护的技术使用者：罗伯特·博世有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A
技术所有人：罗伯特
我是此专利的发明人

上一篇：基于虚实环境数据融合的变压器状态评估方法与流程
上一篇：终端设备及语音唤醒方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。