基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置与流程

文档序号：37599166发布日期：2024-04-18 12:39阅读：来源：国知局

技术特征：

1.一种基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，所述基于门控交叉注意力机制的密集连接文本处理模块包括以下具体操作：

3.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，所述预训练的视觉编码器采用预训练的swintransformer模型，所述基于感知的重采样模块由带有注意力的通用感知器和detection transformer构成。

4.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，在所述招投标视觉语言模型的训练过程中冻结所述预训练的视觉编码器和预训练的语言模型的参数，两个所述视觉单元中的基于感知的重采样模块参数共享。

5.一种基于少样本条件下的招投标视觉语言模型的训练装置，其特征在于，包括：

6.一种招投标视觉语言处理方法，其特征在于：采用权利要求1-4中任一项所述的基于少样本条件下的招投标视觉语言模型的训练方法训练得到的经训练的招投标视觉语言模型，包括以下步骤：

7.一种招投标视觉语言处理装置，其特征在于：采用权利要求1-4中任一项所述的基于少样本条件下的招投标视觉语言模型的训练方法训练得到的经训练的招投标视觉语言模型，包括：

8.一种电子设备，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。

技术总结
本发明公开了一种基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置，包括：构建招投标视觉语言模型，招投标视觉语言模型包括两个平行设置的视觉单元和五个堆叠设置的文本单元，采用训练数据对招投标视觉语言模型进行训练，将视觉数据和文本数据输入招投标视觉语言模型，第一图像和第二图像分别输入视觉单元，得到第一视觉特征和第二视觉特征；文本数据与第一视觉特征和第二视觉特征共同输入第一个文本单元，上一个文本单元的输出与第一视觉特征和第二视觉特征共同输入下一个文本单元，最后一个文本单元输出第三文本，第三文本为与第二图像对应的完整注释，实现少样本条件下的高效学习，提高信息处理的效率和准确性。

技术研发人员：陈坤,林益珊,曾念寅,王悦,程一研,李祖健,张宇,罗康润
受保护的技术使用者：福建亿力电力科技有限责任公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

当前第2页1 2