基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置与流程

文档序号：37599166发布日期：2024-04-18 12:39阅读：7来源：国知局

本发明涉及机器学习领域，具体涉及一种基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置。

背景技术：

1、在现如今的智能信息处理领域，招投标活动作为一种商务交易的重要形式，其公平性、高效性和准确性是至关重要的。招投标流程涉及大量文本数据与图像信息的处理，例如技术规格说明书、合同文档以及相关图纸等。传统的招投标信息处理依赖于人工审核，不仅审查耗时长、效率低下，且易受评标人主观因素影响，难以保证评审结果的一致性和客观性。近年来，随着人工智能技术的飞速发展，尤其是多模态机器学习技术在图像识别、自然语言处理等领域的成功应用，为解决传统招投标流程中的信息处理瓶颈提供了新颖技术途径。

2、通过设计少样本条件下的多模态机器学习模型，实现视觉信息与语言信息的高效转化与智能问答，能够更全面地理解和处理复杂的信息场景。然而，现有的算法在针对招投标领域的特定任务，如自动解析投标文档中的关键信息、验证图纸与技术规格的一致性等，现有的多模态学习模型面临着适应性不足和鲁棒泛化性较差的瓶颈。一方面，此类模型通常需要大量标注数据以实现准确的学习和预测，而在招投标场景中，高质量的标注样本获取成本高昂，难以满足大规模训练需求。另一方面，招投标文档的多样性和复杂性要求模型能够处理不同格式、不同结构的数据，现有模型在处理这种异构数据时往往效果有限。

技术实现思路

1、针对上述提到的技术问题。本技术的实施例的目的在于提出了一种基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置，来解决以上背景技术部分提到的技术问题，实现在少样本学习条件下的快速适应与精准信息处理。

2、第一方面，本发明提供了一种基于少样本条件下的招投标视觉语言模型的训练方法，包括以下步骤：

3、构建招投标视觉语言模型，招投标视觉语言模型包括两个平行设置的视觉单元和五个堆叠设置的文本单元，视觉单元包括依次连接的预训练的视觉编码器和基于感知的重采样模块，文本单元包括依次连接的基于门控交叉注意力机制的密集连接文本处理模块和预训练的语言模型，基于感知的重采样模块与基于门控交叉注意力机制的密集连接文本处理模块连接；

4、构建经过预处理后的少样本的训练数据，训练数据包括视觉数据和文本数据，其中，视觉数据包括第一图像和第二图像，文本数据包括第一文本和第二文本，第一文本为第一图像根据像素编码成矩阵式的文本格式以及与第一图像对应的完整注释，第二文本为第二图像根据像素编码成矩阵式的文本格式以及与第二图像对应的非完整注释；

5、采用训练数据对招投标视觉语言模型进行训练，将视觉数据和文本数据输入招投标视觉语言模型，第一图像和第二图像分别输入视觉单元，得到第一视觉特征和第二视觉特征；文本数据与第一视觉特征和第二视觉特征共同输入第一个文本单元，上一个文本单元的输出与第一视觉特征和第二视觉特征共同输入下一个文本单元，最后一个文本单元输出第三文本，第三文本为与第二图像对应的完整注释。

6、作为优选，基于门控交叉注意力机制的密集连接文本处理模块包括以下具体操作：

7、先经过门控交叉注意力操作，公式如下：

8、o1＝lf+tanh(αxattn)*self_atten(query＝lf,key_value＝vf)；

9、其中，o1为门控交叉注意力操作的输出，self_atten表示为未冻结参数的自注意力操作，αxattn表示门控交叉注意力参数，初始值为0，query表示查询向量，key_value表示键值对向量，lf表示第一视觉特征或第二视觉特征，vf表示第一文本或第二文本；

10、将门控交叉注意力操作的输出输入门控前馈密集连接层，公式如下：

11、o2＝o1+tanh(αdense)*ffw(o1)；

12、其中，tanh和ffw分别表示tanh激活函数和ffw激活函数，o2为门控前馈密集连接层的输出，αdense表示门控前馈密集连接层参数，初始值为0，

13、将门控前馈密集连接层的输出进行融合视觉信息的语言特征输出操作，公式如下：

14、o3＝o2+frozen_self_atten(query＝o2,key_value＝o2)；

15、其中，frozen_self_atten表示冻结参数后的自注意力操作，o3为融合视觉信息的语言特征输出操作的输出；

16、最终基于门控交叉注意力机制的密集连接文本处理模块的输出如下式所示：

17、o＝o3+frozen_ffw(o3)；

18、其中，o表示基于门控交叉注意力机制的密集连接文本处理模块的输出，rozen_ffw表示冻结参数后的ffw激活函数。

19、作为优选，预训练的视觉编码器采用预训练的swintransformer模型，基于感知的重采样模块由带有注意力的通用感知器和detection transformer构成。

20、作为优选，在招投标视觉语言模型的训练过程中冻结预训练的视觉编码器和预训练的语言模型的参数，两个视觉单元中的基于感知的重采样模块参数共享。

21、第二方面，本发明提供了一种基于少样本条件下的招投标视觉语言模型的训练装置，包括：

22、模型构建模块，被配置为构建招投标视觉语言模型，招投标视觉语言模型包括两个平行设置的视觉单元和五个堆叠设置的文本单元，视觉单元包括依次连接的预训练的视觉编码器和基于感知的重采样模块，文本单元包括依次连接的基于门控交叉注意力机制的密集连接文本处理模块和预训练的语言模型，基于感知的重采样模块与基于门控交叉注意力机制的密集连接文本处理模块连接；

23、训练数据采集模块，被配置为构建经过预处理后的少样本的训练数据，训练数据包括视觉数据和文本数据，其中，视觉数据包括第一图像和第二图像，文本数据包括第一文本和第二文本，第一文本为第一图像根据像素编码成矩阵式的文本格式以及与第一图像对应的完整注释，第二文本为第二图像根据像素编码成矩阵式的文本格式以及与第二图像对应的非完整注释；

24、训练模块，被配置为采用训练数据对招投标视觉语言模型进行训练，将视觉数据和文本数据输入招投标视觉语言模型，第一图像和第二图像分别输入视觉单元，得到第一视觉特征和第二视觉特征；文本数据与第一视觉特征和第二视觉特征共同输入第一个文本单元，上一个文本单元的输出与第一视觉特征和第二视觉特征共同输入下一个文本单元，最后一个文本单元输出第三文本，第三文本为与第二图像对应的完整注释。

25、第三方面，本发明提供了一种招投标视觉语言处理方法，采用如第一方面中任一实现方式描述的方法训练得到的经训练的招投标视觉语言模型，包括以下步骤：

26、获取招投标数据，招投标数据包括待识别图像和待补充文本，分别对待识别图像和待补充文本进行预处理，得到预处理后的待识别图像和预处理后的待补充文本；

27、将预处理后的待识别图像和预处理后的待补充文本输入经训练的招投标视觉语言模型，预处理后的待识别图像输入其中一个视觉单元，得到视觉特征，视觉特征与预处理后的待补充文本共同输入第一个文本单元，上一个文本单元的输出与视觉特征共同输入下一个文本单元，最后一个文本单元输出与待识别图像相对应的文本信息。

28、第四方面，本发明提供了一种招投标视觉语言处理装置，采用如第一方面中任一实现方式描述的方法训练得到的经训练的招投标视觉语言模型，包括：

29、数据获取模块，被配置为获取招投标数据，招投标数据包括待识别图像和待补充文本，分别对待识别图像和待补充文本进行预处理，得到预处理后的待识别图像和预处理后的待补充文本；

30、预测模块，被配置为将预处理后的待识别图像和预处理后的待补充文本输入经训练的招投标视觉语言模型，预处理后的待识别图像输入其中一个视觉单元，得到视觉特征，视觉特征与预处理后的待补充文本共同输入第一个文本单元，上一个文本单元的输出与视觉特征共同输入下一个文本单元，最后一个文本单元输出与待识别图像相对应的文本信息。

31、第五方面，本发明提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

32、第六方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

33、相比于现有技术，本发明具有以下有益效果：

34、(1)本发明能够在仅凭少量样本的情况下，通过深度学习和多模态理解，快速准确地处理、分析和理解招投标过程中产生的复杂文本和图像数据，采用基于视觉数据和文本数据的多模态数据处理方法能够有效地融合图像和文本信息，并通过门控交叉注意力机制实现了这两种信息之间的交互，从而提高了模型的综合理解能力。

35、(2)本发明提出的招投标视觉语言模型能够更好地适应招投标领域的特定任务，如解析投标文档和验证文档一致性等，同时在处理不同格式和结构的数据时表现出更好的泛化性能。

36、(3)本发明提出的招投标视觉语言模型能够快速、准确地处理、分析和理解招投标过程中产生的复杂文本和图像数据，提高了信息处理的效率和准确性，在智能招投标领域具有显著的技术优势，能够提高招投标流程的效率、准确性和用户体验，有望为项目招投标交易领域的智能化信息发展起到积极作用。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈坤,林益珊,曾念寅,王悦,程一研,李祖健,张宇,罗康润
技术所有人：福建亿力电力科技有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。