文本生成模型的训练方法和训练装置与流程

文档序号：36477876发布日期：2023-12-25 03:18阅读：28来源：国知局

本公开涉及人工智能，具体为计算机视觉、深度学习、大模型等，可应用于aigc等场景，具体涉及一种文本生成模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种文本生成模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种文本生成模型的训练方法，包括：获取样本数据集，其中所述样本数据集包括样本图像以及与样本图像对应的样本文本，其中所述与样本图像对应的样本文本包括利用大语言模型针对所述样本图像生成的文案内容；确定所述样本图像的样本图像特征；将所述样本图像特征输入大语言模型，以得到与所述样本图像对应的预测文本；以及基于所述样本文本和所述预测文本之间的差异对所述文本生成模型进行参数调整。

3、根据本公开的另一方面，提供了一种文本生成模型的训练装置，包括：样本数据获取单元，被配置成获取样本数据集，其中所述样本数据集包括样本图像以及与样本图像对应的样本文本，其中所述与样本图像对应的样本文本包括利用大语言模型针对所述样本图像生成的文案内容；图像特征获取单元，被配置成确定所述样本图像的样本图像特征；预测文本获取单元，被配置成将所述样本图像特征输入大语言模型，以得到与所述样本图像对应的预测文本；以及参数调整单元，被配置成基于所述样本文本和所述预测文本之间的差异对所述文本生成模型进行参数调整。

4、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的方法。

5、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的方法。

6、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现如前所述的方法。

7、根据本公开的一个或多个实施例，可以利用大语言模型的能力针对给定图像快速而高效地生成对应文本内容，从而快速获取用于对文本生成模型进行指令微调的多模态训练数据集。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种文本生成模型的训练方法，包括：

2.如权利要求1所述的方法，其中，确定所述样本图像的样本图像特征包括：

3.如权利要求2所述的方法，其中，对所述文本生成模型进行参数调整包括：

4.如权利要求2所述的方法，其中，所述特征提取单元包括视觉编码器和查询转换器，

5.如权利要求4所述的方法，其中，对所述文本生成模型进行参数调整包括：

6.如权利要求1-5中任一项所述的方法，其中，将所述样本图像特征输入大语言模型，以得到与所述样本图像对应的预测文本包括：

7.如权利要求6所述的方法，其中，所述提示信息指示所述预测文本的风格。

8.如权利要求1-5中任一项所述的方法，其中，获取样本数据集包括：

9.如权利要求8所述的方法，其中，所述第二文本生成模型是blip-2模型。

10.一种文本生成模型的训练装置，包括：

11.如权利要求10所述的装置，其中，所述图像特征获取单元被配置成：

12.如权利要求11所述的装置，其中，所述参数调整单元被配置成：

13.如权利要求11所述的装置，其中，所述特征提取单元包括视觉编码器和查询转换器，

14.如权利要求13所述的装置，其中，所述参数调整单元被配置成：

15.如权利要求10-14中任一项所述的装置，其中，所述预测文本获取单元被配置成：

16.如权利要求15所述的装置，其中，所述提示信息指示所述预测文本的风格。

17.如权利要求10-14中任一项所述的装置，其中，所述样本数据获取单元被配置成：

18.如权利要求17所述的装置，其中，所述第二文本生成模型是blip-2模型。

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。

技术总结
本公开提供了一种文本生成模型的训练方法和训练装置，涉及人工智能技术领域，具体为计算机视觉、深度学习、大模型等技术领域。实现方案为：获取样本数据集，其中所述样本数据集包括样本图像以及与样本图像对应的样本文本，其中所述与样本图像对应的样本文本包括利用大语言模型针对所述样本图像生成的文案内容；确定所述样本图像的样本图像特征；将所述样本图像特征输入大语言模型，以得到与所述样本图像对应的预测文本；以及基于所述样本文本和所述预测文本之间的差异对所述文本生成模型进行参数调整。

技术研发人员：宋雨鑫,戎康,刘芳龙,张琦,李鑫
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋雨鑫戎康刘芳龙张琦李鑫
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种户外配电柜的固定安装机构的制作方法
上一篇：一种具备自动清洗功能的交通信号灯的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。