图文对话方法、电子设备、存储介质及程序产品与流程

文档序号：36104575发布日期：2023-11-22 04:28阅读：45来源：国知局

本申请涉及人工智能，尤其涉及一种图文对话方法、电子设备、存储介质及程序产品。

背景技术：

1、以gpt系列工作为代表的大语言模型因其强大的文本生成能力给人们的日常生产和生活带来了巨大影响，同时，以gan、vae、diffusion为代表的图像生成技术也得到了飞速发展。在人机对话中，丰富机器对话内容的重要手段之一为：机器生成图文混杂的内容。目前已有一些研究尝试将多模态生成任务整合进同一个模型，例如ofa、codi等，然后这些方法通常只能选择性地生成某一种模态(图像或者文本)，实际上无法实现机器自动生成图文混杂的内容。

2、由此，目前亟需一种新的图文对话方法。

技术实现思路

1、本申请实施例提供一种图文对话方法、电子设备、存储介质及程序产品，以至少部分解决相关技术中存在的问题。

2、本申请实施例第一方面提供一种图文对话方法，包括：

3、获得第一对话信息；

4、将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种；

5、其中，所述目标图文对话模型是基于样本对话信息和对应的样本对话响应信息组成的样本对话信息对训练得到的，所述样本对话响应信息至少包括图文混杂的对话响应信息。

6、可选地，所述将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息，包括：

7、将所述第一对话信息输入目标图文对话模型，通过所述目标图文对话模型，对所述第一对话信息进行编码，生成对话响应序列；所述对话响应序列包括多个待解码元素，所述多个待解码元素的解码结果组成所述第一对话响应信息；

8、通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息。

9、可选地，所述多个待解码元素包括多个表征图像的元素和多个表征文本的元素；所述表征图像的元素包括：依次排列的图像开始生成元素和多个查询元素，所述图像开始生成元素用于指示所述目标图文对话模型开始生成图像，所述多个查询元素用于指示所述目标图文对话模型生成所述第一对话信息对应的图像；

10、通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息，包括：

11、在当前待解码元素是表征文本的元素时，通过所述目标图文对话模型生成对应的文本；

12、在当前待解码元素是图像开始生成元素时，通过所述目标图文对话模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像；

13、其中，所述多个提示词元素与所述多个提示词元素一一对应，所述目标图文对话模型生成的文本和图像组成图文混杂的第一对话响应信息。

14、可选地，所述目标图文对话模型至少包括：经过预训练的大语言模型、图像编码模块、图像解码模块；提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像，包括：

15、通过所述经过预训练的大语言模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并将所述多个提示词元素发送给所述图像解码模块；

16、通过图像解码模块，对所述多个提示词元素进行解码，得到所述第一对话信息对应的图像。

17、可选地，位于所述多个查询元素中最后一个查询元素之后的待解码元素，是通过所述目标图文对话模型按照以下步骤进行解码的：

18、通过所述图像编码模块接收所述图像解码模块发送的所述第一对话信息对应的图像；

19、通过图像编码模块，将所述第一对话信息对应的图像发送给所述预先训练的大语言模型；

20、通过所述目标图文对话模型，结合所述第一对话信息对应的图像和已生成的解码结果，对位于所述最后一个查询元素之后的待解码元素进行解码，所述已生成的解码结果包括位于所述多个查询元素中第一个查询元素之前的各个待解码元素的解码结果。

21、可选地，所述目标图文对话模型还包括：图像生成连接器，所述图像生成连接器连接在所述经过预训练的大语言模型和所述图像解码模块之间；所述方法还包括：

22、通过所述图像生成连接器将所述提示词元素的格式转换成所述图像解码模块支持的格式；

23、将所述提示词元素输入图像解码模块，包括：

24、将所述格式转换后的提示词元素输入图像解码模块。

25、可选地，所述目标图文对话模型还包括：图像理解连接器，所述图像理解连接器连接在所述图像编码模块和所述经过预训练的大语言模型之间；

26、通过图像编码模块，将所述第一对话信息对应的图像发送给所述预先训练的大语言模型，包括：

27、通过所述图像编码模块，将所述第一对话信息对应的图像发送给所述图像理解连接器；

28、通过所述图像理解连接器将所述第一对话信息对应的图像转换成所述预训练的大语言模型支持的格式，并将格式转换后的图像发送给所述经过预先训练的大语言模型。

29、可选地，获得第一对话信息，包括：

30、获得自然语言形式的第一对话文本信息。

31、本申请实施例第二方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请第一方面所述的图文对话方法中的步骤。

32、本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本申请第一方面所述的图文对话方法中的步骤。

33、本申请实施例第四方面提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本申请第一方面所述的图文对话方法的步骤。

34、本申请实施例中，通过目标图文对话模型对获取到的第一对话信息进行处理，可以得到第一对话信息对应的第一对话响应信息，第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种，本申请实施例中，目标图文对话模型具有图文交杂生成的能力，可以生成图像和文本交融的图文并茂的第一对话响应信息，也可以生成纯文本的对话响应信息，或者生成纯图像的第一对话响应信息，从而丰富了人机交互内容。

技术特征：

1.一种图文对话方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述多个待解码元素包括多个表征图像的元素和多个表征文本的元素；

4.根据权利要求3所述的方法，其特征在于，所述目标图文对话模型至少包括：经过预训练的大语言模型、图像编码模块、图像解码模块；提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像，包括：

5.根据权利要求4所述的方法，其特征在于，位于所述多个查询元素中最后一个查询元素之后的待解码元素，是通过所述目标图文对话模型按照以下步骤进行解码的：

6.根据权利要求4所述的方法，其特征在于，所述目标图文对话模型还包括：图像生成连接器，所述图像生成连接器连接在所述经过预训练的大语言模型和所述图像解码模块之间；所述方法还包括：

7.根据权利要求4所述的方法，其特征在于，所述目标图文对话模型还包括：图像理解连接器，所述图像理解连接器连接在所述图像编码模块和所述经过预训练的大语言模型之间；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述目标图文对话模型是对预先训练的图文对话模型进行训练得到的，所述目标图文对话模型是按照以下步骤训练得到的：

9.根据权利要求1-7任一所述的方法，其特征在于，获得第一对话信息，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-9任一项所述的图文对话方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9任一项所述的图文对话方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9任一项所述的图文对话方法的步骤。

技术总结
本申请提供了一种图文对话方法、电子设备、存储介质及程序产品，涉及图文对话技术领域。所述方法包括：获得第一对话信息；将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种，其中，所述目标图文对话模型是基于样本对话信息和对应的样本对话响应信息组成的样本对话信息对训练得到的，所述样本对话响应信息至少包括图文混杂的对话响应信息。本申请实施例中，目标图文对话模型具有图文交杂生成的能力，可以生成图像和文本交融的图文并茂的内容，从而丰富了人机交互内容。

技术研发人员：韩春瑞,董润沛,葛政,张祥雨
受保护的技术使用者：北京迈格威科技有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩春瑞董润沛葛政张祥雨
技术所有人：北京迈格威科技有限公司
我是此专利的发明人

上一篇：流量调度方法与流程
上一篇：一种三相短路接地线辅助装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。