本技术涉及计算机,特别是涉及一种摘要生成模型的训练方法及相关装置。
背景技术:
1、目前,用户可以在内容浏览平台上浏览文本和图像等多模态内容。为了便于用户快速地、便捷地理解多模态内容的主要信息,可以通过摘要生成模型生成文本和图像对应的摘要。
2、相关技术中,摘要生成模型的训练方法是指:将样本文本、样本图像和样本摘要形成的训练样本输入初始生成模型,以输出样本摘要对应的概率密度,通过最大化概率密度训练初始生成模型得到摘要生成模型。
3、然而,上述训练方法仅通过最大化概率密度训练初始生成模型,只学习到样本文本和样本图像形成的多模态内容与样本摘要之间的关联关系,并未学习其他有效的关联关系,导致摘要生成模型的摘要效果和摘要质量较差。
技术实现思路
1、为了解决上述技术问题,本技术提供了一种摘要生成模型的训练方法及相关装置,使得摘要生成模型能够生成对应文本和图像的、更加贴切的多语言摘要,以提高摘要生成模型的生成精确度,从而提升摘要生成模型的摘要效果和摘要质量。
2、本技术实施例公开了如下技术方案:
3、一方面,本技术实施例提供一种摘要生成模型的训练方法,所述方法包括:
4、通过初始生成模型中编码器,对第一批量样本中第一样本文本、所述第一样本文本对应的第一样本图像和第一样本摘要进行编码,获得所述第一样本文本的第一文本向量、所述第一样本图像的第一图像向量、所述第一样本图像的第一对象向量和所述第一样本摘要的第一摘要分词向量;
5、通过所述初始生成模型中融合器,对所述第一文本向量和所述第一图像向量进行跨模态融合,获得第一融合向量;
6、通过所述初始生成模型中解码器,对所述第一融合向量和所述第一样本摘要的第一表示向量进行解码,获得所述第一样本摘要对应的第一概率密度;
7、根据最大化所述第一概率密度,最大化所述第一对象向量与所述第一摘要分词向量之间的第一相似度、并最小化所述第一对象向量与多个第二摘要分词向量之间的多个第二相似度,对所述初始生成模型的模型参数进行训练,获得所述摘要生成模型;所述多个第二摘要分词向量是通过所述初始生成模型中编码器对所述第一批量样本中不同于所述第一样本文本的多个第二样本文本对应的多个第二样本摘要进行编码得到的。
8、另一方面,本技术实施例提供一种摘要生成模型的训练方法,所述方法包括:
9、通过初始生成模型中编码器,对第三样本文本和所述第三样本文本对应的第三样本图像进行编码,获得所述第三样本文本的第三文本向量和所述第三样本图像的第三图像向量;
10、通过所述初始生成模型中融合器,对所述第三文本向量和所述第三图像向量进行跨模态融合,获得第三融合向量;
11、通过所述初始生成模型中解码器,对所述第三融合向量和所述第三样本文本对应的第三样本摘要的第三表示向量、所述第三样本文本对应的第四样本摘要的第四表示向量进行解码,获得所述第三样本摘要对应的第三解码向量和第三概率密度、以及所述第四样本摘要对应的第四解码向量和第四概率密度;所述第三样本文本和所述第三样本摘要属于相同语言,所述第三样本文本和所述第四样本摘要属于不同语言;
12、根据最大化所述第三概率密度、最大化所述第四概率密度、最大化所述第三解码向量与所述第四解码向量之间的第三相似度,对所述初始生成模型的模型参数进行训练,获得所述摘要生成模型。
13、另一方面,本技术实施例提供一种摘要生成模型的训练装置,所述装置包括:第一编码单元、第一融合单元、第一解码单元和第一训练单元;
14、所述第一编码单元,用于通过初始生成模型中编码器,对第一批量样本中第一样本文本、所述第一样本文本对应的第一样本图像和第一样本摘要进行编码,获得所述第一样本文本的第一文本向量、所述第一样本图像的第一图像向量、所述第一样本图像的第一对象向量和所述第一样本摘要的第一摘要分词向量;
15、所述第一融合单元,用于通过所述初始生成模型中融合器,对所述第一文本向量和所述第一图像向量进行跨模态融合,获得第一融合向量;
16、所述第一解码单元,用于通过所述初始生成模型中解码器,对所述第一融合向量和所述第一样本摘要的第一表示向量进行解码,获得所述第一样本摘要对应的第一概率密度;
17、所述第一训练单元,用于根据最大化所述第一概率密度,最大化所述第一对象向量与所述第一摘要分词向量之间的第一相似度、并最小化所述第一对象向量与多个第二摘要分词向量之间的多个第二相似度,对所述初始生成模型的模型参数进行训练,获得所述摘要生成模型;所述多个第二摘要分词向量是通过所述初始生成模型中编码器对所述第一批量样本中不同于所述第一样本文本的多个第二样本文本对应的多个第二样本摘要进行编码得到的。
18、另一方面,本技术实施例提供一种摘要生成模型的训练装置,所述装置包括:第二编码单元、第二融合单元、第二解码单元和第二训练单元;
19、所述第二编码单元,用于通过初始生成模型中编码器,对第三样本文本和所述第三样本文本对应的第三样本图像进行编码,获得所述第三样本文本的第三文本向量和所述第三样本图像的第三图像向量;
20、所述第二融合单元,用于通过所述初始生成模型中融合器,对所述第三文本向量和所述第三图像向量进行跨模态融合,获得第三融合向量;
21、所述第二解码单元,用于通过所述初始生成模型中解码器,对所述第三融合向量和所述第三样本文本对应的第三样本摘要的第三表示向量、所述第三样本文本对应的第四样本摘要的第四表示向量进行解码,获得所述第三样本摘要对应的第三解码向量和第三概率密度、以及所述第四样本摘要对应的第四解码向量和第四概率密度;所述第三样本文本和所述第三样本摘要属于相同语言,所述第三样本文本和所述第四样本摘要属于不同语言;
22、所述第二训练单元,用于根据最大化所述第三概率密度、最大化所述第四概率密度、最大化所述第三解码向量与所述第四解码向量之间的第三相似度,对所述初始生成模型的模型参数进行训练,获得所述摘要生成模型。
23、另一方面,本技术实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
24、所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
25、所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
26、另一方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
27、另一方面,本技术实施例提供一种计算机程序产品,包括计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
28、由上述一个技术方案可以看出,首先,不仅将第一批量样本中第一样本文本、第一样本文本对应的第一样本图像输入初始生成模型中编码器进行编码,输出第一样本文本的第一文本向量和第一样本图像的第一图像向量;而且输出第一样本图像的第一对象向量,并将第一样本文本对应的第一样本摘要输入初始生成模型中编码器进行编码,输出第一样本摘要的第一摘要分词向量。该方式在对第一样本文本和第一样本图像分别进行编码,得到第一文本向量和第一图像向量基础上,考虑到第一样本图像与第一样本摘要之间的关联关系,进一步得到第一样本图像中第一样本对象的第一对象向量,并进一步对第一样本摘要进行编码,得到第一样本摘要中第一摘要分词的第一摘要分词向量。
29、然后,将第一文本向量和第一图像向量输入初始生成模型中融合器进行跨模态融合,输出第一融合向量;将第一融合向量和第一样本摘要的第一表示向量输入初始生成模型中解码器进行解码,输出第一样本摘要对应的第一概率密度。该方式在第一文本向量和第一图像向量的基础上,考虑到第一样本文本和第一样本图像形成的多模态内容与第一样本摘要之间的关联关系,融合第一文本向量和第一图像向量得到第一融合向量,并结合第一样本摘要的第一表示向量解码为第一样本摘要对应的第一概率密度。
30、最后,在将第一批量样本中不同于第一样本文本的多个第二样本文本对应的多个第二样本摘要,输入初始生成模型中编码器进行编码,输出多个第二样本摘要对应的多个第二摘要分词向量的基础上;通过最大化第一概率密度、最大化第一对象向量与第一摘要分词向量之间的第一相似度、并最小化第一对象向量与多个第二摘要分词向量之间的多个第二相似度,训练初始生成模型的模型参数得到摘要生成模型。该方式能够按照拉近第一样本文本和第一样本图像形成的多模态内容与第一样本摘要之间的关联关系、第一样本图像与第一样本摘要之间的关联关系,拉远第一样本图像与多个第二样本摘要之间的关联关系的训练方向,训练初始生成模型得到摘要生成模型。
31、基于此,该训练方法不仅学习到样本文本和样本图像形成的多模态内容与样本摘要之间的关联关系,而且无需构建摘要图像即可通过对比学习有效学习到样本图像与样本摘要之间的关联关系,使得摘要生成模型能够有效捕捉与摘要更相关的图像,生成对应文本和图像的、更加贴切的摘要,以提高摘要生成模型的生成精确度,从而提升摘要生成模型的摘要效果和摘要质量。
32、此外,由上述另一个技术方案可以看出,首先,将第三样本文本和第三样本文本对应的第三样本图像输入初始生成模型中编码器进行编码,输出第三样本文本的第三文本向量和第三样本图像的第三图像向量。该方式考虑到相同语言下和不同语言下第三样本文本、第三样本图像形成的多模态内容与第三样本摘要、第四样本摘要之间的关联关系,先对第三样本文本和第三样本图像分别进行编码,得到第一文本向量和第一图像向量。
33、然后,将第三文本向量和第三图像向量输入初始生成模型中融合器进行跨模态融合,输出第三融合向量;将第三融合向量和第三样本文本对应的第三样本摘要的第三表示向量、第三样本文本对应的第四样本摘要的第四表示向量输入初始生成模型中解码器进行解码,输出第三样本摘要对应的第三解码向量和第三概率密度、以及第四样本摘要对应的第四解码向量和第四概率密度;其中,第三样本文本和第三样本摘要属于相同语言,第三样本文本和第四样本摘要属于不同语言。该方式在融合第三文本向量和第三图像向量得到第一融合向量,并结合第三样本摘要的第三表示向量解码为第三样本摘要对应的第三概率密度,结合第四样本摘要的第四表示向量解码为第四样本摘要对应的第四概率密度的基础上,考虑到第三样本文本对应的、不同语言的第三样本摘要和第四样本摘要之间的关联关系,进一步得到第三样本摘要对应的第三解码向量和第四样本摘要对应的第四解码向量。
34、最后,通过最大化第三概率密度、最大化第四概率密度、最大化第三解码向量与第四解码向量之间的第三相似度,训练初始生成模型的模型参数得到摘要生成模型。该方式能够按照拉近相同语言下第三样本文本和第三样本图像形成的多模态内容与第三样本摘要之间的关联关系、不同语言下第三样本文本和第三样本图像形成的多模态内容与第四样本摘要之间的关联关系、以及第三样本摘要和第四样本摘要之间的关联关系的训练方向,训练初始生成模型得到摘要生成模型。
35、基于此,该训练方法不仅学习到相同语言下和不同语言下样本文本和样本图像形成的多模态内容与样本摘要之间的关联关系,而且通过互蒸馏学习有效学习到同一样本文本对应的不同语言的样本摘要之间的关联关系,使得摘要生成模型能够有效捕捉同一文本对应的不同语言的摘要的共享信息,生成对应文本和图像的、更加贴切的多语言摘要,以提高摘要生成模型的生成精确度,从而提升摘要生成模型的摘要效果和摘要质量。