本发明涉及人工智能,尤其涉及一种面向多模态内容输出的大语言模型训练方法、装置及介质。
背景技术:
1、近年来,大语言模型在各个领域上取得了巨大的成功。大语言模型通常通过从互联网上爬取的大规模语料库来训练其文本理解能力,其将语料库中的文本进行随机比例的遮盖,通过预测每一个token向量属于哪一个单词的概率来得到输出文本,这种训练方式使得大语言模型难以处理和生成文本以外的模态数据。一些现有的研究将不同模态的大模型视为互相独立的函数功能,大语言模型可以通过生成调用函数的方式来使用不同的模型完成多模态数据处理、分析、生成等任务。然而,由于这些不同的模型之间只能以文本或调用函数接口进行交互,极大地提高了多模态数据流通和处理的成本,也使得对不同模态信息的联合推理无法实现。
2、为了解决上述问题,多模态大模型尝试将多模态数据内容嵌入到大语言模型的理解过程中,使其具有跨模态感知推理能力。现有方法通常将其他模态的数据(如图片模态)利用额外的。然而,这些多模态大模型只具备在输入端进行多模态理解和推理的能力,其在输出端并不具备多模态输出能力。大语言模型仍然受限于其文本输出能力,难以通过低维度数据(如图片或声音)与人类进行更加丰富和生动的交互。
技术实现思路
1、为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种面向多模态内容输出的大语言模型训练方法、装置及介质。
2、本发明所采用的技术方案是:
3、一种面向多模态内容输出的大语言模型训练方法,包括以下步骤:
4、构建用于训练大语言模型的图片-声音-文本三元组数据集;
5、构建多模态大语言模型,所述多模态大语言模型包括经过预训练的大语言模型、交叉注意力模型、视觉模型和声音模型;在所述大语言模型的输出层嵌入多个并行的lora插件,并初始化lora插件和门控选择器;
6、基于文本描述重构图片和声音,根据重构后的数据训练多模态大语言模型,以使多模态大语言模型具有图片模态和声音模态数据的生成能力;
7、微调多模态大语言模型,以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容。
8、进一步地,所述构建用于训练大语言模型的图片-声音-文本三元组数据集,包括:
9、获取图片-文本数据对,通过基于视觉引导的声音合成工具,对图片-文本数据对中的图片生成对应的声音,获得图片-声音-文本三元组;和/或,
10、从预设的视频数据集中抽取多个图片-声音-文本三元组;从视频数据集中的每一个视频中随机抽取关键帧和该关键帧所对应的音频作为图片-声音配对,再利用视觉描述模型对图片内容进行文本描述,获得图片-声音-文本三元组;
11、根据获得的图片-声音-文本三元组构建图片-声音-文本三元组数据集。
12、进一步地,所述根据获得的图片-声音-文本三元组构建图片-声音-文本三元组数据集,包括:
13、利用自然语言处理模型,根据预设的指令模板将对图片-声音-文本三元组中的文本描述基于场景转换为指令对话形式;
14、其中,预设的指令模板包括图文声聊天机器人模板和基于语言指令的多模态内容编辑模板。
15、进一步地,在多模态大语言模型的训练过程中,固定所述大语言模型、交叉注意力模型、视觉模型和声音模型的参数,以避免模型的灾难性遗忘问题以及昂贵的训练开销。
16、进一步地,所述在所述大语言模型的输出层嵌入多个并行的lora插件,并初始化lora插件和门控选择器,包括:
17、在大语言模型的输出层嵌入多个并行的lora插件,通过矩阵低秩分解将大语言模型的参数分为固定权重和可学习参数和;每个lora插件具有对应的参数和,将参数初始化为随机高斯分布,将参数初始化为全0;
18、随机初始化门控选择器;
19、初始化输出解码器,其中输出解码器包括图片解码器和音频解码器。
20、进一步地,在大语言模型的第层中,门控选择器建模为一个单层mlp模型,其输入为层的输出,门控选择器用于预测lora插件的权重,表达式如下:
21、
22、式中,表示大语言模型第n-1层的输出;
23、在训练过程中,lora插件的更新方式如下所示:
24、
25、式中,表示冻结的大语言模型参数,表示待更新的lora插件参数,表示门控选择器对第个lora插件预测的权重。
26、进一步地,所述基于文本描述重构图片和声音,根据重构后的数据训练多模态大语言模型,包括:
27、在多模态大语言模型的预训练阶段,模型的输入为图片-声音-文本三元组的提示;其中,文本包括图片和声音的描述,以及对多模态大语言模型的指令,文本经过标记器处理为词块;图片和声音经过交叉注意力机制编码为多模态词块和;
28、在训练过程中,多模态大语言模型的输出将被期望同时包含图片、声音模态内容的标签对和相应的离散编码;其中,在离散编码维度上监督大模型的预测结果,而非图片和声谱图的像素维度。
29、进一步地,训练过程中的损失函数的表达式为:
30、
31、式中,为第个词块,为上下文窗口长度;
32、概率写为:
33、
34、
35、
36、式中,为词编码矩阵,为位置编码矩阵;为图片-声音-文本三元组的提示;表示大语言模型的自注意力机制模块,为归一化指数函数。
37、本发明所采用的另一技术方案是:
38、一种面向多模态内容输出的大语言模型训练装置,包括:
39、至少一个处理器;
40、至少一个存储器,用于存储至少一个程序;
41、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述方法。
42、本发明所采用的另一技术方案是:
43、一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
44、本发明的有益效果是:本发明从输出端对大模型进行多模态对齐,通过在模型的输出层加入多个lora插件和门控选择器的组合实现端到端预训练和微调,使大语言模型具有原生的多模态生成能力;最终将推理结果通过多模态输出进行呈现,提高大语言模型在与人类进行交互时的效率。
1.一种面向多模态内容输出的大语言模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,所述构建用于训练大语言模型的图片-声音-文本三元组数据集,包括:
3.根据权利要求2所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,所述根据获得的图片-声音-文本三元组构建图片-声音-文本三元组数据集,包括:
4.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,在多模态大语言模型的训练过程中,固定所述大语言模型、交叉注意力模型、视觉模型和声音模型的参数。
5.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,所述在所述大语言模型的输出层嵌入多个并行的lora插件,并初始化lora插件和门控选择器,包括:
6.根据权利要求5所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,在大语言模型的第层中,门控选择器建模为一个单层mlp模型,其输入为层的输出,门控选择器用于预测lora插件的权重,表达式如下:
7.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,所述基于文本描述重构图片和声音,根据重构后的数据训练多模态大语言模型,包括:
8.根据权利要求1或7所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,训练过程中的损失函数的表达式为:
9.一种面向多模态内容输出的大语言模型训练装置,其特征在于,包括:
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。