基于学习权重向量的大模型微调方法、装置、设备及介质与流程

文档序号:37386842发布日期:2024-03-22 10:38阅读:15来源:国知局
本发明涉及深度学习的大模型,具体涉及一种基于学习权重向量的大模型微调方法、装置、设备及介质。
背景技术
::1、深度学习(deep learning)是一种机器学习的方法,它基于人工神经网络,通过多层非线性变换来对高复杂性的模式进行建模;与传统的浅层神经网络相比,深度学习模型具有更强的表达能力和更好的性能。目前市面上的许多深度学习应用都是依赖于,使一个大规模的、预先训练的模型适应多个下游应用;比如,文本类的gpt大模型、视觉类的stablediffusion模型等,其是通过预训练模型,以更好的适配具体的任务。而当目前市面上的许多深度学习应用需要训练更大的模型时,则重新训练所有模型参数的完全微调无法解决问题;以gpt-3 175b为例,部署经过精细调整的模型的独立实例,每个实例都有175b参数,成本高昂。2、近年来,市面上都是采用微调的方式进行模型调整,微调更新预训练模型的所有参数;但是这种微调方式存在新模型包含与原始模型相同多的参数的缺点。随着技术发展,出现了许多巨大的模型,这些模型有上亿的参数,而且更大的模型每隔几个月进行一次训练,目前很多模型具有百亿,千亿的可训练参数。当前,大模型都存在参数量大,计算复杂,推理速度慢的问题,尤其对于微调的场景;在实际处理中,需要准备大量的数据和大量的训练资源。而基于传统的计算机技术,很难在大模型领域达到快速训练和高性能的结果。3、因此,现有的微调算法很难在大模型领域达到很好的效果且参数较大;现有研究人员试图通过仅调整一些参数或学习外部模块以适应新任务来缓解这种情况,这种化解方式除了每个任务的预训练模型外,只需要存储和加载少量特定于任务的参数,大大提高了部署时的操作效率。然而,这种化解方式通常需要通过扩展模型深度或减少模型的可用序列长度来引入推理延迟;并且,这种化解方式往往无法与微调基线相匹配,从而在效率和模型质量之间产生了权衡问题。4、有鉴于此,提出本技术。技术实现思路1、有鉴于此,本发明的目的在于提供了一种基于学习权重向量的大模型微调方法、装置、设备及介质,能够有效解决现有技术中的微调算法无法与微调基线相匹配,从而在效率和模型质量之间产生了权衡的问题。2、本发明公开了一种基于学习权重向量的大模型微调方法, 包括:3、获取待调整的大模型的transformer模块,其中,所述transformer模块的核心为自注意力机制;4、当需要对所述大模型进行微调时,对所述transformer模块中的k矩阵增加一个可学习的权重向量,对所述transformer模块中的v矩阵增加一个可学习的权重向量,并经过所述自注意力机制进行处理;5、在所述自注意力机制处理完毕后,在所述transformer模块中增加一个可学习的权重向量lff,输出经过线性层,并根据经过线性层的输出数据获得需要调整的参数量;6、根据训练样本以及需要调整的参数量对所述大模型进行微调。7、优选地,对所述transformer模块中的k矩阵增加一个可学习的权重向量,对所述transformer模块中的v矩阵增加一个可学习的权重向量,具体为:8、获取预设的所需向量维度train_dim,根据所述所需向量维度train_dim分别对所述权重向量和权重向量进行定义,其中,所述所需向量维度train_dim与所述自注意力机制中的矩阵维度相对应;9、将所述权重向量和权重向量初始化为零;10、在k矩阵中增加所述权重向量时,将所述权重向量与所述k矩阵的矩阵元素对应进行相乘,根据当前所述transformer模块的输入特征x和缩放系数multiplier对所述transformer模块的输出特征y进行重新赋值,赋值公式为:y = x(1 + weightmultiplier),其中,weight为所述权重向量,multiplier为缩放系数,默认赋值为1.0;11、在v矩阵中增加所述权重向量时,将所述权重向量与所述v矩阵的矩阵元素对应进行相乘,根据当前所述transformer模块的输入特征x和缩放系数multiplier对所述transformer模块的输出特征y进行重新赋值,赋值公式为:y = x(1 + weightmultiplier),其中,weight为所述权重向量,multiplier为缩放系数,默认赋值为1.0。12、优选地,在所述transformer模块中增加一个可学习的权重向量lff,具体为:13、获取预设的所需向量维度train_dim,根据所述所需向量维度train_dim对权重向量lff进行定义,其中,所述所需向量维度train_dim与所述自注意力机制中的矩阵维度相对应;14、将所述权重向量lff初始化为零;15、在k矩阵中增加所述权重向量lff时,将所述权重向量lff与所述自注意力机制处理后的矩阵元素对应进行相乘,根据当前所述transformer模块的输入特征x和缩放系数multiplier对所述transformer模块的输出特征y进行重新赋值,赋值公式为:y = x(1 +weightmultiplier),其中,weight为所述权重向量lff,multiplier为缩放系数,默认赋值为1.0。16、优选地,所述自注意力机制的计算公式为:17、18、其中,为自注意力机制计算值,为激活函数,为键向量的维度大小,为值向量,为查询向量,为键向量,为输入序列的长度,为查询向量和键向量之间的相似度矩阵。19、本发明还公开了一种基于学习权重向量的大模型微调装置,包括:20、transformer获取单元,用于获取待调整的大模型的transformer模块,其中,所述transformer模块的核心为自注意力机制;21、第一增加单元,用于当需要对所述大模型进行微调时,对所述transformer模块中的k矩阵增加一个可学习的权重向量,对所述transformer模块中的v矩阵增加一个可学习的权重向量,并经过所述自注意力机制进行处理;22、第二增加单元,用于在所述自注意力机制处理完毕后,在所述transformer模块中增加一个可学习的权重向量lff,输出经过线性层,并根据经过线性层的输出数据获得需要调整的参数量;23、微调单元,用于根据训练样本以及需要调整的参数量对所述大模型进行微调。24、优选地,第一增加单元具体用于:25、获取预设的所需向量维度train_dim,根据所述所需向量维度train_dim分别对所述权重向量和权重向量进行定义,其中,所述所需向量维度train_dim与所述自注意力机制中的矩阵维度相对应;26、将所述权重向量和权重向量初始化为零;27、在k矩阵中增加所述权重向量时,将所述权重向量与所述k矩阵的矩阵元素对应进行相乘,根据当前所述transformer模块的输入特征x和缩放系数multiplier对所述transformer模块的输出特征y进行重新赋值,赋值公式为:y = x(1 + weightmultiplier),其中,weight为所述权重向量,multiplier为缩放系数,默认赋值为1.0;28、在v矩阵中增加所述权重向量时,将所述权重向量与所述v矩阵的矩阵元素对应进行相乘,根据当前所述transformer模块的输入特征x和缩放系数multiplier对所述transformer模块的输出特征y进行重新赋值,赋值公式为:y = x(1 + weightmultiplier),其中,weight为所述权重向量,multiplier为缩放系数,默认赋值为1.0。29、优选地,第二增加单元具体用于:30、获取预设的所需向量维度train_dim,根据所述所需向量维度train_dim对权重向量lff进行定义,其中,所述所需向量维度train_dim与所述自注意力机制中的矩阵维度相对应;31、将所述权重向量lff初始化为零;32、在k矩阵中增加所述权重向量lff时,将所述权重向量lff与所述自注意力机制处理后的矩阵元素对应进行相乘,根据当前所述transformer模块的输入特征x和缩放系数multiplier对所述transformer模块的输出特征y进行重新赋值,赋值公式为:y = x(1 +weightmultiplier),其中,weight为所述权重向量lff,multiplier为缩放系数,默认赋值为1.0。33、优选地,所述自注意力机制的计算公式为:34、35、其中,为自注意力机制计算值,为激活函数,为键向量的维度大小,为值向量,为查询向量,为键向量,为输入序列的长度,为查询向量和键向量之间的相似度矩阵。36、本发明还公开了一种基于学习权重向量的大模型微调设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的基于学习权重向量的大模型微调方法。37、本发明还公开了一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的基于学习权重向量的大模型微调方法。38、综上所述,本实施例提供的基于学习权重向量的大模型微调方法、装置、设备及介质,在大模型的原始transformer模块里,对其自注意力机制中最核心的三个矩阵引入可学习权重向量,让矩阵与其权重向量元素对应相乘,从而达到只使用少量参数以调整大模型的原理;在实际微调大模型时,使用更少的参数,更有针对性的提高网络性能,以达到更好效果。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1