一种应用于预训练模型的高效微调方法、设备及介质与流程

文档序号:37544101发布日期:2024-04-08 13:46阅读:11来源:国知局
一种应用于预训练模型的高效微调方法、设备及介质与流程

本发明属于神经网络领域,尤其涉及一种应用于预训练模型的高效微调方法、设备及介质。


背景技术:

1、随着社交媒体的普及以及全球化进程的加速,对用户情感的深入理解,企业和个人之间的跨语言沟通需求,成为了企业和品牌的关键竞争因素。情感分析技术的市场份额逐渐扩大,广泛应用于社交媒体监测、客户反馈分析以及市场营销策略的制定等方面。智能翻译技术通过结合深度学习和神经网络等先进技术,提供了更加准确和流畅的翻译服务。近年来,自然语言处理技术在情感分析领域、智能翻译领域以及语音识别领域的应用持续扩展,尤其是随着智能助手和语音交互技术的兴起。

2、据市场研究数据显示,语音识别市场规模在过去几年中保持了快速增长,预计未来几年将继续保持高增长趋势。这主要归因于消费者对语音交互的不断增加,以及语音技术在智能家居、汽车、医疗等领域的广泛应用。这一市场预计将在未来几年内继续扩大,尤其是在国际商务和跨文化交流领域。

3、从预训练模型(plm)中进行迁移学习现在是自然语言处理中的主流范式,在许多任务上都有很强的表现。通用plm适应下游任务的最常见方法是微调所有模型参数(完全微调)。然而,这导致每个任务都有一个单独的微调模型参数副本,当为执行大量任务的模型提供服务时,这是非常昂贵的。随着plm规模的不断扩大,这一问题尤为突出。

4、为了缓解这个问题,目前市面上相对主流的应对方法是一类轻量级的替代方案,只更新少量的额外参数,同时保持大多数预训练的参数冻结。然而,现有技术中,促成这些参数高效调优方法成功的重要因素知之甚少,它们之间的联系仍然不清楚,无法有效快捷的去对plm参数进行微调。


技术实现思路

1、本发明的技术目的是提供一种应用于预训练模型的高效微调方法、设备及介质,以解决参数调节效率低的问题。

2、为解决上述问题,本发明的技术方案为:

3、一种应用于预训练模型的高效微调方法,包括如下步骤:

4、s1:对前缀调优的等效形式进行推导,并与适配器实现相互关联;

5、s2:基于步骤s1获得前缀调优与适配器的关联,构建通用框架,将多种参数调优方法进行统一;

6、s3:根据步骤s2中的通用框架,通过跨方法转移设计得到并行适配器和缩放并联适配器。

7、其中,在步骤s1中,对前缀调优的等效形式进行推导具体为:

8、通过将可学习向量添加到原始注意键和值上来改变注意模块,其推导公式为:

9、

10、其中,λ(x)为一个标量,表示前缀的标准化注意权重之和:

11、

12、其中,attn(xwq,concat(pk,cwk)为没有前缀的原始注意,concat(pv,cwv)为独立于c的逐位置修改;

13、基于推导公式,给出前缀调整的另一种形式,即通过线性插值对原始的头部注意输出力h进行逐位置修改:

14、h←(1-λ(x))h+λ(x)δh,δh=softmax(xwqwkt)pv。

15、其中,在步骤s1中,与适配器连接具体为:

16、定义w2=pv,f=softmax,进一步得到公式:

17、h←(1-λ(x))h+λ(x)f(xw1)w2

18、将得到的公式与适配器函数进行比较,得知,前缀向量的数量l与适配器中的瓶颈维数r起着类似的作用,均代表计算向量△h的秩限制;

19、将l称之为瓶颈维度,△h认定为任意x相同的l(或≤l)个基向量的线性组合。

20、其中,步骤s2中具体定义包括如下:

21、s21:子模块的设计维度定义,把多种参数调优方法重新定义为对预训练模型中特定隐藏状态的修改,并定义了一组设计维度,包括计算修改的函数和应用修改的位置;

22、s22:函数形式定义,定义计算△h的特定函数;

23、s23:插入表单定义,定义将添加的模块插入网络的方式;

24、s24:组合函数定义,将修改后的向量△h与原来隐藏表示的h相组合,形成新的隐藏表示。

25、其中,并行适配器通过将前缀调优的并行插入转移到适配器中的变体。

26、其中,缩放并联适配器是将lora的组成和插入形式转换为适配器的变体。

27、进一步优选地,还通过令适配器更类似于前缀调优得到多头并行适配器,应用多头并行适配器以修改头部注意力输出作为前缀调优。

28、一种电子设备,电子设备包括处理器和存储器,存储器上存储有可在处理器上运行的计算机指令,处理器用于调用存储器中的计算机指令执行如上述的应用于预训练模型的高效微调方法。

29、一种存储介质,存储介质用于存储计算机指令,其中,在计算机指令运行时控制存储介质所在设备执行如上述的应用于预训练模型的高效微调方法。

30、本发明由于采用以上技术方案,使其与现有技术相比具有以下的优点和积极效果:

31、本发明探究局部调优,通过设计出混合匹配适配器,在不同的任务集上表现出与完全微调相当的性能。可以仅通过添加0.5%的预训练参数实现高效调优,可以快速适应新任务。调优所需参数更少,且效率更高。



技术特征:

1.一种应用于预训练模型的高效微调方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的应用于预训练模型的高效微调方法,其特征在于,在所述步骤s1中,所述对前缀调优的等效形式进行推导具体为:

3.根据权利要求2所述的应用于预训练模型的高效微调方法,其特征在于,在所述步骤s1中,与适配器连接具体为:

4.根据权利要求3所述的应用于预训练模型的高效微调方法,其特征在于,所述步骤s2中具体定义包括如下:

5.根据权利要求1所述的应用于预训练模型的高效微调方法,其特征在于,所述并行适配器通过将前缀调优的并行插入转移到适配器中的变体。

6.根据权利要求1所述的应用于预训练模型的高效微调方法,其特征在于,所述缩放并联适配器是将lora的组成和插入形式转换为适配器的变体。

7.根据权利要求1所述的应用于预训练模型的高效微调方法,其特征在于,还通过令适配器更类似于前缀调优得到多头并行适配器,应用所述多头并行适配器以修改头部注意力输出作为前缀调优。

8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器用于调用所述存储器中的计算机指令执行如权利要求1-7中任一项所述的应用于预训练模型的高效微调方法。

9.一种存储介质,其特征在于,所述存储介质用于存储计算机指令,其中,在所述计算机指令运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的应用于预训练模型的高效微调方法。


技术总结
本发明公开了一种应用于预训练模型的高效微调方法,包括如下步骤:S1:对前缀调优的等效形式进行推导,并与适配器实现相互关联。S2:基于步骤S1获得前缀调优与适配器的关联,构建通用框架,将多种参数调优方法进行统一。S3:根据步骤S2中的通用框架,通过跨方法转移设计得到并行适配器和缩放并联适配器。本发明探究局部调优,通过设计出混合匹配适配器,在不同的任务集上表现出与完全微调相当的性能。可以仅通过添加0.5%的预训练参数实现高效调优,可以快速适应新任务。调优所需参数更少,且效率更高。

技术研发人员:姚欣,张青青,王晓飞
受保护的技术使用者:派欧云计算(上海)有限公司
技术研发日:
技术公布日:2024/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1