本发明涉及计算机,特别涉及模型训练方法、动作的文本描述方法、装置、设备及介质。
背景技术:
1、当前,对于动作描述的算法研究相对较少,而且可用的方法精度不够高,难以满足使用需求。例如,对于虚拟人的动作序列数据,这些动作序列数据已经积累在站内,然而,大部分动作缺乏详细的描述,为以下两个方面带来了挑战:1、下游业务应用的不便,由于动作缺乏详细的描述,这使得在下游业务应用中进行动作序列的查询和检索变得困难,用户难以准确地找到他们需要的动作序列,从而降低了系统的可用性和用户体验。2、下游模型训练的困难,当前由于缺乏对动作的详细描述也对下游模型的训练构建数据对造成了困难,在动作相关的模型训练中,准确的数据对非常关键,但缺少详细描述的动作很难与其他数据进行匹配,从而影响了模型的性能和训练效果。
2、综上,如何为动作序列数据提供准确的文本描述,以提高动作序列数据在业务应用和模型训练中的可用性和效果是目前有待解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种模型训练方法、动作的文本描述方法、装置、设备及介质,能够为动作序列数据提供准确的文本描述,以提高动作序列数据在业务应用和模型训练中的可用性和效果。其具体方案如下:
2、第一方面,本申请公开了一种匹配网络模型训练方法,包括:
3、获取包括动作序列数据和对应文本描述的训练数据集;
4、将所述动作序列数据输入至motionclip模型以得到对应的动作序列表征,并将所述文本描述输入至大语言模型以得到对应的文本离散编码;
5、将所述动作序列表征输入至匹配网络模型以输出对应的前缀表征,并将所述前缀表征输入至所述大语言模型以得到输出编码;
6、基于所述文本离散编码和所述输出编码构建损失函数,并利用所述损失函数对所述匹配网络模型进行训练,以得到训练后的匹配网络模型。
7、可选的,所述匹配网络模型包括转换层、线性层和前置可学习参数。可选的,所述将所述动作序列表征输入至匹配网络模型以输出对应的前缀表征,包括:
8、将所述动作序列表征输入至所述线性层,以通过所述线性层基于预设维度对所述动作序列表征进行维度变换,得到变换后表征;
9、将所述变换后表征与所述前置可学习参数进行连接,得到连接后表征,并将所述连接后表征输入至所述转换层得到对应的前缀表征。
10、可选的,所述匹配网络模型训练方法,还包括:
11、从开源的humanml3d数据集中获取所述动作序列数据。
12、可选的,所述基于所述文本离散编码和所述输出编码构建损失函数,并利用所述损失函数对所述匹配网络模型进行训练,包括:
13、基于所述文本离散编码和所述输出编码构建交叉熵损失函数,并利用所述交叉熵损失函数对所述匹配网络模型进行训练。
14、第二方面,本申请公开了一种动作的文本描述方法,包括:
15、获取待描述的目标动作序列数据,并将所述目标动作序列数据输入至motionclip模型以得到对应的目标动作序列表征;
16、将所述目标动作序列表征输入至基于前述公开的匹配网络模型训练方法训练得到的匹配网络模型,以通过所述匹配网络模型基于所述目标动作序列表征生成对应的目标前缀表征;
17、将所述目标动作序列表征和所述目标前缀表征输入至大语言模型,以通过所述大语言模型生成与所述目标动作序列数据对应的文本描述。
18、可选的,所述将所述目标动作序列表征和所述目标前缀表征输入至大语言模型,包括:
19、对所述目标动作序列表征和所述目标前缀表征进行连接操作,得到连接后的目标表征,并将所述目标表征输入至大语言模型。
20、第三方面,本申请公开了一种匹配网络模型训练装置,包括:
21、训练数据获取模块,用于获取包括动作序列数据和对应文本描述的训练数据集;
22、信息获取模块,用于将所述动作序列数据输入至motionclip模型以得到对应的动作序列表征,并将所述文本描述输入至大语言模型以得到对应的文本离散编码;
23、信息输出模块,用于将所述动作序列表征输入至匹配网络模型以输出对应的前缀表征,并将所述前缀表征输入至所述大语言模型以得到输出编码;
24、模型训练模块,用于基于所述文本离散编码和所述输出编码构建损失函数,并利用所述损失函数对所述匹配网络模型进行训练,以得到训练后的匹配网络模型。
25、第四方面,本申请公开了一种电子设备,包括:
26、存储器,用于保存计算机程序;
27、处理器,用于执行所述计算机程序,以实现前述公开的匹配网络模型训练方法及动作的文本描述方法的步骤。
28、第五方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的匹配网络模型训练方法及动作的文本描述方法的步骤。
29、可见,本申请通过获取包括动作序列数据和对应文本描述的训练数据集;将所述动作序列数据输入至motionclip模型以得到对应的动作序列表征,并将所述文本描述输入至大语言模型以得到对应的文本离散编码;将所述动作序列表征输入至匹配网络模型以输出对应的前缀表征,并将所述前缀表征输入至所述大语言模型以得到输出编码;基于所述文本离散编码和所述输出编码构建损失函数,并利用所述损失函数对所述匹配网络模型进行训练,以得到训练后的匹配网络模型。由此可见,本申请首先获取训练数据集,训练数据集包括动作序列数据和对应的文本描述,动作序列数据在输入匹配网络模型之前,会先经过motionclip模型以得到对应的动作序列表征,而文本描述则通过输入至大语言模型以得到对应的文本离散编码;进一步的,将得到的动作序列表征输入至匹配网络模型以输出对应的前缀表征,并将前缀表征再输入至大语言模型以得到输出编码,然后基于文本离散编码和输出编码构建损失函数,并利用损失函数对匹配网络模型进行梯度回传,从而完成对匹配网络模型的训练过程,最终得到训练后的匹配网络模型。也即,本申请使用了监督学习的方法对匹配网络模型进行训练,使得匹配网络模型能够学会动作序列表征与文本描述之间的关系,从而能够根据输入的动作序列数据生成与正确的文本描述相关的前缀表征,以便在加入匹配网络模型后,大语言模型能够为动作序列提供更准确和详细的文本描述。
1.一种匹配网络模型训练方法,其特征在于,包括:
2.根据权利要求1所述的匹配网络模型训练方法,其特征在于,所述匹配网络模型包括转换层、线性层和前置可学习参数。
3.根据权利要求2所述的匹配网络模型训练方法,其特征在于,所述将所述动作序列表征输入至匹配网络模型以输出对应的前缀表征,包括:
4.根据权利要求1所述的匹配网络模型训练方法,其特征在于,还包括:
5.根据权利要求1所述的匹配网络模型训练方法,其特征在于,所述基于所述文本离散编码和所述输出编码构建损失函数,并利用所述损失函数对所述匹配网络模型进行训练,包括:
6.一种动作的文本描述方法,其特征在于,包括:
7.根据权利要求6所述的动作的文本描述方法,其特征在于,所述将所述目标动作序列表征和所述目标前缀表征输入至大语言模型,包括:
8.一种匹配网络模型训练装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。