本申请属于模型训练,具体涉及一种模型训练方法和相关设备。
背景技术:
1、随着大模型技术的发展,越来越多的领域可以构建对应的模型。
2、示例性技术中,通过在数据中选择与模型预测目标所相关的特征,基于特征构建训练样本,从而通过训练样本对模型进行训练。
3、但上述特征的选择方式较为单一,使得选择的特征在特征选择方式所注重的维度的性能较好,但是在其他维度的性能较差,导致训练出来的模型的性能较差。
技术实现思路
1、本申请实施例的目的是提供一种模型训练方法和相关设备,用以解决模型的性能较差的问题。
2、第一方面,本申请实施例提供了一种模型训练方法,包括:
3、获取多个第一数据,并采用不同的特征选择方式,在各个所述第一数据的特征中,确定所述特征选择方式所选定的多个特征,以构建所述特征选择方式对应的第一特征集合;
4、根据各种所述特征选择方式对应的第一特征集合中的特征,确定预测目标相关的目标特征;
5、在每个所述第一数据中提取与所述目标特征匹配的特征,以构建每个所述第一数据对应的训练样本,并根据各个所述训练样本,对预设模型进行训练,得到预测模型,其中,所述预测模型用于对待预测数据进行预测得到所述预测目标对应的概率参数。
6、在一实施例中,所述根据各种所述特征选择方式对应的第一特征集合中的特征,确定预测目标相关的目标特征,包括:
7、在每个数据库中获取第二数据,所述第二数据包含所述第一特征集合中的至少一个特征;
8、确定每个数据集合中特征对所述预测目标的第一预测贡献值,其中,一个所述数据集合由至少一个数据库对应的各个第二数据构建;
9、根据所述第一预测贡献值,在每个所述数据集合的特征中,确定多个第一特征,以构建所述数据集合对应的第二特征集合,所述第一特征对应的第一预测贡献值大于第一预设阈值;
10、确定所述每个所述数据集合对应的第二特征集合之间的交集,并将所述交集中的第二特征,确定为所述预测目标相关的目标特征。
11、在一实施例中,所述确定每个数据集合中特征对所述预测目标的第一预测贡献值,包括:
12、确定所述数据集合对应的类型,所述类型用于指示所述数据集合为训练集或测试集;
13、根据所述数据集合对应的类型,确定所述数据集合中特征对所述预测目标的第一预测贡献值。
14、在一实施例中,所述根据各种所述特征选择方式对应的第一特征集合中的特征,确定预测目标相关的目标特征,包括:
15、确定各种所述特征选择方式对应的第一特征集合中的特征,对所述预测目标的第二预测贡献值;
16、根据所述第二预测贡献值,在各种所述特征选择方式对应的第一特征集合中的特征中,确定目标特征,所述目标特征的第二预测贡献值大于第二预设阈值。
17、在一实施例中,所述获取多个第一数据,包括:
18、获取多个候选数据,并确定每个所述候选数据所属的样本类型,所述样本类型包括正样本以及负样本;
19、根据所述候选数据的样本类型,在各个所述候选数据中,确定多个第一数据,其中,各个所述第一数据中一半数量的第一数据的样本类型为正样本。
20、在一实施例中,所述获取多个候选数据,包括:
21、获取多个初始数据,并根据各个所述初始数据中的特征,确定每个所述初始数据对应的特征缺失率;
22、根据所述特征缺失率,在各个所述初始数据中确定中间数据,所述中间数据的特征缺失率小于预设缺失率;
23、对所述中间数据进行特征的填补,得到候选数据。
24、第二方面,本申请实施例提供了一种模型训练装置,包括:
25、获取模块,用于获取多个第一数据,并采用不同的特征选择方式,在各个所述第一数据的特征中,确定所述特征选择方式所选定的多个特征,以构建所述特征选择方式对应的第一特征集合;
26、确定模块,用于根据各种所述特征选择方式对应的第一特征集合中的特征,确定预测目标相关的目标特征;
27、提取模块,用于在每个所述第一数据中提取与所述目标特征匹配的特征,以构建每个所述第一数据对应的训练样本,并根据各个所述训练样本,对预设模型进行训练,得到预测模型,其中,所述预测模型用于对待预测数据进行预测得到所述预测目标对应的概率参数。
28、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
29、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
30、第五方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
31、在本申请实施例中,获取多个第一数据,并采用不同的特征选择方式在各个第一数据的特征中,确定特征选择方式所选定的多个特征构建特征选择方式对应的特征集合,并基于各种特征选择方式中的特征,确定预测目标相关的目标特征,且在每个第一数据中提取与目标特征匹配的特征构建第一数据对应的训练样本,再通过各个训练样本训练得到预测模型以进行预测。本实施例中,通过不同的特征选择方式对数据中的特征进行提取,再获取不同特征选择方式提取的特征之间的交集,通过交集确定与预测目标相关的目标特征在不同特征选择方式所注重的维度上的性能均较好,使得基于目标特征构建的训练样本所训练出的。
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据各种所述特征选择方式对应的第一特征集合中的特征,确定预测目标相关的目标特征,包括:
3.根据权利要求2所述的模型训练方法,其特征在于,所述确定每个数据集合中特征对所述预测目标的第一预测贡献值,包括:
4.根据权利要求1所述的模型训练方法,其特征在于,所述根据各种所述特征选择方式对应的第一特征集合中的特征,确定预测目标相关的目标特征,包括:
5.根据权利要求1所述的模型训练方法,其特征在于,所述获取多个第一数据,包括:
6.根据权利要求5所述的模型训练方法,其特征在于,所述获取多个候选数据,包括:
7.一种模型训练装置,其特征在于,包括:
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6中任一项所述的模型训练方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的模型训练方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品被存储在存储介质中,所述计算机程序产品被至少一个处理器执行以实现如权利要求1-6中任一项所述的模型训练方法。