本技术涉及计算机信息,尤其涉及一种模型训练方法、装置及设备。
背景技术:
1、深度神经网络模型已应用于多个技术领域,如,数据分类、图像识别等,深度神经网络模型需要对大量的样本数据进行训练,以得到符合需求的模型。
2、目前,在联邦学习的领域中,在模型的训练任务不同时,可以使用不同的训练样本训练得到不同的模型。但是,在训练任务相似或者场景相似的模型的训练过程中,每次建立新的训练任务时,都需要使用新的训练样本训练出一个新的模型,使得模型的训练时长较长,进而导致模型训练的效率较低。
技术实现思路
1、本技术实施例提供一种模型训练方法、装置及设备,用于解决现有技术中,模型训练的效率较低的技术问题。
2、第一方面,本技术实施例提供一种模型训练方法,该方法包括:
3、获取多个第一训练样本,每个第一训练样本中包括m个特征,所述m为大于1的整数;
4、确定每个特征对应的多个第一区间,得到n个第一区间,所述n为每个特征对应的第一区间的数量之和,所述n为大于1的整数;
5、确定所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量;
6、根据所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量,分别对每个第一区间对应的第一训练样本中的特征进行特征去除处理,得到多个第二训练样本;
7、根据所述多个第二训练样本对预设模型进行训练。
8、在一种可能的实施方式中,根据所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量,分别对每个第一区间对应的第一训练样本中的特征进行特征去除处理,得到多个第二训练样本,包括:
9、确定所述多个第一区间对应的处理顺序;
10、按照所述处理顺序,根据所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量,依次对每个第一区间对应的第一训练样本中的特征进行特征去除处理,得到多个第二训练样本。
11、在一种可能的实施方式中,针对任意一个第一区间;根据所述第一区间中存在的第一训练样本的样本数量,对所述第一区间对应的第一训练样本中的特征进行特征去除处理,包括:
12、若所述第一区间中存在的第一训练样本的数量小于或等于第一阈值,则获取中间训练样本集合,所述中间训练样本集合为上一次执行特征去除处理后的第一训练样本的集合;
13、在所述中间训练样本集合中确定所述第一区间对应的第一训练样本,所述第一区间对应的第一训练样本位于所述第一区间内;
14、在所述m个特征中确定所述第一区间对应的目标特征;
15、在所述第一区间对应的第一训练样本中删除所述目标特征。
16、在一种可能的实施方式中,根据所述多个第二训练样本对预设模型进行训练,包括:
17、确定所述多个第二训练样本中各特征对应的权重值;
18、根据所述多个第二训练样本和所述多个第二训练样本中各特征对应的权重值,对所述预设模型进行训练。
19、在一种可能的实施方式中,针对所述多个第二训练样本中的任意一个第二训练样本;确定所述第二训练样本中各特征对应的权重值,包括:
20、确定所述第二训练样本中各特征所在的第一区间;
21、确定所述第二训练样本中各特征所在的第一区间的权重值;
22、针对所述第二训练样本中的任意一个特征,将所述特征所在第一区间的权重值确定为所述特征对应的权重值。
23、在一种可能的实施方式中,针对所述第二训练样本对应的至少一个特征中的任意一个特征;确定所述第二训练样本中所述特征所在的第一区间的权重值,包括:
24、判断所述预设模型中是否存在所述特征对应的第二区间,所述第二区间与所述第一区间相同;
25、若是,则将所述第二区间的权重值确定为所述第一区间的权重值;
26、若否,则将所述第一区间的权重值确定为预设值。
27、在一种可能的实施方式中,确定每个特征对应的多个第一区间,得到n个第一区间,包括:
28、根据树模型对所述多个第一训练样本按照特征进行分类处理,得到每个所述特征对应的多个所述第一区间。
29、第二方面,本技术实施例提供一种模型训练装置,该模型训练装置包括获取模块、第一确定模块、第二确定模块、处理模块、训练模块,其中:
30、所述获取模块用于,获取多个第一训练样本,每个第一训练样本中包括m个特征,所述m为大于1的整数;
31、所述第一确定模块用于,确定每个特征对应的多个第一区间,得到n个第一区间,所述n为每个特征对应的第一区间的数量之和,所述n为大于1的整数;
32、所述第二确定模块用于,确定所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量;
33、所述处理模块用于,根据所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量,分别对每个第一区间对应的第一训练样本中的特征进行特征去除处理,得到多个第二训练样本;
34、所述训练模块用于,根据所述多个第二训练样本对预设模型进行训练。
35、在一种可能的实施方式中,所述处理模块具体用于:
36、确定所述多个第一区间对应的处理顺序;
37、按照所述处理顺序,根据所述n个第一区间中每个第一区间中存在的第一训练样本的样本数量,依次对每个第一区间对应的第一训练样本中的特征进行特征去除处理,得到多个第二训练样本。
38、在一种可能的实施方式中,所述处理模块具体用于:
39、若所述第一区间中存在的第一训练样本的数量小于或等于第一阈值,则获取中间训练样本集合,所述中间训练样本集合为上一次执行特征去除处理后的第一训练样本的集合;
40、在所述中间训练样本集合中确定所述第一区间对应的第一训练样本,所述第一区间对应的第一训练样本位于所述第一区间内;
41、在所述m个特征中确定所述第一区间对应的目标特征;
42、在所述第一区间对应的第一训练样本中删除所述目标特征。
43、在一种可能的实施方式中,所述训练模块具体用于:
44、确定所述多个第二训练样本中各特征对应的权重值;
45、根据所述多个第二训练样本和所述多个第二训练样本中各特征对应的权重值,对所述预设模型进行训练。
46、在一种可能的实施方式中,所述训练模块具体用于:
47、确定所述第二训练样本中各特征所在的第一区间;
48、确定所述第二训练样本中各特征所在的第一区间的权重值;
49、针对所述第二训练样本中的任意一个特征,将所述特征所在第一区间的权重值确定为所述特征对应的权重值。
50、在一种可能的实施方式中,所述训练模块具体用于:
51、判断所述预设模型中是否存在所述特征对应的第二区间,所述第二区间与所述第一区间相同;
52、若是,则将所述第二区间的权重值确定为所述第一区间的权重值;
53、若否,则将所述第一区间的权重值确定为预设值。
54、在一种可能的实施方式中,所述第一确定模块具体用于:
55、根据树模型对所述多个第一训练样本按照特征进行分类处理,得到每个所述特征对应的多个所述第一区间。
56、第三方面,本技术实施例提供一种模型训练设备,包括处理器和存储器;
57、所述存储器存储计算机执行指令;
58、所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如第一方面所述的模型训练方法。
59、第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面所述的模型训练方法。
60、第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的模型训练方法。
61、本技术实施例提供一种模型训练方法、装置及设备,获取多个第一训练样本,每个第一训练样本中包括m个特征,确定每个特征对应的多个第一区间,得到n个第一区域,n为每个特征对应的第一区间的数量之和,确定n个第一区间中每个第一区间中存在的第一训练样本的样本数量,根据n个第一区间中每个第一区间中存在的第一训练样本的样本数量,分别对每个第一区间对应的第一训练样本中的特征进行特征去除处理,得到多个第二训练样本,根据多个第二训练样本对预设模型进行训练。在上述方法中,可以对第一训练样本的每个特征分成多个第一区间,并确定每个第一区间中的样本数量,由于根据每个第一区间中的样本数量,对第一训练样本中的特征进行去除处理,因此,得到的第二训练样本为有效的增量样本,进而通过增量训练的方式对预设模型进行训练,无需使用第一训练样本的所有特征重新训练出一个新的模型,进而提高预设模型的训练效率。