本技术涉及模型训练,特别是涉及一种模型训练方法及装置。
背景技术:
1、训练好的神经网络模型在新的应用场景中,往往无法对其中一些新的应用场景下的样本做有效的预测,例如,车辆识别模型,在训练过程中均采用白天的车辆图像进行训练,所以针对夜晚的车辆图像可能识别效果不是很好,这就导致模型的泛化能力较弱。为了提高模型在新的场景中的泛化能力,往往需要利用高置信度标注方式对数据进行标注,然后用标注好的样本重新训练模型。但是,高置信度标注的方式的成本往往较高,因此,使用高置信度标注方式标注所有数据会使得模型训练效率不高。
技术实现思路
1、本技术实施例的目的在于提供一种模型训练方法及装置,用以解决在在提高模型的泛化能力时,使用高置信度标注方式标注所有数据导致模型训练效率不高的问题。具体技术方案如下:
2、在本技术第一方面,提供了一种模型训练方法,所述方法包括:
3、基于各目标域数据之间的相似度,将各目标域数据划分成多个第一层样本簇;述目标域数据为属于目标域的样本数据;
4、针对每个第一层样本簇,基于各目标域数据之间的相似度,将第一层样本簇中的各目标域数据划分成多个第二层样本簇;
5、按照预设高置信度标注方法,分别对多个第二层样本簇中的目标域数据进行标注;
6、分别针对所述多个第二层样本簇,根据其中目标域数据的标注结果,为第二层样本簇添加用于表示所述标注结果的确信标签;
7、针对每个第一层样本簇,在其中的第二层样本簇的确信标签中确定满足预设扩散条件的目标确信标签,其中,所述预设扩散条件包括:具有该确信标签的样本簇的数目大于预设数目阈值;
8、将所述目标确信标签所表示的标注结果确定为第一层样本簇中非确信数据的标注结果,其中,所述非确信数据为所属第二层样本簇不具有确信标签的目标域数据。
9、在一种可能的实现方式中,所述方法还包括;
10、所述按照预设高置信度标注方法,分别对多个第二层样本簇中的目标域数据进行标注,包括:
11、从各所述第二层样本簇中选取所述价值满足预设高价值条件的多个所述第二层样本簇,作为新模态样本簇,其中,所述第二样本簇的价值是根据与所包括的目标域数据与预先经过标注的源域数据之间的相似度确定的,所述价值与所述相似度负相关;所述源域数据为属于源域的样本数据;
12、按照预设高置信度标注方法,分别对各所述新模态样本簇中的目标域数据进行标注;
13、所述针对所述多个第二层样本簇中的每个第二层样本簇,根据其中目标域数据的标注结果,为第二层样本簇添加用于表示所述标注结果的确信标签,包括:
14、针对每个新模态样本簇,根据其中目标域数据的标注结果,为新模态样本簇添加用于表示所述标注结果的确信标签。
15、在一种可能的实现方式中,所述方法还包括:
16、基于所述目标域数据训练得到目标域模型;
17、通过所述目标域模型对属于所述目标域的待推理数据进行推理得到推理结果。
18、在一种可能的实现方式中,所述基于所述目标域数据训练得到目标域模型,包括:
19、将所述不具备确信标签的目标域数据的初始标签确定为所述目标域数据的标注结果;
20、基于所述源域数据、具备确信标签的目标域数据以及不具备确信标签的目标域数据训练得到目标域模型。
21、在一种可能的实现方式中,按照预设高置信度标注方法,分别对多个第二层样本簇中的目标域数据进行标注,包括:
22、按照预设高置信度标注方法,分别对多个第二层样本簇中的一个目标域数据进行标注。
23、在一种可能的实现方式中,所述按照预设高置信度标注方法,分别对多个第二层样本簇中的一个目标域数据进行标注,包括:
24、分别针对多个第二层样本簇,从其中确定出一个与第二层样本簇中所有目标域数据的相似度均大于预设相似度阈值的目标域数据,作为代表目标域数据;
25、按照预设高置信度标注方法,分别对各代表目标域数据进行标注,作为代表目标域数据所属第二层样本簇中所有目标域数据的标注结果。
26、在一种可能的实现方式中,确定各目标域数据之间的相似度,包括:
27、将各目标域的数据输入至初始模型中,得到所述各目标域数据的初始标签;其中,所述初始模型为基于源域有标签的数据训练得到的;
28、根据所述各目标域数据的初始标签确定所述各目标域数据之间的相似度。
29、在一种可能的实现方式中,所述基于各目标域数据之间的相似度,将各目标域数据划分成多个第一层样本簇,包括:
30、基于所述各目标域数据之间的相似度,将所述各目标域数据划分成多个第三层样本簇;
31、针对每个第三层样本簇,基于所述各目标域数据之间的相似度,将第三层样本簇中的各目标域数据划分成多个第一层样本簇。
32、在一种可能的实现方式中,所述方法还包括:
33、针对每个第三层样本簇,在其中的第一层样本簇的确信标签中确定满足预设扩散条件的目标确信标签;将所述目标确信标签所表示的标注结果确定为第三层样本簇中非确信数据的标注结果,其中,所述第一层样本簇的确信标签为所述目标确信标签。
34、在本技术第二方面,提供了一种模型训练装置,所述装置包括:
35、第一分层模块,用于基于各目标域数据之间的相似度,将各目标域数据划分成多个第一层样本簇;所述目标域数据为属于目标域的样本数据;
36、第二分层模块,用于针对每个第一层样本簇,基于各目标域数据之间的相似度,将第一层样本簇中的各目标域数据划分成多个第二层样本簇;
37、标准标注模块,用于按照预设高置信度标注方法,分别对多个第二层样本簇中的目标域数据进行标注;
38、确信标注模块,用于分别针对所述多个第二层样本簇,根据其中目标域数据的标注结果,为第二层样本簇添加用于表示所述标注结果的确信标签;
39、确定模块,用于针对每个第一层样本簇,在其中的第二层样本簇的确信标签中确定满足预设扩散条件的目标确信标签,其中,所述预设扩散条件包括:具有该确信标签的样本簇的数目大于预设数目阈值;
40、结果标注模块,用于将所述目标确信标签所表示的标注结果确定为第一层样本簇中非确信数据的标注结果,其中,所述非确信数据为所属第二层样本簇不具有确信标签的目标域数据。
41、在一种可能的实现方式中,所述装置还包括:
42、所述标准标注模块按照预设高置信度标注方法,分别对多个第二层样本簇中的目标域数据进行标注,包括:
43、从各所述第二层样本簇中选取所述价值满足预设高价值条件的多个所述第二层样本簇,作为新模态样本簇,其中,所述第二样本簇的价值是根据与所包括的目标域数据与预先经过标注的源域数据之间的相似度确定的,所述价值与所述相似度负相关;所述源域数据为属于源域的样本数据;
44、按照预设高置信度标注方法,分别对所述各新模态样本簇中的目标域数据进行标注;
45、所述针对所述多个第二层样本簇中的每个第二层样本簇,根据其中目标域数据的标注结果,为第二层样本簇添加用于表示所述标注结果的确信标签,包括:
46、针对每个新模态样本簇,根据其中目标域数据的标注结果,为新模态样本簇添加用于表示所述标注结果的确信标签;
47、所述装置还包括:训练模块,用于基于所述目标域数据训练得到目标域模型;
48、通过所述目标域模型对属于所述目标域数据的待推理数据进行推理得到推理结果;
49、所述基于所述目标域数据训练得到目标域模型,包括:
50、将所述不具备确信标签的目标域数据的初始标签确定为所述目标域数据的标注结果;
51、基于所述源域数据、具备确信标签的目标域数据以及不具备确信标签的目标域数据训练得到目标域模型;
52、按照预设高置信度标注方法,分别对多个第二层样本簇中的目标域数据进行标注,包括:
53、所述标准标注模块按照预设高置信度标注方法,分别对多个第二层样本簇中的一个目标域数据进行标注;
54、所述按照预设高置信度标注方法,分别对多个第二层样本簇中的一个目标域数据进行标注,包括:
55、分别针对多个第二层样本簇,从其中确定出一个与第二层样本簇中所有目标域数据的相似度均大于预设相似度阈值的目标域数据,作为代表目标域数据;
56、按照预设高置信度标注方法,分别对各代表目标域数据进行标注,作为代表目标域数据所属第二层样本簇中所有目标域数据的标注结果;
57、确定各目标域数据之间的相似度,包括:
58、将各目标域的数据输入至初始模型中,得到所述各目标域数据的初始标签;其中,所述初始模型为基于源域有标签的数据训练得到的;
59、根据所述各目标域数据的初始标签确定所述各目标域数据之间的相似度;
60、所述第一分层模块基于各目标域数据之间的相似度,将各目标域数据划分成多个第一层样本簇,包括:
61、基于所述各目标域数据之间的相似度,将所述各目标域数据划分成多个第三层样本簇;
62、针对每个第三层样本簇,基于所述各目标域数据之间的相似度,将第三层样本簇中的各目标域数据划分成多个第一层样本簇;
63、针对每个第三层样本簇,在其中的第一层样本簇的确信标签中确定满足预设扩散条件的目标确信标签;将所述目标确信标签所表示的标注结果确定为第三层样本簇中非确信数据的标注结果,其中,所述第一层样本簇的确信标签为所述目标确信标签。
64、在本技术第三方面,提供了一种电子设备,包括:
65、存储器,用于存放计算机程序;
66、处理器,用于执行存储器上所存放的程序时,实现前述第一方面任一所述的方法。
67、在本技术第四方面,提供了一种计算机可读存储介质所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面任一所述的方法。
68、本技术实施例有益效果:
69、本技术实施例提供的一种模型训练方法及装置,可以通过各目标域数据之间的相似度,将目标域数据划分成不同多层样本簇,然后从最底层样本簇,即第二层样本簇中选取多个样本簇进行标注,分别针对多个第二层样本簇,根据其中目标域数据的标注结果,为第二层样本簇添加用于表示所述标注结果的确信标签,最后按照预设扩散条件,将满足预设扩散条件的样本簇中非确信数据的标注结果确定为目标确信标签所表示的标注结果。本实施例中,选取部分第二层样本簇的目标域数据进行标注,然后将其进行扩散,使得大大降低按照高置信度标注方法标注的数据量,进而可以提高模型训练效率。
70、当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。