模型训练方法和装置、服务装置和存储介质与流程

文档序号：30936289发布日期：2022-07-30 01:12阅读：来源：国知局

技术特征：
1.一种模型训练方法，包括：针对每条用户行为样本数据，通过教师模型处理所述用户行为样本数据，获得第一打分值，并根据所述第一打分值和所述用户行为样本数据的标签确定第一损失值，其中，所述第一损失值在所述教师模型中反向传播；通过学生模型处理所述用户行为样本数据，获得第二打分值，并根据所述第二打分值和所述用户行为样本数据的标签确定第二损失值，其中，所述第二损失值在所述学生模型中反向传播；根据所述第一打分值和所述第二打分值获取第三损失值，所述第三损失值在所述学生模型中反向传播。2.根据权利要求1所述的方法，还包括：在前序训练过程中，针对每条用户行为样本数据，通过待前序训练的教师模型处理用户行为样本数据，获取教师模型损失值；将所述教师模型损失值在所述待前序训练的教师模型中反向传播；完成所述前序训练，获取所述教师模型。3.根据权利要求1所述的方法，其中，所述教师模型中包括网络结构或初始化方式中至少一项不同的多个模型。4.根据权利要求3所述的方法，其中，所述通过教师模型处理所述用户行为样本数据，获得第一打分值，并根据所述第一打分值和所述用户行为样本数据的标签确定第一损失值包括：获取所述教师模型中的每个模型分别处理所述用户行为样本数据获得的单模型打分值；结合所述教师模型中的每个模型的所述单模型打分值，获取所述第一打分值；根据所述第一打分值和对应的用户行为样本数据，获取所述第一损失值。5.根据权利要求4所述的方法，其中，所述结合每个模型的所述单模型打分值，获取所述第一打分值包括：根据每个模型的预设权重和所述单模型打分值，获取所述单模型打分值的加权和，作为所述第一打分值。6.根据权利要求2所述的方法，其中，所述通过待前序训练的教师模型处理所述用户行为样本数据，获取教师模型损失值包括：通过每个所述待前序训练的教师模型分别处理所述用户行为样本数据，获取每个模型确定的单模型损失值，其中，所述教师模型中包括网络结构或初始化方式中至少一项不同的多个模型；结合每个模型的确定的所述单模型损失值，获取所述教师模型损失值；所述将所述教师模型损失值在所述待前序训练的教师模型中反向传播包括：将所述教师模型损失值在所述待前序训练的教师模型的每个模型中反向传播。7.根据权利要求1所述的方法，还包括：根据所述第一损失值、所述第二损失值和所述第三损失值获取模型训练损失值，其中，所述第三损失值的权重小于所述第一损失值和所述第二损失值。8.根据权利要求1所述的方法，还包括：
在完成模型训练后，裁剪出训练完成的所述学生模型；通过所述学生模型提供服务。9.根据权利要求1～8任意一项所述的方法，其中，所述教师模型和所述学生模型为基于用户行为数据进行用户排序的机器学习模型。10.一种模型训练装置，包括：第一损失值确定单元，被配置为在模型训练过程中，针对每条用户行为样本数据，通过教师模型处理所述用户行为样本数据，获得第一打分值，并根据所述第一打分值和所述用户行为样本数据的标签确定第一损失值，其中，所述第一损失值在所述教师模型中反向传播；第二损失值确定单元，被配置为在模型训练过程中，针对每条用户行为样本数据，通过学生模型处理所述用户行为样本数据，获得第二打分值，并根据所述第二打分值和所述用户行为样本数据的标签确定第二损失值，其中，所述第二损失值在所述学生模型中反向传播；第三损失值确定单元，被配置为在模型训练过程中，针对每条用户行为样本数据，根据所述第一打分值和所述第二打分值获取第三损失值，所述第三损失值在所述学生模型中反向传播。11.根据权利要求10所述的装置，还包括：前序训练单元，被配置为在前序训练过程中，针对每条用户行为样本数据，通过待前序训练的教师模型处理用户行为样本数据，获取教师模型损失值，并将所述教师模型损失值在所述待前序训练的教师模型中反向传播；完成所述前序训练，获取所述教师模型。12.根据权利要求10所述的装置，还包括：模型训练损失值确定单元，被配置为根据所述第一损失值、所述第二损失值和所述第三损失值获取模型训练损失值，其中，所述第三损失值的权重小于所述第一损失值和所述第二损失值。13.根据权利要求10所述的装置，还包括：裁剪单元，被配置为在完成模型训练后，裁剪出训练完成的所述学生模型；服务单元，被配置为通过所述学生模型提供服务。14.一种模型训练装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至9任一项所述的方法。15.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至9任意一项所述的方法的步骤。16.一种服务装置，包括：请求获取单元，被配置为获取预测请求；预测单元，被配置为根据所述预测请求获取预测结果，其中，所述预测单元为根据权利要求1～9任意一项所述模型训练方法训练生成的学生模型；和输出单元，被配置为输出所述预测结果。

技术总结
本公开提出一种模型训练方法和装置、服务装置和存储介质，涉及机器学习技术领域。本公开的一种模型训练方法包括：针对每条用户行为样本数据，通过教师模型处理用户行为样本数据，获得第一打分值，并根据第一打分值和用户行为样本数据的标签确定第一损失值，其中，第一损失值在教师模型中反向传播；通过学生模型处理用户行为样本数据，获得第二打分值，并根据第二打分值和用户行为样本数据的标签确定第二损失值，其中，第二损失值在学生模型中反向传播；根据第一打分值和第二打分值获取第三损失值，第二损失值和第三损失值在学生模型中反向传播。通过这样的方法，能够缩短训练时间，提高了迭代速度和训练效率。提高了迭代速度和训练效率。提高了迭代速度和训练效率。

技术研发人员：白俊杨
受保护的技术使用者：北京京东世纪贸易有限公司
技术研发日：2022.05.10
技术公布日：2022/7/29

完整全部详细技术资料下载

当前第2页1 2