一种应用于推荐系统的多阶知识蒸馏方法

文档序号：33129199发布日期：2023-02-01 07:07阅读：来源：国知局

技术特征：
1.一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，包括：预训练参数量较多的大规模教师模型、较小参数量的小规模学生模型和参数量介于教师模型和学生模型之间的缓冲模型；用二进制训练集和教师模型输出的监督知识联合训练缓冲模型，该监督知识是通过带有tanh饱和激活函数的过滤器筛选的；用二进制训练集和缓冲模型输出的监督知识联合训练学生模型，该监督知识是通过带有sigmoid饱和激活函数的过滤器筛选的；用二进制训练集和学生模型输出的高置信度知识联合训练教师模型，该高置信度知识是通过带有exp函数的过滤器筛选的推荐排名列表里前k个项目的采样概率。2.根据权利要求1所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，每p个epoch更新每个推荐模型的推荐排名列表，其中一个epoch表示训练集里所有数据在网络中都进行了一次前向传播和一次反向传播。3.根据权利要求1所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，利用协同过滤技术训练教师模型t，缓冲模型b以及学生模型s。4.根据权利要求1所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，所述缓冲模型的训练是将缓冲模型的协同过滤损失以及蒸馏损失按一定比例加起来进行训练。5.根据权利要求4所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，带有tanh饱和激活函数的过滤器，采样概率正比于排名差异超过阈值的项目被均匀地采样，其中表示教师模型和缓冲模型的排名差异，ξ
b
(>0)是控制概率平稳性的超参数。6.根据权利要求1所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，所述学生模型的训练是将学生模型的协同过滤损失以及蒸馏损失按一定比例加起来进行训练。7.根据权利要求6所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，带有sigmoid饱和激活函数采样概率正比于其中表示缓冲模型和学生模型的排名差异，ξ
s
(>0)是控制概率平稳性的超参数。8.根据权利要求1所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，所述教师模型的训练是将教师模型的协同过滤损失以及蒸馏损失按一定比例加起来进行优化。9.根据权利要求8所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，带有exp函数的过滤器,采样概率正比于exp函数的过滤器,采样概率正比于其中表示学生模型和教师模型的排名差异，ξ
t
(>0)是控制概率平稳性的超参数。10.根据权利要求1所述一种应用于推荐系统的多阶知识蒸馏方法，其特征在于，训练推荐模型时，在citeulike和foursquare两个数据集上以及bpr和cdae两个base模型上的参
数设置如下：学习率均为10-5
，批次均为1024，优化器为adam，使用hit ratio和normalized discounted cumulative gain作为评判指标，教师模型参数量为学生模型的十倍，蒸馏温度为2。

技术总结
本发明公开了一种应用于推荐系统的多阶知识蒸馏方法，包括：预训练大规模教师模型、中等规模缓冲模型和小规模学生模型；用二进制训练集和教师模型输出的监督知识联合训练缓冲模型，该监督知识是通过带有tanh饱和激活函数的过滤器筛选的；用二进制训练集和缓冲模型输出的监督知识联合训练学生模型，该监督知识是通过带有sigmoid饱和激活函数的过滤器筛选的；用二进制训练集和学生模型输出的高置信度知识联合训练教师模型，该高置信度知识是通过带有exp函数的过滤器筛选的排名列表里前K个项目的采样概率。本发明有效缩小了大型教师模型和小型学生模型之间巨大的排名性能差距，使得学生模型的性能更接近于教师模型，极大地缩短了模型的在线推理时间。短了模型的在线推理时间。

技术研发人员：车超刘媛媛钟兆前
受保护的技术使用者：大连大学
技术研发日：2022.10.28
技术公布日：2023/1/31

完整全部详细技术资料下载

当前第2页1 2