一种面向推荐系统模型的数据遗忘学习方法、装置及介质

文档序号:35008618发布日期:2023-08-04 04:11阅读:39来源:国知局
一种面向推荐系统模型的数据遗忘学习方法、装置及介质

本发明涉及数据处理系统或方法领域,具体的说是一种面向推荐系统模型的数据遗忘学习方法、装置及介质。


背景技术:

1、推荐系统是当今移动互联网时代解决信息爆炸问题的关键基础工具,切实影响着人们生活、娱乐、出行等活动,是服务商与用户最常用的交互媒介。推荐系统通常通过用户的历史交互信息来推测用户兴趣,一个部署含有参数的模型必然会记下这些用户历史信息。然而,一个模型在某些情况下也需要擦除部分历史数据,比如用户出于隐私考虑要求删除其个人的历史信息,以及系统本身需要去删除某些以攻击为目的信息等。为了方便将这些需要擦除的信息称为不可用数据。需要注意的是,这些需要擦除的不可用数据不仅指从数据库中擦除,更强调的是从模型的参数中擦除这些不可用数据,如何从模型的参数中擦除这些不可用数据应当予以关注。

2、在目前的推荐系统中,实现不可用数据的擦除主要依赖于重训练。第一种重训练是完全重训练,即在避免使用不可用数据的情况下,从头开始训练推荐系统模型来实现数据擦除的目标,这种方法往往面临着较多的时间耗费,而推荐系统是一个实时的系统,因此该方法并不实用。第二种重训练是部分重训练,这种方法在初始训练时,数据被划分成不同的独立的部分,不同部分数据被用来训练不同的子模型,当收到擦除不可用数据的请求时,使得只有小部分子模型需要被重新训练,从而增加模型重训练效率。然而,此种方法要求不可用数据仅影响一小部分子模型,这种假设也限制了该方法实际应用,因为不可用数据的分布往往是未知的,且不受限制的。除了上述基于重训练的方法,一些研究工作则是通过记录训练过程的梯度更新信息,然后回溯取消不可用数据的梯度更新信息来实现数据擦除的目的,然而,此种方法又会忽略不同样本间的相互影响。

3、在推荐系统之外的技术领域,也有研究工作尝试使用影响函数(influencefunction)来实现数据擦除,然而其无法直接应用于推荐系统中,因为其不能评估擦除不可用数据对于其他数据计算函数的影响。此外,直接应用也会造成海量的计算开销问题。本发明对于影响函数做出改进,使得可以衡量擦除不可用数据所引起的其他数据计算函数变化所带来的影响,同时通过剪枝方案来实现计算加速。


技术实现思路

1、本发明是为了解决上述现有技术存在的不足之处,提出一种面向推荐系统模型的数据遗忘学习方法、装置及介质,不改变原始模型的训练架构、模型架构及部署方式,提升了基于影响函数擦除数据的准确度和擦除数据效率。

2、本发明为达到上述发明目的,采用如下技术方案:

3、第一方面,本发明提供了一种面向推荐系统模型的数据遗忘学习方法,该数据遗忘学习方法包括以下步骤:

4、s1、定义为一个参数由表示的推荐系统模型对用户物品对在训练数据集下的计算函数,其输出为对于样本的预测,且在数据集下已得到最优模型,表示为,其中,为所述推荐系统模型在数据集下的损失函数总和,表示为, 表示数据集中的一个样本,表示用户,表示物品,表示用户对于物品的标签,表示损失函数;

5、s2、在数据集中不可用数据集为,剩下数据集为,则擦除数据后的模型为,表述为,根据影响函数估计,估计结果记录为,则得到的擦除不可用数据集后的模型表示为。

6、更进一步地,使用不同的数据集,则对于输入样本的计算方式不同,采用的擦除不可用数据集的模型计算函数也不同。

7、更进一步地,所述擦除不可用数据集的模型计算函数的具体计算过程如下:

8、(1)若数据集中输入的用户物品对的推荐系统模型计算函数,将剩下数据集中所有满足该条件的样本点记录为计算函数变化数据集,则推荐系统模型在基于数据集与剩下数据集下计算数据集中所有样本点的损失函数之间区别为,表示为;

9、(2)计算不可用数据集在数据集下的损失函数,表示为;

10、(3)基于得到的、,定义在基础上以强度加上和所对应的最优模型,表示为:,其中表示一个扰动项,得出,;

11、(4)定义不可用数据集对于推荐系统模型的影响函数为,表示为:,其中,表示对求导,且表示为hessian矩阵,表示为hessian矩阵的逆矩阵;

12、(5)然后基于影响函数估计为

13、,则擦除不可用数据集后的模型为:。

14、更进一步地,所述数据遗忘学习方法进行数据擦除时,是通过剪枝方法实现加速,删除对于数据擦除不重要的模型参数。

15、更进一步地,所述剪枝方法中,删除不重要的模型参数的具体流程如下:

16、(1)将数据集中的所有用户与物品集合表示为,并且对于其中每个元素,计算统计与其存在交互的元素集合,记为,并设置最大迭代次数k,对于所有元素为其初始化一个重要性得分,每次迭代的裁剪比例;

17、(2)初始化一个空集,遍历数据集中每一个样本,将用户物品对加入到,执行对任意,更新;遍历完成后,更新,最后令;

18、(3)若初始化一个空集令所有的,遍历,对于任意的,更新,并将加入到;遍历完成后,更新,令;

19、(4)若,继续执行步骤(3),得到 ,表示v对应的模型参数,并返回;根据得到的,将中其他参数记为,则有,,为对于擦除数据重要的模型参数,为对于擦除数据不重要的模型参数,在更新时忽略的变化,仅考虑的变化。

20、更进一步地,根据所述推荐系统模型的影响函数

21、,将替换为,且模型中固定,将其作为常数,则即简化为:

22、,其中,则擦除不可用数据集后的模型为:,其中,。

23、更进一步地,若所述的参数量为(),则模型更新的计算复杂降低为或者,其中为影响的样本量,为模型参数量,为时间复杂度。

24、更进一步地,所述损失函数为二元交叉熵损失函数。

25、第二方面,本发明提供了一种数据推荐装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时实现所述的数据遗忘学习方法。

26、第三方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征是,所述计算机程序被处理器运行时实现所述的数据遗忘学习方法。

27、与现有技术相比,本发明的有益效果如下:

28、本发明提升了基于影响函数擦除数据的准确度,传统的影响函数计算数据对于模型的影响时,仅考虑损失函数项,忽略了,而是衡量其他数据的预测函数(即计算函数)受移除数据的影响部分,其在推荐系统模型中广泛存在,只有把这一影响部分加以考虑,才能实现完全的数据擦除,从而获得与从头开始训练推荐系统模型一样的目标结果。

29、本发明提升了擦除数据的效率。一方面,本发明在避免了直接估计,然后把这一量直接加到原始模型来获得擦除不可用数据的模型,避免了重训练,在擦除数据不是特多的情况下,可以助力实现更快地擦除。另一方面,本发明提出了剪枝方法实现加速,把转变为,进一步加速,删除对于数据擦除不重要的模型参数。

30、本发明方法是一个后处理方法,不需改变原始模型的模型架构、训练架构,只需要可以获得模型的梯度且对于模型本身可以访问即可,可以方便直接嫁接到已经部署好的系统模型上,有利于本发明方法的广泛应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1