基于强盗反馈在线学习的流数据分类方法和装置

文档序号:35037931发布日期:2023-08-05 21:52阅读:64来源:国知局
基于强盗反馈在线学习的流数据分类方法和装置

本技术涉及计算机,特别是涉及一种基于强盗反馈在线学习的流数据分类方法和装置。


背景技术:

1、在线学习假设是数据流的特征空间是固定的,观察到的样本的真实标签总是可用的。但在实际应用中,数据流的采集环境通常是动态的,导致数据量和特征维度同时增加。另外,可能只能得到数据标签信息的强盗反馈,也就是说,只知道模型对数据标签的预测是否正确,而不知道数据的真实标签。

2、例如,在个性化推荐系统中,给定用户的个人资料,系统向该用户推荐潜在适合的商品。然后,用户会根据推荐给出反馈,反馈通常是用户的实际行为,或者是用户的具体购买情况。系统不知道当其他商品出现时会发生什么。此外,随着用户行为的积累,用户的配置文件会不断扩大,变得更加详细,这意味着数据量和特征空间的不断扩大。

3、上述基于增量特征空间和强盗反馈的在线学习的实际问题很难解决,因为与传统学习范式相比,数据流的数据量、特征空间和标签信息都同时发生了变化。目前,已经有文献探索了从强盗反馈中进行学习,以解决具有部分类标签信息的数据流。以及最近少部分文献研究了如何从具有动态特征空间的数据流中进行学习,以适应获得的样本的特征空间正在演变的情况。然而,从单一的角度研究上述两个挑战并不能有效解决特征空间扩增和强盗反馈同时发生的在线学习问题,因为他们在设计模型时要么只考虑强盗反馈学习问题,要么只考虑特征空间演化学习问题,而没有同时考虑这两个问题。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于强盗反馈在线学习的流数据分类方法和装置。

2、一种基于强盗反馈在线学习的流数据分类方法,所述方法包括:

3、获取流数据序列;

4、构建所述流数据序列中每个数据属于不同类别上的概率分布函数;

5、从所述概率分布函数中采样标签作为当前流数据的预测标签,以及基于所述预测标签得到预测强盗反馈;

6、针对上一时刻更新的分类器参数,根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈,构建瞬时损失函数,并计算累积损失;

7、采用在线被动-攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题;所述当前时刻分类器参数包括当前时刻分类器共享参数和当前时刻分类器新增参数,所述当前时刻分类器共享参数继承上一时刻分类器参数;

8、通过求解所述优化问题和所述累积损失,得到优化后分类器在当前时刻的参数,通过优化参数后的分类器对流数据进行在线分类。

9、在其中一个实施例中,还包括:构建所述流数据序列中每个数据属于不同类别上的概率分布函数为:

10、

11、其中,表示当前流数据的共享特征部分,表示t-1时刻更新的第j个标签的分类器参数,m表示数据流的标签集,表示对共享特征部分的预测标签,表示流数据序列中每个数据属于不同类别上的概率分布函数,γ表示探索参数,的取值在时为1,否则为0。

12、在其中一个实施例中,还包括:基于所述预测标签得到预测强盗反馈,其中,yt表示真实标签。

13、在其中一个实施例中,还包括:针对上一时刻更新的分类器参数,根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈,构建瞬时损失函数为:

14、

15、其中,表示瞬时损失函数。

16、在其中一个实施例中,还包括:采用在线被动-攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题为:

17、

18、

19、其中,优化问题为:其中,表示在t时刻分类器参数,表示在t时刻分类器共享参数,表示在t时刻分类器新增参数,表示在t-1时刻分类器参数,约束条件为:

20、在其中一个实施例中,还包括:基于软间隔策略在所述优化问题中引入松弛变量,得到更新优化问题为:

21、

22、

23、其中c>0是一个平衡参数,ξi表示第i个松弛变量。

24、一种基于强盗反馈在线学习的流数据分类装置,所述装置包括:

25、分布函数构建模块,用于获取流数据序列,构建所述流数据序列中每个数据属于不同类别上的概率分布函数;

26、损失构建模块,用于从所述概率分布函数中采样标签作为当前流数据的预测标签,以及基于所述预测标签得到预测强盗反馈;针对当前分类器参数,根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈,构建瞬时损失函数,并计算累积损失;

27、优化问题构建模块,用于采用在线被动-攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题;所述当前时刻分类器参数包括当前时刻分类器共享参数和当前时刻分类器新增参数,所述当前时刻分类器共享参数继承上一时刻的分类器参数;

28、在线分类模块,用于通过求解所述优化问题和所述累积损失,得到优化后分类器在当前时刻的参数,通过优化参数后的分类器对流数据进行在线分类。

29、在其中一个实施例中,分布函数构建模块还用于构建所述流数据序列中每个数据属于不同类别上的概率分布函数为:

30、

31、其中,表示当前流数据的共享特征部分,表示t-1时刻更新的第j个标签的分类器参数,m表示数据流的标签集,表示对共享特征部分的预测标签,表示流数据序列中每个数据属于不同类别上的概率分布函数,γ表示探索参数,的取值在时为1,否则为0。

32、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

33、获取流数据序列;

34、构建所述流数据序列中每个数据属于不同类别上的概率分布函数;

35、从所述概率分布函数中采样标签作为当前流数据的预测标签,以及基于所述预测标签得到预测强盗反馈;

36、针对上一时刻更新的分类器参数,根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈,构建瞬时损失函数,并计算累积损失;

37、采用在线被动-攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题;所述当前时刻分类器参数包括当前时刻分类器共享参数和当前时刻分类器新增参数,所述当前时刻分类器共享参数继承上一时刻分类器参数;

38、通过求解所述优化问题和所述累积损失,得到优化后分类器在当前时刻的参数,通过优化参数后的分类器对流数据进行在线分类。

39、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

40、获取流数据序列;

41、构建所述流数据序列中每个数据属于不同类别上的概率分布函数;

42、从所述概率分布函数中采样标签作为当前流数据的预测标签,以及基于所述预测标签得到预测强盗反馈;

43、针对上一时刻更新的分类器参数,根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈,构建瞬时损失函数,并计算累积损失;

44、采用在线被动-攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题;所述当前时刻分类器参数包括当前时刻分类器共享参数和当前时刻分类器新增参数,所述当前时刻分类器共享参数继承上一时刻分类器参数;

45、通过求解所述优化问题和所述累积损失,得到优化后分类器在当前时刻的参数,通过优化参数后的分类器对流数据进行在线分类。

46、上述基于强盗反馈在线学习的流数据分类方法、装置、计算机设备和存储介质,在应对流数据特征维度增加的同时,分类增加的问题时,首先基于数据属于不同类别上的概率分布函数,通过强盗反馈中的信息推测出样本的最佳预测标签,然后基于强盗反馈和推测出来的最佳预测标签,构建瞬时损失函数。从而通过优化问题求解,以及损失函数,训练出高度动态的多分类器。上述多分类器在进行数据分类时,可以在数据特征维度增加以及数据规模增加的同时,实现准确分类。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1