一种推荐系统的线下评价方法_2

文档序号：9727384阅读：来源：国知局

据作为训练集，用后一个月的数据作为测试集。对所有训练集中的商品按照其在一段时期内购买用户的数量进行排名，之后在该排名序列中均匀抽取1000个商品，并用待评价的算法计算出这1000个商品的潜在用户，作为评价该算法的测试样本。
[0024]2构造近似正样本
[0025]上步骤里已经用训练集的数据对选取出的1000个商品计算了潜在用户，对于这些用户，我们再看他们在最后一个月，即测试集数据中，到底有没有购买算法计算出来的要给他们推荐的商品。虽然在最后一个月中，并没有真正发生推荐行为，但是这些用户可能通过其他方式接触到了这些商品，接触到并且购买了，说明这个用户对这个商品是非常感兴趣的，那么如果算法给他推荐，他也会购买，这部分用户的数据量虽然小，但是可以把他们当作近似的正样本。
[0026]3构造近似负样本
[0027]在构造近似负样本的时候，对于第I步计算出来的1000个商品对应的潜在用户，对其在训练集中的行为数据进行统计，统计出一些非常不活跃的用户，即这些用户购买商品的意愿非常低。对于这类不活跃用户，如果推荐算法给他们推荐新的商品，他们购买的可能性也非常低，因此，很可能产生无效推荐。我们将这些用户就定义为近似负样本。
[0028]4计算近似正负样本在推荐结果中的分布并评价算法
[0029]对于推荐算法，在计算一个商品的潜在用户的时候，会同时计算出一个用户购买意愿分数，最后会根据这个分数对待推荐的用户进行排名，并依照业务需求，截取排名靠前的用户进行推荐。在上面已经定义出了我们自己构造的近似正负样本，在评价算法的时候，我们主要是看近似正负样本在用训练集计算出的那批潜在用户中的排名分布。具体来讲，如果大部分的近似正样本在算法算出的潜客中排名靠前，大部分近似负样本在算法算出的潜客中排名靠后，则证明算法有效，相反，如果近似的正负样本排名的分布比较均匀，则证明算法无效。所以，本发明在评价算法的时候，用排在潜客前20%的正样本数加上排在潜客后20%的负样本数目作为评价算法的最终分数。根据这个分数的变化，就可以在线下比较两个算法的好坏，也可以根据分数调节算法的参数，使算法达到最优。
[0030]根据不同的业务场景，对于评价算法的历史数据选取的时间段长度以及训练集，测试集的划分，具体应用的时候需要灵活调整;在用本发明的方法线下调节一个推荐算法参数的时候或者是对比两个算法的时候，测试样本的选取要固定下来，以避免不同商品特性的差异对算法评价造成的影响。在使用本发明方法的时候，最好结合线上真实的检测结果，对评价方法进行校对，使得评价方法达到更好的效果。
【主权项】
1.一种推荐系统的线下评价方法，包括下面步骤: 1)选取测试样本对于一个推荐系统，先将历史数据进行划分，将历史数据按照时间的先后分为训练集和测试集;对所有训练集中的商品按照其在一段时期内购买用户的数量进行排名，之后在该排名序列中均匀抽取η个商品，并用待评价的推荐算法计算出这η个商品的潜在用户，作为评价该推荐算法的测试样本； 2)构造近似正样本对于选取出的这η个商品的潜在用户，再看看在测试集数据中，到底有没有购买通过推荐算法计算出来的要给他们推荐的商品，即使在测试集中，并没有真正发生推荐行为，但是这些用户可能通过其他方式接触到要给他们推荐的商品，接触到并且购买，说明这些用户对这个商品是非常感兴趣的，那么如果推荐算法给他们推荐，他们也会购买，把这部分用户当作近似正样本； 3)构造近似负样本在构造近似负样本的时候，对于选取出的这η个商品的潜在用户，对其在训练集中的行为数据进行统计，统计出一些非常不活跃的用户，即这些用户购买商品的意愿非常低，对于这类不活跃用户，如果推荐算法给他们推荐新的商品，他们购买的可能性也非常低，因此，很可能产生无效推荐，将这些用户就定义为近似负样本； 4)计算近似正负样本在推荐结果中的分布并评价推荐算法对于推荐算法，在计算一个商品的潜在用户的时候，会同时计算出一个用户购买意愿分数，最后会根据这个分数对待推荐的用户进行排名，并依照业务需求，截取排名靠前的用户进行推荐;在评价推荐算法的时候，看近似正样本和近似负样本在用训练集计算出的那批潜在用户中的排名分布，如果大部分的近似正样本在推荐算法算出的潜客中排名靠前，大部分近似负样本在推荐算法算出的潜客中排名靠后，则证明推荐算法有效，相反，如果近似正样本和近似负样本的排名分布比较均匀，则证明算法无效;根据上述原理，在评价推荐算法的时候，用排在潜在用户的前20%的近似正样本数加上排在潜在用户的后20%的近似负样本数目作为评价算法的最终分数，根据这个分数变化，在线下比较某两个推荐算法的好坏，分数较高的推荐算法被认为是较好的算法;或者根据分数调节某推荐算法的参数，使推荐算法达到最优。
【专利摘要】本发明涉及一种推荐系统的线下评价方法，包括：1)选取测试样本；2)构造近似正样本；3)构造近似负样本；4)计算近似正负样本在推荐结果中的分布并评价推荐算法,在评价推荐算法的时候，用排在潜在用户的前20％的近似正样本数加上排在潜在用户的后20％的近似负样本数目作为评价算法的最终分数，根据这个分数变化，在线下比较某两个推荐算法的好坏，分数较高的推荐算法被认为是较好的算法；或者根据分数调节某推荐算法的参数，使推荐算法达到最优。
【IPC分类】G06F17/30, G06Q30/02
【公开号】CN105488107
【申请号】CN201510810203
【发明人】王宝亮, 李丽丽, 鹿凯宁, 张文彬, 常鹏
【申请人】天津大学
【公开日】2016年4月13日
【申请日】2015年11月20日

完整全部详细技术资料下载

当前第2页1 2