本发明涉及大数据,更具体的说是涉及一种推荐算法风险监测方法及系统。
背景技术:
1、推荐系统是指通过主动收集用户的特征资料,对用户个性、习惯、偏好分析,为用户定制并提供其感兴趣的信息;同时及时跟踪用户的需求变化,调整信息服务的方式和内容,从而输出更符合用户个性化需求的信息,对降低用户搜寻信息成本,解决信息超载具有重要意义。
2、但是,现有的推荐系统在解决信息过载问题的同时,推荐系统缺乏有效的评估和监管,也带来了信息安全风险和用户权益风险问题,例如“信息茧房”阻碍了个体与信息环境的全面发展,加重了群体极化现象发生;基于观察、搜集、推导出的消费者个人特征和个人行为信息,判断消费者的购买能力和支付意愿,进而对单个或一组消费者执行区别性、差异化的收费标准或价格政策,侵害了消费者的知情权。
3、因此,如何对推荐系统进行有效的监管和评估是本领域技术人员亟需解决的问题。
技术实现思路
1、有鉴于此,本发明提供了一种推荐算法风险监测方法及系统,基于目标平台的分类的用户群体数据,对目标平台的信息安全风险和用户权益风险进行评估,对目标平台运行状态进行实时监控和预警。
2、为了实现上述目的,本发明提供如下技术方案:
3、本发明公开了一种推荐算法风险监测方法,具体步骤如下:
4、步骤1:获取目标平台的用户群体数据;
5、步骤2:对所述目标平台的用户进行实时监控,获取所述目标平台当前运行状态;
6、步骤3:根据有效新颖性和有效多样性计算综合评价指标,对目标平台的信息安全风险进行评估,得到第一预警结果;和/或根据用户群体内价格方差,用户群体间价格方差以及重点群体与普通群体价格差值,对目标平台的用户权益风险进行评估,得到第二预警结果;
7、步骤4:可视化展示目标平台的运行状态和预警结果。
8、进一步的,所述步骤1包括以下步骤:
9、步骤1.1:通过智能爬虫技术,获取目标平台的用户数据、用户行为数据和平台推送数据;
10、步骤1.2:根据所述用户数据和所述用户行为数据,提取用户综合特征;根据所述用户综合特征,使用基于聚类的方法对用户进行分类得到不同的普通用户群体;
11、步骤1.3:选取所述普通用户群体中的关键用户,以关键用户构成重点用户群体。
12、进一步的,所述步骤1.1包括:
13、使用爬虫技术根据url地址进行数据爬取,将网页转换成字符串保存;
14、使用网页解析器提取用户身份和用户行为数据,并根据用户id或名称对数据进行分类;
15、其中,所述爬虫技术还包括:使用selenium技术模拟真实用户,对网站数据进行爬取;所述网页解析器包括:正则表达式、beautifulsoup。
16、进一步的,所述步骤1.2包括:
17、根据用户身份和用户行为数据,进行特征选择得到用户个人信息特征和用户行为特征,通过word2vec转换为特征向量并连接;用户个人信息特征包括:用户年龄、性别、地区,用户行为特征包括:用户消费水平、购买记录、浏览记录;对于连续型特征例如用户年龄、用户消费水平,直接将数值放入特征向量中,对于离散型特征例如性别、地区、购买记录、浏览记录,使用one-hot编码后将向量拼接到特征向量中。
18、使用mlp模型对所述特征向量进一步特征提取,得到用户综合特征,基于聚类的群体分类方法,对用户群体进行分类;
19、其中,所述基于聚类的群体分类方法为:基于多样化用户距离或相似度计算方法,通过k-means算法进行聚类。
20、进一步的,所述步骤1.3包括:
21、基于普通用户群体数据构建用户群体有向网络,其中用户为网络的节点,关注关系为网络的边,由关注者指向被关注者;
22、基于改进pagerank算法,计算所述用户群体有向网络中每个节点pr值,并对节点重要性进行排序,获取所述用户群体有向网络中的关键节点作为关键用户。
23、进一步的,所述步骤3中包括:
24、根据用户对某一物品的评分以及所述物品的系统评分最大值,计算用户对所述物品的喜爱程度,根据所述物品的评分记录次数之和以及所有用户数量计算所述物品的新颖性,所述喜爱程度与所述新颖性的乘积即为所述物品的有效新颖性,对所有物品的有效新颖性进行加权计算得到全部物品的有效新颖性;根据某一类别物品中所有物品的评分最大值,以及评分系统中的最大值计算有效多样性;根据所述全部物品的有效新颖性和所述有效多样性,以及归一化参数计算目标平台的综合评价指标;基于所述综合评价指标以及第一阈值得到第一预警结果。
25、具体的,推荐系统评估框架的计算模型如下:
26、
27、其中,enov为有效新颖性,ediv为有效多样性,enov是enovs的加权平均,enovs为单个物品i的有效新颖性,表示为用户u的喜爱程度libi与新颖性novi的乘积。enov的计算公式如下:
28、enovs=nov(t)libi(i,u)
29、
30、ordfun(i)为物品i的权重系数,r(u)代表用户u推荐列表中所有物品的集合,定义如下:
31、
32、novi是新颖性,计算公式如下式所示:
33、
34、其中,ratingnum(i)是现有数据集中物品i的所有评分记录之和,totalpersonnum是所有用户的数量,物品的新颖性novi指所有用户中没有对该物品进行评分的比例;
35、libi是用户的喜爱程度,计算公式如下式所示:
36、
37、其中,rating(i,u)是用户u对物品i的评分,maxscore是评分系统中的最大值;
38、有效多样性ediv的计算公式如下:
39、
40、其中,表示相似度为k的类别中所有物品的得分最高的物品得分,k(u)是用户推荐列表中所有物品的类别集合。
41、综合评价指标可以表示为:
42、
43、c1和c2是归一化参数,c1是推荐列表的最大值,c2是推荐列表的有效多样性的最大值,进一步的,所述步骤3中还包括:
44、计算某一物品在某不同用户群体内的价格方差;计算所述物品在所有用户群体内的平均价格,并计算平均价格方差;计算所述物品在重点群体内的平均价格与在普通用户群体的平均价格差值;基于所述价格方差与第二阈值、所述平均价格方差与第三阈值、所述平均价格差值与第四阈值,得到第二预警结果。
45、具体的,群体内价格方差通过计算同一群体内所有用户对同一产品的购买价格方差,基于价格方差和第二阈值比较结果,判断是否发出预警,计算公式如下:
46、
47、其中,mean(x)为某一用户群体购买指定产品的平均价格,xu为用户u的购买价格,n为用户群体总数。同理,计算物品在所有用户群体内的平均价格后,可以计算平均价格方差,基于平均价格方差和第三阈值比较结果,判断是否发出预警。计算物品在重点群体内的平均价格,并逐一与各普通用户群体的平均价格进行比较,当差值大于第四阈值时,发出预警。
48、本发明还公开了一种推荐算法安全风险监测系统,包括:
49、数据获取模块:获取目标平台的用户群体数据;
50、实时监控模块:对所述目标平台的用户进行实时监控,获取所述目标平台当前运行状态;
51、风险预警模块:根据有效新颖性和有效多样性计算综合评价指标,对目标平台的信息安全风险进行评估,得到第一预警结果;和/或根据用户群体内价格方差,用户群体间价格方差以及重点群体与普通群体价格差值,对目标平台的用户权益风险进行评估,得到第二预警结果;
52、可视化模块:可视化展示目标平台的运行状态和预警结果。
53、进一步的,所述数据获取模块还包括:
54、智能爬取单元:通过智能爬虫技术,获取目标平台的用户数据、用户行为数据和平台推送数据;
55、群体划分单元:根据所述用户数据和所述用户行为数据,提取用户综合特征;根据所述用户综合特征,使用基于聚类的方法对用户进行分类得到不同的用户群体;
56、关键用户选取单元:选取所述用户群体中的关键用户,以关键用户构成重点群体。
57、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种推荐算法风险监测方法及系统,通过爬虫技术获取用户数据,可以根据监测需求和目标网站的结构,定制化地爬取所需的数据,获取更全面、更真实的用户数据,涵盖更多样的用户特征和行为信息;使用深度学习网络提取用户特征,能够更好地捕捉数据中的非线性关系和高级特征,从而提高特征提取的能力,能够自动学习到最具有区分性和表达力的特征表示,无需手工设计特征或进行特征工程,简化了流程,节约了时间;本发明提出的预警系统可以对可能的信息安全风险和用户权益风险进行评估预警,并可视化展示目标平台的运行状态,减少了推荐系统的信息安全风险和用户权益风险问题。