基于可解释图神经网络的可视推荐分析方法和装置

文档序号:36408858发布日期:2023-12-16 17:58阅读:30来源:国知局
基于可解释图神经网络的可视推荐分析方法和装置

本发明提出了一种基于解释图神经网络的推荐解释可视分析方法和装置,本发明将推荐问题转换为图分类问题,利用解释图神经网络模型对推荐结果进行解释,同时从实例级和组群级出发,支持推荐场景下多粒度的解释;并将作为行为主体的分析人员融入可视化流程中,设计多视图及其之间交互流程,便于分析人员进行图模式挖掘,帮助其理解图神经网络的推荐细节。


背景技术:

1、图结构广泛应用于许多领域,如社交网络,交通路线,分子结构等,为了挖掘图结构的信息,当前已提出许多成功且应用广泛的图神经网络模型,在节点分类、链接预测等任务中取得了显著的成果。图神经网络也被广泛应用于推荐系统中,通过将用户与物品、物品与属性之间的关系构建为图结构,迭代地聚合邻域信息,更新节点表示,基于节点的嵌入表示得到推荐结果。在推荐系统中,对于推荐结果进行解释是非常必要的。合理有效的解释可以帮助用户理解推荐结果与他们的历史行为之间的关系,进而让用户对推荐模型建立信赖。

2、以往大部分面向推荐的解释工作包括分析用户的兴趣偏好,对用户特征进行画像,从而对当前推荐结果进行解释。现有的基于图神经网络的推荐系统是从用户与推荐结果的路径出发,将注意力分数最大路径作为解释。这些工作在一定程度上能够对推荐结果提供有效的解释,但是这些解释没有从模型出发且都针对特定用户,往往具有个体独特性,不能适用于其他用户,所以这样的解释不具有说服力。因此,如何把解释拓展到一个局部范围,给出一个适用于群体的通用解释,是目前存在的一个问题;另外,以往的工作,在推荐的可视化设计上较简单,通常只是简单地展示推荐结果的静态信息,缺乏交互设计,并无法支持用户对推荐结果进行深入的互动探索。然而,用户通常期望了解推荐背后的推理过程,推荐结果的可靠性以及对推荐结果进行个性化调整的可能性。


技术实现思路

1、为了克服现有技术的的上述不足,本发明提出了一种基于解释图神经网络的推荐解释可视分析方法和装置。

2、本发明的基于解释图神经网络的推荐解释可视分析方法,包括如下步骤:

3、步骤1:以一定规则对数据进行清洗与预处理,保证数据的有效性,并根据观影数据计算特征相关性分数;

4、步骤2:将处理好的数据作为输入,用具有代表性的图神经网络模型kgat进行训练,获得实体的高维嵌入表示和推荐结果;将嵌入空间分布转换为分类任务,使用辅助节点路径优化方法,获取优化后的用户推荐路径图,利用解释图神经网络解释模型gnnexplainer,抽取出对推荐预测重要的图模式;

5、步骤3:设计数据可视化视图对解释过程进行展示,对得到的图模式,设计解释探索分析视图,以方便分析人员进行多粒度的图模式挖掘。同时,通过偏好分析对比视图,结合解释评估视图,来验证解释模型的可靠性;

6、步骤4:通过模型计算与可视化设计为分析人员提供对推荐结果的理解,并据此获得可视见解,通过迭代式交互分析提高模型的推荐性能,以此验证分析方法的可靠性,形成模型-可视分析系统-模型的闭环。

7、进一步,步骤1具体包括:

8、1.1获取原始数据集。使用scrapy框架从真实的电影网站爬取数据,包括用户数据,电影数据,导演数据,演员数据以及用户历史观影记录。这些电影数据涵盖了上映年份、类型、标签、导演、演员、编剧等详细信息。

9、1.2对原始数据集进行数据预处理。为确保数据质量,防止出现无效数据,以用户的观影记录至少大于50、电影被有效用户观看次数大于20和电影的类型文本完整等条件进行了数据过滤。此外,考虑到真实场景中推荐任务通常面临冷启动问题,又保留了10%的观影记录小于50部电影的用户作为冷启动数据,以便全面评估模型性能。

10、1.3计算特征相关性分数。使用特征相关性分数(特征分数)来衡量用户的观影特征。该方法基于目标用户的历史观影记录中各电影的属性特征进行计算,包括类型,导演和演员相关性分数。以类型相关性分数为例,其具体计算公式为:

11、

12、

13、类型集合l={l1,l2,l3,…,li,…l35},因为所有电影的类型都在35种类型范围之内;用户集合u={u1,u2,u3,…uk,…u9622},表示9622个用户;对于用户uk来说,假设他看过n部电影,为集合mk={m1,m2,m3,…mj,…mn},其中电影mj对应的类型集合为gj,使用代表电影mj中类型li的特征分数,如公式(1)所示。

14、针对用户的类型相关性分数,他看过的电影中关于类型li的相关性分数为的计算如公式(2)所示。用户群的相关性分数计算是在用户的相关性分数基础上进行求和操作。

15、再进一步,步骤2具体包括:用具有代表性的图神经网络模型kgat进行训练,获得实体的高维嵌入表示和推荐结果,将推荐问题转换为图分类问题,并利用gnnexplainer的思想对推荐问题进行解释。其中将推荐问题转换为图分类问题分为两个步骤。第一步是将推荐得到的嵌入空间分布转换为分类任务;第二步是将用户推荐结果转换为图结构;通过这种转换方式,就将推荐问题转换为了图分类问题。

16、2.1将推荐得到的嵌入空间分布转换为分类任务。采用豆瓣数据作为输入,包含用户,已观看电影,电影特征等信息。通过使用推荐模型kgat对数据进行训练后,得到了所有实体的嵌入表示,然而,在对用户的嵌入表示进行降维和聚类后,发现聚类效果较差,不同用户群(不同簇)之间存在交叉。因此,为了获得更有意义的用户群,本发明对用户的嵌入表示进行了更新,将用户的推荐电影嵌入表示与用户原有的嵌入表示相结合,从而更新了用户的嵌入表示。

17、针对该嵌入表示,进行聚类,降维处理。在最初实验时,采用t-sne降维,发现其处理速度慢且只保留了数据局部的结构,进而使用基于流形理论的方法umap,它能够更好地保留数据的全局结构,使得降维后的数据点在低维空间中更接近原始数据的全局布局。同时,为了不受初始中心选择的影响,选择dbscan进行聚类。随后,通过多次参数实验,获得了有意义的用户群分布。用户群之间分界清晰,不混杂。聚类结果的意义在于对用户进行分类,每个簇类内的用户具有一定程度的相似推荐语义信息,相反,空间位置远离的用户群之间必然存在推荐信息差异,这构成了的分类任务。

18、2.2将用户的推荐结果转换为图结构。首先,根据用户群内用户的id,获得推荐模型为其推荐的top 20个物品id。以用户为起始点,推荐物品为目标点,用户观影信息为中间节点,构建了用户和推荐物品之间的完整路径图。接着利用步骤2.4中的辅助节点路径优化方法,对推荐图路径进行优化,得到了优化后的推荐图路径。通过这一过程,将推荐结果转换为了图结构。

19、2.3推荐场景中基于gnnexplainer的可解释图神经网络模型。gnnexplainer的核心思想是识别出对预测结果最具有影响力的子图结构和节点特征。gnnexplainer的工作流程是将一个已经训练好的gnn模型和其预测结果作为输入,然后输出一个子图,该子图能够对该gnn模型的预测结果产生最大的影响。在这个过程中,使用图掩码来选择真正重要的子图,使用特征掩码来选择真正重要的子特征集。给定一个节点v,目标是识别出子图(c为类别)和相关的特征xs={xj|vj∈gs},这些特征对gnn的预测y^很重要。使用互信息将重要性的概念形式化,制定优化公式(3):

20、

21、其中,由于gnnexplainer是在训练好的gnn模型上进行解释,所以h(y)是常数,上面的式子经过转换后,使用as[j,k]代表边(vj,vk)存在的期望,eg用ac⊙σ(m)来代替,m是要学习的graphmask。由于很多任务只关心部分类的节点及其模型如何对该类进行预测。因此针对类c,修正为公式(4)。

22、

23、接着使用gnnexplainer从推荐路径图中抽取真正影响推荐结果的子图,这个子图称为解释子图(即图模式),作为对推荐结果的解释。然后,对解释进行可靠性评估,以用户偏好模式作为基准,将生成的图模式与其对比,进行解释的可视验证。

24、2.4辅助节点路径优化方法。为了解决用户已观看电影繁多导致的推荐图路径冗杂,进而不存在共有图模式的问题,本发明借鉴了数据增广的思想,并提出了辅助节点路径优化方法。在不影响语义的情况下,对推荐图路径做数据增广,具体来说是将繁多的推荐路径图进行优化。将导演d,演员a,相似用户ul各自归为一类节点的处理原因是:以演员举例,如果保留演员节点的特殊性,由于演员众多从而无法提取出用户群的共有图模式,因此采用屏蔽演员特殊性。通过辅助节点路径优化方法,能够保留路径中类型节点的特殊性,同时屏蔽辅助节点的特殊性,得到优化的推荐图路径。

25、进一步,步骤3具体包括:

26、3.1构建特征分数概览及嵌入分布细节。从特征和特征组合出发,为了能够让分析人员得到偏好模式,并与嵌入空间分布的一致性进行对比,为此设计特征列表视图,特征关注视图,嵌入分布视图进行展示。分析人员可以在特征列表视图中选择感兴趣的特征或联合多个特征,并在特征关注视图中查看对该特征组合关注的用户群。

27、在选择感兴趣的用户群后,将在嵌入空间分布图中突出显示它们的空间位置,它是通过推荐的高维嵌入降维聚类得到的,并允许分析人员针对感兴趣的用户群进行扩放观察,查看用户的类型,演员,导演相关性分数,并且还可以只对某种相关性指标进行深入研究,更细粒度地探索感兴趣的用户。

28、3.2构建偏好分析对比。偏好分析对比由用户群偏好分析对比视图和用户偏好分析对比视图组成。用户群偏好分析对比利用条形图,雷达图,环形图实现。条形图展示不同用户群对不同特征的关注程度。雷达图用于呈现不同用户群关注特征的覆盖情况。最外圈的环形图,用于突出显示用户群关注特征的差异情况。用户偏好分析对比由气泡图,历史观影信息,电影细节信息组成。分析人员可以通过气泡图对感兴趣用户进行深入研究。通过点击气泡图中的演员实体,可以呈现用户观看的由该演员参演的电影列表,进而在电影细节信息图中可以查看电影的海报和详细信息。

29、3.3构建解释模式探索分析。它由推荐结果溯源图和模式对比探索图组成。推荐结果溯源图利用可伸缩的力导引图来展示目标用户与推荐结果间的图路径。模式对比探索图由列向圆组成,该视图可以对提取到的图模式进行整体概览,并可以调整图模式中重要节点的个数。在列向圆的右上方,有推荐详细按钮和解释详细按钮。点击推荐详细按钮,可展示推荐电影的细节信息。点击解释详细按钮,可展示推荐结果溯源图,包含推荐详细图和解释详细图。

30、3.4构建解释评估概览。为了能够对解释模式进行定量评估,并验证用户群的解释模式的可靠性,设计了双向条形图来展示提取到的某种解释图模式在所有解释图模式中的定量占比,同时通过与偏好分析对比图进行联合分析,可以查看其解释图模式与历史偏好模式的一致性,从而评估解释图模式的可靠性。

31、进一步,步骤4具体包括:通过模型计算与可视化设计为分析人员提供对推荐结果的理解,并据此获得可视见解,通过迭代式交互分析提高模型的推荐性能,以此验证分析方法的可靠性,形成模型,可视分析系统,模型的闭环。

32、为此,本发明设计了对比实验。首先,利用本系统提取用户群的解释模式,并获取符合解释模式的推荐电影(不区分是否命中)。然后,随机替换并调整训练集,再次训练模型。利用新的推荐结果,计算推荐模型在精确率p,召回率r,准确率auc,排序指标ndcg这些推荐系统常用的指标上的表现。

33、最终,结合实验结果,可以清楚的观察到,在本发明系统的帮助下,推荐模型在四个指标上的推荐性能大多得到了提升。这证明了本发明方法的可靠性和有效性。

34、本发明的第二个方面涉及基于解释图神经网络的推荐解释可视分析装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的基于解释图神经网络的推荐解释可视分析方法。

35、本发明的第三个方面涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的基于解释图神经网络的推荐解释可视分析方法。

36、本发明主要解决以下三个问题:①采用可解释图神经网络对推荐系统进行解释:将推荐问题转换为图分类问题,使用辅助节点路径优化方法处理推荐路径图,通过解释模型提取图模式,从而对推荐结果进行解释;②从实例级和组群级出发,对单个用户,用户群,多个用户群的图模式展开探索,进行多粒度图模式挖掘,揭示图神经网络的推荐模式;③通过真实的豆瓣电影异构图数据,对可视分析方法的可靠性进行了验证和评估,解决了推荐的黑盒问题,增加了可解释性。

37、本发明的优点是:(1)操作简单,表达力强。系统视图布局及交互设计按照可视化设计原则进行设计,用户按照由上至下,从左到右的顺序在可视化界面进行简单的选择操作,系统将展示推荐结果,解释细节与其丰富的上下文特征,并对其进行直观比较和评估。(2)创新性强。目前尚未存在利用解释图神经网络模型对推荐结果进行分析的可视化分析方法,本方法通过将推荐问题转换为图分类问题这一巧妙的思想,采用可解释图神经网络对推荐结果进行解释。同时也将“分析人员”这一重要的行为主体纳入可视化流程中,通过系统的视图获得可视见解,再次训练模型,经过迭代调整,提高推荐模型的指标性能。(3)现实意义。本发明不仅使用了真实豆瓣电影数据集,使系统结果具有可实施性,而且能够帮助非模型开发人员快速理解推荐结果的由来,支持推荐场景下的多粒度解释,揭示图神经网络的推荐模式,增加了推荐结果的可解释性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1