本申请涉及一种垃圾评论检测方法,更具体地说,是涉及一种基于增强的多关系图神经网络的垃圾评论检测方法。
背景技术:
1、随着互联网技术的快速发展,电商平台已经逐渐取代了实体店,成为了人们的购物首选。其中大量的商品交易也越来越依赖于可靠的用户对物品给出合理有价值的评价,许多人就在此发现了“商机”,通过给电商“刷”评论来获取利益。这无疑是一种商业上的欺诈行为,严重误导消费者决策,损害电商平台和消费者的利益,对电子商务的发展造成了不可忽视的危害。识别那些有组织的恶意攻击用户,具有深刻的理论意义和重大的社会经济价值
2、目前,垃圾评论检测主要应用图神经网络(以下称gnn)实现。这是因为为了对抗原有的基于特征的欺诈检测方法,垃圾评论往往存在“伪装”,即与正常用户发布的评论在特征上相似。如此一来,以往的依靠特征的检测方法难以对相似的模糊情况进行精确分类。而基于gnn的检测方法将各个评论按照一定的关系组织成图的形式,在图上发掘评论之间隐藏的微妙信息,以此实现对模糊情况的分类。
3、即便如此,基于gnn的检测方法仍然存在许多难以解决的问题:
4、一方面,真实数据中存在类不平衡的问题,即垃圾评论数量往往少于正常评论。例如,在研究该问题的论文使用的公开数据集amazon中,只有9.5%的账户发布垃圾评论,而其他评论则被视为正常评论。在来自yelp的真实世界评论数据集yelpchi中,14 .5%的评论是垃圾评论,而其他评论被视为正常评论。类不平衡问题往往导致欺诈检测模型分类边界朝着多数类偏移,对于少数但更重要的类,即欺诈实体,表现不佳。
5、另一方面,许多现有的基于gnn的方法忽视了垃圾评论的“伪装”行为。伪装具体而言可以分为两类。其一是自身特征伪装,表现为欺诈实体与正常实体在特征空间中很接近(处于接近的欧几里得距离)。这使得基于特征的方法将无法识别这种伪装,因此,研究者们在解决此类问题时广泛使用gnn方法以求获取更多信息进行判别。其二是关系的伪装,例如盗用正常用户的账号发表垃圾评论,从而避免一个账号发表的全是垃圾评论的情况,并以此规避另一类基于用户历史评分数据的检测方法。关系的伪装往往表现为图中欺诈节点(异常节点)的邻域同质性极低(即一阶邻居多为正常节点)。仅通过普通gnn将邻域中不同类别节点进行简单聚合可能会弱化垃圾评论的判别信息,导致两类之间的分类边界更加接近,进而导致分类的性能下降。
技术实现思路
1、为解决上述问题,本申请采用的技术方案是:提供一种基于增强的多关系图神经网络的垃圾评论检测方法,包括以下步骤:
2、获取用户评论的特征,并转化为特征向量形式;
3、以用户评论为节点,构建用户评论的多关系图,并划分训练集和测试集;
4、计算训练集的邻域同质性、标签感知得分,以此进行邻居采样;
5、将随机变量与训练集的异常节点的特征向量相乘,生成新异常节点;
6、训练图神经网络模型,对训练集节点进行判别学习;
7、使用训练好的图神经网络模型对测试集节点进行预测,输出预测结果。
8、优选地,所述邻域同质性的计算过程如下:
9、计算训练集中异常节点的比例系数;
10、计算该异常节点在多关系图中邻域同质性的均值,公式如下:
11、
12、其中,表示关系r的邻域同质性的均值,表示邻域上已知异常节点数量,表示邻域上已知正常节点数量,表示邻域上未知节点数量,表示参数。
13、优选地,所述标签感知得分计算前,需要利用训练集分类训练一个基于特征的标签多层感知机,以此对多关系图的所有节点计算标签感知得分,输出正常、异常类别的预测概率。
14、优选地,所述标签多层感知机的训练集包括,训练集的异常节点、从训练集随机采样相同数量的正常节点。
15、优选地,所述邻居采样包括:
16、利用邻域同质性及节点标签感知得分,对训练集的每个节点在多关系图上进行欠采样,作为关系内邻居;在多关系图上过采样与其标签感知类别相同且得分最高的节点,作为新关系中的邻居。
17、优选地,所述欠采样过程如下:
18、利用邻域同质性的均值,计算训练集各节点在多关系图中邻居采样的数量:
19、
20、其中,表示节点在关系r上的邻居数;
21、取在标签感知得分中,与中心节点类别相同的得分最高的一批节点,数量为,作为关系内的邻居。
22、优选地,所述过采样过程如下:
23、将多关系图的所有节点按标签感知得分排序,为各个节点过采样同类别中得分最高的若干节点,作为新关系中的邻居。
24、优选地,所述生成新异常节点,过程如下:
25、对于训练集的每一个异常节点,生成k-1个新异常节点,生成的异常节点与原异常节点具有相同的邻居;其中k=1/;生成的异常节点公式如下:
26、
27、其中,为原异常节点v的特征,为随机变量;
28、关于随机变量的概率密度函数,公式如下:
29、
30、其中,、为超参数。
31、优选地,所述训练图神经网络模型,对训练集节点进行判别学习,包括如下步骤:
32、训练图神经网络模型,进行关系内信息聚合和关系间信息聚合学习;
33、构建图神经网络的交叉熵损失函数,对训练集节点进行判别学习。
34、优选地,所述损失函数公式如下:
35、
36、其中,表示训练集节点v的特征向量,表示训练集节点v的预测标签,定义如下式:
37、。
38、本发明的有益效果,本发明提出一种基于增强的多关系图神经网络的垃圾评论检测方法,具体而言是通过邻域同质性、标签感知得分指导邻居采样来缓解异常节点的关系伪装,并通过生成新异常节点缓解类别不平衡,利用图神经网络算法,提高对垃圾评论识别精度的方法。本发明方法计算复杂度低,模型训练速度快,结果精度高,泛用性强,方法简单易理解等优势,可以应用于电商平台推荐系统、网络“水军”识别、水军侦测等领域。
1.一种基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:包括以下步骤:
2.如权利要求1所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述邻域同质性的计算过程如下:
3.如权利要求1所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述标签感知得分计算前,需要利用训练集分类训练一个基于特征的标签多层感知机,以此对多关系图的所有节点计算标签感知得分,输出正常、异常类别的预测概率。
4.如权利要求3所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述标签多层感知机的训练集包括,训练集的异常节点、从训练集随机采样相同数量的正常节点。
5.如权利要求3所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述邻居采样包括:
6.如权利要求5所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述欠采样过程如下:
7.如权利要求5所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述过采样过程如下:
8.如权利要求1或5所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述生成新异常节点,过程如下:
9.如权利要求1所述的基于增强的多关系图神经网络的垃圾评论检测方法,其特征在于:所述训练图神经网络模型,对训练集节点进行判别学习,包括如下步骤:
10.如权利要求9所述的基于增强的多关系图神经网络的垃圾评论检测方法,所述损失函数公式如下: