一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法与流程

文档序号:18869712发布日期:2019-10-14 19:14阅读:187来源:国知局
一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法与流程

本申请涉及计算机技术领域,特别是涉及一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法。



背景技术:

随着互联网的广泛应用,其丰富的信息资源给人们带来了极大的便利,同时网络用户发布的评论严重影响了人们的决策。互联网中存在的欺诈评论极大地损害了用户的决策,欺诈者撰写欺诈评论来混淆诚实用户可以获得卓越的商业价值和声誉。现有的方法大多基于用户的评论内容来进行欺诈评论检测,但是当新用户刚刚发布新评论时,因为缺乏足够的新用户历史记录信息而导致基于评论内容的检测方法失效,这类问题称为冷启动问题。现有的方法面对冷启动问题时面临极大的挑战,一是缺乏足够的新用户历史记录,二是无法提取有效的用户行为特征。

冷启动问题是近几年来互联网应用中十分关注的问题,无论是从企业的商业价值和声誉考虑,还是用互联网用户的切身利益出发,都要求能有有效解决冷启动问题下欺诈评论的检测问题,才能保证互联网平台提供更好的服务,有效检测和监管互联网上的欺诈评论行为。

最近有一些对欺诈评论检测的冷启动问题的研究。第一种方法是通过用户建模作为用户、项目和评论之间关系的行为,以解决冷启动问题中缺乏用户历史信息的问题。第二种方法是通过挖掘涉及用户、项目以及评论之前关系的属性和领域知识,这种方法取得了更好的冷启动欺诈评论检测性能。尽管上述两种方法考虑了用户、项目、评论的关系,并最终将这种关系嵌入到欺诈评论中,但只有评论内容被用作欺诈识别的证据。但是评论内容很容易被操纵,因此欺诈者可能会伪装成诚实评论来构造欺诈评论。因此,这些方法可能无法检测在现实世界中广泛存在的欺诈评论。此外,这两类方法忽略了用户之间社交关系以及用户之间可能存在的协作操纵。后来有研究提出一种新方法检测冷启动欺诈评论。具体而言,它同时嵌入用户、项目、评论实体关系和用户社交关系到用户表示空间,并根据其发布的用户识别欺诈评论的表示空间。虽然性能明显提高,但此方法仅捕获用户共同评论关系,忽略其他关系复杂的社交关系,如用户具有同样的态度和类似的偏好。此外,该方法不考虑实体关系学习过程中的有关的欺诈信息,有可能减少特别是在冷启动情况下的欺诈评论检测精度。



技术实现要素:

欺诈评论是当前的网络空间安全的一大危害,它极大的损害了用户的决策。当前有很多欺诈评论检测的方法被提出,但是由于缺乏新用户足够的历史信息,现有的欺诈评论检测技术在冷启动的情况下往往会失效。本发明针对该问题提出一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法。

一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法,包括:

给定在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵vu、vo、vr和vs,根据表示矩阵vu、vo、vr和vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;

根据评分构建用户间显示关系的显式用户特征矩阵mexp以及用户间隐式关系的隐式用户特征矩阵mimp

基于显式用户特征矩阵mexp和隐式用户特征矩阵mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵c;

采用注意力机制将用户的社交耦合矩阵c整合到用户表示矩阵vu中,得到新的用户表示矩阵vu*

基于新的用户表示矩阵vu*对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;

对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。

本发明中,所构建的初始目标函数为:

其中:φ={w,p,w,b}表示初始目标函数其参数w,p,w,b的集合,待求量;

yi表示在线评论集合s中第i个在线评论活动vi是否为欺诈评论的标签值,该标签值由人工标注;yi为0代表可靠评论活动,yi为1代表欺诈评论活动;

y={0,1}由公式(1)中第一项的第二个累加项定义,是累加项中的变量值;

1[yi=y]表示返回一个向量,当yi为0时,向量为[1,0];当yi为1时,向量为[0,1];

qi=softmax(wdp([vu,vo,vs,vr])+b),<u,o,s,r>∈vi;dp(·)表示参数为p的全连接网络;softmax(·)为归一化指数函数;

s表示输入的在线评论数据集,在线评论数据集s中包含一系列的在线评论活动vi,每一个在线评论活动vi的定义为一个用户对于一个项目进行评论和评分,每一个在线评论活动vi中的元素包括<u,o,r,s>,u,o,r,s分别表示用户、项目、评论和评分;

nv表示在线评论数据集中在线评论活动的总数量;

u′代表不在在线评论数据集s中的在线评论活动v中包含的一个用户;u=u′代表用户u和u′为同一用户,u≠u′代表用户u和u′为不同用户;

v={vu,vo,vs},是用户表示矩阵,项目表示矩阵和评分表示矩阵的集合;

向量vu,vo,vs分别表示用户表示矩阵vu中对应于用户u的一行,项目表示矩阵vo中对应于项目o的一行以及评分表示矩阵vs中对应于评分s的一行;

yi表示在线评论活动vi的真实标签;

dp(·)表示参数为p的全连接网络;

vr=tw(r),tw(·)表示参数为w的一个文本嵌入神经网络;

max(·)表示一个返回集合最大值的函数。

在本发明中,显式用户特征矩阵mexp其每行对应一个用户,每列对应一个显式用户特征,显式用户特征矩阵mexp中每个元素表示第i个用户ui给第j个项目oj的评分sij,即为sij;若ui没有评论oj,则相应的值置为0,即为0;

隐式用户特征矩阵mimp其每行对应一个用户,每列对应一个隐式用户特征,隐式用户特征为用户的离散化后的属性信息对应的属性值,属性信息包括但不限于用户的年龄、职业、教育程度或/和薪水等级等;隐式用户特征矩阵mimp中每个元素表示第i个用户ui给第j个属性值。

在本发明中,构建用户的社交耦合矩阵c的方法如下:

(1)通过公式(2)学习以及的属性内耦合关系表示:

其中,mij表示mij为表示求解的是显式用户矩阵的属性内耦合关系,mij为表示求解的是隐式用户矩阵的属性内耦合关系;g(mij)表示特征值为mij的用户集合;|·|表示集合的大小;nu表示在线评论数据集s中包含的用户数量;

(2)通过公式(3)学习以及的属性间耦合关系表示,

其中,mij表示mij为表示求解的是显式用户矩阵的属性间耦合关系,mij为表示求解的是隐式用户矩阵的属性间耦合关系;表示除了第j列特征之外所有特征中特征值构成集合中的第k个值;p(mij|mk*)表示在用户特征中mij和mk*同时出现的频率,可以通过公式(4)计算:

其中代表特征值为的用户集合;

(3)通过公式(5)结合mij的属性内和属性间耦合关系表示,从而得到mij的耦合关系表示:

其中nf为矩阵m的特征维度。矩阵m是显式用户矩阵mexp和隐式用户矩阵mimp的抽象表示。即mij为则公式(5)中的nf为显式用户矩阵mexp的特征维度;mij为则公式(5)中的nf为隐式用户矩阵mimp的特征维度。

(4)采用线性核在耦合表示空间上构建用户的社交耦合矩阵c,如公式(6)所示:

在本发明中,新的用户表示矩阵vu*的获取方法如下:

a.采用公式(7)将社交耦合矩阵c中的每一个耦合值转换成概率值,得到权重矩阵c*:

其中exp(·)是指数函数;

b.通过公式得到调整后的新的用户表示矩阵vu*

在本发明中,基于新的用户表示矩阵vu*对初始目标函数进行调整得到新的目标函数,方法如下:

(i)首先将初始目标函数修改为公式(8):

其中vu*是用户u在调整后的v*中的表示;

(ii)对于每一个用户,通过计算其最近的k个近邻用户去调整用户的表示,从而将公式(8)的学习目标函数重新构建为公式(9),公式(9)即最终确定的新的目标函数:

其中,

nk(u)表示用户u在社交耦合矩阵c的空间中的k近邻用户的集合;

表示在权重矩阵c*中用户u和u*的值;

u*代表用户u的k近邻用户集合nk(u)中的一个用户;

u′*代表用户u′的k近邻用户集合nk(u′)中的一个用户。

本发明中,对冷启动欺诈评论检测目标函数进行优化学习,优化学习冷启动欺诈评论检测目标函数的过程为寻找到一组对应于用户、项目、评分的表示矩阵v={vu,vo,vs}以及公式(9)中所涉及到的模型参数φ={w,p,w,b},使得通过公式(9)计算所得到的目标函数值最小化;完成初始目标函数的优化后,可得到用户、项目、评分的表示矩阵v={vu,vo,vs}以及公式(9)中所涉及到的模型参数φ={w,p,w,b}。

在本发明中,对于冷启动问题,新用户基于的社交注意力机制的表示为:

vu*=vr-vo-vs;(10)

接着根据公式(11)所示的分类器q,来识别评论r是否为欺诈评论,

q=softmax(wdp([vu*,vo,vs,vr])+b),<u,o,s,r>∈vi,(11)

其中w,p,b是对公式(9)进行优化学习而得到的模型参数,w,p,b∈φ。

当向量q的第一位值小于第二位时,判别评论r为欺诈评论。

一种基于社交注意力机制表示学习的冷启动欺诈评论检测装置,包括:

数据库,存储有给定在线评论数据集;

初始目标函数构建模块,用于读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵vu、vo、vr和vs,根据表示矩阵vu、vo、vr和vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;

显示用户特征矩阵构建模块,用于根据评分构建用户间显示关系的显式用户特征矩阵mexp;

隐式用户特征矩阵构建模块,用于根据评分构建用户间隐式关系的隐式用户特征矩阵mimp

用户的社交耦合矩阵构建模块,用于基于显式用户特征矩阵mexp和隐式用户特征矩阵mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵c;

冷启动欺诈评论检测目标函数构建模块,采用注意力机制将用户的社交耦合矩阵c整合到用户表示矩阵vu中,得到新的用户表示矩阵vu*;基于新的用户表示矩阵vu*对初始目标函数进行调整得到新的目标函数作为冷启动欺诈评论检测目标函数;

检测模块,对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下流程:

读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵vu、vo、vr和vs,根据表示矩阵vu、vo、vr和vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;

根据评分构建用户间显示关系的显式用户特征矩阵mexp以及用户间隐式关系的隐式用户特征矩阵mimp

基于显式用户特征矩阵mexp和隐式用户特征矩阵mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵c;

采用注意力机制将用户的社交耦合矩阵c整合到用户表示矩阵vu中,得到新的用户表示矩阵vu*;基于新的用户表示矩阵vu*对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;

对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下流程:

读取在线评论数据集,提取出分别表示用户、项目、评论和评分的表示矩阵vu、vo、vr和vs,根据表示矩阵vu、vo、vr和vs构建表示用户、项目、评论和评分的实体关系的初始目标函数;

根据评分构建用户间显示关系的显式用户特征矩阵mexp以及用户间隐式关系的隐式用户特征矩阵mimp

基于显式用户特征矩阵mexp和隐式用户特征矩阵mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵c;

采用注意力机制将用户的社交耦合矩阵c整合到用户表示矩阵vu中,得到新的用户表示矩阵vu*;基于新的用户表示矩阵vu*对初始目标函数进行调整得到新的目标函数,将其作为最终的冷启动欺诈评论检测目标函数;

对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。

采用本发明可以达到以下技术效果:

通过将实体关系、用户社交耦合关系和欺诈相关信息嵌入到社交注意力机制的用户表示空间中,从而有效解决了冷启动问题中缺少用户历史信息的挑战,可以有效地检测冷启动情况下的欺诈评论。

附图说明

图1为一个实施例中基于社交注意力机制表示学习的冷启动欺诈评论检测方法的流程图;

图2为一个实施例中基于社交注意力机制表示学习的冷启动欺诈评论检测方法的架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

如图1、图2所示,为一实施例中基于社交注意力机制表示学习的冷启动欺诈评论检测方法的流程图。

如图1所示,包括以下流程:

第一步,给定在线评论数据集s,提取出分别表示用户、项目、评论和评分的表示矩阵vu、vo、vr和vs。其中:用户表示矩阵vu、项目表示矩阵vo、评论表示矩阵vr和评分表示矩阵vs作为评论活动v=<u,0,r,s>∈s的实体表示。下标u,o,r,s分别表示用户、项目、评论和评分。

根据表示矩阵vu、vo、vr和vs构建表示用户、项目、评论和评分的实体关系的初始目标函数。其中初始目标函数为:

其中:φ={w,p,w,b}表示初始目标函数其参数w,p,w,b的集合,待求量;

yi表示在线评论集合s中第i个在线评论活动vi是否为欺诈评论的标签值,该标签值由人工标注;yi为0代表可靠评论活动,yi为1代表欺诈评论活动;

y={0,1}由公式(1)中第一项的第二个累加项定义,是累加项中的变量值;

1[yi=y]表示返回一个向量,当yi为0时,向量为[1,0];当yi为1时,向量为[0,1];

qi=softmax(wdp([vu,vo,vs,vr])+b),<u,o,s,r>∈vi;dp(·)表示参数为p的全连接网络;softmax(·)为归一化指数函数;

s表示输入的在线评论数据集,在线评论数据集s中包含一系列的在线评论活动vi,每一个在线评论活动vi的定义为一个用户对于一个项目进行评论和评分,每一个在线评论活动vi中的元素包括<u,0,r,s>,u,o,r,s分别表示用户、项目、评论和评分;

nv表示在线评论数据集中在线评论活动的总数量;

u′代表不在在线评论数据集s中的在线评论活动v中包含的一个用尸;u=u′代表用户u和u′为同一用户,u≠u′代表用户u和u′为不同用户;

v={vu,vo,vs},是用户表示矩阵,项目表示矩阵和评分表示矩阵的集合;

向量vu,vo,vs分别表示用户表示矩阵vu中对应于用户u的一行,项目表示矩阵vo中对应于项目o的一行以及评分表示矩阵vs中对应于评分s的一行;

yi表示在线评论活动vi的真实标签;

dp(·)表示参数为p的全连接网络;

vr=tw(r),tw(·)表示参数为w的一个文本嵌入神经网络;

max(·)表示一个返回集合最大值的函数。

接下来的,分层次地学习用户之间的显式和隐式社交耦合关系,学习用户之间的显式和隐式社交关系,即学习用户共同发生的社交活动多反映的耦合关系和建立在用户相似性统计特征的潜在耦合关系。

第二步,根据评分构建用户间显示关系的显式用户特征矩阵mexp以及用户间隐式关系的隐式用户特征矩阵mimp

(1)显式用户特征矩阵mexp其每行对应一个用户,每列对应一个显式用户特征,显式用户特征矩阵mexp中每个元素表示第i个用户ui给第j个项目oj的评分sij,即为sij;若ui没有评论oj,则相应的值置为0,即为0;

(2)隐式用户特征矩阵mimp其每行对应一个用户,每列对应一个隐式用户特征,隐式用户特征为用户的离散化后的属性信息对应的属性值,属性信息包括但不限于用户的年龄、职业、教育程度或/和薪水等级;隐式用户特征矩阵mimp中每个元素表示第i个用户ui给第j个属性值。

第三步,基于显式用户特征矩阵mexp和隐式用户特征矩阵mimp学习用户间的复杂耦合关系,构建用户的社交耦合矩阵c。

(3.1)通过公式(2)学习以及的属性内耦合关系表示:

其中,mij表示mij为表示求解的是显式用户矩阵的属性内耦合关系,mij为表示求解的是隐式用户矩阵的属性内耦合关系;g(mij)表示特征值为mij的用户集合;|·|表示集合的大小;nu表示在线评论数据集s中包含的用户数量;

(3.2)通过公式(3)学习以及的属性间耦合关系表示,

其中,mij表示mij为表示求解的是显式用户矩阵的属性间耦合关系,mij为表示求解的是隐式用户矩阵的属性间耦合关系;表示除了第j列特征之外所有特征中特征值构成集合中的第k个值;p(mij|mk*)表示在用户特征中mij和mk*同时出现的频率,通过公式(4)计算:

(3.3)通过公式(5)结合mij的属性内和属性间耦合关系表示,从而得到mij的耦合关系表示:

其中nf为矩阵m的特征维度。

(3.4)采用线性核在耦合表示空间上构建用户的社交耦合矩阵c,如公式(6)所示:

第四步,采用注意力机制将用户的社交耦合矩阵c整合到用户表示矩阵vu中,得到新的用户表示矩阵vu*

(4.1)采用公式(7)将社交耦合矩阵c中的每一个耦合值转换成概率值,得到权重矩阵c*:

其中exp(·)是指数函数;

(4.2)通过公式vu*=c*·vu得到调整后的新的用户表示矩阵vu*

第五步,基于新的用户表示矩阵vu*对初始目标函数进行调整得到新的目标函数,将其作为冷启动欺诈评论检测目标函数。

(5.1)首先将初始目标函数修改为公式(8):

其中向量vu*为通过社交注意力机制调整后的用户表示向量。

公式(8)是引入社交注意力机制后在表示空间中嵌入用户、项目、评论和评分之间的实体关系的目标函数。公式(8)嵌入用户、项目、态度和评论之间的实体关系,并同时考虑用户之间的社交关系。

(5.2)对于每一个用户,通过计算其最近的k个近邻用户去调整用户的表示,从而将公式(8)的学习目标函数重新构建为公式(9),公式(9)即最终确定的新的目标函数:

其中,

nk(u)表示用户u在社交耦合矩阵c的空间中的k近邻用户的集合;

表示在权重矩阵c*中用户u和u*的值。

u*代表用户u的k近邻用户集合nk(u)中的一个用户;

u′*代表用户u′的k近邻用户集合nk(u′))中的一个用户。

第六步,对冷启动欺诈评论检测目标函数进行优化学习得到分类器,基于学习到的分类器来识别评论是否为欺诈评论。

(6.1)对冷启动欺诈评论检测目标函数进行优化学习,优化学习冷启动欺诈评论检测目标函数的过程为寻找到一组对应于用户、项目、评分的表示矩阵v={vu,vo,vs}以及公式(9)中所涉及到的模型参数φ={w,p,w,b},使得通过公式(9)计算所得到的目标函数值最小化;完成初始目标函数的优化后,可得到用户、项目、评分的表示矩阵v={vu,vo,vs}以及公式(9)中所涉及到的模型参数φ={w,p,w,b}。

(6.2)在冷启动问题中,新用户的基于社交注意力机制的表示为:

vu*=vr-vo-vs;(10)

(6.3)根据公式(11)所示的分类器q,来识别评论r是否为欺诈评论,

q=softmax(wdp([vu*,vo,vs,vr])+b),<u,o,s,r>∈vi,(11)

其中w,p,b是对公式(9)进行优化学习而得到的模型参数,w,p,b∈φ。

当向量q的第一位值小于第二位时,判别评论r为欺诈评论。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1