协同舆论欺诈检测方法和装置与流程

文档序号:18739764发布日期:2019-09-21 01:38阅读:164来源:国知局
协同舆论欺诈检测方法和装置与流程

本申请涉及计算机技术领域,特别是涉及一种协同舆论欺诈检测方法和装置。



背景技术:

随着社交媒体的日益发展壮大,人们越来越多的受到社交媒体上的舆论影响。因此,社交媒体内容的可靠性也变得非常重要,并受到了越来越多的关注。然而,社交媒体中往往存在一些群体,合作发布虚假的社会舆论,以期获得巨大的利益和名誉。这些虚假舆论严重的影响着人们的决策和社交媒体的安全性。因此,如何有效地检测出这些合作发布虚假舆论的欺诈者十分重要。

现有的欺诈者检测方法主要是基于内容和行为的,但检测协同欺诈者存在如下问题:

(1)、欺诈者群体往往会合作发布一些内容,以此来主导社会舆论的方向,因此这些内容相比正常舆论而言,并不一定具有明显的异常性。从用户发布的内容出发分析欺诈者特点很可能会失效,甚至导致错误的分析结果。

(2)、专业的协同欺诈者经常会通过模仿正常用户的行为来发布评论,以此逃避审查。

因此,现有的协同欺诈者检测也不能准确的对协同欺诈者进行检测。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够解决先有协同欺诈检测不准确问题的协同舆论欺诈检测方法、装置、计算机设备和存储介质。

一种协同舆论欺诈检测方法,所述方法包括:

提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

在其中一个实施例中,还包括:获取用户节点对应的交互边,根据所述交互边确定描述所述用户对所述舆论事件关联度的第一关联模型;获取用户节点的用户空间向量和事件节点对应的事件空间向量,将所述用户空间向量和所述事件空间向量输入预先设置阈值函数,得到描述所述用户对所述舆论事件关联度的第二关联模型;根据所述第一关联模型和所述第二关联模型,确定用于描述用户的显式向量表示。

在其中一个实施例中,还包括:通过预先设置的优化算法,计算所述第一关联模型和所述第二关联函数的差异信息;以所述差异信息最小为约束条件,对所述用户空间向量以及所述事件空间向量进行优化,得到用于描述用户的显式向量表示。

在其中一个实施例中,还包括:采用随机游走方式对所述二部网络进行节点提取,得到事件节点序列和用户节点序列;根据所述事件节点序列确定事件路径集合,根据所述用户节点序列得到用户路径集合;以给定用户节点存在隐式用户节点概率最大为约束条件,在所述用户路径集合中进行概率计算得到第一隐式向量表示;以给定事件节点存在隐式事件节点概率最大为约束条件,在所述事件路径集合中进行概率计算得到第二隐式向量表示;根据所述第一隐式向量表示和所述第二隐式向量表示,得到隐式向量表示。

在其中一个实施例中,还包括:根据任意两个用户节点存在连接到同一事件节点的交互边,建立两个用户节点之间的用户边,根据所述用户边建立用户网络;根据任意两个事件节点存在连接到同一用户节点的交互边,建立两个事件节点之间的事件边,根据所述事件边建立事件网络;所述用户网络和所述事件网络中节点的随机游走时对所述二部网络进行节点提取。

在其中一个实施例中,还包括:根据所述显式向量表示和所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数;根据所述嵌入函数,构建用户的表示集合;将所述用户表示集合输入预先设置的二叉树模型中,得到所述二叉树模型输出的每个用户预设范围内的第一用户集合;根据所述第一用户集合,得到用户的邻域密度和每个用户对应的所述第一用户集合组成的第二用户集合;其中,第一用户集合为第二用户集合中的元素。

在其中一个实施例中,还包括:获取预先设置的第一权值和第二权值,用第一权值对所述显式向量表示进行加权,以及用第二权值对所述隐式向量表示进行加权;根据加权后的所述显式向量表示和加权后的所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数。

在其中一个实施例中,还包括:获取预先设置的异常密度阈值,依次检测所述第二用户集合中所述第一用户集合中每个用户对应的所述邻域密度是否大于所述异常密度阈值;若是,则确定所述第一用户集合中的用户为协同舆论欺诈用户。

一种协同舆论欺诈检测装置,所述装置包括:

网络构建模块,用于提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

显式表示确定模块,用于根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

隐式表示确定模块,用于根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

检测模块,用于根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

上述协同舆论欺诈检测方法、装置、计算机设备和存储介质,通过节点框架对用户信息和事件信息进行提取,从而构建了二部网络,然后在二部网络中提取可以反映用户之间相互关系的显式向量表示和隐式向量表示,采用向量表示来表示用户,即增强了用户之前的联系,在进行最终分类时,可以得到准确的分类结果,从而提高协同舆论欺诈的准确性。

附图说明

图1为一个实施例中协同舆论欺诈检测方法的应用场景图;

图2为一个实施例中协同舆论欺诈检测方法的流程示意图;

图3为一个实施例中获取显式向量表示步骤的流程示意图;

图4为一个实施例中获取隐式向量表示步骤的流程示意图;

图5位一个实施例中进行用户分类步骤的流程示意图;

图6为一个实施例中协同舆论欺诈检测装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的协同舆论欺诈检测方法,可以应用于如图1所示的应用环境中。其中,多个终端102与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体的,终端102为用户持有的终端,用户在终端102中使用社交平台发送动态事件,服务器104监测社交平台的用户数据,从而拦截到社交平台中用户的信息和动态事件对应的事件信息。服务器104可以通过监测多个社交平台用户,服务器104通过识别用户在社交平台中的身份信息,对用户进行标记,并且通过用户发送的内容,建立用户与事件之间的联系。

在一个实施例中,如图2所示,提供了一种协同舆论欺诈检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202,提取用户信息和舆论事件对应事件信息,根据用户信息和事件信息,利用预先设置的节点框架,构建二部网络。

用户信息指的是用户的标记信息,服务器可以通过识别标记信息确定唯一的用户,事件信息指的是事件类型的标记信息,服务器可以预先对事件进行分类标记,通过识别事件类型的标记信息,可以确定对应的舆论事件。

节点框架(Node.js)是一种常用的架构,通过采集到的用户信息和事件信息,可以通过节点框架建立二部网络。二部网络指的是通过用户信息和事件信息二者组成的网络。节点框架具体可以使用NEST、EXPRESS等。

具体的,对于二部网络,其中包含用于表示用户信息的用户节点和表示事件信息的事件节点,用户节点与事件节点连接,构成用户节点与事件节点的交互边,值得说明的是,一个用户节点可以对应多个交互边,一个事件节点也可以对应多个交互边,通过用户节点、事件节点以及交互边从而构成二部网络。

步骤204,根据用户节点以及事件节点,确定用于描述用户的显式向量表示。

显式向量表示为一个空间函数,通过对用户节点和事件节点的连接关系进行提取,从而得到用户节点与事件节点在向量空间中的联系,可以确定用户的显式向量表示。

步骤206,根据二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示。

随机游走也称之为随机漫步,是布朗运动理想的数学状态,通过在二部网络中随机游走,可以得到事件路径集合和用户路径集合。事件路径集合指的是在事件节点间进行随机游走得到的路径的集合,用户路径结合指的是在用户节点间进行随机游走得到的路径的集合。

隐式向量表示为一个空间函数,隐式向量表示中通过参数描述用户之间隐含的联系,以及通过参数描述了事件之间隐含的联系。

步骤208,根据显式向量表示、隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

分类模型可以选择逻辑斯蒂回归模型、二叉树模型等,通过分类模型将用户进行分类,从而对于一定分类数量的用户定义为协同舆论欺诈用户,或者一定用户密度的类确定为系统舆论欺诈用户。

上述协同舆论欺诈检测方法中,通过节点框架对用户信息和事件信息进行提取,从而构建了二部网络,然后在二部网络中提取可以反映用户之间相互关系的显式向量表示和隐式向量表示,采用向量表示来表示用户,即增强了用户之前的联系,在进行最终分类时,可以得到准确的分类结果,从而提高协同舆论欺诈的准确性。

在其中一个实施例中,对于一个社交媒体,服务器通过采集社交媒体用户的用户信息,社交媒体用户发送新闻文章或者新闻动态时,服务器可以采集该新闻文章或新闻动态,并且分别保存用户信息和事件信息。由于对于一个用户,在社交媒体中,会发送多条新闻文章或者新闻动态,因此可以建立二部网络,从而描述用户信息和事件信息之间的对应关系。

具体的,在建立二部网络时,节点框架可以选择稠密子图挖掘框架,通过稠密子图挖掘框架构建二部网络G=(U,A,E),其中,U={u1,u2,u3....,un},表示社交网络中的用户组,ui表示一个用户节点,A={a1,a2,a3,....,am},表示一组舆论事件,ai表示一个事件节点,表示用户节点和事件节点相连构成的交互边,交互边表示为eij。

在另一个实施例中,对于交互边,还需要设置各个交互边eij的权重ωij,权重可以根据用户发送舆论事件的数量确定,数量越多,则权重越大。

在其中一个实施例中,为了体现二部网络中用户之间的关联,可以将用户ui映射到一个d维空间向量表示的嵌入函数中,嵌入函数可以表示为本实施例中,通过将用户映射到空间向量中,可以对用户之间的关系进行量化,从而挖掘出用户之间的联系。

在另一实施例中,嵌入函数包含显式向量表示部分和隐式向量表示部分,对于显式向量表示,如图3所示,步骤如下:

步骤302,获取用户节点对应的交互边,根据交互边确定描述用户对舆论事件关联度的第一关联模型。

步骤304,获取用户节点的用户空间向量和事件节点对应的事件空间向量,将用户空间向量和事件空间向量输入预先设置阈值函数,得到描述用户对舆论事件关联度的第二关联模型。

步骤306,根据第一关联模型和第二关联模型,确定用于描述用户的显式向量表示。

本实施例中,通过交互边以及采用阈值函数进行评估,均是提取用户对事件的偏好信息,并且对偏好信息进行量化。

具体的,第一关联模型为:其中,ωij指的是边eij对应的权重,该第一关联模型是通过给定的二部网络G=(U,A,E)的偏好度量公式确定。另一方面,阈值函数可以选择sigmoid函数,然后通过获取用户节点对应用户空间向量ui和事件节点对应的事件空间向量aj,其中,将ui和aj输入sigmoid函数,可以得到第二关联模型为:然后可以根据第一关联模型和第二关联模型确定显式向量表示。本实施例中,通过用户向量的空间表示和事件向量的空间表示,量化用户对事件的偏好信息,从而提高偏好的可解释性。

在另一实施例中,可以通过预先设置的优化算法,计算第一关联模型和第二关联函数的差异信息,以差异信息最小为约束条件,对用户空间向量以及事件空间向量进行优化,得到用于描述用户的显式向量表示。本实施例中,通过优化算法进行迭代学习,可以进一步提高向量表示用户的准确性。

具体的,优化算法可以选择KL散度来计算,首先通过KL散度表示偏好分布P和空间偏好分布之间的差异,可以表示为通过差异信息最小为约束条件进行优化,由于优化过程中,概率P(i,j)为常数,因此得到的显式向量表示为

在其中一个实施例中,在获取隐式向量表示时,如图4所示,具体步骤如下:

步骤402,采用随机游走方式对二部网络进行节点提取,得到事件节点序列和用户节点序列。

步骤404,根据事件节点序列确定事件路径集合,根据用户节点序列得到用户路径集合。

步骤406,以给定用户节点存在隐式用户节点概率最大为约束条件,在用户路径集合中进行概率计算得到第一隐式向量表示。

步骤408,以给定事件节点存在隐式事件节点概率最大为约束条件,在事件路径集合中进行概率计算得到第二隐式向量表示。

步骤410,根据第一隐式向量表示和第二隐式向量表示,得到隐式向量表示。

本实施例中,通过随机游走策略,可以最大化的量化用户之间的联系,从而增加检测协同欺诈的准确性。

在一具体实施例中,采用随机游走的方式对二部网络进行节点提取,设置随机游走的停止概率p,最大游走节点个数lmax,以及最小游走个数lmin,对于第一隐式向量表示的表示如下:

其中,S表示用户节点序列,CS(ui)表示与节点ui同在S中的其他节点序列,D(u)表示用户路径集合。

对于第二隐式向量表示,具体表示如下:

其中,S表示事件节点序列,CS(ai)表示与节点aj同在S中的其他节点序列,D(a)表示事件路径集合。

具体的,考虑到二部网络中包含了两种不同的节点,由于一个用户到另一个用户可能通过不同的事件相连,直接在用户节点或者事件节点中进行游走,可能不能反映出用户之间的隐形关系,为了解决这个问题,可以采用如下方式:根据任意两个用户节点存在连接到同一事件节点的交互边,建立两个用户节点之间的用户边,根据用户边建立用户网络,根据任意两个事件节点存在连接到同一用户节点的交互边,建立两个事件节点之间的事件边,根据事件边建立事件网络;根据用户网络和事件网络中节点的随机游走时对二部网络进行节点提取。本实施例中,通过用户与事件之间的连接,构建事件边和用户边,从而在随机游走时,可以解决上述问题。

具体的,在二部网络G=(U,A,E)中,对于用户ui和uj,如果存在事件ak,用户ui和uj均存在和事件ak构成的边eui,ak和euj,ak,那么将ui和uj构成的边eui,uj加入到新的用户网络E(u)中,对于事件ai和aj,如果存在用户uk,事件ai和aj均存在和用户uk构成的边euk,ai和euk,aj,那么将ai和aj构成的边eai,aj加入到新的事件网络E(a)中。

具体的,对于用户网络E(u)中用户边的权重,可以是其中,wui,uj表示用户边eui,uj的权重,表示交互边eui,ak的权重,表示交互边euj,ak的权重,同理,对于事件网络E(u)中事件边的权重,可以是其中,wai,aj表示事件边eai,aj的权重,表示交互边euk,ai的权重,表示交互边euk,aj的权重。

在另一个实施例中,至于根据用户网络和事件网络进行节点提取,具体可以是:

对于任意一个用户ui,计算在l次以下操作的循环中,从中选出一条用户边eui,uj,令P={ui},ui=uj,从0-1的均匀分布中取出一个s,如果满足s≤p,则跳出循环,并将P加入用户路径集合D(u)中。

同理,对于任意一个事件ai,计算P={ai},在l次以下操作的循环中,中选出一条事件边eai,aj,令P={ai},ai=aj,从0-1的均匀分布中取出一个s,如果满足s≤p,则跳出循环,并将P加入事件路径集合D(a)中,本实施例中,通过对网络进行重构,从而可以体现随机游走时用户之间的关联。

进一步的,在根据显式向量表示、隐式向量表示以及预先设置的分类模型,对用户进行分类时,如图5所示,包括以下步骤:

步骤502,根据显式向量表示和隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数。

步骤504,根据嵌入函数,构建用户的表示集合。

步骤506,将用户表示集合输入预先设置的二叉树模型中,得到二叉树模型输出的每个用户预设范围内的第一用户集合。

步骤508,根据第一用户集合,得到用户的邻域密度,根据邻域密度,得到每个用户对应的第一用户集合组成的第二用户集合。

第一用户集合为第二用户集合中的元素。

本实施例中,通过分类模型,输出第一用户集合,然后通过邻域密度判断用户是否是协同欺诈用户群体,从而根据邻域密度的检测结果,构建分类得到的第二用户集合。

对于步骤502,在其中一个实施例中,需要获取预先设置的第一权值和第二权值,用第一权值对显式向量表示进行加权,以及用第二权值对隐式向量表示进行加权;根据加权后的显式向量表示和加权后的隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数。其中,用户信息指的是表示用户特点的信息。

具体的,得到的嵌入函数如下:

其中,α是根据第一权值确定的超参数,β和γ是根据第二权值确定的超参数。

本实施例中,通过超参数进行赋值,便于进一步计算时简化计算过程。

对于步骤506,在其中一个实施例中,用户的表示集合为U,当前二叉树的树深度为depth以及参数d,如果集合U中只包含了一个节点,则返回一个存储这个节点的叶节点,如果集合U中包含不止一个节点,令l=depth/d+1,根据集合U中点的第l维的中位值q,将集合U划分为两个子集U(1)和U(2),其中,U(1)为所有第l维的值小于等于q的点的集合,其余的点构成U(2)集合,分别对子集U(1)和U(2)构建K-D树并分别加入vleft和vright,然后创建一个节点v用于在第l维中存储q值,并让vleft和vright分别作为节点v的左侧子节点和右侧子节点,完成所有操作后返回构建的二叉树v。

对于步骤208,在其中一个实施例中,在得到二叉树v,令近邻距离为η,对于用户的表示集合U中的每一个用户ui,基于二叉树对ui、v、η三个输入值进行二叉搜索,返回一组η范围内的其他用户组成的第一故集合Si,通过取Si的绝对值,得到邻域密度ρi,根据每个用户的邻域密度ρi建立邻域密度集合ρ,根据第一用户集合Si,得到用户集合S,然后根据给定的邻域密度集合ρ和用户集合S,设置异常密度阈值∈,对于用户集合S中的每一个第一用户集合Si,如果满足ρi>∈,则将第一用户集合加入第二用户集合F中,从而得到第二用户集合F。值得说明的是,第二用户集合F中的用户群体为协同欺诈用户。

应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图6所示,提供了一种协同舆论欺诈检测装置,包括:网络构建模块602、显式表示确定模块604、隐式表示确定模块606和检测模块608,其中:

网络构建模块602,用于提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

显式表示确定模块604,用于根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

隐式表示确定模块606,用于根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

检测模块608,用于根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

在其中一个实施例中,显式表示确定模块604还用于获取用户节点对应的交互边,根据所述交互边确定描述所述用户对所述舆论事件关联度的第一关联模型;获取用户节点的用户空间向量和事件节点对应的事件空间向量,将所述用户空间向量和所述事件空间向量输入预先设置阈值函数,得到描述所述用户对所述舆论事件关联度的第二关联模型;根据所述第一关联模型和所述第二关联模型,确定用于描述用户的显式向量表示。

在其中一个实施例中,显式表示确定模块604还用于通过预先设置的优化算法,计算所述第一关联模型和所述第二关联函数的差异信息;以所述差异信息最小为约束条件,对所述用户空间向量以及所述事件空间向量进行优化,得到用于描述用户的显式向量表示。

在其中一个实施例中,隐式表示确定模块606还用于采用随机游走方式对所述二部网络进行节点提取,得到事件节点序列和用户节点序列;根据所述事件节点序列确定事件路径集合,根据所述用户节点序列得到用户路径集合;以给定用户节点存在隐式用户节点概率最大为约束条件,在所述用户路径集合中进行概率计算得到第一隐式向量表示;以给定事件节点存在隐式事件节点概率最大为约束条件,在所述事件路径集合中进行概率计算得到第二隐式向量表示;根据所述第一隐式向量表示和所述第二隐式向量表示,得到隐式向量表示。

在其中一个实施例中,隐式表示确定模块606还用于根据任意两个用户节点存在连接到同一事件节点的交互边,建立两个用户节点之间的用户边,根据所述用户边建立用户网络;根据任意两个事件节点存在连接到同一用户节点的交互边,建立两个事件节点之间的事件边,根据所述事件边建立事件网络;根据所述用户网络和所述事件网络中节点的随机游走对所述二部网络进行节点提取。

在其中一个实施例中,检测模块608还用于根据所述显式向量表示和所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数;根据所述嵌入函数,构建用户的表示集合;将所述用户表示集合输入预先设置的二叉树模型中,得到所述二叉树模型输出的每个用户预设范围内的第一用户集合;根据所述第一用户集合,得到用户的邻域密度,根据所述领域密度,得到每个用户对应的所述第一用户集合组成的第二用户集合;其中,第一用户集合为第二用户集合中的元素。

在其中一个实施例中,检测模块608还用于获取预先设置的第一权值和第二权值,用第一权值对所述显式向量表示进行加权,以及用第二权值对所述隐式向量表示进行加权;根据加权后的所述显式向量表示和加权后的所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数。

在其中一个实施例中,检测模块608还用于获取预先设置的异常密度阈值,依次检测所述第二用户集合中所述第一用户集合中每个用户对应的所述邻域密度是否大于所述异常密度阈值;若是,则确定所述第一用户集合中的用户为协同舆论欺诈用户。

关于协同舆论欺诈检测装置的具体限定可以参见上文中对于协同舆论欺诈检测方法的限定,在此不再赘述。上述协同舆论欺诈检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户信息和事件信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种协同舆论欺诈检测方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取用户节点对应的交互边,根据所述交互边确定描述所述用户对所述舆论事件关联度的第一关联模型;获取用户节点的用户空间向量和事件节点对应的事件空间向量,将所述用户空间向量和所述事件空间向量输入预先设置阈值函数,得到描述所述用户对所述舆论事件关联度的第二关联模型;根据所述第一关联模型和所述第二关联模型,确定用于描述用户的显式向量表示。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过预先设置的优化算法,计算所述第一关联模型和所述第二关联函数的差异信息;以所述差异信息最小为约束条件,对所述用户空间向量以及所述事件空间向量进行优化,得到用于描述用户的显式向量表示。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用随机游走方式对所述二部网络进行节点提取,得到事件节点序列和用户节点序列;根据所述事件节点序列确定事件路径集合,根据所述用户节点序列得到用户路径集合;以给定用户节点存在隐式用户节点概率最大为约束条件,在所述用户路径集合中进行概率计算得到第一隐式向量表示;以给定事件节点存在隐式事件节点概率最大为约束条件,在所述事件路径集合中进行概率计算得到第二隐式向量表示;根据所述第一隐式向量表示和所述第二隐式向量表示,得到隐式向量表示。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据任意两个用户节点存在连接到同一事件节点的交互边,建立两个用户节点之间的用户边,根据所述用户边建立用户网络;根据任意两个事件节点存在连接到同一用户节点的交互边,建立两个事件节点之间的事件边,根据所述事件边建立事件网络;根据所述用户网络和所述事件网络中节点的随机游走对所述二部网络进行节点提取。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述显式向量表示和所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数;根据所述嵌入函数,构建用户的表示集合;将所述用户表示集合输入预先设置的二叉树模型中,得到所述二叉树模型输出的每个用户预设范围内的第一用户集合;根据所述第一用户集合,得到用户的邻域密度,根据所述领域密度,得到每个用户对应的所述第一用户集合组成的第二用户集合;其中,第一用户集合为第二用户集合中的元素。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预先设置的第一权值和第二权值,用第一权值对所述显式向量表示进行加权,以及用第二权值对所述隐式向量表示进行加权;根据加权后的所述显式向量表示和加权后的所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预先设置的异常密度阈值,依次检测所述第二用户集合中所述第一用户集合中每个用户对应的所述邻域密度是否大于所述异常密度阈值;若是,则确定所述第一用户集合中的用户为协同舆论欺诈用户。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

提取用户信息和舆论事件对应事件信息,根据所述用户信息和所述事件信息,利用预先设置的节点框架,构建二部网络;所述二部网络中包括用于表示用户信息的用户节点以及表示事件信息的事件节点;所述用户节点与所述事件节点相连构成二部网络中的交互边;

根据所述用户节点以及所述事件节点,确定用于描述用户的显式向量表示;

根据所述二部网络中通过随机游走提取的事件路径集合和用户路径集合,确定用于描述用户的隐式向量表示;

根据所述显式向量表示、所述隐式向量表示以及预先设置的分类模型,对用户进行分类,根据分类结果确定协同舆论欺诈用户。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取用户节点对应的交互边,根据所述交互边确定描述所述用户对所述舆论事件关联度的第一关联模型;获取用户节点的用户空间向量和事件节点对应的事件空间向量,将所述用户空间向量和所述事件空间向量输入预先设置阈值函数,得到描述所述用户对所述舆论事件关联度的第二关联模型;根据所述第一关联模型和所述第二关联模型,确定用于描述用户的显式向量表示。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过预先设置的优化算法,计算所述第一关联模型和所述第二关联函数的差异信息;以所述差异信息最小为约束条件,对所述用户空间向量以及所述事件空间向量进行优化,得到用于描述用户的显式向量表示。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用随机游走方式对所述二部网络进行节点提取,得到事件节点序列和用户节点序列;根据所述事件节点序列确定事件路径集合,根据所述用户节点序列得到用户路径集合;以给定用户节点存在隐式用户节点概率最大为约束条件,在所述用户路径集合中进行概率计算得到第一隐式向量表示;以给定事件节点存在隐式事件节点概率最大为约束条件,在所述事件路径集合中进行概率计算得到第二隐式向量表示;根据所述第一隐式向量表示和所述第二隐式向量表示,得到隐式向量表示。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据任意两个用户节点存在连接到同一事件节点的交互边,建立两个用户节点之间的用户边,根据所述用户边建立用户网络;根据任意两个事件节点存在连接到同一用户节点的交互边,建立两个事件节点之间的事件边,根据所述事件边建立事件网络;根据所述用户网络和所述事件网络中节点的随机游走对所述二部网络进行节点提取。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述显式向量表示和所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数;根据所述嵌入函数,构建用户的表示集合;将所述用户表示集合输入预先设置的二叉树模型中,得到所述二叉树模型输出的每个用户预设范围内的第一用户集合;根据所述第一用户集合,得到用户的邻域密度,根据所述领域密度,得到每个用户对应的所述第一用户集合组成的第二用户集合;其中,第一用户集合为第二用户集合中的元素。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先设置的第一权值和第二权值,用第一权值对所述显式向量表示进行加权,以及用第二权值对所述隐式向量表示进行加权;根据加权后的所述显式向量表示和加权后的所述隐式向量表示的差值,得到将二部网络中用户信息嵌入到用户向量表示空间中的嵌入函数。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先设置的异常密度阈值,依次检测所述第二用户集合中所述第一用户集合中每个用户对应的所述邻域密度是否大于所述异常密度阈值;若是,则确定所述第一用户集合中的用户为协同舆论欺诈用户。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1