用于识别作弊用户的模型的训练方法、装置及电子设备与流程

文档序号:16539013发布日期:2019-01-08 20:10阅读:230来源:国知局
用于识别作弊用户的模型的训练方法、装置及电子设备与流程

本发明涉及计算机技术领域,特别是涉及一种用于识别作弊用户的模型的训练方法、装置及电子设备。



背景技术:

当前,随着互联网技术的不断发展,越来越多的用户选择通过网络来发布各类信息,例如,拍摄的视频、撰写的小说、产品广告等。这些用户通常都希望自己发布的信息能够获得更高的关注度,例如,更高的视频播放量、更高的小说阅读量、更高的广告点击率等。

然而,在一些情况下,上述关注度可能并不真实,上述信息的访问用户中可能存在通过一些作弊应用程序模拟生成的并不真实存在的用户,即作弊用户。以广告为例,在广告的观看用户中可能存在作弊用户对广告进行点击或者播放的情况,导致广告的点击量或者播放量并不真实。

为了能够对作弊用户进行相应的处理,各类信息网站需要对信息访问用户中哪些是作弊用户进行识别,也就是进行反作弊。现有技术中,反作弊的方式通常为:对预先获取的作弊用户信息进行标注,将被标注的作弊用户信息作为样本用户信息,基于样本用户信息通过机器学习算法训练得到识别作弊用户的识别模型,利用训练好的识别模型对访问用户的用户信息进行检测,并根据检测结果确定访问用户中的作弊用户。

然而,发明人在通过上述方法识别作弊用户的过程中发现,该方法至少存在如下问题:在通过人工标注的方法获得样本用户信息的过程中,只能对已发现类型的作弊用户的用户信息进行标注,而由于模拟作弊用户的方式的更新较快,人工标注的方法无法对新出现类型的作弊用户的用户信息进行标注,从而使得训练得到的识别模型对新出现类型的作弊用户的识别准确率较低,且该识别模型的召回率较低。



技术实现要素:

本发明实施例的目的在于提供一种用于识别作弊用户的模型的训练方法、装置及电子设备,以提高训练得到的识别作弊用户的识别模型对新出现类型的作弊用户的识别准确率及该识别模型的召回率。具体技术方案如下:

第一方面,本发明实施例提供了一种用于识别作弊用户的模型的训练方法,所述方法包括:

获取并存储第一类访问用户的用户信息;

确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本,其中,所述预设规则为:基于已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则,所述第二类访问用户的用户信息是在获取所述第一类访问用户的用户信息之前获取并存储的访问用户的用户信息;

基于所述训练样本对预设的待训练模型进行训练,其中,所述待训练模型为用于识别所述第一类访问用户和所述第二类访问用户是否为作弊用户的模型;

当所述待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

作为本发明实施例的一种实施方式,所述获取并存储第一类访问用户的用户信息的步骤,包括:

在当前周期内获取并存储第一类访问用户的用户信息;

所述确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本的步骤,包括:

在当前周期结束时,确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本;

所述基于所述训练样本对预设的待训练模型进行训练的步骤,包括:

将所述训练样本添加到目标样本集合中,其中,所述目标样本集合为上一周期结束时用于训练目标模型的样本的集合,所述目标模型为当前周期用于识别作弊用户的模型;

将添加后的目标样本集合输入到所述目标模型中进行训练。

作为本发明实施例的一种实施方式,所述方法还包括:在进入下一周期后,存储当前周期内的第一类访问用户的用户信息,并通过所述识别模型对所述第一类访问用户进行识别,返回所述在当前周期结束时,确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本的步骤。

作为本发明实施例的一种实施方式,在所述将所述训练样本添加到目标样本集合中的步骤之前,所述方法还包括:确定每个训练样本对应的在线频率满足预设频率。

作为本发明实施例的一种实施方式,所述确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本的步骤,包括:

获取当前周期内已存储的第一类访问用户的用户信息及操作日志;

针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则;

若不符合预设规则,确定该第一类访问用户的用户信息为训练样本。

作为本发明实施例的一种实施方式,所述操作日志包括一个类型的操作数据;所述针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则的步骤,包括:

针对每一第一类访问用户,判断所述操作数据是否符合其类型所对应的第一类型预设规则;

所述若不符合预设条件,确定该第一类访问用户的用户信息为训练样本的步骤,包括:

若所述操作数据不符合其类型所对应的第一类型预设规则,确定该第一类访问用户的用户信息为训练样本。

作为本发明实施例的一种实施方式,所述操作日志包括多个类型的操作数据;所述针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则的步骤,包括:

针对每一第一类访问用户的操作日志中包括的每个类型的操作数据,判断该操作数据是否符合其类型所对应的第二类型预设规则;

若不符合第二类型预设条件,确定该操作数据为目标操作数据;

针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值;

所述若不符合预设条件,确定该第一类访问用户的用户信息为训练样本的步骤,包括:

若该第一类访问用户所对应的目标操作数据的数量不小于所述预设数值,确定该第一类访问用户的用户信息为训练样本。

作为本发明实施例的一种实施方式,所述操作数据的类型包括:访问用户对广告点击率、访问用户针对广告的曝光率、访问用户的访问时间分布比例、访问用户对于同一视频不同时段的广告的点击率比例。

作为本发明实施例的一种实施方式,所述通过所述识别模型对所述第一类访问用户进行识别的步骤,包括:

获取所述第一类访问用户的用户信息;

将所述用户信息输入到所述识别模型中进行检测,获得所述第一类访问用户的识别结果。

作为本发明实施例的一种实施方式,所述获取第一类访问用户的用户信息的步骤,包括:

在所述下一周期结束时,在离线状态下,获取所述下一周期内存储的第一类访问用户的用户信息;或,

在接收到第一类访问用户发送的访问请求时,获取所述第一类访问用户的用户信息。

作为本发明实施例的一种实施方式,所述方法还包括:当所述第一类访问用户的识别结果为作弊用户时,屏蔽所述第一类访问用户的访问请求。

第二方面,本发明实施例提供了一种用于识别作弊用户的模型的训练装置,所述装置包括:

用户信息获取模块,用于获取并存储第一类访问用户的用户信息;

训练样本确定模块,用于确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本,其中,所述预设规则为:基于已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则,所述第二类访问用户的用户信息是在获取所述第一类访问用户的用户信息之前获取并存储的访问用户的用户信息;

模型训练模块,用于基于所述训练样本对预设的待训练模型进行训练,其中,所述待训练模型为用于识别所述第一类访问用户和所述第二类访问用户是否为作弊用户的模型;

识别模型获得模块,用于当所述待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

作为本发明实施例的一种实施方式,所述用户信息获取模块包括:用户信息获取子模块,所述用户信息获取子模块用于:在当前周期内获取并存储第一类访问用户的用户信息;

所述训练样本确定模块包括:训练样本确定子模块,所述训练样本确定子模块用于:在当前周期结束时,确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本;

所述模型训练模块包括:样本集合添加子模块和模型训练子模块;所述样本集合添加子模块,用于将所述训练样本添加到目标样本集合中,其中,所述目标样本集合为上一周期结束时用于训练目标模型的样本的集合,所述目标模型为当前周期用于识别作弊用户的模型;所述模型训练子模块,用于将添加后的目标样本集合输入到所述目标模型中进行训练。

作为本发明实施例的一种实施方式,所述装置还包括:信息存储及模型应用模块,用于在进入下一周期后,存储当前周期内的第一类访问用户的用户信息,并通过所述识别模型对所述第一类访问用户进行识别,触发所述训练样本确定模块。

作为本发明实施例的一种实施方式,所述装置还包括:在线频率确定模块,用于在将所述训练样本添加到目标样本集合中之前,确定每个训练样本对应的在线频率满足预设频率。

作为本发明实施例的一种实施方式,所述用户信息获取子模块包括:用户信息获取单元,用于在当前周期结束时,获取当前周期内已存储的第一类访问用户的用户信息及操作日志;

预设规则判断单元,用于针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则,若不符合,触发训练样本确定单元;

所述训练样本确定单元,用于确定该第一类访问用户的用户信息为训练样本。

作为本发明实施例的一种实施方式,所述操作日志包括一个类型的操作数据;所述预设规则判断单元,具体用于:针对每一第一类访问用户,判断所述操作数据是否符合其类型所对应的第一类型预设规则,若不符合,触发所述训练样本确定单元。

作为本发明实施例的一种实施方式,所述操作日志包括多个类型的操作数据,所述预设规则判断单元包括:

预设规则判断子单元,用于针对每一第一类访问用户的操作日志中包括的每个类型的操作数据,判断该操作数据是否符合其类型所对应的第二类型预设规则,若不符合,触发数据确定子单元;

所述数据确定子单元,用于确定该操作数据为目标操作数据;

预设数值判断子单元,用于针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值,若满足,触发所述训练样本确定单元。

作为本发明实施例的一种实施方式,所述操作数据的类型:访问用户对广告点击率、访问用户针对广告的曝光率、访问用户的访问时间分布比例、访问用户对于同一视频不同时段的广告的点击率比例。

作为本发明实施例的一种实施方式,所述信息存储及模型应用模块,包括:

访问信息获取子模块,用于获取所述第一类访问用户的用户信息;

访问用户识别子模块,用于将所述用户信息输入到所述识别模型中进行检测,获得所述第一类访问用户的识别结果。

作为本发明实施例的一种实施方式,所述访问信息获取子模块,具体用于:

在所述下一周期结束时,在离线状态下,获取所述下一周期内存储的所述第一类访问用户的用户信息;或,

在接收到所述第一类访问用户发送的访问请求时,获取所述第一类访问用户的用户信息。

作为本发明实施例的一种实施方式,所述装置还包括:访问请求屏蔽模块,用于当所述第一类访问用户的识别结果为作弊用户时,屏蔽所述第一类访问用户的访问请求。

第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面提供的一种用于识别作弊用户的模型的训练方法任一所述的方法步骤。

在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的用于识别作弊用户的模型的训练方法。

在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的用于识别作弊用户的模型的训练方法。

可见,本发明实施例提供的方案中,在当前周期中,应用目标模型对访问用户是否为作弊用户进行识别,而目标模型是在上一周期结束时基于目标训练样本集合训练得到的。在当前周期结束时,可以根据符合预设规则和预设频率在当前周期内已存储的访问用户的用户信息中确定可以作为训练样本的用户信息;其中,预设规则是基于在当前周期之前已获得的访问用户的用户信息,通过无监督学习算法确定的;进而可以将这些训练样本添加到目标样本集合中,得到新的目标样本集合;将添加训练样本后得到的新的目标样本集合输入到目标模型中进行训练,并在目标模型的输出结果的准确率达到预设准确率时,停止训练,得到新的目标模型,得到的新的目标模型是下一周期中用于对访问用户是否为作弊用户进行识别的识别模型;在进入下一周期后,下一周期即为当前周期,则可以存储当前周期内的访问用户的用户信息,并通过得到的识别模型对访问用户进行识别,并在当前周期结束时,再次返回确定当前周期内已存储的访问用户的用户信息中符合预设规则的用户信息,作为备选训练样本的步骤,进而再次执行上述后续的其他步骤,整个方案按照周期循环进行。

以上可见,在本发明实施例提供的方案中,可以根据预设规则,确定已存储的第一类访问用户的访问信息中不符预设规则的用户信息,其中,预设规则是基于在获取第一类访问用户的用户信息之前获取并存储的第二类访问用户的用户信息,通过无监督学习确定的。显然,这些所确定的用户信息为当前所用的识别模型无法识别出的新出现类型的作弊用户的用户信息。进而,便可以将这些所确定的用户信息作为训练样本,并基于这些训练样本对预设的待训练模型进行训练,并当该待训练模型的输入结果准确率达到预设准确率时,停止训练得到用于识别作弊用户的识别模型。这样,由于新得到的识别模型是基于当前所用的识别模型无法识别出的新出现类型的作弊用户的用户信息训练得到的,则新得到的识别模型可以识别出新出现类型的作弊用户。

在本发明实施例提供的方案中,可以通过无监督算法基于第二类访问用户的用户信息确定预设规则,从而便可以在已存储的第一类访问用户的用户信息中确定新出现类型的作弊用户的用户信息,进而,基于这些所确定的用户信息训练得到新的识别模型,以使得该新的识别模型可以识别新出现类型的作弊用户。这样,通过预设规则对新出现类型的作弊用户的用户信息进行标注,避免了人工标注的方法无法对新出现类型的作弊用户进行标注的现象出现,从而提高训练得到的新的识别模型对新出现类型的作弊用户的识别准确率及该识别模型的召回率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种用于识别作弊用户的模型的训练方法的流程示意图;

图2为本发明实施例提供的一种具体实现方式中确定当前周期内已存储的访问用户的用户信息不符合预设规则的方式的流程示意图;

图3为本发明实施例提供的一种用于识别作弊用户的模型的训练装置的结构示意图;

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

现有技术中,发明人在识别作弊用户的过程中发现,现有方法至少存在如下问题:在通过人工标注的方法获得样本用户信息的过程中,只能对已发现类型的作弊用户的用户信息进行标注,而由于模拟作弊用户的方式的更新较快,人工标注的方法无法对新出现类型的作弊用户的用户信息进行标注,从而使得训练得到的识别模型对新出现类型的作弊用户的识别准确率较低,且该识别模型的召回率较低。

为了解决现有技术中存在的问题,本发明实施例提供了一种用于识别作弊用户的模型的训练方法,该方法包括:

获取并存储第一类访问用户的用户信息;

确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本,其中,所述预设规则为:基于已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则,所述第二类访问用户的用户信息是在获取所述第一类访问用户的用户信息之前获取并存储的访问用户的用户信息;

基于所述训练样本对预设的待训练模型进行训练,其中,所述待训练模型为用于识别所述第一类访问用户和所述第二类访问用户是否为作弊用户的模型;

当所述待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

以上可见,在本发明实施例提供的方案中,可以通过无监督算法基于第二类访问用户的用户信息确定预设规则,从而便可以在已存储的第一类访问用户的用户信息中确定新出现类型的作弊用户的用户信息,进而,基于这些所确定的用户信息训练得到新的识别模型,以使得该新的识别模型可以识别新出现类型的作弊用户。这样,通过预设规则对新出现类型的作弊用户的用户信息进行标注,避免了人工标注的方法无法对新出现类型的作弊用户进行标注的现象出现,从而提高训练得到的新的识别模型对新出现类型的作弊用户的识别准确率及该识别模型的召回率。

本发明实施例所提供的一种用户识别作弊用户的模型的训练方法可以应用于任意电子设备,例如,可以是处理器、电脑、服务器等,在此不做具体限定,以下简称电子设备。

下面首先对本发明实施例提供的一种用于识别作弊用户的模型的训练方法进行介绍。

如图1所示,,为本发明实施例提供的一种用于识别作弊用户的模型的训练方法的流程示意图,该方法包括:

s101:获取并存储第一类访问用户的用户信息;

s102:确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本;

其中,预设规则为:基于已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则,第二类访问用户的用户信息是在获取第一类访问用户的用户信息之前获取并存储的访问用户的用户信息;

s103:基于训练样本对预设的待训练模型进行训练;

其中,待训练模型为用于识别第一类访问用户和第二类访问用户是否为作弊用户的模型。

s104:当待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

以上可见,在本发明实施例提供的方案中,可以通过无监督算法基于第二类访问用户的用户信息确定预设规则,从而便可以在已存储的第一类访问用户的用户信息中确定新出现类型的作弊用户的用户信息,进而,基于这些所确定的用户信息训练得到新的识别模型,以使得该新的识别模型可以识别新出现类型的作弊用户。这样,通过预设规则对新出现类型的作弊用户的用户信息进行标注,避免了人工标注的方法无法对新出现类型的作弊用户进行标注的现象出现,从而提高训练得到的新的识别模型对新出现类型的作弊用户的识别准确率及该识别模型的召回率。

需要说明的是,在上述步骤s101之前,电子设备接收第二类访问用户的访问请求,并利用当前所使用的识别作弊用户的识别模型对第二类访问用户是否为作弊用户进行识别,其中,当前所使用的识别作弊用户的识别模型即为预设的待训练模型,该待训练模型也用于对第一类访问用户是否为作弊用户进行识别。

可以理解的,上述待训练模型是基于人工标注的、已发现类型的作弊用户的用户信息训练得到的,因此,电子设备便可以将第二类访问用户中所有已发现类型的作弊用户。那么,电子设备所存储的第二类访问用户的用户信息中可以不存在作弊用户的用户信息。

然而,由于模拟作弊用户的方式更新较快,因此,电子设备在接收到第一类访问用户的用户请求时,第一类访问用户中可以包括新出现类型的作弊用户,那么,继续使用待训练模型对第一类访问用户进行识别,便可能无法将所有的作弊用户均识别出来。

也就是说,在上述步骤s101中,电子设备获取并存储的第一类访问用户的用户信息中可以存在新出现类型的作弊用户,这些作弊用户不能被当前所使用的识别模型识别出来。

而为了在对之后的访问用户进行识别时,可以对第一类访问用户中新出现类型的作弊用户进行准确识别,电子设备可以基于上述不能识别出来的作弊用户的用户信息作为训练样本,对待训练模型进行训练,从而得到在之后用于识别作弊用户的识别模型,该识别模型在训练过程中可以学习到上述第一类访问用户中新出现类型的作弊用户的用户信息的特征,在之后获得新的访问用户的访问请求时,便可以对目前存在的各类型的作弊用户进行准确识别。

为了获取上述训练样本,在上述步骤s102中,电子设备可以确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,显然,这些不符合预设规则的用户信息即为新出现类型的作弊用户的用户信息,因此,可以将这些不符合预设规则的用户信息作为训练样本。

其中,预设规则是基于在已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则。可以理解的,第二类访问用户的用户信息是在获取第一类访问用户的用户信息之前获取并存储的。

需要说明的是,上述第二类访问用户中可以不存在作弊用户的用户信息,则上述预设规则便可以理解为是基于真实的访问用户的用户信息的特征确定的,那么,当某个第一类访问用户的用户信息不符合该预设规则时,便可以确定该第一类访问用户可以为新出现类型的作弊用户。那么,该第一类访问用户的用户信息也就可以作为训练样本。

具体的,访问用户的用户信息中可能包括多种类型的信息,在得到已存储的第二类访问用户的用户信息后,电子设备便可以从所有第二类访问用户的用户信息中包括的某种类型信息的角度出发,按照每个第二类访问用户的用户信息所包括的该类型信息的相似度,通过无监督学习算法,将这些用户信息分为若干个信息组。

例如,电子设备可以从所有第二类访问用户的用户信息包括的对某广告的点击率的角度出发,按照每个第二类访问用户的用户信息所包括的对该广告的点击率,将所包括的对该广告的点击率的差小于预设差值的用户信息分为一组,从而将这些第二类访问用户的用户信息分为若干组。

在接收到第一类访问用户的访问请求时,电子设备可以利用待训练模型对第一类访问用户进行识别,确定其是否为作弊用户,从而可以对所确定的作弊用户的访问请求进行屏蔽,以使得已存储的第一类访问用户的用户信息中可以不存在作弊用户的用户信息。

也就是说,理论上,在上述步骤s102中,电子设备根据上述预设规则,不应该在已存储的第一类访问用户的用户信息获取到离群点,所谓离群点是指:存在一个或多个第一类访问用户的用户信息无法被分到任何一个基于第二类访问用户的用户信息划分的信息组中,那么,这一个或多个访问用户的用户信息即为离群点。

而一旦电子设备获取到了离群点,则可以说明在接收第一类访问用户的访问请求过程中可能出现了新的模拟作弊用户的方式,从而产生了具有新的特征的作弊用户的用户信息,而这些作弊用户不能通过上述待训练模型进行识别。也就是说,该离群点所对应的访问信息很可能是不能被待训练模型的访问用户的用户信息,因此,电子设备便可以将该离群点所对应的访问信息作为训练样本。

因此,在上述步骤s102中,电子设备便可以根据上述预设规则,在已存储的第一类访问用户的用户信息中获取不符合该预设规则的用户信息,这些不符合预设规则的用户信息便可以作为训练样本。即电子设备便可以根据上述预设规则,确定已存储的第一类访问用户的用户信息中的离群点。

在本发明实施例中,上述步骤s102中的无监督学习算法可以是任一能够将已存储的第二类访问用户的用户信息,从所有第二类访问用户的用户信息中包括的某种类型信息的角度出发,按照每个第二类访问用户的用户信息所包括的该类型信息的相似度,通过无监督学习算法,将这些第二类访问用户的用户信息分为若干个组的学习算法。例如,可以是k-means(k-均值)聚类算法、dbscan(density-basedspatialclusteringofapplicationswithnoise,有代表性的基于密度的聚类)、iforest(isolationforest,孤立森林)算法等,在此不做具体限定。

下面,以k-means聚类算法为例,对上述预设规则进行说明:

一般情况下,第二类访问用户的用户信息中包括访问时间,在这种情况下,从所有第二类访问用户的用户信息包括的访问时间的比例分布角度出发,按照每个第二类访问用户的访问时间比例分布的相似程度,便可以利用k-means聚类算法对已存储的第二类访问用户的用户信息进行聚类,则可以得到多个聚类。

可以理解的,每个聚类中的每个第二类访问用户的用户信息与该聚类的聚类中心的距离满足预设的相似度阈值,也就是说,每个聚类中的每个第二类访问用户的访问时间比例分布与该聚类的聚类中心对应的第二类访问用户的访问时间比例分布的差别在预设范围内。其中,该预设范围可以根据实际应用中对作弊用户的识别准确率需求进行设定,当对识别准确率的需求高时,该预设范围可以较小,反之,该预设范围可以较大。

需要说明的是,上述k-means聚类算法得到的多个聚类反映的是正常用户的访问时间比例分布的情况,而当根据上述预设规则,电子设备在已存储的第一类访问用户的用户信息中发现离群点时,则说明该第一类访问用户具有极大的可能不是正常用户,而是作弊用户,进而,便可以将离群点的信息作为训练样本。

其中,当电子设备为服务器时,上述已存储的第一类访问用户的用户信息中不符合预设规则的用户信息可以是服务器在接收到访问请求时,存储的与访问请求对应的第一访问用户的用户信息中不符合预设规则的用户信息。

当电子设备为处理器、电脑等非服务器的电子设备时,电子设备可以与服务器建立通信连接,电子设备可以向该服务器发送用户信息获取请求,请求获取该服务器已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,并在该服务器响应上述用户信息获取请求时,接收该服务器发送的在已存储的第一类访问用户的用户信息中不符合预设规则的用户信息。

当电子设备为处理器、电脑等非服务器的电子设备时,电子设备可以与服务器建立通信连接,则该服务器可以将已存储的第一类访问用户的用户信息中不符合预设规则的用户信息发送给电子设备。

在本申请中,不对电子设备确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息的方式进行具体限定。

在得到训练样本后,电子设备可以执行上述步骤s103-s104,基于这些训练样本对预设的待训练模型进行训练,当待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

在训练过程中,待训练模型可以学习上述训练样本的特征,也就是说,待训练模型可以学习第一类访问用户中的各新出现类型的作弊用户的用户信息的特征。经过对大量训练样本的学习,待训练模型可以将输入的用户信息的特征与已学习到的各类型作弊用户的用户信息的特征进行匹配,从而对输入的用户信息对应的访问用户进行识别,确定其是否为作弊用户,进而得到用于识别作弊用户的识别模型。

其中,所谓各类型作弊用户的用户信息的特征可以包括:待训练模型在基于上述训练样本进行训练之前就已经学习到的各类型作弊用户的用户信息的特征,以及上述第一类访问用户中各新出现类型的作弊用户的用户信息的特征。

基于上述训练样本对待识别模型进行训练得到用于识别作弊用户的识别模型后,可以利用该识别模型对上述训练样本进行预测,得到该识别模型的输出结果。然后,可以判断该识别模型对上述每个训练样本的预测结果是否正确,并计算准确率,进而得到识别模型的输出结果准确率。

例如,上述训练样本的数量为200,其中,194个训练样本的预测结果正确,则可以计算得到准确率为97%,也就是说,得到的用于识别作弊用户的识别模型的输出结果准确率为97%。

当得到的用于识别作弊用户的识别模型的输出准确率达到预设准确率时,则可以停止训练,得到最终训练完成的识别模型,进而可以利用该识别模型对之后的访问用户进行识别,确定其是否为作弊用户。

其中,预设准确率可以根据实际应用中对作弊用户识别准确率的要求进行确定,当对作弊用户识别准确率的要求较高时,预设准确率可以较高。

需要说明的是,基于上述训练样本训练得到的识别模型的输出准确率一般不小于待训练模型,从而可以使训练得到的识别模型对作弊用户的识别准确率不小于待识别模型对作弊用户的识别准确率,进而,保证对作弊用户的识别准确率不会降低。

因此,在一种情况下,当经过多次迭代,基于上述训练样本训练得到的识别模型的输出准确率始终小于待训练模型的输出准确率时,则可以认为电子设备在步骤s102中确定的训练样本的代表性不够,或者获取到的不符合预设规则的用户信息不能作为训练样本,因此,在这种情况下,可以继续使用待训练模型用于识别作弊用户,以保证对作弊用户的识别的准确率不会降低。

在另一种情况下,当电子设备在步骤s102中确定的训练样本的数量为零时,也就是说,在第一类访问用户中没有出现新的模拟作弊用户的方式,因此,可以继续使用待训练模型用于识别作弊用户。

需要说明的是,电子设备可以周期性地更新当前周期内所应用的用于识别作弊用户的识别模型,为了便于与上述识别模型进行区分,将当前周期内用于识别作弊用户的模型称为目标模型。那么,上一周期结束时用于训练目标模型的样本的集合便可以称为目标样本集合。

那么,可以理解的,在上一周期结束时,电子设备可以基于目标样本集合进行训练得到目标模型,然后在当前周期内,利用上述目标模型对访问用户进行识别,确定其是否为作弊用户。进而,电子设备可以识别出与上述目标样本集合中包括的作弊用户类型相同的作弊用户。然而,由于模拟作弊用户的方式更新较快,因此,在当前周期内,可能出现与上述目标样本集合中包括的作弊用户类型不同的作弊用户,而这些作弊用户不能被当前周期内使用的目标模型识别出来,也就是说,电子设备在当前周期内存储的访问用户的用户信息中包括上述不能被当前周期内使用的目标模型识别出来的作弊用户的用户信息。

为了在下一周期内可以对上述不能被当前周期内使用的目标模型识别出来的作弊用户进行准确识别,电子设备可以将上述不能识别出来的作弊用户的用户信息作为训练样本,添加至上述目标样本集合中,并利用添加训练样本后的目标样本集合重新对目标模型进行训练,从而得到在下一周期用于识别作弊用户的识别模型,该识别模型在训练过程中可以学习到上述不能识别出来的作弊用户的用户信息的特征,在下一周期内便可以对目前存在的各类型的作弊用户进行准确识别。

那么,在本发明实施例提供的第一种具体实现方式中:

上述步骤s101,获取并存储第一类访问用户的用户信息,可以包括:在当前周期内获取并存储第一类访问用户的用户信息;

上述步骤s102,确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本,可以包括:在当前周期结束时,确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本;

上述步骤s103,基于训练样本对预设的待训练模型进行训练,可以包括:将训练样本添加到目标样本集合中,其中,目标样本集合为上一周期结束时用于训练目标模型的样本的集合,目标模型为当前周期用于识别作弊用户的模型;将添加后的目标样本集合输入到目标模型中进行训练。

具体的,在本实现方式中,为了获取上述训练样本,电子设备可以通过分析当前周期内已存储的访问用户的用户信息,确定当前周期内已存储的访问用户的用户信息中不符合预设规则的用户信息。显然,这些不符合预设规则的用户信息即为当前周期内不能被目标模型识别出来的作弊用户的用户信息,那么,这些不符合预设规则的用户信息便可以为当前周期内新出现类型的作弊用户的用户信息。因此,可以将这些不符合预设规则的用户信息作为训练样本。

其中,预设规则可以是基于在当前周期之前已获得的访问用户的用户信息,通过无监督学习算法确定的规则。

具体的,电子设备可以通过多种方式确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本。为了行文清晰,后续会对电子设备确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本的方式进行举例介绍。

在确定训练样本后,电子设备便可以执行将训练样本添加到目标样本集合中,如上,目标样本集合为在上一周期结束时用于训练目标模型的样本的集合,而训练得到的目标模型用于在当前周期内对访问用户进行识别,确定其是否为作弊用户。

在将训练样本添加到目标样本集合后,电子设备可以将添加后的目标样本集合输入到目标模型中进行训练,当目标模型的输出结果的准确率达到预设准确率时,停止训练,得到在用于识别作弊用户的识别模型。

其中,在训练过程中,目标模型可以学习添加后的目标样本集合中的用户信息的特征,也就是说,目标模型可以学习在当前周期内出现的各类型作弊用户的用户信息的特征。经过对添加后的目标样本集合中的大量训练样本的学习,目标模型可以将输入的用户信息的特征与已学习到的各类型作弊用户的用户信息的特征进行匹配,从而对输入的用户信息对应的访问用户进行识别,确定其是否为作弊用户,进而得到在用于识别作弊用户的识别模型。

其中,将添加后的目标样本集合输入到目标模型中进行训练得到目标模型后,可以利用训练得到的目标模型对添加后的目标样本集合中的训练样本进行预测,得到该目标模型的输出结果。然后,可以判断目标模型对添加后的目标样本集合中的每个训练样本的预测结果是否正确,并计算准确率,进而得到识别模型的输出结果准确率。当目标模型的输出准确率达到预设准确率时,则可以停止训练,得到用于识别作弊用户的识别模型。

可以理解的,为了能够周期性地对目标样本集合中的样本数量和样本类型进行扩充,使其可以包括的作弊用户的类型越来越多,从而使得用于识别作弊用户的识别模型始终可以对新出现类型的作弊用户进行快速识别,保证识别模型的识别准确率率和召回率。

那么,上述第一种具体实现方式中得到的用于识别作弊用户的识别模型可以为用于在下一周期内识别作弊用户的识别模型,即,在下一周期,可以利用上述实施方式中得到的识别模型对访问用户进行识别,确定其是否为作弊用户。

从而,在上述第一种具体实现方式的基础上,作为本发明实施例提供的第二种具体实现方式中,还可以包括如下步骤:

步骤a1:在进入下一周期后,存储当前周期内的第一类访问用户的用户信息,并通过识别模型对第一类访问用户进行识别,返回在当前周期结束时,确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本的步骤。

也就是说,在进入下一周期后,电子设备可以利用得到的识别模型,对访问用户进行识别,确定其是否为作弊用户,并将没有被确定为作弊用户的访问用户的用户信息进行存储。进而,在该周期结束时,电子设备可以返回执行在当前周期内获取并存储第一类访问用户的用户信息,从而可以获取该周期内新出现的、且不能被识别模型识别的作弊用户的用户信息作为训练样本,进而,可以进一步地扩充目标样本集合,使基于扩充后的目标样本集合训练得到的识别模型可以在接下来的周期内识别在接下来的周期内新出现类型的作弊用户。进而,可以提高识别模型各类型作弊用户的识别准确率以及识别模型的召回率。

可以理解的,很多时候,电子设备在当前周期内已存储的第一类访问用户的用户信息中确定不符合预设规则的用户信息时,当前周期内已存储的第一类访问用户的用户信息中的真实用户的用户信息可能会被确认为离群点。

例如,假设基于已存储的第二类访问用户的用户信息,利用无监督学习算法对访问用户的访问时间进行分组后,确定真实用户的访问时间在每日的早上六点至晚上十二点。当前周期内的某一天,某个真实用户因为工作原因,需要在当日凌晨两点的时候发送访问请求,显然,在这种情况下,由于该用户是真实用户,则预设的待训练模型不能对其进行识别,从而便可以将该用户的用户信息存储在当前周期内获取并存储第一类访问用户的用户信息。而在当前周期内已存储的第一类访问用户的用户信息中确定不符合预设规则的用户信息时,由于该用户的用户信息成为了离群点,从而被电子设备认为是新出现类型的作弊用户的用户信息,并该用户信息作为训练样本。

显然,直接在当前周期结束时,将当前周期内已存储的第一类访问用户的用户信息中确定的不符合预设规则的用户信息作为训练样本对预设的待训练模型进行训练,则可能将真实用户偶发情况下的用户信息误判为训练样本,导致最终得到的用于识别作弊用户的识别模型的识别准确率较低。

因此,为了避免将真实用户偶发情况下的用户信息误判为训练样本,提高得到的训练样本的准确率,保证最终得到的用于识别作弊用户的识别模型具有较高的识别准确率。

在本发明实施例提供的第一种实现方式的基础上,作为本发明实施例提供的第三种具体实现方式,可以在将训练样本添加到目标样本集合中的步骤之前,电子设备可以确定每个训练样本对应的在线频率满足预设频率。

具体的,在得到训练样本后,电子设备可以判断每个训练样本对应的在线频率是否满足预设频率,将在线频率不满足预设频率的训练样本删除,从而使得确定的每个训练样本的在线频率均满足预设频率。进而,电子设备便可以将确定的在线频率满足预设频率的训练样本添加到目标样本集合中。

其中,所谓在线频率可以理解为:将预设周期分为等长的多个时间段,针对每个训练样本,统计出现该训练样本的时间段的数量,则该数量即为该训练样本的在线频率。

例如,假设当前周期的时长为十天,按照24小时的预设时长,可以将当前周期分为十个时间段,并采用1-10对这是个时间段进行编号,预设频率为6,当训练样本的在线频率不小于预设频率时,确定训练样本的频率满足预设频率。

若经过统计发现训练样本a出现在第1、第2、第3、第4、第5、第7、第8及第9时间段内,也就是说,训练样本a出现的时间段的数量可以确定为8,即训练样本a的在线频率为8,由于8>6,电子设备则确定训练样本a的在线频率满足预设频率,进而,便可以将训练样本a添加到目标样本集合中。

需要说明的是,上述举例仅为本发明实施例的一种实现方式,本发明实施例不对训练样本的在线频率及预设频率的具体内容进行限定,也不对确定训练样本的在线频率满足预设频率的具体方式进行限定。

当电子设备确定某训练样本对应的在线频率不满足频率条件时,电子设备可以继续针对下一个训练样本,判断其对应的在线频率是否满足预设频率。

需要说明的是,电子设备依次判断每个训练样本的在线频率满足预设频率,并将确定的在线频率满足预设频率的训练样本添加到目标样本集合中,也可以同时判断每个训练样本的在线频率满足预设频率,并将确定的在线频率满足预设频率的训练样本添加到目标样本集合中。这都是合理的。

下面,对电子设备确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本的方式进行举例介绍。

具体的,如图2所示,该方式可以包括如下步骤:

s201:获取当前周期内已存储的第一类访问用户的用户信息及操作日志;

其中,第一类访问用户的用户信息可以包括多种类型的用户信息,这些信息可以标识第一类访问用户自身的用户特征,例如,用户ip、用户id、浏览器相关信息,例如浏览器类型,cookie等。操作日志可以包括多种类型的操作数据,这些操作数据可以是标识第一类访问用户在线状态的数据,例如,标识第一类访问用户在线时间的数据、标识第一类访问用户在线时长的数据,也可以是统计得到的第一类访问用户在线时进行各类操作的数据,例如,统计得到的第一类访问用户在线时对各类资源的点击率等。

通常在接收到访问请求时,服务器可以存储与该访问请求对应的第一类访问用户的用户信息,并针对每一个第一类访问用户的用户信息,跟踪该用户信息在在线时间内所做的各种操作,从而在操作日志中存储该第一类访问用户的各类型的操作数据。也就是说,在接收到访问请求后,服务器可以存储与该访问请求对应的第一类访问用户的访问信息及操作日志。其中,操作日志中可以包括一个类型的操作数据,也可以包括多个类型的操作数据,对此本申请不做具体限定。

需要说明的是,当电子设备为服务器时,上述当前周期内已存储的第一类访问用户的用户信息及操作日志可以是当前周期内,服务器在接收到访问请求时,存储的第一类访问用户的用户信息及操作日志。

当电子设备为处理器、电脑等非服务器的电子设备时,电子设备可以与服务器建立通信连接,在当前周期结束时,电子设备可以向该服务器发送信息获取请求,请求获取该服务器在当前周期内已存储的第一类访问用户的用户信息及操作日志,并在该服务器响应上述信息获取请求时,接收该服务器发送的当前周期内已存储的第一类访问用户的用户信息及操作日志。

当电子设备为处理器、电脑等非服务器的电子设备时,电子设备可以与服务器建立通信连接,则该服务器可以在当前周期结束时,将在当前周期内已存储的第一类访问用户的用户信息及操作日志发送给电子设备。

在本申请中,不对电子设备获取当前周期内已存储的第一类访问用户的用户信息及操作日志的方式进行具体限定。

s202:针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则,若该第一类访问用户对应的操作日志不符合预设规则,执行步骤s203;

在获取了当前周期内已存储的第一类访问用户的用户信息与操作日志后,针对每一第一类访问用户,电子设备可以判断与其对应的操作日志是否符合预设规则,若与该第一类访问用户对应的操作日志不符合预设规则,则电子设备可以继续执行步骤s203。

通常情况下,当第一类访问用户为真实用户时,服务器存储的第一类访问用户的各类型操作数据的数值通常处于一个较为确定的数值范围内,或者通常为一个较为确定的数值,从而利用无监督学习算法,当对第一类访问用户的用户信息按照各个类型的操作数据的相似度进行分组时,可以将第一类访问用户的用户信息分为若干组,且不存在离群点。

例如,当第一类访问用户为真实用户时,同一用户ip的用户对广告的点击量的数值通常处于数值集合[1.98%,2.02%]内,又例如,当第一类访问用户为真实用户时,某个电视剧中的前贴广告、中插广告及暂停广告的访问流量比例的数值通常为1:7:2。

因此,预设条件可以是操作日志中各类型操作数据的数值不符合真实用户对应的各类型操作数据的数值范围,或者各类型操作数据的数值与真实用户对应的各类型操作数据的数值具有较大的差异,这样,当第一类访问用户对应的操作日志远远异于真实用户的操作日志时,该第一类访问用户的用户信息便可以由于不符合预设规则,而成为离群点,因此,该第一类访问用户是作弊用户的可能性较高,那么便可以执行步骤s203。

若电子设备执行步骤s202的判断结果为与该第一类访问用户对应的操作日志符合预设规则,则电子设备可以继续针对下一第一类访问用户,判断其对应的操作日志是否符合预设规则。

需要说明的是,电子设备可以依次判断每一第一类访问用户对应的操作日志是否符合预设规则,也可以同时判断所有第一类访问用户对应的操作日志是否符合预设规则,这都是合理的。

s203:确定该第一类访问用户的用户信息为训练样本;

当第一类访问用户对应的操作日志满足不符合预设规则时,说明该第一类访问用户对应的操作日志中各类型操作数据的数值与真实用户对应的操作日志中各类型操作数据的数值具有较大差异,进而可以说明,该第一类访问用户是作弊用户的可能性较高,而且该第一类访问用户没有被目标模型识别为作弊用户,因此,该第一类访问用户在很大程度上可能是当前周期内出现的新类型作弊用户,进而,该第一类访问用户的用户信息在很大程度上可以作为训练样本添加到目标样本集合中。因此,电子设备可以将该访问用户的用户信息确定为训练样本。

需要说明的是,服务器在接收到访问请求时存储的与该访问请求对应的第一类访问用户的操作日志中,通常会包括该第一类访问用户的所有操作数据,然而,对于本发明实施例而言,电子设备在执行上述步骤s201时所获取的当前周期内已存储的第一类访问用户的操作日志中可以不用包括该第一类访问用户的所有操作数据,而是根据实际应用的需求获取其中一种类型或者多种类型的操作数据。

通常情况下,不同类型的操作数据对判断该操作数据对应的用户信息是否为训练样本所起到的作用不同,因此,不同类型的操作数据对判断其对应的用户信息是否为训练样本所占的权重值不同,某一类型的操作数据所起的作用越大,该类型的操作数据的权重值也就可以越高。

例如,假设第一类访问用户对广告点击率对判断其对应的用户信息是否为备选训练样本所占权重值为80%,由于权重值较高,说明第一类访问用户对广告点击率对判断其对应的用户信息是否为训练样本所起到的作用较大,可以起到决定性作用,因此,电子设备在执行上述步骤s201时所获取的操作日志中可以只包括访问用户对广告点击率。

又例如,假设第一类访问用户对广告点击率、第一类访问用户的访问时间分布比例及第一类访问用户对于同一视频不同时段的广告的点击率比例对判断其对应的用户信息是否为训练样本所占的权重值分别为40%、30%及30%,说明上述三种类型的操作数据对判断其对应的用户信息是否为训练样本所起到的作用比较平均,均不能起到决定性作用,因此,电子设备在执行上述步骤s201时所获取的操作日志中可以包括上述三种类型的操作数据。

电子设备在执行上述步骤s201时所获取的当前周期内已存储的第一类访问用户的操作日志中包括的操作数据的类型的数量不同时,电子设备在执行上述步骤s202时所采用的预设规则可以不同。下面,对操作日志中分别包括一个类型的操作数据及多个类型的操作数据时,电子设备执行上述步骤s202的具体方式进行举例说明。

一种实现方式中,上述操作日志可以包括一个类型的操作数据。

则上述步骤s202针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则的步骤,可以包括:

针对每一第一类访问用户,判断操作数据是否符合其类型所对应的第一类型预设规则,若操作数据不符合其类型所对应的第一类型预设规则,则执行上述步骤s203;

在获取当前周期内已存储的第一类访问用户的用户信息及操作日志后,针对每一第一类访问用户,电子设备可以确定其对应的操作日志中包括的操作数据的类型,进而判断该操作数据是否符合其类型所对应的第一类型预设规则,若该操作数据不符合其类型所对应的第一类型预设规则,则电子设备继续执行步骤s203。也就是,若操作数据不符合其类型所对应的第一类型预设规则,则电子设备可以确定该第一类访问用户的用户信息为训练样本。

例如,操作数据的类型为第一类访问用户对广告点击率,其对应的第一类型预设规则为第一类访问用户对广告点击率的数值位于集合[1.98%,2.02%]内,电子设备获取的第一类访问用户a的操作日志中包括的广告点击率为3.5%,则由于3.5%位于集合[1.98%,2.02%]外,则电子设备可以确定第一类访问用户a的用户信息为训练样本。电子设备获取的第一类访问用户b的操作日志中包括的广告点击率为1.99%,则由于1.99%位于集合[1.98%,2.02%]内,则电子设备可以确定第一类访问用户a的用户信息为非训练样本。

需要说明的是,在获取当前周期内已存储的第一类访问用户的用户信息及操作日志后,电子设备可以依次针对每一第一类访问用户,判断操作日志中包括的操作数据是否符合其类型对应的第一类型预设规则;也可以同时针对所有第一类访问用户,判断操作日志中包括的操作数据是否符合其类型对应的第一类型预设规则,这都是合理的。

另一种实现方式中,上述操作日志可以包括多个类型的操作数据;

则上述步骤s202针对每一第一类访问用户,判断其对应的操作日志是否符合预设规则的步骤,可以包括:

步骤b1:针对每一第一类访问用户的操作日志中包括的每个类型的操作数据,判断该操作数据是否符合其类型所对应的第二类型预设规则,若不符合,执行步骤b2;

步骤b2:确定该操作数据为目标操作数据;

在获取当前周期内已存储的第一类访问用户的用户信息及操作日志后,针对每一第一类访问用户,电子设备可以确定其对应的操作日志中包括的操作数据的类型,进而判断每一个操作数据是否符合于其类型所对应的第二类型预规则,若该操作数据不符合其类型所对应的第二类型预设规则,则电子设备继续执行步骤b2。也就是将不符合其类型所对应的第二类型预设规则的操作数据确定为目标操作数据。

由于不同类型的操作数据对判断该操作数据对应的用户信息是否为训练样本所起到的作用不同,因此,虽然当操作数据被确定为目标操作数据时,可以说明该操作数据远远异于真实用户的操作数据,也就是说,该操作数据对应的第一类访问用户是作弊用户的可能性较高,但是在这种情况下,并不一定可以说明该操作数据对应的第一类访问用户就是作弊用户。因此,为了更加准确地在获取的第一类访问用户的用户信息中确定训练样本,则在确定了目标操作数据后,电子设备可以继续执行步骤b3。

需要说明的是,用户可以依次判断所获取的操作日志中包括的操作数据是否符合其类型所对应的第二类型预设规则,也可以同时判断每个所获取的操作日志中包括的操作数据是否符合其类型所对应的第二类型预设规则,这都是合理的。

步骤b3:针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值,若该第一类访问用户所对应的目标操作数据的数量不小于预设数值,执行上述步骤s203;

针对每一第一类访问用户,电子设备可以确定该第一类访问用户对应的目标操作数据的数量,进而,可以判断该数量是否不小于预设数值,若该数量不小于预设数值,说明该第一类访问用户的多个类型的操作数据都远远异于真实用户的操作数据,进而,说明该第一类访问用户是作弊用户的可能性较大,则电子设备可以继续执行上述步骤s203,也就是说该数量不小于预设数值时,则电子设备可以确定该第一类访问用户的用户信息为训练样本。

其中,预设数值可以根据不同类型的操作数据对判断该操作数据对应的用户信息是否为训练样本所起到的作用,以及实际应用中对作弊用户的识别准确率的要求设定,例如,实际应用中对作弊用户的识别准确率的要求越高,则预设数值可以越大。

例如,针对第一类访问用户c,电子设备获取的第一类访问用户c的操作日志中,包括四种类型的操作数据,分别为第一类访问用户对广告点击率、第一类访问用户针对广告的曝光率、第一类访问用户的访问时间分布比例及第一类访问用户对于同一视频不同时段的广告的点击率比例,其中,通过上述步骤b1-步骤b2,电子设备确定第一类访问用户c的操作日志中的广告点击率、第一类访问用户针对广告的曝光率及第一类访问用户的访问时间分布比例为目标操作数据,则目标操作数据的数量为3,且预设数值为3,则电子设备可以确定访问用c对应的目标操作数据的数量不小于预设数值,可以将第一类访问用户c的用户信息确定为训练样本。

需要说明的是,在第一类访问用户所对应的目标操作数据的数量不小于预设数值时,说明该第一类访问用户的多个操作数据均远远异于真实用户的操作数据,因此,可以在较大程度上排除真实用户偶然出现异常的操作数据的情况,从而提高确定的训练样本的准确率,进而,电子设备可以从训练样本中进一步确定训练样本。

电子设备在执行上述步骤b3时,可以依次针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值,也可以同时针对所有第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值。这都是合理的。

可选的,上述步骤b3针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值,可以包括:

针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的权重的加和值是否不小于预设权重值,若该第一类访问用户所对应的目标操作数据的权重的加和值不小于预设权重值,执行上述步骤s203.

在判断目标操作数据对应的第一类访问用户的用户信息是否为训练样本时,根据不同类型的操作数据对判断该操作数据对应的用户信息是否为训练样本所占的权重值,可以确定目标操作数据的权重值之和,当权重值之和大于预设权重值时,说明所确定的目标操作数据可以在很大程度上确定对应的第一类访问用户为作弊用户,进而可以确定目标操作数据对应的第一类访问用户的用户信息为训练样本。

其中,预设权重值可以根据不同类型的操作数据对判断该操作数据对应的用户信息是否为训练样本所起到的作用,以及实际应用中对作弊用户的识别准确率的要求设定,例如,实际应用中对作弊用户的识别准确率的要求越高,则预设权重值可以越大。

例如,假设第一类访问用户的操作日志中包括的操作数据的类型分别为第一类访问用户对广告点击率、第一类访问用户的访问时间分布比例及第一类访问用户对于同一视频不同时段的广告的点击率比例,且上述三个类型的操作数据对判断其对应的用户信息为训练样本所占的权重值分别为80%、5%及15%,预设权重值为70%。

电子设备对第一类访问用户d的操作日志中包括的操作数据进行判断,确定其中只有第一类访问用户对广告点击率为目标操作数据,则目标访问数据的权重的加和值为80%,由于80%>70%,电子设备可以将第一类访问用户d的用户信息确定为训练样本。

电子设备对第一类访问用户e的操作日志中包括的操作数据进行判断,确定其中第一类访问用户的访问时间分布比例及第一类访问用户对于同一视频不同时段的广告的点击率比例为目标操作数据,则目标访问数据的权重的加和值为20%,由于20%<70%,则电子设备不可以将第一类访问用户d的用户信息确定为训练样本。

作为本发明实施例的一种实施方式,上述电子设备在执行步骤s201时获取的当前周期内已存储的第一类访问用户的操作日志中包括的操作数据的类型可以是以下操作数据中的一种或多种:

第一类访问用户对广告点击率、第一类访问用户针对广告的曝光率、第一类访问用户的访问时间分布比例、第一类访问用户对于同一视频不同时段的广告的点击率比例。

当然,上述电子设备在执行步骤s201时获取的当前周期内已存储的第一类访问用户的操作日志中包括的操作数据还可以包括其他类型的操作数据,对此,本申请不做具体限定。

作为本发明实施例的一种实施方式,上述步骤b1中通过识别模型对第一类访问用户进行识别的步骤,可以包括:

步骤c1:获取第一类访问用户的用户信息;

在进入下一周期后,电子设备可以利用当前周期结束时基于添加后的目标样本集合训练得到的识别模型对第一类访问用户进行识别,确定其是否为作弊用户。

当电子设备为服务器时,则可以获取与接收到的访问请求对应的第一类访问用户的用户信息;当电子设备为非服务器的其他电子设备时,该电子设备与服务器建立通信连接,当服务器接收到访问请求时,服务器可以将与该访问请求对应的第一类访问用户的用户信息发送给该电子设备。本申请不对电子设备获取第一类访问用户的用户信息的方式进行具体限定。

步骤c2:将用户信息输入到识别模型中进行检测,获得第一类访问用户的识别结果。

电子设备在获取到第一类访问用户的用户信息后,可以将该用户信息输入到识别模型中,由于识别模型可以学习在当前周期内出现的各类型作弊用户的用户信息的特征,因此识别模型可以将输入的用户信息的特征与已学习到的各类型作弊用户的用户信息的特征进行匹配,从而对输入的用户信息对应的第一类访问用户进行识别,确定其是否为作弊用户。

需要说明的是,上述建立的在下一周期用于识别作弊用户的识别模型,可以在离线状态下使用,也可以在在线状态下使用。而当在不同状态下使用该识别模型时,电子设备在执行上述步骤c1获取第一类访问用户的用户信息的方式可以是不同的,下面,分别对电子设备在不同状态下执行上述步骤c1获取第一类访问用户的用户信息的方式进行举例说明。

一种实施方式中,上述步骤c1获取第一类访问用户的用户信息的步骤,可以包括:

在下一周期结束时,在离线状态下,获取下一周期内存储的第一类访问用户的用户信息。

在接收到访问请求时,服务器可以存储与该访问请求对应的第一类访问用户的用户信息,当下一周期结束时,在离线状态下,可以通过获取服务器的访问日志获取下一周期内存储的第一类访问用户的用户信息,并将获取到的用户信息输入到识别模型中,利用识别模型对第一类访问用户进行识别,确定其是否为作弊用户。

其中,当电子设备为服务器时,电子设备可以获取存储在本地的当前周期内的第一类访问用户的用户信息;当电子设备为非服务器的设备时,该电子设备可以与服务器建立通信连接,进而,可以接收服务器在下一周期结束时发送的当前周期内存储的第一类访问用户的用户信息,或者向服务器发送信息获取请求,获取服务器响应该信息获取请求发送的当前周期内存储的第一类访问用户的用户信息,上述信息获取请求中可以包括预设的时间段。

另一种实施方式中,上述步骤c1获取第一类访问用户的用户信息的步骤,可以包括:

在接收到第一类访问用户发送的访问请求时,获取第一类访问用户的用户信息。

在本实施方式中,在进入下一周期后,电子设备可以实时获取与接收到的访问请求对应的第一类访问用户的用户信息。也就是说,电子设备可以在在线状态下,实时获取下一周期内的第一类访问用户的用户信息,进而将获取到的用户信息输入到识别模型中,利用识别模型对该第一类访问用户进行识别,确定其是否为作弊用户。

其中,当电子设备为服务器时,电子设备可以在接收到访问请求时,获取与该访问请求对应的第一类访问用户的用户信息;当电子设备为非服务器的设备时,该电子设备可以与服务器建立通信连接,进而,服务器在接收到访问请求时,可以将与该访问请求对应的第一类访问用户的用户信息发送给电子设备。这都是合理的。

作为本发明实施例的一种实施方式,上述一种用于识别作弊用户的模型的训练方法还可以包括:

当第一类访问用户的识别结果为作弊用户时,屏蔽第一类访问用户的访问请求。

可选的,在访问请求对应的第一类访问用户被确定为作弊用户后,电子设备可以对该访问请求携带的目标用户信息进行标记,该标记表明该目标用户信息为作弊用户信息。当电子设备再次接收到的访问请求中携带了被标记的目标用户信息时,电子设备可以通过上述标记,识别该访问请求对应的第一类访问用户为作弊用户,进而屏蔽该访访问请求。

可选的,在访问请求对应的第一类访问用户被确定为作弊用户后,电子设备也可以对该访问请求携带的目标用户信息进行记录,得到作弊用户信息统计表。电子设备再次接收到的访问请求中携带了被标记的目标用户信息时,电子设备可以将再次获取的目标用户信息与上述作弊用户信息统计表中的信息进行匹配,确定该目标用户信息是否被记录在上述坐标用户信息统计表中,进而,电子设备可以确定该访问请求对应的第一类访问用户是否为作弊用户,若是,则可以屏蔽该访问请求。

作为本发明实施例的一种实施方式,在访问请求对应的第一类访问用户被确定为作弊用户后,电子设备还可以将该第一类访问用户的目标用户信息发送给与之通信连接的其他的电子设备,当其他电子设备接收到携带该目标用户信息的访问请求时,也可以屏蔽该访问请求。

可见,本实施例中,电子设备可以屏蔽携带有作弊用户信息的访问请求,从而可以较少作弊用户对各类资源的点击量或者播放量的影响,提升统计得到的资源的点击量或者播放量的真实性,进而在根据资源的点击量或者播放量进行决策时,减少作弊用户带来的不良影响。

对应于上述本发明实施例提供的一种用于识别作弊用户的模型的训练方法,本发明实施例还提供了一种用于识别作弊用户的模型的训练装置,如图3所示,该装置包括:

用户信息获取模块310,用于获取并存储第一类访问用户的用户信息;

训练样本确定模块320,用于确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本。

其中,预设规则为:基于已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则,第二类访问用户的用户信息是在获取第一类访问用户的用户信息之前获取并存储的访问用户的用户信息;

模型训练模块330,用于基于训练样本对预设的待训练模型进行训练,其中,所述待训练模型为用于识别所述第一类访问用户和所述第二类访问用户是否为作弊用户的模型;

识别模型获得模块340,用于当待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

以上可见,在本发明实施例提供的方案中,可以通过无监督算法基于第二类访问用户的用户信息确定预设规则,从而便可以在已存储的第一类访问用户的用户信息中确定新出现类型的作弊用户的用户信息,进而,基于这些所确定的用户信息训练得到新的识别模型,以使得该新的识别模型可以识别新出现类型的作弊用户。这样,通过预设规则对新出现类型的作弊用户的用户信息进行标注,避免了人工标注的方法无法对新出现类型的作弊用户进行标注的现象出现,从而提高训练得到的新的识别模型对新出现类型的作弊用户的识别准确率及该识别模型的召回率。

作为本发明实施例的一种实施方式,

上述用户信息获取模块310可以包括:

用户信息获取子模块(图3中未示出),用于在当前周期内获取并存储第一类访问用户的用户信息;

上述训练样本确定模块320可以包括:

训练样本确定子模块(图3中未示出),用于在当前周期结束时,确定当前周期内已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本;

上述模型训练模块330可以包括:样本集合添加子模块(图3中未示出)和模型训练子模块(图3中未示出);

样本集合添加子模块(图3中未示出),用于将训练样本添加到目标样本集合中;

其中,目标样本集合为上一周期结束时用于训练目标模型的样本的集合,目标模型为当前周期用于识别作弊用户的模型。

模型训练子模块(图3中未示出),用于将添加后的目标样本集合输入到目标模型中进行训练;

作为本发明实施例的一种实施方式,上述一种用于识别作弊用户的模型的训练装置还可以包括:

信息存储及模型应用模块(图3中未示出),用于在进入下一周期后,存储当前周期内的第一类访问用户的用户信息,并通过识别模型对第一类访问用户进行识别,触发训练样本确定模块。

作为本发明实施例的一种实施方式,上述一种用于识别作弊用户的模型的训练装置还可以包括:

在线频率确定模块(图3中未示出),用于在将训练样本添加到目标样本集合中之前,确定每个训练样本对应的在线频率满足预设频率。

作为本发明实施例的一种实施方式,上述用户信息获取子模块(图3中未示出)可以包括:

用户信息获取单元(图3中未示出),用于在当前周期结束时,获取当前周期内已存储的第一类访问用户的用户信息及操作日志;

预设规则判断单元(图3中未示出),用于针对每一第一类访问用户,判断其对应的操作日志是符合预设规则,,若不符合,触发训练样本确定单元(图3中未示出);

训练样本确定单元(图3中未示出),用于确定该第一类访问用户的用户信息为备选训练样本。

一种实现方式中,上述操作日志可以包括一个类型的操作数据。

则上述预设规则判断单元(图3中未示出),可以具体用于:针对每一第一类访问用户,判断操作数据是否符合其类型所对应的第一类型预设规则,若不符合,触发训练样本确定单元(图3中未示出)。

一种实现方式中,上述操作日志可以包括多个类型的操作数据。

则上述预设规则判断单元(图3中未示出),可以包括:

预设规则判断子单元(图3中未示出),用于针对每一第一类访问用户的操作日志中包括的每个类型的操作数据,判断该操作数据是否符合其类型所对应的第二类型预设规则,若不符合,触发数据确定子单元(图3中未示出);

数据确定子单元(图3中未示出),用于确定该操作数据为目标操作数据;

预设数值判断子单元(图3中未示出),用于针对每一第一类访问用户,判断该第一类访问用户所对应的目标操作数据的数量是否不小于预设数值,若满足,触发上述备选训练样本确定单元(图3中未示出)。

可选的,上述操作数据可以包括:访问用户对广告点击率、访问用户针对广告的曝光率、访问用户的访问时间分布比例、访问用户对于同一视频不同时段的广告的点击率比例。

作为本发明实施例提供的一种实施方式,上述信息存储及模型应用模块(图3中未示出),可以包括:

访问信息获取子模块(图3中未示出),用于获取第一类访问用户的用户信息;

访问用户识别子模块(图3中未示出),用于将用户信息输入到识别模型中进行检测,获得第一类访问用户的识别结果。

作为本发明实施例提供的一种实施方式,上述访问信息获取子模块(图3中未示出),可以具体用于:

在下一周期结束时,在离线状态下,获取下一周期内存储的第一类访问用户的用户信息;或,

在接收到第一类访问用户发送的访问请求时,获取第一类访问用户的用户信息。

作为本发明实施例提供的一种实施方式,上述一种用于识别作弊用户的模型的训练装置还可以包括:

访问请求屏蔽模块(图3中未示出),用于当第一类访问用户的识别结果为作弊用户时,屏蔽第一类访问用户的访问请求。

本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,

存储器403,用于存放计算机程序;

处理器401,用于执行存储器403上所存放的程序时,实现上述本发明实施例提供的一种用于识别作弊用户的模型的训练方法的方法步骤:

具体的,上述用于识别作弊用户的模型的训练方法,包括

获取并存储第一类访问用户的用户信息;

确定已存储的第一类访问用户的用户信息中不符合预设规则的用户信息,作为训练样本,其中,预设规则为:基于已存储的第二类访问用户的用户信息,通过无监督学习算法确定的规则,第二类访问用户的用户信息是在获取第一类访问用户的用户信息之前获取并存储的访问用户的用户信息;

基于训练样本对预设的待训练模型进行训练,其中,所述待训练模型为用于识别所述第一类访问用户和所述第二类访问用户是否为作弊用户的模型;

当待训练模型的输出结果的准确率达到预设准确率时,停止训练,得到用于识别作弊用户的识别模型。

需要说明的是,上述处理器401执行存储器403上存放的程序而实现的用于识别作弊用户的模型的训练方法的其他实现方式,与前述方法实施例部分提供的一种用于识别作弊用户的模型的训练方法的方法实施例相同,这里不再赘述。

以上可见,在本发明实施例提供的方案中,可以通过无监督算法基于第二类访问用户的用户信息确定预设规则,从而便可以在已存储的第一类访问用户的用户信息中确定新出现类型的作弊用户的用户信息,进而,基于这些所确定的用户信息训练得到新的识别模型,以使得该新的识别模型可以识别新出现类型的作弊用户。这样,通过预设规则对新出现类型的作弊用户的用户信息进行标注,避免了人工标注的方法无法对新出现类型的作弊用户进行标注的现象出现,从而提高训练得到的新的识别模型对新出现类型的作弊用户的识别准确率及该识别模型的召回率。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用于识别作弊用户的模型的训练方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用于识别作弊用户的模型的训练方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例、包含指令的计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1