一种异常行为的特征信息的提取、识别方法和装置的制造方法_2

文档序号:8457686阅读:来源:国知局
[0055] 异常标记通常是对事件数据所属的用户标识(如用户ID)进行标注的,将请求的 用户标注为作弊或者非作弊。
[0056] -般可以通过采取人工和机器辅助的方法添加异常标记。
[0057] 机器辅助标注是指用统计、冲突等手段发现可疑数据,如某个IP地址1小时内发 出100次请求。
[0058] 在具体实现中,服务器可以将事件数据按照其发生时间,进行顺序排序,以按照时 序模拟线上的事件请求,进行异常行为的特征信息的学习。
[0059] 步骤202,对所述第一事件特征信息进行异常验证,获得第一验证值;
[0060] 异常验证可以用于验证是否是异常行为触发的事件。
[0061] 在具体实现中,异常验证可以包括累积验证、连续概率验证、统计概率验证、冲突 验证中的一种或多种。
[0062] 在本发明的一种优选实施例中,所述累积验证对应的第一验证值可以包括累积数 量;则在本发明实施例中,步骤202可以包括如下子步骤:
[0063] 子步骤S11,针对每个事件数据对应的事件,统计基于所述用户标识,触发所述事 件和/或所述事件中事件参数的累积数量。
[0064] 需要说明的是,事件可以由事件标识(如事件ID)进行表征。
[0065] 在实际中,不法分子的非自律活动通常会抢占过多的资源,扰乱活动秩序,因此, 可以通过对参与活动的数量进行限制,保证事件的公平。
[0066] 在本发明实施例中,累积可以包括对事件的累积和/或对事件中某些参数的累 积。
[0067] 例如,在020领域中,可以对某个团购的订单数量、代金券等进行参与数量的限 制,则在应用时,可以对某个用户参与该团购的订单数量、购买该代金券的数量进行累积。
[0068] 本发明实施例在离线学习异常行为的特征信息时,可以根据事件数据、也可以根 据业务需求确定一个数量阈值。
[0069] -般情况下,当累积数量大于限制的数量阈值时,可以拒绝基于该用户标识发起 的相同事件,反之,当累积数量未大于限制的数量阈值时,可以执行基于该用户标识发起的 相同事件。
[0070] 例如,某事件限制用户参加一次,则服务器可以对该用户(用户标识表征)参加该 事件(事件标识表征)的数量进行累积,当用户首次参加该事件时,允许用户参加,当用户 第二次参加该事件时,超过限制的数量,禁止用户参加该事件。
[0071] 又例如,某个代金券限制用户购买5个,则服务器可以对该用户(用户标识表征) 购买该代金券(事件参数表征)的数量,若第一次用户购买了 2个代金券,则第二次用户最 多只能购买3个代金券。
[0072] 在本发明的一种优选实施例中,所述连续概率验证对应的第一验证值可以包括连 续概率;则在本发明实施例中,步骤202可以包括如下子步骤:
[0073] 子步骤S12,针对每个事件数据对应的事件,计算基于所述设备信息,连续触发所 述事件的连续概率。
[0074] 需要说明的是,事件可以由事件标识(如事件ID)进行表征,连续触发指的是在某 个/些设备信息的维度下的连续发生,并不一定指时间上的连续。
[0075] 例如,若基于IP地址的维度定义连续触发,则连续触发可以指基于该IP地址连续 发生某个事件。
[0076] 又例如,若基于手机号码的维度定义续触发,则连续触发可以指基于该手机号码 连续发生某个事件。
[0077] 在实际中,若限制了参与活动的数量,不法分子可能不断尝试注册新的用户账号, 用新注册的用户账号参与活动。
[0078] 不法分子的作弊行为的一个特征为机器化操作,通过特定程序不断进行尝试参与 活动,即使通过不断变换用户账号,但还是会基于同一个环境中进行的,即可能在某个设备 信息的维度下,连续触发相同的事件,这些事件可以称之为连续事件。
[0079] 本发明实施例中,服务器可以对连续事件进行概率计算,获得连续概率,即当前事 件作为连续事件发生的概率。
[0080] 一般情况下,连续概率较小的事件可以认为是异常行为触发的事件,即疑似作弊 事件。
[0081] 本发明实施例在离线学习异常行为的特征信息时,可以根据事件数据确定一个连 续概率阈值。
[0082] 进一步地,可以通过制定连续概率阈值进行验证,若连续概率小于该连续概率阈 值,则可以拒绝基于该设备信息发起的事件,反之,当连续概率大于或等于该连续概率阈值 时,可以执行基于该设备信息发起的事件。
[0083] 在具体实现中,可以采用多种方式计算连续概率,例如,伯努利分布(二项分布)、 几何分布、巴斯卡分布等等,本发明实施例对此不加以限制。
[0084] 以伯努利分布为例,当某个事件连续出现时,每出现一次整体概率就会降低一次, 当出现足够次数时,概率低于连续概率阈值,此时可以拒绝基于该设备信息触发的相同事 件。
[0085] 具体而言,每个事件发生都是有概率的,概率取值范围为0-1之间。由此可以定义 连续事件发生的连续概率,对于相互独立的连续事件Al,A2,…,An,连续发生的连续概率 记为P(A),计算公式为:
[0086] P(A) =P(A1) * (PA2) * …*P(An)
[0087] 而事件发生的概率可以根据背景知识或者统计得到的。
[0088] 对于背景知识,例如,在移动平台包括Android系统和IOS系统的客户端,则基于 Android系统和I0S系统发生某个事件的概率为1/2。
[0089] 对于统计概率,例如,统计某段时间某个事件基于Android系统和I0S系统发生的 比率,若该事件的发生的总数量为10,基于Android系统发生的数量为6,基于I0S系统发 生的数量为4,则基于Android系统发生的概率为6/10,同理,基于I0S系统发生的概率为 4/10〇
[0090] 连续事件的连续概率越小,表示该系列事件发生的可能性就越小,因此可以确定 一个连续概率阈值,记为Pt,拒绝小于此概率的事件,即拒绝P(A)〈Pt的事件。
[0091] 例如,服务器对触发事件的设备系统做连续限制,基于Android系统和IOS系统发 生某个事件的概率为1/2,小于1/1000的事件将被拒绝。假设基于Android系统连续发生 某个事件10次,则连续第10个发生的事件的连续概率为1/1024,会被服务器拒绝。
[0092] 在本发明的一种优选实施例中,所述统计概率验证对应的第一验证值可以包括统 计概率;则在本发明实施例中,步骤202可以包括如下子步骤:
[0093] 子步骤S13,针对每个事件数据对应的事件,计算基于所述设备信息,在预设的时 间段内触发所述事件的统计概率。
[0094] 需要说明的是,事件可以由事件标识(如事件ID)进行表征。
[0095] 在实际中,若限制了连续发生事件的概率,不法分子可能不断转换设备信息,如手 机号、IP地址等,继续参与活动。
[0096] 不法分子的作弊行为的一个特征为机器化操作,通过特定程序不断进行尝试参与 活动,即使通过不断变换设备信息,但还是会基于同一个环境中进行的,即在整体上可以反 映某个设备信息的占比。
[0097] 本发明实施例中,服务器可以对事件进行统计,获得统计概率,即某段时间基于某 个设备信息发生某个事件的概率。
[0098] 本发明实施例在离线学习异常行为的特征信息时,可以根据事件数据确定一个统 计概率阈值。
[0099] 一般情况下,统计概率较大的事件可以认为是异常行为触发的事件,即疑似作弊 事件。
[0100] 进一步地,可以通过制定统计概率阈值进行验证,若统计概率大于该统计概率阈 值,则可以拒绝基于该设备信息发起的事件,反之,当统计概率小于或等于该统计概率阈值 时,可以执行基于该设备信息发起的事件。
[0101] 在具体实现中,可以采用多种方式计算统计概率,例如,高斯分布(正态分布)、泊 松分布、t分布、F分布等等,本发明实施例对此不加以限制。
[0102] 以高斯分布为例,假设事件发生服从高斯分布,根据当前的随机变量值可以计算 出左极限到当前值的面积,此面积覆盖大多数事件,未被覆盖的事件将被拒绝。
[0103] 具体而言,每个事件发生都是有概率的,概率取值范围为0-1之间,该概率可以根 据背景知识或者统计得到的。
[0104] 假设事件的发生服从某一分布,可以根据分布函数对某一段区间积分计算面积, 记为As,当然总体面积也可以通过积分算出,记为At,该区间的概率定义为P(A) =As/At。
[0105] 由于分布函数是基于随机变量取值的函数,可以建立起随机变量和事件概率之间 的关系,随机变量记为X,则统计概率P(X)~P(A) =As/At。
[0106] 对某段时间发生的事件(即历史事件)进行统计,事件发生概率为随机变量,记为 Xi,确定统计概率阈值xt。当随机变量取值足够大
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1