一种异常行为的特征信息的提取、识别方法和装置的制造方法_2

文档序号：8457686阅读：来源：国知局

[0055] 异常标记通常是对事件数据所属的用户标识（如用户ID)进行标注的，将请求的用户标注为作弊或者非作弊。
[0056] -般可以通过采取人工和机器辅助的方法添加异常标记。
[0057] 机器辅助标注是指用统计、冲突等手段发现可疑数据，如某个IP地址1小时内发出100次请求。
[0058] 在具体实现中，服务器可以将事件数据按照其发生时间，进行顺序排序，以按照时序模拟线上的事件请求，进行异常行为的特征信息的学习。
[0059] 步骤202,对所述第一事件特征信息进行异常验证，获得第一验证值；
[0060] 异常验证可以用于验证是否是异常行为触发的事件。
[0061] 在具体实现中，异常验证可以包括累积验证、连续概率验证、统计概率验证、冲突验证中的一种或多种。
[0062] 在本发明的一种优选实施例中，所述累积验证对应的第一验证值可以包括累积数量；则在本发明实施例中，步骤202可以包括如下子步骤：
[0063] 子步骤S11，针对每个事件数据对应的事件，统计基于所述用户标识，触发所述事件和/或所述事件中事件参数的累积数量。
[0064] 需要说明的是，事件可以由事件标识（如事件ID)进行表征。
[0065] 在实际中，不法分子的非自律活动通常会抢占过多的资源，扰乱活动秩序，因此，可以通过对参与活动的数量进行限制，保证事件的公平。
[0066] 在本发明实施例中，累积可以包括对事件的累积和/或对事件中某些参数的累积。
[0067] 例如，在020领域中，可以对某个团购的订单数量、代金券等进行参与数量的限制，则在应用时，可以对某个用户参与该团购的订单数量、购买该代金券的数量进行累积。
[0068] 本发明实施例在离线学习异常行为的特征信息时，可以根据事件数据、也可以根据业务需求确定一个数量阈值。
[0069] -般情况下，当累积数量大于限制的数量阈值时，可以拒绝基于该用户标识发起的相同事件，反之，当累积数量未大于限制的数量阈值时，可以执行基于该用户标识发起的相同事件。
[0070] 例如，某事件限制用户参加一次，则服务器可以对该用户（用户标识表征）参加该事件（事件标识表征）的数量进行累积，当用户首次参加该事件时，允许用户参加，当用户第二次参加该事件时，超过限制的数量，禁止用户参加该事件。
[0071] 又例如，某个代金券限制用户购买5个，则服务器可以对该用户（用户标识表征）购买该代金券（事件参数表征）的数量，若第一次用户购买了 2个代金券，则第二次用户最多只能购买3个代金券。
[0072] 在本发明的一种优选实施例中，所述连续概率验证对应的第一验证值可以包括连续概率；则在本发明实施例中，步骤202可以包括如下子步骤：
[0073] 子步骤S12,针对每个事件数据对应的事件，计算基于所述设备信息，连续触发所述事件的连续概率。
[0074] 需要说明的是，事件可以由事件标识（如事件ID)进行表征，连续触发指的是在某个/些设备信息的维度下的连续发生，并不一定指时间上的连续。
[0075] 例如，若基于IP地址的维度定义连续触发，则连续触发可以指基于该IP地址连续发生某个事件。
[0076] 又例如，若基于手机号码的维度定义续触发，则连续触发可以指基于该手机号码连续发生某个事件。
[0077] 在实际中，若限制了参与活动的数量，不法分子可能不断尝试注册新的用户账号，用新注册的用户账号参与活动。
[0078] 不法分子的作弊行为的一个特征为机器化操作，通过特定程序不断进行尝试参与活动，即使通过不断变换用户账号，但还是会基于同一个环境中进行的，即可能在某个设备信息的维度下，连续触发相同的事件，这些事件可以称之为连续事件。
[0079] 本发明实施例中，服务器可以对连续事件进行概率计算，获得连续概率，即当前事件作为连续事件发生的概率。
[0080] 一般情况下，连续概率较小的事件可以认为是异常行为触发的事件，即疑似作弊事件。
[0081] 本发明实施例在离线学习异常行为的特征信息时，可以根据事件数据确定一个连续概率阈值。
[0082] 进一步地，可以通过制定连续概率阈值进行验证，若连续概率小于该连续概率阈值，则可以拒绝基于该设备信息发起的事件，反之，当连续概率大于或等于该连续概率阈值时，可以执行基于该设备信息发起的事件。
[0083] 在具体实现中，可以采用多种方式计算连续概率，例如，伯努利分布（二项分布）、几何分布、巴斯卡分布等等，本发明实施例对此不加以限制。
[0084] 以伯努利分布为例，当某个事件连续出现时，每出现一次整体概率就会降低一次，当出现足够次数时，概率低于连续概率阈值，此时可以拒绝基于该设备信息触发的相同事件。
[0085] 具体而言，每个事件发生都是有概率的，概率取值范围为0-1之间。由此可以定义连续事件发生的连续概率，对于相互独立的连续事件Al，A2,…，An，连续发生的连续概率记为P(A)，计算公式为：
[0086] P(A) =P(A1) * (PA2) * …*P(An)
[0087] 而事件发生的概率可以根据背景知识或者统计得到的。
[0088] 对于背景知识，例如，在移动平台包括Android系统和IOS系统的客户端，则基于 Android系统和I0S系统发生某个事件的概率为1/2。
[0089] 对于统计概率，例如，统计某段时间某个事件基于Android系统和I0S系统发生的比率，若该事件的发生的总数量为10,基于Android系统发生的数量为6,基于I0S系统发生的数量为4,则基于Android系统发生的概率为6/10,同理，基于I0S系统发生的概率为 4/10〇
[0090] 连续事件的连续概率越小，表示该系列事件发生的可能性就越小，因此可以确定一个连续概率阈值，记为Pt，拒绝小于此概率的事件，即拒绝P(A)〈Pt的事件。
[0091] 例如，服务器对触发事件的设备系统做连续限制，基于Android系统和IOS系统发生某个事件的概率为1/2,小于1/1000的事件将被拒绝。假设基于Android系统连续发生某个事件10次，则连续第10个发生的事件的连续概率为1/1024,会被服务器拒绝。
[0092] 在本发明的一种优选实施例中，所述统计概率验证对应的第一验证值可以包括统计概率；则在本发明实施例中，步骤202可以包括如下子步骤：
[0093] 子步骤S13,针对每个事件数据对应的事件，计算基于所述设备信息，在预设的时间段内触发所述事件的统计概率。
[0094] 需要说明的是，事件可以由事件标识（如事件ID)进行表征。
[0095] 在实际中，若限制了连续发生事件的概率，不法分子可能不断转换设备信息，如手机号、IP地址等，继续参与活动。
[0096] 不法分子的作弊行为的一个特征为机器化操作，通过特定程序不断进行尝试参与活动，即使通过不断变换设备信息，但还是会基于同一个环境中进行的，即在整体上可以反映某个设备信息的占比。
[0097] 本发明实施例中，服务器可以对事件进行统计，获得统计概率，即某段时间基于某个设备信息发生某个事件的概率。
[0098] 本发明实施例在离线学习异常行为的特征信息时，可以根据事件数据确定一个统计概率阈值。
[0099] 一般情况下，统计概率较大的事件可以认为是异常行为触发的事件，即疑似作弊事件。
[0100] 进一步地，可以通过制定统计概率阈值进行验证，若统计概率大于该统计概率阈值，则可以拒绝基于该设备信息发起的事件，反之，当统计概率小于或等于该统计概率阈值时，可以执行基于该设备信息发起的事件。
[0101] 在具体实现中，可以采用多种方式计算统计概率，例如，高斯分布（正态分布）、泊松分布、t分布、F分布等等，本发明实施例对此不加以限制。
[0102] 以高斯分布为例，假设事件发生服从高斯分布，根据当前的随机变量值可以计算出左极限到当前值的面积，此面积覆盖大多数事件，未被覆盖的事件将被拒绝。
[0103] 具体而言，每个事件发生都是有概率的，概率取值范围为0-1之间，该概率可以根据背景知识或者统计得到的。
[0104] 假设事件的发生服从某一分布，可以根据分布函数对某一段区间积分计算面积，记为As，当然总体面积也可以通过积分算出，记为At，该区间的概率定义为P(A) =As/At。
[0105] 由于分布函数是基于随机变量取值的函数，可以建立起随机变量和事件概率之间的关系，随机变量记为X，则统计概率P(X)~P(A) =As/At。
[0106] 对某段时间发生的事件（即历史事件）进行统计，事件发生概率为随机变量，记为 Xi，确定统计概率阈值xt。当随机变量取值足够大

完整全部详细技术资料下载

当前第2页1 2 3 4