一种数据筛选引擎建立方法及数据筛选引擎的制作方法_3

文档序号:9547293阅读:来源:国知局
面是对附加步骤和特征向量的具体确定过程进行详细的描述,下面将对根据特 征向量,并再次结合复数个业务逻辑确定高置信度名单,以及具体的分析方式进行详细的 描述,请参阅图3,本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例包 括:
[0105] 301、通过接入客户端提取已注册的用户的基础信息;
[0106] 本实施例中,当需要对直播平台的注册用户进行黑白名单的区分之前,首先需要 建立数据筛选引擎,通过接入客户端提取已注册的用户的基础信息。
[0107] 其中,用户的基础信息指用户在客户端(如YY客户端)的记录,包括用户名,年 龄,性别,注册地,注册IP,等级,昵称,简介,客户端登录状况等信息。
[0108] 302、提取与用户对应的历史行为数据;
[0109] 步骤301的通过接入客户端提取已注册的用户的基础信息的同时,需要提取与用 户对应的历史行为数据,行为数据包括登录行为数据、观看行为数据、消费行为数据和互动 行为数据。
[0110] 例如,行为数据指游戏直播平台(如YY虎牙直播)记录的用户在各个频道中的行 为,包括用户的登录,观看,消费(如送花,送道具等),以及互动行为(如留言等),具体地, 包括在统计日起前i天(i = 1,3, 7, 14, 21,28, 30等)用户累计的登录次数/天数/时长, 登录时段,登录IP以及相关频次,观看直播累计的次数/天数/时长/时段,消费次数/天 数/金额/时段,留言的时段等;其中时段是行为发生的具体时间。
[0111] 303、建立复数个业务逻辑,业务逻辑与非常规注册方式相对应;
[0112] 在步骤304之前,需要建立复数个业务逻辑,业务逻辑与非常规注册方式相对应,
[0113] 例如图7所示的机器作弊程序,在游戏直播中,区分使用机器作弊程序的账号和 合法用户,有下面的业务逻辑:
[0114] 机器作弊账号通常是由机器程序批量申请的;为了维护程序方便,通常使用一些 正则表达式自动生成账号名。为了避免账号重名而保证申请账号的通过率,机器申请的账 号名通常比较长,而且混合字母数字,账号名字母乱序且语义不强。相对地,正常用户为了 方便记忆,账号名通常具有语义,而且长度偏短;
[0115] 机器作弊账号通常使用代理IP注册账号,部分IP会注册数百个账号。相对地,正 常用户用于注册账号的IP分配比较唯一,该IP -般只会注册少量的账号;
[0116] 机器作弊程序通常使用代理IP同时登录数百个账号;而正常用户一般只会使用 个人电脑(即一个IP-台机器)开少量账号,通常最多开三个账号。
[0117] 机器作弊程序为了通过给某个频道刷人气而获取利益,会提供批量处理功能,如 "一键留言","一键刷花"。具体地,在游戏直播的互动信息中,作弊账号会短期内同时产生 大量的互动行为,譬如同时刷花。另一方面,正常用户一般需要时间输入互动信息,互动行 为有一定的行为间隔。
[0118] 304、根据基础信息和历史行为数据定义相对应的复数个特征;
[0119] 当提取已注册的用户的基础信息和用户对应的历史行为数据之后,需要根据基础 信息和历史行为数据定义相对应的复数个特征。
[0120] 前述的特征可以是基础信息和历史行为数据的内容,此处不做具体限定。
[0121] 305、根据基础信息和历史行为数据,并结合业务逻辑量化出与业务逻辑相对应的 复数个衍生特征;
[0122] 当根据基础信息和历史行为数据定义相对应的复数个特征之前或同时或之后,需 要根据基础信息和历史行为数据,并结合业务逻辑量化出与业务逻辑相对应的复数个衍生 特征。
[0123] 需要说明的是,前述的衍生特征可以是根据用户基础信息和行为数据量化出一些 业务的衍生特征,用于刻画用户的状况,部分特征如下:
[0124] 账号名的长度是否大于15个字符,是否文字和数据混杂,是否含有中文姓名拼音 (i.e.人口数据库中获取),是否含有英文姓名和英文常用词;
[0125] 账号注册时记录下的IP,该IP被注册账号的次数;譬如某个IP被10个账号注册 了,那么次数为10。
[0126] 账号登录时记录下的IP,该IP被不同账号登录的次数;譬如某个IP被10个账号 登录了,那么次数为10。
[0127] 账号与其他账号在同一时间区间有互动行为的次数,包括发言,送花等。譬如用户 在10点〇〇分发言一次,在这个时刻前后这三分钟时间区间内,如果有其他用户发言,那么 累积计数一次。
[0128] 306、根据复数个特征和/或复数个衍生特征,并结合业务逻辑建立相关联的复数 个特征向量;
[0129] 当根据基础信息和历史行为数据定义相对应的复数个特征,且/或者根据基础 信息和历史行为数据,并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征之后, 需要根据复数个特征和/或复数个衍生特征,并结合业务逻辑建立相关联的复数个特征向 量。
[0130] 需要说明的是,前述的根据复数个特征和/或复数个衍生特征,可以是根据复数 个特征,或者是复数个衍生特征,或者是根据复数个特征和复数个衍生特征的组合,再结合 业务逻辑建立相关联的复数个特征向量。
[0131] 前述的特征向量为通过预置方式进行归一化处理的特征向量,例如每个特征或衍 生特征对应的特征值作为特征向量的一个元素,向量的维度则为前述的特征或衍生特征。 每个向量元素的数值范围不统一,譬如特征为登录时长,其特征值的范围可能在1到3600 之间,和特征为登录次数,其特征值的范围可能在1到100次内。需要对特征向量进行归一 化,在实施过程中采用最大值-最小值归一化,即为(预置特征值-该维元素最小值)八该 维元素最大值-该维元素最小值),前述的预置特征值可以是每个特征或衍生特征对应的 非作弊用户的平均特征值,或者是根据经验自定义的非作弊用户的常规特征值,例如登录 次数的预置特征值的平均特征值或常规特征值为50次,此处具体不做限定。
[0132] 307、对复数个特征向量采用聚类方法进行基于用户的类别分类,确定每个类别对 应的特征向量;
[0133] 当根据复数个特征和/或复数个衍生特征,并结合业务逻辑建立相关联的复数个 特征向量之后,需要对复数个特征向量采用聚类方法进行基于用户的类别分类,确定每个 类别对应的特征向量。
[0134] 需要说明的是,考虑到用户的行为多样,对应的状态类别也有多种,譬如对于游戏 直播的机器作弊账号识别,除了有机器作弊和正常用户,还有行为表象偏两者之间的用户, 例如由于缺乏历史的积累,不了解作弊用户的数学特征,无法有效地刻画其行为。为了从 复杂的用户行为中准确地识别出黑白名单,首先采用聚类的方法识别用户类,采用K-means 作为聚类模型,该模型采用距离作为相似性的衡量指标,即认为两个特性向量的距离越近, 其相似度就越大;其中距离定义为特征向量的内积,前述的K-means聚类为本领域技术人 员公知的技术,此处便不再赘述。
[0135] 308、对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单,并 将高置信度名单设定为每个类别对应的参考样本;
[0136] 当对复数个特征向量采用聚类方法进行基于用户的类别分类,确定每个类别对应 的特征向量之后,需要对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度 名单,并将高置信度名单设定为每个类别对应的参考样本。
[0137] 例如对于每个类别的用户,通过业务逻辑识别高置信度的黑白名单。具体地,根据 步骤303描述的4种机器作弊的业务逻辑,逐个检查各类用户,找出最符合4类业务逻辑的 用户群。譬如从业务逻辑可知,作弊账号通常由正则表达式生成,即用户名长度一致,字符 呈枚举状态。基于这种业务逻辑,通过观察每类用户的账号名,挑选出那些含有无语义字段 并呈枚举状态的用户类。类似地,筛选出那些通过代理IP注册并登录平台的,互动信息群 发的用户群。这些用户群可以高自信度地认为是作弊的黑名单。对应地,根据正常用户的 业务逻辑,观察筛选出合法用户(即白名单)。
[0138] 309、对高置信度名单通过采用自身特征信息分析,以及每个类别对应的参考样本 和高置信度名单的自身特征信息的相关性分析,建立相对应的数据筛选规则。
[0139] 当对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单,并将 高置信度名单设定为每个类别对应的参考样本之后,需要对高置信度名单通过采用自身特 征信息分析,以及每个类别对应的参考样本和高置信度名单的自身特征信息的相关性分 析,建立相对应的数据筛选规则。
[0140] 例如从特征自身信息量方面,重要的特征携带信息较多,即特征值差异较大;衡量 的方法包括4类指标,如下:
[0141] 1)数值型特征变异系数小于某阀值,则该变量视为不重要变量;
[0142] 2)数值型特征标差小于某阀值,则该变量不重要;
[0143] 前述的维度特征是数值型,譬如充值金额,登录时长等,计算该特征对应的两组统 计值,包括变异系数(=正态分布的标准差/平均值)和标准差;
[0144] 3)分类型特征若某类别值的个数大于某阀值,则该变量不重要;
[0145] 4)分类型特征若类别值的数量大于某阀值,则该变量不重要;
[0146] 前述的该维度特征是类别型,譬如性别,注册地等,计算该特征对应的两组统计 值,包括类别的频率(譬如性别,类别值可能是3类,如男女其
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1