一种数据筛选引擎建立方法及数据筛选引擎的制作方法_3

文档序号：9547293阅读：来源：国知局

面是对附加步骤和特征向量的具体确定过程进行详细的描述，下面将对根据特征向量，并再次结合复数个业务逻辑确定高置信度名单，以及具体的分析方式进行详细的描述，请参阅图3,本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例包括：
[0105] 301、通过接入客户端提取已注册的用户的基础信息；
[0106] 本实施例中，当需要对直播平台的注册用户进行黑白名单的区分之前，首先需要建立数据筛选引擎，通过接入客户端提取已注册的用户的基础信息。
[0107] 其中，用户的基础信息指用户在客户端（如YY客户端）的记录，包括用户名，年龄，性别，注册地，注册IP，等级，昵称，简介，客户端登录状况等信息。
[0108] 302、提取与用户对应的历史行为数据；
[0109] 步骤301的通过接入客户端提取已注册的用户的基础信息的同时，需要提取与用户对应的历史行为数据，行为数据包括登录行为数据、观看行为数据、消费行为数据和互动行为数据。
[0110] 例如，行为数据指游戏直播平台（如YY虎牙直播）记录的用户在各个频道中的行为，包括用户的登录，观看，消费（如送花，送道具等），以及互动行为（如留言等），具体地，包括在统计日起前i天（i = 1，3, 7, 14, 21，28, 30等）用户累计的登录次数/天数/时长，登录时段，登录IP以及相关频次，观看直播累计的次数/天数/时长/时段，消费次数/天数/金额/时段，留言的时段等；其中时段是行为发生的具体时间。
[0111] 303、建立复数个业务逻辑，业务逻辑与非常规注册方式相对应；
[0112] 在步骤304之前，需要建立复数个业务逻辑，业务逻辑与非常规注册方式相对应，
[0113] 例如图7所示的机器作弊程序，在游戏直播中，区分使用机器作弊程序的账号和合法用户，有下面的业务逻辑：
[0114] 机器作弊账号通常是由机器程序批量申请的；为了维护程序方便，通常使用一些正则表达式自动生成账号名。为了避免账号重名而保证申请账号的通过率，机器申请的账号名通常比较长，而且混合字母数字，账号名字母乱序且语义不强。相对地，正常用户为了方便记忆，账号名通常具有语义，而且长度偏短；
[0115] 机器作弊账号通常使用代理IP注册账号，部分IP会注册数百个账号。相对地，正常用户用于注册账号的IP分配比较唯一，该IP -般只会注册少量的账号；
[0116] 机器作弊程序通常使用代理IP同时登录数百个账号；而正常用户一般只会使用个人电脑（即一个IP-台机器）开少量账号，通常最多开三个账号。
[0117] 机器作弊程序为了通过给某个频道刷人气而获取利益，会提供批量处理功能，如 "一键留言"，"一键刷花"。具体地，在游戏直播的互动信息中，作弊账号会短期内同时产生大量的互动行为，譬如同时刷花。另一方面，正常用户一般需要时间输入互动信息，互动行为有一定的行为间隔。
[0118] 304、根据基础信息和历史行为数据定义相对应的复数个特征；
[0119] 当提取已注册的用户的基础信息和用户对应的历史行为数据之后，需要根据基础信息和历史行为数据定义相对应的复数个特征。
[0120] 前述的特征可以是基础信息和历史行为数据的内容，此处不做具体限定。
[0121] 305、根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征；
[0122] 当根据基础信息和历史行为数据定义相对应的复数个特征之前或同时或之后，需要根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征。
[0123] 需要说明的是，前述的衍生特征可以是根据用户基础信息和行为数据量化出一些业务的衍生特征，用于刻画用户的状况，部分特征如下：
[0124] 账号名的长度是否大于15个字符，是否文字和数据混杂，是否含有中文姓名拼音 (i.e.人口数据库中获取），是否含有英文姓名和英文常用词；
[0125] 账号注册时记录下的IP，该IP被注册账号的次数；譬如某个IP被10个账号注册了，那么次数为10。
[0126] 账号登录时记录下的IP，该IP被不同账号登录的次数；譬如某个IP被10个账号登录了，那么次数为10。
[0127] 账号与其他账号在同一时间区间有互动行为的次数，包括发言，送花等。譬如用户在10点〇〇分发言一次，在这个时刻前后这三分钟时间区间内，如果有其他用户发言，那么累积计数一次。
[0128] 306、根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量；
[0129] 当根据基础信息和历史行为数据定义相对应的复数个特征，且/或者根据基础信息和历史行为数据，并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征之后，需要根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量。
[0130] 需要说明的是，前述的根据复数个特征和/或复数个衍生特征，可以是根据复数个特征，或者是复数个衍生特征，或者是根据复数个特征和复数个衍生特征的组合，再结合业务逻辑建立相关联的复数个特征向量。
[0131] 前述的特征向量为通过预置方式进行归一化处理的特征向量，例如每个特征或衍生特征对应的特征值作为特征向量的一个元素，向量的维度则为前述的特征或衍生特征。每个向量元素的数值范围不统一，譬如特征为登录时长，其特征值的范围可能在1到3600 之间，和特征为登录次数，其特征值的范围可能在1到100次内。需要对特征向量进行归一化，在实施过程中采用最大值-最小值归一化，即为（预置特征值-该维元素最小值）八该维元素最大值-该维元素最小值），前述的预置特征值可以是每个特征或衍生特征对应的非作弊用户的平均特征值，或者是根据经验自定义的非作弊用户的常规特征值，例如登录次数的预置特征值的平均特征值或常规特征值为50次，此处具体不做限定。
[0132] 307、对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量；
[0133] 当根据复数个特征和/或复数个衍生特征，并结合业务逻辑建立相关联的复数个特征向量之后，需要对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量。
[0134] 需要说明的是，考虑到用户的行为多样，对应的状态类别也有多种，譬如对于游戏直播的机器作弊账号识别，除了有机器作弊和正常用户，还有行为表象偏两者之间的用户，例如由于缺乏历史的积累，不了解作弊用户的数学特征，无法有效地刻画其行为。为了从复杂的用户行为中准确地识别出黑白名单，首先采用聚类的方法识别用户类，采用K-means 作为聚类模型，该模型采用距离作为相似性的衡量指标，即认为两个特性向量的距离越近，其相似度就越大；其中距离定义为特征向量的内积，前述的K-means聚类为本领域技术人员公知的技术，此处便不再赘述。
[0135] 308、对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本；
[0136] 当对复数个特征向量采用聚类方法进行基于用户的类别分类，确定每个类别对应的特征向量之后，需要对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本。
[0137] 例如对于每个类别的用户，通过业务逻辑识别高置信度的黑白名单。具体地，根据步骤303描述的4种机器作弊的业务逻辑，逐个检查各类用户，找出最符合4类业务逻辑的用户群。譬如从业务逻辑可知，作弊账号通常由正则表达式生成，即用户名长度一致，字符呈枚举状态。基于这种业务逻辑，通过观察每类用户的账号名，挑选出那些含有无语义字段并呈枚举状态的用户类。类似地，筛选出那些通过代理IP注册并登录平台的，互动信息群发的用户群。这些用户群可以高自信度地认为是作弊的黑名单。对应地，根据正常用户的业务逻辑，观察筛选出合法用户（即白名单）。
[0138] 309、对高置信度名单通过采用自身特征信息分析，以及每个类别对应的参考样本和高置信度名单的自身特征信息的相关性分析，建立相对应的数据筛选规则。
[0139] 当对每个类别对应的特征向量再次结合复数个业务逻辑确定高置信度名单，并将高置信度名单设定为每个类别对应的参考样本之后，需要对高置信度名单通过采用自身特征信息分析，以及每个类别对应的参考样本和高置信度名单的自身特征信息的相关性分析，建立相对应的数据筛选规则。
[0140] 例如从特征自身信息量方面，重要的特征携带信息较多，即特征值差异较大；衡量的方法包括4类指标，如下：
[0141] 1)数值型特征变异系数小于某阀值，则该变量视为不重要变量；
[0142] 2)数值型特征标差小于某阀值，则该变量不重要；
[0143] 前述的维度特征是数值型，譬如充值金额，登录时长等，计算该特征对应的两组统计值，包括变异系数（=正态分布的标准差/平均值）和标准差；
[0144] 3)分类型特征若某类别值的个数大于某阀值，则该变量不重要；
[0145] 4)分类型特征若类别值的数量大于某阀值，则该变量不重要；
[0146] 前述的该维度特征是类别型，譬如性别，注册地等，计算该特征对应的两组统计值，包括类别的频率（譬如性别，类别值可能是3类，如男女其

完整全部详细技术资料下载

当前第3页1 2 3 4 5