一种数据筛选引擎建立方法及数据筛选引擎的制作方法_2

文档序号:9547293阅读:来源:国知局
面所描述 的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域 普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护 的范围。
[0060] 在网络直播,例如通过直播平台进行游戏直播的观看等,首先需要用户注册,才可 以获取进入直播平台进行观看,目前存在一些用户是通过作弊机器进行注册,因此,需要对 直播平台的注册用户进行黑白名单的区分。
[0061] 请参阅图1,本发明实施例中提供的一种数据筛选引擎建立方法的一个实施例包 括:
[0062] 101、提取已注册的用户的基础信息和用户对应的历史行为数据;
[0063] 本实施例中,当需要对直播平台的注册用户进行黑白名单的区分之前,首先需要 建立数据筛选引擎,第一步为提取已注册的用户的基础信息和用户对应的历史行为数据。
[0064] 102、根据基础信息和历史行为数据,并结合预置的复数个业务逻辑确定每个用户 的特征向量;
[0065] 当提取已注册的用户的基础信息和用户对应的历史行为数据之后,需要根据基础 信息和历史行为数据,并结合预置的复数个业务逻辑确定每个用户的特征向量。
[0066] 103、根据特征向量,并再次结合复数个业务逻辑确定高置信度名单;
[0067] 当根据基础信息和历史行为数据,并结合预置的复数个业务逻辑确定每个用户的 特征向量之后,需要根据特征向量,并再次结合复数个业务逻辑确定高置信度名单。
[0068] 104、对高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规 则。
[0069] 当根据特征向量,并再次结合复数个业务逻辑确定高置信度名单之后,需要对高 置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则。
[0070] 本实施例中,通过基础信息和历史行为数据,并结合预置的复数个业务逻辑确定 每个用户的特征向量;根据特征向量,并再次结合复数个业务逻辑确定高置信度名单;对 高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则,便建立了可 进行黑白名单筛选的数据筛选引擎,解决了目前的人工方式很难从海量的用户行为中总结 出区分出黑白名单的规则的技术问题。
[0071] 上面是对数据筛选引擎建立方法的过程进行详细的描述,下面将对附加步骤和特 征向量的具体确定过程进行详细的描述,请参阅图2,本发明实施例中提供的一种数据筛选 引擎建立方法的另一个实施例包括:
[0072] 201、通过接入客户端提取已注册的用户的基础信息;
[0073] 本实施例中,当需要对直播平台的注册用户进行黑白名单的区分之前,首先需要 建立数据筛选引擎,通过接入客户端提取已注册的用户的基础信息。
[0074] 其中,用户的基础信息指用户在客户端(如YY客户端)的记录,包括用户名,年 龄,性别,注册地,注册IP,等级,昵称,简介,客户端登录状况等信息。
[0075] 202、提取与用户对应的历史行为数据;
[0076] 步骤201的通过接入客户端提取已注册的用户的基础信息的同时,需要提取与用 户对应的历史行为数据,行为数据包括登录行为数据、观看行为数据、消费行为数据和互动 行为数据。
[0077] 例如,行为数据指游戏直播平台(如YY虎牙直播)记录的用户在各个频道中的行 为,包括用户的登录,观看,消费(如送花,送道具等),以及互动行为(如留言等),具体地, 包括在统计日起前i天(i = 1,3, 7, 14, 21,28, 30等)用户累计的登录次数/天数/时长, 登录时段,登录IP以及相关频次,观看直播累计的次数/天数/时长/时段,消费次数/天 数/金额/时段,留言的时段等;其中时段是行为发生的具体时间。
[0078] 203、建立复数个业务逻辑,业务逻辑与非常规注册方式相对应;
[0079] 在步骤204之前,需要建立复数个业务逻辑,业务逻辑与非常规注册方式相对应,
[0080] 例如游戏直播,区分使用机器作弊程序的账号和合法用户,有下面的业务逻辑:
[0081] 机器作弊账号通常是由机器程序批量申请的;为了维护程序方便,通常使用一些 正则表达式自动生成账号名。为了避免账号重名而保证申请账号的通过率,机器申请的账 号名通常比较长,而且混合字母数字,账号名字母乱序且语义不强。相对地,正常用户为了 方便记忆,账号名通常具有语义,而且长度偏短;
[0082] 机器作弊账号通常使用代理IP注册账号,部分IP会注册数百个账号。相对地,正 常用户用于注册账号的IP分配比较唯一,该IP -般只会注册少量的账号;
[0083] 机器作弊程序通常使用代理IP同时登录数百个账号;而正常用户一般只会使用 个人电脑(即一个IP-台机器)开少量账号,通常最多开三个账号。
[0084] 机器作弊程序为了通过给某个频道刷人气而获取利益,会提供批量处理功能,如 "一键留言","一键刷花"。具体地,在游戏直播的互动信息中,作弊账号会短期内同时产生 大量的互动行为,譬如同时刷花。另一方面,正常用户一般需要时间输入互动信息,互动行 为有一定的行为间隔。
[0085] 204、根据基础信息和历史行为数据定义相对应的复数个特征;
[0086] 当提取已注册的用户的基础信息和用户对应的历史行为数据之后,需要根据基础 信息和历史行为数据定义相对应的复数个特征。
[0087] 前述的特征可以是基础信息和历史行为数据的内容,此处不做具体限定。
[0088] 205、根据基础信息和历史行为数据,并结合业务逻辑量化出与业务逻辑相对应的 复数个衍生特征;
[0089] 当根据基础信息和历史行为数据定义相对应的复数个特征之前或同时或之后,需 要根据基础信息和历史行为数据,并结合业务逻辑量化出与业务逻辑相对应的复数个衍生 特征。
[0090] 需要说明的是,前述的衍生特征可以是根据用户基础信息和行为数据量化出一些 业务的衍生特征,用于刻画用户的状况,部分特征如下:
[0091] 账号名的长度是否大于15个字符,是否文字和数据混杂,是否含有中文姓名拼音 (i.e.人口数据库中获取),是否含有英文姓名和英文常用词;
[0092] 账号注册时记录下的IP,该IP被注册账号的次数;譬如某个IP被10个账号注册 了,那么次数为10。
[0093] 账号登录时记录下的IP,该IP被不同账号登录的次数;譬如某个IP被10个账号 登录了,那么次数为10。
[0094] 账号与其他账号在同一时间区间有互动行为的次数,包括发言,送花等。譬如用户 在10点〇〇分发言一次,在这个时刻前后这三分钟时间区间内,如果有其他用户发言,那么 累积计数一次。
[0095] 206、根据复数个特征和/或复数个衍生特征,并结合业务逻辑建立相关联的复数 个特征向量;
[0096] 当根据基础信息和历史行为数据定义相对应的复数个特征,且/或者根据基础 信息和历史行为数据,并结合业务逻辑量化出与业务逻辑相对应的复数个衍生特征之后, 需要根据复数个特征和/或复数个衍生特征,并结合业务逻辑建立相关联的复数个特征向 量。
[0097] 需要说明的是,前述的根据复数个特征和/或复数个衍生特征,可以是根据复数 个特征,或者是复数个衍生特征,或者是根据复数个特征和复数个衍生特征的组合,再结合 业务逻辑建立相关联的复数个特征向量。
[0098] 前述的特征向量为通过预置方式进行归一化处理的特征向量,例如每个特征或衍 生特征对应的特征值作为特征向量的一个元素,向量的维度则为前述的特征或衍生特征。 每个向量元素的数值范围不统一,譬如特征为登录时长,其特征值的范围可能在1到3600 之间,和特征为登录次数,其特征值的范围可能在1到100次内。需要对特征向量进行归一 化,在实施过程中采用最大值-最小值归一化,即为(预置特征值-该维元素最小值)八该 维元素最大值-该维元素最小值),前述的预置特征值可以是每个特征或衍生特征对应的 非作弊用户的平均特征值,或者是根据经验自定义的非作弊用户的常规特征值,例如登录 次数的预置特征值的平均特征值或常规特征值为50次,此处具体不做限定。
[0099] 207、根据特征向量,并再次结合复数个业务逻辑确定高置信度名单;
[0100]当根据复数个特征和/或复数个衍生特征,并结合业务逻辑建立相关联的复数个 特征向量之后,需要根据特征向量,并再次结合复数个业务逻辑确定高置信度名单。
[0101] 208、对高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规 则。
[0102] 当根据特征向量,并再次结合复数个业务逻辑确定高置信度名单之后,需要对高 置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则。
[0103] 本实施例中,通过基础信息和历史行为数据,并结合预置的复数个业务逻辑确定 每个用户的特征向量;根据特征向量,并再次结合复数个业务逻辑确定高置信度名单;对 高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则,便建立了可 进行黑白名单筛选的数据筛选引擎,解决了目前的人工方式很难从海量的用户行为中总结 出区分出黑白名单的规则的技术问题,进一步地,根据基础信息和历史行为数据,并结合业 务逻辑量化出与业务逻辑相对应的复数个衍生特征,以及通过预置方式进行归一化处理的 特征向量,大大地提尚了后续的黑白名单筛选的精确性。
[0104] 上
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1