一种数据筛选引擎建立方法及数据筛选引擎的制作方法_4

文档序号:9547293阅读:来源:国知局
他,这三种值出现的频次),和 类别的数量(譬如性别,类别值可能是3类,如男女其他;对于注册地,类别值可能是30多 个省);
[0147] 前述的两类统计,输出一些区分度比较高的特征,即比较重要的特征。这些重要特 征的判断规则如下:a)对于维度特征是数值型的,重要的特征一般变异系数比较大,标准 差比较大;譬如标准差是〇的特征,代表所有特征值都是一样的,区分度为〇,这类特征就不 重要;相反,如果标准差比较大,那么该特征区分度就大;b)如果该维度特征是类别型,重 要的特征一般类别的频率和数量都比较平均;譬如如果一类的样本,99%的类别都是男的, 那么该特征区分度很小,即不重要。
[0148] 从特征和样本名单类别之间,两者相关性值越可靠,特征越重要;包括三方面检 验:
[0149] Dpearson相关系数检验,用于衡量定距变量间的线性相关关系。
[0150] 计算公式,譬如对于维度性别,譬如有5个样本,性别分别为男,男,女,女,女,其 对应的黑白名单标签分别为黑,黑,白,白,白,那么X就是男/女代表的值,y就是黑白代表 的值;
[0152] 根据以上公式计算出来对应的相关系数r ;
[0153] 2)方差分析检验;
[0154] 譬如:样本标准偏差的平方,即("~2"是表示平方):S~2=E (X-X平均Γ2/ (n-1),两组数据(即以上的某维度特征X,和黑白标签y)就能得到两个S~2值,S大~2和 S小~2 ;那么F = S大~2/S小~2,由表中f大和f小(f为自由度n-1),查得F表,然后计 算的F值与查表得到的F表值比较,如果F〈F表表明两组数据没有显著差异;
[0155] F彡F表,表明两组数据存在显著差异。
[0156] 3)卡方检验;
[0157] 譬如将计算所得的x2值与临界x2值(负值都取绝对值)作比较,若计算值大于 临界值,则否定II 〇 ;反之,则承认II 〇。
[0158] 计算卡方值的公式一般可表示为:χ2 =Σ [(fo - fc)2/fc];
[0159] 式中:fo表示实际所得的次数,fc表示由假设而定的理论次数,Σ为加总符号。
[0160] 本实施例中,通过基础信息和历史行为数据,并结合预置的复数个业务逻辑确定 每个用户的特征向量;根据特征向量,并再次结合复数个业务逻辑确定高置信度名单;对 高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则,便建立了可 进行黑白名单筛选的数据筛选引擎,解决了目前的人工方式很难从海量的用户行为中总结 出区分出黑白名单的规则的技术问题,进一步地,根据基础信息和历史行为数据,并结合业 务逻辑量化出与业务逻辑相对应的复数个衍生特征,以及通过预置方式进行归一化处理的 特征向量,大大地提高了后续的黑白名单筛选的精确性,以及,先采用聚类方法,再结合复 数个业务逻辑确定高置信度名单,实现了除有机器作弊和正常用户,还有行为表象偏两者 之间的用户时,先对用户进行类别,再一次提高了后续的黑白名单筛选的精确性。
[0161] 请参阅图4,本发明实施例中提供的一种数据筛选引擎一个实施例包括:
[0162] 数据接入单元401,被配置为提取已注册的用户的基础信息和用户对应的历史行 为数据;
[0163] 特征构造单元402,被配置为根据基础信息和历史行为数据,并结合预置的复数个 业务逻辑确定每个用户的特征向量;
[0164] 确定单元403,被配置为根据特征向量,并再次结合复数个业务逻辑确定高置信度 名单;
[0165] 规则建立单元404,被配置为对高置信度名单通过采用预置分析方式进行分析,建 立相对应的数据筛选规则。
[0166] 本实施例中,通过特征构造单元402基础信息和历史行为数据,并结合预置的复 数个业务逻辑确定每个用户的特征向量;确定单元403根据特征向量,并再次结合复数个 业务逻辑确定高置信度名单;规则建立单元404对高置信度名单通过采用预置分析方式进 行分析,建立相对应的数据筛选规则,便建立了可进行黑白名单筛选的数据筛选引擎,解决 了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。
[0167] 上面是对数据筛选引擎的各单元进行详细的描述,下面将对数据接入单元和特征 构造单元的具体子单元进行详细的描述,请参阅图5,本发明实施例中提供的一种数据筛选 引擎另一个实施例包括:
[0168] 数据接入单元501,被配置为提取已注册的用户的基础信息和用户对应的历史行 为数据;
[0169] 数据接入单元501具体包括:
[0170] 基础信息采集子单元5011,被配置为通过接入客户端提取已注册的用户的基础信 息;
[0171] 行为数据采集子单元5012,被配置为提取与用户对应的历史行为数据;
[0172] 行为数据采集子单元5012包括:登录行为数据采集模块5012a、观看行为数据采 集模块5012b、消费行为数据采集子单元5012c和互动行为数据采集模块5012d。
[0173] 建立单元502,被配置为建立复数个业务逻辑,业务逻辑与非常规注册方式相对 应。
[0174] 特征构造单元503,被配置为根据基础信息和历史行为数据,并结合预置的复数个 业务逻辑确定每个用户的特征向量;
[0175] 特征构造单元503具体包括:
[0176] 特征定义子单元5031,被配置为根据基础信息和历史行为数据定义相对应的复数 个特征;
[0177] 特征衍生子单元5032,被配置为根据基础信息和历史行为数据,并结合业务逻辑 量化出与业务逻辑相对应的复数个衍生特征;
[0178] 特征向量构建子单元5033,被配置为根据复数个特征和/或复数个衍生特征,并 结合业务逻辑建立相关联的复数个特征向量;
[0179] 其中,特征向量为通过预置方式进行归一化处理的特征向量。
[0180] 确定单元504,被配置为根据特征向量,并再次结合复数个业务逻辑确定高置信度 名单;
[0181] 规则建立单元505,被配置为对高置信度名单通过采用预置分析方式进行分析,建 立相对应的数据筛选规则。
[0182] 本实施例中,通过特征构造单元503基础信息和历史行为数据,并结合预置的复 数个业务逻辑确定每个用户的特征向量;确定单元504根据特征向量,并再次结合复数个 业务逻辑确定高置信度名单;规则建立单元505对高置信度名单通过采用预置分析方式进 行分析,建立相对应的数据筛选规则,便建立了可进行黑白名单筛选的数据筛选引擎,解决 了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题,进 一步地,特征衍生子单元5032根据基础信息和历史行为数据,并结合业务逻辑量化出与业 务逻辑相对应的复数个衍生特征,以及通过预置方式进行归一化处理的特征向量,大大地 提尚了后续的黑白名单筛选的精确性。
[0183] 上面是对数据接入单元和特征构造单元的具体子单元进行详细的描述,下面将对 确定单元的子单元进行详细的描述,请参阅图6,本发明实施例中提供的一种数据筛选引擎 另一个实施例包括:
[0184] 数据接入单元601,被配置为提取已注册的用户的基础信息和用户对应的历史行 为数据;
[0185] 数据接入单元601具体包括:
[0186] 基础信息采集子单元6011,被配置为通过接入客户端提取已注册的用户的基础信 息;
[0187] 行为数据采集子单元6012,被配置为提取与用户对应的历史行为数据;
[0188] 行为数据采集子单元6012包括:登录行为数据采集模块6012a、观看行为数据采 集模块6012b、消费行为数据采集子单元6012c和互动行为数据采集模块6012d。
[0189] 建立单元602,被配置为建立复数个业务逻辑,业务逻辑与非常规注册方式相对 应。
[0190] 特征构造单元603,被配置为根据基础信息和历史行为数据,并结合预置的复数个 业务逻辑确定每个用户的特征向量;
[0191] 特征构造单元603具体包括:
[0192] 特征定义子单元6031,被配置为根据基础信息和历史行为数据定义相对应的复数 个特征;
[0193] 特征衍生子单元6032,被配置为根据基础信息和历史行为数据,并结合业务逻辑 量化出与业务逻辑相对应的复数个衍生特征;
[0194] 特征向量构建子单元6033,被配置为根据复数个特征和/或复数个衍生特征,并 结合业务逻辑建立相关联的复数个特征向量;
[0195] 其中,特征向量为通过预置方式进行归一化处理的特征向量。
[0196] 确定单元604,被配置为根据特征向量,并再次结合复数个业务逻辑确定高置信度 名单;
[0197] 确定单元604具体包括:
[0198] 无监督聚类子单元6041,被配置为对复数个特征向量采用聚类方法进行基于用户 的类别分类,确定每个类别对应的特征向量;
[0199] 特征验证子单元6042,被配置为对每个类别对应的特征向量再次结合复数个业务 逻辑确定高置信度名单,并将高置信度名单设定为每个类别对应的参考样本。
[0200] 规则建立单元605,被配置为对高置信度名单通过采用预置分析方式进行分析,建 立相对应的数据筛选规则。
[0201] 规则建立单元605包括:
[0202] 第
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1