一种数据筛选引擎建立方法及数据筛选引擎的制作方法

文档序号：9547293阅读：372来源：国知局

一种数据筛选引擎建立方法及数据筛选引擎的制作方法
【技术领域】
[0001] 本发明涉及数据处理技术领域，尤其涉及一种数据筛选引擎建立方法及数据筛选引擎。
【背景技术】
[0002] 随着网络游戏的发展，一些通过作弊程序获取经济利益的灰色产业也膨胀起来。这些作弊程序一般通过机器模拟合法用户的行为，以刷礼品，刷人气等为手段，大量消耗网络资源，严重影响平台生态的发展。为了识别这些作弊程序，一般需要构建黑白名单库，并基于该库训练出识别模型。其中黑名单一般代表使用作弊程序的账号，白名单代表合法用户帐号。黑白名单的构建一般基于历史沉淀，从大量的用户反馈和人工观察标注等记录中获取。但对于一些新业务，历史积累不足而且用户反馈缺乏，没有形成判定的标准。采用人工标注的方式来汇总黑白名单，人工量很大而且构建速度很慢。
[0003] 传统方法一般靠人工观察以及业务经验，从大量的结果数据中总结出规律，进而构建黑白名单。但对于一些新业务，如游戏直播，由于缺乏历史的积累，没有形成判定的标准。另一方面，业务的用户量很大，每天有数千万的用户行为数据，伪账号跟正常用户帐户混淆在一起。人工的方法很难甚至不可能从海量的用户行为中总结出区分出黑白名单的规则。
[0004] 上述提及的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题，已经成为了本领域技术人员亟待解决的技术问题。

【发明内容】

[0005] 本发明实施例提供了一种数据筛选引擎建立方法及数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。
[0006] 本发明实施例中提供的一种数据筛选引擎建立方法，包括：
[0007] 提取已注册的用户的基础信息和所述用户对应的历史行为数据；
[0008] 根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；
[0009] 根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单；
[0010] 对所述高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。
[0011] 可选地，提取已注册的用户的基础信息和所述用户对应的历史行为数据具体包括：
[0012] 通过接入客户端提取已注册的所述用户的所述基础信息；
[0013] 提取与所述用户对应的所述历史所述行为数据，所述行为数据包括登录行为数据、观看行为数据、消费行为数据和互动行为数据。
[0014] 可选地，根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量之前还包括：
[0015] 建立复数个所述业务逻辑，所述业务逻辑与非常规注册方式相对应。
[0016] 可选地，根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量具体包括：
[0017] 根据所述基础信息和所述历史行为数据定义相对应的复数个特征；
[0018] 根据所述基础信息和所述历史行为数据，并结合所述业务逻辑量化出与所述业务逻辑相对应的复数个衍生特征；
[0019] 根据复数个所述特征和/或复数个所述衍生特征，并结合所述业务逻辑建立相关联的复数个所述特征向量；
[0020] 其中，所述特征向量为通过预置方式进行归一化处理的所述特征向量。
[0021] 可选地，根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单具体包括：
[0022] 对复数个所述特征向量采用聚类方法进行基于所述用户的类别分类，确定每个所述类别对应的所述特征向量；
[0023] 对每个所述类别对应的所述特征向量再次结合复数个所述业务逻辑确定所述高置信度名单，并将所述高置信度名单设定为每个所述类别对应的参考样本。
[0024] 可选地，预置分析方式具体包括：
[0025] 所述高置信度名单的自身特征信息分析，以及每个所述类别对应的参考样本和所述高置信度名单的自身特征信息的相关性分析。
[0026] 本发明实施例中提供的一种数据筛选引擎，包括：
[0027] 数据接入单元，被配置为提取已注册的用户的基础信息和所述用户对应的历史行为数据；
[0028] 特征构造单元，被配置为根据所述基础信息和所述历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；
[0029] 确定单元，被配置为根据所述特征向量，并再次结合复数个所述业务逻辑确定高置信度名单；
[0030] 规则建立单元，被配置为对所述高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。
[0031] 可选地，所述数据接入单元具体包括：
[0032] 基础信息采集子单元，被配置为通过接入客户端提取已注册的所述用户的所述基础信息；
[0033] 行为数据采集子单元，被配置为提取与所述用户对应的所述历史所述行为数据；
[0034] 所述行为数据采集子单元包括：登录行为数据采集模块、观看行为数据采集模块、消费行为数据采集子单元和互动行为数据采集模块。
[0035] 可选地，所述数据筛选引擎还包括：
[0036] 建立单元，被配置为建立复数个所述业务逻辑，所述业务逻辑与非常规注册方式相对应。
[0037] 可选地，特征构造单元具体包括：
[0038] 特征定义子单元，被配置为根据所述基础信息和所述历史行为数据定义相对应的复数个特征；
[0039] 特征衍生子单元，被配置为根据所述基础信息和所述历史行为数据，并结合所述业务逻辑量化出与所述业务逻辑相对应的复数个衍生特征；
[0040] 特征向量构建子单元，被配置为根据复数个所述特征和/或复数个所述衍生特征，并结合所述业务逻辑建立相关联的复数个所述特征向量；
[0041] 其中，所述特征向量为通过预置方式进行归一化处理的所述特征向量。
[0042] 可选地，确定单元具体包括：
[0043] 无监督聚类子单元，被配置为对复数个所述特征向量采用聚类方法进行基于所述用户的类别分类，确定每个所述类别对应的所述特征向量；
[0044] 特征验证子单元，被配置为对每个所述类别对应的所述特征向量再次结合复数个所述业务逻辑确定所述高置信度名单，并将所述高置信度名单设定为每个所述类别对应的参考样本。
[0045] 可选地，规则建立单元包括：
[0046] 第一规则建立子单元，被配置为对所述高置信度名单通过采用所述高置信度名单的自身特征信息进行分析，建立相对应的所述数据筛选规则；
[0047] 第二规则建立子单元，被配置为对所述高置信度名单通过采用对每个所述类别对应的参考样本和所述高置信度名单的自身特征信息的相关性进行分析，建立相对应的所述数据筛选规则。
[0048] 从以上技术方案可以看出，本发明实施例具有以下优点：
[0049] 本发明实施例提供的一种数据筛选引擎建立方法及数据筛选引擎，其中，数据筛选引擎建立方法包括：提取已注册的用户的基础信息和用户对应的历史行为数据；根据基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则。本实施例中，通过基础信息和历史行为数据，并结合预置的复数个业务逻辑确定每个用户的特征向量；根据特征向量，并再次结合复数个业务逻辑确定高置信度名单；对高置信度名单通过采用预置分析方式进行分析，建立相对应的数据筛选规则，便建立了可进行黑白名单筛选的数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。
【附图说明】
[0050] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
[0051] 图1为本发明实施例中提供的一种数据筛选引擎建立方法的一个实施例的流程示意图；
[0052] 图2为本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例的流程不意图；
[0053] 图3为本发明实施例中提供的一种数据筛选引擎建立方法的另一个实施例的流程不意图；
[0054] 图4为本发明实施例中提供的一种数据筛选引擎的一个实施例的结构示意图；
[0055] 图5为本发明实施例中提供的一种数据筛选引擎的另一个实施例的结构示意图；
[0056] 图6为本发明实施例中提供的一种数据筛选引擎的另一个实施例的结构示意图；
[0057] 图7为图3实施例对应的操作界面示意图。
【具体实施方式】
[0058] 本发明实施例提供了一种数据筛选引擎建立方法及数据筛选引擎，解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。
[0059] 为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余建兴;
技术所有人：珠海多玩信息技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。