数据处理方法、装置、存储介质及电子设备与流程

文档序号:18902081发布日期:2019-10-18 22:05阅读:206来源:国知局
数据处理方法、装置、存储介质及电子设备与流程

本发明涉及计算机技术领域,具体而言,涉及一种数据处理方法、装置、存储介质及电子设备。



背景技术:

随着信息科技的发展,基于信息的欺诈行为越来越多,其中,很多都是团伙作案。

目前比较常用的欺诈团伙识别方法是使用无监督聚类算法,例如k-means、dbscan,或是半监督图聚类算法,如标签传播算法。

无监督聚类算法主要原理是不依靠标签,而是通过寻找样本特征数据的内在关联(距离),来试图将样本划分成多个簇(cluster),而达到分群的目的。例如,k-means是将n个样本划分到k个簇中,使得每个点都属于离他最近的均值(此即聚类中心)对应的簇,以之作为聚类的标准。

半监督聚类算法则除了考虑样本特征数据之间的关联外,还一定程度上考虑到了样本的标签信息。例如,标签传播算法(labelpropagationalgorithm)是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。该算法的时间复杂度和空间复杂度分别为o(n)和o(n2),其中n为社区的节点数。

在实现本发明的过程中,发明人发现上述欺诈团伙的识别方法至少存在以下技术问题:

无监督聚类算法的缺点:无监督算法的缺点显而易见,由于没有考虑到样本的标签,再好的无监督算法都不能充分利用数据的价值,这是因为样本的标签往往对建模来说是其最重要的信息。此外,无监督聚类算法往往考虑的是样本间的距离,在样本特征不强、特征维度有限的情况下,空间距离较近的样本未必是相同的标签,距离较远的样本也未必是不同的标签,因此其聚类的结果也许会和真实标签差异较大。

半监督图聚类算法的缺点:尽管半监督算法考虑到了样本标签的信息,但基于既有标签直接给图上的未知样本打标容易造成精确率过低的问题。这是因为欺诈样本占总体比例始终是很小的(通常是千分之一级别),因此与欺诈样本有过关联(这些关联包括手机号、联系人、直亲、cookie等)的未知样本,依然有很大概率不是欺诈的。此外,上述这些关联的维度有限,无法充分利用到样本的其它特征信息,也无法进行有效的特征工程扩展维度,再加上每种关联维度之间的强弱无法确定,因此,半监督图聚类算法在实践当中效果并不突出。

因此,需要一种新的数据处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

有鉴于此,本发明提供一种数据处理方法、装置、存储介质及电子设备,提升了识别欺诈群组的准确度。

本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面,提供一种数据处理方法,其中,所述方法包括:

基于提升树模型获取待检测数据的欺诈概率值;

根据图模型以及所述待检测数据的欺诈概率值获取第一群组;

基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;

基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。

在本发明的一些示例性实施例中,基于前述方案,根据图模型以及所述待检测数据的欺诈概率值获取第一群组之前,所述方法包括:

以每个待检测数据作为顶点表,提取所述待检测数据中相同的维度特征作为边表,并根据所述各维度特征的权重计算出所述边表的关联值;

根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。

在本发明的一些示例性实施例中,基于前述方案,根据图模型以及所述待检测数据的欺诈概率值获取第一群组,包括:

基于图模型获取所述待检测数据的多个特征群组;

获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据;

筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组,所述特征群组为第一群组。

在本发明的一些示例性实施例中,基于前述方案,所述方法还包括:获取所述关联规则模型;

获取样本数据;

基于关联规则初始模型获取所述样本数据的多个规则群组;

基于所述多个规则群组内样本数据的真实结果确定每个规则群组对应的规则的提升度;

筛选出所述提升度超过提升度阈值的规则群组;

基于所述规则群组获取所述关联规则模型;其中,所述关联规则模型能够获取所述规则群组对应的规则以及所述规则的提升度。

在本发明的一些示例性实施例中,基于前述方案,基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组,包括:

筛选出所述待检测数据的欺诈概率值超过所述欺诈阈值的待检测数据;

将所述待检测数据输入至所述关联规则模型,以获取所述规则对应的第二群组。

在本发明的一些示例性实施例中,基于前述方案,基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组,包括:

基于所述第一群组获取所述第一群组的直间度距离;

基于所述待检测数据的欺诈概率值确定打分模型;

将所述欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组以及所述规则的提升度输入至所述打分模型,确定所述待检测数据中的目标欺诈群组。

在本发明的一些示例性实施例中,基于前述方案,基于所述第一群组获取所述第一群组的直间度距离,包括:

基于所述图数据中所述第一群组内的每个待检测数据与超过所述欺诈阈值的待检测数据的距离,获取所述第一群组的直间度距离。

在本发明的一些示例性实施例中,基于前述方案,基于所述待检测数据的欺诈概率值确定打分模型,包括:

将初始打分模型中获取的欺诈群组的分数映射到所述欺诈群组内的每个待检测数据,得到所述欺诈群组内的每个待检测数据的分数;

基于所述欺诈群组内的每个待检测数据的分数以及欺诈概率值,确定所述初始打分模型中的权重;

基于所述权重得到所述打分模型。

根据本发明实施例的第二方面,提供一种数据处理装置,其中,所述装置包括:

第一获取模块,配置为基于提升树模型获取待检测数据的欺诈概率值;

第二获取模块,配置为根据图模型以及所述待检测数据的欺诈概率值获取第一群组;

第三获取模块,配置为基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;

确定模块,配置为基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。

在本发明的一些示例性实施例中,基于前述方案,所述装置还包括:预处理模块,配置为以每个待检测数据作为顶点表,提取所述待检测数据中相同的维度特征作为边表,并根据所述各维度特征的权重计算出所述边表的关联值;以及根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。

在本发明的一些示例性实施例中,基于前述方案,所述第二获取模块,包括:

第一获取单元,配置为基于图模型获取所述待检测数据的多个特征群组;

第二获取单元,配置为获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据;

筛选单元,配置为筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组,所述特征群组为第一群组。

在本发明的一些示例性实施例中,基于前述方案,所述装置还包括:规则获取模块,配置为获取所述关联规则模型;所述规则获取模块,包括:

第一获取单元,配置为获取样本数据;

第二获取单元,配置为基于关联规则初始模型获取所述样本数据的多个规则群组;

确定单元,配置为基于所述多个规则群组内样本数据的真实结果确定每个规则群组对应的规则的提升度;

筛选单元,配置为筛选出所述提升度超过提升度阈值的规则群组;

第三获取单元,配置为基于所述规则群组获取所述关联规则模型;其中,所述关联规则模型能够获取所述规则群组对应的规则以及所述规则的提升度。

在本发明的一些示例性实施例中,基于前述方案,所述第三获取模块,配置为筛选出所述待检测数据的欺诈概率值超过所述欺诈阈值的待检测数据;以及将所述待检测数据输入至所述关联规则模型,以获取所述规则对应的第二群组。

在本发明的一些示例性实施例中,基于前述方案,所述确定模块,配置为基于所述第一群组获取所述第一群组的直间度距离;基于所述待检测数据的欺诈概率值确定打分模型;将所述欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组以及所述规则的提升度输入至所述打分模型,确定所述待检测数据中的目标欺诈群组。

在本发明的一些示例性实施例中,基于前述方案,所述确定模块,配置为基于所述图数据中所述第一群组内的每个待检测数据与超过所述欺诈阈值的待检测数据的距离,获取所述第一群组的直间度距离。

在本发明的一些示例性实施例中,基于前述方案,所述确定模块,配置为将初始打分模型中获取的欺诈群组的分数映射到所述欺诈群组内的每个待检测数据,得到所述欺诈群组内的每个待检测数据的分数;基于所述欺诈群组内的每个待检测数据的分数以及欺诈概率值,确定所述初始打分模型中的权重;基于所述权重得到所述打分模型。根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现第一方面所述的方法步骤。

根据本发明实施例的第四方面,提供一种电子设备,其中,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的方法步骤。

本发明实施例中,基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。通过图模型以及关联规则模型分别与提升树模型融合,然后将这两种模型的结果进行融合打分,融合了多种模型的优点、克服了每种模型的缺点以及单一模型欠拟合的缺点,提升了识别欺诈群组的准确度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是根据一示例性实施例示出的一种数据处理方法的流程图;

图2是本发明实施例示出的一种图数据的示意图;

图3是根据一示例性实施例示出的获取第一群组的方法的流程图;

图4是根据一示例性实施例示出的获取关联规则模型的方法的流程图;

图5是根据一示例性实施例示出的利用样本数据获取到打分模型的方法的流程图;

图6是根据一示例性实施例示出的一种模型间数据流转的示意图;

图7是根据一示例性实施例示出的一种数据处理装置的结构示意图;

图8是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

下面结合具体的实施例,对本发明实施例提出的数据处理方法进行详细的说明。需要说明的是,执行本发明实施例的执行主体可以包括具有计算处理能力的装置执行,例如:服务器和/或终端设备,但本发明并不限于此。

图1是根据一示例性实施例示出的一种数据处理方法的流程图。

如图1所示,该方法可以包括但不限于以下步骤:

在s110中,基于提升树模型获取待检测数据的欺诈概率值。

本发明实施例中,待检测数据可以是至少一个待检测数据,在获取到待检测数据后,可以提取待检测数据的多维的特征。基于该待检测数据的多维特征,可以构造出更多维的特征,如交叉特征、聚合特征、窗口特征、onehot特征等多项特征,特征的数目可以是500多维,从而充分利用待检测数据的特征信息。特征可以包括但不限于:手机号、联系人、直亲、cookie、姓氏、地区、年龄、性别、职业等。

根据本发明实施例,在获取到待检测数据后,还可以对待检测数据进行过采样,去掉一些信息不全、信息错误的待检测数据,然后对提升树模型进行贝叶斯参数调优,从而使基于提升树模型获取待检测数据的欺诈概率值更加准确。

本发明实施例中,提升树模型可以具体是lightgbm,lightgbm是由微软公司开发和开源的二阶梯度提升树模型,树之间通过boosting框架进行集成。相比较而言,它比一阶梯度模型(如gbdt)收敛更快、拟合能力更强、准召率更高。

本发明实施例中,lightgbm输出的欺诈概率值(probs)一方面会作为louvain模型分群结果的筛选,这样可以找到高风险的第一群组;另一方面,由欺诈概率值(probs)进行阈值调整得到的待检测数据作为关联规则模型的输入,可用于发现高提升度的共性规则的第二群组。

在s120中,根据图模型以及所述待检测数据的欺诈概率值获取第一群组。

本发明实施例中,在获取到待检测数据后,可以对待检测数据进行预处理,以获取待检测数据的图数据。

本发明实施例中,在获取待检测数据的图数据时,以每个待检测数据作为顶点表,提取所述待检测数据中相同的维度特征作为边表,并根据所述各维度特征的权重计算出所述边表的关联值,从而根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。

例如,待检测数据包括a、b、c、d,其中,则以a、b、c分别作为顶点表,假设a和b的手机号和姓氏相同,b和c的联系人相同,c和d的直亲相同,预设手机号特征维度的权重为4,联系人特征维度的权重为3,直亲特征维度的权重为2,姓氏特征维度的权重为1,则可以计算出a和b之间存在边表,该边表的关联值为手机号对应的权重与姓氏对应的权重之和:4+1=5,b和c之间存在边表,该边表的关联值为联系人对应的权重3,c和d之间存在边表,该边表的关联值为直亲对应的权重2,其对应的图数据如图2所示,图2是本发明实施例示出的一种图数据的示意图。

本发明实施例中,在获取到待检测数据的图数据后,可以根据图模型以及所述待检测数据的欺诈概率值获取第一群组,该第一群组的数目可以是至少一个。

本发明实施例中,图模型可以是模块度社区发现louvain模型,louvain模型是一种基于模块度(modularity)的图社区发现算法,可以用于网络图分群,比起其它图算法,它的分群结果更加稳定。

在s130中,基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组。

本发明实施例中,在获取第二群组时,可以基于关联规则模型从构造出更多维的特征的待检测数据中获取第二群组,第二群组的数目可以是至少一个。

本发明实施例中,可以基于样本数据获取到针对某(些)规则的关联规则模型。然后,可以基于欺诈阈值,对获取到的待检测数据的欺诈概率值进行过滤,筛选出超过该欺诈阈值的待检测数据,然后将筛选出的待检测数据输入至该关联规则模型,能够输出该筛选出的待检测数据中每条规则对应的第二群组。

本发明实施例中,关联规则模型associationrules,包含了一整套的算法和流程,而非特指某个算法。例如,关联规则模型可以涵盖以下算法:apriori,eclat,fp-growth,ripper以及c50。

在s140中,基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。

本发明实施例中,基于第一群组可以获取所述第一群组的直间度距离,基于第二群组可以获取到其对应的规则的提升度。基于所述待检测数据的欺诈概率值可以确定打分模型,通过将欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组、所述规则的提升度输入至打分模型,可以输出欺诈群组以及各欺诈群组的得分,然后基于得分对欺诈群组进行排序以及筛选,从欺诈群组中确定目标欺诈群组。

本发明实施例中,基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。通过图模型以及关联规则模型分别与提升树模型融合,然后将这两种模型的结果进行融合打分,融合了多种模型的优点、克服了每种模型的缺点以及单一模型欠拟合的缺点,提升了识别欺诈群组的准确度。

下面结合具体的实施例,对本发明实施例中获取第一群组的方法进行详细的说明。

图3是根据一示例性实施例示出的获取第一群组的方法的流程图。

如图3所示,该方法可以包括但不限于以下步骤:

在s310中,基于图模型获取所述待检测数据的多个特征群组。

本发明实施例中,在获取到待检测数据的图数据后,基于图模型获取待检测数据的多个特征群组。其中,每个特征群组中该特征相同的待检测数据为至少2个。例如,手机号群组中,包括a、b、c、d、e五个待检测数据,其中,a和b的手机号相同,c、d和e的手机号相同。

在s320中,获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据。

本发明实施例中,基于s110中获取到的每个待检测数据的欺诈概率值,可以查找到每个特征群组内的待检测数据的欺诈概率值。将每个特征群组内的待检测数据的欺诈概率值与欺诈阈值进行比较,可以获取到每个特征群组内的超过欺诈阈值的待检测数据。例如,上述示例中,假设手机号群组中a、b、c的欺诈概率值超过欺诈阈值,则可以得到手机号群组内的待检测数据a、b、c。

需要注意的是,该欺诈阈值可以与s130中的基于欺诈阈值对获取到的待检测数据的欺诈概率值进行过滤的欺诈阈值相同,也可以针对各自的场景分别设置。

在s330中,筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组,所述特征群组为第一群组。

本发明实施例中,在获取到每个特征群组中超过欺诈概率值超过欺诈阈值的待检测数据后,确定这些待检测数据占据对应的特征群组的待检测数据的比例,从而筛选出超过比例阈值的特征群组,筛选出的特征群组为第一群组。

例如,上述示例中,手机号群组内的欺诈概率值超过欺诈阈值的待检测数据为a、b、c,其占该手机号群组的待检测数据的比例为:3/5=0.6,假设比例阈值为0.5,则该手机号群组即为第一群组。

需要指出的是,筛选出的第一群组可以视情况再次运用图模型迭代。

本发明实施例中,基于提升树模型获取待检测数据的欺诈概率值与图模型共同确定第一群组,这样一方面融合了提升树模型的标签信息,另一方面提高了图模型获取的第一群组的精确率和召回率。

根据本发明实施例,在获取到第一群组后,可以基于图数据中所述第一群组内的每个待检测数据与超过所述欺诈阈值的待检测数据的距离,获取所述第一群组的直间度距离。

本发明实施例中,两个数据的距离可以用这两个数据之间的边表的数目表示,例如,图2所示的图数据库中,a与b的距离是1,a与c的距离是2,a与d的距离是3。

本发明实施例中,直间度距离是指某群组内的每个数据距离其图数据库内欺诈数据的距离的倒数的均值。在获取到第一群组内的每个待检测数据与超过所述欺诈阈值的待检测数据的距离后,可以获取到该第一群组内的每个待检测数据与其图数据库中的超过欺诈阈值的待检测数据的距离的倒数的均值,该均值为该第一群组的直间度距离。本发明实施例中,直间度距离取值在0到1之间(进行归一化后),该值越大表明该群组内的数据与欺诈数据(黑样本)“距离”越近,也就是欺诈程度越高。需要说明的是,一个数据的图数据库是指存在该数据与其他数据的边表的数据库,若两个数据之间不存在任何边表,则认为这两个数据在两个图数据库中。

例如,上述示例中,假设c、d的欺诈概率值超过欺诈阈值,则包括a、b、c、d的群组的直间度距离为:a、b、c、d分别距离其它数据的距离的倒数的均值。

下面结合具体的实施例,对本发明实施例中获取关联规则模型的方法进行详细的说明。

图4是根据一示例性实施例示出的获取关联规则模型的方法的流程图。如图4所示,该方法可以包括但不限于以下步骤:

在s410中,获取样本数据。

本发明实施例中,样本数据可以是涉及到欺诈性质的历史数据,包括其对应的真实结果,即白样本、黑样本,其中黑样本为欺诈样本。

在s420中,基于关联规则初始模型获取所述样本数据的多个规则群组。

本发明实施例中,可以基于apriori,eclat,fp-growth,ripper以及c50等算法设置关联规则初始模型。根据样本数据的多维特征构造出更多维的特征后,基于该关联规则初始模型获取到样本数据的多个规则群组。例如,规则为:无职业,年龄在20-30岁,性别为男,获取到的该规则的规则群组中包括样本数据a、b、c、d。

在s430中,基于所述多个规则群组内样本数据的真实结果确定每个规则群组对应的规则的提升度。

本发明实施例中,lift(提升度):表示“包含x的事务中同时包含y事务的比例”与“包含y事务的比例”的比值。公式表达:lift(x->y)=conf(x->y)/supp(y)=p(xandy)/(p(x)*p(y))=conf(y->x)/supp(x),其中conf为置信度,supp为支持度。提升度反映了关联规则中的两个规则的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。提升度也可以表达成lift=(p(a&b)/p(a))/p(b)=p(a&b)/p(a)/p(b)。

本发明实施例中,获取到提升度后,对提升度进行归一化,提升度可以用于衡量群组共性欺诈程度,若某一规则的提升度越大,表明该规则对于识别黑样本的能力越强,也就是符合该规则的样本欺诈程度越高。例如,假设上述示例中,其中a、b、c样本真实结果为欺诈样本,即黑样本,而d为白样本,其中样本总共包括10个,黑样本共5个,则提升度lift=黑样本在该规则群组比例/所有黑样本占所有样本的比例=0.75/0.5=1.5。

在s440中,筛选出所述提升度超过提升度阈值的规则群组。

根据本发明实施例,可以设置一可调整的提升度阈值。

在s450中,基于所述规则群组获取所述关联规则模型;其中,所述关联规则模型能够获取所述规则群组对应的规则以及所述规则的提升度。

本发明实施例中,基于筛选出的提升度超过提升度阈值的规则群组,可以获取到该规则群组对应的关联规则模型,该关联规则模型能够获取到该规则以及该规则的提升度。

例如,上述示例中,假设提升度阈值为1,则规则为:无职业,年龄在20-30岁,性别为男对应的规则群组中a、b、c样本真实结果为欺诈样本,即黑样本,而d为白样本,其中样本总共包括10个,黑样本共5个,该规则的提升度为1.5,大于提升高阈值,则能够获取到该规则群组的关联规则初始模型即为关联规则模型,该关联规则模型能够获取到的规则为:无职业,年龄在20-30岁,性别为男,该规则的提升度为1.5。

本发明实施例中,利用提升度(lift)进行规则强弱筛选,并融合所有强规则,从而融合关联规则模型的优点,提升识别欺诈群组的准确度,同时规则的存在也增强了整个模型的解释力。

根据本发明实施例,在对待检测数据进行识别时,可以基于获取到的待检测数据的欺诈概率值,筛选出待检测数据中欺诈概率值超过欺诈阈值的待检测数据,从而将所述待检测数据输入至所述关联规则模型,以获取所述规则对应的第二群组。

例如,待检测数据为a、b、c,基于提升树模型获取到a、b、c的欺诈概率值后,其中,a的欺诈概率值小于欺诈阈值,则可以筛选出b、c,将b、c输入至关联规则模型,以获取第二群组。

上述实施例中,实现了提升树模型与关联规则模型的融合,提升了第二群组中欺诈数据的概率,强化了规则的提升度。

下面结合具体的实施例,对本发明实施例中利用样本数据获取到打分模型的方法进行详细的说明。需要指出的是,本实施例中以样本数据为例进行说明,但本发明并不限于此,例如,本实施例中的样本数据也可以替换成测试数据、样本数据或待检测数据等。

图5是根据一示例性实施例示出的利用样本数据获取到打分模型的方法的流程图。如图5所示,该方法可以包括但不限于以下步骤:

在s510中,基于提升树模型获取样本数据的欺诈概率值。

在s520中,根据图模型以及所述样本数据的欺诈概率值获取第一群组。

在s530中,基于关联规则模型以及所述样本数据的欺诈概率值,从所述样本数据中获取规则对应的第二群组。

在s540中,基于所述样本数据的欺诈概率值确定打分模型。

本发明实施例中,可以将初始打分模型中获取的欺诈群组的分数映射到所述欺诈群组内的每个待检测数据,得到所述欺诈群组内的每个待检测数据的分数,然后基于所述欺诈群组内的每个待检测数据的分数以及欺诈概率值,确定所述初始打分模型中的权重,基于所述权重得到所述打分模型。本发明实施例中,打分模型可以表示如下:

其中,score为欺诈群组的分数,表示欺诈群组为欺诈群组的概率。dist为直间度距离,lift为提升度,w为权重,probs为欺诈概率值,topn为一种特定计算方式,只选择群组最高提升度的n条规则的提升度进行平均,而不是对所有平均。

本发明实施例中,为确定上述公式(1)中的w,可以设置一初始w,该初始w对应的模型为初始打分模型,基于该初始打分模型可以获取到一欺诈群组的分数,将该初始打分模型中的群组score映射到该欺诈群组内各个样本,得到该欺诈群组内的每个样本的score,然后通过最大化每个样本的score与欺诈概率值probs的皮尔逊相似度系数,来自动计算或训练该初始打分模型,确定w。需注意,在这种情况下,即使没有样本数据,依然可以基于待检测数据的欺诈概率值对初始打分模型进行自动训练,以确定w,从而确定打分模型。

例如,可以通过如下公式确定w:

whichw=argmaxwsimilarity(score,probs)(2)需要说明的是,上述公式中,score表示的是欺诈群组内的每个样本的分数。

上述实施例中,在获取到样本数据的欺诈概率值、第一群组、第二群组后,最大化欺诈群组内的每个样本的分数与该样本的欺诈概率值的皮尔逊相似度系数,对w进行监督式的学习,确定打分模型以及欺诈群组,提升了识别目标欺诈群组的准确率。

需要注意的是,不仅可以基于样本数据的欺诈概率值对初始打分模型进行训练,还可以基于样本数据的真实结果对初始打分模型进行训练,例如,基于欺诈群组中的每个样本数据的真实结果,确定欺诈群组的真实欺诈概率,然后最大化该样本的真实欺诈概率与该样本的分数的皮尔逊相似度系数,从而确定w。

在s550中,将所述欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组以及所述规则的提升度输入至所述打分模型,确定目标欺诈群组。

本发明实施例中,在确定样本数据的欺诈概率值后可以确定打分模型,通过将欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组、所述规则的提升度输入至打分模型,可以输出欺诈群组以及各欺诈群组的得分,然后基于得分对欺诈群组进行排序以及筛选,从欺诈群组中确定目标欺诈群组。

本发明上述实施例中,实现了对打分模型的自动训练,使整个流程更加自动化,对图模型输出的“直间度距离”和关联规则模型输出的“提升度”进行监督式的加权求和,所谓监督式指权重自动通过最大化每个样本的score与lightgbm输出的该样本的probs的皮尔逊相似系数来计算,无需人工干预。

根据本发明实施例,在获取打分模型后,可以基于待检测数据得到的欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组、所述规则的提升度输入该打分模型,得到各欺诈群组的分数,从中选择分数最高的或者超过分数阈值的欺诈群组,该(些)欺诈群组为目标欺诈群组,从而实现从待检测数据中确定目标欺诈群组。

下面结合具体的实施例,对本发明实施例中的数据处理的方法进行详细的说明。

图6是根据一示例性实施例示出的一种模型间数据流转的示意图。本发明实施例中,模型可以包括:提升树模型lightgbm、图模型louvain、关联规则模型associationrules以及打分模型score。

如图6所示,该方法可以包括但不限于以下流程:

在s601中,获取样本数据的特征工程数据,并将该特征工程数据发送至lightgbm模型以及associationrules模型。

本发明实施例中,对样本数据进行特征工程处理,可以包括基于样本数据的多维特征,可以构造出更多维的特征。样本数据的特征工程数据是指构造出的样本数据的更多维的特征数据。

在s602中,lightgbm模型根据输入的特征工程数据获取样本数据的欺诈概率值。

在s603中,lightgbm模型将欺诈概率值分别发送至louvain模型、associationrules模型以及score模型。

在s604中,获取样本数据的图数据,并将图数据发送至louvain模型。

在s605中,louvain模型基于图数据以及欺诈概率值获取第一群组以及第一群组的直间度距离。

本发明实施例中,可以对louvain模型进行多次校验,例如,通过验证集数据进行一次以上校验,通过测试集数据进行两次以上校验。

在s606中,louvain模型将第一群组以及第一群组的直间度距离发送至打分模型。

在s607中,associationrules模型基于特征工程数据以及欺诈概率值,获取第二群组以及规则对应的提升度。

在s608中,associationrules模型将第二群组以及规则对应的提升度发送至打分模型。

在s609中,打分模型根据欺诈概率值、第一群组以及第一群组的直间度距离、第二群组以及规则对应的提升度,获取欺诈群组以及每个群组的得分。

需要指出的是,可以通过基于个体数据的欺诈概率值确定群组的欺诈概率值,通过最大化目标欺诈群组的欺诈概率值与score的皮尔逊相似度系数,确定打分模型,进而确定目标欺诈群组以及每个群组的得分。

本发明实施例中,在获取到获取欺诈群组以及每个群组的得分后,可以基于得分对欺诈群组进行排序,根据排序选择topn为目标欺诈群组。

需要说明的是,上述群组的样本数之和n可以取决于样本总量(如200万)和欺诈样本比例(如千分之二),如n=4000。目标欺诈数据可用于任何反欺诈场景中,如,可以交给业务人员识别、预判和分析团伙作案。

应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。

下述为本发明装置实施例,可以用于执行本发明方法实施例。在下文对装置的描述中,与前述方法相同的部分,将不再赘述。

图7是根据一示例性实施例示出的一种数据处理装置的结构示意图,其中,所述装置700包括:

第一获取模块710,配置为基于提升树模型获取待检测数据的欺诈概率值;

第二获取模块720,配置为根据图模型以及所述待检测数据的欺诈概率值获取第一群组;

第三获取模块730,配置为基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;

确定模块740,配置为基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。

本发明实施例中,基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。通过图模型以及关联规则模型分别与提升树模型融合,然后将这两种模型的结果进行融合打分,融合了多种模型的优点、克服了每种模型的缺点以及单一模型欠拟合的缺点,提升了识别欺诈群组的准确度。

图8是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是,图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中,还存储有系统800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本申请的终端中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、第二获取模块、第三获取模块以及确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。

以上具体示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1