一种基于多阶段数据表征的网络借贷欺诈预测方法

文档序号:29806443发布日期:2022-04-23 22:12阅读:88来源:国知局
一种基于多阶段数据表征的网络借贷欺诈预测方法

1.本发明涉及网络借贷欺诈预测技术领域,尤其涉及一种基于多阶段数据表征的网络借贷 欺诈预测方法。


背景技术:

2.目前随着互联网业务的日益扩大,借贷也随之进入新的发展阶段,互联网为借贷带来了 便利,降低了借贷的门槛,实现了小额贷款的大量增加。然而互联网环境的复杂性和网络借 贷的低门槛性增大了网络借贷发生欺诈的可能性,网络借贷的欺诈行为往往会给企业和社会 带来不可控的巨额损失,造成结构性风险。为了保障互联网场景下网络借贷系统的业务安全, 需要建立切实有效网络借贷欺诈预测方法。
3.传统的网络借贷反欺诈技术如黑白名单和业务规则等作为网络借贷反欺诈安全防线的第 一道防线,既难以面临互联网场景下欺诈技术的快速进化,也不足以完全覆盖整个网络借贷 的目标用户群体。因此,基于数字驱动范式的机器学习反欺诈技术可以作为第二道安全防线 对网络借贷反欺诈安全防护领域进行补充。
4.目前,数据驱动范式是数字金融反欺诈任务的有效解决方案,相关工作已经被广泛研究, 机器学习算法有助于实现更好的网络借贷反欺诈已经成为业界共识。例如,liang等人在acmsigir 2019会议上提出一种基于图学习算法的自动欺诈检测解决方案,将诈骗犯从老客户中 分离出来,并发现有组织的诈骗犯。此外一部分研究人员进一步成功地结合机器学习技术和 网络表征学习技术,如图神经网络,对挖掘隐藏在申请人数据中的深层关联。然而,当前网 络借贷数据的规模往往很大,但是欺诈数据隐藏在海量的正常数据中,这个给网络借贷反欺 诈预测带来了巨大的挑战。由于数据是受限的,用于欺诈预测的有用信息通常不足,仅仅依 靠低信息密度的申请信息难以建立数据驱动范式模型。
5.通过以上研究发现,面向网络借贷反欺诈预测的一个主要问题可以归结为申请信息的信 息密度太低以至于数据无法直接应用于网络借贷欺诈预测任务。现有的一些相关工作直接对 完整的原始信息的载体进行操作,以充分保存有用信息,由于有用信息被埋在大量无用信息 中,通常效果不佳。另一部分工作通过丢弃部分信息来减小信息载体的规模,克服无用信息 的影响,这导致信息的不完整,通常会大大降低欺诈预测的性能。


技术实现要素:

6.本发明目的在于克服现有技术的不足,提出了一种基于网络表征学习的多阶段数据表征 方法,作为提升信息密度的增强器,同时通过增加有用信息和减少信息载体两种策略来提高 信息密度,实现数据的增强,改善机器学习模型的反欺诈能力。
7.本发明所要解决的技术问题是网络借贷反欺诈场景下传统的欺诈预测方法,难以应对关 联稀疏的借贷数据,无法捕捉借贷申请之间的深度关联。因此仅利用基本的申请信息,难以 构建高效的反欺诈模型,并缺乏较好的泛化能力。
8.为了解决上述技术问题,本发明技术方案为:
9.一种基于多阶段数据表征的网络借贷欺诈预测方法,其特征在于,分为四个步骤:
10.步骤s101,关联表征:
11.根据原始网络借贷申请数据中字段缺失率选定可用字段,基于所述字段构建原始信息网 络,然后将所述原始信息网络中的节点划分为实体和属性,构建由实体层和属性层组成的分 层信息网络;提供给s102和s103;
12.其中,缺失率是指在原始网络借贷数据集中一个字段缺失的次数与总借贷事务数量的比 值;
13.步骤s102,属性表征:
14.从所述分层信息网络中的属性层中提取一个属性网络,给每个属性附加一个预训练的词 向量来反映属性之间的语义相似性,利用网络表征学习将从先验和外部语义知识中获取的属 性相似信息和属性共现关联融入属性对应的嵌入向量中;提供给s103;
15.步骤s103,实体表征:
16.从所述分层信息网络中实体层抽取实体网络,利用层对应关联和步骤s102中得到的嵌入 向量,生成带属性的实体网络,采用网络表征学习将带属性的实体网络嵌入到低维向量空间 得到实体的嵌入向量;提供给s104;
17.步骤s104,欺诈预测:
18.在带属性的实体网络中引入实体与其一阶邻居(实体)的相似性作为微观特征,采用借 贷申请交易与属于实体网络中的二阶邻居之间的相似性作为宏观特征,将不同实体的嵌入向 量的相似性喂入常见分类器模型实现欺诈预测功能。
19.所述步骤s101,其过程如下:
20.获取原始网络借贷申请数据,基于测试需求设置训练集时间窗口和测试集时间窗口,以 用于在原始网络借贷申请数据中划分出训练集数据和测试集数据,使得训练集数据和测试集 数据构成可用于后续模型的网络借贷数据;
21.对原始网络借贷数据进行字段选择;
22.对所述选定的初始网络借贷数据的字段进行关联抽取,采用图结构描述网络借贷数据之 间的关联,对所述的原始网络借贷数据中一笔申请的所选择的字段,使用星形拓扑结构构建 原始信息网络:将其标识符(即数据集中唯一表明一笔借贷申请的编号,一般无实际意义, 如一笔借贷订单的订单号)和所有字段(如一笔借贷申请中的申请人、申请人地址、申请人 手机号码等)的取值表示为节点,将标识符和相应字段取值分别记为组成边的两个节点,不 同的借贷申请标识符通过其共享的字段连接;
23.将所述原始信息网络中的节点划分为实体和属性;
24.实体集合v分为v
t
和vd两个部分,对于每一笔借贷申请,将其标识符记为v
t
∈v
t
,将所 述申请中的其他实体记为vd∈vd;实体vd和标识符v
t
的共现关联(即共同出现在一笔申请中) 被记为e=(v
t
,vd,r)∈e(e为所有共现关联的集合),其中类型r∈r(r为对原始数据中所 有实体的描述的集合)为原始数据中对于实体vd的描述,集合(
×
为笛卡尔积 操作);
25.所有属性θv的集合θ记为分层信息网络中的属性层;
26.从借贷申请中提取出实体和属性的对应关联(即属性对应地描述一个实体),在所述原 始信息网络中,属性θv和实体vd都连接到实体v
t
,将属性θv和实体vd之间的公共连接记
为层 对应关联(vd,θv),即实体和属性的对应关联;
27.在所述属性层中,将每个实体v∈v的对应的属性记为其中i表示属性的类型,通过 对所述原始信息网络的处理,可以得到实体层、属性层和层对应关联,进而由实体层和属性 层两层以及层对应关联构建一个分层信息网络。
28.优选的,选取缺失率低于50%的字段作为可用字段。
29.优选的,根据唯一性和不可分割性原则将所述原始信息网络中的节点划分为实体和属性;
30.所述唯一性是指所选字段可以在描述一个对象的多个字段中唯一地表示同一对象;
31.所述不可分割性指实体不包含潜在的信息,即一个唯一的值可以选为一个实体,那么所 述实体与其他实体没有重叠的含义;
32.符合唯一性和不可分割性的字段划分为实体,所述实体的集合v记为分层信息网络中的 实体层;
33.实体被选定后剩下的字段划分为属性,所有属性θv的集合θ记为分层信息网络中的属性 层。
34.所述步骤s102,属性表征,其过程如下:
35.从所述分层信息网络中的属性层中提取一个属性网络g

θ
=(θ,e
θ
,r
θ
)来反映属性之间的 共现关联,将两个属性对应于实体层中的同一实体的共现记为所述属性网络中的边,将共现 的次数作为属性之间关联的权重ω,边被记为其中r

∈r
θ
取决于两个 属性和的类型,
36.给每个属性附加一个预训练的词向量来反映属性之间的语义相似性,进一步地,使用预 训练的词向量作为属性的向量化,并将预训练的词向量记为而后,将记 为带语义的属性网络,其中为词向量集合;
37.利用网络表征学习来学习带语义的属性网络g
θ
中节点的嵌入向量,基于所述的嵌入向量, 每个属性θv可以记为向量
38.所述步骤s103,实体表征,其过程如下:
39.从所述分层信息网络中实体层抽取实体网络gv=(v,e,r),基于步骤s102中所述的属性 嵌入向量,将每个属性θv转换为对应的向量然后结合实体网络和属性与实体层之间的层 对应关联来连接每个实体的属性向量进而,将带属性的实体网络记为其中是属性θv对应的向量;
40.在带属性的实体网络gv上应用网络表征学习算法,得到每个实体v对应的实体表示其 中保留了数据中所有的关联。
41.所述步骤s104,欺诈预测,其过程如下:
42.首先设计两种自动的嵌入特征来反映借贷申请之间的关联,所述自动的嵌入特征为:从 微观角度(同一借贷申请内部的关联)观察申请标识符与各个连接的实体之间的相似性,从 宏观角度(不同借贷申请之间的关联)观察申请标识符与其他间接连接的标识符
之间的相似 性。
43.在所述带属性的实体网络中引入实体v
t
与其一阶邻居(实体vd,其中一阶邻居特指所述 带属性的实体网络中与实体v
t
直接存在边相连接的节点)的相似性作为微观特征,对实体v
t
对 应的嵌入向量和实体vd对应的嵌入向量计算相似度
44.进一步地,采用所述实体网络中v
t
的二阶邻居(实体v

t
,其中二阶邻居特指所述带属性 的实体网络中与实体v
t
存在共同一阶邻居的节点)之间的相似性作为宏观特征,给定所述实 体v
t
对应的嵌入向量和实体v

t
对应的嵌入向量计算相似度
45.在具有先验知识的前提下,设计一些手工的统计特征,例如欺诈样本占全部样本的比例、 待检测申请与欺诈申请关联的数量等;
46.而后,将自动的嵌入特征(即,不同实体的嵌入向量的相似性)和手工的统计特征喂入 常用的分类器进行训练样本拟合得到欺诈预测模型,对于输入的测试样本,经过所述的特征 生成后,将其输入到欺诈预测模型中,进行判断,得到测试样本为欺诈的概率。
47.特别地,用常数项替换掉微观特征中缺失相似度,只保留相似度最小的前s项特征作为 宏观特征,其中s为超参数,可设置为区间[1,10]内的任意整数。
[0048]
优选地,使用欧氏距离计算所述相似性;
[0049]
对实体v
t
和vd的嵌入向量,其中d为维数,为的第i维数值,为的第i维数值, 采用如下的欧氏距离计算公式:
[0050][0051]
对所述的嵌入向量和为的第i维数值,采用所述欧氏距离计算公式可以得到 相似度
[0052][0053]
优选地,如s102所述带语义的属性网络g
θ
和s103所述带属性的实体网络gv具有相似的 形式,其中属性集θ(或预训练的词向量集合g
θ
)和实体集v(或属性的嵌入向量集合)在网络 表征学习算法中扮演着相同的角色,因此,同样的网络表征学习算法可以在属性表征和实体 表征阶段中使用,将不同类型的信息集成到相应的嵌入向量中。
[0054]
有益效果:
[0055]
应用本发明提供的基于多阶段数据表征的网络借贷欺诈预测方法,通过对原始信息网络 中所有节点进行划分,生成包含实体层和属性层的分层信息网络;再针对分层信息网络中属 性层,引入预先训练的词向量,捕获属性之间的语义相似性,将属性层和所述词向量利用网 络表征学习算法嵌入到向量空间,形成属性节点对应的嵌入向量,实现外部先验知识的引入; 进一步地,本发明针对分层信息网络中实体层,结合属性对应的嵌入向量,将实体层和属性 对应的嵌入向量利用网络表征学习算法嵌入到向量空间,形成实体节点对应的嵌入向量,实 现网络规模的缩减;上述步骤逐步提高了网络借贷数据的信息密度;进一步针对已得到的实 体对应的嵌入向量分别从宏观角度和微观角度构造特征,并将宏观特征和微观特征输入二分 类模型进行训练和测试,得到网络借贷数据的欺诈概率;对比
传统的方法,本发明逐步对网 络借贷数据进行信息密度的提升,同时从宏观和微观角度对欺诈特征进行刻画,具有更高的 准确性和鲁棒性。
附图说明
[0056]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共 同用于解释本发明,并不构成对本发明的限制。在附图中:
[0057]
图1示出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法的流程示意图;
[0058]
图2示出了本发明实施例网络借贷欺诈检测系统工作流程示意图;
[0059]
图3示出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法的网络借贷欺诈 预测系统工作流程;
[0060]
图4出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法的多阶段数据表征 示意图;
[0061]
图5示出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法中带语义的属性 网络生成过程示意图。
[0062]
图6示出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法与基线反欺诈模 型的ks曲线对比图。
具体实施方式
[0063]
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用网络表 征学习算法来解决实际问题,并达成技术效果的实现过程能充分理解并据以实施。
[0064]
网络借贷在电子商务、电子政务、公司业务流程电子化等应用领域有广泛的 应用,网络借贷中的异常主要有中介代办、团伙作案、机器行为、账户盗用、身 份冒用和串联交易等。其中,身份冒用是比较常见的网络借贷欺诈,它是指用户 对提供的个人身份、财产证明等材料进行造假,甚至采用欺骗等违法手段获取他 人信息,进而冒充他人身份骗贷。
[0065]
网络借贷的欺诈预测主要目的是预防发生坏账。所谓坏账是指贷方无法从借方收回的应 收账款;网络借贷的坏账通常包括两种情况:其一是借方在贷后因某些因素无力偿还到期贷 款;其二便是借方的主观欺诈,即成心准备抵赖此笔贷款。设置基于申请者基本信息的欺诈 预测程序对于提高贷款审批效率具有重要作用。并且,对于贷款审批的其他环节,比如,“信 用评估”和“授信审查”等,通常是基于申请人并非欺诈者且申请信息真实可信的假设下进 行,所以,欺诈申请的预测和识别是其他操作之前的必要程序。
[0066]
传统的业务规则逻辑预测方法审核过程缓慢,耗费大量的人力物力,难以适应新颖多变 的欺诈手段,缺乏较好的泛化能力。一般的基于数据范式的机器学习反欺诈手段,对于低质 量的申请人数据无法有效挖掘信息,在网络借贷场景中性能不佳。
[0067]
实施例:
[0068]
为解决现有技术中存在的问题,本发明实施例提供了一种基于多阶段数据表征的网络借 贷欺诈预测方法。
[0069]
图3示出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法工作流程;图5 示出了本发明实施例基于多阶段数据表征的网络借贷欺诈预测方法的多阶段数据
表征示意 图;参考图3和图4所示,基于多阶段数据表征的网络借贷欺诈预测方法包括如下四个步骤: 关联表征、属性表征、实体表征和欺诈预测。
[0070]
步骤s101、关联表征,根据原始网络借贷申请数据(如表1所示)中字段缺失率选定可 用字段,基于所述选定字段构建原始信息网络,然后根据所提出的唯一性和不可分割性原则 将所述原始信息网络中的节点划分为实体和属性,构建了由实体层和属性层组成的分层信息 网络。
[0071]
表1原始网络借贷申请数据常用字段示例
[0072][0073]
具体地,获取原始网络借贷申请数据,并基于测试需求设置训练集时间窗口和测试集时 间窗口,以用于在原始网络借贷申请数据中划分出训练集数据和测试集数据。其中训练集时 间窗口和测试集时间窗口均为连续时间窗口,且为避免时间穿越问题,应确保所有训练集数 据中的原始网络借贷申请数据的发生时间均早于任意测试集数据中的网络借贷数据的发生时 间。优选地,一般情况下根据数据规模设置训练集时间窗口,数据规模越大,训练集窗口与 测试集窗口应该越小。训练集时间窗口和测试集时间窗口设置完成后,基于训练集时间窗口 在原始网络借贷数据中划分出训练集数据,并基于测试集时间窗口在原始网络借贷数据中划 分出测试集数据,并使得训练集数据和测试集数据构成可用于后续模型的网络借贷数据。
[0074]
而后对原始网络借贷数据进行字段选择。在原始网络借贷数据集中,每个借贷申请事务 可由几十个字段组成。但是,受限于数据收集的困难与用户的隐私策略,大多数字段存在缺 失值,过高的缺失率严重影响预测模型的性能,优选地,本实施例仅选取缺失率低于50%的 字段作为可用数据。缺失率是指在原始网络借贷数据集中所有借贷事务中一个字段缺失的次 数与总借贷事务数量的比值。
[0075]
对所述选定的初始网络借贷数据的字段进行关联抽取。为了更好地表示网络借贷数据之 间的关联,本实施例采用图结构描述网络借贷数据之间的关联。对所述的原始网络借贷数据 中一笔申请的字段(通常包括申请人的身份、工作单位、社会关系信息等),使用
星形拓扑 结构构建原始信息网络,将其标识符和所有字段的取值表示为节点,将标识符和相应字段取 值对记为边,而后,不同的借贷申请标识符通过其共享的字段连接。在所述原始信息网络中, 某些字段之间的冗余会导致网络规模过大,掩埋了有用的信息。一些原始的字段是对其他字 段的补充,它们不应单独作为实体,如一个地址与一个城市有重叠的含义。优选地,选择一 部分字段作为实体来表示原始申请数据,如亲属、工作单位、电话、邮件、地址等。
[0076]
在所述原始信息网络中,实体的确定取决于两个原则:唯一性和不可分割性。唯一性是 指所选字段可以在描述一个对象的多个字段中唯一地表示同一对象。不可分割性指实体不包 含潜在的信息,即一个唯一的值可以选为一个实体,那么所述实体与其他实体没有重叠的含 义。例如,详细地址唯一地表示一个位置,与其他详细地址不重叠,而省份信息只是粗粒度 的描述,对应多个详细地址。
[0077]
将选择出所有符合唯一性和不可分割性的实体,将所述实体集合v记为分层信息网络中 的实体层。在所述实体层中,实体集合v分为两个部分(v
t
和vd)。对于每一笔借贷申请, 将其标识符记为v
t
∈v
t
,将所述申请中的其他实体记为vd∈vd。而后,实体vd和标识符v
t
的 共现关联(即共同出现在一笔申请中)被记为e=(v
t
,vd,r)∈e,其中类型r为原始数据中对 于实体vd的描述,集合例如,当实体vd是电话时,关系r意味着申请人在 申请v
t
中提供的电话是vd。
[0078]
进一步地,将实体被选定后剩下的字段作为属性,并将所有属性θv的集合θ记为分层信 息网络中的属性层。在借贷申请中,存在多个字段描述同一实体的情况,进而,从借贷申请 中提取出实体和属性的对应关联(即属性对应地描述一个实体)。在所述原始信息网络中, 属性θv和实体vd都连接到实体v
t
,将属性θv和实体vd之间的公共连接记为层对应关联(vd,θv), 即实体和属性的对应关联。
[0079]
在所述属性层中,将每个实体v∈v的对应的属性记为其中i表示属性的类型。通过 对所述原始信息网络的处理,可以得到实体层、属性层和层对应关联。进而由实体层和属性 层两层以及层对应关联构建一个分层信息网络。
[0080]
步骤s102、属性表征,将从先验和外部语义知识中获取的属性相似信息和属性的共现关 联融入属性对应的嵌入向量中。
[0081]
具体地,首先从所述分层信息网络中的属性层中提取一个属性网络g

θ
=(θ,e
θ
,r
θ
)来反 映属性之间的共现关联。为当这两个属性对应于实体层中的同一实体时,将这种共现记为所 述属性网络中的边。与实体层中的实体之间的共现关联不同,属性之间的共现关联可能出现 多次,即两个属性出现在多个申请中。进一步地,计算所述共现的次数作为属性之间关联的 权重ω。将属性之间的关联记为为其中r

∈r
θ
取决于两个属性和的类型,例如,城市和区之间的关联应该不同于城市和省份之间的关联。
[0082]
除了属性之间的共现关联外,属性中所包含的丰富语义信息之间存在相似性。进一步地, 给每个属性附加一个预训练的词向量(word embedding)来反映属性之间的语义相似性。优 选地,预训练的词向量可以通过自然语言处理算法在类似借贷场景的数据中学习一些先验和 外部语义知识得到,在数据受限的情况下,也可使用基于一般数据训练的公
开的词向量(如 谷歌的word2vec,脸书的fasttext,斯坦福的glove)。
[0083]
进一步地,使用预训练的词向量作为属性的向量化,并将预训练的词向量记为而后, 将记为带语义的属性网络,其中为词向量集合。网络表征学习是一种常 用的工具,可以自动捕获深度隐藏的关联,并将网络映射到低维空间中,利用网络表征学习 来学习带语义的属性网络g
θ
中节点的嵌入向量。进一步地,基于所述的嵌入向量,每个属性θv可以记为向量带语义的属性网络的生成过程如图5所示。
[0084]
步骤s103、实体表征,利用层对应关联和步骤s102中得到的嵌入向量,生成带属性的 实体网络,采用网络表征学习将带属性的实体网络嵌入到低维向量空间得到实体的嵌入向量。
[0085]
具体地,首先从所述分层信息网络中实体层抽取实体网络gv=(v,e,r),来反映实体之 间的共现关联。基于步骤s102中所述的属性嵌入向量,将每个属性θv转换为对应的向量其中属性的嵌入向量在步骤s102中集成了属性之间的共现关系和相似关系。然后结合实体网 络和属性与实体层之间的层对应关联来连接每个实体的属性向量进而,将带属性的实体 网络记为其中是属性θv对应的向量。关系e∈e反映了实体之间的共 现关联,属性的嵌入向量之间的相似性反映了属性之间的共现关联和相似关联。
[0086]
与属性表征阶段类似,在学习实体的嵌入向量过程中,需要同时考虑实体之间的共现关 联和属性的嵌入向量之间的相似关联。进而,在带属性的实体网络gv上应用网络表征学习算 法,得到每个实体v对应的实体表示其中保留了数据中所有的关联。优选地,带语义的 属性网络g
θ
和带属性的实体网络gv具有相似的形式,其中属性集θ(或预训练的词向量集合g
θ
) 和实体集v(或属性的嵌入向量集合)在网络表征学习算法中扮演着相同的角色。因此,同样 的网络表征学习算法可以在属性表征和实体表征阶段中使用,将不同类型的信息集成到相应 的嵌入向量中。
[0087]
步骤s104、欺诈预测,不一致问题是网络借贷欺诈预测的关键,例如所述原生网络中节 点邻居不一致、特征不一致、关联不一致。设计自动的嵌入特征和手动的统计特征来发现上 述不一致性实现欺诈预测,进而,预测一个网络借贷申请是否为欺诈申请。
[0088]
具体地,实体的嵌入向量可以应用到节点分类、链接预测和社区检测等场景来实现欺诈 预测。优选地,本实施例设计了将不同实体的嵌入向量的相似性喂入常见分类器模型实现欺 诈预测功能。设计两种自动的嵌入特征来反映借贷申请之间的关联,所述自动的嵌入特征为: 从微观角度(同一借贷申请内部的关联)观察申请标识符与各个连接的实体之间的相似性, 从宏观角度(不同借贷申请之间的关联)观察申请标识符与其他间接连接的标识符之间的相 似性。微观上的相似性反映了一个借贷申请是否合理,例如,一个实体是否是虚假信息。宏 观上的相似性揭示了一份借贷申请与其他申请之间的相对关系,例如是否涉及到欺诈者批量 伪造数据。本实施例采用欧氏距离作为两个实体的嵌入向量之间的相似性计算方法。优选地, 欧氏距离只是一种可行的相似性计算方法,其他相似性计算方法也可以被使用,仅仅存在性 能上的差异。本实施例所述在带属性的实体网络中引入实体v
t
与其一阶邻居(实体vd)的相 似性作为微观特征。本实施例针对实体v
t
和vd的嵌入向
家手工设计用于欺诈预测的特征。实验结果的ks曲线如图6所示,其中本实施例在图6中 记为ai2vec。本实施例取得了比其他方法更好的性能,最佳的ks值超过0.46。semignn在 性能上仅次于本实施例。与手动特征工程方法相比,crdnn与手动特征工程方法的性能相近, 但均低于上述方法。e.t.-rnn与先前的方法相比,有一定的差距。dt性能最差,大约比最 佳的ks值低0.06。上述实验证明,本实施例的性能可以满足反欺诈任务的要求,且优于现 有的基线方法。
[0103]
本发明在于克服络传统借贷反欺诈预测无法在申请信息的信息密度太低时应用于网络借 贷欺诈预测任务的困难,提出了一种基于网络表征学习的多阶段数据表征方法作为提升信息 密度的增强器,同时通过增加有用信息和减少作为信息载体的关联两种策略来提高关联的信 息密度,实现数据的增强,改善机器学习模型的反欺诈能力。
[0104]
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实 施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所 公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明 的保护范围,仍须以所附的权利要求书所界定的范围为准。
[0105]
参考文献:
[0106]
[1]zeynep boz,dileks.ilker birbil,et al.reassessment and monitoring of loan applications with machine learning[j].applied artificial intelligence,2018,32(9-10):939

955.
[0107]
[2]beutel a,akoglu l,faloutsos c.graph-based user behavior modeling:from prediction to fraud detection[c]//acm sigkdd international conference on knowledge discovery&data mining.acm,2015: 2309-2310.
[0108]
[3]dawei cheng,yiyi zhang,fangzhou yang,et al.a dynamic default prediction framework for networked-guarantee loans[c]//acm cikm 2019,2019:2547

2555.
[0109]
[4]tan f,hou x,zhang j,et al.a deep learning approach to competing risks representation in peer-to-peer lending[j].ieee transactions on neural networks and learning systems,2018,pp:1-10.
[0110]
[5]daixin wang,yuan qi,jianbin lin,et al.a semi-supervised graph attentive network for financial fraud detection[c]//ieee icdm 2019,2019:598

607
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1