一种基于双模网络图挖掘算法的信用卡反欺诈预测方法与流程

文档序号:15350052发布日期:2018-09-04 23:13阅读:254来源:国知局

本发明涉及金融风控技术领域,特别是涉及一种基于双模网络图挖掘算法的信用卡反欺诈预测方法。



背景技术:

目前,信用卡业务在我国经历了三十多年的发展,呈现出突破性增长态势,截至2016年二季度末,全国信用卡和借贷合一卡发卡数量共计4.73亿张,同比增长9.26%,人均持有信用卡0.31张,信用卡授信总额为8.05万亿元,同比增长25.44%。在当前普惠金融的大市场环境下,传统金融和互联网技术不断融合,信用卡获客渠道日益多元化,其中在线申请以其快速便捷、低准入门槛的优势受到了市场青睐,逐渐成为传统金融机构的业务转型方向。然而,伴随信贷市场的高速发展,虚假申请、串联交易、团伙欺诈、套现洗钱冲击的可能性也在加大。许多不法信用卡代办机构将不具备申请信用卡的客户需求视为商机,通过与黑色产业链合作,为其提供虚假证明资料,通过各种手段协助他们包装成为“信用合格”人员,骗办、转卖信用卡以谋取中间利益,加之互联网时代个人信息泄露严重,冒名骗办信用卡案件时有发生,最终导致了银行不良信贷的产生和被冒名当事人的损失。

传统金融机构采用的信用卡审批风险评分模型主要针对个体特征,利用评分卡或者集成模型的技术预测个体欺诈概率。难以实现对每个申请用户从个体风险到群组风险、关联风险的全面把控,通过顺藤摸瓜的方法捕捉到身份伪冒盗用、团伙欺诈、群体攻击等风险。针对上述问题,目前行业内仍然面临着如下技术难点:

(1)、网络构建困难:线上申请通常会获取多种关联关系,诸如身份证号,手机号,设备相关,地址,单位等,构建何种网络,单模网络还是多模网络,如何构建网络,如何定义网络的结点与边,欺诈模式变幻多端,如何构建时间动态更新的网络,如何通过匹配技术,与已有网络的结点构建关联等都具有较大的难度。

(2)、网络特征提取困难:与传统极大程度依赖专家经验的特征工程不同,网络特征工程的提取需要深厚的图理论知识,且根据单模网络或者双模网络常采用不同的图指标,如何根据构建的网络提取网络特征,这也对风控建模专家提出了挑战。

(3)、网络特征建模困难:基于图理论的网络特征加工之后往往会产生上千维度变量,且通常是分布稀疏的弱变量,远超出传统风控建模基于lr(logisticregression,即逻辑回归)和评分卡体系的处理能力范围。



技术实现要素:

本发明的目的是克服现有技术的不足,设计出一种基于双模网络图挖掘算法的信用卡反欺诈预测方法。

为达到上述目的,本发明所采用的技术方案是:

一种基于双模网络图挖掘算法的信用卡反欺诈预测方法,具体包括以下步骤:

步骤1:采集信用卡申请人的原始数据,并将原始数据转换为图数据;

步骤2:对图数据进行处理,筛选出构建双模网络模型所需的结点、边、结点的属性、边的属性,根据筛选结果构建出双模网络模型;

步骤3:构建网络风险特征模型:

具体地,首先,将所述信用卡申请人的原始数据划分为网络构建数据和建模数据,根据双模网络模型从建模数据中提取出信用卡申请人的网络风险特征;

然后,根据建模数据及网络风险特征设定超参数空间,通过调优算法自动学习寻找出最佳超参数;利用最佳超参数,通过机器学习模型-集成树模型进行数据拟合并输出信用卡申请人的网络欺诈概率,从而构建出网络风险特征模型;

步骤4:根据个体风险特征模型获取信用卡申请人的个体欺诈概率,综合网络欺诈概率和个体欺诈概率,获得信用卡申请人的欺诈预测概率。

作为优选地,所述步骤2中筛选出构建双模网络模型所需的结点、边、结点的属性、边的属性的具体步骤为:

步骤2.1:计算图数据中各类关系的图指标,分析各关系的有效性,剔除无效关联,筛选出构建双模网络模型所需的边,所述图指标包括同质性指标和连通性指标;

步骤2.2:计算图数据中各信息结点的中心度,通过head-tail-break算法快速剔除与预测目标无关的中心度极大的结点,筛选出构建双模网络模型所需的结点;

步骤2.3:根据筛选出的节点、边、节点的属性以及边的属性构建出双模网络模型。

作为优选地,所述步骤2.1和步骤2.2交替进行。

作为优选地,所述连通性指标指的是连通度,其计算公式为其中,n为图数据网络中结点的个数,m为图数据网络中边的个数;

所述同质性指标包括heterophilicity、dyadicity,

heterophilicity的计算公式为其中m10为图数据网络中欺诈申请结点与非欺诈申请结点之间实际相连的边的个数,为图数据网络中欺诈申请结点与非欺诈申请结点之间随机相连的边的个数,n1为图数据网络中欺诈结点的个数,n0是指图数据网络中非欺诈结点的个数,p为连通度;

dyadicity的计算公式为其中,m11为图数据网络中欺诈申请结点与欺诈申请结点之间实际相连的边的个数,为图数据网络中欺诈申请结点与欺诈申请结点之间随机相连的边的个数,p为连通度,n1为图数据网络中欺诈结点的个数。

作为优选地,所述步骤3中所述网络风险特征包括局部网络风险特征、全局网络风险特征以及网络信息对比风险特征。

作为优选地,所述局部网络风险特征包括邻结点风险特征、四角形风险特征和局部聚合系数风险特征。

作为优选地,所述申请人的原始数据包括申请人填写申请书资料、人行报告查询信息、申请人授权的移动端行为数据、电商数据、社交数据以及黑白名单查询信息。

作为优选地,所述网络构建数据中的信用卡申请时间位于建模数据的申请时间之前,且网络构建数据与建模数据在事件发生时间上是连续的。

作为优选地,所述个体风险特征模型可采用boostingtree或深度学习分类器。

本发明的积极有益效果:

1、本发明将图网络作为特征提取框架,能十分便捷地实时计算网络风险特征,通过进一步与个体风险特征相融合,对个体和团体实现全面完整的风险画像,针对信用卡场景的关联风险、群体欺诈、身份伪造盗用等欺诈甄别,为金融机构提供欺诈行为识别和自动化在线风险预警,解决个体欺诈判断无法覆盖到的风险甄别问题。

2、基于有监督算法的集成机器学习模型,相对于传统的黑白名单、规则模型,风险识别更精准,且伴随新申请人的不断涌入,双模网络模型得以不断更新丰富,风控专家可实时对每一个申请用户从个体风险识别判定到群组关联风险做研究,挖掘识别新的欺诈模式,跟踪对比欺诈模式的演变,将人工经验与社区挖掘算法及机器学习模型相结合,不断地迭代优化模型,实现对全局风险的把控。

3、整体框架从用户原始数据到网络特征提取,规则和模型计算,到风险实时决策反馈,形成了一套行之有效的自动化闭环解决方案,全方位及时识别身份盗用,关键信息伪造,设备共用,多头负债,高危账号关联,欺诈嫌疑圈子等网络风险和关联风险,极大地节约了传统信审人员人工审核查验的人力成本,实现线上申请渠道的自动化高效审批。

附图说明

为了更清楚得说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图。

图2为信用卡申请人原始数据的处理流程图。

图3为构建双模网络模型的示意图。

图4为提取信用卡申请人网络风险特征的示意图。

图5为获取信用卡申请人欺诈预测概率的流程图。

图6为网络示意图之一。

图7为网络示意图之二。

图中标号的含义为:1为当前申请,2为欺诈申请,3为非欺诈申请。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

结合图1-图7说明本实施方式,本发明的基于双模网络图挖掘算法的信用卡反欺诈预测方法,通过汇聚与申请人相关的多维数据信息,构建出信用卡申请领域数据知识图谱,获得可反应客户之间关联关系的双模网络模型,精准融合了个体与群组风险对申请人欺诈概率的影响,从而有效降低身份伪造盗用、团伙欺诈、群体攻击等风险,提升金融反欺诈风控能力。

本发明的基于双模网络图挖掘算法的信用卡反欺诈预测方法,具体包括以下步骤:

步骤1:采集信用卡申请人的原始数据,并将原始数据转换为图数据。

所述申请人的原始数据包括申请人填写申请书资料、人行报告查询信息、申请人授权的移动端行为数据、电商数据、社交数据以及黑白名单查询信息。其中,黑白名单可以是网络中的任何实体类型,账户、地址、电话号码等。黑名单包括行内积累的欺诈、严重逾期、或者交换黑名单,白名单包括vip客户或者人工标记无风险的电话、地址等。传统的信用风险评估一般都是直接采用客户的申请信息作为分析数据,这样仅能从个体角度分析申请人的风险情况,而未考虑申请人与其社交群体之间的关联关系。本发明采集到的原始数据不仅包含申请人的个体申请信息,还包含了申请人授权的移动端行为数据、电商数据、社交数据等与其相关的网络团体信息,这样能够更加全面的描述客户信息,构建出更加高效准确的欺诈预测模型,从而得到欺诈风险预测更加精准、性能稳定、迁移能力强的欺诈预测模型。

图数据是以“图”的数据结构存储数据,其包含有结点和边,结点上有属性,边也有属性,图就是一些结点和关联这些结点的联系的集合,我们将其定义为以网络的结点取值、结点的属性、边的属性为字段的图数据文件。

所述结点,是指所有与实体相关的原始数据。网络中仅包含两种类型的结点:其一为申请件结点,用于唯一定义一笔信用卡申请;其二为信息结点,用于跟踪与申请相关的其他信息,如身份证号、邮箱、电话、地址、设备等。

所述边,是指不同类型结点之间的关联关系。相同类型的结点之间不能直接相连,而是通过另一种类型的结点进行关联,例如,通过申请人身份证号关联申请件与身份证号这两个结点,通过申请人公司地址关联申请件与地址结点这两个结点等。

所述结点的属性,是指每个结点自身所附带的属性信息。对于申请件结点,可定义其属性为信审决策(如通过或拒绝)、审批额度、发卡后表现(如逾期或正常)、欺诈与非欺诈。此外,在两种类型的结点上还可定义其他信息作为结点属性,如黑白名单、申请时间等。

所述边的属性,是指每条边自身所附带的属性信息。边代表着结点间的关联关系,一方面我们定义边的时间属性用于刻画该关系的有效时间,另一方面,我们定义权重来描述该关系的强度。

边的权重的计算公式为w=ae-bt,其中,w为边的权重,取值范围为[0,1]。a为根据边的重要性设定的权重系数,取值范围为[0,1],若身份证与申请结点之间的关系强于公司地址与申请结点之间的关系,那么可将身份证与申请结点之间的关系设置为1,公司地址与申请结点之间的关系设置为0.7;若公司名称和公司地址同样重要,但通过同质性指标的计算,发现公司地址的指标表现更好,那么可将公司地址的权重设置高于公司名称。b表示时间衰减系数,取值越大,衰减速度越快。t表示时间,单位为天。

步骤2:对图数据进行处理,筛选出构建双模网络模型所需的结点、边、结点的属性、边的属性,主要是分析图数据中各类关系的有效性,删除无效关联、无效信息、剔除已知度极大的枢纽结点、对重复数据进行筛选、规范数据格式、对图数据格式进行整合。然后,根据筛选结果构建出双模网络模型。

具体地,筛选构建双模网络模型所需的结点、边、结点的属性、边的属性具体包括以下三个步骤为:

首先,计算图数据中各类关系(即边)的图指标,分析各关系的有效性,剔除无效关联,筛选出构建双模网络模型所需的边。

所述图指标包括连通性指标和同质性指标。

所述连通性指标,用于刻画网络的稠密程度,该值越接近于1表征网络越稠密,稠密的网络更有利于欺诈标签的传播。

所述同质性指标包括同质性检验(homophilictest)、dyadicity和heterophilicity,通过homophilictest和heterophilicity,可以反映网络中欺诈与非欺诈申请结点的关联紧密程度。heterophilicity可表示欺诈与非欺诈结点之间的关联密度,若heterophilicity<1,则表征与随机网络相比,欺诈与非欺诈结点的关联稀疏。dyadicity可描述欺诈结点之间的关联紧密程度,dyadicity>1表征与随机网络相比,欺诈结点之间的关联紧密。欺诈与非欺诈结点关联稀疏,而欺诈结点间关联紧密的网络,更具有挖掘价值。

heterophilicity的计算公式为其中m10为图数据网络中欺诈申请结点与非欺诈申请结点之间实际相连的边的个数,为图数据网络中欺诈申请结点与非欺诈申请结点之间随机相连的边的个数,n1为图数据网络中欺诈结点的个数,n0是指图数据网络中非欺诈结点的个数,p为连通度。

dyadicity的计算公式为其中,m11为图数据网络中欺诈申请结点与欺诈申请结点之间实际相连的边的个数,为图数据网络中欺诈申请结点与欺诈申请结点之间随机相连的边的个数,p为连通度,n1为图数据网络中欺诈结点的个数。

连通度的计算公式为其中,n为图数据网络中结点的个数,m为图数据网络中边的个数。

因此,剔除图数据中heterophilicity值大于1、dyadicity值小于1、连通度接近于0的关系,从而筛选出构建双模网络模型所需的边。

然后,对图数据中各信息结点,按关系类型分类分别计算各信息结点的中心度,通过head-tail-break算法快速剔除与预测目标无关的中心度极大的结点,筛选出构建双模网络模型所需的结点。由于网络中结点的度符合幂律分布,head-tail-break算法能有效地对长尾数据进行分组,从而帮助我们快速定位极大结点。

最后,根据筛选出的节点、边、节点的属性以及边的属性构建出双模网络模型。

在网络的构建中,我们采用中文模糊匹配技术来匹配家庭地址、单位地址、单位名称等中文文本信息。该技术基于机器学习算法,通过匹配搜索引擎,完成中文地址的“分词-标准-对比”,实现对汉字、数字、字母的模糊匹配,并给出信息相似度评分,通过相似度阀值,对申请件关联程度进行度量化定义。从而实现当前申请与历史存量申请信息的关联查找,以明确新入申请件,是否存在隐含的多次贷款的风险事实。

通过申请信息的不断扩充,双模网络模型得以迭代更新,从而逐步构建出具有反欺诈识别能力、融合多维数据的信用卡申请领域知识图谱。

在本实施例中,有效关系的筛选以及极大结点的剔除这两个操作是交替进行的,剔除网络中的极大结点有利于网络同质性指标的提升,但会导致连通性指标降低,因此上述两个操作交替进行能够较好的保证网络的同质性和连通性。

步骤3:构建网络风险特征模型:

具体地,首先,将所述信用卡申请人的原始数据划分为网络构建数据和建模数据,网络构建数据中的信用卡申请时间位于建模数据的申请时间之前,且网络构建数据与建模数据在事件发生时间上是连续的。例如,获取的信用卡申请人的所有原始数据样本的申请时间为2017-3-1至2017-12-31,若将2017-3-1至2017-8-30的数据作为网络构建数据,2017-9-1至2017-12-31的数据作为建模数据样本,那么9月1日的样本可用的网络为3月1日至8月31日,时间跨度为6个月,以此类推,以6个月为时间窗口进行滑动,那么9月2日的样本可用的网络为3月2日至9月1日。

然后,根据双模网络模型从建模数据中提取出信用卡申请人的网络风险特征。

所述网络风险特征包括局部网络风险特征、全局网络风险特征以及网络信息对比风险特征。

所述局部网络风险特征,用于描述申请件邻居结点的统计类特性,其包括邻结点风险特征、四角形风险特征和局部聚合系数风险特征。

所述邻结点风险特征,用于描述申请件的邻居结点的风险,如当前申请件关联的欺诈申请件个数、当前申请件关联申请件中欺诈申请的比例等。

所述四角形风险特征,用于描述结点间关联的稳定程度,该类特征包括当前申请关联的四角形个数、当前申请与欺诈申请件关联的四角形个数、比例等,如图6所示,该图中圆点表示申请件结点,叉表示信息结点,标号1表示当前申请,标号2表示欺诈申请,标号3表示非欺诈申请,一个申请件结点通过两个信息结点关联到另一个申请结点,即构成了一个四角形,上图所示的网络中,当前申请关联的四角形个数为4,当前申请与欺诈申请件关联的四角形个数为3,比例为3/4。

所述局部聚合系数风险特征,用于描述结点间关联的紧密程度,如当前申请与其他申请关联的聚合系数、当前申请与欺诈申请关联的聚合系数等。聚合系数为网络中实际相连的边的个数除以网络中所有结点全连通的边的个数,如图7所示,当前申请与其他申请关联的聚合系数为12/(3*5),当前申请与欺诈申请关联的聚合系数为6/(3*2)。

所述全局网络风险特征,用于描述当前申请的风险情况,在通过图挖掘算法得到各结点的欺诈概率之后,可计算如下特征:当前申请的欺诈概率,邻居结点(一度关联的信息结点)欺诈概率的最大值、平均值等。

所述网络信息对比风险特征,包括不同渠道个人信息重合度比对、个人信息与网络一致性检验等。重合度计算的方法为:假设通过渠道a获取到当前申请关联的地址个数为x1,通过渠道b获取到当前申请关联的地址个数为x2,两个渠道分别获取的地址中相同的地址个数为x3,那么重合度为x3/(x1+x2),我们可以通过上述方法对其他类型的信息进行重合度计算,如电话、公司名称等。

然后,根据建模数据及网络风险特征设定超参数空间,通过调优算法自动学习寻找出最佳超参数;利用最佳超参数,通过机器学习模型-集成树模型进行数据拟合并输出信用卡申请人的网络欺诈概率,从而构建出网络风险特征模型。该网络欺诈概率是考虑了信用卡申请人网络团体信息的欺诈概率。

步骤4:首先,根据个体风险特征模型获取信用卡申请人的个体欺诈概率,该个体欺诈概率是仅考虑申请人个体信息的欺诈概率。本实施例中,该个体风险特征模型可采用有监督的分类模型,如boostingtree(包括gbdt、xgboost、lightgbm)或深度学习分类器。在进行机器学习获取欺诈风险时,该模型采用的训练集和测试集应与上述网络风险特征模型中采用的数据一致。

然后,综合网络欺诈概率和个体欺诈概率,获得信用卡申请人的欺诈预测概率。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解;依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1