一种二手车融资担保信息识别方法、系统及介质与流程

文档序号:30787807发布日期:2022-07-16 08:47阅读:123来源:国知局
一种二手车融资担保信息识别方法、系统及介质与流程

1.本发明属于金融信息及数据处理技术领域,尤其涉及一种二手车融资担保信息识别方法、系统、介质、设备及终端。


背景技术:

2.目前,在二手车融资担保行业中,担保机构通过收集客户的基本信息、贷款产品信息、车辆信息、三方征信数据、客户紧急联系人信息以及担保人信息,来为银行提供助贷服务,为客户提供担保服务。在这一过程中,担保机构承担了客户逾期代偿的责任,也就是说,如果客户存在欺诈骗贷行为,这将会给担保机构造成重大的资产损失。所以,在发放贷款之前,对这些欺诈行为进行准确识别,对有欺诈嫌疑的贷款加强审批措施或者拒绝发放贷款,能降低贷款资产不良率水平,提升担保机构风险管理水平,具有非常重大的意义。
3.二手车金融的风险防范,主要在于解决欺诈骗贷问题。既要识别恶意骗贷行为,也要剔除很可能没有还款能力的客户。其本质上是一个对客户的分类问题,同时由于风险识别的特殊性,该分类问题的数据分布极度不平衡,且一个优质客户带来的收益往往远低于一个风险客户所造成的损失,因此对模型的识别能力有着更高的要求。此外在实际的风险业务场景中,往往对风险的识别有着可解释性的要求,模型在判别时能否给出判定的依据具有十分重要的意义。在这种背景下,为了实现快速且准确的贷款审批流程,对风险识别模型的要求越来越高。
4.现有针对二手车融资担保欺诈识别的技术主要分为两种,一种是基于特征工程的分析方法,其主要技术方案是:收集申请用户的综合信息数据,对数据进行特征探索和特征设计,利用如逻辑回归等机器学习的方法对特征进行学习,然后利用学习到的模型计算出每个用户的信用分数,设定特定的分数来识别欺诈用户。但由于此类方法,过分依赖于设计的特征和特征分析方法,对从业人员具有很高的业务和技术双重要求,导致此类方法落地实施困难且效果很难得到保障。还有一种是基于规则的方法,其主要技术方案是:通过预先设定的规则对申请用户进行筛选,识别欺诈用户,比如黑名单规则,将出现在黑名单中的用户定义为欺诈用户。但此类方法,完全依赖于设定的规则,需要实时更新和维护大量的规则数据库,且需要大量依赖于人力,导致此类方法存在规则数据维护难,实时更新难,实施成本高的问题。
5.通过上述分析,现有技术存在的问题及缺陷为:
6.(1)现有针对二手车融资担保欺诈识别的技术在面对新用户时,经常会遇到信息缺失的问题,无法进行准确评估,同时此类方法对特征的选择十分敏感,具有很高的业务和技术双重要求。
7.(2)现有针对二手车融资担保欺诈识别的技术需要实时更新和维护大量的规则数据库,存在维护难,实时更新难和方案实施成本高的问题。
8.解决以上问题及缺陷的难度为:降低特征设计对模型效果的影响以及设计新的数据信息提取的模型方法。


技术实现要素:

9.针对现有技术存在的问题,本发明提供了一种二手车融资担保信息识别方法、系统、介质、设备及终端。
10.本发明是这样实现的,一种二手车融资担保信息识别方法,根据收集到的贷款申请人基础信息数据、关系数据和车辆信息数据进行关系知识图谱的本体设计,构建关系知识图谱,并利用图卷积神经网络建立关系知识图谱中图节点的向量表示学习模型,基于图节点的向量表示定义贷款申请的欺诈识别规则,对是否属于欺诈贷款申请进行识别。
11.进一步,所述贷款申请人基础信息数据包括:申请用户提供的基本信息、征信信息、本机构和其他机构的历史信息,构建每个申请用户的综合数据集。
12.进一步,所述构建关系知识图谱为将申请人的联系方式作为图节点,申请人和其他人或者其他机构用边相连,表示申请人与其存在关系,同时将用户的基本信息和其他行为信息作为节点的属性数据。
13.进一步,所述利用图卷积神经网络建立贷款申请的欺诈识别模型,对是否属于欺诈贷款申请进行识别包括:基于申请人的知识图谱,利用申请人的基本信息、行为信息和其他信息对网络节点进行初始化向量表示;利用图卷积算子对向量进行非线性变化;利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束,得到学习好的节点向量化表示;计算节点向量和图向量的相似度。
14.进一步,所述二手车融资担保信息识别方法包括以下步骤:
15.第一步,收集申请用户提供的基本信息、征信信息、本机构和其他机构的历史信息,综合构建每个申请用户的综合数据集;
16.第二步,构建知识图谱,将申请人的联系方式作为图节点,申请人和其他人或者其他机构用边相连,表示申请人与其存在关系,同时将用户的基本信息和其他行为信息作为节点的属性数据;
17.第三步,基于申请人的知识图谱,利用申请人的基本信息、行为信息和其他信息对网络节点进行初始化向量表示;利用图卷积算子对向量进行非线性变化;利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束,得到学习好的节点向量化表示;
18.第四步,计算节点向量和图向量的相似度,将相似度小于0.5的节点输出为欺诈节点。
19.进一步,所述第二步构建知识图谱具体包括:
20.1)构建申请人和相关信息的二元数据,以每个申请人为出发点寻找关联到的信息,形成二元组数据,格式如下:
21.[[p,r1],[p,r2],

,[p,rn]],其中p代表申请人,r1,r2,

,rn代表与申请人p相关的信息;
[0022]
2)利用1)的二元数据构建申请人的知识图谱。
[0023]
进一步,所述第三步具体包括:
[0024]
1)图节点向量初始化,选取节点的有效信息如下:客户月收入、年龄、身份证关联的手机号个数、民族、征信是否白户等效的信息,然后对有效信息按照公式
[0025]
进行归一化处理,最后按照公式ai=(δi,δ2,

,δm)得到节点
的向量初始化表示;其中δj代表信息j的归一化之后的数值,xj代表信息j的归一化之前的数值, min(
·
)代表计算最小值,max(
·
)代表计算最大值,n代表关系知识图谱中的节点总数,ai代表关系知识图谱节点i的向量初始化表示,m代表有效信息的数据类型总数;
[0026]
2)用图卷积算子对向量进行非线性变化,图卷积算子定义公式
[0027]
所示;
[0028]
其中g(i)代表节点i在第l层转换后的向量表示,aj代表邻居节点的向量表示,f(j)代表转换函数,σ为算子的激活函数,c
ij
代表节点i的度数,ni代表节点i的邻居,包含自身,代表节点j在l层的向量表示,代表转换算子需要学习的参数矩阵;
[0029]
3)利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束;使用公式
[0030]
和所示的损失函数,利用梯度下降的方法优化模型的参数;
[0031]
其中q,代表图的向量表示,代表图的向量标书的指数转换,g(i)和g(j)分别代表欺诈节点i和正常节点j的向量化表示,yi,yj分别代表节点i,j的真实标签值。
[0032]
进一步,所述第四步计算节点向量和图向量的相似度,将相似度小于0.5的节点输出为欺诈节点,相似度计算公式其中si代表节点向量和图向量的相似度,q和g(i)分别代表图向量和节点i的向量,‖q‖和‖g(i)‖分别代表图向量范数和节点i的向量范数。
[0033]
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述二手车融资担保信息识别方法的步骤。
[0034]
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述二手车融资担保信息识别方法的步骤。
[0035]
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述二手车融资担保信息识别方法。
[0036]
本发明的另一目的在于提供一种实施所述二手车融资担保信息识别方法的二手车融资担保信息识别系统,所述二手车融资担保信息识别系统包括:
[0037]
数据收集模块,用于收集申请用户提供的基本信息、征信信息、本机构和其他机构的历史信息,综合构建每个申请用户的综合数据集;
[0038]
知识图谱构建模块,用于将申请人的联系方式作为图节点,申请人和其他人或者其他机构用边相连,表示申请人与其存在关系,同时将用户的基本信息和其他行为信息作为节点的属性数据;
[0039]
节点向量化表示模块,用于基于申请人的知识图谱,利用申请人的基本信息、行为信息和其他信息对网络节点进行初始化向量表示;利用图卷积算子对向量进行非线性变
化;利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束,得到学习好的节点向量化表示;
[0040]
相似度计算模块,用于计算节点向量和图向量的相似度,将相似度小于0.5的节点输出为欺诈节点。
[0041]
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
[0042]
运用申请人的基础数据进行归一化处理,对关系网路节点进行初始化,并在此基础上利用图卷积神经网络对节点的关系信息进行学习,得到节点基础信息和关系信息的向量表示,根据所有图节点的向量表示计算出关系知识图谱的向量表示,通过计算图节点向量和图向量的相似度计算,识别欺诈用户。本发明提出的一种基于图计算的二手车融资担保欺诈识别的方法,同时利用用户的基础信息和用户的关系信息进行欺诈识别,降低了对基础信息的依赖性,从而降低了对特征选择的敏感性,提高了实施的容易性,同时此方法具有更高的准确性,从而帮助金融机构更快更准的识别欺诈贷款申请。本发明使得金融机构,可以依据本发明提供的模型,结合已有的数据,对申请用户进行更快更准确的欺诈识别,提高金融机构对欺诈风险的规避能力,促进金融机构建立健全的风险评估体系,有利于金融市场的稳定。
[0043]
本发明解决了目前现有技术的问题及缺陷,具有的技术意义为:
[0044]
第一、在二手车融资担保领域提供一种利用用户关系数据进行欺诈识别的新方法。
[0045]
第二、降低特征设计对模型效果的影响,相对降低了从业人员的技术要求。
[0046]
第三、通过本方法进行欺诈识别,帮助二手车融资担保机构以低成本的方式进行欺诈识别,避免欺诈带来的经济损失。
[0047]
此外,本发明采用方法进一步具备以下优点和技术效果:
[0048]
1)本发明得到的相似度作为阈值区分风险用户与普通用户,具有以下优势:信息类型简单,容易区分。数据信息为二元信息,信息类型简单,容易识别区分。
[0049]
2)较强的客观性。有效信息进行归一化处理,所有信息表示均在(0,1)之间,不存在因信息本身数值范围原因导致人为提高或者降低某些信息权重的问题,提高模型的客观性。
[0050]
3)较强的语义表示能力。图卷积对原始向量进行更新,在联系人本身的基础上,通过与联系人相关人员、机构的信息对联系人本身表示进行更新,扩充联系人节点本身涵盖的信息范围,提升了联系人本身的语义表示能力。
[0051]
4)语义效果显著,可解释性强。在整个图中,欺诈节点属于小样本,大多数节点都是正常节点或者表示偿债能力良好的节点,因此这样计算出来的图的向量表示也是偏向于正常节点的,如果使用欺诈节点的表示与图的向量表示计算相似度,则此时的相似度得分将会很低。
附图说明
[0052]
图1是本发明实施例提供的二手车融资担保信息识别方法流程图。
[0053]
图2是本发明实施例提供的二手车融资担保信息识别系统的结构示意图;
[0054]
图2中:1、数据收集模块;2、知识图谱构建模块;3、节点向量化表示模块;4、相似度
计算模块。
[0055]
图3是本发明实施例提供的二手车融资担保信息识别方法的实现流程图。
[0056]
图4是本发明实施例提供的关系知识图谱示意图。
[0057]
图5是本发明实施例提供的图卷积神经网络示意图。
具体实施方式
[0058]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0059]
针对现有技术存在的问题,本发明提供了一种二手车融资担保信息识别方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
[0060]
如图1所示,本发明提供的二手车融资担保信息识别方法包括以下步骤:
[0061]
s101:数据收集,收集申请用户提供的基本信息、征信信息、本机构和其他机构的历史信息等,综合构建每个申请用户的综合数据集。
[0062]
s102:构建知识图谱,将申请人的联系方式作为图节点,申请人和其他人或者其他机构用边相连,表示申请人与其存在关系,同时将用户的基本信息和其他行为信息作为节点的属性数据。
[0063]
s103:基于申请人的知识图谱,利用申请人的基本信息、行为信息和其他信息对网络节点进行初始化向量表示;利用图卷积算子对向量进行非线性变化;利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束,得到学习好的节点向量化表示。
[0064]
s104:计算节点向量和图向量的相似度,将相似度小于0.5的节点输出为欺诈节点。
[0065]
本发明提供的二手车融资担保信息识别方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的仅仅是一个具体实施例而已。
[0066]
如图2所示,本发明提供的二手车融资担保信息识别系统包括:
[0067]
数据收集模块1,用于收集申请用户提供的基本信息、征信信息、本机构和其他机构的历史信息等,综合构建每个申请用户的综合数据集。
[0068]
知识图谱构建模块2,用于将申请人的联系方式作为图节点,申请人和其他人或者其他机构用边相连,表示申请人与其存在关系,同时将用户的基本信息和其他行为信息作为节点的属性数据。
[0069]
节点向量化表示模块3,用于基于申请人的知识图谱,利用申请人的基本信息、行为信息和其他信息对网络节点进行初始化向量表示;利用图卷积算子对向量进行非线性变化;利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束,得到学习好的节点向量化表示;
[0070]
相似度计算模块4,用于计算节点向量和图向量的相似度,将相似度小于0.5的节点输出为欺诈节点。
[0071]
如图2所示,收集用户基本信息、征信信息等,同时获取机构等信息,在这一步中要尽可能保证获取数据的真实性、准确性和完整性,确保所收集的信息能够准确反映用户还贷能力,切实降低风险。知识图谱构建模块,将用户、机构作为图节点,其之间的关系设置为
边,这样构造出知识图谱,相临边表示用户之间或者用户与机构之间的关系。通过使用图节点和相临边的相关信息,不仅仅能够简单的获得联系人本身的信息,还能够与联系人相关人员机构相关联,增加了风险监测维度,降低相关人对联系人本身还贷能力的影响。节点向量化表示模块,通过将节点向量化来使用已有联系人、机构图谱,由于所有特征都是人工选择的,因此难免会引入一些人工噪声,通过向量化和相邻节点向量更新联系人向量表示的方式在一定程度上削弱人工噪声的影响,并引入人的社交环境对其偿贷能力的影响,使得模型的信息来源更加全面。最后进行相似度计算,由于大多数人和机构的偿贷能力都是良好的,因此最终图的向量表示也是偏向良好偿债能力的语义,如果此时新输入的一个节点表示与图的向量表示计算相似度,若相似度大于0.5,则表示该节点表示与图的向量表示相似度较高,也就是说新的节点更大概率表示正常节点,反之为欺诈节点。
[0072]
如图3所示,本发明提供的二手车融资担保信息识别方法具体包括以下步骤:
[0073]
步骤一:数据收集,收集申请用户提供的基本信息、征信信息、本机构和其他机构的历史信息等,综合构建每个申请用户的综合数据集。
[0074]
步骤二:构建知识图谱如图4所示,将申请人的联系方式(电话号码)作为图节点,申请人和其他人或者其他机构用边相连,表示申请人与其存在关系,同时将用户的基本信息和其他行为信息作为节点的属性数据。
[0075]
1)构建申请人和相关信息的二元数据,以每个申请人为出发点寻找关联到的信息,形成二元组数据,格式如下:
[0076]
[[p,r1],[p,r2],

,[p,rn]],其中p代表申请人,r1,r2,

,rn代表与申请人p相关的信息;
[0077]
2)如图4所示,利用1)的二元数据构建申请人的知识图谱。
[0078]
步骤三:基于申请人的知识图谱,首先利用申请人的基本信息、行为信息和其他信息对网络节点进行初始化向量表示,其次利用图卷积算子对向量进行非线性变化,最后利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束,得到学习好的节点向量化表示。
[0079]
1)图节点向量初始化。首先选取节点的有效信息如下:客户月收入、年龄、身份证关联的手机号个数、民族、征信是否白户等效的信息,然后对有效信息按照公式(1),进行归一化处理,最后按照公式(2)得到节点的向量初始化表示:
[0080][0081]ai
=(δi,δ2,

,δm)
ꢀꢀꢀ
(2)
[0082]
其中δj代表信息j的归一化之后的数值,xj代表信息j的归一化之前的数值,min(
·
)代表计算最小值,max(
·
)代表计算最大值,n代表关系知识图谱中的节点总数,ai代表关系知识图谱节点i的向量初始化表示,m代表有效信息的数据类型总数。
[0083]
2)用图卷积算子对向量进行非线性变化,如图5所示。图卷积算子定义如公式(3)和 (4)所示:
[0084]
g(i)=∑
j∈niaj
f(j)
ꢀꢀꢀ
(3)
[0085]
[0086]
其中g(i)代表节点i在第l层转换后的向量表示,aj代表邻居节点的向量表示,f(j)代表转换函数,σ为算子的激活函数,c
ij
代表节点i的度数,ni代表节点i的邻居,包含自身,代表节点j在l层的向量表示,代表转换算子需要学习的参数矩阵。
[0087]
3)利用定义的损失函数和随机梯度下降方法对变化后的向量进行监督约束。本发明使用公式(5)和(6)所示的损失函数,利用梯度下降的方法优化模型的参数:
[0088][0089][0090]
其中q,代表图的向量表示,代表图的向量标书的指数转换,g(i)和g(j)分别代表欺诈节点i和正常节点j的向量化表示,yi,yj分别代表节点i,j的真实标签值。
[0091]
步骤四:计算节点向量和图向量的相似度,将相似度小于0.5的节点输出为欺诈节点。
[0092]
相似度计算如公式(7)所示。
[0093][0094]
其中si代表节点向量和图向量的相似度,q和g(i)分别代表图向量和节点i的向量,‖q‖和‖g(i)‖分别代表图向量范数和节点i的向量范数。
[0095]
如图3所示的本发明架构,本发明利用用户的关联数据,建立如图4所示的用户知识图谱。之后在用户知识图谱的基础上,结合用户基本和其他信息进行预处理,对图节点继续向量初始化,通过图计算算子对向量进行非线性变换如图3所示,并通过定义损失函数和优化方法,从而学习到每个节点在隐空间当中图节点的向量表示,如公式(6)所示计算出图的向量化表示,在此基础上,如公式(7),计算每个节点与图向量的相似度,通过分析相似度是否小于特定的阈值(0.5),从而实现对申请用户的欺诈识别。
[0096]
如图3所示,贷款欺诈识别最关键的一步就是数据收集,只有收集到的数据具有较强的真实性、完整性、有效性,才能保证识别结果的准确。第二步构建知识图谱,通过联系人本身、联系人关联人或机构,以及这些相关方的联系构建知识图谱。第三步,完成图节点向量初始化、构建图卷积神经网络、定义损失函数,完成训练前准备。第四步,学习图节点和完整图的向量表示,用计算机能够识别的语言表示联系人的信息。第五步,计算节点向量和完整图向量的相似度;第六步,相似度与阈值比较,如果小于阈值则认为是欺诈贷款,否则不是欺诈贷款。
[0097]
如图4所示,图中的所有节点表示联系人,不同联系人之间有call、sms等关系,联系人、联系人之间的关系构成了图4所示的图谱网络
[0098]
如图5所示,当k=1时,节点i会通过对距离节点i距离为1的节点表示图卷积来更新节点i的表示,当k=2时,则选择距离为2的节点。
[0099]
本发明实施例使用真实的二手车贷数据进行实验,该数据包含6542个客户(470个欺诈客户和6072个正常客户),每个客户都有50种的有效数据,客户之间具有7548条相互的关联信息,实验效果采用auc对比指标,对比结果如下表所示,在相同数据的情况下,本发明
的方法取得了更好的效果。
[0100]
方法类型auc评分卡模型(现有方法)80.00%本发明的方法83.46%
[0101]
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或 dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
[0102]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1