一种基于拒绝推断的金融违约风险评估方法及系统与流程

文档序号:24241005发布日期:2021-03-12 13:15阅读:191来源:国知局
一种基于拒绝推断的金融违约风险评估方法及系统与流程

本发明涉及金融违约风险评估技术领域,具体地,涉及一种基于拒绝推断的金融违约风险评估方法及系统。



背景技术:

金融违约风险评估是通过构建模型对贷款申请者的违约风险进行预测,并给出申请者违约概率的技术,在此基础上金融借贷机构可以根据相关政策并利用违约概率判断申请者的好坏并做出接受或拒绝贷款申请的决策。

金融违约风险评估技术常常利用专家系统、统计模型、机器学习模型,机器学习在实际应用中已取得了较好的成果,其中利用较多的技术是逻辑回归、支持向量机、xgboost、神经网络等模型,为了提高预测模型的准确度,越来越复杂的模型开始采用,其中最多的是集成模型xgboost、随机森林和神经网络等,但是模型的复杂度提高后,相对于传统的单模型逻辑回归等,模型缺乏了可解释性,在实际应用中较难满足业务要求,而逻辑回归由于简单稳定并具有强逻辑解释性,在实际业务中是应用很广的技术。另一方面在构建模型数据集上存在一定问题,不能完全利用所有数据的信息,在构建机器学习信用评分模型时需要足够的有标签数据,数据越能体现所有样本的信息模型的准确度越高,而金融机构获得的数据往往是非随机缺失的非完备数据,即金融借贷机构拥有的是所有申请者的相关特征属性信息,以及通过申请用户的贷款记录和还款记录信息,但是拒绝贷款申请用户的信用还款记录是缺失,这部分还款记录是用来构建模型的最佳标签,这会导致实际建模时,由于缺乏拒绝申请者的标签而仅用接受申请者的样本进行模型构建,这种接受样本是经过一次筛选的会出现样本非随机偏差,在建模时导致参数估计的有偏,无法做出准确的判断,易造成金融借贷机构的经济损失。

综上所述,现有的金融违约风险评估技术存在样本偏差,进而影响评估的准确度,无法真正满足金融违约风险评估的要求,目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。



技术实现要素:

本发明针对现有技术中存在的上述不足,提供了一种基于拒绝推断的金融违约风险评估方法及系统。

本发明是通过以下技术方案实现的。

根据本发明的一个方面,提供了一种基于拒绝推断的金融违约风险评估方法,包括:

s1,获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;

s2,利用s1中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;

s3,利用s2中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据s1中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到s1中得到的训练数据集中;

s4,利用s3中得到的训练数据集训练风险评估模型;

利用训练完成的风险评估模型,对新申请者的违约概率进行计算,进而得到风险评估结果。

优选地,所述s1中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。

优选地,所述预处理包括:数据清洗、特征选择、特征编码、不平衡处理。

优选地,所述统计接受样本和拒绝样本的共有特征维度,包括:

选择接受样本和拒绝样本的共有特征;

对共有特征进行类别特征划分和数值特征划分;

对处理后的特征进行特征工程操作,得到共有特征维度。

优选地,所述s2中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。

优选地,所述s3中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将处理后的有标签接受样本和无标签拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。

优选地,所述s4中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为新用户的违约概率。

根据本发明的另一个方面,提供了一种基于拒绝推断的金融违约风险评估系统,包括:

样本处理模块,所述样本处理模块获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;

特征表示模块,所述特征表示模块利用样本处理模块中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;

拒绝推断模块,拒绝推断模块利用特征表示模块中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据样本处理模块中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到样本处理模块中得到的训练数据集中,对训练数据集进行更新;

风险评估模块,所述风险评估模块利用更新后的训练数据集训练风险评估模型,利用训练完成的风险评估模型,对新用户的金融违约风险进行评估。

优选地,所述样本处理模块中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。

优选地,所述预处理包括:数据清洗、特征选择、特征编码、不平衡处理、异常和缺失处理。

优选地,所述统计接受样本和拒绝样本的共有特征维度,包括:

选择接受样本和拒绝样本的共有特征;

对的共有特征进行类别特征划分和数值特征划分;

对处理后的特征进行特征工程操作,得到共有特征维度,该共有特征为两类样本都包含并可用于后续所有模型训练的特征,用于拒绝推断模型和风险评估模型的训练。

优选地,所述特征表示模块中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。

优选地,所述拒绝推断模块中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将有标签接受样本和无标签拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。

优选地,所述风险评估模块中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为新用户的违约概率。

根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案,本发明与现有技术相比,具有如下的有益效果:

本发明提供的基于拒绝推断的金融违约风险评估方法及系统,利用更多的数据信息,考虑到利用由于相关政策或标准被拒绝的申请者数据,来降低由于人为或其它判断造成样本选择偏差而导致的模型准确度偏差,挖掘出更多的数据,使模型能够利用到更多的信息,提高模型的准确度和泛化能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一优选实施例中基于拒绝推断的金融违约风险评估方法流程图。

图2为本发明一优选实施例中基于拒绝推断的金融违约风险评估系统模块关系示意图。

图3为本发明一优选实施例中样本处理模块的工作流程示意图。

图4为本发明一优选实施例中特征表示模块的工作流程示意图。

图5为本发明一优选实施例中拒绝推断模块的工作流程示意图。

图6为本发明一优选实施例中风险评估模块的工作流程示意图。

具体实施方式

下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

本发明一实施例提供了一种基于拒绝推断的金融违约风险评估方法,其中,拒绝推断是利用接受申请者样本已有的信用标签来推断拒绝申请者样本的标签,然后同时利用接受和拒绝样本构建模型,降低样本偏差对模型准确度的影响。本实施例提供的基于拒绝推断的金融违约风险评估方法,旨在同时利用接受和拒绝申请用户的信息来训练模型,增加样本的完备性,可以降低样本偏差对模型的影响,能更好地评估金融违约风险。

基于以上目的,本实施例提供的基于拒绝推断的金融违约风险评估方法,利用具有标签的接受样本推断拒绝样本的标签,并加入到最终构建金融违约风险评估模型的训练数据集中进行建模,并通过构建的风险评估模型对金融违约风险进行评估。

该方法包括以下步骤:

步骤s1,获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度,该共有特征为两类样本都拥有的特征,可以用于拒绝推断模型和风险评估模型的训练;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;

步骤s2,利用步骤s1中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;

步骤s3,利用步骤s2中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据s1中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到步骤s1中得到的训练数据集中;

步骤s4,利用步骤s3中得到的训练数据集训练风险评估模型;

利用步骤s4中训练完成的风险评估模型,对新申请者的违约概率进行计算,进而得到风险评估结果。

作为一优选实施例,s1中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。

作为一优选实施例,预处理包括:数据清洗、特征选择、特征编码、不平衡处理。

作为一优选实施例,统计接受样本和拒绝样本的共有特征维度,包括:

选择接受样本和拒绝样本的共有特征;

对共有特征进行类别特征划分和数值特征划分,用于选择不同的编码方式和距离度量方式,其中,数值特征可直接进行标准化后入模,距离度量方式为欧式距离;类别特征需要进行特征编码,转化为数值变量后入模,包括woe编码和独热编码,距离度量方式为汉明距离;

对处理后的特征进行特征工程操作,得到共有特征维度,该共有特征为两类样本都拥有且可用于后续所有模型训练的特征,用于拒绝推断模型和风险评估模型的训练。

进一步地,步骤s1完成了数据集的特征工程,包括接受申请者和拒绝申请者,形成接受样本和拒绝样本,其中需要进行特征选择,选择接受样本和拒绝样本的共有特征,然后划分类别特征和数值特征,并作出相应的缺失值和异常值处理、以及特征编码等特征工程操作,获得的特征用于拒绝推断模型和风险评估模型的训练。

作为一优选实施例,s2中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。

进一步地,步骤s2构建了样本的特征表示,该步骤旨在完成样本特征表示,利用多层感知器生成样本特征向量zi=fφ(xi),输入为步骤s1的特征xi,然后利用度量学习的原理,保证所产生的特征向量满足同标签样本的距离足够近,不同标签的样本距离足够远,这部分利用接受申请者的有标签数据,训练好特征表示模型后利用该模块产生所有样本的特征表示向量。具体实现方式为其中sk为同标签的样本,在训练过程中通过采样一定数量获取,|sk|为采样同标签样本的数量,然后预测概率为表示x为标签k(违约或非违约)的概率,d(fφ(x),k)表示欧式距离,目标函数为j(φ)=-logpφ(y=k|x),通过随机梯度下降来优化目标函数最小。

作为一优选实施例,s3中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将有标签的接受样本和无表签的拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。

进一步地,步骤s3利用得到特征表示模型以及输出的向量zi=fφ(xi),对接受样本和拒绝样本生成的向量做聚类算法,使用受约束的k均值聚类方法,约束条件是一个聚类仅出现同标签的样本以及未知标签的样本,得到聚类结果,根据该结果中的接受样本标签推断出拒绝样本的标签。将这些数据加入到只有接受样本的训练数据集中,构成了一个更完备的具有标签的训练数据集,

作为一优选实施例,s4中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为金融违约风险评估结果。

进一步地,步骤s4利用步骤s3中得到的拒绝样本的标签,利用这些数据构建逻辑回归信用评分模型,其中正样本为违约样本,负样本为非违约样本,模型输出的是申请者的违约概率。

利用步骤s4中输出的违约概率,转化为申请者的信用模型分数,然后根据金融机构的具体政策来划分申请者的好和坏,对用户做出是否接受申请的决定。

下面结合附图对本发明上述实施例所提供的技术方案进一步详细描述如下。

如图1所示,本实施例提供的基于拒绝推断的金融违约风险评估方法,包括如下步骤:

步骤s1:完成样本处理,包括特征选择、缺失值处理、异常值处理、特征编码,将样本分为接受申请用户样本数据和拒绝申请用户样本数据,选择接受样本数据和拒绝样本数据的共有特征维度。根据接受申请用户的还款记录为样本给出是否违约的标签,形成初步的训练样本数据集。

步骤s2:利用接受样本中的数据学习特征表示模型,采取的是度量学习的方法,学习目标是保证经过特征表示模型输出的表示向量使同标签的样本距离足够近,不同标签的样本聚类足够远,采取的具体方法是使用多层感知器作为基本模型结构,输入的是经过预处理的特征向量,输出是经过特征表示后的向量,其中距离度量采用的是欧式距离,学习方式是随机采样m个同标签的样本,通过多层感知器特征表示模型后得到表示向量,然后计算m个向量的中心点,继续从所有样本分别采样n个同标签的样本和不同标签的样本,同样经过特征表示模型得到向量,学习目标函数是保证同标签的样本到中心点的距离更近,不同标签的样本到中心点的距离更远。由该步骤学习到特征表示模型,用该模型对所有样本进行编码,输出编码后的向量。

步骤s3:使用受约束的k均值方法进行聚类,输入样本包含了有标签的接受样本和无标签的拒绝样本,距离度量同样为欧式距离,约束条件是保证在同一聚类中为同标签样本,得到聚类结果,聚类中包含了有标签样本和未知标签样本,同一类中未知标签的样本标签就是已知标签样本的标签,通过上述方法,我们完成了拒绝推断的操作,推断出拒绝申请者样本的标签,将得到的有标签拒绝样本加入到初步形成的训练数据集中,对训练数据集进行更新,形成一个完整的训练数据集。

步骤s4用更新后的训练数据集训练信用评分模型,使用逻辑回归算法构建模型,该模型在信用评分领域能够保证可解释性,首先对样本特征进行证据权重编码,然后完成模型的训练,输出预测金融违约风险评估概率结果,通过具体实施政策来确定划分风险用户的阈值得到新申请用户的好坏。

以上仅是本发明的部分实施方式,应当指出,对于本技术领域技术人员来说,在不脱离本发明原理的前提下,可根据实际需求进行若干改进和调整,这些改进和调整也应视为本发明的保护范围。

本发明另一实施例提供了一种基于拒绝推断的金融违约风险评估系统,如图2所示,包括:

样本处理模块,样本处理模块获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度,该共有特征为两类样本都包含并可用于后续所有模型的训练的特征;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;

特征表示模块,特征表示模块利用样本处理模块中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;

拒绝推断模块,拒绝推断模块利用特征表示模块中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据样本处理模块中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到样本处理模块中得到的训练数据集中,对训练数据集进行更新;

风险评估模块,风险评估模块利用更新后的训练数据集训练风险评估模型,利用训练完成的风险评估模型,对新用户的金融违约风险进行评估。

作为一优选实施例,样本处理模块中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。如图3所示。

作为一优选实施例,预处理包括:数据清洗、特征选择、特征编码、不平衡处理、异常和缺失处理。

作为一优选实施例,统计接受样本和拒绝样本的共有特征维度,包括:

选择接受样本和拒绝样本的共有特征;

对共有特征进行类别特征划分和数值特征划分,用于选择不同的编码方式和距离度量方式,其中,数值特征可直接进行标准化后入模,距离度量方式为欧式距离;类别特征需要进行特征编码,转化为数值变量后入模,包括woe编码和独热编码,距离度量方式为汉明距离;

对划分后的特征分别进行相应的缺失值和异常值处理;

对处理后的特征进行特征工程操作,得到共有特征维度,该共有特征为两类样本都包含并可用于后续所有模型的训练的特征,用于拒绝推断模型和风险评估模型的训练。

作为一优选实施例,特征表示模块中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。如图4所示。

作为一优选实施例,拒绝推断模块中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将有标签的接受样本和无标签的拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。如图5所示。

作为一优选实施例,风险评估模块中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为新用户的违约概率。如图6所示。

本发明第三个实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行本发明上述实施例中任一项所述的方法。

可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram),如静态随机存取存储器(英文:staticrandom-accessmemory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:doubledataratesynchronousdynamicrandomaccessmemory,缩写:ddrsdram)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项所述的方法。

金融违约风险评估是通过构建模型对贷款申请者的违约风险进行预测,金融机构以此判断申请者的好与坏,做出批准或拒绝申请贷款的决策。而在实际构建模型时,用到的数据往往是已批准申请的用户,这部分用户在金融借贷机构才会有相关信用还款记录,根据该记录可以将用户划分为违约和非违约样本来进行建模,而拒绝申请的用户金融机构不会对其进行放贷,进而不存在还款信息,也不能直接获取标签,这部分数据通常未被采用,所以用到的数据通常是非随机缺失的数据集,会造成一定的样本偏差,从而影响模型的精度。本发明上述实施例提供的基于拒绝推断的金融违约风险评估方法及系统,包括获取接受申请用户和拒绝申请用户的数据特征,利用接受申请用户的还款记录为其做出有无违约的标签进而形成有标签的接受样本,再利用接受样本学习样本特征表示方法,获得所有样本的特征表示,然后利用聚类模型推断出拒绝用户样本的标签,同时利用接受和拒绝申请用户的信息来训练模型,可以降低样本偏差对模型的影响,能更好地评估金融违约风险。

需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1