一种构建及验证信用评分方程的方法和系统设计与流程

文档序号:12722277阅读:156来源:国知局
一种构建及验证信用评分方程的方法和系统设计与流程

本发明涉及信用评分技术领域,尤其涉及一种构建及验证信用评分方程的方法和系统设计。



背景技术:

日常购买行为中被人们广泛使用。在50年代的美国,信用决策由银行信审员制定,通常由于信审员和申请人在一个地区居住并熟悉申请人,那么信审员基于对申请人的了解决定是否发放贷款。此法虽然有效却也非常有限,因为信审员的数目总是要比申请人的数目少很多。到了70年代,FICO分的出现极大助力了信贷的审批,有效地降低了信贷审批过程对信审员的依赖。但是,风控的功能仍然不完整。诸如银行和信用卡公司之类的贷款方使用信用分数来评估借钱给消费者后的潜在风险。为了决定谁将获得贷款,银行使用信用评分方程来衡量个人或实体的信用价值。传统的信用评分方程通常使用的变量数目较少,而且变量的转换也是人工完成。

传统信用分的方法包括三个步骤。首先,观察样本的每个变量(比如薪水,已贷的使用情况,还款历史等)。其次,系统通过离散化给每个变量赋值(比如用数字0到10来描述还款频率,0代表没有还款历史,1代表基本不经常还,10代表每次都按时还款)。最后,在所有变量都经过数值转化后,系统将使用一个既有的固定的公式,或者编写公式,或者一个机器学习算法来构建一个公式从而产生一组信用分数。

传统的变量转换方法在上世纪50和60年代得到了很大发展,当时计算能力和信息获取都是非常困难的。因此可想而知,传统的变量转换通常是非常简单,且仅局限于:1)易于填充数值的单个数值型变量;2)存在明显量化解释的非数值变量;3)取值种类非常少的字符型变量。

然而,传统的变量转换方法对于多组变量并不完全适用,特别是当数据存在部分或全部缺失的情况。对于无法被转换的变量更是完全不适用。

由于质量控制需要的原因,传统变量转换方法也受到能处理的数据量的限制。每一次的转换和填充都需要人工花相当多的时间来分析一个或多个字段以及谨慎决定如何填充数值。因此,能有效分析的字段的数量限制在了,在一定的时间段内单人能够理解的范围内。也正是因为这个原因,很少风险模型能使用超过数十个字段(例如,FICO分是基于5个基本的维度,包括还款历史,信用卡使用,信用历史,所用信用类别,近期信用搜索记录)。没有一个传统的变量转换方法能同时考虑数以百计(千记,万记,甚至百万级别的更少)的字段。而自动化的模型中增加这些变量,将使得评分结果能够模拟过去信审人员的准确率同时还能保持甚至增加信用审批量。

因此,提升和改进用来建立和验证信用评分模型的系统和方法也就变得日趋重要。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种构建及验证信用评分方程的方法和系统设计。

为了实现上述目的,本发明采用了如下技术方案:

一种构建及验证信用评分方程的方法和系统设计,中央计算机服务器与公共网络连接,中央计算机服务器有个基于一系列指令的计算机可用媒介,该指令由处理器执行,使处理器执行评估借款人信用风险的电子过程,包括如下流程:

1)通过公共网络从以下至少一个数据源搜索和收集借款人的数据集:借款人、私有数据、公共数据或社交网络数据源;

2)将数据集转换成一些与借款人信用风险相关的变量;

3)用统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量;

4)基于借款人多个变量和元变量计算目标信用风险得分。

优选的,从借款人处收集借款人数据可以通过公共网络进行现场采访或通过用户填写在线调查问卷完成。

优选的,从私有数据处收集借款人数据包括如下:

1)为私人提供借款人特定数据的子集的数据供应商;

2)从数据供应商处收集全部或部分借款人的相关数据存储到变量数据库中。

优选的,从公共数据处收集借款人数据包括如下:

1)进行字符串搜索、自动爬取或用项目或协议获取;

2)收集所有返回的结果并存储到变量数据库中。

优选的,社交网络数据中收集借款人数据包括如下:

1)在社交网络上搜索借款人发布的数据;

2)在社交网络上搜索借款人相关的数据,由社交媒介服务器编译;

3)在社交网络上搜索借款人社交网络上部分或全部成员的社交图谱信息,从而借款人档案和社交网络数据之间有一度或多度的分离;

4)收集所有返回的结果存储到变量数据库中。

优选的,数据集转换成多个变量可以通过将收集到的数据转换成标准日期格式、标准时间格式、范围、百分等级、经纬度等来完成。

优选的,统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量,过程包括如下:

1)把借款人每一个变量的数据与借款人档案中其它变量的数据比较;

2)把借款人每一个变量的数据与其他和借款人有相似特征、相似处境的人群的平均期望比较;

3)比较借款人在准备申请贷款期间的行为。

优选的,提到的计算机系统,其中产生一些变量,包括如下:

1)通过使用风险分离技术或复杂统计技术找出预测子集,从而分析数据,找出至少有一个共同特征的申请人类别;

2)使用线性回归或回归树将类别成员从不能可靠产生相关信号的非类别成员中区分出来;

3)选择出衡量某特定类别不同方面的元变量。

优选的,基于借款人多个变量和元变量计算目标信用风险得分,过程包括如下:

1)将元变量引入到统计或金融模型中,每个模型得出不同的预测结果;

2)使用简单的算术、机器学习或统计算法来集成每个模型归一化后的分数,得到一个综合分数。

与现有技术相比,本发明的有益效果是:本发明主要提供了用于建立和验证基于信贷目标的信审系统与方法。一种有效地建立和验证信审功能的方法是在第一台电脑上对每个新借款人的基础数据都产生一个数据集(原始数据);把这些数据集都标准化为一系列变量(转化数据);使用各种算法(统计、量化金融、机器学习等算法)独立处理众多变量中的每个变量从而产生描述借款人一些特定方面(元变量)的一系列独立决策集。如下所述,比较推荐的做法是进一步在各类预测算法中加入相应的元变量,不同算法代表不同角度的预测能力。然后,每一个模型以各自的信心(confidence)来“投票”,并被融合到最终分数里。

附图说明

图1是“信息缺失型”借款人提供信用的系统方框图;

图2是本发明所推荐的建立和验证信用评估方程的系统框图;

图3是是用来描述在建立和验证信用评估方程过程中模型集成评分的流程图;

图4是用来描述基于选定目标建立和验证评分方程的方法的流程图;

图5是用来描述建立和验证信用评估方程的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

一种构建及验证信用评分方程的方法和系统设计,中央计算机服务器与公共网络连接,中央计算机服务器有个基于一系列指令的计算机可用媒介,该指令由处理器执行,使处理器执行评估借款人信用风险的电子过程,包括如下流程:

1)通过公共网络从以下至少一个数据源搜索和收集借款人的数据集:借款人、私有数据、公共数据或社交网络数据源;

2)将数据集转换成一些与借款人信用风险相关的变量;

3)用统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量;

4)基于借款人多个变量和元变量计算目标信用风险得分。

从借款人处收集借款人数据可以通过公共网络进行现场采访或通过用户填写在线调查问卷完成。

从私有数据处收集借款人数据包括如下:

1)为私人提供借款人特定数据的子集的数据供应商;

2)从数据供应商处收集全部或部分借款人的相关数据存储到变量数据库中。

从公共数据处收集借款人数据包括如下:

1)进行字符串搜索、自动爬取或用项目或协议获取;

2)收集所有返回的结果并存储到变量数据库中。

社交网络数据中收集借款人数据包括如下:

1)在社交网络上搜索借款人发布的数据;

2)在社交网络上搜索借款人相关的数据,由社交媒介服务器编译;

3)在社交网络上搜索借款人社交网络上部分或全部成员的社交图谱信息,从而借款人档案和社交网络数据之间有一度或多度的分离;

4)收集所有返回的结果存储到变量数据库中。

数据集转换成多个变量可以通过将收集到的数据转换成标准日期格式、标准时间格式、范围、百分等级、经纬度等来完成。

统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量,过程包括如下:

1)把借款人每一个变量的数据与借款人档案中其它变量的数据比较;

2)把借款人每一个变量的数据与其他和借款人有相似特征、相似处境的人群的平均期望比较;

3)比较借款人在准备申请贷款期间的行为。

提到的计算机系统,其中产生一些变量,包括如下:

1)通过使用风险分离技术或复杂统计技术找出预测子集,从而分析数据,找出至少有一个共同特征的申请人类别;

2)使用线性回归或回归树将类别成员从不能可靠产生相关信号的非类别成员中区分出来;

3)选择出衡量某特定类别不同方面的元变量。

基于借款人多个变量和元变量计算目标信用风险得分,过程包括如下:

1)将元变量引入到统计或金融模型中,每个模型得出不同的预测结果;

2)使用简单的算术、机器学习或统计算法来集成每个模型归一化后的分数,得到一个综合分数。

一个优选的用于建立和验证与优选示例配套的信用评估的操作环境一般包括:一个借款人使用端(12),一个个人使用端(30),一个中心电脑(20),一个网络(40),一个或多个数据源包括比如借款人数据(13),私有数据(14),公开数据(16)和社交网络数据(18)。优选的系统(10)包括至少一个中心电脑(20),和/或一个个人使用端(30),能够单独或与其他部分一起为借款人基于新颖的非传统的衡量基准来提供贷款的渠道。特别需要指出的是,此优选的系统(10)能够通过获取,评估,衡量,量化和使用接下来描述的基于新型风险评估的办法和在Merrill的专利申请里面出现的系统和方法来判定借款人的信用程度,特别是包括那些信用不佳的借款人。

更具体的来说,本发明和用于建立和验证一种信用评估的优选方法相关。在所有的原始数据被临时搜集或从借款人使用端(12),中心电脑(20),个人使用端(30),和/或诸如借款人数据(13),私有数据(14),公开数据(16)和社交网络数据(18)的一个或多个数据源下载后,通过一个中心电脑(20)和一个个人使用端(30)来完成信用评估。

使用所介绍的方法生成元变量,元变量的一个目的是用于衡量信用,然而这不是元变量唯一的作用。例如,它还可以用于信用评估方程构建的中间阶段。设计中间元变量的三个主要原因在于,首先,选择定义信用评估方程的参数所需的投入要比参数数量本身所需耗费的资源增长更快。例如对于一个回归模型来说,选择n个参数所需时间通常是n的立方。这就意味着如果有几百个参数需要直接估计的话,所需的计算时间基本是不可能实现的。相比之下,如果这几百个参数所包含的信息可以被小集合的元变量来覆盖的话,那么所需的计算时间能被大大降低。其次,需要估计的参数越少,最终的评分模型的性能通常也就越稳定和可靠。优化系统的参数越多,自由度越大,参数选择过程所需的信息也就越多。使用元变量可以降低模型所依赖的参数的数量。第三,元变量是可以重复使用的。如果一个元变量为一个信用评分系统提供了有用信息,那么它很可能也会为其他的信用评分系统提供有用信息,即便这些其他的信用评分系统所评估的风险和元变量原本所描述的风险不是非常相关。

元变量也可以用于对借款人进行“真实性检验”。例如,前文中提到的B先生,由于他所报告的收入比他同地区同行业的人要高出50%,所以他基本不会通过这个真实性检验。类似的,A女士在“是否为小心的客户”测试上得分为2,而2分通常被认为是信用较好的。B先生在同一测试上的得分则是0–一个信用较差的信号。最后,A女士通常会在“个人稳定性”指标上得分较高,基于其过去住址和电话都变换较少,而B先生在此项上会得分较低。

除此之外,针对元变量的统计分析对于哪些“信号”值得分析,每个信号的权重应该是多少有指导意义。例如,住址的连续可以认为是一个“正向”的信号,而地址的多样性可能不会有任何指向性。本发明的优选实施例对于这种决策也有类似的指导意义。事实上,构建元变量可能不会是一个全自动的过程,而是一个启发式的过程。

元变量的目的是产生一个实数分使得不同类的成员可以区分开来。这点通常是由一个基本的机器学习过程实现的,它将一个或多个相对简单的可以区分群类的表达式组合起来。表达式可以是利用少量被测信号(可能包括已知的元变量)构建的线性回归方程或分类器或回归树。使元变量区别于一个真实的打分方程的关键特征是(1)简单性和稳定性比准确性重要,元变量本身不需要总是正确的,但是即使环境改变,元变量也必须是可以依赖的可靠信号(2)其目标是提供部分打分问题的相关信号而不是直接给出最终值。

单一种类的申请文件或申请人可以容易地推出几个描述该类不同方面的元变量。类似的,一份申请文件可以充当多个类别的例子。事实上通过这种方式,申请文件提供了关于元变量该如何组合到最终的打分方程中去的思路。

引入元变量到统计,金融以及其他基于不同预测“技能”的算法中(模型160)。举例说明,一个预测还钱的模型可以容易地添加简单的元变量,比如所申请的“贷款值”与“当前收入”之间的比例,或者采取复杂算法的形式,比如借款人的社会或金融波动指数。举例来说,可以使用传统的机器学习技术,如回归模型,分类树,神经网络,或支持向量机等各种复杂的算法,并基于过去的表现数据分别建立评分系统用于量化总风险。

最后,每一个模型投票出它们各自的重要性,然后融合到最后的分数中(评分180)。有很多机器学习或统计算法可以用来整合分数,为了清楚描述,我们举一个简单的例子说明。每个模型提供的分数可以转换成百分制,这些分数的中位数可以被计算出来。比如,我们使用一组模型,模型1是基于分类树的随机森林算法,模型2基于逻辑回归算法,模型3是基于后向传播的神经网络算法,我们可以用平均法来组合它们的分数。然而实际上不同的模型会返回不同范围的值,因此最好在平均前归一化所得的分数。

为了清楚解释,举个例子如下:从原始数据取样出一个虚构的借款人A女士(信用预期较好),和另一个同是虚构的借款人B先生(被拒的申请人)。两人都住和工作在同一地方,具体信息如下:

假设对于A女士,模型1返回0.76,模型2返回0.023,模型3返回0.95。再假设把这三个值归一化后分别变为83/100,95/100,和80/100。这样A女士的合成分就是这些值的平均值86/100。为了对比说明,假设对于B先生,模型1返回0.50,模型2返回0.006,模型3返回0.80,归一化后分别变为55/100,48/100。62/100。在这种情况下,B先生的最后分数为55/100,也就是三个分数的平均值。如果决定是否借款的标准是分数至少80分以上,那么A女士将会获得贷款而B先生将会被拒绝。

在首选方法中,元变量描述买方的某些方面,引入到不同的模型中,最后合成出一个分数用来进行最后的信用决策。下面这些话题将会被更详细地描述:首选方法是如何检查出哪些转换的大类是可获得的,如何选择出那些有用的大类,如何列举出解决信息洪流的计算策略,在可能需要大量计算的情况下如何找出实际可用的目标。基于输入和目标的风险评估方程的训练和验证过程遵循:

详细方法:

建立和验证信用评分模型的首选方法包括以下几步:(a)识别显著转换200(b)为评分模型选择合适的目标(c)基于所选目标建立和验证评分模型400。

对于识别显著转换200,首选模型先引入原始数据到以下的转换过程:(a)连续变换的自动搜索(b)直接的泛函变换(c)复杂的泛函变换,可能会生成新转换的变量和/或新的元变量。具体转换方法参考专利构建及验证信用评分方程过程中的元变量设计方法中的详细描述。

一旦识别显著的变量转换200,元变量集140按专利所描述的方法生成出来,它们就会进入到为风险评分方程300选择合适目标的过程中。实现这一选择过程的首选方法通常是机器学习算法,通过逻辑回归、多项式回归或其它普遍稳健的优化机制来选择一个或多个元变量作为“更好“或”最好“的风险预测自变量。传统而言,模型的目标是违约率,因此可以基于以前的违约比例预测未来贷款违约的概率。然而,基于现代计算机强大的计算能力,新的模型自变量在衡量借款人风险时可能更为合适。比如,我们想尝试预测从逾期日到后来补上钱的日期的间隔。然而,模型生成的结果是没有阈值的而且可能表现地很病态。但是通过在待优化的目标函数中加入平滑和正则项,分数拟合就会比较合理,获得的风险模型可靠也适用于新的贷款。

一旦预测风险的目标模型选定(比如图3中的模型160),最后一步就是决定评分方程的哪一部分需要优化以及如何优化(如图4所示,基于选定目标建立和验证评分方程的方法400)。

如图5所示,建立和验证评分方程400的首选方法包括训练一个评分方程420和特征选择440两个过程。

基于上千个过去的贷款,它们的还款结果和一系列上述特征,可以通过简单的线性回归和任何转换生成的数值型自变量来预测输出。然后可以用标准的统计步骤分析模型结果从而找到一个又准确又稳定的子模型。这个模型可以被用到新贷款上,用来决定是否发放贷款。

训练评分方程420的首选方法是采用统计或机器学习算法。这些算法通常会遇到泛化的问题:在训练数据上拟合越好的评分模型,在新的测试数据上的预测能力越差。然而也存在很多解决“泛化”问题的方法,其中三种首选方法是:(a)惩罚项:通过对评分函数不稳定性的惩罚,结果迫使所选择模型在非训练集上更稳定。(b)集成:通过求均值集成几个更简单的评分方程来获得一个评分方程。其结果在灵活性和预测性之间有更好的平衡取舍。(c)保留测试集:预留一部分样例数据作为测试数据,并只用于评分方程的评估。我们可以通过模型在测试集上的表现预估其在新数据上的表现。还可以通过一些巧妙的技巧解决泛化问题,比如交叉验证、boosted aggregation(bagging)和类似的方法,从而更充分的使用已有的数据。

比如,如果有上千个过去的贷款数据,可以将这些数据全部用于模型训练,并且将这个模型当做未来的打分方程使用。或者可以将全部的数据分为几个部分,然后只取一部分进行训练,剩下的数据部分或全部用来评估模型的表现,从而预测模型在新申请人上的表现。通过选择性的保留或删除信号来调整打分方程,从而最大化其泛化能力。

第二个挑战源于如何从转换数据和元变量140中选取用于评分方程420的变量(也称为特征选择440问题)。在众多方法中有两个非互斥的首选方法:(a)逐一衡量特征信息法(b)两级优化法。

逐一衡量特征信息法包括将一个或多个快速但粗略的训练算法(比如随机森林)应用于大量的变量。此后,首选方法对得到的打分方程使用类似于ANOVA的方法来提取提供信息量最多的变量,然后限制最终打分方程仅使用这些最重要的变量。

两级优化法包括上述所列的离散搜索方法或Holland的遗传算法。这些算法能同时进行模型训练和特征选择过程。比如,遗传算法使用染色体代表特征集,然后不断进化这些特征集直到其在预留的测试集上表现出比较好的泛化性能。因此,最终结果允许出现任意复杂的特征同时控制变化性。

上述为建立和验证评分方程400所介绍的所有首选方法都需要强大的处理能力。为了减少处理时间,这些方法可以分解成几层并行的相互独立的计算任务。比如,在遗传算法的特征选择过程中,几个模型各自的打分就是相互独立的,因此可以高效地在多台机器同时进行。类似的,选择出的结果也可以在另外一台电脑上集合从而得到下一代模型。

上述介绍的所有过程和方法都可以在现存或以后的电脑设备中运行。比如,通过电脑可读媒介(如电脑内存、电脑存储设备或载波信号)上存储的电脑可读实例在设备上运行。

中心电脑20”一般指一台或多台配置用于接收,变换,配置,分析,合成,通讯,和/或处理和借款人相关的数据的子模块或机器,比如一个标准化处理单元(40),一个变量处理的节点单位(50),一个集成模块(60),一个模型处理节点(70),一个数据的编译器(80),和一个通讯的中心(90)。任何之后的子模块或机器可以选择被集成进一个独立工作的单位,或者通过网络或云资源被分散到多个硬件单位里。除此之外,中心电脑可以被配置与个人使用端,借款人使用端,一个或多个系统10的部件进行部分或全部数据的接受,交互。此部分在Merrill的专利申请里面有详细描述。

在本文中,”私有数据14”一般指通过向私有或公有数据拥有者购买得到的数据,包括但不限于各种数据源,数据库,数据文件。一个例子是由信用评估机构在信用查询阶段产生的数据。另外一个例子是基于公开的数据,经过时间或不同来源的聚集而形成的新数据。

在本文中,”公开数据16”一般指可以免费或微小代价通过搜索引擎,自动爬取或scrapes得到的数据。一个公开数据的例子是通过在网络上搜索借款人的名字而得到的数据。

在本文中,”社交网络数据18”一般指在社交网络空间里任何关于借款人的数据,或博客,发帖,微博,连接,好友,“喜欢”的点击,好友圈,追随者,追随的人和社交图谱等。除此之外,社交数据还包括任何借款人在社交网络中任何或所有成员的社交图谱信息。通常来讲社交数据可以通过直接或间接从公开的社交网络空间以免费或非常小的代价获取到。

在本文中,”借款人数据13”一般指借款人在申请贷款时填写在申请表上,或通过借款人的使用端,个人使用端或者中心电脑的信息。一个例子是借款人的身份证号码,驾照号码,生日,或贷款人要求的其他信息。

在本文中,”网络40”一般指全球互联网,宽网,广域网,局域网和/或近场网络,网络软件,硬件,固件,路由器,调制解调器,网线,收发器,天线等任意的组合。系统10的部分或全部组件能够通过有线或无线的方式登录网络,和使用任何合适的通信协议,层级,地址,媒体类型,应用编程交互,和/或通讯的软硬件支持。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1