一种构建及验证信用评分方程过程中的元变量设计方法与流程

文档序号:12674366阅读:162来源:国知局
一种构建及验证信用评分方程过程中的元变量设计方法与流程

本发明涉及信用评分技术领域,尤其涉及一种构建及验证信用评分方程过程中的元变量设计方法。



背景技术:

日常购买行为中被人们广泛使用。在50年代的美国,信用决策由银行信审员制定,通常由于信审员和申请人在一个地区居住并熟悉申请人,那么信审员基于对申请人的了解决定是否发放贷款。此法虽然有效却也非常有限,因为信审员的数目总是要比申请人的数目少很多。到了70年代,FICO分的出现极大助力了信贷的审批,有效地降低了信贷审批过程对信审员的依赖。但是,风控的功能仍然不完整。诸如银行和信用卡公司之类的贷款方使用信用分数来评估借钱给消费者后的潜在风险。为了决定谁将获得贷款,银行使用信用评分方程来衡量个人或实体的信用价值。传统的信用评分方程通常使用的变量数目较少,而且变量的转换也是人工完成。

传统信用分的方法包括三个步骤。首先,观察样本的每个变量(比如薪水,已贷的使用情况,还款历史等)。其次,系统通过离散化给每个变量赋值(比如用数字0到10来描述还款频率,0代表没有还款历史,1代表基本不经常还,10代表每次都按时还款)。最后,在所有变量都经过数值转化后,系统将使用一个既有的固定的公式,或者编写公式,或者一个机器学习算法来构建一个公式从而产生一组信用分数。

传统的变量转换方法在上世纪50和60年代得到了很大发展,当时计算能力和信息获取都是非常困难的。因此可想而知,传统的变量转换通常是非常简单,且仅局限于:1)易于填充数值的单个数值型变量;2)存在明显量化解释的非数值变量;3)取值种类非常少的字符型变量。例如,这些传统的变换方式对于以下的变量相对管用:薪水(数值型变量),日期和时间(可转化为儒略日),地址(可按经纬度来考虑),甚至还款频率(以月付,半月付,周付,两周付的频率模式等)。甚至可以计算字段之间易于发现的关联,比如两个日期之间的间隔,或两个地点之间的距离。

然而,传统的变量转换方法对于多组变量并不完全适用,特别是当数据存在部分或全部缺失的情况。对于无法被转换的变量更是完全不适用。例如,“Folsom State Prison”的地址记录可能被写成“P.O.Box 910,Represa,Calif.95673”或者“300Prison Road,Represa,Calif.95671”,但是两个地址写法其实是同一个地址。假设一位贷款人的申请文件上两个地址都列了,那么传统的信用打分公式可能错误地认为此申请人有对应2个不同地址的2份工作,其职业看上去比较不稳定,从而决定降低此人的信用分。

除此之外,传统的变量转换方法一般只能用于修正字符型变量(比如地址)中的拼写或大小写错误。因为文化知识和理解上的局限性,相对先进的转换也只是靠人工识别而非机器学习算法来完成。例如,一个人工分析员在分析“P.O.Box 910,Represa,Calif.95673”和“Post Office Box 910,Represa,Calif 95671”这两个地址的时候无法理解它们其实是同一个地方。一个通常的解决办法是请人来将地址按照USPS的标准规范化。但是,在规范化的过程中,一些非常有用的诸如申请人是否使用了大写和小写或只有小写的信息可能会丢失。

由于质量控制需要的原因,传统变量转换方法也受到能处理的数据量的限制。每一次的转换和填充都需要人工花相当多的时间来分析一个或多个字段以及谨慎决定如何填充数值。因此,能有效分析的字段的数量限制在了,在一定的时间段内单人能够理解的范围内。也正是因为这个原因,很少风险模型能使用超过数十个字段(例如,FICO分是基于5个基本的维度,包括还款历史,信用卡使用,信用历史,所用信用类别,近期信用搜索记录)。没有一个传统的变量转换方法能同时考虑数以百计(千记,万记,甚至百万级别的更少)的字段。而自动化的模型中增加这些变量,将使得评分结果能够模拟过去信审人员的准确率同时还能保持甚至增加信用审批量。

因此,提升和改进用来建立和验证信用评分模型的变量转换方法也就变得日趋重要。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种构建及验证信用评分方程过程中的元变量设计方法。

为了实现上述目的,本发明采用了如下技术方案:

一种构建及验证信用评分方程过程中的元变量设计方法,其特征在于:中央计算机服务器与公共网络连接,中央计算机服务器有个基于一系列指令的计算机可用媒介,该指令由处理器执行,包括如下:

1)通过公共网络从以下至少一个数据源搜索和收集借款人的数据集:借款人、私有数据、公共数据或社交网络数据源;

2)将数据集转换成一些与借款人信用风险相关的变量;

3)用统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量。

优选的,从借款人处收集借款人数据可以通过公共网络进行现场采访或通过用户填写在线调查问卷完成。

优选的,从私有数据处收集借款人数据,包括如下:

1)为私人提供借款人特定数据的子集的数据供应商;

2)从数据供应商处收集全部或部分借款人的相关数据存储到变量数据库中。

优选的,从公共数据处收集借款人数据,包括如下:

1)进行字符串搜索、自动爬取或用项目或协议获取;

2)收集所有返回的结果并存储到变量数据库中。

优选的,从社交网络数据中收集借款人数据,包括如下:

1)在社交网络上搜索借款人发布的数据;

2)在社交网络上搜索借款人相关的数据,由社交媒介服务器编译;

3)在社交网络上搜索借款人社交网络上部分或全部成员的社交图谱信息,从而借款人档案和社交网络数据之间有一度或多度的分离;

4)收集所有返回的结果存储到变量数据库中。

优选的,将数据集转换成多个变量,通过将收集到的数据转换成标准日期格式、标准时间格式、范围、百分等级、经纬度等来完成。

优选的,用统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量,包括如下:

1)把借款人每一个变量的数据与借款人档案中其它变量的数据比较;

2)把借款人每一个变量的数据与其他和借款人有相似特征、相似处境的人群的平均期望比较;

3)比较借款人在准备申请贷款期间的行为。

优选的,产生元变量过程,包括如下:

1)通过使用风险分离技术或复杂统计技术找出预测子集,从而分析数据,找出至少有一个共同特征的申请人类别;

2)使用线性回归或回归树将类别成员从不能可靠产生相关信号的非类别成员中区分出来;

3)选择出衡量某特定类别不同方面的元变量。

与现有技术相比,本发明的有益效果是:本发明主要提供了用来建立和验证信用评分模型的变量转换方法,有效地变量转换方法是在第一台电脑上对每个新借款人的基础数据都产生一个数据集(原始数据),把这些数据集都标准化为一系列变量(转化数据)。

附图说明

图1是“信息缺失型”借款人提供信用的系统方框图中关于变量转换的流程;

图2是本发明所推荐的建立和验证信用评估方程的系统框图;

图3是用来描述在建立和验证信用评估过程中处理原始数据100的方法流程图;

图4是用来描述识别显著的变量转换方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1

一种构建及验证信用评分方程过程中的元变量设计方法,其特征在于:中央计算机服务器与公共网络连接,中央计算机服务器有个基于一系列指令的计算机可用媒介,该指令由处理器执行,包括如下:

1)通过公共网络从以下至少一个数据源搜索和收集借款人的数据集:借款人、私有数据、公共数据或社交网络数据源;

2)将数据集转换成一些与借款人信用风险相关的变量;

3)用统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量。

从借款人处收集借款人数据可以通过公共网络进行现场采访或通过用户填写在线调查问卷完成。

从私有数据处收集借款人数据,包括如下:

1)为私人提供借款人特定数据的子集的数据供应商;

2)从数据供应商处收集全部或部分借款人的相关数据存储到变量数据库中。

从公共数据处收集借款人数据,包括如下:

1)进行字符串搜索、自动爬取或用项目或协议获取;

2)收集所有返回的结果并存储到变量数据库中。

从社交网络数据中收集借款人数据,包括如下:

1)在社交网络上搜索借款人发布的数据;

2)在社交网络上搜索借款人相关的数据,由社交媒介服务器编译;

3)在社交网络上搜索借款人社交网络上部分或全部成员的社交图谱信息,从而借款人档案和社交网络数据之间有一度或多度的分离;

4)收集所有返回的结果存储到变量数据库中。

将数据集转换成多个变量,通过将收集到的数据转换成标准日期格式、标准时间格式、范围、百分等级、经纬度等来完成。

用统计或机器学习的方法独立处理每一个变量来产生描述借款人特定方面的元变量,包括如下:

1)把借款人每一个变量的数据与借款人档案中其它变量的数据比较;

2)把借款人每一个变量的数据与其他和借款人有相似特征、相似处境的人群的平均期望比较;

3)比较借款人在准备申请贷款期间的行为。

产生元变量过程,包括如下:

1)通过使用风险分离技术或复杂统计技术找出预测子集,从而分析数据,找出至少有一个共同特征的申请人类别;

2)使用线性回归或回归树将类别成员从不能可靠产生相关信号的非类别成员中区分出来;

3)选择出衡量某特定类别不同方面的元变量。

借款人使用端”一般指台式电脑,笔记本电脑,平板电脑,移动端如智能手机或者个人数字化助理,智能电视,游戏手柄,视频播放器,或任何其他带有网络浏览器或可设置与中心电脑/个人使用端进行数据交互的自成应用的网络装置,与/或一个或多个在系统10里面的组成部分。

在本文中,”个人使用端”一般指台式电脑,笔记本电脑,平板电脑,移动端如智能手机或者个人数字化助理,智能电视,游戏手柄,视频播放器,或任何其他带有网络浏览器或可设置与中心电脑/借款人使用端进行数据交互的自成应用的网络装置,与/或一个或多个在系统10里面的组成部分。

在本文中,”中心电脑”一般指一台或多台配置用于接收,变换,配置,分析,合成,通讯,和/或处理和借款人相关的数据的子模块或机器,比如一个标准化处理单元(40),一个变量处理的节点单位(50),和一个通讯的中心(90)。任何之后的子模块或机器可以选择被集成进一个独立工作的单位,或者通过网络或云资源被分散到多个硬件单位里。除此之外,中心电脑可以被配置与个人使用端,借款人使用端,一个或多个系统10的部件进行部分或全部数据的接受,交互。此部分在Merrill的专利申请里面有详细描述。

在本文中,”私有数据”一般指通过向私有或公有数据拥有者购买得到的数据,包括但不限于各种数据源,数据库,数据文件。一个例子是由信用评估机构在信用查询阶段产生的数据。另外一个例子是基于公开的数据,经过时间或不同来源的聚集而形成的新数据。

在本文中,”公开数据”一般指可以免费或微小代价通过搜索引擎,自动爬取或scrapes得到的数据。一个公开数据的例子是通过在网络上搜索借款人的名字而得到的数据。

在本文中,”社交网络数据”一般指在社交网络空间里任何关于借款人的数据,或博客,发帖,微博,连接,好友,“喜欢”的点击,好友圈,追随者,追随的人和社交图谱等。除此之外,社交数据还包括任何借款人在社交网络中任何或所有成员的社交图谱信息。通常来讲社交数据可以通过直接或间接从公开的社交网络空间以免费或非常小的代价获取到。

在本文中,”借款人数据”一般指借款人在申请贷款时填写在申请表上,或通过借款人的使用端,个人使用端或者中心电脑的信息。一个例子是借款人的身份证号码,驾照号码,生日,或贷款人要求的其他信息。

在本文中,”原始数据”一般指借款人数据,私有数据,公开数据和社交网络数据的单一集合或任意的组合。原始数据通常是和借款人相关的生平,金融和/或社交数据的累积,存储,维护和使用相关。

在本文中,”网络”一般指全球互联网,宽网,广域网,局域网和/或近场网络,网络软件,硬件,固件,路由器,调制解调器,网线,收发器,天线等任意的组合。系统10的部分或全部组件能够通过有线或无线的方式登录网络,和使用任何合适的通信协议,层级,地址,媒体类型,应用编程交互,和/或通讯的软硬件支持。

一个优选的用于建立和验证与优选示例配套的信用评估的操作环境一般包括:一个借款人使用端(12),一个个人使用端(30),一个中心电脑(20),一个网络(40),一个或多个数据源包括比如借款人数据(13),私有数据(14),公开数据(16)和社交网络数据(18)。优选的系统(10)包括至少一个中心电脑(20),和/或一个个人使用端(30),能够单独或与其他部分一起为借款人基于新颖的非传统的衡量基准来提供贷款的渠道。特别需要指出的是,此优选的系统(10)能够通过获取,评估,衡量,量化和使用接下来描述的基于新型风险评估的办法和在Merrill的专利申请里面出现的系统和方法(见附录)来判定借款人的信用程度,特别是包括那些信用不佳的借款人。

更具体的来说,本发明和用于建立和验证一种信用评估的优选方法相关。在所有的原始数据被临时搜集或从借款人使用端(12),中心电脑(20),个人使用端(30),和/或诸如借款人数据(13),私有数据(14),公开数据(16)和社交网络数据(18)的一个或多个数据源下载后,通过一个中心电脑(20)和一个个人使用端(30)来完成信用评估。

建立和验证信用评估过程中处理原始数据100的方法流程图。

第一步,通过借款人的借款人数据(13),私有数据(14),公开数据(16)和社交网络数据(18)其中一个或多个产生原始数据100。例如,原始数据100可能包括借款人的传统的金融数据如FICO分数,收入,最近工作的年限,破产的数目等。除此之外,原始数据100还可能包括借款人的其他的特质,比如互联网域名的数目,借款人曾经或现在加入的组织的数目,借款人曾卷入的法律诉讼的数目,借款人的朋友的数量,借款人的基于兴趣的心理特质,和其他关于申请人的身份及历史的非传统的特征。其他一些例子还包括:

一个用于比对的例子(下同)如下:从原始数据100取样出一个虚构的借款人A女士(信用预期较好),和另一个同是虚构的借款人B先生(被拒的申请人)。两人都住和工作在同一地方,具体信息如下:

第二步,原始数据经过多种变换成为最有用的数据形式120。比如”当前收入”变量可以直接使用,或转换到级别/层级上(0=没有收入;1=$1-$5000;2=$5001-$20000,等),或转换为在和申请人住地的收入水平比对后产生的预计收入的百分位。地址变量可以被转换为(经度,纬度),这样可以通过计算球面距离判别两个地址实质上为同一个地方的可能性。如果申请是通过网页提交的,那么通过网页浏览留下的行为记录,比如申请人浏览过的网页数目,申请人在申请页面停留的时间都能被用在对其信用的评估上。

因此,一台电脑(如图2中的中心电脑20)应该能够使用一个或多个算法(统计,金融,机器学习等)独立地处理每一个变量来产生用于描述借款人特征的独立决策集(元变量140)。假设原始数据里有40个字段,那么通过任意两个离散变量的组合就可以产生40*40=1600个组合,40*40*40=64000个基于任意三个离散变量的组合,以及40*40*40*40=2560000个基于任意四个离散变量的组合……由此可见,如果原始数据有120个字段的话,那么有可能的组合将会是几何级数的增长。

借款人的“当前收入”可以和同一地区在同行业就业人群的平均收入比较。类似的,如果A申请人在申请过程中的行为记录显示其在申请中非常小心谨慎,而申请人B的记录显示其在申请过程中非常随意和无所谓。这种情况下我们可以生成一个取值范围是0-2的排序变量,0代表非常随意,而2代表非常谨慎。那么A在此变量上的赋值倾向于更高,例如2,而B的得分倾向于更低,例如会趋近于0。

元变量的一个目的是用于衡量信用,然而这不是元变量唯一的作用。例如,它还可以用于信用评估方程构建的中间阶段。设计中间元变量的三个主要原因在于,首先,选择定义信用评估方程的参数所需的投入要比参数数量本身所需耗费的资源增长更快。例如对于一个回归模型来说,选择n个参数所需时间通常是n的立方。这就意味着如果有几百个参数需要直接估计的话,所需的计算时间基本是不可能实现的。相比之下,如果这几百个参数所包含的信息可以被小集合的元变量来覆盖的话,那么所需的计算时间能被大大降低。其次,需要估计的参数越少,最终的评分模型的性能通常也就越稳定和可靠。优化系统的参数越多,自由度越大,参数选择过程所需的信息也就越多。使用元变量可以降低模型所依赖的参数的数量。第三,元变量是可以重复使用的。如果一个元变量为一个信用评分系统提供了有用信息,那么它很可能也会为其他的信用评分系统提供有用信息,即便这些其他的信用评分系统所评估的风险和元变量原本所描述的风险不是非常相关。

元变量也可以用于对借款人进行“真实性检验”。例如,前文中提到的B先生,由于他所报告的收入比他同地区同行业的人要高出50%,所以他基本不会通过这个真实性检验。类似的,A女士在“是否为小心的客户”测试上得分为2,而2分通常被认为是信用较好的。B先生在同一测试上的得分则是0–一个信用较差的信号。最后,A女士通常会在“个人稳定性”指标上得分较高,基于其过去住址和电话都变换较少,而B先生在此项上会得分较低。

除此之外,针对元变量的统计分析对于哪些“信号”值得分析,每个信号的权重应该是多少有指导意义。例如,住址的连续可以认为是一个“正向”的信号,而地址的多样性可能不会有任何指向性。本发明的优选实施例对于这种决策也有类似的指导意义。事实上,构建元变量可能不会是一个全自动的过程,而是一个启发式的过程,需要专业技能。但是通常产生元变量的过程如下文概述。(本文件以贷款风险评估相关的元变量的产生为例子,但是此方法适用面很广)。首先,数据分析员鉴别出一类具有某些共同属性的贷款申请人,可能是贷款风险高于或低于平均值的申请人。之前假定的“个人稳定性“和”谨慎的申请人“的例子就能容易地被鉴别出来,数据分析员会注意到地址数量很少的人有相对较低的信用风险,而地址数很多的人有相对较高的信用风险。该类可以用很多方法鉴别出来,比如人工检查申请和结果、找出可以区别风险高低的特征、用复杂的统计方法-聚类分析来处理被已有打分过程错误预测的申请人,去找到具有预测能力的子集。

元变量的目的是产生一个实数分使得不同类的成员可以区分开来。这点通常是由一个基本的机器学习过程实现的,它将一个或多个相对简单的可以区分群类的表达式组合起来。表达式可以是利用少量被测信号(可能包括已知的元变量)构建的线性回归方程或分类器或回归树。使元变量区别于一个真实的打分方程的关键特征是(1)简单性和稳定性比准确性重要,元变量本身不需要总是正确的,但是即使环境改变,元变量也必须是可以依赖的可靠信号(2)其目标是提供部分打分问题的相关信号而不是直接给出最终值。

单一种类的申请文件或申请人可以容易地推出几个描述该类不同方面的元变量。类似的,一份申请文件可以充当多个类别的例子。事实上通过这种方式,申请文件提供了关于元变量该如何组合到最终的打分方程中去的思路。

在首选方法中,原始数据100中的数据被收集、清洗、转换成最有用的形式,组合成元变量描述买方的某些方面,下一步将引入到不同的模型中,最后合成出一个分数用来进行最后的信用决策。

详细方法:

为了识别显著转换,首选模型先引入原始数据100到以下的转换过程:(a)连续变换的自动搜索220(b)直接的泛函变换240(c)复杂的泛函变换260,可能会生成新转换的变量120和/或新的元变量140。

连续变换的自动搜索220包括应用标准的变量解释方法,比如(a)将字符串变量因子化转化为相对较少的取值,并且在必要时将这些字段转换成指示型类别(b)将可能是布尔项的变量转换为双精度浮点型(c)将日期转换成相对于一个或多个基本时间戳的时间间隔;(d)将地址或其他地理位置数据转换成标准形式,如经纬度。对连续变换过程应用自动搜索220通常会生成转换变量120和/或元变量140。然而,如果对连续变换过程应用自动搜索220之后认为一个或多个原始数据100中的变量是不需要操作的,数据可能无法被转换并以原始格式通过。例如,可以将四个标准支付模式(每周,每两周,每半月,每月)作为有四个层次的因子变量,或作为一组四个二进制变量(其中一个是1其他三个是0)。这两种解释都是这种转换的标准且可执行的例子。

举例说明,一个取值可以分为“每周付“,”每双周付“,”每半月付“和“每月付”的变量可以被转换成取值为1到4的整型变量或四组四重值,分别是(1,0,0,0),(0,1,0,0),(0,0,1,0)和(0,0,0,1),这取决于以后想如何使用该变量。取值为“真”或“假”的变量可以被转换成0.0和1.0。日期可以被转换成与某一个起始日期之间的间隔(比如1960年10月18日可以表示为距1900年1月1日起的第22205天)。地址“300PrisonRoad,Represa,Calif.95671可以用地理坐标经纬度表示成北纬38.6931度,西经121.1617度,也就是距北纬38.8977度,西经77.0366度(1600Pennsylvania Avenue,Washington,D.C.)的地址有23530.62英里远。有了这些地理信息,电脑就可以自动判断出一位住在第一个地址的人是不太可能在第二个地址工作的。(看到这两个地址的人会知道居住在300PrisonRoad,Represa,Calif.95671的人是加州最老最安全的监狱里的犯人,是不可能在白宫工作的,而电脑不需要这些文化知识也可以得出相同的结论)。

连续变换的自动搜索220所生成的转换变量120和/或元变量140紧接着进入到直接的泛函变换240,比如:(a)单一或小组变量转换为结果相关的指标,比如,推断的成功概率或某些结果变量的期望值(比如:基于变量特定值计算得到单笔贷款的预期收益);(b)变量的简单泛函变换(比如:如果一个字段包含一个特定类型事件的发生次数,那么该字段将会遵循泊松分布。该字段的平方根将遵循一定均值和方差的高斯分布)。此外,直接的泛函变换240可以采用其他统计算法作为预测变量,例如包括马氏距离测量(如传统的欧氏距离测量,高阶的距离测量,海明距离测量),非正态分布的距离测量,和/或一个余弦变换。直接泛函变换240的应用通常会生成额外的转换变量120和/或元变量140。然而,如果直接泛函变换240认为原始数据集100中的一个或多个变量不需要操作,数据就不会被转换并以其原始形式通过。

举前面提到的距离例子进一步说明,我们可以把距离转换成一种概率用来描述当给定居住地和工作地点之间的距离后此人的还贷可能性。按道理,对于家和工作地点在同一地方的人该概率会比较低,然后随着距离的增加先上升再下降。在直接泛函变换240的中间步骤中,本发明的首选方法会检查借款人的所有地址信息,然后决定这些地址是否能够使家和工作地点间的距离在合理范围内,再验证地址数据集。

最后,连续变换的自动搜索220或直接泛函变换240所生成的转换变量120和/或元变量140再进入到复杂泛函变换260,比如(a)用仔细选择和/或构造的函数对单一或小组变量进行转换;(b)两者间的距离(即:数值域的差的绝对值,空间中欧几里得或出租车的距离,甚至是文本域中字符串编辑距离(最后一个在处理用户输入时非常有用,可以区分错误和诈骗));(c)比率(例如:债务服务负荷对家庭可支配收入的比率);(d)其它几何变换(例如:一个k型集群区域的测量,距离的泛化,和/或其他稳定性的复杂测量作为地址的函数);(e)为数据定制的泛函变换。复杂泛函变换260通常会生成额外的转换变量120和/或元变量140。然而,如果复杂功能转换260认为原始数据集100中的一个或多个变量不需要操作,数据就不会被转换并以其原始形式通过。

参照上面两段的例子。其中元变量能被用于把距离转换成一种概率从而描述一个家和工作地点距离这么远的人的还贷可能性是多少。最后的中间环节是复杂泛函变换260用来确定借款人的就业稳定性。在一定程度上,人在一定时间内的住过的地方的数量服从泊松分布,其均值与所从事的工作数量成正比。当前工作的数量的平方根和当前地址数量的平方根之间的关系服从线性关系加方差为1/4的单变量正态分布。因此,我们可以把“就是有很多工作”的人从“有比基于工作数所推出的地址数还多的地址数”的人中区别出来。

创建自定义的泛函变换与大型数据分析密切相关。基于原始数据集100的大小,转换后的表达式(如转换变量120和/或元变量140)的数目决定了单个变量的方程可能会非常大,且多个变量的方程呈指数型增长。假设原始数据里有40个字段,那么通过任意两个离散变量的组合就可以产生40*40=1,600个比对组合,40*40*40=64,000个基于任意三个离散变量的比对组合,如一个变量与另外两个变量差值的比值,以及40*40*40*40=2,560,000个基于任意四个离散变量的比对组合,如两个变量的差值与另外两个变量的差值的比值。变量数目越多,增长越快。搜索这样的参数空间本身就是一个难度很大的优化问题,不仅因为空间规模,更是因为大多数方程都与决定信用无关。

尽管如此,仍有很多首选方法对这样的空间进行自动搜索,包括但不仅限于:暴力算法、简单的爬山算法(计算机以一个随机的样例方程开始,逐渐修改它来建造一个更好的方程)、模拟退火算法(爬山算法的改进版,保证能在给定的时间内找到可能的最优值)、集合论里普遍承认的方法或其它离散搜索方法。

这些方法并没有预先定义什么是一个好的转换,也没有定义如何衡量一个转换比另外一个好多少。所以当使用这些方法搜索时,为了进行风险评估同时选择使得空间搜索可行的搜索计算框架,需要对“更好“进行定义。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1