信用评分方法和装置与流程

文档序号:20150637发布日期:2020-03-24 20:02阅读:272来源:国知局
信用评分方法和装置与流程
本公开涉及互联网
技术领域
,更具体地,涉及一种信用评分方法和装置。
背景技术
:信用评分可以广泛应用于金融信贷等业务,如可以用于贷前审批阶段对借款申请人的评估,用于贷后管理阶段对借款人未来的还款能力和意愿的评估,或者用于催收管理阶段对借款人的还款概率的评估,等等。然而,现有的信用评分方案大多存在以下问题:信用评分过程不能标准化运营,对于不同的信用评分过程需要编写不同的执行代码,过程繁琐,效率低下,对运营人员的专业能力要求较高,十分费时费力,不符合当前数据高效处理的需求。技术实现要素:有鉴于此,本公开提供了一种标准化的、易于实现的信用评分方法和装置。本公开的一个方面提供了一种信用评分方法,包括:获取第一类配置数据,所述第一类配置数据包括数据配置信息和模型配置信息,基于所述数据配置信息获取带标签的信用特征数据作为样本集,基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型。接着,获取第二类配置数据,所述第二类配置数据包括评分配置信息,获取待预测的信用特征数据,基于所述决策模型获得待预测的信用特征数据的预测结果,基于所述评分配置信息获得所述预测结果对应的信用评分并输出。根据本公开的实施例,上述数据配置信息包括组成信用特征数据的特征变量的配置信息,所述特征变量的配置信息包括如下至少一项:特征变量的定义、特征变量对应的数据类型、特征变量的标识、特征变量的优化目标参数信息、特征变量的异常值处理信息、特征变量的缺失值处理信息、和/或特征变量的变换信息。根据本公开的实施例,上述模型配置信息包括如下至少一项:初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息。根据本公开的实施例,上述基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型包括:从所述样本集中提取多条信用特征数据作为训练集,所述样本集中剩余的信用特征数据作为测试集,基于所述模型配置信息获取初始模型和训练规则,使用所述训练集依据训练规则对初始模型进行训练得到训练模型,使用所述测试集对所述训练模型进行测试得到测试结果,当一个训练模型对应的测试结果符合预定条件时,确定该训练模型为决策模型。根据本公开的实施例,上述评分配置信息包括预测结果与信用评分的映射关系信息,或者,所述评分配置信息包括预测结果与信用评分的映射关系信息以及信用评分与评分等级的映射关系信息。则所述方法还包括:基于所述评分配置信息获得所述预测结果对应的信用评分所属的评分等级并输出。根据本公开的实施例,上述方法还包括:利用所述决策模型获取所述测试集中各信用特征数据的预测结果,根据所述评分配置信息获得所述测试集中各信用特征数据对应的评分等级,对于任一评分等级,基于对于于该评分等级的所述测试集中的信用特征数据的标签对该评分等级进行合理性验证,当验证未通过时,确定该评分等级对应的评分配置信息不合理,获取更新后的评分配置信息。根据本公开的实施例,上述第一类配置数据还包括辅助配置信息,所述辅助配置信息包括如下至少一项:工作目录、日期、存储路径、文件命名规则、和/或版本信息。本公开的另一个方面提供了一种信用评分装置,包括第一配置模块、训练模块、第二配置模块、预测模块和评分模块。第一配置模块用于获取第一类配置数据,所述第一类配置数据包括数据配置信息和模型配置信息。训练模块用于基于所述数据配置信息获取带标签的信用特征数据作为样本集,基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型。第二配置模块用于获取第二类配置数据,所述第二类配置数据包括评分配置信息。预测模块用于获取待预测的信用特征数据,基于所述决策模型获得待预测的信用特征数据的预测结果。评分模块用于基于所述评分配置信息获得所述预测结果对应的信用评分并输出。根据本公开的实施例,所述数据配置信息包括组成信用特征数据的特征变量的配置信息,所述特征变量的配置信息包括如下至少一项:特征变量的定义、特征变量对应的数据类型、特征变量的标识、特征变量的优化目标参数信息、特征变量的异常值处理信息、特征变量的缺失值处理信息、和/或特征变量的变换信息。根据本公开的实施例,所述模型配置信息包括如下至少一项:初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息。根据本公开的实施例,所述训练模块基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型包括:所述训练模块用于从所述样本集中提取多条信用特征数据作为训练集,所述样本集中剩余的信用特征数据作为测试集;基于所述模型配置信息获取初始模型和训练规则,使用所述训练集依据训练规则对初始模型进行训练得到训练模型,使用所述测试集对所述训练模型进行测试得到测试结果;当一个训练模型对应的测试结果符合预定条件时,确定该训练模型为决策模型。根据本公开的实施例,所述评分配置信息包括预测结果与信用评分的映射关系信息,或者,所述评分配置信息包括预测结果与信用评分的映射关系信息以及信用评分与评分等级的映射关系信息。则所述装置还包括评级模块,用于基于所述评分配置信息获得所述预测结果对应的信用评分所属的评分等级并输出。根据本公开的实施例,所述装置还包括验证模块,用于利用所述决策模型获取所述测试集中各信用特征数据的预测结果,根据所述评分配置信息获得所述测试集中各信用特征数据对应的评分等级,对于任一评分等级,基于对于于该评分等级的所述测试集中的信用特征数据的标签对该评分等级进行合理性验证,当验证未通过时,确定该评分等级对应的评分配置信息不合理,获取更新后的评分配置信息。根据本公开的实施例,所述第一类配置数据还包括辅助配置信息,所述辅助配置信息包括如下至少一项:工作目录、日期、存储路径、文件命名规则、和/或版本信息。本公开的另一方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。根据本公开的实施例,可以至少部分地解决/减轻/抑制/甚至避免现有技术中信用评分过程不能标准化运营,对于不同的信用评分过程需要编写不同的执行代码的问题,通过第一类配置数据和第二类配置数据将信用评分过程标准化,面对不同的信用评分过程,运营人员只需对配置数据进行设置,而无需重新编写执行代码,非常便捷高效、易于实现。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开的实施例的可以应用信用评分方法和装置的示例性系统架构;图2示意性示出了根据本公开的实施例的信用评分方法的流程图;图3示意性示出了根据本公开的实施例的信用评分过程的示意图;图4示意性示出了根据本公开的实施例的信用评分装置的框图;图5示意性示出了根据本公开的另一实施例的信用评分装置的框图;图6示意性示出了根据本公开的另一实施例的信用评分装置的框图;以及图7示意性示出了根据本公开的实施例的计算机设备的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“a或b”应当被理解为包括“a”或“b”、或“a和b”的可能性。本公开的实施例提供了一种信用评分方法和装置。该方法包括第一类配置数据获取过程、模型训练过程、第二类配置数据获取过程和评分预测过程,其中模型训练过程是基于第一类配置数据进行的,评分预测过程是基于第二类配置数据以及模型训练过程所得到的决策模型进行的,最终得到待预测的信用特征数据对应的信用评分。图1示意性示出了根据本公开实施例的可以应用信用评分方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。如图1所示,根据该实施例的系统架构100可以包括多个电子设备(101~107)。电子设备(101~107)可以是个人电脑(personalcomputer,pc)、网络服务器、数据库服务器等。电子设备(101~107)中的每一个电子设备可以具有相同或不同的计算能力。作为一种实施方式,多个电子设备(101~107)之间可以通过网络相互通信,网络用以在多个电子设备(101~107)之间提供通信链路的介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。需要说明的是,本公开实施例所提供的信用评分方法可以由电子设备(101~107)中的一个来执行或者由电子设备(101~107)中的多个相互配合而执行。相应地,本公开实施例所提供的信用评分装置一般可以设置于电子设备(101~107)中的一个中或者设置于由电子设备(101~107)中的多个组成的集群中。应该理解,图1中的电子设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备。图2示意性示出了根据本公开的实施例的信用评分方法的流程图。如图2所示,该方法包括在操作s201,获取第一类配置数据,所述第一类配置数据包括数据配置信息和模型配置信息。然后,在操作s202,基于所述数据配置信息获取带标签的信用特征数据作为样本集。本操作中,带标签的信用特征数据是指已知信用评分结果的信用特征数据,所述标签反映了相应的信用特征数据的信用评分结果。信用特征数据用于描述目标对象与信用相关的信息,可以从一维或多维的角度来描述,如可以包括目标对象的信用行为数据,也可以包括目标对象的信用属性数据等等,在此不做限制。这里所说的目标对象可以是个人用户、企业用户、集团用户等等可以进行信用评价的目标用户,信用行为数据可以是上述目标用户所进行的与信用有关的行为的相关数据,信用属性数据可以是上述目标用户所具有的与信用有关的属性的相关数据。在操作s203,基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型。本操作利用已知信用评分结果的目标对象的信用特征数据作为样本数据,对初始模型进行有监督的训练,以得到符合要求的、可以根据信用特征数据得到相应的信用评分的决策模型。在操作s204,获取第二类配置数据,所述第二类配置数据包括评分配置信息。在操作s205,获取待预测的信用特征数据。本操作中,待预测的信用特征数据是需要进行信用评分的目标对象的信用特征数据。在操作s206,基于所述决策模型获得待预测的信用特征数据的预测结果。在操作s207,基于所述评分配置信息获得所述预测结果对应的信用评分并输出。本操作中,信用评分是评估目标对象的个体风险的量化指标,一个目标对象的信用评分越高,表明该目标对象的信用程度越高,风险越低,一个目标对象的信用评分越低,表明该目标对象的信用程度越低,风险越高。可见,图2所示的方法完成了从数据获取、模型训练、结果预测、及至信用评分的完整的信用评分过程,以用于对目标对象的个体风险进行量化。其中,基于第一类配置数据进行数据获取和模型训练,先获取符合配置要求的样本数据,再进行符合配置要求的模型训练,得到决策模型以得到待预测的信用特征数据对应的预测结果,然后基于第二类配置数据进行信用评分,得到符合所述预测结果对应的符合配置要求的信用评分。本方案通过第一类配置数据和第二类配置数据将信用评分过程标准化,面对不同的信用评分过程,运营人员只需对配置数据进行设置,而无需重新编写执行代码,非常便捷高效、易于实现。图2所示方法所实现的信用评分过程可以广泛应用于金融信贷等业务,例如可以用于贷前审批阶段,通过借款申请人的信用特征数据对借款申请人进行信用评分,量化评估借款申请人的借贷风险,以确定是否允许借款、借款额度等事项,也可以用于贷后管理阶段,通过借款人的历史还款行为、交易行为、以及其他维度的信用特征数据对借款人进行信用评分,以预测借款人未来的还款能力和意愿,也可以用于催收管理阶段,即在借款人当前还款状态为逾期的情况下,通过借款人的信用特征数据对借款人进行信用评分,预测未来该笔贷款变为坏账的概率,等等。可以看到,在不同场景下,信用评分可能有不同的具体细分的含义,但总的来说信用评分用于反映目标对象的信用程度,具体的细分均可以通过配置数据来进行配置。在本公开的实施例中,操作s201获取第一类配置数据的方式可以根据需要而定,例如可以是通过预置接口接收运营人员输入的第一类配置数据,也可以是从本地或其他服务器/服务器集群获取到预置的第一类配置数据。同理,操作s204获取第二类配置数据的方式同样可以根据需要而定,例如可以是通过预置接口接收运营人员输入的第二类配置数据,也可以是从本地或其他服务器/服务器集群获取到预置的第二类配置数据,在此均不做限制。上述操作s202基于所述数据配置信息获取带标签的信用特征数据作为样本集,在本公开的一个实施例中,第一类配置数据中的数据配置信息包括组成信用特征数据的特征变量的配置信息,所述特征变量的配置信息包括如下至少一项:特征变量的定义、特征变量对应的数据类型、特征变量的标识、特征变量的优化目标参数信息、特征变量的异常值处理信息、特征变量的缺失值处理信息、和/或特征变量的变换信息。可以看到,数据配置信息规定了信用特征数据的组成和结构。例如,一个目标对象的信用特征数据由一个或多个特征变量组成,从不同维度描述该目标对象的信用相关信息,特征变量的定义规定了具体都有哪些特征变量,每个特征变量均为键值对结构,特征变量对应的数据类型规定了各特征变量的值的数据类型,特征变量的标识规定了各特征变量的主键,特征变量的优化目标参数信息规定了各特征变量在进行优化时的目标参数,特征变量的异常值处理信息规定了各特征变量在出现异常时所对应的处理方式,特征变量的缺失值处理信息规定了各特征变量在缺失时所对应的处理方式,特征变量的变换信息规定了在模型训练之前对各特征变量的预处理方式等。在其他实施例中,数据配置信息中还可以规定各特征变量的值的约束条件,当一个特征变量的值不符合其相应的约束条件时,该特征变量可以被视为缺失或视为异常需要进行处理。则操作s202可以依据数据配置信息可以标准化地获取符合配置要求的各特征变量,并在各特征变量的基础上标准化地构建得到符合配置要求的样本数据,由样本数据组成样本集。上述操作s203基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型,作为一个可选的实施例,可以包括:从所述样本集中提取多条信用特征数据作为训练集,所述样本集中剩余的信用特征数据作为测试集,基于所述模型配置信息获取初始模型和训练规则,使用所述训练集依据训练规则对初始模型进行训练得到训练模型,使用所述测试集对所述训练模型进行测试得到测试结果,当一个训练模型对应的测试结果符合预定条件时,确定该训练模型为决策模型。则该模型训练过程中所需要配置的信息均可设置在第一类配置数据的模型配置信息中。本实施例可以有效地利用符合配置要求的样本集训练得到符合配置要求的决策模型,即符合信用评分场景需求的决策模型,无需运营人员手动编写完整的训练代码,只需基于预置的模型训练信息进行训练即可。在本公开的一个实施例中,第一类配置数据中的模型配置信息包括如下至少一项:初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息。在其他实施例中,模型配置信息中还可以包括样本集中训练集和测试集的划分比例等,此外任何在模型训练过程中需要配置的信息均可以放入模型配置信息中,在此不做限制。操作s203基于这些配置信息就可以标准化地获取初始模型,并利用上文所获取到的样本集对初始模型进行符合配置要求的模型训练过程,以得到符合配置要求的决策模型。进一步地,作为一个可选的实施例,为了对上述样本数据获取过程和模型训练进一步进行辅助,第一类配置数据还包括辅助配置信息,所述辅助配置信息包括工作目录、日期、存储路径、文件命名规则以及版本信息等中的至少一项。在本公开的一个实施例中,第二类配置信息中的评分配置信息包括预测结果与信用评分的映射关系信息,或者,所述评分配置信息包括预测结果与信用评分的映射关系信息以及信用评分与评分等级的映射关系信息。预测结果与信用评分的映射关系信息和信用评分与评分等级的映射关系信息用于规定上文所述的不同场景下信用评分所对应的细分的含义和标准。在此基础上,图2所示的方法还包括:基于所述评分配置信息获得所述预测结果对应的信用评分所属的评分等级并输出。进一步地,作为一个可选的实施例,图2所示的方法还包括:利用所述决策模型获取所述测试集中各信用特征数据的预测结果,根据所述评分配置信息获得所述测试集中各信用特征数据对应的评分等级,对于任一评分等级,基于对于于该评分等级的所述测试集中的信用特征数据的标签对该评分等级进行合理性验证,当验证未通过时,确定该评分等级对应的评分配置信息不合理,获取更新后的评分配置信息。例如可以是,评分配置信息中所配置的每个评分等级对应于相应的信用等级,如果落入该评分等级的测试集中的信用特征数据的标签所反映的信用等级与该评分等级对应的信用等级不相符,则表明该评分等级配置不合理。可见,由于第二类配置数据用于制定评分标准,当评分标准不合理时会影响信用评分结果,为避免此情况,本实施例利用样本集中的测试集对第二类配置数据中的配置合理性进行验证,以实现更为准确的信用评分。下面参考图3以及表1~表4,结合具体实施例对图2所示的方法做进一步说明。图3示意性示出了根据本公开的实施例的信用评分过程的示意图。如图3所示,本实施例中将信用评分过程分为模型训练部分、主标尺配置部分和评分部分,模型训练部分在单机/集群1中进行,主标尺配置部分在单机/集群2中进行,评分预测部分在单机/集群3中进行。单机/集群1中可以部署模型训练模块,通过运行模型训练模块使得在机器上预先部署的脚本读取基本配置文件、变量配置文件和训练/测试数据,基本配置文件和变量配置文件组成上文所述的第一类配置数据,基本配置文件作为模型配置信息和辅助配置信息合并后在本实施例中的一个具体形式,其中包含数据所在位置、数据日期和使用何种模型等信息,变量配置文件作为数据配置信息在本实施例中的一个具体形式,其中包含诸如异常值处理方式、缺失值处理方式和数学变换等变量处理信息。可以基于变量配置文件获取样本数据,样本数据被划分为训练数据和测试数据。模型训练模块读取这部分信息,运行自定义的处理函数,自动地进行处理,使用训练数据对相应的初始模型进行训练,使用测试数据对训练得到的模型进行测试,反复进行直至达到决策模型要求,即生成决策模型,当然也可以基于测试数据对决策模型的测试生成决策模型的评价指标,并作出相应的图表。单机/集群2中可以部署主标尺模块,通过运行主标尺模块使得在机器上预先部署的脚本读取主标尺配置文件和对测试数据的预测结果,生成主标尺文件,作为后续进行信用评分和评级的标准。其中,主标尺作为第二类配置数据中的评分配置信息在本实施例中的一个具体形式,主标尺配置文件会规定主标尺文件中包括哪些列、采用哪些参考点、具体的生成方法等。通过正确、合理地配置主标尺文件,使信用评分过程能够实现当前场景对应的信贷过程的信用评估目标。单机/集群3中可以部署评分预测模块,通过运行评分预测模块使得在机器上预先部署的脚本读取待预测的信用特征数据、决策模型和主标尺文件,自动地生成信用评分和评级结果。如果用在线上实时预测,则图3中的待预测的数据是以流的方式传输过来的,而且可以通过服务器预先读入决策模型的方式来缩短相应时间。三台单机或集群可以是同一台机器,也可是多台机器。已经在机器上部署好的脚本是相应的执行代码,在面对不同的信用评分过程时,运营人员无需修改已部署的脚本,只需对第一类配置数据和第二类配置数据进行设置。根据本公开的实施例,可以用任何一种语言实现这些脚本,例如可以选择以r语言为示例实现此设计。当使用上述信用评分过程进行实时预测时,优选地,选择多台服务器构成的集群作为上述单机/集群3,以增加系统的稳定性。下面具体说一下三台机器上运行的三个模块。以下依次对三个实施部分进行具体说明:首先,模型训练部分:这是信用评分过程中的主要部分,包括:获取基本配置文件和变量配置文件,解析基本配置文件和变量配置文件,并根据基本配置文件和变量配置文件中的信息采取相应动作。从运营人员的角度来讲,在模型训练部分主要的工作是对第一类配置数据的合理配置,在本实施例中,即为对基本配置文件和变量配置文件的配置,基本配置文件如表1所示:表1配置选项是否存在配置信息工作目录yd:/jd数据日期y2018-04-30样本数据的存储路径yd:/jd/data/suiyin_feature.csv拆分比例y7∶3训练数据的存储路径n测试数据的存储路径n抽样对象yis-close:0抽样方法ystrata:gbhy_dm抽样比例y1∶2/0.01机器学习方式yrf:500决策模型的存储路径yd:/jd/result/rf_kuaiyin_model2.rdata预测结果的存储路径yd:/jd/result/output.csv在配置基本配置文件时,可以对模型训练过程所需要的各种信息进行配置。如表1所示,可以设置工作目录和数据日期。如果希望获取的样本数据存放为一个文件,需要设置样本数据的存储路径以及将样本数据拆分为训练数据和测试数据时所用到的拆分比例,如果希望获取的样本数据依据训练数据和测试数据分开存放为两个文件,需要设置训练数据的存储路径和测试数据的存储路径。然后还可以设置用于进行训练的模型的类型,本实施例中根据信用评分需求将信用评分模型设置为一个二分类模型,对应于该二分类模型,抽样对象指明对哪个类进行抽样,抽样方法指出抽样方式,如是随机抽样还是分层随机出样,在哪个维度上分层随机抽样等,抽样比例有两种形式,如果是n∶m的形式,则指明对抽样的类抽样后相对于未抽样的类的比例,如果是一个小数,则表明对抽样的类的抽样比例。抽样对象、抽样方法和抽样比例同时为y或同时为n,表明是否需要抽样。机器学习方式选项指明采用何种机器学习方式,可以用不同符号来标识不同算法,如lr代表逻辑回归算法,rf:500代表随机森林算法(randomforest),后面的数值500表示采用500个决策树,该数值可以根据需要变化,以及gbm代表梯度提升决策树算法(gbdt),等等。模型训练结束后都会产生一个决策模型,可以在基本配置文件中规定该决策模型的名称和存储路径。利用该决策模型可以对测试数据进行预测得到预测结果,可以在基本配置文件中规定预测结果的文件名和存储路径,以便用于后期主标尺的配置。本实施例中,变量配置文件如表2所示:表2变量配置文件规定了信用特征数据的组成和结构等相关信息。在本实施例中,如表2所示,第一列对组成信用特征数据的特征变量进行了定义,指明信用特征数据所包含的各特征变量的变量名,不同的特征变量从不同维度描述了信用相关信息。第二列规定了各特征变量的变量类型,其中c代表字符串(characters),i代表整形(interger),n代表浮点数(number),第四列规定了各特征参数对应的目标变量,第五列规定了各特征变量对应的主键标识,用来唯一的标识样本数据,第六列规定了各特征变量对应的区间约束,当特征变量的取值落在其对应的区间约束之外时,可以认为该特征变量异常或缺失而进行后续处理。例如,本实现仅采用截断的方法对异常值进行处理。第七列规定了各特征参数缺失时所对应的缺失值处理方式,其中unknown代表另立一个未知类,mode代表众数,mean代表平均值,replace.xxx代表用另一个字段的值替代,如红票在当月开票中的金额占比可以使用红票在当月开票中的张数占比替代,等等。第八列规定了各特征参数所对应的预处理变换方式,以获得更适于模型训练过程的数据,其中factor是因子变量处理,woe是证据权重(weightofevidence)转换,是对原始自变量的一种编码形式,log是log变换,box:10是分箱,等比例分为10箱,分箱是连续变量离散化的一种方法,通常用的有等距离和等比例分箱。可以看到,在本实施例中,目标对象是一个企业用户,为了获取该企业用户的信用特征数据,在变量配置文件设置了构成该企业用户的信用特征数据的10个特征参数的相关信息,依据变量配置文件获取该企业用户在这十个方面的相关数据,进而可以构建出该企业用户对应的信用特征数据。变量配置文件中的各项信息均可根据实际需要进行配置。在说明模型训练部分之后,接着说明主标尺配置部分:主要根据对测试数据的预测和预置的主标尺配置文件,生成合理的预测结果与信用评分之间的映射关系,即生成第二类配置数据中的评分配置信息。评分配置信息主要是依据具体业务场景进行设置,以使得评分与具体业务的信用评分目标相符。主标尺配置文件类似主标尺的模板文件,格式如表3所示:表3依据主标尺配置文件进行主标尺文件的配置,即进行评分配置信息的配置,从表3中可以看到,第一类规定了不同等级的信用评级,从上之下信用程度依次降低,每个信用评级规定有其对应的信用评分区间,通过配置评分上限和评分下限来描述,表征了信用评级和信用评分之间的映射关系,预测结果可以以概率的形式表示,对于每个评分等级配置概率上限和概率下限,对应于评分上限和评分下限,来描述预测结果与信用评分之间的映射关系,其中,在预测结果转换为信用评分的过程中,会产生中间量logodds,logodds是对预测结果的转换,若p为预测结果,则logodds=ln[(1-p)/p]。此外,还可以利用测试集对主标尺配置的合理性进行验证,具体地,测试集中的测试数据为带有标签的信用特征数据,例如标签为0或1,0表示信用程度低于标准,1表示信用程度高于标准。先利用决策模型获得测试集中各信用特征数据对应的预测结果,根据上述主标尺配置中预测结果与信用评分的映射关系以及信用评分与信用评级的映射关系,确定测试集中的每个信用特征数据所对应的信用评级,则,每个信用评级所对应的测试数据的总量可以设置在表3的第九列,在一个信用评级对应的所有测试数据中,带有标签0的测试数据的数量为该信用评级对应的违规数,该信用评级对应的违规数与该信用评级对应的测试数据的总数之比可得到违规比。基于上述违规数和/或违规比可以验证主标尺配置的合理性。例如,测试集中共有100条信用特征数据,其中10条信用特征数据的预测结果落入aaa评级对应的概率上下限之间,即aaa评级对应的测试数据的总数为10,这10条信用特征数据中有9条信用特征数据的标签是0,剩余1条信用特征数据的标签是1,表明aaa评级对应的违约数为9,违约比为9/10=90%。由于aaa评级是当前配置数据中所配置的最高等级,合理的aaa评级应当对应于最高等级的信用程度,但90%的违约比明显与该信用程度不相符,说明当前aaa评级对应的配置信息不合理,需要重新进行配置。或者,又例如,测试集中共有100条信用特征数据,其中10条信用特征数据的预测结果落入aaa评级对应的概率上下限之间,即aaa评级对应的测试数据的总数为10,这10条信用特征数据中有9条信用特征数据的标签是0,剩余1条信用特征数据的标签是1,表明aaa评级对应的违约数为9,违约比为9/10=90%。20条信用特征数据的预测结果落入aa+评级对应的概率上下限之间,即aa+评级对应的测试数据的总数为20,这20条信用特征数据中有6条信用特征数据的标签是0,剩余14条信用特征数据的标签是1,表明aa+评级对应的违约数为6,违约比为6/20=30%。比较aaa评级和aa+评级对应的违规比,发现aaa评级的违规比高于aa+评级的违规比,又由于在当前配置数据中aaa评级比aa+评级的等级高,合理的aaa评级对应的信用程度应当高于aa+对应的信用程度,但二者的违约比的现状明显与合理情况不符,说明当前aaa评级和/或aa+评级对应的配置信息不合理,需要重新进行配置。这样,通过上述合理性验证过程,能够配置完成较为合理且符合需求的评分配置信息。在说明模型训练部分和主标尺配置部分之后,接着说明评分预测部分:基于模型训练部分所生成的决策模型和主标尺配置部分所配置的主标尺文件,对待预测的目标对象进行信用评分,生成信用评分和评级结果。获取待预测的目标对象的信用特征数据,可以依据上文中的数据配置信息构建与样本数据相同组成的信用特征数据。将待预测的目标对象的信用特征数据输入至决策模型,决策模型输出相应的预测结果,依据主标尺文件中所配置的评分配置信息,获取预测结果对应的信用评分和评级结果。模型预测模块除了生成信用评分和评级结果,即每个目标对象的评分和评级明细,还可以生成如表4所示的风险评分分布报告文件:表4评级评分上限评分下限总量客户数量占比aaa820800aa+800780aa780760aa-760740a+740720a720700a-700680bbb+680660bbb660640bbb-640620bb+620600风险评分分布报告文件统计出各信用评级对应的目标对象的总量,以及各信用评级对应的目标对象在所有目标对象中的占比,对于同一信用评分过程,通过比较不同时期的风险评分分布报告文件,可以获知当前的信用评分过程是否还适用当前的新数据,或者,可以将风险评分分布报告文件与主标尺文件中测试数据的评分评级分布结果进行比较,如果在各个评级段上的客户数分布和主标尺的分布偏差较大,则说明风险场景发生了变化,需要重新进行第一类配置数据和第二类配置数据的配置,重新进行上述模型训练、主标尺配置以及评分预测过程。可见,本公开实施例旨在建立信用评分的标准化流程,基于第一类配置数据进行模型训练,基于第二类配置数据进行信用评分,一体解决模型训练和评分评级整个过程,且在信用评分过程中运营人员无需修改代码,只需修改配置数据,让不懂r或python的运营人员仅通过简单的配置就可生成自己想要的信用评分过程,并且在实际业务中可以方便的配合java、c++并在一些数据提取-转换-加载(etl)系统进行线上跑批或实时预测。本公开使整个信用评分过程中复杂的处理逻辑清晰化,通过简单、清晰的数据配置,便于运营人员对信用评分过程的维护和管理。图4示意性示出了根据本公开的实施例的信用评分装置的框图。如图4所示,信用评分装置400包括第一配置模块410、训练模块420、第二配置模块430、预测模块440和评分模块450。第一配置模块410用于获取第一类配置数据,所述第一类配置数据包括数据配置信息和模型配置信息。训练模块420用于基于所述数据配置信息获取带标签的信用特征数据作为样本集,基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型。第二配置模块430用于获取第二类配置数据,所述第二类配置数据包括评分配置信息。预测模块440用于获取待预测的信用特征数据;基于所述决策模型获得待预测的信用特征数据的预测结果。评分模块450用于基于所述评分配置信息获得所述预测结果对应的信用评分并输出。在本公开的一个实施例中,第一类配置数据中的数据配置信息包括组成信用特征数据的特征变量的配置信息,所述特征变量的配置信息包括如下至少一项:特征变量的定义、特征变量对应的数据类型、特征变量的标识、特征变量的优化目标参数信息、特征变量的异常值处理信息、特征变量的缺失值处理信息、和/或特征变量的变换信息。在本公开的一个实施例中,第一类配置数据中的模型配置信息包括如下至少一项:初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息。在此基础上,训练模块420基于所述模型配置信息和所述样本集对初始模型进行训练,得到决策模型包括:训练模块420用于从所述样本集中提取多条信用特征数据作为训练集,所述样本集中剩余的信用特征数据作为测试集;基于所述模型配置信息获取初始模型和训练规则,使用所述训练集依据训练规则对初始模型进行训练得到训练模型,使用所述测试集对所述训练模型进行测试得到测试结果;当一个训练模型对应的测试结果符合预定条件时,确定该训练模型为决策模型。进一步地,第一类配置数据还可以包括辅助配置信息,所述辅助配置信息包括如下至少一项:工作目录、日期、存储路径、文件命名规则、和/或版本信息。图5示意性示出了根据本公开的另一实施例的信用评分装置的框图。如图5所示,信用评分装置500包括第一配置模块410、训练模块420、第二配置模块430、预测模块440、评分模块450和评级模块460。其中,第一配置模块410、训练模块420、第二配置模块430、预测模块440和评分模块450在上文中已说明,重复的部分在此不再赘述。第二类配置数据中的评分配置信息包括预测结果与信用评分的映射关系信息,或者,评分配置信息包括预测结果与信用评分的映射关系信息以及信用评分与评分等级的映射关系信息。在此基础上,评级模块460用于基于所述评分配置信息获得所述预测结果对应的信用评分所属的评分等级并输出。图6示意性示出了根据本公开的另一实施例的信用评分装置的框图。如图6所示,信用评分装置600包括第一配置模块410、训练模块420、第二配置模块430、预测模块440、评分模块450、评级模块460和验证模块470。其中,第一配置模块410、训练模块420、第二配置模块430、预测模块440、评分模块450和评级模块460在上文中已说明,重复的部分在此不再赘述。验证模块470用于利用所述决策模型获取所述测试集中各信用特征数据的预测结果,根据所述评分配置信息获得所述测试集中各信用特征数据对应的评分等级;对于任一评分等级,基于对于于该评分等级的所述测试集中的信用特征数据的标签对该评分等级进行合理性验证,当验证未通过时,确定该评分等级对应的评分配置信息不合理,获取更新后的评分配置信息。需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。例如,第一配置模块410、训练模块420、第二配置模块430、预测模块440、评分模块450、评级模块460和验证模块470中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一配置模块410、训练模块420、第二配置模块430、预测模块440、评分模块450、评级模块460和验证模块470中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一配置模块410、训练模块420、第二配置模块430、预测模块440、评分模块450、评级模块460和验证模块470中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。图7示意性示出了根据本公开的实施例的适于实现上文描述的方法的计算机设备的框图。图7示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图7所示,根据本公开实施例的计算机设备700包括处理器701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。在ram703中,存储有计算机设备700操作所需的各种程序和数据。处理器701、rom702以及ram703通过总线704彼此相连。处理器701通过执行rom702和/或ram703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom702和ram703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。根据本公开的实施例,计算机设备700还可以包括输入/输出(i/o)接口705,输入/输出(i/o)接口705也连接至总线704。计算机设备700还可以包括连接至i/o接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom702和/或ram703和/或rom702和ram703以外的一个或多个存储器。附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1