企业信用等级评定方法、装置、电子设备和介质与流程

文档序号:27506980发布日期:2021-11-22 16:57阅读:231来源:国知局
企业信用等级评定方法、装置、电子设备和介质与流程

1.本公开涉及人工智能技术领域,更具体地,涉及一种企业信用等级评定的方法、装置、电子设备和介质。


背景技术:

2.银行信贷业务对企业贷款额度的限定,主要依据信用等级评定进行,信用等级评定制度从根本上表明了企业违约风险的大小,相应的,评定结果的精准性直接影响了信贷投放风险的高低,决定银行资金是否能够健康运转。
3.对于金融企业客户,尤其是商业银行,目前的传统信用等级评价方法多从会计学角度出发进行评价预测,通过找到影响企业客户偿债能力会计指标,再根据评价人员自身的经验将这些指标按照影响程度大小分别设置不同的权重,最终得到信用评价等级。除此之外,最近几年,基于数学方法、统计学模型的新的信用评价方法也开始落地应用,比如:决策树、支持向量机、神经网络等机器学习方法或深度学习方法。
4.在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:
5.传统信用等级评价方法中,影响信用等级评价的因素极其广泛,很难将所有影响因素都进行转化为相对应的会计指标。且评价过程严重依赖于评价人员自身的工作经验,难以将信用等级评价标准化。另一方面,现有的基于数学方法、统计学模型的新的信用评价方法虽然一定程度上降低了对评价人员自身业务经验的依赖,但由于各模型固有的缺点,评价精度还有待提高。


技术实现要素:

6.有鉴于此,本公开的实施例提供了一种企业信用等级评定方法、装置、电子设备和介质。本公开的实施例的企业信用等级评定方法基于k

fold交叉验证方法的stacking集成学习算法建立。通过本公开的实施例的企业信用等级评定方法、装置、电子设备和介质,充分利用样本数据信息,并将多种评价算法按照一定策略集成,减少了输入模型后的“过拟合”风险,突破了单一算法的瓶颈,提高了评价结果的准确度。
7.本公开的一个方面提供了一种企业信用等级评定方法,包括:获取样本企业信用评定特征数据;获取样本企业信用评定结果数据;标记所述样本企业信用评定特征数据和所述样本企业信用评定结果数据为第一训练数据集;基于所述第一训练数据集,通过预定算法训练得到所述企业信用等级评定模型;获取待评定企业的信用评定特征数据;以及将所述待评定企业的信用评定特征数据输入到企业信用等级评定模型中,得到输出的信用等级评定结果。其中,所述样本企业为与所述待评定企业相同类型的企业;所述预定算法包括基于k

fold交叉验证方法的stacking集成学习算法。
8.在某些实施例中,所述获取样本企业信用评定特征数据包括:基于企业类型及特点选取信用等级评定指标;以及根据所述信用等级评定指标获取所述样本企业信用评定特征数据。
9.在某些实施例中,信用等级评定指标包括定性指标和定量指标;所述定性指标包括竞争能力、管理水平、经营状况、信誉状况与融资能力中的至少一种;所述定量指标包括规模、偿债能力、杠杆比率、流动性、盈利性、运营能力、发展能力中的至少一种。
10.在某些实施例中,根据所述信用等级评定指标获取所述样本企业信用评定特征数据包括;获取样本企业定性指标和定量指标数据;将所述定性指标通过哑变量赋值,得到定性指标特征值;将所述定量指标数据进行归一化,获得定量指标特征值;以及,根据所述定性指标特征值、所述定量指标特征值和所述样本企业信用等级评定结果数据得到所述样本企业信用评定特征数据。
11.在某些实施例中,所述基于所述第一训练数据集,通过预定算法训练得到所述企业信用等级评定模型,具体包括:设定stacking集成学习算法模型,所述算法模型包括第一层学习器模型和第二层学习器模型,其中,所述第一层学习器模型包括n个不同的基模型,n为大于等于1的正整数;所述第二层学习器模型包括指定的集成模型;将样本企业信用评定特征数据标记为第一训练数据集,将所述第一训练数据集输入所述第一层学习器模型,利用k

fold交叉验证方法对所述第一层学习器的所述n个不同的基模型进行训练,得到用于输入所述第二层学习器模型的第二训练数据集;以及,利用所述第二训练数据集对所述第二层学习器模型进行训练,得到所述企业信用等级评定模型。
12.在某些实施例中,所述利用k

fold交叉验证方法对所述第一层学习器的所述n个基模型进行训练,得到用于输入所述第二层学习器模型的所述第二训练数据集,具体包括:将第一训练数据集分成第一训练集数据和第一测试集数据;将所述第一训练集数据分成k组,获得k个子集,标记为第一子集数据至第k子集数据;对第一层学习器中的第1个基模型进行第一训练模型训练,所述训练包括依次以第一子集数据至第k子集数据作为验证子集数据,其余k

1个子集数据为训练子集数据,对第1个基模型进行k轮训练,得到k个模型及其输出值;根据与第一训练模型相同的训练方法,对其余n

1个基模型进行训练,得到(n

1)
×
k个模型及其输出值;以及将获得的共计n
×
k个模型的输出值标记为第二训练数据集,其中,k的值基于企业类型及特点确定。
13.在某些实施例中,利用所述第二训练数据集对所述第二层学习器模型进行训练,得到所述企业信用等级评定模型包括:将所述第二训练数据集分为第二训练集数据和第二测试集数据;以及,利用所述第二训练集数据和所述第二测试集数据对第二层学习器指定的所述集成模型进行训练,得到所述企业信用等级评定模型,其中,所述企业信用等级评定模型为多元线性回归模型。
14.在某些实施例中,所述第一层学习器包括至少3个基模型,所述至少3个基模型包括逻辑回归模型、决策树模型以及gbdt模型。
15.在某些实施例中,所述第二层学习器中的指定的集成模型包括逻辑回归模型。
16.本公开的另一个方面提供了一种装置,包括:第一获取模块,配置为获取样本企业信用评定特征数据;第二获取模块,配置为获取样本企业信用评定结果数据;标记模块,配置为标记所述样本企业信用评定特征数据和所述样本企业信用评定结果数据为第一训练数据集;训练模块,配置为通过预定算法训练所述第一训练数据集数据,得到所述企业信用等级评定模型;第三获取模块,配置为获取待评定企业的信用评定特征数据;以及评定模块,配置为将所述待评定企业的信用评定特征数据输入到企业信用等级评定模型中,得到
输出的信用等级评定结果。
17.在某些实施例中,训练模块包括:设定子模块,配置为设定stacking集成学习算法模型,其中,所述算法包括第一层学习器模型和第二层学习器模型,其中,所述第一层学习器模型包括n个不同的基模型,n为大于等于1的正整数;所述第二层学习器模型包括指定的集成模型;第一训练子模块,配置为将所述第一训练数据集输入第一层学习器模型,利用k

fold交叉验证方法对所述第一层学习器的n个不同的基模型进行训练,得到用于输入第二层学习器模型的第二训练数据集;以及第二训练子模块,配置为利用所述第二训练数据集对所述第二层学习器模型进行训练,得到所述企业信用等级评定模型。
18.本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,所述存储装置用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现如上所述的方法。
19.本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
20.本公开的另一方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
21.在本公开的实施例中,通过引入k

fold交叉验证方法充分挖掘利用样本信息,减少输入模型后的“过拟合”风险。采用stacking集成学习的方式将多种评价算法集成,突破了单一算法的瓶颈,提高了评价结果的准确度。
附图说明
22.通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
23.图1示意性示出了根据本公开实施例的企业信用等级评定方法、装置、系统和电子设备的应用场景。
24.图2示意性示出了根据本公开实施例的可以应用方法、装置的示例性系统架构。
25.图3示意性示出了根据本公开的实施例的一种企业信用等级评定方法的流程图。
26.图4示意性示出了根据本公开另一些实施例提供的通过预定算法训练得到所述企业信用等级评定模型的方法的流程图。
27.图5示意性示出了根据本公开实施例的利用k

fold交叉验证方法对第一层学习器的基模型进行训练得到第二训练数据集的方法的流程图。
28.图6示意性示出了根据本公开实施例的利用第二训练数据集对第二层学习器模型进行训练,得到企业信用等级评定模型的流程图。
29.图7a示意性示出了根据本公开实施例的用于企业信用等级评定的装置的框图。
30.图7b示意性示出了根据本公开实施例的训练模块的装置的框图。
31.图8示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
32.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细
节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
33.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
34.在使用类似于“a、b或c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。
35.银行信贷业务对企业贷款额度的限定,主要依据信用等级评定进行,信用等级评定制度从根本上表明了企业违约风险的大小,相应的,评定结果的精准性直接影响了信贷投放风险的高低,决定银行资金是否能够健康运转。
36.对于金融企业客户,尤其是商业银行,目前的传统信用等级评价方法多从会计学角度出发进行评价预测,比如:以要素分析法为代表的5c要素分析法、5p要素分析法、财务比率分析法等。这些方法找到影响企业客户偿债能力的各项要素,并转换成相对应的会计指标,然后对这些会计指标进行计算,得到具体数值。再根据评价人员自身的经验将这些指标按照影响程度大小分别设置不同的权重,最终得到信用评价等级。然而,在实际工作中,影响信用等级评价的因素极其广泛,很难将所有影响因素都进行量化并转化为相对应的会计指标。同时基于会计角度的传统信用评价方法严重依赖于评价人员自身的工作经验,使得不同评价人员对同一家企业客户信用等级评价结果存在差异,难以将信用等级评价标准化,从而影响评定效率,提高业务成本。
37.随着人工智能技术的发展,最近几年,基于数学方法、统计学模型的新的信用评价方法也开始落地应用。比如:决策树、支持向量机(svm)、神经网络等机器学习方法或深度学习方法。虽然基于数学方法、统计学模型的新的信用评价方法虽然极大的降低了评价人员自身业务经验对评价结果的影响,但需要事先得到一定规模的经过标记的数据样本,且受限于模型本身的特点造成评价精度还有待提高,比如:决策树容易出现过拟合现象,需要配合“剪枝”操作,但“剪枝”依赖于经验选择;支持向量机(svm)对缺失数据过于敏感,对计算机算力资源消耗过大,且难以解释;神经网络想要提高准确性需要构建大量的参数,对计算资源要求较多,在某些应用场景下性价比不高,同时整个训练机制属于“黑箱”,难以解释。在此情况下,当使用单一的评价模型时,很容易由于模型的固有缺点造成数据信息未被充分利用,模型评价结果不够客观准确地问题。
38.本公开的实施例提供了一种企业信用等级评定方法。该企业信用等级评定方法包括:获取待评定企业的信用评定特征数据;以及将所述待评定企业的信用评定特征数据输入到企业信用等级评定模型中,得到输出的信用等级评定结果,其中,根据与待评定企业相同类型的样本企业信用评定特征数据通过预定算法训练得到所述企业信用等级评定模型;以及所述算法为基于k

fold交叉验证方法的stacking集成学习算法。
39.需要说明的是,本公开实施例提供的企业信用等级评定方法、装置、系统和电子设备可用于人工智能技术在企业信用等级评定相关方面,也可用于除人工智能之外的多种领域,如金融领域等。本公开实施例提供的企业信用等级评定方法、装置、系统和电子设备的应用领域不做限定。
40.以下将结合附图及其说明文字围绕实现本公开的至少一个目的的上述操作进行阐述。
41.图1示意性示出了根据本公开实施例的企业信用等级评定方法方法、装置、系统和电子设备的应用场景。
42.如图1所示,银行信贷业务在为企业办理贷款时,对贷款额度的限定要依据信用等级评定进行。目前的评定方法分为基于会计学的传统信用等级评价方法以及基于数学方法、统计学模型的新的信用评价方法。因此,银行可以基于上述两种方法中的一种或两种对企业进行信用等级评定。然而,当利用传统的评定方法时,评定方法本身需要找到影响企业客户偿债能力的各项要素,并转换成相对应的会计指标,然后对这些会计指标进行计算,得到具体数值。再根据评价人员自身的经验将这些指标按照影响程度大小分别设置不同的权重,最终得到信用评价等级。但在实际工作中,由于影响信用等级评价的因素极其广泛,很难将所有影响因素都进行量化并转化为相对应的会计指标。同时基于会计角度的传统信用评价方法严重依赖于评价人员自身的工作经验,人工成本较高。此外受限于经验和评价人员的背景知识,不同评价人员对同一家企业客户信用等级评价结果存在差异,难以获得较为客观和标准化的信用等级评价结果。
43.另一方面,在利用基于数学方法、统计学模型的新的信用评价方法,比如:决策树、支持向量机(svm)、神经网络等机器学习方法或深度学习方法进行评价时,也存在基于模型的固有缺陷。例如:决策树容易出现过拟合现象,需要配合“剪枝”操作,但“剪枝”依赖于经验选择;支持向量机(svm)对缺失数据过于敏感,对计算机算力资源消耗过大,且难以解释;神经网络想要提高准确性需要构建大量的参数,对计算资源要求较多,在某些应用场景下性价比不高,同时整个训练机制属于“黑箱”,难以解释。由于上述方法固有缺陷的存在,使得评价模型通常无法充分利用信用等级评定相关数据信息,且评价精度有待进一步提高。
44.因此,有必要建立一种新的基于数学方法、统计学模型的企业用户信用等级评定方法,以较大程度摆脱人为经验对于信用等级评价的干扰。通过建立多维度分析指标,将不同的评价算法通过某种优化策略组合起来,“博采众长”,克服单个信用等级评价模型固有的缺点,提高评价结果的准确度。
45.图2示意性示出了根据本公开实施例的可以应用方法、装置的示例性系统架构。需要注意的是,图2所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
46.如图2所示,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205。网络204用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
47.用户可以使用终端设备201、202、203通过网络204与服务器205交互,以接收或发送信息等。终端设备201、202、203可以具有录入企业信用等级评定请求、用于企业信用评定
的相关参数的功能,例如可录入待评定企业的信用评定特征数据,样本企业信用评定结果数据等特征信息。此外,终端设备201、202、203上还可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。
48.终端设备201、202、203包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机等等。
49.服务器205可以解析用户信息数据集合以得到企业信用评定的相关参数信息。服务器205可以为数据库服务器、后台管理服务器、服务器集群等。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如企业信用评定结果等)反馈给终端设备。
50.需要说明的是,本公开实施例所提供的方法一般可以由服务器205执行。相应地,本公开实施例所提供的装置一般可以设置于服务器205中。
51.应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
52.图3示意性示出了根据本公开的实施例的一种企业信用等级评定方法的流程图。
53.如图3所示,该方法可以包括操作s301~操作s306。
54.在操作s301,获取样本企业信用评定特征数据。
55.在本公开的实施例中,样本企业为与所述待评定企业相同类型的企业。样本企业的选取尽可能保证丰富性与代表性。例如,对于房地产企业,可以选择近10年内已经完成信贷业务的多个房地产企业作为样本企业。
56.企业信用等级评定特征数据用于表征企业财务状况和经营状况对其信用等级评定的影响。
57.在一些具体的实施例中,企业信用评定特征数据可以根据以下方法获得:基于企业类型及特点选取信用等级评定指标。根据所述信用等级评定指标获取所述样本企业信用评定特征数据。
58.在一些示例性的实施例中,可以根据企业的类型和特点进行信用等级评定指标的选取。例如,对于房地产企业,所选取的信用等级评定指标可以包括定性指标和定量指标。其中,定性指标可以包括竞争能力、管理水平、经营状况、信誉状况与融资能力等。定量指标可以包括规模、偿债能力、杠杆比率、流动性、盈利性、运营能力、发展能力等。
59.在一些示例性的实施例中,根据所述信用等级评定指标获取所述样本企业信用评定特征数据包括:获取样本企业定性指标和定量指标数据。将所述定性指标通过哑变量赋值,得到定性指标特征值。将所述定量指标数据进行归一化,获得定量指标特征值。根据所述定性指标特征值、所述定量指标特征值和所述样本企业信用等级评定结果数据得到所述样本企业信用评定特征数据。
60.在一个示例中,以房地产企业为例,根据前述实施例提取了四个定性指标,包括竞争能力、管理水平、经营状况、信誉状况与融资能力;七个定量指标,包括规模、偿债能力、杠杆比率、流动性、盈利性、运营能力、发展能力。
61.将定性指标通过哑变量赋值,具体可以根据以下方法进行:以“高”、“低”;“强”、“弱”等描述作为定性指标取值。用哑变量来表示“高”、“低”;“强”、“弱”。其中,哑变量取值
可以为0或1,具体来说,将“高”,“强”等上限指标赋值为1,“低”,“弱”等下限指标赋值为0,得到定性指标特征值。
62.定量指标以其具体数值作为取值。定量指标主要为发放贷款时对该企业各项财务指标及经营状况进行量化得分,将这些量化得分归一化后便得到定量指标特征值。归一化过程可以为:假设一共选择了n个企业作为样本,每个样本企业具有11个指标,则样本整体为n
×
11的矩阵,每个样本的第i个指标归一化公式如下式:
[0063][0064]
由此,便得到了定量指标特征值。
[0065]
上述定性指标特征值和定量指标值共同构成企业信用等级评定特征数据。
[0066]
对于选取为样本的企业,其企业信用等级评定特征数据即为样本企业信用等级评定特征数据。相应的,对于待评定信用等级的企业,按照上述方法获得的特征数据即为待评定企业信用等级评定特征数据。
[0067]
在操作s302,获取样本企业信用评定结果数据。
[0068]
在本公开的实施例中,由于样本企业信贷业务已经结束,可以对这笔信贷业务作出最终的结论,即对每个企业发放贷款时的信用等级评定进行修正,从而获得样本企业信用评定结果。样本企业信用评定结果数据可以分为6类,具体可以分为aaa,aa,a,bbb,bb,以及bb以下共6个级别,将这6个级别数量化,如表1所示,即获取样本企业信用评定结果数据。
[0069]
表1
[0070]
信用评级结果aaaaaabbbbbbb以下得分10.80.60.40.20
[0071]
在操作s303,标记样本企业信用评定特征数据和样本企业信用评定结果数据为第一训练数据集。
[0072]
在本公开的实施例中,样本企业信用评定特征数据和样本企业信用评定结果数据共同构成训练集数据以进行后续模型的训练。训练集数据可以以任何形式表示。作为示例的表示形式,对于样本企业i,竞争能力强、管理水平高、经营状况强、信誉状况与融资能力强,信用评级为aa,则企业i的训练数据具体形式为:{企业i,1,1,1,1,定量指标1,定量指标2......定量指标7,1}。
[0073]
在操作s304,基于所述第一训练数据集,通过预定算法训练得到所述企业信用等级评定模型。
[0074]
在本公开的实施例中,通过将样本企业信用评定特征数据以及样本企业信用等级评定结果数据作为训练数据集,经预定算法训练得到企业信用等级评定模型,可以建立对企业信用等级评定结果有影响的企业财务状况信息和经营状况信息与信用等级评定结果之间的关联,从而建立起标准化的评估模型,使得将待评定企业的信用评定特征数据输入后能够获得较为客观的信用等级评定结果。
[0075]
在本公开的实施例中,采用基于k

fold交叉验证方法的stacking集成学习算法训练得到企业信用等级评定模型。
[0076]
stacking集成学习方法是一种分层模型的集成框架。以结构分为二层为例,第一层模型被称为基础学习器,主要作用是利用训练数据训练模型,并根据模型得到预测结果。
第二层模型根据第一层模型的学习结果再进一步学习,也就是学习如何更好地结合基本模型的预测结果的模型。与其他主要的集成学习比较其主要优势为:与bagging集成学习算法不同,stacking集成学习的模型不都是决策树,克服了决策树需要剪枝等缺点,并且训练数据全部来自于同一数据集,数据特征分布更广泛和均衡,有利于减少过拟合的概率;与boosting集成学习相比,不需要考虑具体的权重调节方法,因而不需要对已经训练完的模型进行校正,迭代过程和计算量会较小。由于stacking集成学习使用多个不同的机器学习模型,可以保证模型所做的预测中的误差是不相关的,或者相关性很低。在训练数据时,不同的模型就能按照各自特点提取(学习)出数据中的有用信息,这样,整个样本的提取(学习)就比单一机器学习模型更充分和全面。stacking集成学习通过不同模型的组合能够有效提升整体的泛化性,减少过拟合的风险,从而提高模型精度。
[0077]
在训练过程中,为了进一步避免过拟合的问题,引入k

fold交叉验证方法。k

fold交叉验证方法将构成训练时的训练集和测试集数据中的训练集数据做进一步划分,分离出一部分验证集数据,验证数据取自训练集数据,但不参与训练,这样可以相对客观评估模型对于训练集之外数据的匹配程度。通过将原始训练数据分成k组,将每个子集数据分别做一次验证集,其余k

1组子集数据作为训练集,得到k个模型,这k个模型分别验证集中评估结果,得到交叉验证误差。k

fold交叉验证方法能够有效利用有限的数据,并且评估结果能够尽可能接近模型在测试集上的表现,从而提升了模型的泛化能力。
[0078]
为了克服现有技术中仅采用单一算法对企业信用等级进行评定的固有缺点和不足,本实施例选择基于k

fold交叉验证方法的stacking集成学习算法作为模型训练方法,克服单个算法的瓶颈,并有效利用训练数据,充分挖掘样本信息,减少输入模型后的“过拟合”风险,进一步提高基于企业信用等级评定模型的准确性。
[0079]
在操作s305,获取待评定企业的信用评定特征数据。
[0080]
在操作s306,将所述待评定企业的信用评定特征数据输入到企业信用等级评定模型中,得到输出的信用等级评定结果。
[0081]
根据本公开的实施例,建立了一种新的基于数学方法、统计学模型的企业用户信用等级评定方法,在较大程度摆脱人为经验对于信用等级评价的干扰的同时,通过建立多维度分析指标,采用stacking集成学习的方式将各种评价算法按照某种策略集成起来,突破了单一算法瓶颈。通过引入k

fold交叉验证方法,对样本数据进行分组以充分挖掘利用样本信息,减少输入模型后的“过拟合”风险,提高了评价结果的准确度。
[0082]
本公开另一些实施例提供了一种通过预定算法训练得到所述企业信用等级评定模型的方法。
[0083]
图4示意性示出了根据本公开另一些实施例提供的通过预定算法训练得到所述企业信用等级评定模型的方法的流程图。
[0084]
如图4所示,该方法可以包括操作s401~操作s403。
[0085]
在操作s401,设定stacking集成学习算法模型。
[0086]
根据本公开实施例,算法模型包括第一层学习器模型和第二层学习器模型。其中,第一层学习器模型包括n个不同的基模型,n为大于等于1的正整数。第二层学习器模型为指定的集成模型。
[0087]
在一些具体的实施例中,第一层学习器的基模型可以包括但不限于lr模型,决策
树模型,gbdt模型,随机森林模型,svm模型,elm模型,adaboost模型,knn模型等;第二层学习器指定的集成模型可以包括但不限于xgboost模型,lr模型等。
[0088]
在一些示例性的实施例中,根据本公开实施例的模型用于企业信用等级评定的特定场景,结合企业信用等级评定指标的种类,可以选择以逻辑回归模型(lr模型)、决策树模型、以及gbdt模型作为第一层学习器的基模型;选择lr模型作为第二层学习器的集成模型。lr模型训练迭代较快,选择lr模型能减少模型计算量,使信贷评级的计算量大大减少。决策树是泛化能力较强的模型,可以适应信贷业务领域复杂的应用场景和多样化的数据结构。gbdt是在决策树基础上将决策树模型通过梯度下降目标函数结合起来的模型,可以弥补特殊信贷评级业务场景下决策树的不足,且gbdt基础的决策树模型上一步已经训练出来了,可以降低开发测试过程的工作量。第二层选择的lr模型适合有监督学习,迭代训练较快,模型结构清晰(输出结果可从概率角度解释),适合作为第二层的最终学习器。由于第一层的三个基模型已经完成了标记,且输入数据的特征已经经过处理,特征空间不是很大,特征间无相关性,这些特点都利于在第二层选择lr模型作为最终的学习器。
[0089]
在示例性的实施例中,各基础学习器模型主要训练过程如下:
[0090]
(1)lr模型为多元线性回归模型,具体形式为y=βx+ε
ꢀꢀꢀꢀ
(1)
[0091]
其中,x为输入样本(自变量)组成的向量,在本示例性实施例中,以房地产企业为例,定性指标特征值和定量指标特征值(即特征变量)共有11个,则x为11维,β为11维的系数向量,ε为11维的随机向量,使用最小二乘法将第一步选择好的训练数据输入便得到训练好的lr模型。
[0092]
(2)决策树模型
[0093]
决策树模型一般使用cart决策树,其训练过程如下:
[0094]
step1:设对于样本i,x
i
为样本特征变量部分(输入值,此处为样本企业信用评定特征数据),y
i
为样本标记(输出值,此处为样本企业信用评定结果数据)。对于每一个特征变量j(根据本示例性的实施例,样本选择一共有11个特征变量)选择最优切分点s,选择切分的依据是:
[0095][0096]
选择使式(2)取得最小值的对(j,s)。式(1)中,r1(j,s),r2(j,s)为根据对(j,s)切分出的两个区域,c1为r1(j,s)区域数据样本输出均值,c2为r2(j,s)区域数据样本输出均值。
[0097]
step2:用选定的(j,s)划分区域并计算出相应的输出值:
[0098]
r1(j,s)={x|x
(j)
≤s}
ꢀꢀꢀꢀꢀꢀ
(2

1)
[0099]
r2(j,s)={x|x
(j)
>s}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2

2)
[0100][0101]
式(4)中,n
m
为第m个区域中的样本个数,c
m
为第m个区域中数据样本输出均值。
[0102]
step3:对step1和step2循环,继续对两个子区域r1(j,s),r2(j,s)进行划分,直到满足停止条件。停止条件可以为寻找到对于每一个特征项j的最优切分点s。
[0103]
step4:基于m个特征项寻找到的m个最优切分点(此处m=11),将输出空间划分为m个区域r1,r2...r
m
,生成决策树:
[0104][0105][0106]
式(4)即为cart决策树决策树的具体形式。i为第m个区域的样本集合函数。
[0107]
(3)gbdt模型
[0108]
在第二部分训练出决策树的基础上可以训练gbdt模型,gbdt模型是在决策树基础上,经过多轮训练,利用boosting策略去把多个决策树合在一起组成一个强学习器,这个强学习器就是最终的gbdt模型。设第t轮后训练出的弱学习器为h
t
(x),这个弱学习器为一个决策树模型,训练过程见式(2)

(4),则强学习器为f
t
(x)。其中,x为样本输入值,即样本企业信用评定特征数据,y为样本实际输出值,即样本企业信用评定结果数据。
[0109]
f
t
(x)=f
t
‑1(x)+h
t
(x),t=1,2...n
ꢀꢀꢀꢀꢀꢀ
(5)
[0110]
式(5)中,n为训练迭代次数。
[0111]
设损失函数为l(y,f
t
(x)),根据梯度下降的思想,为了使损失函数迅速下降取得最小,则
[0112][0113]
其中为损失函数的梯度,d为学习率,防止过拟合。结合式(5)和(6)可知利用损失函数的梯度负值去训练弱学习器就可以使损失函数快速的减小。最终gbdt算法的过程:
[0114]
step1:通过式(2)

(4)得到初始化弱学习器f0(x)。
[0115]
step2:选择损失函数
[0116][0117]
式(7)中,i为输入样本的编号,即第i个样本。
[0118]
对第t轮训练,t=1,2...n,每个样本x
i
,i=1,2...n,计算梯度的负值代替残差
[0119][0120]
式(8)中,n为最大训练迭代次数。
[0121]
利用(x
i
,r
it
)训练出新的弱学习器h
t
(x),h
t
(x)包含区域r
jt
,j=1,2...j,j为h
t
(x)叶子节点的个数。对r
jt
计算最佳拟合值
[0122][0123]
式(9)中,为第一个弱学习器f0(x)的回归结果。
[0124]
更新学习器f
t
(x)
[0125][0126][0127]
式(10)中,i为r
jt
区域样本集合函数。
[0128]
step3:不断循环step2,直到达到停止条件,得到最终学习器f(x)
[0129][0130]
式(11)即为得到的gbdt模型,它是一系列决策树模型的线性组合。

[0131]
在本示例性的实施例中,基于企业信用等级评定的特定应用场景,结合样本数据的特性,选择了特定的基模型和集成模型类型,减少了数据处理过程中的计算量,提高了最终所获得的企业信用等级评定模型对于业务场景的适应能力和评价精度。
[0132]
在操作s402,将样本企业信用评定特征数据和样本企业信用评定结果数据作为第一训练数据集输入所述第一层学习器模型,利用k

fold交叉验证方法对所述第一层学习器的所述n个不同的基模型进行训练,得到用于输入所述第二层学习器模型的第二训练数据集。
[0133]
图5示意性示出了根据本公开实施例的利用k

fold交叉验证方法对第一层学习器的基模型进行训练得到第二训练数据集的方法的流程图。
[0134]
如图5所示,该方法可以包括操作s501~操作s505。
[0135]
在操作s501,将第一训练数据集分成第一训练集数据和第一测试集数据。
[0136]
在操作s502,将第一训练集数据分成k组,获得k个子集,标记为第一子集数据至第k子集数据。
[0137]
在本公开的实施例中,k的值可以基于企业类型及特点以及评定指标的选择而确定。例如,k可以取值为5。
[0138]
在操作s503,对第一层学习器中的第1个基模型进行第一训练模型训练。
[0139]
在本公开的实施例中,进行第一训练模型训练包括:依次以第一子集数据至第k子集数据作为验证子集数据,其余k

1个子集数据为训练子集数据,对第1个基模型进行k轮训练,得到k个模型及其输出值。
[0140]
在操作s504,根据与第一训练模型相同的训练方法,对其余n

1个基模型进行训练,得到(n

1)
×
k个模型及其输出值。
[0141]
在操作s505,将获得的共计n
×
k个模型的输出值标记为第二训练数据集。
[0142]
在本公开的实施例中,获得第二训练数据集后,返回到操作s403。
[0143]
在操作s403,利用所述第二训练数据集对所述第二层学习器模型进行训练,得到所述企业信用等级评定模型。
[0144]
图6示意性示出了根据本公开实施例的利用第二训练数据集对第二层学习器模型进行训练,得到企业信用等级评定模型的流程图。
[0145]
如图6所示,该方法可以包括操作s601~操作s602。
[0146]
在操作s601中,将所述第二训练数据集分为第二训练集数据和第二测试集数据。
[0147]
在操作s602中,利用第二训练集数据和第二测试集数据对第二层学习器预设的所述集成模型进行训练,得到所述企业信用等级评定模型。
[0148]
在本公开的实施例中,企业信用等级评定模型可以为多元线性回归模型。
[0149]
在一些示例性的实施例中,利用基于k

fold交叉验证方法的stacking集成学习算法得到企业信用等级评定模型的具体过程可以包括:
[0150]
设第一训练数据集一共n个,其中训练集n1个,测试集n2个,则有
[0151]
n=n1+n2ꢀꢀꢀꢀꢀꢀ
(12)
[0152]
将训练集分成5组,每次选择一组作为验证集,则第i次验证集数据为n
1i
,对应的训练集数据集为
[0153][0154][0155][0156]
将输入第一个模型lr,得到训练好的lr模型,然后用验证集n
1i
进行验证,输出结果集同时,将测试集输入训练好的lr模型,得到测试结果集这样一共训练5次,得到5组验证结果集和5组测试结果集
[0157][0158]
对第一层的其余2个模型都进行上述操作,最终得到全部验证结果集和全部测试结果集将y1作为新的训练集,y2作为新的测试集,去训练第二层的逻辑回归模型,最后得到的逻辑回归模型就是最终用于对企业客户信用等级评定的分类模型。
[0159]
在一个示例中,利用企业信用等级评定模型对企业信用等级进行评定的过程可以包括:
[0160]
对于房地产企业b,获取其企业信用评定特征数据,数据格式为{企业b,1,1,1,1,定量指标1,定量指标2....定量指标},将上述企业信用评定特征数据输入企业信用等级评定模型,输出结果为一个在值域为[0,1]之间的值,查询该值在表1中的相对位置,获得评定结果。具体的,该值在表1中越接近哪个值,则分类结果就属于哪一类。比如输出为0.98,离1最近,则信用评级为aaa。即利用企业信用等级评定模型对房地产企业b的信用等级评定结果为aaa。
[0161]
本公开的另一些实施例提供了一种用于企业信用等级评定的装置。
[0162]
图7a示意性示出了根据本公开实施例的用于企业信用等级评定的装置的框图。
[0163]
如图7a所示,本公开实施例的企业信用等级评定的装置700可以包括第一获取模块701,第二获取模块702,标记模块703,训练模块704,第三获取模块705,评定模块706。
[0164]
其中,第一获取模块701被配置为获取样本企业信用评定特征数据。
[0165]
第二获取模块702被配置为获取样本企业信用评定结果数据。
[0166]
标记模块703被配置为标记所述样本企业信用评定特征数据和所述样本企业信用评定结果数据为第一训练数据集。
[0167]
训练模块704被配置为基于所述第一训练数据集,通过预定算法训练得到所述企业信用等级评定模型。
[0168]
第三获取模块705被配置为获取待评定企业的信用评定特征数据。
[0169]
评定模块706配置为将所述待评定企业的信用评定特征数据输入到企业信用等级评定模型中,得到输出的信用等级评定结果。
[0170]
本公开的再一实施例提供了一种训练模块的装置。
[0171]
图7b示意性示出了根据本公开实施例的训练模块的装置的框图。
[0172]
如图7b所示,本公开实施例的训练模块的装置704可以包括设定子模块7041,第一训练子模块7042,第二训练子模块7043。
[0173]
其中,设定子模块7041被配置为设定stacking集成学习算法模型。包括第一层学习器模型和第二层学习器模型。第一层学习器模型包括n个不同的基模型,n为大于等于1的正整数。第二层学习器模型包括指定的集成模型。
[0174]
第一训练子模块7042被配置为将第一训练数据集输入第一层学习器模型,利用k

fold交叉验证方法对所述第一层学习器的n个不同的基模型进行训练,得到用于输入第二层学习器模型的第二训练数据集。
[0175]
第二训练子模块7043被配置为利用所述第二训练数据集对所述第二层学习器模型进行训练,得到所述企业信用等级评定模型。
[0176]
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似。
[0177]
根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0178]
例如,第一模块701,第二获取模块702,标记模块703,训练模块704,第三获取模块705,评定模块706,设定子模块7041,第一训练子模块7042,第二训练子模块7043中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并
在一个模块中实现。根据本公开的实施例,第一模块701,第二获取模块702,标记模块703,训练模块704,第三获取模块705,评定模块706,设定子模块7041,第一训练子模块7042,第二训练子模块7043中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一模块701,第二获取模块702,标记模块703,训练模块704,第三获取模块705,评定模块706,设定子模块7041,第一训练子模块7042,第二训练子模块7043中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0179]
图8示意性示出了根据本公开实施例的电子设备的方框图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0180]
如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0181]
在ram 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、rom 802以及ram 803通过总线804彼此相连。处理器801通过执行rom 802和/或ram 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 802和ram 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0182]
根据本公开的实施例,电子设备800还可以包括输入/输出(i/o)接口805,输入/输出(i/o)接口805也连接至总线804。电子设备800还可以包括连接至i/o接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0183]
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0184]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实
施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0185]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 802和/或ram 803和/或rom 802和ram 803以外的一个或多个存储器。
[0186]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0187]
本公开还提供了一种计算机程序产品,该计算机程序包括一个或者多个程序。上述方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0188]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0189]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1