基于样本迁移学习的中小微企业信用评价方法与流程

文档序号:26009887发布日期:2021-07-23 21:29阅读:146来源:国知局
基于样本迁移学习的中小微企业信用评价方法与流程
本发明涉及企业信用评价
技术领域
,具体涉及一种基于样本迁移学习的中小微企业信用评价方法。
背景技术
:模型样本是否充足直接关系到模型的预测精度。在企业信用评价
技术领域
,多采用传统的机器学习技术对样本充足的行业门类(比如制造业为门类行业,制造业下的模具行业为小类行业)企业进行信用评价建模,而对于样本不足的小类行业企业(一般为中小微企业)难以训练得到具有较高信用评价准确度的企业信用评价模型。比如,部分行业(尤其是小类细分行业如模具行业)存在样本量严重不足、违约样本量过少、违约与非违约样本的数量比例极度不平衡等问题,导致无法直接基于大数据决策模型对处于这些细分行业的中小微企业进行准确地的信用评价。由于难以真实反映出样本不足的中小微企业的实际资信水平,地方金融机构缺乏对这些中小微企业的批贷依据,所以这些中小微企业在申请贷款时,审批过程往往更加复杂,审批周期也相对较长,且更容易被银行拒贷,同时金融机构也难以扩展实际资信良好地中小微企业这一目标客群,所以迫切需要一种能够真实准确地反映出样本不足的中小微企业的实际资信水平的企业信用评价方法。技术实现要素:本发明以真实准确地反映出样本不足的中小微企业的实际资信水平为目的,提供了一种基于样本迁移学习的中小微企业信用评价方法。为达此目的,本发明采用以下技术方案:提供一种基于样本迁移学习的中小微企业信用评价方法,具体步骤包括:1)合并获取到的目标域数据和源域数据,并对合并数据进行数据预处理和特征衍生;2)拆分完成特征衍生的所述合并数据,得到样本扩充后的所述目标域数据和所述源域数据;3)对拆分得到的所述源域数据进行特征分箱和筛选降维处理;4)将经特征分箱和筛选降维后的所述源域数据迁移到步骤2)拆分得到的所述目标域数据中,并分别以所述源域数据、所述目标域数据为训练集和测试集,训练形成企业信用评分模型;5)将获取的原始目标域数据输入到所述企业信用评分模型中,预测输出中小微企业的信用评分。作为本发明的一种优选方案,步骤1)中,对所述合并数据进行数据清洗包括对所述合并数据进行缺失值处理和/或异常值处理。作为本发明的一种优选方案,步骤1)中,对所述合并数据进行特征衍生包括对记录型特征、统计型特征以及除所述记录型特征和所述统计型特征外的其他类型特征中的任意一种或多种特征进行特征衍生;所述统计型特征包括数量大小统计特征、数据波动情况统计特征和数据变化情况统计特征中的任意一种或多种;所述数量大小统计特征包括均值统计特征、最大值统计特征和总和统计特征中的任意一种或多种;所述数据波动情况统计特征包括方差统计特征和/或波动率统计特征;所述数据变化情况统计特征包括增长率统计特征和/或趋势统计特征。作为本发明的一种优选方案,完成步骤1)的特征衍生后,还需要检测并删除无效样本,检测并删除所述无效样本的方法为:判断正常企业样本中是否存在变量取值缺失比例大于70%的样本,或者违约企业样本中是否存在变量取值缺失比例大于80%的样本,若是,则将所述样本视为无效样本并删除;若否,则保留所述样本。作为本发明的一种优选方案,步骤3)中,对所述源域数据进行特征分箱的方法步骤具体包括:3.1)将所述源域数据中各变量的空值单独分为一箱,然后对各所述变量的非空部分进行特征分箱,并通过以下公式(1)和公式(2)分别计算每个分箱i对应的woe值及单箱iv值;公式(1)中,woei表示分箱i对应的woe值;#bi是所述分箱i中违约企业的个数;#gi是所述分箱i中正常企业的个数;#bt是所有违约企业的个数;#gt是所有正常企业的个数;公式(2)中,ivi表示所述分箱i对应的iv值;3.2)判断各所述变量是否需要进行特征分箱调整,若是,则对所述变量进行特征分箱调整;若否,则完成对所述变量的特征分箱。作为本发明的一种优选方案,步骤3.1)中,对非空的连续变量进行特征分箱的方法步骤为:3.11)对所述连续变量进行数据分割,得到多个分割点,遍历每个所述分割点,然后计算以各所述分割点为分箱划分点进行特征分箱后的所述连续变量对应的所述iv值;3.12)计算分割点划分后的所述连续变量对应的iv值相对于划分前对应的所述iv值的增量c;3.13)判断所述增量c是否大于预设的所述增量阈值,若是,则以所述分割点为划分点对所述连续变量的非空部分进行特征分箱;若否,则不以所述分割点为划分点对所述连续变量的非空部分进行特征分箱。作为本发明的一种优选方案,所述增量阈值为0.01。作为本发明的一种优选方案,每个所述分箱i中的样本数不少于所述源域数据中的非空数据量的20%,且每个所述分箱i中至少包括一个正样本和一个负样本。作为本发明的一种优选方案,步骤3.2)中,判断各所述变量是否需要进行特征分箱调整的方法为:判断变量在对应分箱的所述woe值是否随着变量取值的增加呈现单调变化或u型趋势变化,若是,则判定该变量不需要进行特征分箱调整;若否,则判定该变量需要进行分箱调整。作为本发明的一种优选方案,在进行分箱调整中,若所述分箱i中的非空数据量从10%逐渐增加到50%的过程中,所述变量在对应分箱i的所述woe值仍未随着变量取值的增加呈现单调变化或u型变化趋势,则舍弃该所述变量。作为本发明的一种优选方案,步骤3)中,对所述变量进行筛选降维的方法为:判断各所述变量对应的iv值是否大于预设的iv阈值,若是,则保留所述变量;若否,则剔除所述变量。作为本发明的一种优选方案,步骤3)中,对各所述变量进行筛选降维的方法为:判断各所述变量间的相关性是否大于预设的相关性阈值,若是,则剔除相关性大于所述相关性阈值的各所述变量;若否,则保留所述变量。作为本发明的一种优选方案,步骤4)中,采用kliep迁移学习技术训练得到所述企业信用评分模型。本发明具有以下有益效果:1、本发明基于迁移学习技术,训练得到针对样本不足的中小微企业的信用评分模型,该信用评分模型能够准确预测样本不足行业的企业资信水平,破解了以往难以对样本不足的中小微企业做出准确地信用评价的难题;2、通过本发明训练而得的企业信用评分模型对样本不足行业的中小微企业进行信用评分,有利于金融机构精准筛选出达到贷款准入条件的企业客户群,帮助其精准获客,扩大了中小微企业客户群体;3、本发明训练而得的企业信用评分模型能够真实准确地反映出样本不足的中小微企业的实际资信水平,可帮助金融机构提高自身风控环节的决策效率,为金融机构的贷款审批提供了科学依据,有利于避免金融机构错失潜在的守信中小微企业客户群体。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例提供的基于样本迁移学习的中小微企业信用评价方法的实现步骤图;图2是本发明实施例提供的中小微企业信用评价方法的流程框图;图3是对源域数据进行特征分箱的方法步骤图;图4是对非空的连续变量进行特征分箱的方法步骤图;图5是经迁移学习得到的企业信用评分模型对中小微企业进行信用评分的评分结果分布图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。本发明实施例以对模具行业的中小微企业进行信用评价为例,依据企业所在地区金融服务信用信息共享平台的企业数据,从企业生产经营、企业营收纳税、企业授信信息、企业基本信息、企业风险行为等多个维度,构建若干企业信用评价指标,并结合机器学习和迁移学习技术,提出先利用机器学习构建门类行业(比如模具行业为制造业的小类行业,制造业为模具行业的门类行业,这里的门类行业为一个宽泛的概念,将小类以上的中类、大类以及门类行业统称为“门类行业”)的企业信用评分模型,然后通过迁移学习技术将适用门类行业的该企业信用评分模型迁移到目标小类行业,因此有效解决了因目标小类行业样本量过少或者正负样本(违约企业数据为负样本,未违约企业数据为正样本)比例不平衡而无法应用大数据对中小微企业进行资信评估的问题。本发明为评价样本不足的中小微企业的资信水平提供的技术方案包括以下四大块内容:1)建模样本的获取;2)建模样本数据预处理;3)特征工程;4)模型构建与验证评估。本实施例中,经评估最终确定的模型评价指标为29个,29个评价指标覆盖企业生产经营、企业应收纳税、企业授信信息和企业基本信息四大数据维度。以下结合附图对本发明实施例提供的基于样本迁移学习的中小微企业信用评价方法的实现过程进行具体阐述。如图1和图2所示,本实施例提供的中小微企业信用评价方法包括如下步骤:步骤1)合并获取到的目标域数据与源域数据合并,并对合并数据进行数据预处理和特征衍生;目标域数据为样本不足的小类行业数据(比如为模具行业的企业数据),源域数据为样本充足的与小类行业具有行业相关性的门类行业数据(比如制造业的企业数据);在样本数据选取中,首先选取出目标域数据。本实施例中,根据2017年修订的《国民经济行业分类》,选择在工商局企业登记表中登记行业为“模具行业”(行业编号为3525)的企业数据作为模型的目标域数据。由于要利用迁移学习技术进行建模,在获取目标域数据(目标行业数据)后,还需要样本充足的源域数据,这里选择同为制造业但为非模具行业的企业数据作为源域数据。归属于制造业的企业的企业数据为行业编号前两位在13-43之间的行业企业数据。另外,对于未发生过贷款记录的企业,无法判断其为违约企业(比如将贷款逾期的企业视为违约企业)或正常企业,难以利用这类样本数据进行模型训练,因此,基于金融机构企业授信表中的信息,只选取存在贷款记录的企业数据,以保证每个样本存在违约企业/正常企业的标签。由于迁移学习技术只是对数据分布差异进行处理,所以要求源域数据和目标域数据的特征定义相同,因此在对样本数据进行数据预处理和特征衍生时,需要将目标域数据和源域数据合并进行相同处理。所以本实施例提供的中小微企业信用评价方法的第一步为:将获取到的目标域数据和源域数据合并。另外需要说明的是,由于样本数据的业务发生时间信息可能并不完善,且可能存在一些样本数据在时间轴上存在明显异常,为了能够获取稳定的数据,本发明考虑选取一年(12个月)作为样本表现窗口期,三年(36个月)作为样本观察窗口期。以2018年的样本数据为例,将2018年间发生不良贷款的企业视为违约企业,然后通过观察2016年-2018年三年间企业的各个变量情况来进行评分卡的建模。在之后的特征工程部分,会根据此时窗口期的选取,进行特征衍生。为了扩大样本量以获取更多信息,我们考虑了三个不同时间跨度的样本窗口,比如以2018年作为表现窗口期,2016-2018年作为观察窗口期;以2019年作为表现窗口期,2017年-2019年作为观察窗口期;以2020年作为表现窗口期,2018年-2020年作为观察窗口期。然后,分别根据这三个不同的样本窗口来进行特征工程得到建模所需的样本特征,并获取每条样本对应的违约标签。之后,将三个样本窗口数据进行汇总合并,得到最终的样本数据集。本实施例中,对合并数据进行数据预处理主要包括对数据的缺失值处理和异常值处理。数据缺失值处理对于原始数据表中单条记录的部分变量缺失,比如在授信额度原始表中,单条记录可能会存在“授信额度”缺失,但“已用授信额度”“授信金融机构”“生效起始日期”“效力终止日期”等变量非缺失,对于此类缺失,应根据不同的缺失情况采取不同的处理方法。如果缺失的变量过多或者金额、数量等重要变量全部缺失,则将该条记录删除;如果缺失的变量较少,且有部分重要变量非缺失,则保留该条记录,以便后续对这些缺失值进行单独的特征分箱处理,以增加评分卡的适用性。对于整合数据表造成的部分变量缺失,一般情况下,造成该类缺失的原因为企业未发生相应的实际业务,所以通常不对该类缺失进行缺失值填充,以便后续对这些缺失值进行单独的特征分箱处理。数据异常值处理数据异常值处理主要为将异常值替换为缺失值以及对异常值进行校正。将异常值替换为缺失值比如为,在将数据识别为异常值后,如果无法通过同个表格中的其他信息对该异常值进行正常值推断填补,则直接将该异常值替换为缺失值。比如对于“企业销售收入信息”这一数据,原始数据表中可能会出现企业销售收入为负数的情况,且无法通过该表中的其他信息推断出正常值,因此将企业销售收入的“负值”标记为异常值,并将其直接替换为缺失值。对异常值的校正则主要根据其他信息进行填补。比如将某一数据的数值识别为异常值后,如果能够通过表中的其他信息推断出正常值,那么将该异常值填补为符合逻辑的正常值。比如,对于“企业房管债权数额信息”这一数据,在原始数据表中,同一家企业在不同的数据入库时间段中所记录的数据,其数量单位可能会不一致。比如,同一家企业存在两条记录:3287和32870000,可以将其理解为3287万元和32870000元,为了统一数据单位,可以将“32870000”标记为异常值,并将其除以10000所得到的结果作为正常值对异常值“32870000”进行填补。本实施例中,对目标域数据和源域数据进行特征衍生包括对记录型特征、统计型特征以及除记录型特征和统计型特征外的其他类型特征中的任意一种或多种特征进行特征衍生。以下对记录型、统计型以及其他类型特征的衍生方法进行分别举例说明:对记录型特征的衍生对于每个记录型特征,首先关注企业是否发生过该记录型特征对应的业务,或者说有无该业务的发生记录,如果企业存在该业务的相关记录,则记为1,反之记为0。比如对于“企业注销情况”这一记录型特征,原始数据表中一般只会记录曾经有过注销记录的企业的相关信息(比如a企业曾经办理过注销业务)。对于“企业注销情况”这一记录型特征的衍生方式可以为:将企业有过注销记录,记为1,反之记为0。对统计型特征的衍生本发明重点关注与数量、金额相关的变量,通过设定不同的时间跨度,生成近三年样本数据和近一年样本数据的一系列统计特征。统计型特征主要包括数量大小统计特征、数据波动情况统计特征和数据变化情况统计特征。数量大小统计特征又主要包括均值统计特征(均值描述了企业单次业务发生金额或数量平均水平)、最大值统计特征(最大值描述了企业单次业务发生的金额或数量的最高水平)和总和统计特征(总和描述了企业在目标时间跨度内业务发生金额或数量的累加值);数据波动情况统计特征又主要包括方差统计特征和波动率统计特征(波动情况统计特征描述了在目标时间跨度内单次业务发生金额或数量对于其均值的偏离程度)。以月度数据为例,波动率计算公式如下:数据变化情况统计特征又主要包括增长率统计特征和趋势统计特征。增长率主要衡量近两年年均值的数量变化情况,如企业的用电量数据,假定选取的样本窗口期为2016-2018年,则企业的电量年度变化增长率可以由以下公式计算而得:趋势主要是在增长率的基础上提取数值增加或减少的信息。具体而言,如果某变量在2018年的业务发生均值大于其2017年的业务发生均值,则该变量呈现增加趋势,并将该变量的趋势统计特征记为1,反之则记为0。对其他类型特征的衍生其他类型特征比如为企业基本信息特征(比如企业的注册资本以及存续年限),对于其他类型特征的衍生方法在此不做阐述。完成了步骤3)的特征衍生之后,源域数据和目标域数据合起来比如一共得到40646个样本,包含56个预测变量以及1个目标变量(标签)。其中标记为违约企业(标签为“1”)的样本有657个,标记为正常企业(标签为“0”)的样本为39989个,0-1样本的比例高达60.9:1(违约与非违约样本的比例极度不平衡),同时可能存在部分样本缺失比较严重的情况,这些都会影响最终训练而得的企业信用评分模型的预测精度。为了在保证违约企业样本数量的前提下降低0-1样本的比例,同时降低无效样本(缺失严重的样本)对后续建模的影响,在完成特征衍生后,还需要检测并删除无效样本。发明检测并删除无效样本的方法优选为:判断正常企业样本中是否存在变量取值缺失比例大于70%的样本,或者违约企业样本中是否存在变量取值缺失比例大于80%的样本(考虑到1标签样本的稀缺性以及重要性,对0-1样本设置了不同的无效样本删除条件),若是,则将该样本视为无效样本并删除;若否,则保留该样本。进行无效样本删除后,样本量从40646个减少到38253个,其中违约企业的样本为621个,正常企业的样本为37632个,0-1样本的比例下降为60.6:1。由于本发明是引入迁移学习技术构建针对中小微企业的企业信用评分模型,因此在完成特征衍生后,需要将目标域数据和源域数据进行拆分,以便以源域数据预测目标域数据的目标变量的值。所以,如图1所示,本实施例提供的中小微企业信用评价方法还包括:步骤2)拆分完成特征衍生的合并数据,得到样本扩充后的目标域数据和源域数据;本实施例中,数据拆分后,源域数据共有36558条,其中违约企业的样本为603个,正常企业的样本为35955个;目标域数据共有1695条,其中违约企业的样本为18个,正常企业的样本为1677个。步骤3)对拆分得到的源域数据进行特征分箱和筛选降维处理;特征分箱是为了将连续变量离散化,以利于模型迭代;筛选降维是为了减少样本数据量,以提升模型训练速度。需要重点说明的是,由于目标域数据本身就样本不足,比较稀缺,所以不对目标域数据进行特征分箱和特征筛选,特征分箱和筛选降维的对象都为源域数据。本实施例选择有监督的决策树分箱方法对变量进行特征分箱,其原理为在变量上构造树模型,该分箱方式充分考虑了数据分布和标签信息,更有利于后续的模型训练。对源域数据进行特征分箱的具体方法步骤如图3所示,包括:步骤3.1)将源域数据中各变量的空值单独分为一箱,然后对各变量的非空部分进行特征分箱,并通过以下公式(1)和公式(2)分别计算每个分箱i对应的woe值及单箱iv值;公式(1)中,woei表示分箱i对应的woe值;#bi是分箱i中违约企业(标签为1)的个数;#gi是分箱i中正常企业(标签为0)的个数;#bt是所有违约企业的个数;#gt是所有正常企业的个数;分箱i中违约企业占比越大,woei值越大,woei的取值范围为[-∞,+∞];公式(2)中,ivi表示分箱i对应的iv值;分箱i中违约企业和正常企业的比例与所有违约企业和所有正常企业的比例相差越大,ivi值越大。变量对应的iv值为其所有特征分箱的iv值之和,计算公式为:n为变量的特征分箱数量;需要说明的是,本发明并不对非空的离散变量进行特征分箱,对非空离散变量的处理方式比如为:若为有序型离散变量,例如,学历:小学、初中、高中、本科,则可以对应转化为1、2、3、4;若为无序型离散变量,例如,年龄:男、女,则对应转化为1、0。而对非空的连续变量进行特征分箱的方法步骤如图4所示,具体包括:步骤3.11)对连续变量进行数据分割(具体分割方式在此不做阐述),得到多个分割点,遍历每个分割点,然后计算以各分割点为分箱划分点进行特征分箱后的该连续变量对应的iv值;步骤3.12)计算分割点划分后的该连续变量对应的iv值相对于划分前对应的iv值的增量c;步骤3.13)判断增量c是否大于预设的增量阈值(优选为0.01),若是,则以该分割点为划分点对连续变量的非空部分进行特征分箱;若否,则不以该分割点为划分点对该连续变量的非空部分进行特征分箱。另外需要说明的是,在确定划分的同时还需要兼顾每个分箱的样本数量,优选地,每个分箱中的样本数不少于源域数据中的非空数据量的20%,且每个分箱中至少包括一个正样本(正常企业数据为正样本)和一个负样本(违约企业数据为负样本)。在对数据进行特征分箱过程中,可以得到每个变量在各个分箱的woe值和iv值。在进行woe编码转换之前,还需要对各个变量的woe值的合理性进行评估,评估标准为woe值是否随着变量取值的增加呈现单调变化或u型趋势变化。对于不符合该评估标准的变量需要进行特征分箱调整。所以,请继续参照图3,对源域数据进行特征分箱的方法还包括:3.2)判断各变量是否需要进行特征分箱调整,若是,则对该变量进行特征分箱调整;若否,则完成对该变量的特征分箱。判断变量是否需要进行特征分箱调整的方法为:判断变量在对应分箱的woe值是否随着变量取值的增加呈现单调变化或u型趋势变化,若是,则判定该变量不需要进行特征分箱调整;若否,则判定该变量需要进行分箱调整。在进行特征分箱调整中,通过改变分箱的最小样本数,从源域数据的非空数据量的10%逐渐增加,直至woe值的变化趋势符合“随着变量取值的增加呈现单调变化或u型变化趋势”的评估标准,完成对变量的分箱调整。如果最小样本数增加到非空数据量的50%,变量在对应分箱的woe值的变化趋势仍未符合上述的评估标准,则舍弃该变量。通过上述的特征分箱和woe编码后,剔除了7个woe值不符合评估标准的变量,剩余49个变量。得到的各个变量对应的分箱数量最多为6个,最少为2个。特征衍生和特征分箱后,由于样本可使用的变量依然较多(49个预测变量),而且这些变量不一定都适合用于后续的模型构建,因此需要对变量作进一步的筛选降维处理。本实施例采用iv值和相关性的方法进行降维。iv值衡量的是某一个变量的信息量,可用来表示一个变量的预测能力,iv值越大表示该变量区分好坏客户的能力越强。iv值降维方法为:通过设定iv阈值(优选为0.02),将iv值大于iv阈值的变量予以保留,将iv值小于iv阈值的变量予以剔除。通过iv值降维方法,我们剔除了11个iv值过低的变量,49个预测变量精简到38个。相关性降维方法为:在逻辑回归中,如果自变量(模型输入变量)之间存在较强的相关性会使模型估计失真。因此,为了尽量避免这种情况,在进行变量筛选时尽可能将相关性大的自变量剔除。本发明通过设定相关性阈值(优选为0.7),并判断各变量间的相关性是否大于该相关性阈值(具体判断方法在此不做阐述),若是,则剔除相关性大于该相关性阈值的各变量,若否,则保留该变量。通过相关性筛选降维,又剔除了9个具有高相关性的变量,最后剩余29个变量。请继续参照图1,本实施例提供的中小微企业信用评价方法还包括:步骤4)将经特征分箱和筛选降维后的源域数据迁移到步骤2)拆分得到的目标域数据中,并分别以源域数据、目标域数据为测试集和测试集,训练形成企业信用评分模型;步骤5)将获取的原始目标域数据输入到企业信用评分模型中,预测输出中小微企业的信用评分。以下对企业信用评分模型的训练方法进行简要阐述:在迁移学习的方法框架下,以进行迁移学习处理后的源域数据为训练集,以经特征衍生后拆分得到的目标域数据为测试集,应用最终筛选出的29个入模特征(变量),设定模型基函数为高斯核函数,通过lcv方法确定最优的模型参数,根据最优参数得到最终的迁移样本权重值。以下对lcv方法选择最优模型的过程进行简要阐述:lcv(likelihoodcrossvalidation),是一种通过交叉验证选择模型的方式,lcv以似然函数值(likelihoodfunction)的大小作为选择模型的标准,选取似然函数值最大的模型作为最优模型。在kliep迁移学习方法中,目标函数可以表示为:由于该函数为凸函数,因此通过最大化j可以求得一组最优的权重参数进而通过式求得估计的权重。在这个过程中,在这个过程中,权重的估计很大程度上受到基函数的影响。当使用高斯核函数作为基函数时,决定核函数的参数为窗宽参数σ。不同的σ会导致最优权重参数不同,因此需要采用交叉验证选取最合适的超参数σ。基于lcv的思想,我们将j视为似然函数,通过选择j最大的模型作为最优模型。在设计交叉验证时,(1)将目标域数据拆分为r组不相交的子集,其中r-1组用于权重参数的训练,得到(2)剩下的1组数据用于计算似然函数值,计算公式为:该过程遍历r组子集后,计算极大似然函数的均值。最后比较不同超参数σ下的结果,选择似然函数均值最大时对应的超参数作为最优模型的超参数。另外针对样本存在标签不平衡的问题,在模型训练过程中使用了代价敏感方法,通过样本权重调节原始训练数据的分布来训练得到更优的模型。样本的权重设定通过样本不平衡比例决定,对于训练集中的数据而言,正常企业与违约企业数量之比为35955:603,为保证样本权重求和为1(将权重求和设置为1是为了便于模型计算),设定正常企业样本权重为0.51,违约企业样本权重为30.31。然后基于最终筛选出的29个变量和迁移样本权重值直接构建logistic模型,但在模型构建中,可能还存在一些相关性较强的变量,导致模型无效。因此,需要对变量进行进一步的筛选。筛选方式为综合考虑变量的相关性和iv值,在相关性较高的变量组中,选出iv值较高的变量,舍弃iv值较低的变量,最终舍弃了12个变量,剩余17个变量作为模型训练的输入变量。图5示出了经迁移学习得到的企业信用评分模型对未违约企业和违约企业的评分结果分布图(图5a为未违约企业评分结果分布图;图5b为违约企业评分结果分布图)。从信用评分结果可以看出,大多数未违约客群评分集中在580分以上,违约客群评分普遍较低,大部分在580分以下,说明本发明训练的企业信用评分模型具有良好地预测性能。模型训练完成后,需要对模型性能进行评估,在评估结果达到标准后才能被实践应用。本发明评估企业信用评分模型的模型性能的方法简述如下:结合模型输出的信用评分结果与验证客群(目标域数据)中企业实际的违约情况,可以计算出模型的相关评估指标的指标值,比如可以通过roc曲线和auc值来评估模型的拟合能力,可以通过ks指标来评估模型对好坏客户的判别区分能力。经过计算,本发明训练形成的企业信用评分模型的auc值=0.85,区分度指标ks值=0.56。其次,考虑到原始数据存在标签不平衡的问题,进一步使用ks值对最优阈值(预测概率)进行选择,具体来说,通过对预测概率分段,计算区间累计好坏样本比例和坏样本比例的差值,选择差异最大值(即为ks值)对应的预测概率作为最优阈值(比如为0.75),采用此阈值得到的logistic模型测试集验证混淆矩阵如下表a,评估出logistic模型的预测准确率(precision)为61.1%,召回率(recall)为11.0%。阈值=0.75预测违约企业预测正常企业真实违约企业117真实正常企业891588表a以下对logistic回归模型和迁移学习技术进行简要阐述:logistic回归模型在传统的信用评分建模中,将目标变量y表示为借款人的违约行为,如果出现违约,它的取值通常记为1,否则记为0,所以信用评分问题可以内看作是一个二元分类问题。信用评分中最常用的就是利用logistic回归模型,该模型并不是直接对y进行统计建模,而是对违约概率p(x)=pr(y=1|x)进行建模,其中,x为每位借款人自变量取值情况。当违约概率大于某一个临界值时,便可以将借款人标记为违约。违约概率的取值为从0-1之间的任何连续值,即0≤p(x)≤1,为了满足这一约束条件,考虑使用logistic函数来进行建模,以下公式(3)中的β包含截距和每个x变量前的系数:对公式(3)进行变换后可以得到以下公式(4):公式(4)中的被称作odds,它可以直观理解为违约概率与非违约概率之比,它的取值在0到∞之间,取值越大,违约概率越大。再将公式(4)的等式两边取对数,可以得到公式(5):logistic回归模型最大的优点是模型输出结果具有可解释性,也使其能广泛应用于评分卡模型中。为了计算回归模型的系数,考虑最大似然方法,本发明采用的对数似然函数通过以下公式(6)表达:公式(6)中,yi表示实际概率值;i表示样本;n表示样本总量;根据公式(6),模型系数估计值的计算形式可通过以下公式(7)表达:根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等可求得模型系数的最优解。迁移学习本发明中,模型迁移学习设定门类行业数据为源域,小类行业数据为目标域,将源域数据信息迁移至目标域,解决目标域数据量较少,难以稳定训练模型的问题。本发明优选采用kliep(kullback-leiblerimportanceestimationprocedure)迁移学习技术求解适用于小类行业的企业信用评分模型。kliep是一种基于样本权重的迁移学习方法,kliep方法包括三个步骤,分别为权重问题转化、超参数选择及模型权重求解。1、权重问题转化将样本权重拆分成多个权重参数与多个基函数乘积的形式设置基函数为目标域数据的高斯核函数其中为目标域数据,σ为高斯函数的参数,由此,将求解权重的问题转化为求解多个权重参数的问题。2、超参数选择设定合适的超参数σ范围,使用似然交叉验证(likelihoodcrossvalidation)技术选择最优的超参数。拆分目标域数据为r组不相交的子集,其中r-1组子集以权重参数估计,估计的目标函数通过以下公式(8)和(9)表达:公式(8)和公式(9)中,为r-1组中的目标域数据;为源域数据;te(test的缩写)表示目标域数据(即应用案例的模具行业数据);nte表示目标域样本数量;tr(train的缩写)表示源域数据,即在应用案例中非模具行业的制造业数据;ntr表示源域样本数量。然后利用剩下1组目标域数据子集和估计出的权重参数αl的似然分数方程遍历r组子集后,求解极大似然分数均值,该似然分数方程通过以下公式(10)表达:公式(10)中,表示等分为r份的目标域样本中的第r份;表示第r份目标域样本的权重,,其中权重参数是通过r-1份数据进行估计的;或者表示第r份数据估计的似然函数值/目标函数值。极大似然分数均值通过以下公式(11)计算而得:将极大似然分数均值作为cv结果,并通过比较不同超参数下cv的结果表现,选择似然分数最大的一组超参数作为模型超参数。3、模型权重求解基于选出的模型最优超参数、目标域及源域数据估计模型权重参数,得到最优样本权重结果。在分类预测模型训练阶段,将样本权重加入到模型训练中,即完成模型的迁移学习环节。需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1