一种反映企业健康经营、融资增信的评分方法及系统与流程

文档序号:17666188发布日期:2019-05-15 22:43阅读:183来源:国知局

本发明涉及反映企业健康经营、融资增信的评分方法及系统,特别涉及一种基于企业财务数据反映企业健康经营、融资增信的评分方法及系统。



背景技术:

小微企业是国民经济的生力军,贡献了全国80%以上的就业、70%以上的发明专利、60%以上的gdp和50%以上的税收。小微企业发展离不开资金的支持,但是长期以来小微企业一直存在融资难、融资慢、融资贵的问题。小微企业通常都没有多少可用来抵押融资的资产,而银行机构也很难了解清楚小微企业的真实财务状况和业务经营的质量,畅捷通的云平台上沉淀了大量小微企业海量真实的财务数据、经营数据、行为数据,这些数据可以成为企业融资增信的新途径。

以往小微企业财务数据获取难、真实度无法评估,缺乏有效的评判及校验机制,本专利可以针对小微企业财务软件中的数据为主体,通过行为数据(非必要条件)、进销存业务数据(非必要条件)作为校辅助校验,达成有效的评估目的。



技术实现要素:

本申请的目的在于克服上述问题或者至少部分地解决或缓解上述问题。

根据本申请的一个方面,提供了一种反映企业健康经营、融资增信的评分方法,包括如下步骤:s2:对申请资料进行数据效验;s4:当数据效验合格时,对所述数据进行模型评估;s6:当数据通过模型评估时,人工审核;s8:当数据通过人工审核时,通过总体审核。

可选地,所述步骤s4包括:s41:构建模型;s42:对所述数据进行模型评估;其中构建模型包括:数据预处理、特征构造、特征选择、模型选择与训练、预测、评估、模型部署。

可选地,所述数据预处理为:脏数据的处理,包括缺失值、异常值和不一致的值及数据类型转换。

可选地,所述特征构造为:选择资产负债表、利润表中的66个基础字段,并构造出代表企业盈利能力和偿债能力的8个公式字段特征。

可选地,所述特征选择为:基于梯度提升决策树方法对特征进行重要性选择,同时依据业务判断,剔除掉与目标变量不太相关的特征,分别对所述8个公式字段特征和所述66个基础字段进行筛选,最终选择出6个公式字段特征和4个基础字段,使用所述6个公式字段特征和4个基础字段进行模型的训练。

可选地,所述模型选择与训练为:模型评估,采用组合模型,一个模型评估用户通过贷款申请的分数,另一个模型是分析用户获得贷款的等级评分;对于第一个模型,对数据分别建立逻辑回归、梯度提升决策树与逻辑回归、评分卡三种模型,经过模型的评估,最终选择评分卡模型,通过评分卡模型的分箱功能,根据数据的特点进行特殊的分箱或者给某个分箱所对应的分数设置固定值,经过分箱,将连续变量离散化,将多状态的离散变量合并成少状态,分箱后经过woe编码,将特征的值规范到相近的尺度上,而后经过带有正则的逻辑回归模型,调整超参数进行训练,最终将逻辑回归输出的概率转化为分数,且分数与通过贷款审核的概率呈正相关;第二个模型,使用同样的数据集,但训练数据标签为用户数据的等级,使用随机森林进行模型的训练;使用一定的算法逻辑,将两个模型结果结合,构建出所述模型。

根据本申请的另一个方面,还提供了一种反映企业健康经营、融资增信的评分系统,使用上述任意一项所述的方法。

根据本申请的另一个方面,还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。

根据本申请的另一个方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述任一项所述的方法。

根据本申请的另一个方面,还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述任一项所述的方法。

本申请结合银行机构和非银行机构对小微企业信用贷款评价特征的认知,结合大数据、机器学习的技术手段,对小微企业健康经营、融资增信进行综合评价,并量化成评分模型,从而更好的解决小微企业融资问题。

根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:

图1是本申请一实施例中整体技术方案流程示意图;

图2是本申请一实施例中评分模型的构建流程示意图;

图3是本申请一实施例中计算机设备的示意图;

图4是本申请一实施例中计算机可读存储介质的示意图。

具体实施方式

请参照图1,本申请一实施例中,反映企业健康经营、融资增信的评分方法,包括如下步骤:s2:对申请资料进行数据效验;s4:当数据效验合格时,对所述数据进行模型评估;s6:当数据通过模型评估时,人工审核;s8:当数据通过人工审核时,通过总体审核。

请参照图2,在本申请一实施例中,所述步骤s4包括:s41:构建模型;s42:对所述数据进行模型评估;其中构建模型包括:数据预处理、特征构造、特征选择、模型选择与训练、预测、评估、模型部署。

在本申请一实施例中,所述数据预处理为:脏数据的处理,包括缺失值、异常值和不一致的值及数据类型转换。

在本申请一实施例中,所述特征构造为:选择资产负债表、利润表中的66个基础字段,并构造出代表企业盈利能力和偿债能力的8个公式字段特征。

在本申请一实施例中,所述特征选择为:基于梯度提升决策树方法对特征进行重要性选择,同时依据业务判断,剔除掉与目标变量不太相关的特征,分别对所述8个公式字段特征和所述66个基础字段进行筛选,最终选择出6个公式字段特征和4个基础字段,使用所述6个公式字段特征和4个基础字段进行模型的训练。

在本申请一实施例中,所述模型选择与训练为:模型评估,采用组合模型,一个模型评估用户通过贷款申请的分数,另一个模型是分析用户获得贷款的等级评分;对于第一个模型,对数据分别建立逻辑回归、梯度提升决策树与逻辑回归、评分卡三种模型,经过模型的评估,最终选择评分卡模型,通过评分卡模型的分箱功能,根据数据的特点进行特殊的分箱或者给某个分箱所对应的分数设置固定值,经过分箱,将连续变量离散化,将多状态的离散变量合并成少状态,分箱后经过woe编码,将特征的值规范到相近的尺度上,而后经过带有正则的逻辑回归模型,调整超参数进行训练,最终将逻辑回归输出的概率转化为分数,且分数与通过贷款审核的概率呈正相关;第二个模型,使用同样的数据集,但训练数据标签为用户数据的等级,使用随机森林进行模型的训练;使用一定的算法逻辑,将两个模型结果结合,构建出所述模型。

根据本申请的另一个方面,还提供了一种反映企业健康经营、融资增信的评分系统,使用上述任意一项所述的方法。

本申请还提供了一种计算机设备(请参照图3),包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本申请还提供了一种计算机可读存储介质(请参照图4),优选为非易失性可读存储介质,其内存储有计算机程序,其特征在于,所述计算机程序在由处理器执行时实现上述任意一项所述的方法。

本申请还提供了一种计算机程序产品,包括计算机可读代码,其特征在于,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述任一项所述的方法。

整体技术方案是按照如图1的步骤,首先,用户提交申请资料,若满足准入规则,则结合行为数据,进销存数据分析用户财务数据准确性,若财务数据准确性高,则对用户申请贷款的数据进行模型评估。模型评估是通过对用户的经营情况进行分析,建立模型,得到一个用户信用分数,该分数越高,认为用户信用越高,贷款的额度更高。若分数高于一定阈值的,则通过。如果用户通过模型评估要求,则接受人工审核。最后,如果人工审核通过则接受用户贷款申请,为用户发放贷款。

用户的贷款申请评分模型构建流程图如图2包括数据预处理、特征构造、特征选择、模型选择与训练、预测、评估、模型部署、接口测试、前端展示的过程。下面是这些过程的详细介绍:

数据预处理。

脏数据的处理,包括缺失值、异常值和不一致的值。数据类型转换。

特征构造。

好的特征决定一个模型准确率的关键。因此,基于我们现有数据,我们选择资产负债表、利润表中的66个基础字段,并构造出代表企业盈利能力和偿债能力的8个公式字段特征。

特征选择。

我们基于gbdt(梯度提升决策树)方法对特征进行重要性选择,同时依据业务判断,剔除掉与目标变量不太相关的特征。分别对步骤2中的8个特征和66个特征进行筛选,最终选择出6个公式字段特征和4个基础字段特征。我们将利用这10个特征进行模型的训练。

模型选择与训练。

模型评估,采用组合模型,一个模型评估用户通过贷款申请的分数。另一个模型是分析用户获得贷款的等级评分。

对于第一个模型,我们初步对数据分别建立lr(逻辑回归)、gbdt+lr、评分卡三种模型。经过模型的评估,最终选择评分卡模型。不仅因为它训练出来的准确率高、模型解释性强,而且因为它可以根据我们的业务需求对训练过程给变量添加约束条件。评分卡模型的分箱功能为我们的业务提供了特殊的定制,我们根据自己数据的特点进行特殊的分箱或者给某个分箱所对应的分数设置固定值。经过分箱,将连续变量离散化,将多状态的离散变量合并成少状态,避免了特征中无意义的波动堆评分带来的波动,避免了极端值的影响,增强了模型的稳定性与健壮性。分箱后经过woe(weightofevidence)编码,将特征的值规范到相近的尺度上。而后经过带有l1和l2正则的逻辑回归模型,调整超参数进行训练。正则化的加入使模型泛化能力更强,减少过拟合。最终将逻辑回归输出的概率转化为分数,且分数与通过贷款审核的概率呈正相关。

第二个模型,使用同样的数据集,但训练数据标签为用户数据的等级,使用随机森林进行模型的训练。

使用一定的算法逻辑,将两个模型结果结合,构建出我们的模型。

预测。

通过步骤4建立模型,将测试集的数据,输入到模型中,模型会输出用户财务数据反映经营情况的分数。

评估。

检验模型的评估指标,包括ks,混淆矩阵,auc,accuracy。

部署。

将我们训练好的模型部署到服务器上。

接口测试。

编写接口代码,调试并测试接口。

前端展示。

将申请者的数据调用接口,服务器会返回用户财务数据反映经营情况的分数。

与现有技术相比,本申请具有如下有益效果:

1.结合行为数据,进销存数据分析用户财务数据准确性。

2.通过财务明细数据分析资产负债表、利润表、现金流量表的真实性。

3.通过模型对用户的经营情况进行预测评判。

4.将分析结果和预测结果推送给金融机构来进行贷款评估。

本申请中的方法的步骤虽然是按照数字顺序编号,但并不意味着各个步骤的执行顺序一定要按照数字的顺序进行。有些步骤之间可以是并列执行的关系,甚至可以颠倒顺序执行,都属于本申请所要求的保护的范围内。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetictape),软盘(英文:floppydisk),光盘(英文:opticaldisc)及其任意组合。

以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1