一种基于机器学习的P2P网贷客户信用评分方法及系统与流程

文档序号:18744848发布日期:2019-09-21 02:12阅读:207来源:国知局
一种基于机器学习的P2P网贷客户信用评分方法及系统与流程

本发明属于互联网金融数据处理领域,具体涉及一种基于机器学习的P2P网贷客户信用 评分方法及系统。



背景技术:

近年来,随着互联网金融行业的快速发展,衍生出了各种类型的P2P网贷平台,给各种临 时资金周转困难的使用者来了很多便利,由于其需求较大,平台数量也逐渐剧增。据网贷之 家发布的报告显示,截止2018年8月,已经成立注册超过5000家P2P网络借贷平台,累计历史 交易金额已经突破2万亿。

然而,P2P网贷平台快速发展的同时,背后也存在坏账率高、放贷平台对客户信用评分不 合理、针对在校大学生群体放贷等诸多社会问题。目前,正常运营盈利的P2P网贷平台很少, 绝大部分平台都是涉及跑路、提现困难、暴力催贷等问题的平台,或营业亏损导致停业的平 台。导致这一现象的主要问题是现有P2P网贷平台未对借贷客户做出合理的信用评分,筛选出 有价值的借贷客户。在大规模海量客户数据的环境下,使用人工智能技术中的机器学习信用 评分模型,高效准确的处理数据,并大批量自动评判,给出合理高价值的信用评分,实现精 准放贷。既解决临时资金周转困难客户的借贷需求,又保证其有较强的还贷能力,降低平台 放贷风险。因此,急需一种基于机器学习的P2P网贷客户信用评分方案应用于互联网金融之中。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于机器学习的P2P网贷客户信用评分方法及系 统,通过对获取的有主动借贷意愿的主动客户信息,及有潜在借贷意愿的潜在客户信息,经 过数据预处理,然后输入机器学习信用评分模型,输出得到客户综合信用评分,有效解决海 量客户信息数据的高效、精准处理,以及输出合理高价值的客户信用评分。

为达到上述目的,本发明提供如下技术方案:

一方面,本发明提供一种基于机器学习的P2P网贷客户信用评分方法,具体包括以下步 骤:

S1:通过抓取借贷网站、金融网站数据指标采集有主动借贷意愿的主动借贷客户信息数 据和有潜在借贷意愿的潜在借贷客户信息数据,综合整理成客户信息数据;

S2:对客户数据进行数据预处理,对采集到的一些冗余数据、稀疏数据、缺失不完整数 据等受“污染”的数据进行数据清洗,检查数据一致性,处理无效值和缺失值;

S3:对初步清洗后的客户信息数据按校验规则进行有效性验证和完整性验证,验证合格 的数据进行入库;

S4:截取部分客户信息数据进行数据划分,其中80%用于机器学习客户信用评分模型训 练,20%用于机器学习客户信用评分模型测试;

S5:将客户信息数据输入到训练数据集中,通过机器学习算法构建机器学习客户信用评 分模型;

S6:将客户信息测试数据集输入机器学习客户信用评分模型,输出得到客户信息综合评 分,对客户信用评分进行验证,若合格则完成机器学习客户信用评分模型训练,若不合格则 重新训练。

进一步,步骤S1中,所述采集的客户信息包含有主动借贷意愿的主动客户信息和有潜 在借贷意愿的潜在客户信息;

所述主动客户信息包含客户基本信息、客户收入信息、客户资产信息、客户消费信息、 客户历史行为信息以及其他客户补充信息;

所述潜在客户信息包含客户POS交易流水信息、客户网络购物消费信息、客户网络支 付平台消费额度信息、客户社交信息。

进一步,步骤S2中,所述客户信息数据预处理包括数据分类、数据去重、数据填充、 数据修正、数据转换和数据清洗;

所述数据转换是对不同平台及途径采集的数据,按统一要求的格式进行转换,以便后续 数据处理;

所述数据清洗是对不符合要求的,不完整的、重复的、错误的“受污染”的客户信息数 据,按照一定规则进行清洗;

所述数据分类是对客户信息数据进行特征分析,将整体混杂的数据按数据类别进行分类 统计。

进一步,步骤S3中,所述有效性验证包括对客户信息数据进行日期格式校验及值阀校 验;所述日期格式校验是检查数据日期字段是否满足规定的格式要求;所述值阀校验是检查 数据字段取值是否在规定范围之内;

所述完整性验证包括对客户信息数据进行格式检查和空值检查;所述格式检查和空值检 查,是检查数据字段是否为空,检查数据字段格式是否符合规范。

进一步,所述对客户信息机器学习信用评分模型进行训练,是通过客户信息先验数据对 多层人工神经网络进行离线训练,训练结束后实行对新数据的辨识和推断。

进一步,步骤S5中,构建机器学习客户信用评分模型包括机器学习模型选取、交叉检 验、变量的评估和筛选、参数优化及模型融合;

所述交叉检验是将数据集的索引进行拆分并按照一定的比例进行训练,得出返回模型, 经过高学习率,将得出的模型取平均值;

所述变量的评估和筛选是通过筛选,得出模型中信用评分与其他客户数据间的相关性;

所述参数优化是采用交叉检验的方法自动得到最优参数;

所述模型融合是将数据训练集合划分为不同的个体学习器,单独构建模型,通过一定的 结合策略将其集成一个强学习器。

另一方面,本发明还提供一种基于机器学习的P2P网贷客户信用评分方法的系统,包括 数据采集模块、数据预处理模块、机器学习模型训练模块和信用评分审核模块;

所述数据采集模块用于对有主动借贷意愿的主动客户和有潜在借贷意愿的潜在客户的信 息数据采集;

所述数据预处理模块用于对采集的客户信息数据进行数据分类、数据去重、数据填充、 数据修正、数据转换和数据清洗;

所述机器学习模型训练模块用于输入预处理好的客户信息数据,进行无监督的机器学习 模型训练,输出得到训练完成的机器学习客户信用评分模型;

所述信用评分审核模块用于使用训练完成的机器学习客户信用评分模型,输入其他客户 信息数据,输出客户信用评分,按放贷规则对客户信用评分进行评判,决定是否放贷。

本发明的有益效果在于:本发明克服现有技术存在的在P2P网贷客户信用评分过程中, 对客户信用评分误差率较大、周期较长等不利于P2P网贷平台收益的问题,通过使用人工智 能技术中的机器学习信用评分模型,高效准确的处理数据,并大批量自动评判,给出合理高 价值的信用评分,实现精准放贷,提高平台收益。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某 种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发 明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详 细描述,其中:

图1为本发明所述基于机器学习的P2P网贷客户信用评分系统的结构图;

图2为本发明所述基于机器学习的P2P网贷客户信用评分机器学习训练流程图;

图3为本发明所述基于机器学习的P2P网贷客户信用评分方法的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精 神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本 发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明 的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表 实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理 解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中, 需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或 位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是 指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中 描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技 术人员而言,可以根据具体情况理解上述术语的具体含义。

一方面,如图1所示,本发明还提供一种基于机器学习的P2P网贷客户信用评分方法的 系统,包括数据采集模块、数据预处理模块、机器学习模型训练模块和信用评分审核模块, 具体如下:

(1)数据采集模块

数据采集模块主要是采集具有主动借贷意愿的客户提供的客户姓名、联系方式、家庭住 址、申请类型、申请金额、申请年限、客户年龄、婚姻状况等基本数据,以及通过互联网、 金融网站抓取信用卡、贷款详情等数据;

(2)数据预处理模块

数据预处理模块主要是采集的客户信息数据进行数据分类、数据去重、数据填充、数据 修正、数据转换等数据清洗,以及数据校验;

(3)机器学习模型训练模块

机器学习模型训练模块主要是输入客户信息训练数据集,通过数据训练得到一个训练完 成的机器学习信用评分模型;

如图2所示,机器学习模型训练模块的具体工作流程包含以下步骤:

步骤1:将生成的80%的客户信息训练数据输入到神经网络模型中;

步骤2:采用无监督方法对多层神经网络进行训练。判断模型是否出现过拟合或欠拟合 现象,若是,则采用K折交叉检验,将采集到的原始客户信息数据按照9:1进行划分,再 次进行模型训练;

步骤3:将原始生成的20%的客户信息测试数据输入到神经网络模型中;

步骤4:通过神经网络模型的学习、计算得出最终的客户信用综合评分。

(4)信用评分审核模块

信用评分审核模块用于使用训练完成的机器学习客户信用评分模型,输入其他客户信息 数据,输出客户信用评分,按放贷规则对客户信用评分进行评判,决定是否放贷。

另一方面,如图3所示,本发明提供一种基于机器学习的P2P网贷客户信用评分方法, 具体包括以下步骤:

S1:通过抓取借贷网站、金融网站数据指标采集有主动借贷意愿的主动借贷客户信息数 据和有潜在借贷意愿的潜在借贷客户信息数据,综合整理成客户信息数据;

S2:对客户数据进行数据预处理,对采集到的一些冗余数据、稀疏数据、缺失不完整数 据等受“污染”的数据进行数据清洗,检查数据一致性,处理无效值和缺失值;

S3:对初步清洗后的客户信息数据按校验规则进行有效性验证和完整性验证,验证合格 的数据进行入库;

S4:截取部分客户信息数据进行数据划分,其中80%用于机器学习客户信用评分模型训 练,20%用于机器学习客户信用评分模型测试;

S5:将客户信息数据输入到训练数据集中,通过机器学习算法构建机器学习客户信用评 分模型;

S6:将客户信息测试数据集输入机器学习客户信用评分模型,输出得到客户信息综合评 分,对客户信用评分进行验证,若合格则完成机器学习客户信用评分模型训练,若不合格则 重新训练。

可选地,步骤S1中,所述采集的客户信息包含有主动借贷意愿的主动客户信息和有潜 在借贷意愿的潜在客户信息;

所述主动客户信息包含客户基本信息、客户收入信息、客户资产信息、客户消费信息、 客户历史行为信息以及其他客户补充信息;

所述潜在客户信息包含客户POS交易流水信息、客户网络购物消费信息、客户支付宝 及微信消费额度信息、客户社交信息。

可选地,步骤S2中,所述客户信息数据预处理包括数据分类、数据去重、数据填充、 数据修正、数据转换和数据清洗;

所述数据转换是对不同平台及途径采集的数据,按统一要求的格式进行转换,以便后续 数据处理;

所述数据清洗是对不符合要求的,不完整的、重复的、错误的“受污染”的客户信息数 据,按照一定规则进行清洗;

所述数据分类是对客户信息数据进行特征分析,将整体混杂的数据按数据类别进行分类 统计。

可选地,步骤S3中,所述有效性验证包括对客户信息数据进行日期格式校验及值阀校 验;所述日期格式校验是检查数据日期字段是否满足规定的格式要求;所述值阀校验是检查 数据字段取值是否在规定范围之内;

所述完整性验证包括对客户信息数据进行格式检查和空值检查;所述格式检查和空值检 查,是检查数据字段是否为空,检查数据字段格式是否符合规范。

可选地,所述对客户信息机器学习信用评分模型进行训练,是通过客户信息先验数据对 多层人工神经网络进行离线训练,训练结束后实行对新数据的辨识和推断。

可选地,步骤S5中,构建机器学习客户信用评分模型包括机器学习模型选取、交叉检 验、变量的评估和筛选、参数优化及模型融合;

所述交叉检验是将数据集的索引进行拆分并按照一定的比例进行训练,得出返回模型, 经过高学习率,将得出的模型取平均值;

所述变量的评估和筛选是通过筛选,得出模型中信用评分与其他客户数据间的相关性;

所述参数优化是采用交叉检验的方法自动得到最优参数;

所述模型融合是将数据训练集合划分为不同的个体学习器,单独构建模型,通过一定的 结合策略将其集成一个强学习器。

本发明的一个应用示例,将示例客户信息1、客户信息2、客户信息3输入基于机器学习 的P2P网贷客户信用评分系统,得到对应信用评分;

客户1、客户2、客户3信用评分分别为55分、67分、89分,按照示例信用评分评判规 则进行评判;

客户1信用评分低于60分,不放贷;

客户2信用评分在60分到80分之间,进行二次评判再决定是否放贷

客户3信用评分高于80分,可放贷。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施 例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进 行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求 范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1