一种P2P网络借贷平台运营风险评估系统的制作方法

文档序号:15349603发布日期:2018-09-04 23:10阅读:324来源:国知局

本发明涉及一种风险评估系统,具体涉及一种p2p网络借贷平台运营风险评估系统。



背景技术:

p2p是英文person-to-person的缩写,意即个人对个人,又称点对点网络借款,是一种将小额资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式,属于互联网金融产品的一种,属于民间小额借贷,借助互联网、移动互联网技术的网络信贷平台及相关理财行为、金融服务。

目前国内的p2p网络借贷平台多达几千家,对p2p平台的分析不仅仅要针对借款人的信用风险的分析,而且要对平台本身的运营风险进行分析,需要通过一些数据判断某一个平台是好是坏,即是否存在跑路风险,然而不同的平台数据类型不同,如果无法准确从平台数据中提取出我们需要的核心数据,将会影响测试的准确性。



技术实现要素:

本发明其目的在于公开一种p2p网络借贷平台运营风险评估系统,该方法通过收集大量的平台数据,从而总结备选征表,然后对备选特征表内的特征进行相关性分析,提取出主要特征,根据主要特征确定数据提取的指标,数据提取的指标包括关键词、关键词的模式特征以及不同模式特征对应的提取规则,通过数据提取的指标对需要测试的平台数据进行精准提取,保证评估结果的准确性。

实现本发明所述p2p网络借贷平台运营风险评估系统的技术方案是:

一种p2p网络借贷平台运营风险评估系统,包括以下步骤:

1)第一次数据采集:获取多个p2p网络借贷平台的运营数据;

2)备选特征表建立:对第一次数据采集获得的运营数据进行筛选和提取,提取出特征和与特征相对应的数据,与特征相对应的数据定义为特征数据,依据特征数据的模式特征将特征分类建立备选特征表;

3)相关程度分析和特征选取:对特征采用皮尔森相关系数、斯皮尔曼相关系数、肯德尔相关系数和p值进行相关性分析,通过上述四种分析方法,每个特征均获得4个分析值,选取相关性分析绝对值0.4以上,同时p值0.005以下的特征,将这部分特征定义为主要特征;

4)风险评估模型构建:建立一个用于计算出平台的运营风险值的风险评估模型;

5)模型训练:取第一次数据采集中第一预设量的正常平台和第一预设量的逃跑平台的数据,提取出这些平台的主要特征与主要特征数据对风险评估模型进行训练;

6)确定风险评估模型:通过模型训练后,取第一次数据采集中第二预设量的正常平台和第二预设量的逃跑平台的数据,提取出这些平台的主要特征与主要特征数据对风险评估模型进行测试,测试用的平台数据与训练用的平台数据不能重叠,通过测试结果对风险评估模型进行调整,重复测试与调整,直到测试结果能够准确反应平台的运营风险值;

7)二次数据采集:获取需要评估的p2p网络借贷平台的运营数据;

8)数据预处理:根据主要特征确定数据提取的指标,数据提取的指标包括关键词、关键词的模式特征以及不同模式特征对应的提取规则,根据提取的指标,使用模式匹配、数值范围和逻辑判断方法对二次数据采集获得的运营数据进行筛选和提取出主要特征与主要特征数据,然后将主要特征与主要特征数据按模式特征进行汇总统计;

9)风险输出:将数据预处理后的主要特征与主要特征数据放入到训练好后的风险评估模型中,获取风险值,将风险值输入到判断器中,从而输出风险程度。

进一步地,在第一次数据采集与第二次数据采集过程中,通过网络爬取或者p2p网络借贷平台提供方式获取p2p网络借贷平台的运营数据。

进一步地,在步骤4)中可采用逻辑回归模型、神经网络模型、朴素贝叶斯模型、随机森林模型、梯度提升树模型中的一种模型建立风险评估模型。

进一步地,所述模式特征包括数值型、文字型和判断型三种。

进一步地,第一预设量为100~150家,第二预设量为75~100家,数据越多,模型的准确性越高,但是工作量也越大,选取合适的训练集能将工作产出效益最大化。

进一步地,第二预设量至少为第一预设量的一半。

本发明的有益效果为:本发明通过对大量p2p平台数据进行分析归纳出备选特征表,然后将备选特征表内的特征分为数据数值特性和数据存在特性,通过对这两个特性与平台的风险指数进行相关性分析,从而选取出主要特征对模型进行训练,确保模型的准确率和提高工作效率,并且根据主要特征确定数据提取的指标,数据提取的指标包括关键词、关键词的模式特征以及不同模式特征对应的提取规则,通过数据提取的指标对需要测试的平台数据进行精准提取,保证评估结果的准确性。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:一种p2p网络借贷平台运营风险评估系统,包括以下步骤:

1)第一次数据采集:获取多个p2p网络借贷平台的运营数据;

2)备选特征表建立:对第一次数据采集获得的运营数据进行提取,提取出特征和与特征相对应的数据,与特征相对应的数据定义为特征数据,依据特征数据的模式特征将特征分类建立备选特征表,备选特征表内特征有发标密度、逾期标数、单位时间逾期标数比、平均的标额度、完成标数比、平均的标借贷时间、平均的标回报率、平台的标质押比、先息后本的标比、一次性本息的标比、等额本息的标比、未婚的标比、已婚的标比、男性的标比、女性的标比、平台平均学历值、离异的标比、平台借款人有房比例、平台借款人有车比例等;

3)相关程度分析和特征选取:对特征采用皮尔森相关系数、斯皮尔曼相关系数、肯德尔相关系数和p值进行相关性分析,通过上述四种分析方法,每个特征均获得4个分析值,选取相关性分析绝对值0.4以上,同时p值0.005以下的特征,将这部分特征定义为主要特征,p值的定义决定了相关性的准确性,根据定义,p=0.05时候样本中变量关联有5%的可能是由于偶然性造成的,p=0.005时候样本中变量关联有0.5%的可能是由于偶然性造成的,p值的选用决定了主要特征的多少,经过多次模拟,我们认为采用p=0.005时候最合理;

4)风险评估模型构建:建立一个用于计算出平台的运营风险值的风险评估模型;

5)模型训练:取第一次数据采集中第一预设量的正常平台和第一预设量的逃跑平台的数据,提取出这些平台的主要特征与主要特征数据对风险评估模型进行训练;

6)确定风险评估模型:通过模型训练后,取第一次数据采集中第二预设量的正常平台和第二预设量的逃跑平台的数据,提取出这些平台的主要特征与主要特征数据对风险评估模型进行测试,测试用的平台数据与训练用的平台数据不能重叠,通过测试结果对风险评估模型进行调整,重复测试与调整,直到测试结果能够准确反应平台的运营风险值;

7)二次数据采集:获取需要评估的p2p网络借贷平台的运营数据;

8)数据预处理:根据主要特征确定数据提取的指标,数据提取的指标包括关键词、关键词的模式特征以及不同模式特征对应的提取规则,根据提取的指标,使用模式匹配、数值范围和逻辑判断方法对二次数据采集获得的运营数据进行筛选和提取出主要特征与主要特征数据,然后将主要特征与主要特征数据按模式特征进行汇总统计;

9)风险输出:将数据预处理后的主要特征与主要特征数据放入到训练好后的风险评估模型中,获取风险值,将风险值输入到判断器中,从而输出风险程度,判断器是对风险值的一个区间划分,落在不同区间的风险值会得出不同的风险程度,风险程度以逃跑的概率显示。

在第一次数据采集与第二次数据采集过程中,通过网络爬取或者p2p网络借贷平台提供方式获取p2p网络借贷平台的运营数据。

在步骤5)中可采用逻辑回归模型、神经网络模型、朴素贝叶斯模型、随机森林模型、梯度提升树模型中的一种模型建立风险评估模型。

所述模式特征包括数值型、文字型和判断型三种。

第一预设量为100~150家,第二预设量为75~100家,第二预设量至少为第一预设量的一半。

本实施例的工作原理:首先通过网络爬取或者p2p网络借贷平台提供方式获取多个p2p网络借贷平台的运营数据,将p2p网络借贷平台分为正常运营平台与跑路平台,提取出每个平台的特征与特征数据存档,接下来会用到模型训练以及测试中,将各个平台的特征放入到特征备选表中,构成一张备选特征表,对备选特征表中的每个特征都进行相关性分析,提取出主要特征,建立一个风险评估模型,使用采集到的多个p2p网络借贷平台的主要特征和主要特征数据对风险评估模型进行训练与测试,确定好模型后,通过网络爬取或者p2p网络借贷平台提供方式获取需要评估的p2p网络借贷平台的运营数据,然后对平台的运营数据进行预处理,通过数据预处理精准提取出主要特征和主要特征数据放入到险预测模型中,获取风险值,将风险值输入到判断器中,从而输出风险程度。

本发明的有益效果为:本发明通过对大量p2p平台数据进行分析归纳出备选特征表,然后将备选特征表内的特征分为数据数值特性和数据存在特性,通过对这两个特性与平台的风险指数进行相关性分析,从而选取出主要特征对模型进行训练,确保模型的准确率和提高工作效率,并且根据主要特征确定数据提取的指标,数据提取的指标包括关键词、关键词的模式特征以及不同模式特征对应的提取规则,通过数据提取的指标对需要测试的平台数据进行精准提取,保证评估结果的准确性。

显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1