一种利用大数据进行信用评估的方法

文档序号：9597950阅读：411来源：国知局

一种利用大数据进行信用评估的方法
【技术领域】
[0001] 本发明涉及一种利用大数据进行信用评估的方法。
【背景技术】
[0002] 现有技术中，对用户的信用评估主要采取的方法有三种，第一种是让客户提供收入证明、房产证、银行流水等确定是否具备偿还能力；第二种是通过实地考察和直接面对面沟通，验证客户提供资料的真实性；第三种查询客户征信记录被查询的次数，上述三种方法存在的不足之处在于多由手工操作，效率低，且资料容易造假，信用评估效果差。

【发明内容】

[0003] 本发明的发明目的在于提供一种利用大数据进行信用评估的方法，自动对原始数据进行筛选评估，效率高，且信用评估效果好。
[0004] 实现本发明目的的技术方案：一种利用大数据进行信用评估的方法，其特征在于：步骤1 :存储征信原始数据；步骤2 :按照征信对象对原始数据进行筛选，将原始数据划分成不同的维度，计算用于表达征信对象在对应维度的好坏分值；步骤3 :将步骤2获得的数据进行存储；步骤4 :利用已知样本对应各维度的计算结果进行机器学习，得到各维度的权重分配，进而计算获得各征信对象的最终分值，并进行数据存储。
[0005] 步骤2中，原始征信数据具有三个维度，第一维度是消费力维度，根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值；第二维度是行为爱好维度，根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值；第三维度是位置维度，根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算，得出位置维度分值。
[0006] 步骤1中，采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。
[0007] 步骤2中，利用Hadoop集群的Yarn框架运行MapReduce，在Mapper中将原始数据按照征信对象进行初步筛选，在Reducer中汇总征信对象的各维度的数据，计算出用于表达征信对象在对应维度的好坏分值。
[0008] 步骤3、步骤4中，存储数据采用可支持随机访问的HBase存储。
[0009] 访问征信分值数据时，可利用MapReduce批量导出HBase中存储的征信分值数据，写入CSV格式的文件；或者实时访问HBase中的指定征信对象的征信分值数据。
[0010] 步骤2中，原始征信数据划分还具有第四维度，第四维度是扩展数据维度。
[0011] 本发明具有的有益效果：本发明按照征信对象对原始数据进行筛选，将原始数据划分成不同的维度，计算用于表达征信对象在对应维度的好坏分值；利用已知样本对应各维度的计算结果进行机器学习，得到各维度的权重分配，进而计算获得各征信对象的最终分值。本发明可自动对原始数据进行筛选评估，效率高，且信用评估效果好。
[0012] 本发明原始征信数据具有三个维度，第一维度是消费力维度，根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值；第二维度是行为爱好维度，根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值；第三维度是位置维度，根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算，得出位置维度分值。本发明基于上述三个维度对原始征信数据进行划分评分，使得信用评估效果更加客观。
[0013] 本发明存储数据采用可支持随机访问的HBase存储。访问征信分值数据时，可利用MapReduce批量导出HBase中存储的征信分值数据，写入CSV格式的文件；或者实时访问 HBase中的指定征信对象的征信分值数据，使得查询征信结果更加方便。
【具体实施方式】
[0014] 本发明利用大数据进行信用评估的方法，包括如下步骤，步骤1 :存储征信原始数据；实施时，采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。多数据源条件下采用FTP，UDP，MQ，kafka多种技术手段予以实现。
[0015] 步骤2 :按照征信对象对原始数据进行筛选，将原始数据划分成不同的维度，计算用于表达征信对象在对应维度的好坏分值；原始征信数据具有三个维度，第一维度是消费力维度，根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值；以通信消费账单为例，对于客户近12个月消费额波动曲线，计算出均值、正向波动率、负向波动率，以及近6个月和近3个月的正向、负向波动率，最终为这个维度打出一个分值。
[0016] 第二维度是行为爱好维度，根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值；分析过程中，主要中间变量有APP种类数量、PV按种类的数量统计、按照休息时间段、工作时间段、上下班路途时间段等按时间段的PV数量统计。
[0017] 第三维度是位置维度，根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算，得出位置维度分值。
[0018] 上述三种维度的分值计算公式：
维度以下所有的可测量属性分值乘以对应权重的累加即为该维度的分值。其中p(i) 是维度内部第i个属性的分值。通常这个属性分值来自于该属性的统计量所在的固定分段区间，每个区间都设置一个分数。W(i)是维度内部第i个属性的权重，取值范围在0到1 之间。同一个维度的所有属性权重之和为1。属性的权重值的设定，最初来自于经验值，然后通过不断增多的已知样本数据进行机器学习，经过多次迭代就可以得到相对准确的权重值。
[0019] 原始征信数据还可具有第四维度，第四维度是扩展数据维度，根据实际情况进行设置。
[0020] 实施时，利用Hadoop集群的Yarn框架运行MapReduce，在Mapper中将原始数据按照征信对象进行初步筛选，在Reducer中汇总征信对象的各维度的数据，计算出用于表达征信对象在对应维度的好坏分值。
[0021] 步骤3 :将步骤2获得的数据进行存储。
[0022] 步骤4:利用已知样本对应各维度的计算结果进行机器学习，得到各维度的权重分配，进而计算获得各征信对象的最终分值，并进行数据存储。
[0023] 实施时，步骤3、步骤4中存储数据采用可支持随机访问的HBase存储。
[0024] 访问征信分值数据时，可利用MapReduce批量导出HBase中存储的征信分值数据，写入CSV格式的文件；或者实时访问HBase中的指定征信对象的征信分值数据。
【主权项】
1. 一种利用大数据进行信用评估的方法，其特征在于：步骤1 :存储征信原始数据；步骤2 :按照征信对象对原始数据进行筛选，将原始数据划分成不同的维度，计算用于表达征信对象在对应维度的好坏分值；步骤3 :将步骤2获得的数据进行存储；步骤4 :利用已知样本对应各维度的计算结果进行机器学习，得到各维度的权重分配，进而计算获得各征信对象的最终分值，并进行数据存储。2. 根据权利要求1所述的方法，其特征在于：步骤2中，原始征信数据具有三个维度，第一维度是消费力维度，根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值；第二维度是行为爱好维度，根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值；第三维度是位置维度，根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算，得出位置维度分值。3. 根据权利要求2所述的方法，其特征在于：步骤1中，采用Hadoop服务器集群的HDFS 文件系统存储征信原始数据。4. 根据权利要求3所述的方法，其特征在于：步骤2中，利用Hadoop集群的Yarn框架运行MapReduce，在Mapper中将原始数据按照征信对象进行初步筛选，在Reducer中汇总征信对象的各维度的数据，计算出用于表达征信对象在对应维度的好坏分值。5. 根据权利要求4所述的方法，其特征在于：步骤3、步骤4中，存储数据采用可支持随机访问的HBase存储。6. 根据权利要求5所述的方法，其特征在于：访问征信分值数据时，可利用MapReduce 批量导出HBase中存储的征信分值数据，写入CSV格式的文件；或者实时访问HBase中的指定征信对象的征信分值数据。7. 根据权利要求6所述的方法，其特征在于：步骤2中，原始征信数据划分还具有第四维度，第四维度是扩展数据维度。
【专利摘要】本发明涉及一种利用大数据进行信用评估的方法，其特征在于：步骤1：存储征信原始数据；步骤2：按照征信对象对原始数据进行筛选，将原始数据划分成不同的维度，计算用于表达征信对象在对应维度的好坏分值；步骤3：将步骤2获得的数据进行存储；步骤4：利用已知样本对应各维度的计算结果进行机器学习，得到各维度的权重分配，进而计算获得各征信对象的最终分值，并进行数据存储。
【IPC分类】G06F17/30
【公开号】CN105354313
【申请号】CN201510763598
【发明人】王晟, 黄汇, 饶翔
【申请人】南京安讯科技有限责任公司
【公开日】2016年2月24日
【申请日】2015年11月11日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晟;黄汇;饶翔;
技术所有人：南京安讯科技有限责任公司;
我是此专利的发明人

上一篇：数据迁移方法及装置的制造方法
上一篇：一种文件存储方法、下载方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。