一种利用大数据进行信用评估的方法

文档序号:9597950阅读:411来源:国知局
一种利用大数据进行信用评估的方法
【技术领域】
[0001] 本发明涉及一种利用大数据进行信用评估的方法。
【背景技术】
[0002] 现有技术中,对用户的信用评估主要采取的方法有三种,第一种是让客户提供收 入证明、房产证、银行流水等确定是否具备偿还能力;第二种是通过实地考察和直接面对面 沟通,验证客户提供资料的真实性;第三种查询客户征信记录被查询的次数,上述三种方法 存在的不足之处在于多由手工操作,效率低,且资料容易造假,信用评估效果差。

【发明内容】

[0003] 本发明的发明目的在于提供一种利用大数据进行信用评估的方法,自动对原始数 据进行筛选评估,效率高,且信用评估效果好。
[0004] 实现本发明目的的技术方案: 一种利用大数据进行信用评估的方法,其特征在于: 步骤1 :存储征信原始数据; 步骤2 :按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于 表达征信对象在对应维度的好坏分值; 步骤3 :将步骤2获得的数据进行存储; 步骤4 :利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配, 进而计算获得各征信对象的最终分值,并进行数据存储。
[0005] 步骤2中,原始征信数据具有三个维度, 第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用 户的消费能力维度分值; 第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为爱好 维度分值; 第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计 算,得出位置维度分值。
[0006] 步骤1中,采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。
[0007] 步骤2中,利用Hadoop集群的Yarn框架运行MapReduce,在Mapper中将原始数据 按照征信对象进行初步筛选,在Reducer中汇总征信对象的各维度的数据,计算出用于表 达征信对象在对应维度的好坏分值。
[0008] 步骤3、步骤4中,存储数据采用可支持随机访问的HBase存储。
[0009] 访问征信分值数据时,可利用MapReduce批量导出HBase中存储的征信分值数据, 写入CSV格式的文件;或者实时访问HBase中的指定征信对象的征信分值数据。
[0010] 步骤2中,原始征信数据划分还具有第四维度,第四维度是扩展数据维度。
[0011] 本发明具有的有益效果: 本发明按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于 表达征信对象在对应维度的好坏分值;利用已知样本对应各维度的计算结果进行机器学 习,得到各维度的权重分配,进而计算获得各征信对象的最终分值。本发明可自动对原始数 据进行筛选评估,效率高,且信用评估效果好。
[0012] 本发明原始征信数据具有三个维度,第一维度是消费力维度,根据用户对应的通 信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值;第二维度是行为爱好维 度,根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值;第三维度是位 置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算,得出位置维度分 值。本发明基于上述三个维度对原始征信数据进行划分评分,使得信用评估效果更加客观。
[0013] 本发明存储数据采用可支持随机访问的HBase存储。访问征信分值数据时,可利 用MapReduce批量导出HBase中存储的征信分值数据,写入CSV格式的文件;或者实时访问 HBase中的指定征信对象的征信分值数据,使得查询征信结果更加方便。
【具体实施方式】
[0014] 本发明利用大数据进行信用评估的方法,包括如下步骤, 步骤1 :存储征信原始数据; 实施时,采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。多数据源条件 下采用FTP,UDP,MQ,kafka多种技术手段予以实现。
[0015] 步骤2 :按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算 用于表达征信对象在对应维度的好坏分值; 原始征信数据具有三个维度, 第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用 户的消费能力维度分值;以通信消费账单为例,对于客户近12个月消费额波动曲线,计算 出均值、正向波动率、负向波动率,以及近6个月和近3个月的正向、负向波动率,最终为这 个维度打出一个分值。
[0016] 第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为 爱好维度分值;分析过程中,主要中间变量有APP种类数量、PV按种类的数量统计、按照休 息时间段、工作时间段、上下班路途时间段等按时间段的PV数量统计。
[0017] 第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进 行计算,得出位置维度分值。
[0018] 上述三种维度的分值计算公式:
维度以下所有的可测量属性分值乘以对应权重的累加即为该维度的分值。其中p(i) 是维度内部第i个属性的分值。通常这个属性分值来自于该属性的统计量所在的固定分段 区间,每个区间都设置一个分数。W(i)是维度内部第i个属性的权重,取值范围在0到1 之间。同一个维度的所有属性权重之和为1。属性的权重值的设定,最初来自于经验值,然 后通过不断增多的已知样本数据进行机器学习,经过多次迭代就可以得到相对准确的权重 值。
[0019] 原始征信数据还可具有第四维度,第四维度是扩展数据维度,根据实际情况进行 设置。
[0020] 实施时,利用Hadoop集群的Yarn框架运行MapReduce,在Mapper中将原始数据按 照征信对象进行初步筛选,在Reducer中汇总征信对象的各维度的数据,计算出用于表达 征信对象在对应维度的好坏分值。
[0021] 步骤3 :将步骤2获得的数据进行存储。
[0022] 步骤4:利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重 分配,进而计算获得各征信对象的最终分值,并进行数据存储。
[0023] 实施时,步骤3、步骤4中存储数据采用可支持随机访问的HBase存储。
[0024] 访问征信分值数据时,可利用MapReduce批量导出HBase中存储的征信分值数据, 写入CSV格式的文件;或者实时访问HBase中的指定征信对象的征信分值数据。
【主权项】
1. 一种利用大数据进行信用评估的方法,其特征在于: 步骤1 :存储征信原始数据; 步骤2 :按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于 表达征信对象在对应维度的好坏分值; 步骤3 :将步骤2获得的数据进行存储; 步骤4 :利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配, 进而计算获得各征信对象的最终分值,并进行数据存储。2. 根据权利要求1所述的方法,其特征在于: 步骤2中,原始征信数据具有三个维度, 第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用 户的消费能力维度分值; 第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为爱好 维度分值; 第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计 算,得出位置维度分值。3. 根据权利要求2所述的方法,其特征在于:步骤1中,采用Hadoop服务器集群的HDFS 文件系统存储征信原始数据。4. 根据权利要求3所述的方法,其特征在于:步骤2中,利用Hadoop集群的Yarn框架 运行MapReduce,在Mapper中将原始数据按照征信对象进行初步筛选,在Reducer中汇总征 信对象的各维度的数据,计算出用于表达征信对象在对应维度的好坏分值。5. 根据权利要求4所述的方法,其特征在于:步骤3、步骤4中,存储数据采用可支持随 机访问的HBase存储。6. 根据权利要求5所述的方法,其特征在于:访问征信分值数据时,可利用MapReduce 批量导出HBase中存储的征信分值数据,写入CSV格式的文件;或者实时访问HBase中的指 定征信对象的征信分值数据。7. 根据权利要求6所述的方法,其特征在于:步骤2中,原始征信数据划分还具有第四 维度,第四维度是扩展数据维度。
【专利摘要】本发明涉及一种利用大数据进行信用评估的方法,其特征在于:步骤1:存储征信原始数据;步骤2:按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于表达征信对象在对应维度的好坏分值;步骤3:将步骤2获得的数据进行存储;步骤4:利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配,进而计算获得各征信对象的最终分值,并进行数据存储。
【IPC分类】G06F17/30
【公开号】CN105354313
【申请号】CN201510763598
【发明人】王晟, 黄汇, 饶翔
【申请人】南京安讯科技有限责任公司
【公开日】2016年2月24日
【申请日】2015年11月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1