一种信用风险评估方法及系统与流程

文档序号:15640167发布日期:2018-10-12 21:58阅读:326来源:国知局

本发明涉及计算机技术领域,特别是一种信用风险评估方法及系统。



背景技术:

随着互联网的快速发展,传统金融信用风险评估存在数据来源单一、数据孤岛凸显、特殊群体数据缺失、外部数据获取困难等诸多亟待解决的问题。如何获取大数据、并建立有效的信用评估体系,为银行决策提供科学的量化决策依据,把控信贷风险,是国内银行业共同面临的问题。

当前银行征信面临的困境有:一、数据来源单一匮乏。传统征信过度依赖金融数据,而大量的第三方借贷、社交以及工商数据等都没有被纳入到征信系统中;传统征信数据基本都为金融历史数据等结构化数据,非结构化数据欠缺;传统征信无法准确推断客户身份特质、性格偏好、经济偏好等重要指标,可能对征信决策造成误导。二、数据孤岛凸显。(1)数据分割严重:目前各机构、各部门数据离散化、碎片化,缺乏统一的编码基础,数据的完整性、连续性无法保证。(2)数据壁垒明显:各机构之间数据壁垒明显,各系统之间尚未完全互联互通,关联数据无法实现联查。三、特殊群体数据缺失。针对部分特殊客户群体,无法采用通用规则来准确评估此类特殊群体的信用。四、外部数据获取困难。(1)数量大:随着时间的推移,客户相关的数据量愈加庞大,对于海量数据的获取与分析存在很大难点。(2)类型多:客户相关数据的类型繁多、构成复杂,除了传统的结构化数据外,还包括了文字、文档等多种非结构化数据。(3)规则复杂:数据的多方来源也会引起的数据质量不一、标准不统一、接入方式千差万别。(4)时效性差:数据的更新速度与当前社会客户的社会活动行为不匹配。五、面对复杂多样的客户群体,传统信用评估方法是对所有群体统一对待,没有群体边界,导致对某些特殊群体数据评估错误。



技术实现要素:

本发明所要解决的技术问题是,针对现有技术不足,提供一种信用风险评估方法及系统,解决数据来源单一、数据孤岛凸显、特殊群体数据缺失、外部数据获取困难的银行征信采集问题;提高客户的信用等级的划分的准确率。

为解决上述技术问题,本发明所采用的技术方案是:一种信用风险评估方法,包括以下步骤:

1)采集外部公开网站的公开数据;

2)采用合作方式接入独立的互联网第三方征信机构数据,并结合银行内部数据;

3)对经步骤1)和步骤2)采集的数据进行预处理;

4)针对步骤3)预处理后的数据,根据群体特征划分群体,然后对划分了群体后的数据进行分析量化,并构造训练样本集和测试样本集,利用训练样本集构建信用风险评估模型,使用信用风险评估模型对测试样本集进行测试,评估信用等级。

步骤1)的具体实现过程包括:

1)直接请求公开网站的网址,检测能否采集到相应的数据,若能,则获取对应数据;若不能,则采用无界面浏览器,结合自动化测试工具进行页面爬虫操作;

2)根据原始图像和缺失位置得到缺口的偏移量,然后模拟人工滑动操作,滑动至缺口完成本次验证码识别,如出现异常或错误,则继续下一次识别;

3)模拟输入页面参数或点击页面操作,进入所需页面,然后通过解析当前页面内容提取数据,直至循环获取全部所需页面并模拟相应页面操作,获取页面内容数据后,完成本次爬虫操作,如出现异常或错误,则中止本次操作。

步骤2)的具体实现过程包括:

1)获取客户授权,完成与第三方征信机构的合作协议签订;

2)调用第三方征信机构的数据;

3)调用银行内部数据。

步骤3)的具体实现过程包括:

1)对采集的数据进行数据清理;

2)采用数据集成方式将数据清理后的多个数据源的数据整合成一致的数据;

3)将整合成一致的数据进行归一化处理,使各指标处于同一数量级,然后进行分析量化。

步骤4)的具体实现过程包括:

1)细化群体特征,根据群体特性将预处理后的样本数据集划分为工薪、私营企业主、农民、学生与其他群体;

2)从身份特征、履约能力、信用历史、消费特征、社交影响五个维度对步骤1)的数据进行分析量化,整合为有n个重要特征指标的样本数据集;

3)基于所述样本数据集,随机抽样部分数据构造为训练样本集,剩余数据构造为测试样本集,针对某单个群体,采用支持向量机构建该群体的信用风险评估模型;

4)根据测试样本集的群体特性,划分其群体,然后根据步骤3)建立的某个群体的信用风险评估模型,预测测试样本集的信用等级。

相应的,本发明还提供了一种信用风险评估系统,其包括:

采集模块:用于采集税务、司法、工商外部公开网站的公开数据;

接入模块:用于采用合作方式接入独立的互联网第三方征信机构数据,并结合银行内部数据;

预处理模块:用于对采集的数据进行预处理;

评估模块:用于针对预处理后的数据,根据群体特征划分群体,然后对数据进行分析量化,并构造训练样本集和测试样本集,针对训练样本集采用多级分类支持向量机,以高斯径向基核函数作为核函数,选取最优惩罚因子c和核函数g,构建信用风险评估模型,使用信用风险评估模型对测试样本集进行测试,评估信用等级。

所述评估模块包括:

分析量化单元:用于针对预处理后的数据,根据群体特征划分群体,然后对数据进行分析量化;

构造单元:用于构造训练样本集和测试样本集,针对训练样本集采用多级分类支持向量机,以高斯径向基核函数作为核函数,选取最优惩罚因子c和核函数g,构建信用风险评估模型;

测试评估单元:用于使用信用风险评估模型对测试样本集进行测试,评估信用等级。

与现有技术相比,本发明所具有的有益效果为:本发明解决了数据来源单一、数据孤岛凸显、特殊群体数据缺失、外部数据获取困难等银行征信采集问题,为后续银行征信的数据获取提供了新的思路;引入群体特征的信用评估方法,解决了传统信用评估方法统一对待所有群体,导致特殊群体数据评估错误的问题,提高了客户的信用等级的划分的准确率,细化了不同群体的信用等级区别,为信用评估领域开启一片新的天地。

附图说明

图1为本发明数据采集流程图;

图2为本发明信用评估流程图。

具体实施方式

如图1和图2所示,本发明包括如下步骤:

步骤1:首先,直接向公开网站(税务、司法、工商等外部公开网站)发出请求获取数据,如获得到对应数据,则解析当前数据,并进行数据预处理和存储;如不能,则采用无界面浏览器(phantomjs)结合自动化测试工具(selenium)进行页面爬虫操作。

爬虫技术自动识别滑动验证码的整体思路就是,首先根据原始的图像和滑块位置得到缺口的偏移量,然后采用selenium操作鼠标滑动,采用随机函数尽量模拟人滑动抖动操作行为(如随机采用前进3个位移后退2个位移这种抖动滑动,均匀速度滑动或直线滑动会被检测),最后滑动至缺口并完成本次验证码识别,如出现异常或错误,则继续下一次识别。

爬虫操作通过验证码识别后,模拟输入参数或点击操作后,进入采集数据页面,通过解析当前页面内容提取数据,直至循环爬取全部所需采集的页面,循环结束,完成本次爬虫操作,如出现异常或错误,则中止本次操作。

进一步地,解析页面内容的方式包括:(1)针对html文本内容采取的解析方法为:css选择器、xpath、正则表达式或普通字符串查找等。(2)针对结构化的数据,如javascript代码加载内容、ajax/fetch异步请求等需要对网页获取到含内容js代码串或找到核心的异步请求,然后进行数据解析。

步骤2:采用合作方式接入独立的互联网第三方征信机构数据,首先获取客户授权,然后完成与第三方征信机构的合作协议签订,当请求第三方征信机构的数据接口时,需对输入参数(客户业务各种参数、账号、密码等)进行加密(在数据请求、传输过程中以及返回结果结合采用非对称加密算法与对称加密算法),然后等待第三方征信机构验证加密后的数据一致性,如验证一致则返回正确数据,否则返回异常或错误数据。当请求返回获取第三方征信机构的数据后,还需要对返回的数据进行解密操作,才能真正获取相关客户的正常数据。

通过银行内部部门业务协调与合作,采用内部接口调用银行内部数据。

步骤3:对采集的数据进行预处理,如在某些信息无法获取的情况下,则采用缺失默认值补充该数值;而针对异常值,则直接采用删除或异常默认值替换;对于某些不一致的数据,则采用异或操作方式;对于重复数据以及某些特殊符号数据进行删除操作,而部分特殊符号则进行特殊字符默认值替换。

针对多个不同数据源整合成一致的数据,如a数据源、b数据源同时反馈某个数据类型的数据,但是存在同名异义、异名同义、单位不统一的情况,则采用模式集成和对象匹配,以及采用相关分析检测冗余,对于冗余,先分析检测后将其删除。

原始数据经过数据归一化处理后,使各指标处于同一数量级,然后进一步地分析量化。

如最小-最大归一化:表达式如下:

说明:x、y分别为转换前、后的值,xmax、xmin分别为样本数据的最大值和最小值。

步骤4:首先根据群体特征划分群体如农民、学生、工薪、私营企业主与其他群体等,然后对步骤3预处理后的数据进行分析量化,并构造训练样本集和测试样本集,针对训练样本集采用多级分类支持向量机,以高斯径向基核函数作为核函数,选取最优惩罚因子c和核函数g,构建了信用风险评估模型,最后使用该模型对测试样本集进行测试,评估信用等级。

在指标量化过程中,首先对农民、学生等此类群体特有的指标进行重点考虑,下表中只描述了农民、学生等两种特殊群体的需求、特征与风险,本发明研究使用的数据样本集中还包括工薪、私营企业主以及其他群体。

从身份特征、履约能力、信用历史、消费特征、社交影响五个维度进行分析量化90余个重要特征指标。对于身份特征等维度的数据指标量化,如完成身份认证则取值为1,未完成则为-1;客户学历对信用评估影响作用大,对客户学历为研究生以上取值为4,本科为3,高中或大专2,初中为1,其他为0。有家庭的客户生活更稳定,抗风险能力强,取值为1,未婚人群生活相对不稳定,取值为0。对于客户收入以区间形式表示,本文按照收入高低来对样本赋值。收入0-1000取值为0,1000-5000取值为1,5000~10000取值为2,10000~20000取值为3,20000~50000取值为4,50000及以上取值为5。对于工作资历而言,工作经验越丰富,抗风险能力越强,本发明同样以区间形式划分,无工作经验取值为0,1年及以下取值为1,1~3年取值为2,3~5年取值为3,5~10年取值为4,10年以上取值为5。其它指标量化本文不再赘述。

对于农民群体。对其房产、存款等稳定资产指标数据进行重要指标量化。农民群体为拆迁户的人群,重点对其房产套数(1套为取值1、1-3套为取值2、3套-5套为取值3、5套及以上取值为4)、房总产价值量化(50万以下取值为1、50-100万取值为2、100-500万取值为3、500万以上取值为4)等方面进行量化;对于有自建房屋的农民群体,取值为1,否则取值为0。对于农民群体宅基地价值等进行量化,同样分区间进行指标量化。

对于学生群体。学生群体主要是针对大学及以上学历的人群。针对学生群体,主要将其学历、学校等级、学校所处地区、以及网上消费数据等指标进行量化。学历越高的学生群体抗风险能力强,还款意识强,学校为985或者211等重点大学学生信用风险相对普通学校低,所以对于学校为985、211等重点高校学生量化指标取值为4、普通一本院校取值为3、普通二本院校取值为2、三本及专科院校取值为1,其他取值为0。网上消费数据可以推断学生的消费观念、消费意识,花呗等网络信用数据能体现学生群体的还款意识和还款信用历史,具体量化指标不一一说明。

针对以上量化好的样本数据集,随机抽样80%的数据构造成训练样本集,20%的数据构造成测试样本集,将样本数据集中的90余个特征指标数据构建矩阵x=[x1,x2,…,xm],其输出信用等级y,其值为五个信用等级(1,2,3,4,5对应aaa、aa、a、b、c五个信用等级)。

首先,针对单个群体,如农民群体,选择农民群体的训练样本集,输入特征指标参数x,其输出信用等级为y,采用多级支持向量机分类器,以高斯径向基核函数作为核函数,并利用交叉验证来得到最好的参数c和g,用最好的c和g来训练所有训练集,得到单个群体的信用风险评估模型。

以此类推,获得已划分另外四个群体(学生、工薪、私营企业主、其他)的单个群体的信用评估模型。

然后针对20%的测试样本集进行测试,根据测试样本集的群体特性,获得其所属的群体,然后选择该群体的信用评估模型,预测其测试样本集的信用等级。

其信用评估流程:

第一步:采用随机抽样,选择80%的数据构造训练样本集,20%的数据构造测试样本集

第二步:针对单个群体的训练样本集,确定输入特征指标数据x,与输出信用等级y

第三步:采用多级支持向量机分类器,以高斯径向基核函数作为核函数,并利用交叉验证来得到最好的参数c和g,用最好的c和g来训练所有训练集,得到单个群体的信用风险评估模型。

第四步:以此类推,得到划分群体(农民、学生、工薪、私营企业主、其他)的单个群体的信用风险评估模型。

第五步:针对测试样本集,根据测试样本集的群体特性,获得其所属的群体

第六步:采用其对应的群体信用评估模型进行预测,得到测试样本集的信用等级。

本发明所述客户授权,包括客户相关的任何数据的采集的全部授权行为和授权文件。

本发明所述第三方征信机构,是指依法设立的、独立于信用交易双方的第三方主要经营征信业务的机构。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1