基于弱变量数据的信用风险评估系统与方法与流程

文档序号:18453601发布日期:2019-08-17 01:26阅读:438来源:国知局

本发明涉及互联网金融相关技术领域,具体是基于弱变量数据的信用风险评估系统与方法。



背景技术:

目前,在互联网金融高速发展的同时,国内的征信体系却不完善,有效覆盖人群较少,个人信用意识薄弱。2017年11月底,央行征信覆盖人群9.5亿人,有贷款记录的约为4.8亿人,央行个人征信的覆盖率约为50%。而美国在2014年,这一比率就高达92%。在国内,信用多用于金融信贷领域,而在国外,信用已经深入居民生活,成为一种资产。根据融360《维度》调查报告显示,超过10%的用户不关心自己的个人征信,近30%的用户不了解自己在央行征信情况,40%的用户不知道央行的不良征信记录如何消除,我国居民个人信用意识薄弱现象突出。

国内银行和金融机构,尤其是国企银行,在风险控制中长期依赖央行征信报告以及强变量数据:例如:个人信息、收入、学历、车产、房产和个人贷款记录等信息进行风险定价分析,但是目前仍有大量人群不具备银行这样的准入门槛。在当前互联网大数据背景之下,金融借贷需求的客户越来越多,然而传统银行和金融机构风控技术无法很好的利用互联网大数据平台准确评估申请人资质,无法很好地利用互联网大数据平台合理评估申请人资质,主要缺点体现在以下三点:

1.传统银行和金融机构风控主要依赖央行征信报告以及强变量特征数据:例如:个人信息、收入、学历、工作、车产、房产和个人信贷记录等信息进行风险定价分析,无法合理评估申请人资质,客户流失率较高;

2.传统银行和金融机构风控数据处理技术落后,无法提供大数据指标实时计算、数据挖掘建模和风险评估等;

3.传统银行和金融机构组织机构庞大,风控技术审批流程冗长,风控体系一旦形成后,很难根据外部环境变化及时更新迭代线上风控规则从而减少坏账损失。



技术实现要素:

本发明的目的在于提供基于弱变量数据的信用风险评估系统与方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

基于弱变量数据的信用风险评估系统,包括:原始数据平台,用于存储全量的可以获取到的用户数据;

数据治理平台,用于对各维度用户数据进行深度分析挖掘清洗,按照业务划分为不同的维度;

用户画像平台,根据用户基本特征进行用户画像;

风控模型平台,用于将分析结果以风控策略集、风控评分卡、决策树、数据挖掘模型的形式发布到线上,对用户进行风险监控,其中,风控评分卡包含:新户准入评分卡、运营商逾期评分卡和小银分模型,小银分模型包括:行为评估模块,用于针对用户的历史商品消费信息、媒体阅读信息以及稳定性信息,从所述维度评估用户网络行为和还贷意愿;

个人资质评估模块,用于查询包括申请用户个人收入、消费情况、资产情况以及职业信息,评估申请用户消费等级、消费偏好、收入稳定性和职业信息,判断申请用户个人资质情况;

地址信息验证评估模块,用于针对用户常驻城市、常用地址数量、迁移状态、手机号码状态和网购频率信息,验证申请用户地址信息变化情况,判断客户居住、工作状态稳定性;

运营商信息核查评估模块,用于针对用户运营商信息;

支付消费评估模块用于针对用户提供的银行卡卡号,通过分析至少包括银行卡消费记录、支付行为数据以及用户消费品种类、消费地点和消费金额数据,评估用户的消费行为能力。

作为本发明进一步的方案:所述用户数据至少包括用户的手机通讯录、短信内容、通话记录、埋点信息和设备信息数据,以及与第三方征信机构合作付费为用户调取的征信源数据。

作为本发明进一步的方案:所述风控模型平台中,风控策略集包含:新户准入规则集、反欺诈规则集、征信源规则集、手机静默状态规则集、优质客户通道规则集和老户规则集。

作为本发明进一步的方案:所述风控模型平台中,数据挖掘模型包含:nlp自然语言分析模型、手机静默模型、运营商全量模型和xgboost全量风险评估模型。

基于弱变量数据的信用风险评估方法,包括以下步骤:

s1,用户数据抓取与采集,对用户授权后可以获取的手机通讯录、通话记录、短信内容、手机app安装使用情况、指标埋点数据以及设备信息数据、银行与第三方征信机构合作通过付费形式为客户调取一些征信源数据,包括公积金、社保、腾讯、银联数据等信用数据进行采集,存入银行数据库中;

s2,数据清洗、转化以及分类,对采集的用户数据进行分析、分类,根据用户数据类型将用户数据分为以下维度:用户基本属性数据、用户行为数据、用户历史借贷数据、用户认证数据、用户社交关系数据和用户偿还能力数据;

s3,确定信用风险等级,用户申请借款经过平台风控审核流程时,根据风险信息检测命中风险规则内容、个数以及风险程度,划分客户信用风险等级;

s4,历史借贷行为分析,对申请人一定周期内在各网贷平台历史借款情况进行分析,包括历史借款发放事件数、申请被拒绝次数、当前逾期机构平台个数和当前履约还款机构平台个数;

s5,历史借贷还款逾期行为分析,对申请人一定周期内各网贷平台历史借款还款表现情况进行分析。

作为本发明进一步的方案:所述用户基本属性数据至少包括用户姓名、身份证号码、手机号码、民族、婚姻状况、学历、年龄信息;

所述用户行为数据至少包括客户通话记录中黑名单客户数量、通话记录中风险客户数量、客户短信中负面敏感词汇数量、手机设备未接通率信息;

所述用户历史借贷数据为用户在一定周期内在各个借贷平台申请借款以及还款表现情况;

所述用户认证数据至少包括客户公积金、社保信息、支付宝信息、电商信息、学历信息;

所述用户社交关系数据至少包括手机设备通话记录、运营商通话记录、通讯录以及朋友圈信息;

所述用户偿还能力数据至少包括用户收入信息、历史借贷表现信息。

作为本发明进一步的方案:所述风险信息检测命中的结果包括:黑名单、异常行为信息、多重借贷信息、逾期信息、信息不一致风险、负面信息关联数据、信息多人共用风险和司法信息。

作为本发明进一步的方案:所述黑名单的检测包括以下步骤:

1)与行业相关征信机构信息打通,获取同行业网贷黑名单信息,

2)通过分析平台历史存量客户贷后数据,总结归纳一批高风险逾期客户黑名单;

所述异常行为信息为申请人通讯录、通话记录中异常信息;

所述多重借贷信息的内容为申请人一定周期内在各网贷平台历史借款情况;

所述逾期信息的内容为申请人一定周期内在各网贷平台历史借款还款表现情况;

所述信息不一致风险为申请人在平台注册时填写的个人信息是否存在高危风险;

所述负面信息关联数据内容为申请人通讯录、短信内容中涉及高风险客户和负面敏感词汇个数,以及设备未接通率情况;

所述信息多人共用风险内容为用户在平台注册申请借款时的手机设备是否存在曾经使用他人手机号情况以及是否存在与申请手机号的通话和短信记录;

所述司法信息风险内容为用户涉诉法院类信息。

与现有技术相比,本发明的有益效果是:

1.本发明不依赖央行征信报告和强变量特征数据,完全依靠分析海量弱变量特征数据,如:通讯、消费、社交等,弱变量数据获取比较容易,只需要客户授权即可获取且维度广泛,便于正确合理地从多维度评估客户准入资质,有效降低主要依赖央行征信报告和强变量特征数据作为准入资质审核条件从而导致真正有金融借贷需求客户无法达到准入门槛;

2.本发明通过海量数据接入存储,指标埋点信息和征信源数据实时接入大数据平台,建立大数据指标实时计算系统,通过建立大数据实时指标系统,根据用户数据实时计算用户相关标签,利用小银分模型等智能分析、评估用户信用;

3.本发明通过不断分析大数据实时计算出的各类指标以及与行业相关征信机构合作,将新增、优化的风控规则进行风控策略及时调整上线,做到风控政策快速迭代,以适应快速变化的市场环境。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例中,基于弱变量数据的信用风险评估系统,包括:原始数据平台,用于存储全量的可以获取到的用户数据,比如手机通讯录、短信内容、通话记录、埋点信息和设备信息数据等。同时,还包括与第三方征信机构合作付费为客户调取的征信源数据,例如:社保、公积金、银联智策、京东和腾讯等信用数据;

数据治理平台,用于对各维度用户数据进行深度分析挖掘清洗,按照业务划分为不同的维度;

用户画像平台,根据用户基本特征进行用户画像,可以根据整体用户在各个省份未还率情况进行统计分析,得出每个省份客户质量好坏等级;根据客户的多头借贷情况和用户的公积金、社保汇缴情况判断用户可以承担借款额度的范围等;

风控模型平台,用于将分析结果都以风控策略集、风控评分卡、决策树、数据挖掘模型的形式发布到线上,对用户进行全方位风险监控,其中,风控策略集包含:新户准入规则集、反欺诈规则集、征信源规则集、手机静默状态规则集、优质客户通道规则集和老户规则集;风控评分卡包含:新户准入评分卡、运营商逾期评分卡和小银分模型;数据挖掘模型包含:nlp自然语言分析模型、手机静默模型、运营商全量模型和xgboost全量风险评估模型。

用户提交借款申请后,小银分模型根据维度对海量弱变量数据进行综合处理评估,小银分模型包括:行为评估模块,用于针对用户历史商品消费信息、媒体阅读信息以及稳定性信息,从多维度评估用户网络行为和还贷意愿;

个人资质评估模块,用于查询申请用户个人收入、消费情况、资产情况以及职业等信息,综合评估申请用户消费等级、消费偏好、收入稳定性和职业信息,综合判断申请用户个人资质情况;

地址信息验证评估模块,用于针对用户常驻城市、常用地址数量、迁移状态(居住、工作状态)、手机号码状态和网购频率等信息,综合验证申请用户地址信息变化情况,判断客户居住、工作状态稳定性;

运营商信息核查评估模块,用于针对用户运营商信息,例如手机号码在网时长、手机号码当前状态以及套餐使用名称等信息,综合评估申请用户信用好坏情况;支付消费评估模块用于针对用户提供的银行卡卡号,通过分析包括但不限于银行卡消费记录、支付行为数据以及用户消费品种类、消费地点和消费金额等数据,综合评估用户的消费行为能力。

小银分模型通过对申请用户上述五大模块进行综合评估后,智能反馈300-1000分之间的信用风险评估分,智能评分越高,表明申请用户信用资质越好;智能评分越低,表明申请用户信用资质越差,风险越大。

基于弱变量数据的信用风险评估方法,包括以下步骤:

s1,用户数据抓取与采集,对用户授权后可以获取的手机通讯录、通话记录、短信内容、手机app安装使用情况、指标埋点数据以及设备信息数据、银行与第三方征信机构合作通过付费形式为客户调取一些征信源数据,包括公积金、社保、腾讯、银联数据等信用数据进行采集,存入银行数据库中;

s2,数据清洗、转化以及分类,对采集的用户数据进行分析、分类,根据用于数据类型将用户数据分为以下维度:

2.1,用户基本属性数据,主要包括姓名、身份证号码、手机号码、民族、婚姻状况、学历、年龄等个人基本信息;

2.2,用户行为数据,主要包括客户通话记录中黑名单客户数量、通话记录中风险客户数量、客户短信中负面敏感词汇数量、手机设备未接通率等信息;

2.3,用户历史借贷数据,通过与第三方征信机构合作通过付费方式为客户调取历史借贷类相关征信源信息,主要包括客户在一定周期内在各个借贷平台申请借款以及还款表现情况,例如:最近一个月在申请平台借款次数、最近三个月逾期提醒涉及的平台数目、最近十二个月借款成功发放涉及的平台数目等;

2.4,用户认证数据,主要包括客户公积金、社保信息、支付宝信息、电商信息、学历信息等授权信息;其中,通过客户授权公积金、社保数据信息,可以判断用户当前工作状态是否正常,是否有稳定的收入来源;通过客户授权电商信息,可以获取用户电商消费信息,例如:京东、天猫等电商平台购物记录、收货地址等信息;通过客户授权支付宝信息,可以获取用户支付宝信息,例如:用户最近联系人信息、收货地址等信息;通过客户授权学历信息,可以获取用户真实学历,与用户在注册时填写的学历进行比对验证,确认用户是否存在申请信息造假骗贷的嫌疑;

2.5,用户社交关系数据,主要涉及手机设备通话记录、运营商通话记录、通讯录以及朋友圈等信息,例如:工作地区通话时间占比、活跃地区通话时间占比、通讯录中有归属地的号码个数、通话记录中联系次数超过10次的手机号码在通讯录中有标记姓名个数等信息;

2.6,用户偿还能力数据,主要包括用户收入信息、历史借贷表现信息,其中,用户收入信息主要涉及客户在注册申请借款时填写的收入金额,以及通过授权公积金、社保账户数据信息获取,通过比较不同渠道获取用户收入情况,综合判断用户实际偿还能力,同时可以确认用户是否存在申请信息造假骗贷的嫌疑;

s3,确定信用风险等级,根据用户申请借款经过平台风控审核流程时,命中风险规则内容、个数以及风险程度,智能划分客户信用风险等级;风险信息检测命中结果主要包括如下:黑名单、异常行为信息、多重借贷、逾期信息、信息不一致风险、负面信息关联数据、信息多人共用风险和司法信息共八大检测维度;

其中,黑名单检测内容主要涉及以下两方面内容:1)与行业相关征信机构信息打通,获取同行业网贷黑名单信息;2)通过分析平台历史存量客户贷后数据,总结归纳一批高风险逾期客户黑名单;

异常行为信息为申请人通讯录、通话记录中异常信息,例如:通讯录拨打过的人数、通话记录中历史借款人数、通讯录中联系次数超过10次的手机号码在通讯录中标记个数等等。分析通讯录、通话记录中异常信息,通过我司自主研发的决策引擎风控系统,判断分析异常行为信息情况;

多重借贷信息内容为申请人一定周期内在各网贷平台历史借款情况,例如:最近1个月申请涉及的平台数目、最近12个月借款发放涉及的平台数目等等。与行业相关征信机构信息打通,获取同行业多重借贷信息;

逾期信息内容为申请人一定周期内在各网贷平台历史借款还款表现情况,例如:最近1个月逾期提醒涉及的平台数目、最近12个月最大逾期金额等级等等。与行业相关征信机构信息打通,获取同行业逾期信息;

信息不一致风险为申请人在平台注册时填写的个人信息是否存在高危风险,例如:申请人年龄、学历、民族、婚姻状态等信息是否符合准入条件;

负面信息关联数据内容为申请人通讯录、短信内容中涉及高风险客户和负面敏感词汇个数,以及设备未接通率情况;

信息多人共用风险内容为用户在平台注册申请借款时的手机设备是否存在曾经使用他人手机号情况以及是否存在与申请手机号的通话和短信记录;

司法信息风险内容主要涉及涉诉法院类信息,例如:法院开庭公告信息、失信公告信息和法院执行公告信息等等。与行业相关征信机构信息打通,获取涉诉法院类信息;

s4,历史借贷行为分析,对申请人一定周期内在各网贷平台历史借款情况进行分析,包括历史借款发放事件数、申请被拒绝次数、当前逾期机构平台个数和当前履约还款机构平台个数等,例如:最近1个月申请借款平台数目、最近1个月申请借款被拒绝次数等;

s5,历史借贷还款逾期行为分析,对申请人一定周期内各网贷平台历史借款还款表现情况进行分析,例如:最近1个月逾期提醒涉及的平台数目、最近1个月逾期已还次数较少、最近6个月逾期已还次数较少等。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1