一种基于大数据征信的企业风控方法、装置、设备及介质与流程

文档序号:24725987发布日期:2021-04-16 16:02阅读:200来源:国知局
一种基于大数据征信的企业风控方法、装置、设备及介质与流程

1.本说明书涉及企业风险控制领域,尤其涉及一种基于大数据征信的企业风控方法、装置、设备及介质。


背景技术:

2.风险控制是指风险监管者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。在当前企业的风险控制中,信用起到的作用越来越重要,同时,企业的信用度也是风险监管评判企业的重要因素。
3.现有技术中,基于信用对企业进行风险控制的方案可能存在不准确性,无法很好的满足当前企业监管者的需求。
4.基于此,针对于现有企业的监管者,需要一种更准确的风险控制方案。


技术实现要素:

5.本说明书一个或多个实施例提供了一种基于大数据征信的企业风控方法、装置、设备及介质,用于解决如下技术问题:针对于现有企业的监管者,需要一种更准确的风险控制方案。
6.本说明书一个或多个实施例采用下述技术方案:
7.本说明书一个或多个实施例提供一种基于大数据征信的企业风控方法,方法由企业风控系统执行,所述企业风控系统包括征信数据标准化模块、征信数据指标化模块、企业准入模块、企业反欺诈模块与内部信用评分模块,所述方法包括:通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;通过征信数据指标化模块对所述结构化数据项进行处理,形成受评企业对应的征信数据指标;通过企业准入模块将所述受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
8.进一步地,通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项,具体包括:通过征信数据标准化模块进行征信数据获取,并对所述征信数据通过预先建立的企业征信数据仓库进行管理,确定出所需的业务数据;将所述业务数据进行企业征信报告查询或企业信用评价,确定出对应的结构化数据项。
9.进一步地,通过征信数据标准化模块进行征信数据获取,具体包括:所述通过征信数据标准化模块进行企业征信数据仓库建设、数据源的定义、数据抽取、转换清洗及加载工作。
10.进一步地,所述企业征信数据仓库包括源数据层、校验数据层、基础数据层与产品数据层;其中,所述源数据层:用于将征信数据进行统一规范化加工与存储,并根据预设的策略进行更新;所述校验数据层:用于通过既定的数据校验规则和校验流程对数据内容进行校验,通过校验的数据加载到所述基础数据层的中心数据库中,未通过校验的数据返回
到所述源数据层,错误的数据形成数据反馈报文反馈给与其对应的数据源的管理机构;所述基础数据层:用于存储通过所述校验数据层校验的数据,并将通过事后校验查出的错误数据退回到所述校验数据层,并最终形成错误反馈报文反馈给上报机构;所述产品数据层:用于根据受评企业中服务产品的种类、既定的数据抽取逻辑和挖掘分析加载到所述产品数据层,为用户准备好服务所需要的产品数据。
11.进一步地,企业准入模块运用的技术包括规则引擎与阈值体系;其中,所述规则引擎包括特征库设计、规则匹配优化及规则评判机制;所述阈值体系包括专家阈值与基于受评企业行为的动态阈值;专家阈值是基于多维度指标的静态阈值对明显存在风险的企业和企业法定代表人执行相应的风控措施;基于受评企业行为的动态阈值是基于受评企业行为,利用受评企业历史纳税指标、财务报表指标、工商登记与变更指标中的一项或多项,采用聚类分析模型进行用户分类和特征深度挖掘,对各种类型的受评企业分配不同的风险等级,并根据受评企业对应的风险等级确定出动态阈值。
12.进一步地,通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分,具体包括:通过所述企业反欺诈模块从高维数据中获得有助于反欺诈决策的信息,基于规则引擎与企业指标和异常检测、关系图谱、深度学习中一项或多项机器学习算法,训练反欺诈模型,实时对受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分;其中,所述企业反欺诈模块包括接入板块、数据存储板块、欺诈检测板块与机器学习板块;所述接入板块提供api服务接入功能,包括反欺诈指标接入、基于rete算法的反欺诈规则引擎分析、特征加工、模型加载预测、数据沉淀;所述数据存储板块提供关系型数据库与分布式数据库支持,所述关系型数据对反欺诈规则引擎的配置信息、企业信息进行存储,所述分布式数据库用于存储流式计算后的模型训练特征;所述欺诈检测板块中的欺诈识别规则包括名单类检测指标、综合类检测指标、账户类检测指标、策略类监控指标中的一项或多项;所述机器学习板块用于提升反欺诈模型的评价效果,以识别出新的欺诈风险。
13.进一步地,企业风控系统还包括企业内部信用评分模块;所述企业内部信用评分模块是基于专家评分、机器学习技术形成的企业信用评分卡,并对受评企业的信用违约概率进行预测,形成企业信用评级。
14.本说明书一个或多个实施例提供一种基于大数据征信的企业风控装置,包括:数据处理单元,用于通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;指标确定单元,用于通过征信数据指标化模块对所述结构化数据项进行处理,形成受评企业对应的征信数据指标;结果筛选单元,用于通过企业准入模块将所述受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;风险评分单元,用于通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
15.本说明书一个或多个实施例提供一种基于大数据征信的企业风控设备,包括:至少一个处理器;以及,
16.与所述至少一个处理器通信连接的存储器;其中,
17.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够:通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;通过征信数据指标化模块对所述结构化数据项进行处理,形成受评企业对应的征信数据指标;通过企业准入模块将所述受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
18.本说明书一个或多个实施例提供的一种存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;通过征信数据指标化模块对所述结构化数据项进行处理,形成受评企业对应的征信数据指标;通过企业准入模块将所述受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
19.本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:将小微企业征信数据标准化、征信数据指标化与小微企业智能风控相结合,打通了从海量数据获取到测算小微企业授信额度全流程,充分解决了征信数据孤岛问题;获取多种来源的企业征信数据并形成标准企业征信数据仓库,解决了异构信息系统之间缺乏统一的标准规范、政府部门数据公开化程度较低、缺乏统筹协调机制等问题,实现了征信数据之间的互联互通与标准化管理,有助于金融机构更加全面、准确地认识用户的违约风险水平,从而给予合理的授信额度;降低了信用风险评估成本,并且保证了信用审核过程的透明性、公平性,减少了人为操作风险。
附图说明
20.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
21.图1为本说明书一个或多个实施例提供的一种基于大数据征信的企业风控方法流程图;
22.图2为本说明书一个或多个实施例提供的企业反欺诈模块结构示意图;
23.图3为本说明书一个或多个实施例提供的企业内部信用评分模块结构示意图;
24.图4为本说明书一个或多个实施例提供的一种基于大数据征信的企业风控装置的结构示意图;
25.图5为本说明书一个或多个实施例提供的一种基于大数据征信的企业风控设备的结构示意图。
具体实施方式
26.本说明书实施例提供一种基于大数据征信的企业风控方法、装置、设备及介质。
27.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明
书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
28.风险控制是指风险监管者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。在当前企业的风险控制中,信用起到的作用越来越重要,同时,企业的信用度也是风险监管评判企业的重要因素。
29.现有技术中,小微企业风控解决方案依托自有的小微企业信用评估模型进行信用评估,更多的依赖于财务指标;而小微企业的财务信息往往难以获取且可信度不高,并且由于政策变化、行业监管波动等经营状况会受到影响,因此银行等金融机构对小微企业的风控管理存在较大困境。基于此,针对于现有的企业的监管者,需要一种更准确的风险控制方案。
30.本说明书实施例提供的方案可以解决由于征信数据源之间信息共享程度不足造成信息孤岛现象,缺乏更准确的风险评估控制方案的技术问题。需要说明的是,大数据征信是指通过收集和积累获得上游数据生产者产生的海量、多样化的、多维度的信用数据,由中游征信机构处理和加工征信大数据,形成具有利用价值的结构化数据,下游信息使用者对信用数据判断、评价、分析后,评估可能发生的风险隐患,形成最终决策。大数据技术使征信数据规模越来越大,应用范围越来越广,实现了与政府监管部门的资源共享和监管协同,弥补了传统征信体系中存在的不足,使得传统数据缺失情况下的信用评分成为可能。
31.下面结合附图对本发明实施例提出的技术方案进行详细的说明。
32.图1为本说明书实施例提供的一种基于大数据征信的企业风控方法流程图。需要说明的是,企业风控方法由企业风控系统执行,其中企业风控系统主要包括征信数据标准化模块、征信数据指标化模块、企业准入模块、企业反欺诈模块与内部信用评分模块。如图1所示,基于大数据征信的企业风控方法主要包括以下步骤:
33.步骤s101,通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项。
34.进一步的,在本说明书的一个实施例中,步骤s101具体可以包括:
35.通过征信数据标准化模块进行征信数据获取,并对所述征信数据通过预先建立的企业征信数据仓库进行管理,确定出所需的业务数据;将所述业务数据进行企业征信报告查询或企业信用评价,确定出对应的结构化数据项。其中,通过征信数据标准化模块进行征信数据获取,具体包括:通过征信数据标准化模块进行企业征信数据仓库建设、数据源的定义、数据抽取、转换清洗及加载工作。
36.本说明书的一个实施例中,征信数据由多个数据源获得。具体地,企业征信数据的主要来源包括政府授权使用的企业工商数据、司法数据、税务数据、奖惩信息;还包括合作金融机构反馈的企业与实控人信用数据、流水数据、用款数据;还包括互联网采集的舆情数据、信用公示数据以及第三方合作的运营商数据、商业交易数据。遵循“一切数据皆信用”的新型信用体系建设的新思路,获取多种来源的企业征信数据并形成标准企业征信数据仓库,解决了异构信息系统之间缺乏统一的标准规范、政府部门数据公开化程度较低、缺乏统筹协调机制等问题,实现了征信数据之间的互联互通与标准化管理。
37.本说明书的一个实施例中,征信数据标准化模块采用企业征信仓库的形式对多个数据源获取的原始企业信用数据进行数据获取、数据管理和数据应用三个层次的处理。
38.本说明书的一个实施例中,征信数据标准化模块对原始企业信用数据的数据获取主要包括企业征信数据仓库建设、数据源的定义、数据抽取、转换清洗及加载工作。其中,由于原始企业信用数据的数据来源广泛,不同系统涉及的原理、架构、使用平台也不相同,因此需要将接口数据、库表数据、非结构化数据统一处理成方便存储与使用的结构化数据;当确定完数据源后,需要控制数据源的质量,通过交叉比对、规则校验等方法把不统一、不完整的数据源变成按统一标准存放到数据仓库中。
39.本说明书的一个实施例中,征信数据标准化模块对原始企业信用数据的数据抽取、转换清洗及加载(extract

transform

load,etl)。具体地,根据系统特点建立etl策略,其中包括数据抽取的抽取频率、数据的颗粒度等,etl结束后进行整个过程的监控及跟踪处理。其中,在数据抽取阶段,不同形式的数据采用不同的更新方式;针对接口形式的数据采用触发器更新的方式;针对库表形式的数据,若数据量不大,如公开数据、奖惩数据等,采用全量更新的方式;若数据量较大且更新规律,如财务报表数据、纳税数据等,采用基于数据时间戳的增量抽取机制。在数据转换阶段,针对抽取出的原始企业征信数据,转换为按照时间、地域、行业等不同的数据维度,并运用规则进行数据质量校验,排除不符合质量要求的数据。
40.需要说明的是,企业征信数据仓库包括源数据层、校验数据层、基础数据层与产品数据层;其中,所述源数据层:用于将征信数据进行统一规范化加工与存储,并根据预设的策略进行更新;所述校验数据层:用于通过既定的数据校验规则和校验流程对数据内容进行校验,通过校验的数据加载到所述基础数据层的中心数据库中,未通过校验的数据返回到所述源数据层,错误的数据形成数据反馈报文反馈给与其对应的数据源的管理机构;所述基础数据层:用于存储通过所述校验数据层校验的数据,并将通过事后校验查出的错误数据退回到所述校验数据层,并最终形成错误反馈报文反馈给上报机构;所述产品数据层:用于根据受评企业中服务产品的种类、既定的数据抽取逻辑和挖掘分析加载到所述产品数据层,为用户准备好服务所需要的产品数据。
41.本说明书的一个实施例中,企业征信数据通过预先建立的企业征信数据仓库进行管理,其中,来源于多个数据源的征信数据以及用于分析的集成汇总数据都存储于企业征信数据仓库中,从层次上看,企业征信数据仓库包括源数据层、校验数据层、基础数据层与产品数据层。
42.其中,源数据层是其它各层数据的基础,源数据层将来源于各个数据源的数据进行统一规范化加工与存储,并运用适当的策略进行更新;当源数据层数据到达后,校验数据层使用既定的数据校验规则和校验流程对数据内容进行校验,若数据通过校验,则该数据加载到中心数据库中;若数据未通过校验,数据返回到上一层,未通过校验的错误数据形成数据反馈报文,反馈给对应数据源的管理机构。基础数据层中主要存储的是通过校验的关键征信业务数据。基于性能的考虑,通过校验的关键征信业务数据一般采取批量加载的方式加载到中心数据库。其中,中心数据库主要用于存储校验通过的数据,并将通过校验查出的错误数据退回到上一层,并最终形成错误反馈报文反馈给上报机构。当基础数据入库和整理完毕后,按照服务产品(信用报告、固定报表、汇总查询等)的种类、既定的数据抽取逻
辑和挖掘分析加载到产品数据层,为用户准备好服务所需要的业务数据。
43.在本说明书的一个实施例中,数据应用是指将业务数据进行企业征信报告查询或企业信用评价,确定出对应的结构化数据项。其中,需要说明的是,企业征信报告查询与企业信用评价是企业征信数据仓库面向的核心业务。建立企业征信数据仓库,基于企业征信数据仓库进行数据管理后,所提供的信用产品主要就是信用报告以及能够用于支撑企业信用评价的数据。信用报告以自主查询的方式提供服务,其形式可以为接口数据或征信报告页面;企业信用评价指标以api数据接口的方式提供服务,其输出的结构化数据项能够被直接用于信用评价,或进行再加工。
44.步骤s102,通过征信数据指标化模块对所述结构化数据项进行处理,形成受评企业对应的征信数据指标。
45.在本说明书的一个实施例中,征信数据指标化模块针对企业征信数据仓库输出的结构化数据项,运用大数据处理与机器学习技术进行进一步处理与衍生,形成标准化的、覆盖受评价企业基本面、履约能力、偿债能力、成长性、经营能力等维度的企业征信数据指标。主要使用指标衍生(recency,frequency,monetary,rfm)、无监督聚类指标衍生与指标过滤三种方法。
46.具体地,指标衍生rfm可以通过刻画企业经营与履约行为特征,实现客户价值的细分。在本方案中,针对企业的变更规律、纳税与开票行为、财务报表关键指标变动等方面对rfm框架进行了运用,定义了以客户、账号、设备为核心的特征衍生主体(统计对象)。具体衍生方法为:统计对象包括客户、账户以及交易设备。统计窗口包括短期窗和长期窗,其中,短期窗以小时为单位,如1小时、24小时等,最长不超过48小时;长期窗则以月为单位,如1个月、3个月,最长不超过36个月。聚合函数包括连续型函数和离散型函数,如最大值、最小值、和、均值等连续型函数以及如计数、频次、比值等离散型函数。统计变量包括连续型变量和离散型变量,其中连续型变量是指在一定区间内可以任意取值的变量,如实缴税额等;离散型变量是指有限固定取值、可列举的变量,如企业类型等。
47.具体地,无监督聚类指标衍生方法主要是从指标之间的关系和特点出发,探索高维指标之间不易被归纳出的特点,运用kmeans聚类算法产生具有高预测性区分性的指标。这一过程会产生大量指标,这些指标在衍生阶段不做处理,会在后续的特征选择中被自动筛选。需要说明的是,不同类型的指标衍生方向不同,具体衍生方式包括以下两种:基于时间序列的指标聚类和基于多维画像的指标聚类。其中基于时间序列的指标聚类是针对具有时间序列的企业征信指标,按照其时间维度进行聚类,挖掘可能存在异常风险的企业与时间特征;基于多维画像的指标聚类是针对企业财务指标、纳税指标等多维指标,在特定时间截面上针对指标集进行聚类,并根据聚类结果对企业打上相应的业务标签,作为新的企业指标。
48.具体地,指标过滤的目标如下:首先,按照某种规则对数据集进行指标选择,所选择的指标需要具有高预测性、高稳定性、高业务可解释性等特点;然后,根据业务经验对筛选出的指标进行业务分类,形成企业基本面、履约能力、偿债能力、成长性、经营能力等维度。根据不同的指标类型,采用不同的方法,具体为,若为连续型指标,则运用方差过滤法;若为离散型指标,运用同值过滤法。指标过滤的步骤包括:计算指标之间的相关系数,删除相关系数过高的指标组的其中一个;计算指标与目标变量之间的相关系数,删除相关系数
过小的指标;运用xgboost算法进行指标重要性排序,剔除指标重要性小于阈值的指标。
49.步骤s103,通过企业准入模块将所述受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业。
50.在本说明书的一个实施例中,企业准入模块运用的技术包括规则引擎与阈值体系;其中,所述规则引擎包括特征库设计、规则匹配优化及规则评判机制;所述阈值体系包括专家阈值与基于受评企业行为的动态阈值;专家阈值是基于多维度指标的静态阈值对明显存在风险的企业和企业法定代表人执行相应的风控措施;基于受评企业行为的动态阈值是基于受评企业行为,利用受评企业历史纳税指标、财务报表指标、工商登记与变更指标中的一项或多项,采用聚类分析模型进行用户分类和特征深度挖掘,对各种类型的受评企业分配不同的风险等级,并根据受评企业对应的风险等级确定出动态阈值。
51.具体地,企业准入模块基于人工智能自动化规则碰撞,对进入风控流程的企业进行第一步筛选,通过规则判断以实时的方式进行黑白名单碰撞、虚假申请识别、信息伪造鉴别、黑产包装发掘等,并过滤不符合准入规则的高风险企业。需要说明的是,企业准入模块运用的技术包括规则引擎与阈值体系,其中,规则引擎包括特征库设计、规则匹配优化及规则评判机制;阈值体系包括专家阈值与基于企业行为的动态阈值。
52.在本说明书的一个实施例中,规则引擎由推理引擎、事实集、规则库组成。其中事实集是指数据层的相关数据,将相关数据加载到工作内存中。在规则库中需要的变量通过预处理存储为特征因子,以用于提高变量的复用率和规则简洁度。另外,根据风控需求,特征库中的特征因子分为用户特征因子和全局特征因子。其中,用户特征因子以企业统一社会信用代码为主键,聚合小微企业各个维度的特征数据;全局特征因子是从全局数据中抽象所需要的其他维度进行组合、计算。
53.在本说明书的一个实施例中,在规则模式匹配中使用rete算法以用于提升匹配效率,减少重复计算造成的时间冗余性。当规则数量和事实样本较多时,每条事实数据都需要与rete网络中的alpha节点相匹配。因此,通过设置预匹配模块,将多条规则聚合成少量规则组,通过规则组筛选,在预匹配阶段过滤掉部分正常数据,减少事实和节点的匹配次数,提升规则匹配效率。需要说明的是,实现方法是将含有多个相同条件原子的规则划分到同一个规则组中,规则组中出现次数最多的条件原子作为该规则组的特征条件;全局数据通过预匹配模块中规则组的筛选,可过滤掉部分数据,只对剩余样本执行所在规则组内的规则判断。
54.在本说明书的一个实施例中,有效的准入规则体系包括识别风险用户与事实风险拦截措施。因此,准入规则体系需要将风险误报率和漏报率降低到可接受的范围内,提升风控有效性与用户体验。需要说明的是,规则评价机制基于两种数据源,一是根据风控分值得到的触发次数分布,二是触发规则后对风控措施进行响应,得到最终请求结果。基于规则引擎输出每条规则的触发次数计算查准率(p)和召回率(r):p=tp/(tp+fp),r=tp/(tp+fn),其中,tp表示实际发生违约的客户,fp表示被错误判定为违约的客户,fn表示被错误判定为非违约的客户。系统根据每次请求返回的分值,匹配短信验证、人工电核、现场审核、拒绝申请等实时风控措施。
55.在本说明书的一个实施例中,阈值体系设计主要解决了传统风控系统中阈值一刀切造成的弊端,以评分机制为基础,总共有三个模块。在专家阈值的基础上,增加了企业行
为评分机制,和阈值的动态调整。一方面,专家阈值用于初步过滤,基于多维度指标的静态阈值对明显存在风险的企业和企业法定代表人执行相应的风控措施;专家阈值是基于专家征询法对单个指标一一进行阈值确定,具有客观性和代表性。另一方面,基于企业行为的动态阈值是基于企业行为动态调整阈值的一种综合性方法,具体实现方式分为如下三个步骤:首先,基于企业行为,利用企业历史纳税指标、财务报表指标、工商登记与变更指标等,采用聚类分析、随机森林等模型进行用户分类和深度特征挖掘;其次,构建企业的准入风险评价系统,运用模型进行计算,对各种类型的企业分配不同的风险等级;最后,采用训练好的准入风险评价模型对样本进行计算,实现高可用的个性化智能准入控制,提高了风控处理效率。
56.步骤s104,通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
57.在本说明书的一个实施例中,步骤s104具体可以包括:
58.通过所述企业反欺诈模块从高维数据中获得有助于反欺诈决策的信息,基于规则引擎与企业指标和异常检测、关系图谱、深度学习中一项或多项机器学习算法,训练反欺诈模型,实时对受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分;其中,所述企业反欺诈模块包括接入板块、数据存储板块、欺诈检测板块与机器学习板块;所述接入板块提供api服务接入功能,包括反欺诈指标接入、基于rete算法的反欺诈规则引擎分析、特征加工、模型加载预测、数据沉淀;所述数据存储板块提供关系型数据库与分布式数据库支持,所述关系型数据对反欺诈规则引擎的配置信息、企业信息进行存储,所述分布式数据库用于存储流式计算后的模型训练特征;所述欺诈检测板块中的欺诈识别规则包括名单类检测指标、综合类检测指标、账户类检测指标、策略类监控指标中的一项或多项;所述机器学习板块用于提升反欺诈模型的评价效果,以识别出新的欺诈风险。
59.具体地,首先从高维数据中获取有助于反欺诈决策的信息,并基于规则引擎与企业指标和异常检测、关系图谱、深度学习等机器学习算法训练反欺诈模型,构建基于企业行为画像的贷前反欺诈机器学习模型集合,实时对受评企业的潜在欺诈风险进行预判,提高对欺诈风险检测的准确率。图2给出了本说明书的一个实施例提供的企业反欺诈模块结构示意图,其中企业反欺诈模块200包括:接入板块202、数据存储板块204、欺诈检测板块206、机器学习板块208以及欺诈风险处置板块210。下面对企业反欺诈模块的各个板块进行详细说明。
60.首先,接入板块202提供api服务接入功能,包括反欺诈指标接入、基于rete算法的反欺诈规则引擎分析、特征加工、模型加载预测以及数据沉淀等。需要说明的是,为了保证实时分析性能,还提供监控功能,在监控过程中发现任何问题调用相应的处置程序。
61.其次,数据存储模块204提供关系型数据库支持和分布式数据库支持;关系型数据主要对反欺诈规则引擎的配置信息、企业信息等数据进行存储,分布式数据库用于存储流式计算后的模型训练特征,为模型训练提供拍照特征支持,存储批量更新后的模型,支撑在线预测与模型更新,为整个智能化风控系统提供防护。
62.接着,欺诈检测模块206对受评企业进行欺诈风险监测,全面的欺诈监控指标决定了实时监控反欺诈体系运转情况的有效性。需要说明的是,欺诈监控指标采用规则引擎实
时处理的方式,过滤命中高危欺诈规则的企业。在本说明书的一个实施例中,欺诈识别规则主要包括:名单类检测指标、综合类检测指标、账户类检测指标以及策略类监控指标。其中,名单类检测指标是指基于内部、外部形成的失信、多头借贷、违法违规、处罚、运营商等黑灰名单对企业进行碰撞,全面检测存在不良历史的企业;综合类检测指标侧重于对企业综合信用状况的整体把控,通过工商、经营、基本面、纳税、经营行为、历史借贷行为等数据进行统计、分析,抽象出单用户或群体用户的特征全貌,建立客户行为全景画像;账户类检测指标侧重于账户分级监控,通过分析银行账户交易额、账户权限、开户方式的差异性,对账户操作进行检测;策略类监控指标:侧重于对反欺诈策略和规则的触发情况进行实时关注,如反欺诈规则的拦截率、命中率、规则响应时长等,以达到对模型有效性进行分析及验证的目的。
63.其次,机器学习板块208采用了实时特征提取与离线模型训练相结合的模式,以用于提升反欺诈模型的评价效果,尽早识别出新的欺诈风险。需要说明的是,实时特征提取通过流式计算引擎对实时数据流的特征进行加工,并按照模型特征逻辑进行数据加工,进行特征存储,为离线模型训练提供特征数据;离线模型训练通过定时调度策略,周期性的批量读取特征数据,自动训练模型,并将训练好的模型进行更新。在本说明书的一个实施例中,机器学习板块支持的模型包括:无监督学习企业异常检测、智能反欺诈关联图谱以及有监督机器学习欺诈概率预测。其中,无监督学习企业异常检测通过无监督聚类分析算法抽象出单个企业或群体企业的特征全貌,能够快速度量在欺诈检测中受评企业与真实非欺诈企业的相似程度,为判断企业欺诈风险提供大数据依据,使得风险识别环节进一步前移;智能反欺诈关联图谱基于经营地址、联系人、联系电话、投融资、担保等关系构建关联图谱网络,结合用户画像模型、特征工程技术,通过相似度算法定义网络定点间关系,构建企业图谱网络,发现大量数据中相关属性集之间的关联关系,挖掘潜在的欺诈团伙,为规则制定提供参考依据,优化智能化反欺诈的静态防护规则;有监督机器学习欺诈概率预测是基于历史的真实企业欺诈表现数据与异常检测模型完成异常检测标注,在深度网络欺诈检测充分挖掘欺诈样本基础上,采用多种算法融合的策略,包括逻辑回归、支持向量机等机器学习算法,以及卷积神经网络、多层全连接神经网络等深度学习算法,从而使模型效果逐步达到最优,风险预测更精准。
64.最后,在欺诈风险处置板块210中,欺诈风险的处置策略和规则可用于明确欺诈风险的可接受水平与处置方式。需要说明的是,本说明书的一个实施例采用的欺诈处置方式按照欺诈风险级别确定,具体为:对于高级别疑似欺诈风险,通过制定反欺诈策略进行拦截和实时阻断;对于中级别疑似欺诈风险,通过牺牲用户体验来平衡风险水平,降低风险级别,增加人工审核环节;对于低级别疑似欺诈风险,通过电话外呼、短信提醒等方式提醒客户;并对各渠道反馈回来的事实欺诈线索和案例进行人工调查与分析。
65.在本说明书的一个实施例中,在步骤s104,通过企业反欺诈模块内置的模型对所述符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分,之后,企业内部信用评分模块是基于专家评分、机器学习技术形成的企业信用评分卡,并对受评企业的信用违约概率进行预测,形成企业信用评级。
66.图3给出了本说明书的一个实施例提供的一种企业内部信用评分模块的结构示意图,下面结合附图3对企业内部信用评分模块进行说明。
67.在本说明书的一个实施例中,企业内部信用评分模块300包括特征筛选板块302、样本均衡板块304、基分类器池板块306以及预授信测算模块308。
68.具体地,在本说明书的一个实施例中,从影响企业信用的主要因素出发,开发特征筛选板块302。特征筛选板块302采用机器学习自动化筛选的的方法分析各因素对企业信用影响的显著性,形成完善、稳定的指标体系,为了提升模型预测效率及模型在未知数据上的泛化能力,特征筛选板块302从样本空间中挑选有益特征、摒弃无关或冗余特征,主要通过“四步特征筛选方案”进行特征筛选:第一步,针对原始的2000余维企业信用特征,基于woe的单特征粗粒度筛选;第二步,针对第一步筛选后的500余维企业信用特征基于xgboost与随机森林算法的自动化特征筛选;第三步,针对第二步筛选后的100余维企业信用特征基于递归特征消除(rfe)的迭代特征筛选;第四步,针对第三步筛选后的50余维企业信用特征基于深度业务理解的特征筛选。
69.在本说明书的一个实施例中,样本均衡板块304采用基于样本合成的smote过采样技术,通过构造新的少数类样本来使得两类样本数量平衡。由于smote算法在高维数据集上的效果较差,因此需要首先对指标进行筛选,然后再对样本进行扩充。本说明书的一个实施例针对企业信用评分数据库有效样本数量不足的问题,利用smote算法通过生成模拟样本,以用于增加样本集中有效样本的容量,从而实现对原始样本集的优化。
70.在本说明书的一个实施例中,以构建高精确度的企业信用评分模型为目标,建立基分类器池形成基分类器池板块306,分别以精度、差异度和误判损失率为选择标准,考虑基分类器之间的互补性和差异性,设计全局搜索算法输出最优的基分类器,选择合适的方法作为基分类器的融合方法,最终实现最优组合模型的输出。基分类器池板块306应用的关键技术包括自动化分类器筛选与分类器融合,其实现过程如下:首先,确定分类器筛选标准,在本说明书实施例中,分类器筛选的标准包括分类器本身的分类精度、假设条件以及分类器的原理。在计算过程中,基分类器差异性越大,其模型的拟合效果越好、泛化能力越强、噪音影响越低,因此在分类器选择的过程中以分类精度和算法规则为筛选标准。需要说明的是,本说明书的实施例中,基分类器池中的分类器包括逻辑回归lr、支持向量机svm、多层全连接神经网络mlp、xgboost以及随机森林等。其次,分类器融合;在分类器融合的过程中,选择的基础标准是分类器精度与不同分类器差异性融合的方式,使用“选择性集成”模型进行方法的融合。分类器融合过程使用stacking方法处理分类器融合过程,以用于检验分类器选择的有效性。stacking融合方法的具体步骤如下:首先将训练集d拆成k个大小相似但互不相交的子集d1,d2,d3,

,d
k
;其次,令在上训练一个基分类器,将d
j
作为测试集,获得l
j
在d
j
上的输出得到k个基分类器以及k个相应的输出这个k个输出加上原本的类标构成新的训练集d
n
;在d
n
训练最终的分类器l,l输出的即为最终结果。
71.在本说明书的一个实施例中,预授信测算模块308针对受评企业违约概率,生成评分区间在0至100分的受评企业信用评分,并根据“信用等级越高,违约概率越小”的原则,当受评企业的违约概率在一定阈值区间时,对应一定的信用等级。
72.具体地,以企业的上两年平均纳税额作为基础额度,然后,将受评企业的信用等级转换为额度调整系数,得到客户评级;当客户评级为aaa、aa的,授信额度表示为企业近两年纳税总额平均值*10;当客户评级为a时,授信额度表示为企业近两年纳税总额平均值*8;当
客户评级为bbb时,授信额度表示为企业近两年纳税总额平均值*5;当客户评级为bb时,授信额度表示为企业近两年纳税总额平均值*2;当客户评级为b及以下时,授信额度为0。
73.图4为本说明书一个实施例提供的一种基于大数据征信的企业风控装置的结构示意图。基于大数据征信的企业风控装置包括:数据处理单元402,用于通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;指标确定单元404,用于通过征信数据指标化模块对结构化数据项进行处理,形成受评企业对应的征信数据指标;结果筛选单元406,用于通过企业准入模块将受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;风险评分单元408,用于通过企业反欺诈模块内置的模型对符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
74.图5为本说明书一个实施例提供的一种基于大数据征信的企业风控设备的结构示意图。基于大数据征信的企业风控设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,存储器存储有可被所述至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;通过征信数据指标化模块对结构化数据项进行处理,形成受评企业对应的征信数据指标;通过企业准入模块将所述受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;通过企业反欺诈模块内置的模型对符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
75.本说明书一个实施例提供一种存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:通过征信数据标准化模块将多个数据源获取的征信数据进行处理,确定出结构化数据项;通过征信数据指标化模块对结构化数据项进行处理,形成受评企业对应的征信数据指标;通过企业准入模块将受评企业对应的征信数据指标进行自动化校验,并根据校验结果筛选出符合准入要求的受评企业;通过企业反欺诈模块内置的模型对符合准入要求的受评企业进行欺诈风险评价,确定出受评企业发生欺诈的概率,并形成受评企业欺诈风险评分。
76.本说明书的一个或多个实施例的出的技术方案基于大数据征信的小微企业智能风控解决方案将小微企业征信数据标准化、征信数据指标化与小微企业智能风控相结合,打通了从海量数据获取到测算小微企业授信额度全流程,充分解决了征信数据孤岛问题,实现了运用大数据技术解决小微企业融资困难这一目的。具有以下有益效果:遵循“一切数据皆信用”的新型信用体系建设的新思路,获取多种来源的企业征信数据并形成标准企业征信数据仓库,解决了异构信息系统之间缺乏统一的标准规范、政府部门数据公开化程度较低、缺乏统筹协调机制等问题,实现了征信数据之间的互联互通与标准化管理;基于自动化特征加工、规则引擎和机器学习算法,构建了丰富的企业信用指标、准入验证体系和反欺诈、信用评分模型;依托大数据、实时数据处理等技术,通过在系统化部署、应用策略以及模型迭代优化等环节的实践,形成了一套智能化的小微企业事中风控方案;综合应用大数据技术进行风险控制分析,解决了信息不对称带来的违约、欺诈等风险对小微企业融资生态的冲击,有助于金融机构更加全面、准确地认识用户的违约风险水平,从而给予合理的授信额度;另外本说明书提出的技术方案中均为自动化实现,减少了金融机构的尽调与信用风
险评估成本,提升了对小微企业融资的服务效率,并且保证了信用审核过程的透明性、公平性,减少了人为操作风险。
77.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
78.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
79.以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1