一种基于机器学习的业务审核方法及装置与流程

文档序号:18744854发布日期:2019-09-21 02:12阅读:346来源:国知局
一种基于机器学习的业务审核方法及装置与流程

本发明实施例涉及金融科技(Fintech)技术领域,尤其涉及一种基于机器学习的业务审核方法及装置。



背景技术:

随着计算机技术的发展,越来越多的技术应用(例如:人工智能,云计算、区块链等)在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。在金融行业中,供应链贷款解决了上下游企业融资难、担保难的问题,而且通过打通上下游融资瓶颈,还可以降低供应链条融资成本,提高核心企业及配套企业的竞争力。目前,主要采用专家模型对贷款进行审核,通过收集多年从事贷款审核的业务人员的经验,经过整理归纳,总结为一套固定的业务逻辑规则,通过规则引擎部署在审核系统中,实现自动审核,该方法过于依赖业务人员的经验,主观因素强。



技术实现要素:

由于采用专家模型审核业务的方案过于依赖业务人员的经验,主观因素强的问题,本发明实施例提供了一种基于机器学习的业务审核方法及装置。

一方面,本发明实施例提供了一种基于机器学习的业务审核方法,包括:

获取业务申请者的业务请求;

根据所述业务请求提取所述业务申请者的特征向量;

将所述业务申请者的特征向量输入随机森林模型中的每棵决策树,获得所述随机森林模型中每棵决策树输出的分类结果,所述随机森林模型是以历史业务审核数据为训练样本训练获得的;

根据所述随机森林模型中每棵决策树输出的分类结果,确定所述业务请求的审核结果。

可选地,所述根据所述随机森林模型中每棵决策树输出的分类结果,确定所述业务请求的审核结果,包括:

根据所述随机森林模型中每棵决策树输出的分类结果和所述随机森林模型中每棵决策树对应的权重,确定所述业务请求的审核结果。

可选地,所述根据所述随机森林模型中每棵决策树输出的分类结果和所述随机森林模型中每棵决策树对应的权重,确定所述业务请求的审核结果,包括:

将所述随机森林模型中分类结果相同的决策树的权重相加,确定每个分类结果的分类权重;

将分类权重最大的分类结果作为审核结果。

可选地,所述业务请求为供应链业务请求,所述历史业务审核数据包括链属企业特征数据、核心企业特征数据、审核员的历史审核记录。

可选地,所述随机森林模型是以历史业务审核数据为训练样本训练获得的,包括:

获取历史业务审核数据;

根据所述历史业务审核数据确定特征向量集合;

从所述特征向量集合中抽取N个子特征向量集合,所述N为预设正整数;

采用所述N个子特征向量集合训练获得N棵决策树;

将N棵决策树组成随机森林模型。

一方面,本发明实施例提供了一种基于机器学习的业务审核装置,包括:

获取模块,用于获取业务申请者的业务请求;

提取模块,用于根据所述业务请求提取所述业务申请者的特征向量;

分类模块,用于将所述业务申请者的特征向量输入随机森林模型中的每棵决策树,获得所述随机森林模型中每棵决策树输出的分类结果,所述随机森林模型是以历史业务审核数据为训练样本训练获得的;

处理模块,用于根据所述随机森林模型中每棵决策树输出的分类结果,确定所述业务请求的审核结果。

可选地,所述处理模块具体用于:

根据所述随机森林模型中每棵决策树输出的分类结果和所述随机森林模型中每棵决策树对应的权重,确定所述业务请求的审核结果。

可选地,所述处理模块具体用于:

将所述随机森林模型中分类结果相同的决策树的权重相加,确定每个分类结果的分类权重;

将分类权重最大的分类结果作为审核结果。

可选地,所述业务请求为供应链业务请求,所述历史业务审核数据包括链属企业特征数据、核心企业特征数据、审核员的历史审核记录。

可选地,所述分类模块具体用于:

获取历史业务审核数据;

根据所述历史业务审核数据确定特征向量集合;

从所述特征向量集合中抽取N个子特征向量集合,所述N为预设正整数;

采用所述N个子特征向量集合训练获得N棵决策树;

将N棵决策树组成随机森林模型。

一方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于机器学习的业务审核方法的步骤。

一方面,本发明实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行基于机器学习的业务审核方法的步骤。

本发明实施例中,由于采用历史业务审核数据训练随机森林模型,使随机森林模型学习审核员的审核行为,然后将业务申请者的特征向量输入随机森林模型中的每棵决策树,获得随机森林模型中每棵决策树输出的分类结果,之后再根据随机森林模型中每棵决策树输出的分类结果,确定业务请求的审核结果。相较于专家模型来说,随机森林模型是基于历史业务审核数据训练获得,并不仅仅是专业审核人员的经验,因此对人为经验依赖小,降低了主观因素的影响,提高了审核模型的泛化能力和通用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景示意图;

图2为本发明实施例提供的一种基于机器学习的业务审核方法的流程示意图;

图3为本发明实施例提供的一种训练随机森林模型的方法的流程示意图;

图4为本发明实施例提供的一种基于机器学习的业务审核方法的流程示意图;

图5为本发明实施例提供的一种基于机器学习的业务审核装置的结构示意图;

图6为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为了方便理解,下面对本发明实施例中涉及的名词进行解释。

供应链贷款:Supply Chain Finance,是把供应链上的核心企业及其相关的上下游链属企业作为一个整体,根据供应链中企业的交易关系和行业特点制定基于货权及现金流控制的整体金融解决方案的一种融资模式。

核心企业:供应链中掌握核心技术、核心能力、核心环节的企业。

链属企业:供应链中核心企业的上下游链属企业。

本发明实施例中的基于机器学习的业务审核方法可以应用于如图1所示的应用场景,在该应用场景中包括终端设备101、审核服务器102,其中,终端设备101可以是智能手机、平板电脑或便携式个人计算机等等。审核服务器102可以是银行等金融机构的业务审核服务器。用户在终端设备101上提交业务请求,终端设备101将业务请求发送至审核服务器102。审核服务器102中包括训练好的用于业务审核的随机森林模型。审核服务器102根据所业务请求提取业务申请者的特征向量,将业务申请者的特征向量输入随机森林模型中的每棵决策树,获得随机森林模型中每棵决策树输出的分类结果,根据随机森林模型中每棵决策树输出的分类结果,确定业务请求的审核结果。审核服务器102将审核结果发送至终端设备101,用户可以从终端设备101中查看业务请求的审核结果。

基于图1所示的应用场景图,本发明实施例提供了一种基于机器学习的业务审核方法的流程,该方法的流程可以由基于机器学习的业务审核装置执行,基于机器学习的业务审核装置可以是图1中的审核服务器102,如图2所示,包括以下步骤:

步骤S201,获取业务申请者的业务请求。

步骤S202,根据业务请求提取业务申请者的特征向量。

业务申请者可以是个人或企业,业务请求可以是贷款请求,比如个人贷款请求、企业贷款请求、供应链贷款请求等。

当业务申请者为个人时,业务申请者的特征向量可以是个人特征,比如个人基本信息、个人征信记录、个人业务记录、个人资产等。当业务申请者为企业时,业务申请者的特征向量可以是企业特征,比如企业征信记录、企业资质等。

步骤S203,将业务申请者的特征向量输入随机森林模型中的每棵决策树,获得随机森林模型中每棵决策树输出的分类结果。

随机森林模型是以历史业务审核数据为训练样本训练获得的。当随机森林模型用于审核个人业务请求时,历史业务审核数据包括个人特征数据、审核员的历史审核记录。当随机森林模型用于审核供应链业务请求时,历史业务审核数据包括链属企业特征数据、核心企业特征数据、审核员的历史审核记录。

步骤S204,根据随机森林模型中每棵决策树输出的分类结果,确定业务请求的审核结果。

在一种可能的实施方式中,决策树输出的分类结果包括审核通过和审核不通过,当随机森林模型中输出的分类结果为审核通过的决策树数量大于审核不通过的决策树数量时,确定业务请求的审核结果为审核通过。当随机森林模型中输出的分类结果为审核通过的决策树数量小于审核不通过的决策树数量时,确定业务请求的审核结果为审核不通过。

在一种可能的实施方式中,根据随机森林模型中每棵决策树输出的分类结果和随机森林模型中每棵决策树对应的权重,确定业务请求的审核结果。具体地,每个决策树对应的权重是根据决策树中特征向量的重要性确定的,所有决策树对应的权重相加的和为1。

具体实施中,可以将随机森林模型中分类结果相同的决策树的权重相加,确定每个分类结果的分类权重,将分类权重最大的分类结果作为审核结果。

示例性地,设定决策树的分类结果包括审核通过和审核不通过,将分类结果为审核通过的决策树的权重相加,获得审核通过的分类权重。将分类结果为审核不通过的决策树的权重相加,获得审核不通过的分类权重。当审核通过的分类权重大于审核不通过的分类权重时,确定审核结果为审核通过,当审核通过的分类权重小于审核不通过的分类权重时,确定审核结果为审核不通过。

由于采用历史业务审核数据训练随机森林模型,使随机森林模型学习审核员的审核行为,然后将业务申请者的特征向量输入随机森林模型中的每棵决策树,获得随机森林模型中每棵决策树输出的分类结果,之后再根据随机森林模型中每棵决策树输出的分类结果,确定业务请求的审核结果。相较于专家模型来说,随机森林模型是基于历史业务审核数据训练获得,并不仅仅是专业审核人员的经验,因此对人为经验依赖小,降低了主观因素的影响,提高了审核模型的泛化能力和通用性。

下面介绍采用历史业务审核数据训练获得随机森林模型的过程,如图3所示,包括以下步骤:

步骤S301,获取历史业务审核数据。

历史业务审核数据包括链属企业特征数据、核心企业特征数据、审核员的历史审核记录,其中,链属企业特征数据包括链属企业基本信息(比如,注册成立时间、企业规模、员工数量、主营业务行业等)、链属企业经营财报(比如,负债率、负债金额、对外担保金额、营业额、营业利润等)、已质押应收账款金额、已质押应收账款笔数、应收账款特征数据(比如应收账款账期等)。核心企业特征数据包括核心企业基本信息(比如,注册成立时间、企业规模、员工数量、主营业务行业、是否为上市公司等)、核心企业经营财报、近期舆情重大负面新闻数量、应收账款特征数据(比如应收账款账期等)。

步骤S302,根据历史业务审核数据确定特征向量集合。

具体地,获取历史业务审核数据后,对历史业务审核数据进行预处理。预处理可以包括以下几种方式:方式一、由于收集的历史业务审核数据可能存在差错、异常值和缺失的情况,可以对这类数据做赋默认值、剔除样本等操作,避免这类数据影响训练结果。方式二、对指定特征列做标准化处理,例如公司的营业收入是一维连续分布的数字数据,可此处做区间分类,如300万以下、300万到1000万、1000万到5000万、5000万以上4个区间类别,然后进行标记。方式三、把历史业务审核数据整理为多维数据矩阵,以待训练使用。

步骤S303,从特征向量集合中抽取N个子特征向量集合,N为预设正整数。

具体地,采用bootstrap方法从特征向量集合中抽取N个子特征向量集合。

步骤S304,采用N个子特征向量集合训练获得N棵决策树,并将N棵决策树组成随机森林模型。

针对每个子特征向量集合,采用该子特征向量集合中的特征向量训练获得决策树,其中,决策树可以是CART(分类回归)树。根据子特征向量集合中的特征向量的重要性,设置决策树的权重,N棵决策树的权重之和为1。

采用历史业务审核数据训练随机森林模型,同时根据特征向量的重要性设置随机森林模型中每棵决策树的权重,故在采用随机森林模型审核业务请求时,结合决策树的分类结果以及决策树的权重能有效提供审核结果的准确性。

为了更好的解释本发明实施例,下面以供应链贷款作为实施场景描述本发明实施例提供的一种基于机器学习的业务审核方法,该方法由基于机器学习的业务审核装置执行,如图4所示,该方法包括以下步骤:

设定银行A在供应链金融领域有较多的贷款业务,业务系统的数据仓库积累了供应链业务的贷款企业申请记录和贷款审核历史数据。从业务系统数据、行内风险数据以及人行征信数据中提取特征向量集合Dt。采用bootstrap方法从特征向量集合Dt中抽取N个子特征向量集合{D1、D2、…、DN}。采用N个子特征向量集合训练获得N棵决策树,分别为{T1、T2、…、TN},根据子特征向量集合中的特征向量的重要性,设置N棵决策树的权重分别为{a1、a2、…、a N},N棵决策树的权重之和为1,N棵决策树组成随机森林模型。

供应链中的核心企业C地产公司与链属企业B装饰公司之间发生了一笔物业装修业务,业务金额五百万元,需待业务结束后C地产公司支付给B装饰公司,此时B装饰公司需要业务资金周转,通过此业务贸易背景的应收账款,向银行A申请贷款三百五十万元。银行A接收到B装饰公司的贷款请求后,从人行征信平台查询B装饰公司的征信记录,包括历史贷款登记记录、资产抵押记录、资产质押记录、企业对外担保记录等,再从企业工商注册数据源,获取C地产公司和B装饰公司的企业特征数据,比如企业规模、成立时间、企业注册资金、经营财报、应收账款特征数据等。从上面关于此贷款涉及到的数据中提取C地产公司的特征向量,将特征向量分别输入到N棵决策树中,每棵决策树输出一个分类结果,其中,分类结果包括审核通过和审核不通过。将分类结果为审核通过的决策树的权重相加,获得审核通过的分类权重。将分类结果为审核不通过的决策树的权重相加,获得审核不通过的分类权重。当审核通过的分类权重大于审核不通过的分类权重时,确定审核结果为审核通过,当审核通过的分类权重小于审核不通过的分类权重时,确定审核结果为审核不通过。

由于采用历史业务审核数据训练随机森林模型,使随机森林模型学习审核员的审核行为,然后将业务申请者的特征向量输入随机森林模型中的每棵决策树,获得随机森林模型中每棵决策树输出的分类结果,之后再根据随机森林模型中每棵决策树输出的分类结果,确定业务请求的审核结果。相较于专家模型来说,随机森林模型是基于历史业务审核数据训练获得,并不仅仅是专业审核人员的经验,因此对人为经验依赖小,降低了主观因素的影响,提高了审核模型的泛化能力和通用性。

基于相同的技术构思,本发明实施例提供了一种基于机器学习的业务审核装置,如图5所示,该装置500包括:

获取模块501,用于获取业务申请者的业务请求;

提取模块502,用于根据所述业务请求提取所述业务申请者的特征向量;

分类模块503,用于将所述业务申请者的特征向量输入随机森林模型中的每棵决策树,获得所述随机森林模型中每棵决策树输出的分类结果,所述随机森林模型是以历史业务审核数据为训练样本训练获得的;

处理模块504,用于根据所述随机森林模型中每棵决策树输出的分类结果,确定所述业务请求的审核结果。

可选地,所述处理模块504具体用于:

根据所述随机森林模型中每棵决策树输出的分类结果和所述随机森林模型中每棵决策树对应的权重,确定所述业务请求的审核结果。

可选地,所述处理模块504具体用于:

将所述随机森林模型中分类结果相同的决策树的权重相加,确定每个分类结果的分类权重;

将分类权重最大的分类结果作为审核结果。

可选地,所述业务请求为供应链业务请求,所述历史业务审核数据包括链属企业特征数据、核心企业特征数据、审核员的历史审核记录。

可选地,所述分类模块503具体用于:

获取历史业务审核数据;

根据所述历史业务审核数据确定特征向量集合;

从所述特征向量集合中抽取N个子特征向量集合,所述N为预设正整数;

采用所述N个子特征向量集合训练获得N棵决策树;

将N棵决策树组成随机森林模型。

基于相同的技术构思,本发明实施例提供了一种计算机设备,如图6所示,包括至少一个处理器601,以及与至少一个处理器连接的存储器602,本发明实施例中不限定处理器601与存储器602之间的具体连接介质,图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以执行前述的基于机器学习的业务审核方法中所包括的步骤。

其中,处理器601是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据,从而进行业务审核。可选的,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

基于相同的技术构思,本发明实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行基于机器学习的业务审核方法的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1