本发明涉及风控领域,尤其涉及金融业务的风险评估方法、风控服务端及计算机可读存储介质。
背景技术:
风险控制,简称风控,是指风险管理者采取各种方法和措施,消灭或减少风险事件发生的可能性,以达到减少风险事件发生时造成的损失的目的。风险控制的首要步骤即是对风险事件发生的可能性进行评估。
传统风控在对风险事件发生的可能性进行评估时,主要是基于已经设定好的各项业务规则进行判定。例如,用户被列入黑名单属于直接认定为风险事件发生率为100%的业务规则,假设用户a被列入黑名单,那么传统风控评估系统将认为该用户a对应的风险事件的发生率为100%。但随着欺诈手段的层出不穷,基于已经设定好的各项业务规则进行的传统风控模型由于自我学习不够,已经不能应对各种新的欺诈手段,进而使得风控评估的结果不准确。
技术实现要素:
本发明的主要目的在于提供一种金融业务的风险评估方法、风控服务端及计算机可读存储介质,旨在解决因传统风控模型自我学习能力不够导致风控评估结果不准确的问题。
为实现上述目的,本发明提供一种金融业务的风险评估方法,包括步骤:
获取预设数量的样本用户对应的风险评估样本数据;
通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2;
在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别;
将所述风险评估数据加入确定的样本类别所对应的样本数据中,以形成新的样本数据;
通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件;
根据所述决策条件更新所述决策树模型,并通过更新后的决策树模型评估所述金融业务的风险概率。
可选地,所述通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2的步骤包括:
通过输入基因表达矩阵构建所述k-means算法的对象集,所述对象集由所有所述风险评估样本数据对应的数据点组成;
从所述对象集中选择k个所述数据点,其中k大于或等于2,并在所述对象集中以所述k个数据点为聚类中心分别建立数据簇;
执行对聚类中心以及数据簇的迭代操作,其中所述迭代操作的步骤包括:
将每个数据点调整至该数据点距离最近的聚类中心所在的数据簇中;
根据调整后的每个数据簇中所有的数据点重新确定聚类中心;
每次执行完所述迭代操作后,判断所述迭代中止条件是否成立,其中,所述迭代中止条件包括:相邻两次迭代操作中数据点至聚类中心的距离平方和的差小于预设误差阈值,或者,迭代操作的次数达到预设次数阈值;
当所述迭代中止条件成立时,将最新确定的所有聚类中心作为样本类别,将最新确定的每个聚类中心所在数据簇作为每个样本类别分别对应的样本数据;
当所述迭代中止条件不成立时,返回继续执行迭代操作。
可选地,所述将每个数据点调整至该数据点距离最近的聚类中心所在数据簇中的步骤包括:
获取每个数据点至所有聚类中心的距离;
其中,所述获取每个数据点至所有聚类中心的距离的步骤包括:
通过
或者,通过d12=|x1-x2|+|y1-y2|计算每个数据点至所有聚类中心的距离;
或者,通过d12=max(|x1-x2|,|y1-y2|)计算每个数据点至所有聚类中心的距离;其中,聚类中心的坐标为(x1,y1),每个数据点的坐标为(x2,y2),d12为数据点至聚类中心的距离;
根据每个数据点至所有聚类中心的距离,将每个数据点调整至该数据点距离最近的聚类中心所在的数据簇中。
可选地,所述根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别的步骤包括:
在所述输入基因表达矩阵中,计算所述风险评估数据对应的数据点与每个所述样本类别的距离;
根据所述风险评估数据对应的数据点与每个所述样本类别间的距离,将风险评估数据归类至距离最短的所述样本类别中。
可选地,所述决策树算法包括id3算法;所述数据点具有多种属性;所述通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件的步骤包括:
按照所述决策树模型的层级从低到高的顺序依次选择所述层级;
每次选择完决策树模型的层级后,通过
选择信息增益最高的属性作为该层级的决策条件,并根据选择的决策条件对所述新的样本数据进行分类,以得到更新后的所述新的样本数据;
记录所述决策树模型的层级,并判断所述决策树模型的层级是否达到预设深度阈值;
当所述决策树模型的层级达到预设深度阈值时,停止选择层级,并输出所有选择的层级对应的决策条件;
当所述决策树模型的层级未达到预设深度阈值时,从所有属性中除去当前选择的作为决策条件的属性,并继续执行选择所述层级的步骤。
可选地,所述决策树算法包括c4.5算法;所述数据点具有多种属性;所述通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件的步骤包括:
按照所述决策树模型的层级从低到高的顺序依次选择所述层级;
每次选择完决策树模型的层级后,通过
选择信息增益率最高的属性作为该层级的决策条件,并根据选择的决策条件对所述新的样本数据进行分类,以得到更新后的所述新的样本数据;
记录所述决策树模型的层级,并判断所述决策树模型的层级是否达到预设深度阈值;
当所述决策树模型的层级达到预设深度阈值时,停止选择层级,并输出所有选择的层级对应的决策条件;
当所述决策树模型的层级未达到预设深度阈值时,从所有属性中除去当前选择的作为决策条件的属性,并继续执行选择所述层级的步骤。
可选地,所述决策树算法包括cart算法;所述数据点具有多种属性;所述通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件的步骤包括:
按照所述决策树模型的层级从低到高的顺序依次选择所述层级;
每次选择完决策树模型的层级后,通过
选择基尼系数最小的属性作为该层级的决策条件,并根据选择的决策条件对所述新的样本数据进行分类,以得到更新后的所述新的样本数据;
记录所述决策树模型的层级,并判断所述决策树模型的层级是否达到预设深度阈值;
当所述决策树模型的层级达到预设深度阈值时,停止选择层级,并输出所有选择的层级对应的决策条件;
当所述决策树模型的层级未达到预设深度阈值时,从所有属性中除去当前选择的作为决策条件的属性,并继续执行选择所述层级的步骤。
此外,为实现上述目的,本发明还提供一种风控服务端,包括:
获取模块,用于获取预设数量的样本用户对应的风险评估样本数据;
分析模块,用于通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2;
确定模块,用于在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别;
添加模块,用于将所述风险评估数据加入确定的样本类别所对应的样本数据中,以形成新的样本数据;
推导模块,用于通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件;
评估模块,用于根据所述决策条件更新所述决策树模型,并通过更新后的决策树模型评估所述金融业务的风险概率。
此外,为实现上述目的,本发明还提供一种风控服务端,所述风控服务端包括:通信模块、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的金融业务的风险评估方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的金融业务的风险评估方法的步骤。
本发明提出的一种金融业务的风险评估方法,风控服务端及计算机可读存储介质,通过获取预设数量的样本用户对应的风险评估样本数据;通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2;在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别;将所述风险评估数据加入确定的样本类别所对应的样本数据中,以形成新的样本数据;通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件;根据所述决策条件更新所述决策树模型,并通过更新后的决策树模型评估所述金融业务的风险概率。从而能够根据每个用户的风险评估数据选定适合用户自身的决策树模型,也能在用户的风险评估数据更新时,及时更新风控模型,使得风控模型具有较强的自我学习能力,提升了风险识别精准度。此外,还在用户发送金融业务办理请求之前完成了用户风险评估数据的获取,相比在办理业务之后收集用户的风险评估数据,能够预先进行风险评估,提升了风控系统的实时响应能力。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明金融业务的风险评估方法的第一实施例的流程示意图;
图3为本发明金融业务的风险评估方法的第二实施例中步骤s20的细化流程示意图;
图4为本发明金融业务的风险评估方法的第二实施例中步骤s23的细化流程示意图;
图5为本发明金融业务的风险评估方法的第三实施例中步骤s50的细化流程示意图;
图6为本发明风控服务端的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1,图1为本发明各个实施例中的风控服务端100的硬件结构示意图,所述风控服务端100可以是计算机设备,可以是服务器,还可以是专用于风险评估的风控系统。在本发明所提供的风控服务端100中,可以包括通信模块10、存储器20及处理器30等部件。其中,所述处理器30分别与所述存储器20和所述通信模块10连接,所述存储器20上存储有计算机程序,所述计算机程序同时被处理器30执行。
通信模块10,可通过网络与外部设备连接。通信模块10可以接收外部通讯设备发出的请求,还可广播事件、指令及信息至所述外部通讯设备。所述外部通讯设备可以是客户端或其他风控服务端,所述客户端例如可以是手机、电脑及金融业务自助终端等电子设备。可选地,所述客户端上可以安装数据上报插件,用于将收集的数据上报给风控服务端100,还可以用于发送请求、接收信息以及调用接口获取数据,例如客户端发送金融业务办理请求给风控服务端100。
存储器20,可用于存储软件程序以及各种数据。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如风险评估)等;存储数据区可包括数据库,存储数据区可存储根据风控服务端100的使用所创建的数据或信息等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器30,是风控服务端100的控制中心,利用各种接口和线路连接整个风控服务端100的各个部分,通过运行或执行存储在存储器20内的软件程序和/或模块,以及调用存储在存储器20内的数据,执行风控服务端100的各种功能和处理数据,从而对风控服务端100进行整体监控。处理器30可包括一个或多个处理单元;优选的,处理器30可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器30中。
尽管图1未示出,但上述风控服务端100还可以包括电路控制模块,用于与电源连接,保证其他部件的正常工作。所述风控服务端100还可以包括显示模块,用于从存储器20中提取数据进行前端页面和后端数据的展示。
本领域技术人员可以理解,图1中示出的风控服务端100结构并不构成对风控服务端100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述硬件结构,提出本发明方法各个实施例。
参照图2,在本发明金融业务的风险评估方法的第一实施例中,所述方法包括步骤:
步骤s10,获取预设数量的样本用户对应的风险评估样本数据;
本方案涉及的金融业务可以是贷款申请、购买保险、购买银行理财产品、购买信托产品以及购买基金股票中的至少一种。
风控服务端在进行风险评估样本数据收集时可以收集之前所有办理过金融业务的用户的风险评估数据,然后选择其中一部分用户作为样本用户,这些样本用户对应的风险评估数据作为风险评估样本数据中的历史风险评估样本数据。所述历史风险评估样本数据可以包括选定数量的样本用户的基本信息、资产负债情况、交易流水信息以及征信记录信息等等,其中基本信息可以包括用户姓名、出生年月、职位、家庭居住城市等等;资产负债情况可以包括贷款情况、银行卡余额、名下房产车辆、非固定资产情况;交易流水信息可以包括银行流水、金融证券流水信息、第三方支付软件流水信息。
此外,风险评估样本数据中还可以包括预设数量的样本用户对应的用户行为画像信息,用户行为画像信息指根据用户行为习惯确定的用户所有行为标签的集合。其中,用户行为习惯例如可以是消费习惯、投资习惯、用户访问页面习惯,所述用户访问页面习惯可以是访问页面类型、访问页面时长以及访问页面频次等等,通过在风险评估样本数据中增加由客户行为数据经过大数据分析得到的用户行为画像信息,能丰富风控服务端进行风险评估时的数据因子。
步骤s20,通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2;
聚类分析中的聚类是指将数据集中在某些方面相似的数据成员进行分类组织的活动,又叫无监督学习,而k-means算法(k均值算法)正是一种聚类算法,其采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度越大,通过k-means算法的聚类分析可以得到k个样本类别以及每个样本类别对应紧凑而独立的样本数据。此外,还需要说明的是,其中样本类别的数量k是预先设定的,k的个数影响着聚类分析的结果,样本类别相当于样本数据的代表或中心。
步骤s30,在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别;
在用户通过客户端办理金融业务之前,需要在客户端上进行用户注册、实名认证、指纹识别以及绑定银行卡等步骤。为了能够使风控人员能够在用户办理业务时即获取到用户的风险评估结果,可以在用户通过客户端发送金融业务办理请求之前就根据用户的风险评估数据进行金融风险的评估。例如,可以是用户通过手机号码进行账号注册时即触发风控服务端获取用户的风险评估数据。通过在用户开始办理业务之前快速获取用户的风险评估数据,提升了风控评估结果的加载速度,减少了用户的等待时间。
由于之前通过k-means算法对预设数量的样本用户的风险评估样本数据进行了分类,为了找到用户的合适的样本数据,并以此作为风控模型的参考基础数据,需要将用户的风险评估数据与k个样本类别之间进行相似度对比,将用户的风险评估数据归类至样本类别与风险评估数据的相似度最近的样本类别中,同时将用户的风险评估数据加入确定的样本类别对应的风险评估数据中。
步骤s40,将所述风险评估数据加入确定的样本类别所对应的样本数据中,以形成新的样本数据;
风控服务端可以利用用户在办理金融业务之前提交的身份证号码或手机号码等信息查找用户在各个环节留存的历史风险评估数据以及用户行为画像信息,接着将历史风险评估数据以及用户行为画像信息一同作为用户的风险评估数据,然后将风险评估数据也加入到样本数据中进行样本数据的更新。
步骤s50,通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件;
决策树算法是一种典型的分类方法,呈树形结构,在进行决策树分类时,需要从确定的适合用户的样本数据中归纳出一组分类规则作为决策树模型的决策条件,这些决策条件具有层级顺序,通常是决策树模型最顶端的决策条件为对风险事件影响最多的最优特征,在依据该最优特征进行分类后,也是在当前分类后的数据下,选择对风险事件影响最多的最优特征作为下一层级的决策条件,并以此类推。
步骤s60,根据所述决策条件更新所述决策树模型,并通过更新后的决策树模型评估所述金融业务的风险概率。
当用户第一次办理金融业务时,决策树模型的决策条件是空白的,此时可以直接根据得到的所有决策条件搭建决策树模型,然后通过搭建的决策树模型计算金融业务的风险概率即可。
当用户不是第一次办理金融业务时,由于在前次办理金融业务时已经生成有对应的决策树模型,但当时的决策树模型对应到现在并不是适应于用户本次业务办理的,同时也加入了用户的新的风险评估数据,因此需要对原有的决策树模型进行更新和替换,即是将本次通过聚类算法结合决策树算法得到的决策条件替换和更新原有的决策树模型中的部分或全部决策条件,从而根据替换更新后的决策树模型计算该金融业务的风险概率。
在更新决策树模型时,可以先判断该用户是否为首次办理金融业务,再根据判断的结果分别执行不同的操作,以节约模型更新时间。
本实施例通过获取预设数量的样本用户对应的风险评估样本数据;通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2;在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别;将所述风险评估数据加入确定的样本类别所对应的样本数据中,以形成新的样本数据;通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件;根据所述决策条件更新所述决策树模型,并通过更新后的决策树模型评估所述金融业务的风险概率。从而能够根据每个用户的风险评估数据选定适合用户自身的决策树模型,也能在用户的风险评估数据更新时,根据用户更新的风险评估数据及时更新风控模型,使得风控模型具有较强的自我学习能力,提升了风险识别精准度。此外,还在用户发送金融业务办理请求之前完成了用户风险评估数据的获取,相比在办理业务之后收集用户的风险评估数据,能够预先进行风险评估,提升了风控系统的实时响应能力。
进一步地,参见图3和图4,基于本发明金融业务的风险评估方法的第一实施例提出本发明金融业务的风险评估方法的第二实施例,在本实施例中,所述步骤s20包括:
步骤s21,通过输入基因表达矩阵构建所述k-means算法的对象集,所述对象集由所有所述风险评估样本数据对应的数据点组成;
风险评估样本数据可以对应成输入基因表达矩阵的空间图谱中的点,该点可以是二维点,也可以是多维点,每一个维度表示一种属性,属性可以代表一种分类条件。对象集则由风险评估样本数据对应的所有数据点构成。需要说明的是,输入基因表达矩阵是以风险评估样本数据作为输入数据,利用矩阵图谱的形式进行排列表示的。
步骤s22,从所述对象集中选择k个所述数据点,其中k大于或等于2,并在所述对象集中以所述k个数据点为聚类中心分别建立数据簇;
风控服务端可以根据预先设定的k值进行数据点的选择,在进行k个数据点的选择时数据点之间尽可能分散。以每个数据点建立数据簇的原则是数据簇内所有数据点的距离较小,数据簇与数据簇之间的距离较大。在初始条件下建立的数据簇本身是基于预先设定的数据点进行选择的,所以实际的数据簇和聚类中心还需要进行调整。
步骤s23,执行对聚类中心以及数据簇的迭代操作;其中所述步骤s23包括:
步骤s231,将每个数据点调整至该数据点距离最近的聚类中心所在的数据簇中;
步骤s232,根据调整后的每个数据簇中所有的数据点重新确定聚类中心;
每个数据点在进行所属数据簇的调整时,需要先计算该数据点至所有聚类中心的距离,接着按着该数据点至每个聚类中心的距离,将该数据点调整至距离最近的聚类中心所在的数据簇。
可选地,距离的计算方法可以根据实际需要进行设置。例如,可以获取每个数据点至所有聚类中心的距离;其中,所述获取每个数据点至所有聚类中心的距离的步骤包括:
通过欧几里得距离
或者,通过曼哈顿距离d12=|x1-x2|+|y1-y2|计算每个数据点至所有聚类中心的距离;
或者,通过切尔雷夫距离d12=max(|x1-x2|,|y1-y2|)计算每个数据点至所有聚类中心的距离;其中,聚类中心的坐标为(x1,y1),每个数据点的坐标为(x2,y2),d12为数据点至聚类中心的距离;
根据每个数据点至所有聚类中心的距离,将每个数据点调整至该数据点距离最近的聚类中心所在的数据簇中。
可选地,还可以利用余弦相似度
需要说明的是,此处所给出的距离计算仅为二维点的距离计算,如果涉及到多维点的距离计算,可以相应的加上其他维度的坐标,在此不做赘述。而根据重新分配的数据点重新确定聚类中心的方法可以是根据每个簇中所有数据点的平均向量进行确定。
步骤s24,每次执行完所述迭代操作后,判断所述迭代中止条件是否成立,其中,所述迭代中止条件包括:相邻两次迭代操作中数据点至聚类中心的距离平方和的差小于预设误差阈值,或者,迭代操作的次数达到预设次数阈值;若是,则执行步骤s25;若否,则执行步骤s26;
步骤s25,将最新确定的所有聚类中心作为样本类别,将最新确定的每个聚类中心所在数据簇作为每个样本类别分别对应的样本数据;
步骤s26,返回继续执行迭代操作。
迭代是重复反馈的活动,每一次迭代得到的结果都会作为下一次迭代的初始值,应用在本实施例中,前一次迭代操作中确定的聚类中心和重新归类的数据簇将作为下一次迭代操作的初始值。由于聚类算法进行聚类分析时涉及到的计算量大,因此可以通过迭代次数的限制来作为迭代中止的条件,在执行完一次迭代操作可以记录当前迭代操作的次数,如果迭代操作的次数达到预设次数阈值,则停止迭代,并将最近一次迭代操作更新的聚类中心和对应的数据簇分别作为样本类别和样本数据。
或者,还可以以迭代操作的误差范围来确定迭代操作是否中止,如果相邻两次迭代操作的距离平方和的差小于预设误差阈值,则认为k-means已经收敛,可以将聚类中心和数据簇输出作为样本类别和样本数据。进一步地,可以是通过
进一步地,在其他实施例中,所述步骤s30包括:
在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并在所述输入基因表达矩阵中,计算所述风险评估数据对应的数据点与每个所述样本类别的距离;根据所述风险评估数据对应的数据点与每个所述样本类别间的距离,将风险评估数据归类至距离最短的所述样本类别中。
在本实施例中,办理金融业务的用户的风险评估数据的处理与预设数量的用户的风险评估样本数据的处理类似,是将办理金融业务的用户的风险评估数据作为输入数据后转化为在输入基因表达矩阵的图谱中对应的数据点,并参照上述距离计算公式计算用户的风险评估数据对应的数据点与每个聚类中心的距离,最后将办理金融业务的用户加入至距离最近的聚类中心所在的数据簇中,对应的风险评估数据则归类至距离最近的距离中心。通过确定用户的风险评估数据所属的样本类别,能快速找到与办理金融业务的用户相接近的用户以及用户数据,为后续决策树模型的分类提供了良好的基础输入数据。
进一步地,参见图5,基于本发明金融业务的风险评估方法的第二实施例提出本发明金融业务的风险评估方法的第三实施例,在本实施例中,所述决策树算法包括id3算法、c4.5算法或者cart算法;所述数据点具有多种属性;所述步骤s50包括:
步骤s51,按照所述决策树模型的层级从低到高的顺序依次选择所述层级;
决策树模型的层级是指决策树中从根节点到叶子节点之间存在的决策条件的层数,或者也叫决策树模型的深度。最低一层即为根节点,最高一层即是叶子节点的决策条件。在进行决策条件选择时是按照根节点至叶子节点的顺序进行选择,对应地对于样本数据的影响程度也是逐渐缩小的。
步骤s52,每次选择完所述决策树模型的层级后,通过决策树算法计算分别用每种属性划分所述新的样本数据时每种属性对应的决策参数;
当所述决策树算法是id3算法时,所述决策参数为信息增益。可以通过
当所述决策树算法是c4.5算法时,所述决策参数为信息增益率。可以通过
当所述决策树算法是cart算法时,所述决策参数是基尼系数。可以通过
步骤s53,确认最影响所述新的样本数据的决策参数,并将其对应的属性作为该层级的决策条件;
步骤s54,根据选择的决策条件对所述新的样本数据进行分类,以得到更新后的所述新的样本数据;
当决策参数是信息增益时,选择的决策条件是该层级下信息增益最高的分类属性;当决策参数是信息增益率时,选择的决策条件是该层级下信息增益率最高的分类属性;当决策参数是基尼系数时,选择的决策条件是该层级下基尼系数最小的分类属性。即最影响所述新的样本数据的决策参数分别是最高的信息增益、最高的信息增益率以及最小的基尼系数。其中,id3算法适用于离散型数据处理。c4.5算法适用于非离散型数据以及不完整数据的处理,通过其进行决策条件的选择准确率较高。cart算法构建的决策树非常稳健,灵活,可以允许有部分错分的情况。
需要说明的是,当采用c4.5决策树算法或cart算法时,还可以对具有很少元素的分类数据进行剪枝,防止决策树过适应,例如可以采用悲观剪枝,即将很少元素的分类数据合并成同一类作为最终的叶子节点,具体执行可以参考现有技术进行设置,在此不做赘述。
步骤s55,记录所述决策树模型的层级,并判断所述决策树模型的层级是否达到预设深度阈值;若是,则执行步骤s56;若否,则执行步骤s57;
步骤s56,停止选择层级,并输出所有选择的层级对应的决策条件;
步骤s57,从所有属性中除去当前选择的作为决策条件的属性,并继续步骤s51。
预设深度阈值是大于等于1的常数,例如预设深度阈值为10。决策树模型的层级类似房屋的楼层,以一层选择一个决策条件为例,当选择了10个决策条件时,则跳出循环。
通过采用id3算法、c4.5算法或者cart算法进行决策树模型中决策条件的选择,使风控服务端根据用户以及相似用户的基础参考数据进行了自我学习式的决策条件的选择,使得到的风险概率与用户实际发生的几率更为贴近,提高了风控系统的识别精准度。
参见图6,本发明还提出一种风控服务端,在一实施例中,所述风控服务端包括:
获取模块10,用于获取预设数量的样本用户对应的风险评估样本数据;
分析模块20,用于通过k-means算法对所述风险评估样本数据进行聚类分析,得到k个样本类别以及每个所述样本类别分别对应的样本数据,其中k大于或等于2;
确定模块30,用于在接收到用户发送的金融业务办理请求之前,获取所述用户对应的风险评估数据,并根据所述风险评估数据以及所述k个样本类别,确定所述风险评估数据所属的样本类别;
添加模块40,用于将所述风险评估数据加入确定的样本类别所对应的样本数据中,以形成新的样本数据;
推导模块50,用于通过决策树算法对所述新的样本数据进行计算,以推导出决策树模型中的决策条件;
评估模块60,用于根据所述决策条件更新所述决策树模型,并通过更新后的决策树模型评估所述金融业务的风险概率。
进一步地,在另一实施例中,所述分析模块20包括:
构建单元21,用于通过输入基因表达矩阵构建所述k-means算法的对象集,所述对象集由所有所述风险评估样本数据对应的数据点组成;
建立单元22,用于从所述对象集中选择k个所述数据点,其中k大于或等于2,并在所述对象集中以所述k个数据点为聚类中心分别建立数据簇;
执行单元23,用于执行对聚类中心以及数据簇的迭代操作,其中所述执行单元23执行所述迭代操作的步骤包括:
将每个数据点调整至该数据点距离最近的聚类中心所在的数据簇中;
根据调整后的每个数据簇中所有的数据点重新确定聚类中心;
第一判断单元24,用于每次执行完所述迭代操作后,判断所述迭代中止条件是否成立,其中,所述迭代中止条件包括:相邻两次迭代操作中数据点至聚类中心的距离平方和的差小于预设误差阈值,或者,迭代操作的次数达到预设次数阈值;
所述执行单元23,还用于当所述迭代中止条件成立时,将最新确定的所有聚类中心作为样本类别,将最新确定的每个聚类中心所在数据簇作为每个样本类别分别对应的样本数据;
返回单元25,用于当所述迭代中止条件不成立时,返回继续执行迭代操作。
进一步地,在又一实施例中,所述执行单元23具体用于:
获取每个数据点至所有聚类中心的距离;
其中,所述获取每个数据点至所有聚类中心的距离的步骤包括:
通过
或者,通过d12=|x1-x2|+|y1-y2|计算每个数据点至所有聚类中心的距离;
或者,通过d12=max(|x1-x2|,|y1-y2|)计算每个数据点至所有聚类中心的距离;其中,聚类中心的坐标为(x1,y1),每个数据点的坐标为(x2,y2),d12为数据点至聚类中心的距离;
根据每个数据点至所有聚类中心的距离,将每个数据点调整至该数据点距离最近的聚类中心所在的数据簇中。
进一步地,在又一实施例中,所述确定模块30包括:
第一计算单元31,用于在所述输入基因表达矩阵中,计算所述风险评估数据对应的数据点与每个所述样本类别的距离;
归类单元32,用于根据所述风险评估数据对应的数据点与每个所述样本类别间的距离,将风险评估数据归类至距离最短的所述样本类别中。
进一步地,在又一实施例中,所述决策树算法包括id3算法;所述数据点具有多种属性;所述推导模块50包括:
选择单元51,用于按照所述决策树模型的层级从低到高的顺序依次选择所述层级;
第二计算单元52,用于每次选择完决策树模型的层级后,通过
所述选择单元51,还用于选择信息增益最高的属性作为该层级的决策条件;
分类单元53,用于根据选择的决策条件对所述新的样本数据进行分类,以得到更新后的所述新的样本数据;
第二判断单元54,用于记录所述决策树模型的层级,并判断所述决策树模型的层级是否达到预设深度阈值;
输出单元55,用于当所述决策树模型的层级达到预设深度阈值时,停止选择层级,并输出所有选择的层级对应的决策条件;
消除单元56,用于当所述决策树模型的层级未达到预设深度阈值时,从所有属性中除去当前选择的作为决策条件的属性,并触发所述选择单元51继续执行选择所述层级的步骤。
进一步地,在又一实施例中,所述决策树算法包括c4.5算法;所述数据点具有多种属性;所述推导模块50包括:
所述第二计算单元52,还用于每次选择完决策树模型的层级后,通过
所述选择单元51,还用于选择信息增益率最高的属性作为该层级的决策条件。
进一步地,在又一实施例中,所述决策树算法包括cart算法;所述数据点具有多种属性;所述推导模块50包括:
所述第二计算单元52,还用于每次选择完决策树模型的层级后,通过
所述选择单元51,还用于选择基尼系数最小的属性作为该层级的决策条件。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述金融业务的风险评估方法的全部步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者服务端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者服务端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者服务端中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。