用户行为预测方法、装置、计算机设备和存储介质与流程

文档序号:30230613发布日期:2022-06-01 04:59阅读:101来源:国知局
用户行为预测方法、装置、计算机设备和存储介质与流程

1.本技术涉及大数据技术领域,特别是涉及一种用户行为预测方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.在用户申请使用信贷相关业务时,需要对用户进行相应的风险评估,从而帮助平台规避风险。在对用户进行业务风险评估中,需要对用户是否会发生设定风险行为进行预测。目前对用户进行风险行为预测的方式通常是通过决策树等方式进行分析,然而,通过决策树的方式进行分析,容易导致模型过于复杂,进而导致预测的效率下降。
3.因此,目前对用户进行风险行为预测的方法存在预测效率低的缺陷。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高预测效率的用户行为预测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种用户行为预测方法,所述方法包括:
6.响应于待预测用户发送的业务申请请求,获取所述业务申请请求中的用户信息;所述用户信息中包括所述待预测用户的多个维度的用户信息;所述多个维度表征所述业务申请请求对应的业务对所述待预测用户的多个种类的申请条件;
7.将所述多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过所述目标支持向量机预测模型将所述多个维度的用户信息从低维空间映射至高维空间,并基于高维空间中的用户信息进行非线性分类,获取所述目标支持向量机预测模型基于所述非线性分类的分类结果输出的预测值;
8.根据所述预测值,确定所述待预测用户发生与所述业务关联的设定风险行为的预测结果。
9.在其中一个实施例中,所述响应于待预测用户发送的业务申请请求,获取所述业务申请请求中的用户信息,包括:
10.接收到待预测用户发送的业务申请请求,获取所述业务申请请求中所述待预测用户的关联资产信息、关联业务信息和位置信息,作为所述待预测用户的用户信息。
11.在其中一个实施例中,所述将所述多个维度的用户信息输入预先训练的目标支持向量机预测模型之前,还包括:
12.对所述多个维度的用户信息进行预处理,将所述多个维度的用户信息转换为多个维度的数值用户信息;
13.将所述数值用户信息输入预先训练的目标支持向量机预测模型。
14.在其中一个实施例中,所述将所述多个维度的用户信息转换为多个维度的数值用户信息,包括:
15.根据所述关联资产信息的资产数量,确定所述关联资产信息对应的第一标签数
值;所述第一标签数值的大小与所述资产数量正相关;
16.根据所述关联业务信息所属的风险级别,确定所述关联业务信息对应的第二标签数值;所述第二标签数值的大小与所述风险级别正相关;
17.根据所述位置信息对应的区域经济指标,确定所述位置信息对应的第三标签数值;所述第三标签数值的大小与所述区域经济指标正相关;
18.根据所述第一标签数值、所述第二标签数值以及所述第三标签数值中的至少两种,得到所述多个维度的数值用户信息。
19.在其中一个实施例中,所述目标支持向量机预测模型基于所述非线性分类的分类结果输出的结果在设定数值范围内,所述根据所述预测值,确定所述待预测用户发生与所述业务关联的设定风险行为的预测结果,包括:
20.若所述预测值小于或等于预测阈值,预测所述待预测用户不发生设定风险行为;
21.若所述预测值大于预测阈值,预测所述待预测用户发生设定风险行为;
22.其中,所述预测阈值在所述设定数值范围内。
23.在其中一个实施例中,所述目标支持向量机预测模型通过如下方式训练得到:
24.获取多个样本用户信息,并将所述多个样本用户信息分割为训练集以及测试集;所述样本用户信息包括多个维度的样本用户信息以及对应的真实行为状态;
25.将所述训练集中的多个维度的样本用户信息输入待训练支持向量机预测模型,通过所述待训练支持向量机预测模型将所述多个维度的样本用户信息映射至多维空间,基于所述多维空间的分类结果输出样本预测值;
26.循环执行所述将所述多维数据坐标输入待训练支持向量机预测模型的步骤,直到检测到所述样本预测值对应的样本设定风险行为状态与所述真实行为状态一致时,将当前待训练支持向量机预测模型作为待验证支持向量机预测模型;
27.将所述测试集中的样本用户信息输入所述待验证支持向量机预测模型,根据所述待验证支持向量机预测模型的输出结果,得到目标支持向量机预测模型。
28.在其中一个实施例中,所述方法还包括:
29.基于c类支持向量分类机和径向基核函数构建待训练支持向量机预测模型。
30.在其中一个实施例中,所述将所述测试集中的样本用户信息输入所述待验证支持向量机预测模型,根据所述待验证支持向量机预测模型的输出结果,得到目标支持向量机预测模型,包括:
31.将所述测试集中的样本用户信息输入所述待验证支持向量机预测模型,获取所述待验证支持向量机预测模型输出的测试预测值对应的测试行为状态;并获取多个所述测试行为状态与对应的真实行为状态的对比结果;
32.获取第一对比结果中为一致的第一子对比结果的数量与所述第一对比结果的数量的第一比值;所述第一对比结果表征真实行为状态为未发生设定风险行为状态的对比结果;
33.获取第二对比结果中为不一致的第二子对比结果的数量与所述第二对比结果的数量的第二比值;所述第二对比结果表征真实行为状态为发生设定风险行为状态的对比结果;
34.根据多个所述第一比值以及多个所述第二比值,构建接受者操作特性曲线;
35.获取所述接受者操作特性曲线与横坐标轴形成的多边形的面积,若所述面积大于预设面积阈值,确定所述待验证支持向量机预测模型为目标支持向量机预测模型。
36.第二方面,本技术提供了一种用户行为预测装置,所述装置包括:
37.接收模块,用于响应于待预测用户发送的业务申请请求,获取所述业务申请请求中的用户信息;所述用户信息中包括所述待预测用户的多个维度的用户信息;所述多个维度表征所述业务申请请求对应的业务对所述待预测用户的多个种类的申请条件;
38.输入模块,用于将所述多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过所述目标支持向量机预测模型将所述多个维度的用户信息从低维空间映射至高维空间,并基于高维空间中的用户信息进行非线性分类,获取所述目标支持向量机预测模型基于所述非线性分类的分类结果输出的预测值;所述高维空间的维度数量与所述用户信息的维度数量对应;
39.预测模块,用于根据所述预测值,确定所述待预测用户发生与所述业务关联的设定风险行为的预测结果。
40.第三方面,本技术提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
41.第四方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
42.第五方面,本技术提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
43.上述用户行为预测方法、装置、计算机设备、存储介质和计算机程序产品,通过接收待预测用户发送的业务申请请求,获取业务申请请求中的用户信息,并将多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过目标支持向量机预测模型将多个维度的用户信息从低维空间映射至与用户信息的维度对应的高维空间,并进行非线性分类,获取目标支持向量机预测模型基于非线性的分类结果输出的预测值,并根据预测值确定待预测用户是否会发生与业务关联的设定风险行为。相较于传统的基于决策树等方式进行分析,本方案基于支持向量机的预测模型对用户的相关信息进行分类和预测,从而可以基于预测模型输出的预测值确定用户是否可能发生设定风险行为,提高了用户行为预测的预测效率。
附图说明
44.图1为一个实施例中用户行为预测方法的应用环境图;
45.图2为一个实施例中用户行为预测方法的流程示意图;
46.图3为一个实施例中预测模型训练步骤的流程示意图;
47.图4为另一个实施例中预测模型训练步骤的流程示意图;
48.图5为一个实施例中模型精度验证步骤的示意图;
49.图6为一个实施例中用户行为预测装置的结构框图;
50.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
52.本技术实施例提供的用户行为预测方法,涉及大数据技术领域,可以应用于如图1所示的应用环境中。终端102可以与用户的用户端通信,待预测用户可以通过用户端向终端102发送业务申请请求,终端102接收到待预测用户发送的业务申请请求后,可以从业务申请请求中获取待预测用户的多个维度的用户信息,该用户信息可以是经过用户授权的信息,终端102可以将多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过目标支持向量机预测模型的输出值,对用户是否会发生与业务关联的设定风险行为进行预测。在一些实施例中,还包括服务器104。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以将上述对待预测用户的预测结果存储到服务器104中。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
53.在一个实施例中,如图2所示,提供了一种用户行为预测方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
54.步骤s202,响应于待预测用户发送的业务申请请求,获取业务申请请求中的用户信息;用户信息中包括待预测用户的多个维度的用户信息;多个维度表征所述业务申请请求对应的业务对所述待预测用户的多个种类的申请条件。
55.其中,待预测用户可以是需要申请业务的用户,例如可以是需要申请贷款业务的用户。当用户需要申请上述业务时,终端102的运营主体需要对待预测用户进行预测,预测该用户是否会发生与上述业务关联的设定风险行为。用户可以通过用户端申请业务,例如申请贷款业务。用户在申请页面可以填写相关用户信息并形成业务申请请求,并通过用户端发送至终端102。其中,用户填写的用户信息可以是经过用户授权使用后的用户信息。终端102可以接收待预测用户发送的业务申请请求。并从业务申请请求中获取待预测用户的用户信息。其中,上述待预测用户输入的用户信息可以包括多个维度的用户信息,每个维度可以表征基于上述业务对用户进行不同角度的实力的考量。例如,上述业务可以是贷款业务,终端102可以对用户进行不同角度,不同种类的考量,预测用户申请贷款后是否会发生逾期行为。
56.步骤s204,将多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过目标支持向量机预测模型将多个维度的用户信息从低维空间映射至高维空间,并基于高维空间中的用户信息进行非线性分类,获取目标支持向量机预测模型基于非线性分类的分类结果输出的预测值;高维空间的维度数量与用户信息的维度数量对应。
57.其中,用户信息可以是待预测用户需要申请上述业务时发送至终端102的多个维度的用户信息。终端102可以将多个维度的用户信息输入预先训练好的目标支持向量机预测模型,并通过目标向量机预测模型,将多个维度的用户信息从低维空间映射至于用户信息的维度对应的高维空间,并进行非线性分类。从而终端102可以获取目标支持向量机预测
模型基于上述非线性分类结果输出的预测值。该预测值可以与上述用户是否会发生与业务关联的设定风险行为相关。
58.其中,上述目标支持向量机预测模型可以是一种svm((support vector machines,支持向量机)预测模型,svm模型是一种按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。终端102可以预先构建待训练的支持向量机预测模型,并通过多个维度的样本用户信息对待训练的支持向量机预测模型进行训练。例如,在一个实施例中,还包括:基于c类支持向量分类机和径向基核函数构建待训练支持向量机预测模型。本实施例中,终端102可以选择指定svm类型和svm的内核类型来构建待训练支持向量机预测模型。例如,终端102可以基于c类支持向量分类机和径向基核函数构建待训练支持向量机预测模型。具体地,上述svm模型使用较链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。svm模型有两个重要的参数,一个是指定svm的类型,另一个是svm的内核类型。由于c类支持向量分类机的抗干扰能力最好,终端102可以采用c类支持向量分类机建模,并且,由于径向基核函数具有能够实现非线性映射,更多的参数等优点,终端102可以采用径向基核函数建模。其中,c类支持向量分类机:n类分组(n》=2),允许用异常值惩罚因子c进行不完全分类;径向基函数就是某种沿向对称的标量函数,通常定义为空间中任一点到某一中心x_cxc之间欧式距离的单调函数。这一点越远离中心,函数的取值就越小。
59.步骤s206,根据预测值,确定待预测用户发生与业务关联的设定风险行为的预测结果。
60.其中,预测值可以是上述目标支持向量机预测模型输出的数值,终端102可以根据该数值确定待预测用户发生与业务关联的设定风险行为的预测结果。例如,在一个实施例中,根据所述预测值,确定所述待预测用户发生设定风险行为的预测结果,包括:若所述预测值小于或等于预测阈值,预测所述待预测用户不发生设定风险行为;若所述预测值大于预测阈值,预测所述待预测用户发生设定风险行为;其中,所述预测阈值在所述设定数值范围内。本实施例中,目标支持向量机预测模型基于非线性分类的分类结果输出的结果在设定数值范围内。终端102在对目标支持向量机预测模型输出的预测值进行分析时,可以根据该预测值的大小确定用户是否会发生设定风险行为。终端102可以首先设定一个预测阈值,并且该预测阈值在上述设定数值范围内。终端102可以检测预测值是否小于或等于上述预测阈值,若是,则终端102可以预测上述待预测用户不发生设定风险行为。若终端102检测到上述预测值大于预测阈值,则终端102可以预测上述待预测用户会发生设定风险行为。
61.其中,上述用户的用户信息可以包括多个维度的用户信息,上述设定数值范围可以是[0,1]之间。以用户申请的业务为贷款业务为例,用户需要申请贷款时,终端102需要预测该用户是否会发生逾期行为。终端102可以将用户的多个维度的用户信息输入目标支持向量机预测模型。例如,终端102将15个变量构建成多维变量,代入到上述的类型为c类支持向量分类机的svm模型中,先将二维空间中的坐标映射到多维空间中,再做分类。假设原先数据的坐标(xa,xb,xc,xd,xe,xf,xg,xh,xi,xj,xk,x
l
,xm,xn)映射到新的多维空间中,再做分类,上述目标支持向量机预测模型输出结果范围在[0,1]之间,如果输出值小于0.5,则判断为不存在贷款逾期的用户,如果输出值大于0.5,则判断为存在贷款逾期的用户。从而终端102可以确定申请贷款的用户是否可能逾期,并基于该预测结果确定是否允许该用户进行
贷款。
[0062]
上述用户行为预测方法中,通过接收待预测用户发送的业务申请请求,获取业务申请请求中的用户信息,并将多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过目标支持向量机预测模型将多个维度的用户信息从低维空间映射至与用户信息的维度对应的高维空间,并进行非线性分类,获取目标支持向量机预测模型基于非线性的分类结果输出的预测值,并根据预测值确定待预测用户是否会发生与业务关联的设定风险行为。相较于传统的基于决策树等方式进行分析,本方案基于支持向量机的预测模型对用户的相关信息进行分类和预测,从而可以基于预测模型输出的预测值确定用户是否可能发生设定风险行为,提高了用户行为预测的预测效率。
[0063]
在一个实施例中,响应于待预测用户发送的业务申请请求,获取业务申请请求中的用户信息,包括:接收到待预测用户发送的业务申请请求,获取业务申请请求中待预测用户的关联资产信息、关联业务信息和位置信息,作为待预测用户的用户信息。
[0064]
本实施例中,终端102可以获取待预测用户发送的业务申请请求,并从业务申请请求中获取待预测用户的多个维度的用户信息。例如,终端102接收到待预测用户发送的业务申请请求后,可以获取业务申请请求中待预测用户的关联资产信息、关联业务信息和用户的位置信息,作为待预测用户的用户信息。
[0065]
具体地,以上述业务是贷款为例,用户申请贷款时,可以通过用户端向终端102发送上述各个维度的用户信息。终端102可以获取用户输入的就业年限、借款人年收入级别,借款人年收入,借款人房屋所有权状况作为上述关联资产信息,该维度的信息是从用户的经济实力角度出发;终端102还可以获取用户输入的贷款金额,还款期限,贷款利息支付级别,贷款利息级别、采用贷款目的,借款人的总债务负债比率,借款人已付本息总额,借款人已付本金,借款人违约后的回收金额,分期支付的每期付款金额等信息作为上述关联业务信息,其中,采用贷款金额,还款期限,贷款利息支付级别,贷款利息级别,是从贷款相关信息角度出发;采用贷款目的,借款人的总债务负债比率,借款人已付本息总额,借款人已付本金,借款人违约后的回收金额,分期支付的每期付款金额,是从借款人与贷款的关系出发;终端102还可以获取用户输入的借款人所在地区作为上述位置信息,该维度的信息是从用户所在地区角度出发。终端102从上述经济实力,贷款信息,借款人与贷款关系及所在地区这四个角度出发,涵盖了影响贷款逾期的因素,并且基于这些维度训练得到的模型精度也相对更高。其中,上述获取的各个维度的用户信息均为用户知情且允许获取的信息。
[0066]
通过本实施例,终端102可以获取包括关联资产信息、关联业务信息和位置信息等维度的用户信息,从而终端102可以基于多个维度的用户信息进行业务风险行为发生情况的预测,提高了用户行为预测的预测效率。
[0067]
在一个实施例中,将多个维度的用户信息输入预先训练的目标支持向量机预测模型之前,还包括:对多个维度的用户信息进行预处理,将多个维度的用户信息转换为多个维度的数值用户信息;将数值用户信息输入预先训练的目标支持向量机预测模型。
[0068]
本实施例中,由于目标支持向量机预测模型对输入的数据有格式要求,因此终端102在获取上述待预测用户的多个维度的用户信息后,需要对用户信息进行相应的预处理,转换为符合目标支持向量机预测模型的输入格式的数据。例如,终端102可以对上述多个维度的用户信息进行预处理,并将多个维度的用户信息转换为多个维度的数值用户信息,从
而终端102可以将转换后的数值形式的数值用户信息输入预先训练的目标支持向量机预测模型中。目标支持向量机预测模型可以基于输入的数值形式的用户信息进行预测。
[0069]
通过本实施例,终端102可以通过将多个维度的用户信息转换为符合目标支持向量机预测模型的输入格式的数值类型的信息,从而提高了对待预测用户进行是否发生设定风险行为的预测效率。
[0070]
在一个实施例中,将多个维度的用户信息转换为多个维度的数值用户信息,包括:根据关联资产信息的资产数量,确定关联资产信息对应的第一标签数值;第一标签数值的大小与资产数量正相关;根据关联业务信息所属的风险级别,确定关联业务信息对应的第二标签数值;第二标签数值的大小与风险级别正相关;根据位置信息对应的区域经济指标,确定位置信息对应的第三标签数值;第三标签数值的大小与区域经济指标正相关;根据第一标签数值、第二标签数值以及第三标签数值中的至少两种,得到多个维度的数值用户信息。
[0071]
本实施例中,终端102可以基于用户信息所属的维度,以及用户信息本身的属性,将上述多个维度的用户信息转换成对应的数值用户信息。对于关联资产信息,终端102可以根据关联资产的资产数量,确定关联资产信息对应的第一标签数值;其中第一标签数值的大小与资产数量正相关,从而终端102可以根据第一标签数值、第二标签数值以及第三标签数值中的至少两种,得到多个维度的数值用户信息。例如,对于关联资产信息,借款人房屋所有权状况分为三种情况,分为私有,租借,按揭这三种情况,终端102可以将私有转化为0,租借转化为1,按揭转化为2;借款人年收入级别分为三种情况,分别为收入低下,收入中等和高收入,终端102可以将收入低下转化为0,将收入中等转化为1,将高收入转化为2。
[0072]
对于关联业务信息,终端102可以根据关联业务信息所属的风险级别,确定关联业务信息对应的第二标签数值,其中第二标签数值的大小与风险级别正相关。例如,对于关联业务信息,以贷款业务为例,还款期限分为两种情况,三年期限和五年期限,终端102可以将三年期限转化为0,五年期限转化为1。贷款目的包括14钟情况,包括偿还信用卡,购车,偿还债务,教育,家庭改善,购房,重大采购,医疗支出,出行,其他,可再生能源,小生意,度假及婚礼。终端102可以将偿还信用卡转化为0,购车转化为1,偿还债务转化为2,教育转化为3,家庭改善转化为4,购房转化为5,重大采购转化为6,医疗支出转化为7,出行转化为8,其他转化为9,可再生能源转化为10,小生意转化为11,度假转化为12,婚礼转化为13。贷款利息支付级别分为两种情况,分为低利息和高利息,终端102可以将低利息转化为1,高利息转化为2。贷款利息级别分为七个档次,分别从a到g,终端102可以将a转化为0,b转化为1,c转化为2,d转化为3,e转化为4,f转化为5,g转化为6。
[0073]
对于位置信息,终端102可以根据位置信息对应的区域经济指标,确定上述位置信息对应的第三标签数值;其中第三标签数值的大小与区域经济指标正相关。例如,对于用户的位置信息,以爱尔兰的对等借贷银行逾期贷款数据集为例,地区分为五个地方,分别为cannught(爱尔兰的康诺特省),leinster(爱尔兰的伦斯特省),munster(爱尔兰的芒斯特省),northern-lrl(北爱尔兰)及ulster(爱尔兰的阿尔斯特省),终端102可以将cannught转化为0,leinster转化为1,munster转化为2,northern-lrl转化为3及ulster转化为4。
[0074]
从而终端102可以将上述各个第一标签数值、第二标签数值和第三标签数值输入到目标支持向量机预测模型中,得到目标支持向量机预测模型输出的预测值。例如,以贷款
业务为例,终端102输出的预测值代表了两种贷款状态,一种是非逾期用户,一种是逾期用户。则终端102可以将非逾期用户表示为0,逾期用户表示为1。
[0075]
通过本实施例,终端102可以基于用户信息的维度和自身属性的不同,转换为相应的数值用户信息,并通过目标支持向量机预测模型进行预测,提高了用户行为预测的预测效率。
[0076]
在一个实施例中,目标支持向量机预测模型通过如下方式训练得到:获取多个样本用户信息,并将多个样本用户信息分割为训练集以及测试集;样本用户信息包括多个维度的样本用户信息以及对应的真实行为状态;将训练集中的多个维度的样本用户信息输入待训练支持向量机预测模型,通过待训练支持向量机预测模型将多个维度的样本用户信息映射至多维空间,基于多维空间的分类结果输出样本预测值;循环执行将多维数据坐标输入待训练支持向量机预测模型的步骤,直到检测到样本预测值对应的样本设定风险行为状态与真实行为状态一致时,将当前待训练支持向量机预测模型作为待验证支持向量机预测模型;将测试集中的样本用户信息输入待验证支持向量机预测模型,根据待验证支持向量机预测模型的输出结果,得到目标支持向量机预测模型。
[0077]
本实施例中,终端102可以预先对待训练支持向量机预测模型进行训练,得到目标支持向量机预测模型。在训练前,终端102可以获取多个样本用户信息,并将多个样本用户信息分割为训练集和测试集。其中,上述样本用户信息中包括多个维度的样本用户信息以及对应的真实行为状态,真实行为状态可以是与上述样本用户信息的用户对应的是否发生业务相关的设定风险行为的真实状态。例如,如图3所示,图3为一个实施例中预测模型训练步骤的流程示意图。以申请的业务为贷款业务为例,终端102可以采用爱尔兰的对等借贷银行逾期贷款数据集,首先对数据集做数据预处理,并将4比1的比例划分数据集为训练集和测试集,然后采用svm模型进行建模,并采用混淆矩阵,auc等方法计算模型精确度,其中,上述爱尔兰的对等借贷银行逾期贷款数据集,包含了就业年限,借款人房屋所有权状况,借款人年收入级别,借款人年收入,贷款金额,还款期限,贷款目的,贷款利息支付级别,贷款利息级别,借款人的总债务负债比率,借款人已付本息总额,借款人已付本金,借款人违约后的回收金额,分期支付的每期付款金额,借款人所在地区及贷款状态。即上述数据集中包含的信息包括就业信息,用户信息,贷款信息等等,基本涵盖了影响贷款状态的各个方向,运用该数据集预测银行用户贷款是否逾期精度较高。
[0078]
终端102可以将上述训练集中的多个维度的样本用户信息输入待训练支持向量机预测模型,并通过待训练支持向量机预测模型,将多个维度的样本用户信息映射至多维空间,基于多维空间的分类结果输出样本预测值。终端102可以循环执行上述训练步骤,每次循环都会输出相应的样本预测值,直到终端102检测出样本预测值对应的样本设定风险行为状态与真实行为状态一致时,终端102可以将当前待训练支持向量机预测模型作为待验证支持向量机预测模型。终端102还可以将上述测试集中的样本用户信息输入待验证支持向量机预测模型,获取待验证支持向量机预测模型输出的多个基于测试集数据输出的预测结果,终端102可以通过对上述待验证支持向量机预测模型的输出结果进行相关验证,在验证通过时确定为目标支持向量机预测模型。
[0079]
例如,为了检验模型的效果,终端102可以将数据集划分为训练集和测试集,训练集和测试集的比重划分为4:1。划分数据集的目的是先用训练集训练模型,再将训练好的模
型应用于测试集,并计算模型精度及auc值,以此来判定模型的优劣。如果计算出来的模型精度在80%以上,auc值在70%以上,则初步判定该模型有使用价值。其中,auc(area under curve,曲线下区域)被定义为roc(receiver operating characteristic curve,接收者操作特征曲线)曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1.又由于roc曲线一般都处于y=x这个直线的上方,所以auc的取值范围在0.5-1之间。auc越接近0.5。检测方法的真实性最低,无应用价值。svm模型又叫支持向量机,是所有知名的数据挖掘算法中最健壮,最准确的方法之一,它属于二分类算法,可以支持线性和非线性的分类。支持向量机是一种用来解决二分类问题的机器学习算法,它通过在样本空间中找到一个划分超平面,将不同类别的样本分开,同时使得两个点集到此平面的最小距离最大,两个点集中的边缘点到此平面的距离最大。
[0080]
由于本方案的数据是多维数据,因此应该采用非线性支持向量机来预测贷款用户是否逾期。低维数据可以通过可视化的方式观察是否线性可分,而高维数据很难判断其是否线性可分,对线性不可分的数据强行构建线性支持向量机会导致很差的预测效果,因此高维数据一般采用非线性支持向量机的方式建模。以业务为贷款为例,终端102可以选择贷款状态分因变量,就业年限,借款人房屋所有权状况,借款人年收入级别,借款人年收入,贷款金额,还款期限,贷款目的,贷款利息支付级别,贷款利息级别,借款人的总债务负债比率,借款人已付本息总额,借款人已付本金,借款人违约后的回收金额,分期支付的每期付款金额及借款人所在地区为自变量。采用上述训练集作为训练模型的数据集,选择c类支持向量分类机作为svm模型的类型,选择径向基核函数作为svm的内核类型,建立对应的svm模型,作为待训练的支持向量机预测模型。在训练过程中,待训练支持向量机预测模型需要将输入的多个维度的用户信息映射至多维空间中,即终端102可以在支持向量机预测模型中,将高维数据中的每个坐标从低维空间映射到高维空间,则得到了上述高维数据在高维空间中每一维度对应的一种方程,并且每个方程的输出可以是[0,1]之间,终端102可以对这些输出进行非线性分类。其映射公式可以如下所示:
[0081][0082]
其中,0≤λi≤c,φ(xi)表示数据点低维空间坐标映射到高维空间坐标的过程,这样就可以构建分类超平面实现分类了,终端102在对数据进行预测前,需先将二维空间中的坐标映射到多维空间中,再做分类。例如,以圆为例,在二维空间中,圆的方程为:a0+a1x1+a2x
12
+a3x2+a4x
22
+a5x1x2=0,将数据从二维空间映射到五维空间中,建立五维空间,将五维空间的中每一个坐标轴定义如下:a1:x1、a2:x
12
、a3:x2、a4:x
12
、a5:x1x2,则在新的五维空间中,圆的方程为:a0+a1a1+a2a2+a3a3+a4a4+a5a5=0,这样即得到超平面方程,此时将原先数据的坐标(xi,xj)也映射到新的五维空间中,则成为线性可分的状态。终端102通过上述分类实现模型训练后,还可以通过混淆矩阵和auc值对待验证支持向量机预测模型进行验证。
[0083]
通过本实施例,终端102可以基于多个维度的样本用户信息,通过低维到高维映射并分类的方式实现预测模型的训练,从而提高了对用户是否发生设定风险行为预测的预测效率。
[0084]
在一个实施例中,将测试集中的样本用户信息输入待验证支持向量机预测模型,
根据待验证支持向量机预测模型的输出结果,得到目标支持向量机预测模型,包括:将测试集中的样本用户信息输入待验证支持向量机预测模型,获取待验证支持向量机预测模型输出的测试预测值对应的测试行为状态;并获取多个测试行为状态与对应的真实行为状态的对比结果;获取第一对比结果中为一致的第一子对比结果的数量与第一对比结果的数量的第一比值;第一对比结果表征真实行为状态为未发生设定风险行为状态的对比结果;获取第二对比结果中为不一致的第二子对比结果的数量与第二对比结果的数量的第二比值;第二对比结果表征真实行为状态为发生设定风险行为状态的对比结果;根据多个第一比值以及多个第二比值,构建接受者操作特性曲线;获取接受者操作特性曲线与横坐标轴形成的多边形的面积,若面积大于预设面积阈值,确定待验证支持向量机预测模型为目标支持向量机预测模型。
[0085]
本实施例中,终端102可以对经过训练集训练得到的待验证支持向量机预测模型进行验证。终端102可以将上述分割出来的测试集中的样本用户信息输出待验证支持向量机预测模型,并获取待验证支持向量机预测模型输出的测试预测值对应的测试行为状态,终端102可以获取多个测试行为状态,与对应的真实行为状态进行对比,得到多个对比结果。终端102可以获取第一对比结果中为一致的第一子对比结果的数量与第一对比结果的数量的第一比值。其中,第一对比结果表征真实行为状态为未发生设定风险行为状态的对比结果。终端102还可以获取第二对比结果中为不一致的第二子对比结果的数量与第二对比结果的数量的第二比值。其中,第二对比结果表征真实行为状态为发生设定风险行为状态的对比结果。终端102可以根据多个第一比值以及多个第二比值,构建接受者操作特性曲线,即roc曲线,并获取接受者操作特性曲线与横坐标轴形成的多边形的面积,若终端102检测到面积大于预设面积阈值,则确定待验证支持向量机预测模型为目标支持向量机预测模型。
[0086]
其中,上述混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示,用n行n列的矩阵形式来表示。具体评价指标有总体精度,制图精度,用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵是可视化工具,特别用于监督学习,能很清晰的确定模型的精度,增加模型说服力。以业务为贷款为例,终端102可以将上述测试集的数据代入到训练集的模型进行预测,并与实际银行用户是否逾期的情况进行对比,建立混淆矩阵,表格如下所示:
[0087]
银行用户是否逾期01016871163248
[0088]
由上述表格可知,上述待验证支持向量机预测模型的模型精确度为96.75%。正确预测客户逾期的精度达到79.74%,预测客户不逾期但是预测失误的概率99.94%,总体精度很高。
[0089]
终端102还可以通过上述auc值对待验证支持向量机预测模型进行预测。其中,如果auc值大于0.7,说明模型具有较好的效果,模型有现实意义。如图4所示,图4为一个实施例中模型精度验证步骤的示意图。终端102可以以tpr为纵坐标,以fpr为横坐标绘制坐标系,绘制roc曲线,并基于该曲线得到auc值。具体地,对于tpr和fpr,tp为真正例,即预测值与真实值相同,而且都是正例。fp为假正例,即预测值与真实值相反,预测值为p。fn为假负
例,即预测值与真实值相反,预测值为n。tn为真负例,即预测值与真实值相同,而且都是反例由此,引入真正率(true positive rate)和假正率(false positive rate)的概念:tpr:被分为正类的正样本的比例tpr=tptp+fntpr={tp}/{tp+fn}。fpr:被分为正类的负样本的比例fpr={fp}/{fp+tn}。由图4可知,auc=0.8984,大于0.7,说明上述待验证支持向量机预测模型具有较好的效果,则可以作为目标支持向量机预测模型。
[0090]
通过本实施例,终端102可以通过auc值方式验证支持向量机预测模型,从而可以提高对用户行为预测的预测效率。
[0091]
在一个应用实施例中,如图5所示,图4为另一个实施例中预测模型训练步骤的流程示意图。以业务为银行贷款为例,终端102可以基于不同客户的用户信息进行用户是否会发生贷款预测的行为的预测。现有两个客户,第一个客户的就业年限,借款人房屋所有权状况,借款人年收入级别,借款人年收入,贷款金额,还款期限,贷款目的,贷款利息支付级别,贷款利息级别,借款人的总债务负债比率,借款人已付本息总额,借款人已付本金,借款人违约后的回收金额,分期支付的每期付款金额及借款人所在地区分别等于10年、租借、低、24000、5000、36个月、信用卡、低、b、27.65、5861.071、5000、0,爱尔兰的芒斯特省,代入到上述svm模型中,得到的结果为0,即为非逾期用户。第二个客户的就业年限,借款人房屋所有权状况,借款人年收入级别,借款人年收入,贷款金额,还款期限,贷款目的,贷款利息支付级别,贷款利息级别,借款人的总债务负债比率,借款人已付本息总额,借款人已付本金,借款人违约后的回收金额,分期支付的每期付款金额及借款人所在地区分别等于0.5年、租借、低、30000、2500、60个月、买车、高、c、1、1008.71、456.46、117.08、爱尔兰的伦斯特省,代入到上述svm模型中,得到的结果为1,即为逾期用户。
[0092]
通过本实施例,终端102可以通过上述目标支持向量机预测模型实现对用户是否会发生贷款逾期进行预测,从而提高了用户行为预测的预测效率。并且,终端102通过采用爱尔兰的对等借贷银行逾期贷款数据集,先对数据集做数据预处理,采用svm模型对训练集进行建模,并用测试集验证模型精度。终端102还可以通过计算得出auc值等于0,8984,大于0.7,所以模型精度较高,模型具有现实意义。终端102通过上述目标svm预测模型,可以对未来新的用户是否存在预期行为有个比较准确的判断。对于可能存在逾期行为的用户,采用减少贷款金额的方式规避资金风险。而对于不存在逾期行为的用户,采用适当增加贷款金额的方式来提高银行的总体贷款金额,进而提高银行利润。
[0093]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0094]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的用户行为预测方法的用户行为预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户行为预测装置实施例中的具体限定可以参见上文中对于用户行为预测方法的限定,在此不再赘述。
[0095]
在一个实施例中,如图6所示,提供了一种用户行为预测装置,包括:接收模块500、输入模块502和预测模块504,其中:
[0096]
接收模块500,用于响应于待预测用户发送的业务申请请求,获取业务申请请求中的用户信息;用户信息中包括待预测用户的多个维度的用户信息;多个维度表征业务申请请求对应的业务对待预测用户的多个种类的申请条件。
[0097]
输入模块502,用于将多个维度的用户信息输入预先训练的目标支持向量机预测模型,通过目标支持向量机预测模型将多个维度的用户信息从低维空间映射至高维空间,并基于高维空间中的用户信息进行非线性分类,获取目标支持向量机预测模型基于非线性分类的分类结果输出的预测值;高维空间的维度数量与用户信息的维度数量对应。
[0098]
预测模块504,用于根据预测值,确定待预测用户发生与业务关联的设定风险行为的预测结果。
[0099]
在一个实施例中,上述接收模块500,具体用于接收到待预测用户发送的业务申请请求,获取业务申请请求中待预测用户的关联资产信息、关联业务信息和位置信息,作为待预测用户的用户信息。
[0100]
在一个实施例中,上述装置还包括:预处理模块,用于对多个维度的用户信息进行预处理,将多个维度的用户信息转换为多个维度的数值用户信息;将数值用户信息输入预先训练的目标支持向量机预测模型。
[0101]
在一个实施例中,上述预处理模块,具体用于根据关联资产信息的资产数量,确定关联资产信息对应的第一标签数值;第一标签数值的大小与资产数量正相关;根据关联业务信息所属的风险级别,确定关联业务信息对应的第二标签数值;第二标签数值的大小与风险级别正相关;根据位置信息对应的区域经济指标,确定位置信息对应的第三标签数值;第三标签数值的大小与区域经济指标正相关;根据第一标签数值、第二标签数值以及第三标签数值中的至少两种,得到多个维度的数值用户信息。
[0102]
在一个实施例中,上述预测模块504,具体用于若预测值小于或等于预测阈值,预测待预测用户不发生设定风险行为;若预测值大于预测阈值,预测待预测用户发生设定风险行为;其中,预测阈值在设定数值范围内。
[0103]
在一个实施例中,上述装置还包括:训练模块,用于获取多个样本用户信息,并将多个样本用户信息分割为训练集以及测试集;样本用户信息包括多个维度的样本用户信息以及对应的真实行为状态;将训练集中的多个维度的样本用户信息输入待训练支持向量机预测模型,通过待训练支持向量机预测模型将多个维度的样本用户信息映射至多维空间,基于多维空间的分类结果输出样本预测值;循环执行将多维数据坐标输入待训练支持向量机预测模型的步骤,直到检测到样本预测值对应的样本设定风险行为状态与真实行为状态一致时,将当前待训练支持向量机预测模型作为待验证支持向量机预测模型;将测试集中的样本用户信息输入待验证支持向量机预测模型,根据待验证支持向量机预测模型的输出结果,得到目标支持向量机预测模型。
[0104]
在一个实施例中,上述装置还包括:构建模块,用于基于c类支持向量分类机和径向基核函数构建待训练支持向量机预测模型。
[0105]
在一个实施例中,上述训练模块,具体用于将测试集中的样本用户信息输入待验证支持向量机预测模型,获取待验证支持向量机预测模型输出的测试预测值对应的测试行
为状态;并获取多个测试行为状态与对应的真实行为状态的对比结果;获取第一对比结果中为一致的第一子对比结果的数量与第一对比结果的数量的第一比值;第一对比结果表征真实行为状态为未发生设定风险行为状态的对比结果;获取第二对比结果中为不一致的第二子对比结果的数量与第二对比结果的数量的第二比值;第二对比结果表征真实行为状态为发生设定风险行为状态的对比结果;根据多个第一比值以及多个第二比值,构建接受者操作特性曲线;获取接受者操作特性曲线与横坐标轴形成的多边形的面积,若面积大于预设面积阈值,确定待验证支持向量机预测模型为目标支持向量机预测模型。
[0106]
上述用户行为预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0107]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户行为预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0108]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0109]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的用户行为预测方法。
[0110]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的用户行为预测方法。
[0111]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的用户行为预测方法。
[0112]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0113]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器
(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0114]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0115]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1