一种代发金额的预测方法、装置及设备与流程

文档序号:31877352发布日期:2022-10-21 22:05阅读:79来源:国知局
一种代发金额的预测方法、装置及设备与流程

1.本发明实施例涉及数据处理技术领域,尤其涉及一种代发金额的预测方法、装置及设备。


背景技术:

2.现有技术方案中针对代发金额的预测多采用如下几种方案:(1)根据代发报表中的历史代发金额,由业务人员根据业务经验手工计算预测值,准确率较低;(2)采用传统的时间序列模型,如ar(auto regression model,自回归模型)、ma(moving average model,移动平均模型)、arma(auto regression moving average,自回归移动平均模型)、arima(autoregressive integrated moving average model,差分整合移动平均自回归模型)、arch(autoregressive conditional heteroskedasticity model,自回归条件异方差模型)、garch(generalized auto regressive conditional heteroskedasticity,广义自回归条件异方差模型)等进行预测;(3)采用神经网络算法,如lstm、gru等进行预测。
3.但是,由业务人员根据业务经验和历史数据手工计算预测值,具有极强的主观因素,难以保证预测的准确性;采用传统的时间序列模型进行预测,使用前需要对样本数据进行严格的白噪声、平稳性和差分等预设条件的检验,如果样本数据检验结果发生改变需要随之改变相应的时间序列模型,难以保证稳定性,同时如果预测的期数较多时,难以保证预测的准确性;采用神经网络算法对数据量的要求较高,本场景下样本数量较少,容易出现过拟合,泛化能力差,难以保证准确性和稳定性。


技术实现要素:

4.本发明实施例提供一种代发金额的预测方法、装置及设备,解决了现有技术对代发金额进行预测时存在的需要对样本数据进行预设条件的检验、预测稳定性难以保证以及预测准确性较低的技术问题。
5.第一方面,本发明实施例提供了一种代发金额的预测方法,所述预测方法包括:
6.获取预设代发业务的预测宽表数据,其中,所述预测宽表数据包括影响所述预设代发业务的代发金额的特征变量以及所述预设代发业务的历史代发数据,所述预测宽表数据存放于预先设置的建模分析宽表中;
7.基于所述预测宽表数据,利用多种树类算法分别预测所述预设代发业务当月每天的代发金额,其中,一种所述树类算法对应一个当月每天的代发金额预测值;
8.基于lgbm算法将预测得到的多个当月每天的代发金额预测值融合为目标预测值;
9.根据月度线性回归方程对所述目标预测值进行加权调整,得到所述预设代发业务的最终预测值。
10.第二方面,本发明实施例还提供了一种代发金额的预测装置,所述预测装置包括代发金额预测模块,所述代发金额预测模块包括:
11.数据获取单元,用于获取预设代发业务的预测宽表数据,其中,所述预测宽表数据
包括影响所述预设代发业务的代发金额的特征变量以及所述预设代发业务的历史代发数据,所述预测宽表数据存放于预先设置的建模分析宽表中;
12.金额预测单元,用于基于所述预测宽表数据,利用多种树类算法分别预测所述预设代发业务当月每天的代发金额,其中,一种所述树类算法对应一个当月每天的代发金额预测值;
13.目标融合单元,用于基于lgbm算法将预测得到的多个当月每天的代发金额预测值融合为目标预测值;
14.目标调整单元,用于根据月度线性回归方程对所述目标预测值进行加权调整,得到所述预设代发业务的最终预测值。
15.第三方面,本发明实施例还提供了一种代发金额的预测设备,所述代发金额的预测设备包括:
16.一个或多个处理器;
17.存储装置,用于存储一个或多个程序;
18.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例第一方面任意的代发金额的预测方法。
19.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面任意的代发金额的预测方法。
20.第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本发明实施例第一方面任意的代发金额的预测方法。
21.本发明实施例公开了一种代发金额的预测方法、装置及设备,方法包括获取预设代发业务的预测宽表数据;基于预测宽表数据,利用多种树类算法分别预测预设代发业务当月每天的代发金额;基于lgbm算法将预测得到的多个当月每天的代发金额预测值融合为目标预测值;根据月度线性回归方程对目标预测值进行加权调整,得到预设代发业务的最终预测值。本技术通过使用树类算法对预设代发业务的代发金额进行预测,并对多个预测值进行融合后再进行加权调整,解决了现有技术对代发金额进行预测时存在的需要对样本数据进行预设条件的检验、预测稳定性难以保证以及预测准确性较低的技术问题,实现了简化预测过程、提高预测稳定性与准确性的技术效果。
附图说明
22.图1是本发明实施例提供的一种代发金额的预测方法的流程图;
23.图2是本发明实施例提供的一种代发金额的预测装置的结构图;
24.图3为本发明实施例提供的一种代发金额的预测设备的结构示意图。
具体实施方式
25.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
26.需要说明的是,本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。本发明下述各个实施例可以单独执行,各
个实施例之间也可以相互结合执行,本发明实施例对此不作具体限制。
27.图1是本发明实施例提供的一种代发金额的预测方法的流程图。该代发金额的预测方法可适用于所有需要进行代发金额的预测的业务场景,例如银行对于企业工资的代发金额值的预测等。该代发金额的预测方法可以由代发金额的预测装置来执行,该装置可以采用硬件和/或软件的方式来实现,并一般可集成于服务器中。本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
28.如图1所示,该代发金额的预测方法具体包括如下步骤:
29.s101,获取预设代发业务的预测宽表数据,其中,预测宽表数据包括影响预设代发业务的代发金额的特征变量以及预设代发业务的历史代发数据,预测宽表数据存放于预先设置的建模分析宽表中。
30.具体地,以银行对企业的代发业务为例,银行的目标是在每个月的月初预测当月每天全行和分行的代发金额,从而对总、分行代发业务的开展进行跟踪督导。对此,需要确定出银行每个月的预设代发业务,并基于确定出的预设代发业务获取相应的预测宽表数据。
31.可选地,步骤s101中的建模分析宽表通过下述方法得到:确定预设代发业务的代发类型,并获取每种预设代发业务的预设时间长度的历史代发数据;基于历史代发数据提取影响预设代发业务的代发金额的特征变量;将历史代发数据和特征变量整合得到建模分析宽表。
32.具体地,对于代发业务来说,针对代发对象的代发需求的不同,代发业务通常包括常规代发以及非常规代发,其中,常规代发包括工资单发、奖金代发等,非常规代发包括公转私代发、报销代发、社保代发等。针对预设代发业务的代发类型,获取其相应的历史代发数据,通常情况下,获取预设时间长度为5年的历史代发数据,并根据获取到的历史代发数据提取能够影响预设代发业务的代发金额的特征变量,例如,当预设代发业务为工资代发,则提取出的特征变量包括月中日期,因为多数企业的工资发放时间为月中。根据提取出的特征变量以及获取到历史代发数据进行整合,并将其储存在建模分析宽表待用。
33.可选地,基于历史代发数据提取影响预设代发业务的代发金额的特征变量包括:基于历史代发数据分析得到每种预设代发业务基本代发规律,其中,基本代发规律包括预设代发业务的每日代发形态和每月代发规律;基于基本代发规律提取影响预设代发业务的代发金额的特征变量,其中,特征变量包括日期特征变量以及代发金额特征变量。
34.具体地,在获取到每种预设代发业务的历史代发数据之后,需要对历史代发数据进行分析,以得到每种预设代发业务的基本代发规律,例如,对于年终奖代发业务来说,每年的1、2月份发放较多,而3至12月份的年终奖发放较少;再如,对于社保代发来说,通常集中在每月的月中等。
35.可选地,在得到每种预设代发业务的基本代发规律之后,还需要对历史代发数据进行数据处理,包括但不限于数据清洗、数据规整、数据的数值化和离散化处理等,示例性地,在特殊情况下,某代发对象需要集中对员工的社保进行补缴,则集中在某个月出现大量的社保代发情况,诸如此类的“异常数据”需要在数据清洗和数据规整的过程中被筛除。
36.在对历史代发数据进行数据处理之后,基于基本代发规律提取影响预设代发业务的代发金额的特征变量,以形成建模分析宽表。需要说明的是,在提取特征变量的过程中,
需要针对日期特征和历史代发金额进行特征变量的衍生,得到日期特征变量以及代发金额特征变量。
37.具体来说,日期特征变量包括:是否节假日;是否除夕前7天;是否春节假期后7天;周几;几号;几月;每月的第几周;是否月初/月末;是否季初/季末;是否年初/年末;是否5号/10号/15号/20号/25号/月末且节假日等。代发金额特征变量包括:上月/上2月/上3月/上年同日/前1天/前2天/后1天/后2天代发金额;上月/上2月/上3月/上年同日近5天代发金额平均值/最大值/最小值;上月/上2月/上3月/上年同日前2天代发金额平均值/最大值/最小值;上月/上2月/上3月/上年同日后2天代发金额平均值/最大值/最小值等。
38.s102,基于预测宽表数据,利用多种树类算法分别预测预设代发业务当月每天的代发金额,其中,一种树类算法对应一个当月每天的代发金额预测值。
39.具体地,树类算法的优点是能够深入挖掘数据的局部特征,而且能够较好地处理变量之间的非线性关系,从而捕捉每天代发金额的形态分布,因此在得到预测宽表数据之后,利用多种树类算法分别预测预设代发业务当月每天的代发金额。
40.可选地,s102,基于预测宽表数据,利用多种树类算法分别预测预设代发业务当月每天的代发金额包括:基于预测宽表数据,至少利用以下几种树类算法分别预测预设代发业务当月每天的代发金额:lgbm、xgboost、rf、gbdt。
41.具体地,lgbm(light gradient boosting machine)是一套基于决策树的快速、分布式、高性能的gradient boosting框架;gbdt(gradient boosting decision tree,梯度提升树)是一种基于决策树的集成算法,在数据分析和预测中的效果很好;xgboost是gbdt算法的一种改进,是一种常用的有监督集成学习算法,也是一种伸缩性强、便捷的可并行构建模型的gradient boosting算法;rf(random forest,随机森林)由多颗决策树构成,原理使用bagging的方法处理boostrap得到的子数据集,增加的特点是在boostrap的基础上所用特征值k<总特征数p,进一步分化了样本。
42.在得到预测宽表数据之后,利用不限于上述列举的lgbm、xgboost、rf、gbdt等树类算法,分别预测得到预设代发业务当月每天的代发金额的预测值:y1、y2、y3、y4。
43.s103,基于lgbm算法将预测得到的多个当月每天的代发金额预测值融合为目标预测值。
44.具体地,在得到多个预设代发业务当月每天的代发金额的预测值y1、y2、y3、y4之后,为了能够尽量保留每个树类算法的优势,同时增加预测的稳定性,将y1、y2、y3、y4作为自变量,使用lgbm算法进行融合,得到目标预测值y5。
45.s104,根据月度线性回归方程对目标预测值进行加权调整,得到预设代发业务的最终预测值。
46.具体地,由于月度代发金额与上一年同期数据以及近期新签约的代发对象的数量(即代发签约因子)具有极强的线性关系,因此通过月度线性回归方程,对目标预测值y5进行加权调整,以得到预设代发业务的最终预测值。
47.可选地,s104,根据月度线性回归方程对目标预测值进行加权调整,得到预设代发业务的最终预测值包括:根据月度线性回归方程对目标预测值进行加权调整,得到预设代发业务的最终预测值,其中,yi为第i天的最终预测值,i为日期,y
5i
为第i天
的目标预测值,ym为月度代发金额对上一年同期数据以及当前预设代发对象数量的线性回归预测值。
48.本技术通过使用树类算法对预设代发业务的代发金额进行预测,并对多个预测值进行融合后再进行加权调整,解决了现有技术对代发金额进行预测时存在的需要对样本数据进行预设条件的检验、预测稳定性难以保证以及预测准确性较低的技术问题,实现了简化预测过程、提高预测稳定性与准确性的技术效果。
49.在本发明实施例中,可选地,在对预设代发业务的代发金额进行预测之前,还需要训练得到代发金额预测模型,代发金额预测模型具体通过下述步骤训练得到:
50.(1)划分建模时间窗口,并依据建模时间窗口滑动形成建模数据集,其中,该建模数据集包含至少五年的预设代发业务的预测宽表数据。
51.具体地,以2020年5月初的建模时点为例,自变量的数据包含观察期2019年5月1日至2020年4月30日的所有特征变量以及表现期2020年5月1日至5月31日的日期特征变量,因变量包含表现期2020年5月1日至5月31日每天的代发金额,然后滑动时间窗口形成建模数据集,共包含5年的数据,其中,滑动时间窗口的窗口长度通常为一个月。将5年的数据中,前四年的数据作为训练集,最近一年的数据作为验证集。
52.(2)基于建模数据集,使用多种树类算法,包括但不限于lgbm、xgboost、rf、gbdt,对表现期每天的代发金额数据进行建模训练,分别获得表现期当月每天的代发金额的预测值:y1、y2、y3、y4。
53.(3)将当月每天的代发金额的预测值:y1、y2、y3、y4作为自变量,使用lgbm算法进行融合,继续对表现期每天的代发金额数据进行建模训练,获得目标预测值y5。
54.(4)使用月度线性回归方程对目标预测值y5进行加权调整,得到最终预测出的表现期当月(本实施例中为5月)的最终预测值yi。
55.(5)使用验证集对训练结果进行验证,即将预测结果yi与表现期当月的实际代发金额进行比较,判断其mape(平均绝对百分比误差)值是否小于0.07,即预测的准确率是否大于93%,若是,则表明该代发金额预测模型具有较高的预测稳定性和预测准确性,后续可继续使用该代发金额预测模型对预设代发业务的代发金额进行预测。
56.图2是本发明实施例提供的一种代发金额的预测装置的结构图,如图2所示,该代发金额的预测装置包括代发金额预测模块10,代发金额预测模块10包括:
57.数据获取单元11,用于获取预设代发业务的预测宽表数据,其中,预测宽表数据包括影响预设代发业务的代发金额的特征变量以及预设代发业务的历史代发数据,预测宽表数据存放于预先设置的建模分析宽表中;
58.金额预测单元12,用于基于预测宽表数据,利用多种树类算法分别预测预设代发业务当月每天的代发金额,其中,一种树类算法对应一个当月每天的代发金额预测值;
59.目标融合单元13,用于基于lgbm算法将预测得到的多个当月每天的代发金额预测值融合为目标预测值;
60.目标调整单元14,用于根据月度线性回归方程对目标预测值进行加权调整,得到预设代发业务的最终预测值。
61.可选地,该代发金额的预测装置还包括宽表加工模块20以及模型建立模块30;
62.宽表加工模块20用于建立建模分析宽表;
63.模型建立模块30用于将预测宽表数据分为训练集和验证集,并利用训练集建立代发金额预测模型以及利用验证集验证代发金额预测模型的预测准确率。
64.可选地,宽表加工模块20具体包括:
65.类型确定单元,用于确定预设代发业务的代发类型,并获取每种预设代发业务的预设时间长度的历史代发数据;
66.特征提取单元,用于基于所述历史代发数据提取影响所述预设代发业务的代发金额的特征变量;
67.宽表建立单元,用于将所述历史代发数据和所述特征变量整合得到所述建模分析宽表。
68.可选地,模型建立模块30具体用于:
69.(1)划分建模时间窗口,并依据建模时间窗口滑动形成建模数据集,其中,该建模数据集包含至少五年的预设代发业务的预测宽表数据;(2)基于建模数据集,使用多种树类算法,包括但不限于lgbm、xgboost、rf、gbdt,对表现期每天的代发金额数据进行建模训练,分别获得表现期当月每天的代发金额的预测值:y1、y2、y3、y4;(3)将当月每天的代发金额的预测值:y1、y2、y3、y4作为自变量,使用lgbm算法进行融合,继续对表现期每天的代发金额数据进行建模训练,获得目标预测值y5;(4)使用月度线性回归方程对目标预测值y5进行加权调整,得到最终预测出的表现期当月(本实施例中为5月)的最终预测值yi;(5)使用验证集对训练结果进行验证,即将预测结果yi与表现期当月的实际代发金额进行比较,判断其mape(平均绝对百分比误差)值是否小于0.07,即预测的准确率是否大于93%,若是,则表明该代发金额预测模型具有较高的预测稳定性和预测准确性,后续可继续使用该代发金额预测模型对预设代发业务的代发金额进行预测。
70.可选地,特征提取单元具体用于:
71.基于所述历史代发数据分析得到每种所述预设代发业务基本代发规律,其中,所述基本代发规律包括所述预设代发业务的每日代发形态和每月代发规律;
72.基于所述基本代发规律提取影响所述预设代发业务的代发金额的特征变量,其中,所述特征变量包括日期特征变量以及代发金额特征变量。
73.可选地,金额预测单元12具体用于:
74.基于所述预测宽表数据,至少利用以下几种树类算法分别预测所述预设代发业务当月每天的代发金额:lgbm、xgboost、rf、gbdt。
75.可选地,目标调整单元14具体用于:
76.根据月度线性回归方程对所述目标预测值进行加权调整,得到所述预设代发业务的最终预测值,其中,yi为第i天的所述最终预测值,i为日期,y
5i
为第i天的所述目标预测值,ym为月度代发金额对上一年同期数据以及当前预设代发对象数量的线性回归预测值。
77.本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
78.本发明实施例提供的代发金额的预测装置,与上述实施例提供的代发金额的预测方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
79.图3为本发明实施例提供的一种代发金额的预测设备的结构示意图,如图3所示,该代发金额的预测设备包括处理器31、存储器32、输入装置33和输出装置34;代发金额的预测设备中处理器31的数量可以是一个或多个,图3中以一个处理器31为例;代发金额的预测设备中的处理器31、存储器32、输入装置33和输出装置34可以通过总线或其他方式连接,图3中以通过总线连接为例。
80.存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的代发金额的预测方法对应的程序指令/模块(例如,代发金额的预测装置中的代发金额预测模块10、宽表加工模块20以及模型建立模块30)。处理器31通过运行存储在存储器32中的软件程序、指令以及模块,从而执行代发金额的预测设备的各种功能应用以及数据处理,即实现上述的代发金额的预测方法。
81.存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器32可进一步包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至代发金额的预测设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
82.输入装置33可用于接收输入的数字或字符信息,以及产生与代发金额的预测设备的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
83.本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种代发金额的预测方法。
84.具体地,该代发金额的预测方法包括:
85.获取预设代发业务的预测宽表数据,其中,预测宽表数据包括影响预设代发业务的代发金额的特征变量以及预设代发业务的历史代发数据,预测宽表数据存放于预先设置的建模分析宽表中;
86.基于预测宽表数据,利用多种树类算法分别预测预设代发业务当月每天的代发金额,其中,一种树类算法对应一个当月每天的代发金额预测值;
87.基于lgbm算法将预测得到的多个当月每天的代发金额预测值融合为目标预测值;
88.根据月度线性回归方程对目标预测值进行加权调整,得到预设代发业务的最终预测值。
89.当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的代发金额的预测方法中的相关操作。
90.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质
中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
91.值得注意的是,上述代发金额的预测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
92.本发明实施例还提供一种计算机程序产品,该计算机程序产品包括计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所提供的代发金额的预测方法。
93.当然,本技术实施例所提供的计算机程序产品,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。
94.在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
95.最后应说明的是,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1