银行网点空白凭证库存用量预测方法和装置、设备和介质与流程

文档序号:22431342发布日期:2020-10-02 10:14阅读:385来源:国知局
银行网点空白凭证库存用量预测方法和装置、设备和介质与流程

本发明涉及人工智能技术领域,尤其涉及一种银行网点空白凭证库存用量预测方法和装置、设备和介质。



背景技术:

在银行办理业务时常常需要使用空白凭证,重要空白凭证是指存单、存折、转账支票、现金支票、定额支票、银行汇票、本票和联行报单等重要凭证。为确保业务的正常开展,银行网点一般会预备充足的重要空白凭证,但是,由于空白凭证种类多样,经常会出现有些空白凭证预留过多占用资源、有些空白凭证没有及时补充影响业务的正常开展,因此,预测银行网点空白凭证库存用量,能够避免网点重要空白凭证库存或短缺或积压的情况,降低网点管理成本。

传统的银行网点空白凭证库存用量预测是根据各个网点重要空白凭证库存使用情况来进行人工推算的,引起各类重要空白凭证库存用量估算不准确,从而导致某一类或几类重要空白凭证库存存在短缺或积压,极大的增大网点管理成本。



技术实现要素:

针对现有技术中的问题,本发明提供一种银行网点空白凭证库存用量预测方法和装置、设备及介质,能够至少部分地解决现有技术中存在的问题。

为了实现上述目的,本发明采用如下技术方案:

第一方面,提供一种银行网点空白凭证库存用量预测方法,包括:

获取一银行网点的一空白凭证的使用量数据和辅助数据;

根据该使用量数据和该辅助数据进行特征提取得到特征数据;

将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到银行网点空白凭证库存用量预测结果;

其中,该单体预测模型为多项式回归模型、svr回归模型、adaboost回归模型、catboost模型或深度置信神经网络模型。

进一步地,银行网点空白凭证库存用量预测方法还包括:

利用均方根误差评估预训练的多个单体预测模型的效果;

根据评估结果选取部分单体预测模型用于银行网点空白凭证库存用量预测。

进一步地,该辅助数据包括:节假日数据、网点所属地区种类、网点客户发薪日数据。

进一步地,提取的特征为利用主成分分析单列操作特征、多列操作特征、聚合操作特征得到。

进一步地,该单列操作特征包括:使用量变化率特征。

进一步地,该多列操作特征包括:基于时间的使用量均值和中位数。

进一步地,该聚合操作特征包括:基于属性的使用量均值和中位数。

第二方面,提供一种银行网点空白凭证库存用量预测装置,包括:

原始数据获取模块,获取一银行网点的一空白凭证的使用量数据和辅助数据;

特征提取模块,根据该使用量数据和该辅助数据进行特征提取得到特征数据;

预测模块,将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

最优解计算模块,采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到银行网点空白凭证库存用量预测结果;

其中,该单体预测模型为多项式回归模型、svr回归模型、adaboost回归模型、catboost模型或深度置信神经网络模型。

第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现上述的银行网点空白凭证库存用量预测方法的步骤。

第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的银行网点空白凭证库存用量预测方法的步骤。

本发明提供的银行网点空白凭证库存用量预测方法和装置、设备及介质,该方法包括:获取一银行网点的一空白凭证的使用量数据和辅助数据;根据该使用量数据和该辅助数据进行特征提取得到特征数据;将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到银行网点空白凭证库存用量预测结果;其中,该单体预测模型为多项式回归模型、svr回归模型、adaboost回归模型、catboost模型或深度置信神经网络模型,通过采用上述技术方案,能够准确预测引起各类重要空白凭证库存用量,避免某一类或几类重要空白凭证库存存在短缺或积压的问题,降低网点管理成本。

为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本发明实施例中的银行网点空白凭证库存用量预测方法的流程示意图一;

图2是本发明实施例中的银行网点空白凭证库存用量预测方法的流程示意图二;

图3是本发明实施例中的银行网点空白凭证库存用量预测装置的结构框图;

图4示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统结构图;

图5示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中数据处理装置的结构图;

图6示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中特征工程装置的结构图;

图7示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中建模装置的结构图;

图8示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中预测装置4的结构图;

图9示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中数据处理装置1的流程图;

图10示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中特征工程装置2的流程图;

图11示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中建模装置3的流程图;

图12示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中预测装置4的流程图;

图13为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明实施例提供了一种银行网点空白凭证库存用量预测技术,综合运用网络爬虫、数据清洗、特征工程、机器学习等手段,高效、精准预测网点各类重要空白凭证未来一段时间每天使用量,帮助银行网点规划未来一段时间各类重要空白凭证的申请量,减轻网点重要空白凭证管理工作成本及复杂度,进而推进网点重要空白凭证管理的智能化。

图1是本发明实施例中的银行网点空白凭证库存用量预测方法的流程示意图一;如图1所示,该银行网点空白凭证库存用量预测方法可以包括以下内容:

步骤s1000:获取一银行网点的一空白凭证的使用量数据和辅助数据;

其中,使用量数据为该网点的一天的使用量数据;所述辅助数据包括:所述辅助数据包括:节假日数据、网点所属地区种类、网点客户发薪日数据等,其中,节假日数据包括法定节假日、部分地区特别节假日,网点所属地区种类包括工业区、商业区、生活区等。

值得说明的是,使用量数据和辅助数据是指当前周期的使用量数据和辅助数据、历史同期的使用量数据和辅助数据等与需要预测的周期的空白凭证库存用量相关的数据。

比如,需要预测一个银行网点第二天需要准备的空白凭证的库存用量,使用量数据和辅助数据可以是当前时刻以前使用量数据和辅助数据、上一年当周的数据、上一年当月的数据、近几日是否是节假日等。

步骤s2000:根据所述使用量数据和所述辅助数据进行特征提取得到特征数据;

具体地,提取与空白凭证的使用量息息相关的参数作为特征参数。

步骤s3000:将所述特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

具体地,多个单体预测模型为不同的机器学习模型,比如多项式回归模型、svr回归模型、adaboost回归模型、catboost模型或深度置信神经网络模型等。

步骤s4000:采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到银行网点空白凭证库存用量预测结果。

具体地,采用带精英策略的非支配排序遗传算法(简称nsgaπ)来对各单体预测模型的生成的模型预测值求pareto解,得到最终的预测结果。

通过采用如上技术方案,利用多种机器模型的不同特性,分别进行预测,然后采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行多目标优化,即将多个单体预测模型的结果动态组合,有效利用不同机器学习模型的特性,准确预测一个银行网点的未来一段时间每天各类重要空白凭证使用量的预测值,帮助网点提前对重要空白凭证进行备存,从而协助解决重要空白凭证人工管理成本高的问题。

在一个可选的实施例中,参见图2,该银行网点空白凭证库存用量预测方法还可以包括以下内容:

步骤s5000:利用均方根误差评估预训练的多个单体预测模型的效果。

具体地,使用均方根误差即rmse方法来对模型效果进行评估。在测试集上求所有模型的rmse值分为两步,首先对测试集中的每个样本数据计算其在所有模型上的预测结果,并在数据库中保存该预测结果;然后,当所有测试集样本的预测结果计算完毕后,根据rmse的公式分别求每个模型在测试集上的预测值和真实值的rmse值,取值越小代表效果越好。

步骤s6000:根据评估结果选取部分单体预测模型用于银行网点空白凭证库存用量预测。

具体地,对模型rmse取值按照从小到大排序后,选择排名靠前的预设数量的模型作为可用模型。

通过采用上述技术方案,能够优选用于预测的单体预测模型,进一步提高预测的准确性。

在一个可选的实施例中,提取的特征为利用主成分分析单列操作特征、多列操作特征、聚合操作特征得到。

具体地,该单列操作特征主要是对网点每类重要空白凭证的过去3年使用量进行四则运算、平方、开方、幂方、指数、对数等操作得到,包括:使用量变化率特征。

举例来说:计算出每类重要空白凭证每天使用量相对于前一天、上周同周几以及去年同期的变化率,从中挑选出最近30天的使用量的90个变化率,一年内法定节假日使用量的87个变化率,以及过去一年每月还款日、发薪日前后1天使用量的324个变化率,共计501个变化率作为特征。

另外,多列操作特征主要对网点每类重要空白凭证过去3年使用量中某一段时间的使用量求和/求差/求平均、求某一段时间使用量的最大值/最小值/中位数等操作得到,包括:基于时间的使用量均值和中位数。

举例来说,计算出每类重要空白凭证在过去4周中同周几使用量的平均值和中位数,得到14个特征;计算每类重要空白凭证过去一年7个法定节假日期间、12个还款日前后1天、24个发薪日前后1天使用量均值和中位数,得到43个特征,共计57个特征。

再者,聚合操作特征主要对网点每类重要空白凭证过去3年使用量需要按照某些属性(如时间段、多次出现的网点编号等)来进行统计得到,包括:基于属性的使用量均值和中位数。

举例来说:计算网点每类重要空白凭证在过去12个月每月使用量的均值和中位数,可以得到24个特征;计算每天各类重要空白凭证最近30天使用量的方差、第25%分位数、第75%分位数和均值,得到4个特征,共计28个特征。最后,再将各类重要空白凭证在过去30天的使用量放入特征列。

对上述特征进行主成分分析以得到特征数据。具体地,采用主成分分析法(pca)对上述特征进行主成分分析,选择累积方差大于预设阈值的主成分来表示网点各类重要空白凭证的特征数据。

值得说明的是,利用主成分分析确定特征的步骤是在建模之前执行的,利用提取的特征表征数据,使机器学习模型学习到各特征与空白凭证库存用量之间的关联关系,最终实现模型预测的功能。

通过采用上述技术方案,能够实现降维,将复杂问题简单化的同时,也可以剔除构建的特征间的相关信息。

在一个可选的实施例中,该银行网点空白凭证库存用量预测方法还可以包括以下内容:

步骤i:获取该银行网点空白凭证的历史使用量数据和辅助数据;

步骤ii:根据历史使用量数据和辅助数据进行特征提取以得到历史特征数据;

步骤iv:将历史特征数据作为训练样本和测试样本,对预建立的各单体预测模型进行训练和测试,直至测试结果满足预设要求,得到训练完成的单体预测模型,用于银行网点空白凭证库存用量预测。

具体地,将历史特征数据按照日期从大到小排序,按预设比例拆分为训练集和测试集。

其中,训练过程为:将训练样本输入预建立的单体预测模型,将单体预测模型的输出结果与训练样本的标签进行比较,基于比较结果反向调整单体预测模型的参数,实现模型训练。

测试过程包括:将测试样本输入训练后的单体预测模型中,将该测试样本的标签与模型的输出进行比对,判断是否符合预设要求,若是,则训练成功,若否,则对当前模型进行优化和/或应用更新后的训练样本集重新进行模型训练。

本领域技术人员可以理解的是,该银行网点空白凭证库存用量预测方法还可以包括:构建单体预测模型的步骤。

具体地,构建单体预测模型是对机器学习算法进行一定改造,包装成标准化接口、统一输入和输出。主要包括:一、输入数据格式、定义每个机器学习算法参数范围;二、给每个机器学习算法添加网格搜索、随机搜索或者、贝叶斯优化等方法,实现机器学习方法自动调参;三是输出模型文件格式和内容。

另外,使用单个机器学习算法建模,具体可以在python中调用。

在一个可选的实施例中,该银行网点空白凭证库存用量预测方法还可以包括:

对当前的使用量数据和辅助数据或历史使用量数据和辅助数据的质量进行评价的步骤。

具体地,通过对当前的使用量数据和辅助数据或历史使用量数据和辅助数据的质量好坏进行评价,若评价结果为差,则表明该数据不宜用于预测或训练样本。

举例来说,评估方式可为:首先,判断最近一个月网点数据是否缺失,如果缺失,则质量评价为差。然后,计算网点工作日数据缺失比例,如果缺失比例小于等于20%,则网点数据质量评价为好;如果缺失比例大于20%,则去除日期最大的10条数据重新计算缺失比例,直至缺失比例小于等于20%或者网点剩下的数据量小于1个月,若最终数据量小于一个月,网点数据质量评价为差,反之评价为好。

在一个可选的实施例中,该银行网点空白凭证库存用量预测方法还可以包括:

对当前的使用量数据和辅助数据或历史使用量数据和辅助数据进行清洗的步骤。

具体地,数据清洗包括:去掉重复数据、缺失数据补充和标记、噪声数据平滑和标记、离群数据修复和标记等。

其中,缺失数据补充和标记:在填充缺失值时,需要补充的数据分为两类:一是补充工作日缺失的数据,二是补充非工作日的数据。工作日数据:根据缺失值前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行填充。非工作日数据:各类重要空白凭证使用量补充为0。补充的数据需要打上标记。

值得说明的是,噪声数据是指数据集中的干扰数据,在网点重要空白凭证使用量为负即为噪声数据。判断噪声数据时采用正态分布3σ原则,将三倍于数据集的标准差的点设为噪声数据。采用smoothdata方法对噪声数据进行平滑处理,并对平滑处理后的数据打上标记。

离群数据修复和标记:通过箱线图的上下边缘来确定离群数据,然后根据离群点前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行修复。修复后的数据需要打上标记。

在一个可选的实施例中,该银行网点空白凭证库存用量预测方法还可以包括:

对当前的使用量数据和辅助数据或历史使用量数据和辅助数据进行预处理的步骤。

具体地,该预处理可以包括:数据集成、数据规约和数据变换。

其中,由于系统获取的数据来源多样,存在代表同一概念的属性在不同数据源中可能会有不同的名字或单位,会导致不一致性和冗余,在该发明中采用相关性分析的方法对数据进行集成。

另外,通过归约技术得到数据的简化表示,简化后的数据占用空间会变小,但是能产生近乎相同的分析结果,可以提高整个系统的效率。

再者,通过数据变换使得数据更适用于系统进行数据挖掘。同一类别使用同一个数字表示,这样文本数据就变换成为离散的数值数据。

通过采用上述技术方案,采用更先进的技术手段,实现银行网点重要空白凭证库存用量精准预测,优化网点重要空白凭证库存智能化管理工作。具体地,通过引入人工智能相关技术对各类业务峰谷规律进行挖掘,高效、精准预测出网点未来一段时间内每天每类重要空白凭证库存的使用量,根据网点每天每类重要空白凭证库存的使用量,指导银行编制网点各类重要空白凭证库存的配置方案,避免网点重要空白凭证库存或短缺或积压的情况,降低网点管理成本。

基于同一发明构思,本申请实施例还提供了一种银行网点空白凭证库存用量预测装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于银行网点空白凭证库存用量预测装置解决问题的原理与上述方法相似,因此银行网点空白凭证库存用量预测装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例中的银行网点空白凭证库存用量预测装置的结构框图。如图3所示,该银行网点空白凭证库存用量预测装置具体包括:原始数据获取模块1a、特征提取模块1b、预测模块1c以及最优解计算模块1d。

原始数据获取模块1a获取一银行网点的一空白凭证的使用量数据和辅助数据;

特征提取模块1b根据所述使用量数据和所述辅助数据进行特征提取得到特征数据;

预测模块1c将所述特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

最优解计算模块1d采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到银行网点空白凭证库存用量预测结果;

其中,所述单体预测模型为多项式回归模型、svr回归模型、adaboost回归模型、catboost模型或深度置信神经网络模型。

通过采用如上技术方案,利用多种机器模型的不同特性,分别进行预测,然后采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行多目标优化,即将多个单体预测模型的结果动态组合,有效利用不同机器学习模型的特性,准确预测一个银行网点的未来一段时间每天各类重要空白凭证使用量的预测值,帮助网点提前对重要空白凭证进行备存,从而协助解决重要空白凭证人工管理成本高的问题。

为使本领域技术人员更好地理解本发明,下面举例对本发明的步骤进行具体说明:

图4示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统结构图,如图4所示,基于机器学习的银行网点空白凭证库存用量精准预测系统包括数据处理装置1、特征工程装置2、建模装置3、预测装置4,其中,数据处理装置1与特征工程装置2建立连接,特征工程装置2与建模装置3相连接,建模装置3与预测装置4相连接。

具体来说:

数据处理装置1,负责获取的网点各类重要空白凭证的历史使用量数据以及辅助数据等原始数据,并对获取的数据进行预处理,主要包括:获取原始数据、数据质量评价、数据清洗、数据归约。经过数据处理装置1后,可以获得具备准确性、完整性和一致性的高质量数据。

特征工程装置2,最大限度地从数据处理装置1得到的原始数据中提取特征以供算法和模型使用,主要包括:特征构建、特征提取。经过特征工程装置2后,可以获得机器学习算法可识别、可用于训练的数据,获取更好的训练数据特征,提升机器学习模型性能。

建模装置3,负责训练和挑选出预测效果较好的几种机器学习模型。该装置主要包括:构建机器学习算法池、训练单个机器学习算法模型、评估模型预测效果。

具体地,建模装置3负责用特征数据自适应地查找合适的机器学习模型参数,使得在某个参数组合下该机器学习模型既能够很好地拟合使用量变化规律,也不会出现过拟合的情况,

预测装置4,负责使用训练好的模型对网点未来一段时间内各类重要空白凭证每天使用量进行动态组合预测。使用从建模装置3中获取的预测效果较好的单个模型对未来重要空白凭证使用量进行预测;然后,对单个模型预测值使用多目标优化算法进行加权平均即可获得网点重要空白凭证使用量的组合预测结果。

图5示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中数据处理装置的结构图,如图5所示,数据处理装置1包含:原始数据获取单元11、数据质量评价单元12、数据清洗单元13、数据预处理单元14,其中:

原始数据获取单元11,负责获取所有网点的各类重要空白凭证最近三年来每日使用量数据、国内法定节假日数据以及网点特色数据,特色数据主要包括网点所属地区种类(工业区、商业区、生活区等等)、发薪日、部分地区特殊节假日数据等。

数据质量评价单元12,负责对网点原始数据(主要是历史重要空白凭证使用量数据)质量好坏进行评估,若网点数据质量评估结果为差,表明该网点不宜建模。

数据清洗单元13,负责对网点原始数据进行清洗,包括:去掉重复数据、补充缺失数据、光滑噪声点、修复离群点。

数据预处理单元14,负责对原始数据进行预处理,处理方式主要包括:数据集成、数据归约和数据变换。

图6示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中特征工程装置的结构图,如图6所示,特征工程装置包含:特征构建单元21、特征提取单元22,其中:

特征构建单元21,用于从网点重要空白凭证使用量数据、网点模式数据、节假日数据等中挖掘出特征数据。

特征提取单元22,负责对特征构建单元21构建出的特征空间进行映射得到一个新的特征空间,降低特征维度,提高计算效率。

图7示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中建模装置的结构图,如图7所示,该建模装置包含:构建机器学习算法池单元31、单个机器学习算法建模单元32、单个算法模型效果评估单元33,其中:

构建机器学习算法池单元31,在本系统中封装以下机器学习算法组成算法池:多项式回归(polynomialregression)算法、svr回归算法、adaboost(adaptiveboosting)回归算法、catboost(categoricalfeatures+gradientboosting)、深度置信神经网络(deepbeliefnet,dbn)算法,用来提供系统对所有网点建模时可选单个机器学习算法。

单个机器学习算法建模单元32,负责使用算法池中的算法对特征工程装置2输出的特征数据进行训练,得到单个机器学习算法模型。

单个算法模型效果评估单元33,负责对单个机器学习算法建模单元32训练的模型效果进行评估,选择出预测效果最好的3个算法模型。

图8示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中预测装置4的结构图,如图8所示,预测装置包含:当日特征生成单元41、单个模型预测单元42、组合模型预测单元43,其中:

当日特征生成单元41,负责生成预测网点未来一段时间各类重要空白凭证每天使用量的特征数据。

单个模型预测单元42,分别用建模装置挑选出来的3个算法模型对网点未来一段时间各类重要空白凭证每天使用量进行预测,可以得到3个模型预测值。

组合模型预测单元43,负责使用多目标优化算法对单个模型预测单元42生成的3个模型预测值进行加权平均,得到最终的预测结果。

图9示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中数据处理装置1的流程图,具体步骤包括:

步骤s101:获取原始数据。

首先,通过行内系统获取网点各类重要空白凭证最近三年每天的使用量流水数据、网点最近三年每月发薪日数据、网点最近三年特殊节假日数据(特指少数民族);然后,由于非工作日网点是没有数据记录的,可以从使用量流水数据中推测出网点在过去三年每个季度的工作模式,网点的工作模式分为以下4种:5天工作日+周六日休息、5天工作日+周六工作+周日休息、5天工作日+周六休息+周日工作、一周七天都上班;最后,网上爬虫获取最近三年国家法定节假日数据、网点所在地区天气信息(包括风力等级、温度、下雨级别等)。

步骤s102:数据质量评估。

评估网点各类重要空白凭证最近三年每天的使用量流水数据质量好坏,对质量好的网点进行建模,质量差的网点不进行建模。评估方式为:首先,判断最近一个月网点数据是否缺失,如果缺失,则质量评价为差。然后,计算网点工作日数据缺失比例,如果缺失比例小于等于20%,则网点数据质量评价为好;如果缺失比例大于20%,则去除日期最大的10条数据重新计算缺失比例,直至缺失比例小于等于20%或者网点剩下的数据量小于1个月,若最终数据量小于一个月,网点数据质量评价为差,反之评价为好。

步骤s103:缺失数据补充和标记。

在填充缺失值时,需要补充的数据分为两类:一是补充工作日缺失的数据,二是补充非工作日的数据。工作日数据:根据缺失值前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行填充。非工作日数据:各类重要空白凭证使用量补充为0。补充的数据需要打上标记。

步骤s104:噪声数据平滑和标记。

噪声数据是指数据集中的干扰数据,在网点重要空白凭证使用量为负即为噪声数据。判断噪声数据时采用正态分布3σ原则,将三倍于数据集的标准差的点设为噪声数据。采用smoothdata方法对噪声数据进行平滑处理,并对平滑处理后的数据打上标记。

步骤s105:离群数据修复和标记。

通过箱线图的上下边缘来确定离群数据,然后根据离群点前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行修复。修复后的数据需要打上标记。

步骤s106:数据集成。

由于系统获取的数据来源多样,存在代表同一概念的属性在不同数据源中可能会有不同的名字或单位,会导致不一致性和冗余,在该发明中采用相关性分析的方法对数据进行集成。

步骤s107:数据归约。

通过归约技术得到数据的简化表示,简化后的数据占用空间会变小,但是能产生近乎相同的分析结果,可以提高整个系统的效率。

步骤s108:数据变换。

通过数据变换使得数据更适用于系统进行数据挖掘。同一类别使用同一个数字表示,这样文本数据就变换成为离散的数值数据。

图10示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中特征工程装置2的流程图,具体步骤包括:

步骤s201:特征构建之单列操作。

主要是对网点每类重要空白凭证的过去3年使用量进行四则运算、平方、开方、幂方、指数、对数等操作。计算出每类重要空白凭证每天使用量相对于前一天、上周同周几以及去年同期的变化率,从中挑选出最近30天的使用量的90个变化率,一年内法定节假日使用量的87个变化率,以及过去一年每月还款日、发薪日前后1天使用量的324个变化率,共计501个变化率作为特征。

步骤s202:特征构建之多列操作。

主要对网点每类重要空白凭证过去3年使用量中某一段时间的使用量求和/求差/求平均、求某一段时间使用量的最大值/最小值/中位数等操作。计算出每类重要空白凭证在过去4周中同周几使用量的平均值和中位数,得到14个特征;计算每类重要空白凭证过去一年7个法定节假日期间、12个还款日前后1天、24个发薪日前后1天使用量均值和中位数,得到43个特征,共计57个特征。

步骤s203:特征构建之分组/聚合操作。

主要对网点每类重要空白凭证过去3年使用量需要按照某些属性(如时间段、多次出现的网点编号等)来进行统计。计算网点每类重要空白凭证在过去12个月每月使用量的均值和中位数,可以得到24个特征;计算每天各类重要空白凭证最近30天使用量的方差、第25%分位数、第75%分位数和均值,得到4个特征,共计28个特征。最后,再将各类重要空白凭证在过去30天的使用量放入特征列。

步骤s204:特征提取。

采用主成分分析法(pca)对步骤s201-s203构建的特征数据进行主成分分析,选择累积方差大于85%的主成分来表示网点各类重要空白凭证的特征数据,这样在实现降维,将复杂问题简单化的同时,也可以剔除构建的特征间的相关信息。

图11示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中建模装置3的流程图,具体步骤包括:

步骤s301:将数据集拆分为训练集和测试集。

将特征工程装置3生成的特征数据按照日期从大到小排序,拆分为4:1的训练集和测试集。

步骤s302:构建机器学习算法池。

对对本系统提供的机器学习算法进行一定改造,包装成标准化接口,统一输入和输出。主要改造:一是输入数据格式;二是定义每个机器学习算法参数范围,然后给每个机器学习算法添加网格搜索、随机搜索或者贝叶斯优化等方法,实现机器学习方法自动调参;三是输出模型文件格式和内容。

步骤s303:使用单个机器学习算法建模。

采用步骤s302构建的机器学习算法池中的算法对步骤s301中拆分的训练集进行模型训练,可以得到每个算法的模型。

步骤s304:评估单个机器学习算法模型效果。

使用均方根误差即rmse方法来对模型效果进行评估。在测试集上求所有模型的rmse值分为两步,首先对测试集中的每个样本数据计算其在所有模型上的预测结果,并在数据库中保存该预测结果;然后,当所有测试集样本的预测结果计算完毕后,根据rmse的公式分别求每个模型在测试集上的预测值和真实值的rmse值,取值越小代表效果越好。最后,对模型rmse取值按照从小到大排序后,选择前3个模型作为可用模型。

图12示出了本发明实施例中一种银行网点空白凭证库存用量精准预测系统中预测装置4的流程图,具体步骤包括:

步骤s401:生成当日特征数据。

调用特征工程装置生成当日特征数据,用于预测未来使用量。

步骤s402:使用单个模型预测。

具体地,使用单个机器学习模型预测未来使用量。

调用建模装置挑选出的3个机器学习模型预测网点各类重要空白凭证未来使用量,那么每类重要空白凭证未来一段时间每天有3个预测结果。

步骤s403:对单个模型预测结果进行组合。

本发明选择采用带精英策略的非支配排序遗传算法(简称nsgaπ)来对3个机器学习模型的预测结果求pareto解,即为单个模型预测结果动态组合的结果。

上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备,具体的,电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述预测步骤:

下面参考图13,其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图13所示,电子设备600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram))603中的程序而执行各种适当的工作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602、以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。

在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1