现金中心现金库存用量预测方法和装置、电子设备及介质与流程

文档序号:22431337发布日期:2020-10-02 10:14阅读:454来源:国知局
现金中心现金库存用量预测方法和装置、电子设备及介质与流程

本发明涉及人工智能技术领域,尤其涉及一种现金中心现金库存用量预测方法和装置、电子设备及介质。



背景技术:

现金中心是银行现金管理的核心机构,需根据业务量及其相关管理要求,对外与人民银行进行现金计划报送和现金领缴,对内向辖下网点、atm开展现金调拨工作,并提供客户上门收款、银行同业现金调拨等一系列现金服务。传统的现金中心库存现金需求量预测是基于人工经验,由业务专家根据往期各类现金业务交易量,结合节假日、经济环境、重要事件等影响,预估接下来一段周期的现金需求量,以此为依据向人民银行报送现金领缴计划。

但是,人工经验判断误差较大,容易导致现金积压造成资金浪费,或者现金库存不足引起现金服务中断等问题。



技术实现要素:

针对现有技术中的问题,本发明提供一种现金中心现金库存用量预测方法和装置、电子设备及介质,能够至少部分地解决现有技术中存在的问题,基于银行业现金业务营运的大数据分析,实现现金中心现金库存量精准高效预测,使商业银行报送人民银行的现金领缴计划更准确,保障现金中心现金服务的连续性和高效率,实现现金库存量的精细化管理,提升现金业务管理效能。

为了实现上述目的,本发明采用如下技术方案:

第一方面,提供一种现金中心现金库存用量预测方法,包括:

获取一现金中心的交易数据和辅助数据;

对该交易数据和该辅助数据进行特征提取以得到特征数据;

将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到现金库存用量预测结果。

进一步地,单体预测模型为岭回归模型、分类回归树模型、极端随机回归树模型、lightgbm回归模型或卷积神经网络模型。

进一步地,现金中心现金库存用量预测方法还包括:

利用均方根误差评估预训练的多个单体预测模型的效果;

根据评估结果选取部分单体预测模型用于现金库存用量预测。

进一步地,该交易数据包括:交易量和现金收付量;该辅助数据包括:节假日数据和天气数据。

进一步地,该对该交易数据和该辅助数据进行特征提取以得到特征数据,提取的特征包括:业务属性特征、关联序列特征、统计序列特征,基于主成分分析得到。

进一步地,该业务属性特征包括:业务周期特征、事件特征。

进一步地,该统计序列特征包括:变化率特征、均值特征、极值特征。

第二方面,提供一种现金中心现金库存用量预测装置,包括:

原始数据获取模块,获取一现金中心的交易数据和辅助数据;

预测样本提取模块,对该交易数据和该辅助数据进行特征提取以得到特征数据;

预测模块,将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

最优解计算模块,采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到现金库存用量预测结果。

进一步地,现金中心现金库存用量预测装置还包括:

模型效果评价模块,利用均方根误差评估预训练的多个单体预测模型的效果;

模型筛选模块,根据评估结果选取部分单体预测模型用于现金库存用量预测。

第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现上述的现金中心现金库存用量预测方法的步骤。

第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的现金中心现金库存用量预测方法的步骤。

本发明实施例提供的现金中心现金库存用量预测方法和装置、电子设备及介质,获取一现金中心的交易数据和辅助数据;对该交易数据和该辅助数据进行特征提取以得到特征数据;将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到现金库存用量预测结果,可以得到现金中心未来一段时间现金需求量的预测值,帮助现金中心明确现金需求量,从而更高效精准的报送人民银行现金领缴计划,实现现金库存量的最优化配置,提高利用资金利用效率和现金服务水平,推进现金中心业务营运管理智能化转型。

为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本发明实施例中的现金中心现金库存用量预测方法的流程示意图一;

图2是本发明实施例中的现金中心现金库存用量预测方法的流程示意图二;

图3是本发明实施例中的现金中心现金库存用量预测装置的结构框图;

图4示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统结构图;

图5示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中数据处理装置的结构图;

图6示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中特征工程装置的结构图;

图7示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中建模装置的结构图;

图8示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中预测装置4的结构图;

图9示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中数据处理装置1的流程图;

图10示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中特征工程装置2的流程图;

图11示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中建模装置3的流程图;

图12示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中预测装置4的流程图;

图13为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明实施例提供了一种基于机器学习的现金中心现金库存预测管理技术,综合运用网络爬虫、数据清洗、特征工程、机器学习等手段,完成对现金中心未来各个时间周期现金需求量预测的任务,帮助现金中心按周、按月规划未来现金需求量,并报送精准的现金领缴周计划、月计划给人民银行,使现金中心对现金库存量的管理满足行内现金服务需求,同时避免现金积压现象导致资金利用效率降低,有效降低现金运营成本,助力银行智慧运营建设。

图1是本发明实施例中的现金中心现金库存用量预测方法的流程示意图一;如图1所示,该现金中心现金库存用量预测方法可以包括以下内容:

步骤s1000:获取一现金中心的交易数据和辅助数据;

其中,交易数据包括:交易量和现金收付量等;所述辅助数据包括:节假日数据和天气数据等。

值得说明的是,交易数据和辅助数据是指当前周期的交易数据、历史同期的交易数据以及辅助数据等。

比如,需要预测下周的现金库存用量,交易数据和辅助数据可以是当周的交易数据、当月的交易数据或者当前日期之前一周或两周的交易数据、上一年当周的交易数据、上一年当月的交易数据、上一年预测周期(即上一年对应下周的时间)的交易数据、下周的天气数据、本周的天气数据、上周的天气数据、下周是否是节假日、本周是否是节假日等。

步骤s2000:对所述交易数据和所述辅助数据进行特征提取以得到特征数据;

具体地,分别提取交易数据和辅助数据中现金用量息息相关的参数作为特征参数,比如:节假日、天气、历史同期现金收付量、该现金中心下辖网点大客户的发薪日等。

步骤s3000:将所述特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

具体地,多个单体预测模型为不同的机器学习模型,比如岭回归模型、分类回归树模型、极端随机回归树模型、lightgbm回归模型或卷积神经网络模型等。

步骤s4000:采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到现金库存用量预测结果。

具体地,采用带精英策略的非支配排序遗传算法(简称nsgaπ)来对各单体预测模型的生成的模型预测值求pareto解,得到最终的预测结果。

通过采用如上技术方案,利用多种机器模型的不同特性,分别进行预测,然后采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行多目标优化,即将多个单体预测模型的结果动态组合,有效利用不同机器学习模型的特性,准确预测现金中心未来一段时间现金需求量,帮助现金中心明确现金需求量,从而更高效精准的报送人民银行现金领缴计划,实现现金库存量的最优化配置,提高利用资金利用效率和现金服务水平,推进现金中心业务营运管理智能化转型。

在一个可选的实施例中,参见图2,该现金中心现金库存用量预测方法还可以包括以下内容:

步骤s5000:利用均方根误差评估预训练的多个单体预测模型的效果。

具体地,使用均方根误差即rmse方法来对模型效果进行评估。在测试集上求所有模型的rmse值分为两步,首先对测试集中的每个样本数据计算其在所有模型上的预测结果,并在数据库中保存该预测结果;然后,当所有测试集样本的预测结果计算完毕后,根据rmse的公式分别求每个模型在测试集上的预测值和真实值的rmse值,取值越小代表效果越好。

步骤s6000:根据评估结果选取部分单体预测模型用于现金库存用量预测。

具体地,对模型rmse取值按照从小到大排序后,选择排名靠前的预设数量的模型作为可用模型。

通过采用上述技术方案,能够优选用于预测的单体预测模型,进一步提高预测的准确性。

在一个可选的实施例中,提取的特征包括:业务属性特征、关联序列特征、统计序列特征,基于主成分分析得到。

具体地,该业务属性特征是指与业务特性相关的特征,至少可以包括:业务周期特征、事件特征。其中,事件特征又可以分为:节假日特征、事件类特征以及天气类特征。

举例来说:业务周期特征可以包括:年初年末、月初月末、几月份、当年第几周、当月第几周;

节假日特征可以包括:下月第一周长假数量、下月第二周长假数量、下月第三周长假数量、下月第四周长假数量、是否春节前一个月、是否春节当月、是否春节后一个月;

事件类特征可以包括:下月第一周是否有重要事件、下月第二周是否有重要事件、下月第三周是否有重要事件、下月第四周是否有重要事件;

天气类特征可以包括:下月第一周天气综合评价、下月第二周天气综合评价、下月第三周天气综合评价、下月第四周天气综合评价,其中天气综合评价是根据未来天气预报下雨的天数、级别、高温低温进行加权平均后转换为1到5级。

另外,关联序列特征是指与预测现金需求量有关联的单列数据,包括:本周网点现金收付净额、本周atm现金收付净额、本周上门收款现金额、本周同业调拨现金净额、上周网点现金收付净额、上周atm现金收付净额、上周上门收款现金额、上周同业调拨现金净额、前第二周网点现金收付净额、前第二周atm现金收付净额、前第二周上门收款现金额、前第二周同业调拨现金净额、前第三周网点现金收付净额、前第三周atm现金收付净额、前第三周上门收款现金额、前第三周同业调拨现金净额、去年同期下一周网点现金收付净额、去年同期下一周atm现金收付净额、去年同期下一周上门收款现金额、去年同期下一周同业调拨现金净额、去年同期后第二周网点现金收付净额、去年同期后第二周atm现金收付净额、去年同期后第二周上门收款现金额、去年同期后第二周同业调拨现金净额、去年同期后第三周网点现金收付净额、去年同期后第三周atm现金收付净额、去年同期后第三周上门收款现金额、去年同期后第三周同业调拨现金净额、去年同期后第四周网点现金收付净额、去年同期后第四周atm现金收付净额、去年同期后第四周上门收款现金额、去年同期后第四周同业调拨现金净额等。

再者,该统计序列特征是指与预测现金金需求量有关联的多列数据统计值,至少可以包括:变化率特征、均值特征、极值特征。

举例来说:变化率特征可以包括:本周网点现金收付净额与上周的变化率、本周atm现金收付净额与上周的变化率、本周上门收款现金额与上周的变化率、本周同业调拨现金净额与上周的变化率、本周网点现金收付净额与上月同一周的变化率、本周atm现金收付净额与上月同一周的变化率、本周上门收款现金额与上月同一周的变化率、本周同业调拨现金净额与上月同一周的变化率、本周网点现金收付净额与上年同一周的变化率、本周atm现金收付净额与上月同一周的变化率、本周上门收款现金额与上年同一周的变化率、本周同业调拨现金净额与上年同一周的变化率、去年同周网点现金收付净额与下月同一周的变化率、去年同周atm现金收付净额与下月同一周的变化率、去年同周上门收款现金额与下月同一周的变化率、去年同周同业调拨现金净额与下月同一周的变化率。

均值特征可以包括:过去四周网点现金收付净额均值、过去四周atm现金收付净额均值、过去四周上门收款现金额均值、过去四周同业调拨现金净额均值、去年同期过去四周网点现金收付净额均值、去年同期过去四周atm现金收付净额均值、去年同期过去四周上门收款现金额均值、去年同期过去四周同业调拨现金净额均值、去年同期未来四周网点现金收付净额均值、去年同期未来四周atm现金收付净额均值、去年同期未来四周上门收款现金额均值、去年同期未来四周同业调拨现金净额均值。

极值特征可以包括:过去八周网点现金收付净额最大值、最小值、中位数、过去八周atm现金收付净额最大值、最小值、中位数、过去八周上门收款现金额最大值、最小值、中位数、过去八周同业调拨现金净额最大值、最小值、中位数。

对上述特征进行主成分分析以得到特征数据。具体地,采用主成分分析法(pca)对上述特征进行主成分分析,选择累积方差大于预设阈值的主成分来表示现金中心各类业务数据序列的特征数据。

值得说明的是,利用主成分分析确定特征的步骤是在建模之前执行的,利用提取的特征表征数据,使机器学习模型学习到各特征与现金库存用量之间的关联关系,最终实现模型预测的功能。

通过采用上述技术方案,能够实现降维,将复杂问题简单化的同时,也可以剔除构建的特征间的相关信息。

在一个可选的实施例中,该现金中心现金库存用量预测方法还可以包括以下内容:

步骤i:获取该现金中心的历史交易数据和历史辅助数据;

步骤ii:对历史交易数据和历史辅助数据进行特征提取以得到历史特征数据;

步骤iv:将历史特征数据作为训练样本和测试样本,对预建立的各单体预测模型进行训练和测试,直至测试结果满足预设要求,得到训练完成的单体预测模型,用于现金库存用量预测。

具体地,将历史特征数据按照日期从大到小排序,按预设比例拆分为训练集和测试集。

其中,训练过程为:将训练样本输入预建立的单体预测模型,将单体预测模型的输出结果与训练样本的标签进行比较,基于比较结果反向调整单体预测模型的参数,实现模型训练。

测试过程包括:将测试样本输入训练后的单体预测模型中,将该测试样本的标签与模型的输出进行比对,判断是否符合预设要求,若是,则训练成功,若否,则对当前模型进行优化和/或应用更新后的训练样本集重新进行模型训练。

本领域技术人员可以理解的是,该现金中心现金库存用量预测方法还可以包括:构建单体预测模型的步骤。

具体地,构建单体预测模型是对机器学习算法进行一定改造,包装成标准化接口、统一输入和输出。主要包括:一、输入数据格式、定义每个机器学习算法参数范围;二、给每个机器学习算法添加网格搜索、随机搜索或者、贝叶斯优化等方法,实现机器学习方法自动调参;三是输出模型文件格式和内容。

另外,使用单个机器学习算法建模,具体可以在python中调用。

在一个可选的实施例中,该现金中心现金库存用量预测方法还可以包括:

对当前的交易数据和辅助数据或历史交易数据和历史辅助数据的质量进行评价的步骤。

具体地,通过对当前的交易数据和辅助数据或历史交易数据和历史辅助数据的质量好坏进行评价,若评价结果为差,则表明该数据不宜用于预测或训练样本。

举例来说,评估方式可为:判断预设时间段内现金中心业务数据是否缺失,缺失的比例是多少。

在一个可选的实施例中,该现金中心现金库存用量预测方法还可以包括:

对当前的交易数据和辅助数据或历史交易数据和历史辅助数据进行清洗的步骤。

具体地,数据清洗包括:去掉重复数据、补充缺失数据、光滑噪声点、修复离群点等。

其中,补充缺失数据时根据缺失数据的前后相邻数据和/或历史同期数据进行补充。

值得说明的是,在光滑噪声点时需要判断噪声数据,判断噪声数据时可采用正态分布3σ原则,将三倍于数据集的标准差的点设为噪声数据。另外,可采用smoothdata方法对噪声数据进行平滑处理,并对平滑处理后的数据打上标记。

再者,修复离群点时可通过箱线图的上下边缘来确定离群数据,然后根据离群点前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行修复。修复后的数据需要打上标记。

在一个可选的实施例中,该现金中心现金库存用量预测方法还可以包括:

对当前的交易数据和辅助数据或历史交易数据和历史辅助数据进行预处理的步骤。

具体地,该预处理可以包括:数据集成、数据规约和数据变换。

其中,由于系统获取的数据来源多样,存在代表同一概念的属性在不同数据源中可能会有不同的名字或单位,会导致不一致性和冗余,在本发明实施例可采用相关性分析的方法对数据进行集成。

另外,通过归约技术可得到数据的简化表示,简化后的数据占用空间会变小,但是能产生近乎相同的分析结果,可以提高整个系统的效率。

再者,通过数据变换使得数据更适用于系统进行数据挖掘。同一类别使用同一个数字表示,这样文本数据就变换成为离散的数值数据。

基于同一发明构思,本申请实施例还提供了一种现金中心现金库存用量预测装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于现金中心现金库存用量预测装置解决问题的原理与上述方法相似,因此现金中心现金库存用量预测装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例中的现金中心现金库存用量预测装置的结构框图。如图3所示,该现金中心现金库存用量预测装置具体包括:原始数据获取模块1a、预测样本提取模块1b、预测模块1c以及最优解计算模块1d。

原始数据获取模块1a获取一现金中心的交易数据和辅助数据;

预测样本提取模块1b对该交易数据和该辅助数据进行特征提取以得到特征数据;

预测模块1c将该特征数据分别输入预训练的多个单体预测模型中以得到对应的预测值;

最优解计算模块1d采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行处理得到现金库存用量预测结果。

通过采用如上技术方案,利用多种机器模型的不同特性,分别进行预测,然后采用带精英策略的非支配排序遗传算法对各单体预测模型的预测值进行多目标优化,即将多个单体预测模型的结果动态组合,有效利用不同机器学习模型的特性,准确预测现金中心未来一段时间现金需求量,帮助现金中心明确现金需求量,从而更高效精准的报送人民银行现金领缴计划,实现现金库存量的最优化配置,提高利用资金利用效率和现金服务水平,推进现金中心业务营运管理智能化转型。

在一个可选的实施例中,该现金中心现金库存用量预测装置还包括:

模型效果评价模块,利用均方根误差评估预训练的多个单体预测模型的效果;

模型筛选模块,根据评估结果选取部分单体预测模型用于现金库存用量预测。

为使本领域技术人员更好地理解本发明,下面举例对本发明的步骤进行具体说明:

图4示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统结构图,如图4所示,基于机器学习的现金中心现金库存管理系统包括数据处理装置1、特征工程装置2、建模装置3、预测装置4,其中,数据处理装置1与特征工程装置2建立连接,特征工程装置2与建模装置3相连接,建模装置3与预测装置4相连接。具体来说:

数据处理装置1,负责获取现金中心各类现金服务业务数据以及辅助数据等原始数据,并对获取的数据进行预处理,主要包括:获取原始数据、数据质量评价、数据清洗、数据归约。经过数据处理装置1后,可以获得具备准确性、完整性和一致性的高质量数据。

特征工程装置2,最大限度地从数据处理装置1得到的原始数据中提取特征以供算法和模型使用,主要包括:特征构建、特征提取。经过特征工程装置2后,可以获得机器学习算法可识别、可用于训练的数据,其目的是获取更好的训练数据特征,提升机器学习模型性能。

建模装置3,负责训练和挑选出预测效果较好的几种机器学习模型。该装置主要包括:构建机器学习算法池、训练单个机器学习算法模型、评估模型预测效果。

具体地,用特征数据自适应地查找合适的机器学习模型参数,使得在某个参数组合下该机器学习模型既能够很好地拟合工作量变化规律,也不会出现过拟合的情况。

预测装置4,负责使用训练好的模型对现金中心未来一段时间周期量进现金库存需求行动态组合预测。

具体地,使用从建模装置3中获取的预测效果较好的单个模型对未来现金量进行预测;然后,对单个模型预测值使用多目标优化算法进行加权平均即可获得现金需求量的组合预测结果。

图5示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中数据处理装置的结构图,如图5所示,数据处理装置1包含:原始数据获取单元11、数据质量评价单元12、数据清洗单元13、数据预处理单元14,其中:

原始数据获取单元11,负责获取所有现金中心的各类现金服务业务最近三年每日交易量数据、现金收付量数据、国内法定节假日数据,特色数据主要包括相关网点的发薪日、还款日数据和部分地区特殊节假日数据。

数据质量评价单元12,负责对现金中心现金业务原始数据质量好坏进行评估,若数据质量评估结果为差,表明该现金中心数据不宜建模。

数据清洗单元13,负责对现金中心业务原始数据进行清洗,包括:去掉重复数据、补充缺失数据、光滑噪声点、修复离群点。

数据预处理单元14,负责对原始数据进行预处理,处理方式主要包括:数据集成、数据归约和数据变换。

图6示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中特征工程装置的结构图,如图6所示,特征工程装置包含:特征构建单元21、特征提取单元22,其中:

特征构建单元21,用于从现金中心现金服务业务数据、节假日数据等中挖掘出特征数据。

特征提取单元22,负责对特征构建单元21构建出的特征空间进行映射得到一个新的特征空间,降低特征维度,提高计算效率。

图7示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中建模装置的结构图,如图7所示,建模装置包含:构建机器学习算法池单元31、单个机器学习算法建模单元32、单个算法模型效果评估单元33,其中:

构建机器学习算法池单元31,封装以下机器学习算法组成算法池:岭回归(ridgeregression)算法、cart回归树(classificationandregressiontree)算法、极端随机回归树(extremelyrandomizedtrees,extra-trees)算法、lightgbm(lightgradientboostingmachine)回归算法、卷积神经网络(convolutionalneuralnetworks,cnn)算法,用来提供系统对所有现金中心建模时可选单个机器学习算法。

单个机器学习算法建模单元32,负责使用算法池中的算法对特征工程装置2输出的特征数据进行训练,得到单个机器学习算法模型。

单个算法模型效果评估单元33,负责对单个机器学习算法建模单元32训练的模型效果进行评估,选择出预测效果最好的3个算法模型。

图8示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中预测装置4的结构图,如图8所示,预测装置包含:当日特征生成单元41、单个模型预测单元42、组合模型预测单元43,其中:

当日特征生成单元41,负责生成预测现金中心未来一段时间周期现金需求量的特征数据。

单个模型预测单元42,分别用建模装置挑选出来的3个算法模型对现金中心未来一段时间周期现金需求量进行预测,可以得到3个模型预测值。

组合模型预测单元43,负责采用带精英策略的非支配排序遗传算法(简称nsgaπ)来对单个模型预测单元42生成的3个模型预测值求pareto解,得到最终的预测结果。

图9示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中数据处理装置1的流程图,具体步骤包括:

步骤s101:获取原始数据。首先,通过行内系统获取现金中心各类现金服务业务最近三年每天的交易量、现金收付量数据、分行最近三年特殊节假日数据(特指少数民族)等;然后,网上爬虫获取最近三年国家法定节假日数据、网点所在地区天气信息(包括风力等级、温度、下雨级别等)。

步骤s102:数据质量评估。评估现金中心各类现金服务业务最近三年每天的交易量、现金收付量数据质量好坏,对质量好的现金中心进行建模,质量差的现金中心不进行建模。评估方式为:首先,判断最近一个月现金中心业务数据是否缺失,如果缺失,则质量评价为差。然后,计算现金中心工作日数据缺失比例,如果缺失比例小于等于20%,则现金中心业务数据质量评价为好;如果缺失比例大于20%,则去除日期最大的10条数据重新计算缺失比例,直至缺失比例小于等于20%或者现金中心业务数据剩下的数据量小于1个月,若最终数据量小于一个月,现金中心业务数据质量评价为差,反之评价为好。

步骤s103:缺失数据补充和标记。在填充缺失值时,需要补充的数据分为两类:一是补充工作日缺失的数据,二是补充非工作日的数据。工作日数据:根据缺失值前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行填充。非工作日数据:各类现金服务业务数据量补充为0。补充的数据需要打上标记。

步骤s104:噪声数据平滑和标记。噪声数据是指数据集中的干扰数据,在现金中心业务数据中交易量与现金收付量为负即为噪声数据。判断噪声数据时采用正态分布3σ原则,将三倍于数据集的标准差的点设为噪声数据。采用smoothdata方法对噪声数据进行平滑处理,并对平滑处理后的数据打上标记。

步骤s105:离群数据修复和标记。通过箱线图的上下边缘来确定离群数据,然后根据离群点前后一周数据变化幅度大小,选择采取前后四周均值、前后四周中位数或者前后四周同周几的平均值这三种方式中的一种来进行修复。修复后的数据需要打上标记。

步骤s106:数据集成。由于系统获取的数据来源多样,存在代表同一概念的属性在不同数据源中可能会有不同的名字或单位,会导致不一致性和冗余,在该发明中采用相关性分析的方法对数据进行集成。

步骤s107:数据归约。通过归约技术得到数据的简化表示,简化后的数据占用空间会变小,但是能产生近乎相同的分析结果,可以提高整个系统的效率。

步骤s108:数据变换。通过数据变换使得数据更适用于系统进行数据挖掘。同一类别使用同一个数字表示,这样文本数据就变换成为离散的数值数据。

图10示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中特征工程装置2的流程图,具体步骤包括:

步骤s201:特征构建之业务属性特征。主要是从现金中心过去3年的现金服务业务数据序列里,提取与业务特性相关的特征,包括业务周期特征:年初年末、月初月末、几月份、当年第几周、当月第几周;节假日特征:下月第一周长假数量、下月第二周长假数量、下月第三周长假数量、下月第四周长假数量、是否春节前一个月、是否春节当月、是否春节后一个月;事件类特征:下月第一周是否有重要事件、下月第二周是否有重要事件、下月第三周是否有重要事件、下月第四周是否有重要事件。天气类特征:下月第一周天气综合评价、下月第二周天气综合评价、下月第三周天气综合评价、下月第四周天气综合评价,其中天气综合评价是根据未来天气预报下雨的天数、级别、高温低温进行加权平均后转换为1到5级。

步骤s202:特征构建之关联序列特征。主要是从现金中心过去3年的业务业务数据序列里,提取与预测现金需求量有关联的单列数据做为关联特征,包括本周网点现金收付净额、本周atm现金收付净额、本周上门收款现金额、本周同业调拨现金净额、上周网点现金收付净额、上周atm现金收付净额、上周上门收款现金额、上周同业调拨现金净额、前第二周网点现金收付净额、前第二周atm现金收付净额、前第二周上门收款现金额、前第二周同业调拨现金净额、前第三周网点现金收付净额、前第三周atm现金收付净额、前第三周上门收款现金额、前第三周同业调拨现金净额、去年同期下一周网点现金收付净额、去年同期下一周atm现金收付净额、去年同期下一周上门收款现金额、去年同期下一周同业调拨现金净额、去年同期后第二周网点现金收付净额、去年同期后第二周atm现金收付净额、去年同期后第二周上门收款现金额、去年同期后第二周同业调拨现金净额、去年同期后第三周网点现金收付净额、去年同期后第三周atm现金收付净额、去年同期后第三周上门收款现金额、去年同期后第三周同业调拨现金净额、去年同期后第四周网点现金收付净额、去年同期后第四周atm现金收付净额、去年同期后第四周上门收款现金额、去年同期后第四周同业调拨现金净额。

步骤s203:特征构建之统计序列特征。主要是从现金中心过去3年的业务数据序列里,提取与预测现金金需求量有关联的多列数据统计值做为统计特征,包括变化率统计:本周网点现金收付净额与上周的变化率、本周atm现金收付净额与上周的变化率、本周上门收款现金额与上周的变化率、本周同业调拨现金净额与上周的变化率、本周网点现金收付净额与上月同一周的变化率、本周atm现金收付净额与上月同一周的变化率、本周上门收款现金额与上月同一周的变化率、本周同业调拨现金净额与上月同一周的变化率、本周网点现金收付净额与上年同一周的变化率、本周atm现金收付净额与上月同一周的变化率、本周上门收款现金额与上年同一周的变化率、本周同业调拨现金净额与上年同一周的变化率、去年同周网点现金收付净额与下月同一周的变化率、去年同周atm现金收付净额与下月同一周的变化率、去年同周上门收款现金额与下月同一周的变化率、去年同周同业调拨现金净额与下月同一周的变化率。均值统计:过去四周网点现金收付净额均值、过去四周atm现金收付净额均值、过去四周上门收款现金额均值、过去四周同业调拨现金净额均值、去年同期过去四周网点现金收付净额均值、去年同期过去四周atm现金收付净额均值、去年同期过去四周上门收款现金额均值、去年同期过去四周同业调拨现金净额均值、去年同期未来四周网点现金收付净额均值、去年同期未来四周atm现金收付净额均值、去年同期未来四周上门收款现金额均值、去年同期未来四周同业调拨现金净额均值。极值统计:过去八周网点现金收付净额最大值、最小值、中位数、过去八周atm现金收付净额最大值、最小值、中位数、过去八周上门收款现金额最大值、最小值、中位数、过去八周同业调拨现金净额最大值、最小值、中位数。

步骤s204:特征提取。采用主成分分析法(pca)对步骤s201-s203构建的特征数据进行主成分分析,选择累积方差大于85%的主成分来表示现金中心各类业务数据序列的特征数据,这样在实现降维,将复杂问题简单化的同时,也可以剔除构建的特征间的相关信息。

图11示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中建模装置3的流程图,具体步骤包括:

步骤s301:将数据集拆分训练集和测试集。将特征工程装置3生成的特征数据按照日期从大到小排序,拆分为4:1的训练集和测试集。

步骤s302:构建机器学习算法池。对本系统提供的机器学习算法进行一定改造,包装成标准化接口,统一输入和输出。主要改造:一是输入数据格式;二是定义每个机器学习算法参数范围,然后给每个机器学习算法添加网格搜索、随机搜索或者贝叶斯优化等方法,实现机器学习方法自动调参;三是输出模型文件格式和内容。

步骤s303:使用单个机器学习算法建模。采用步骤s302构建的机器学习算法池中的算法对步骤s301中拆分的训练集进行模型训练,可以得到每个算法的模型。

步骤s304:评估单个机器学习算法模型效果。使用均方根误差即rmse方法来对模型效果进行评估。在测试集上求所有模型的rmse值分为两步,首先对测试集中的每个样本数据计算其在所有模型上的预测结果,并在数据库中保存该预测结果;然后,当所有测试集样本的预测结果计算完毕后,根据rmse的公式分别求每个模型在测试集上的预测值和真实值的rmse值,取值越小代表效果越好。最后,对模型rmse取值按照从小到大排序后,选择前3个模型作为可用模型。

图12示出了本发明实施例中一种银行现金中心现金库存用量精准预测系统中预测装置4的流程图,具体步骤包括:

步骤s401:生成当日特征数据。调用特征工程装置生成当日特征数据,用于预测未来工作量。

步骤s402:使用单个模型预测;

具体地,使用单个机器学习模型预测未来现金中心现金需求量。调用建模装置挑选出的3个机器学习模型预测现金中心未来各个周期现金需求量,那么每个现金中心未来周期现金需求量每天有3个预测结果。

步骤s403:对单个模型预测结果进行组合。本发明选择采用带精英策略的非支配排序遗传算法(简称nsgaπ)来对3个机器学习模型的预测结果求pareto解,即为单个模型预测结果动态组合的结果。

上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备,具体的,电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述预测步骤:

下面参考图13,其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图13所示,电子设备600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram))603中的程序而执行各种适当的工作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602、以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。

在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1