数据预测方法、装置、物流货量预测方法、介质、设备与流程

文档序号:26009579发布日期:2021-07-23 21:29阅读:99来源:国知局
数据预测方法、装置、物流货量预测方法、介质、设备与流程

本发明实施例涉及大数据处理技术领域,具体而言,涉及一种基于时间序列的数据预测方法、基于时间序列的数据预测装置、基于时间序列的物流货量预测方法、基于时间序列的物流货量预测装置、计算机可读存储介质以及电子设备。



背景技术:

时间序列预测是基于历史观测数据训练模型,然后输出未来时间的预测结果,与其他机器学习方法类似,时间序列预测模型也会面临“过拟合”问题,表现为有些模型在历史训练数据上拟合的很好,但在未来时间的预测误差较大。由于未来时间的数据无法在现在观测到,无法通过未来数据选择误差最小的模型,因此需要基于历史训练数据进行模型选择(modelselection)。

在现有的模型选择方法中,大多数是基于时间序列交叉验证的模型选择方法。具体的,对于树模型等大多数机器学习模型来说,无法通过信息量准则进行模型选择,通常采用时序交叉验证的方法,在历史数据上划分训练时间段和验证时间段,全部候选模型使用训练时间段数据进行训练,然后比较验证时间段的预测准确率,胜出的模型被认为是选择出的预测性能较好的模型。

但是,上述模型选择方法存在如下缺陷:基于时间序列交叉验证的模型选择方法需要对每条时序使用每个模型单独进行模型选择,时间复杂度的阶数为m*n;其中,n为时间序列个数,m为待选预测模型个数,因此会使得模型选择的效率较低。

因此,需要提供一种新的基于时间序列的数据预测方法及装置。

需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本发明的目的在于提供一种基于时间序列的数据预测方法、基于时间序列的数据预测装置、基于时间序列的物流货量预测方法、基于时间序列的物流货量预测装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型选择效率较低的问题。

根据本公开的一个方面,提供一种基于时间序列的数据预测方法,包括:

获取历史时间序列数据,并根据所述历史时间序列数据中各时序数据的时序特征得到各所述时序数据的时序特征矩阵;

利用各所述时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各所述时序数据的目标预测模型;其中,所述模型分类器是利用所述历史时间序列数据对初始网络模型进行训练得到的;

利用所述目标预测模型对各所述时序数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示。

在本公开的一种示例性实施例中,所述基于时间序列的数据预测方法还包括:

根据所述历史时间序列数据得到训练集数据以及验证集数据,并利用所述训练集数据中的各所述时序数据对各所述时序预测模型分别进行训练;

利用训练后的各所述时序预测模型对所述验证集数据中的各所述时序数据进行预测得到多个预测结果,并计算各所述预测结果以及与各所述预测结果对应的实际结果之间的差值;

将差值最小的时序预测模型作为与所述预测结果对应的所述时序数据的当前预测模型;

利用所述验证集数据中的各时序数据的当前预测模型以及各时序数据的时序特征矩阵对初始网络模型进行训练,得到所述模型分类器。

在本公开的一种示例性实施例中,根据所述历史时间序列数据得到训练集数据以及验证集数据包括:

利用自助采样法对所述历史时间序列数据进行采样,得到所述训练集数据以及验证集数据。

在本公开的一种示例性实施例中,利用所述验证集数据中的各时序数据的当前预测模型以及各时序数据的时序特征矩阵对初始网络模型进行训练,得到所述模型分类器包括:

将所述验证集数据中的各时序数据的时序特征矩阵分别输入至所述初始网络模型中得到多个输出结果;其中,所述初始网络模型包括决策树模型、提升树模型、随机森林模型以及神经网络模型中的至少一种;

判断各所述输出结果与各时序数据的当前预测模型是否相同;

在确定各所述输出结果与各所述当前预测模型相同时,将所述初始网络模型作为所述模型分类器。

在本公开的一种示例性实施例中,根据所述历史时间序列中各时序数据的时序特征得到各所述时间序列的时序特征矩阵包括:

提取所述历史时间序列中的各时序数据的时序特征;其中,所述时序特征包括时序长度、趋势性、季节性、线性、陡增性、谱熵、间隔性、波动性、自相关性以及偏自相关性中的多种;

根据各所述时序特征得到各所述时间序列的时序特征矩阵。

在本公开的一种示例性实施例中,所述时序预测模型包括差分整合移动平均自回归模型、指数平滑模型、时间序列分解模型、theta模型以及模型中的多种。

根据本公开的一个方面,提供一种基于时间序列的物流货量预测方法,包括:

获取历史货量时间序列数据,并根据所述历史货量时间序列数据的时序特征得到所述历史货量时间序列数据的时序特征矩阵;

利用时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到所述历史货量时间序列数据的目标预测模型;其中,所述模型分类器是利用所述历史货量时间序列数据对提升树算法模型进行训练得到的;

利用所述目标预测模型对历史货量时间序列数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示,以使得用户根据所述预测结果配置所需的物流货量。

在本公开的一种示例性实施例中,所述基于时间序列的物流货量预测方法还包括:

对所述历史货量时间序列数据进行归一化处理,并根据归一化处理后的历史货量时间序列数据训练集数据以及验证集数据;

利用所述训练集数据对各所述时序预测模型分别进行训练,并利用训练后的各所述时序预测模型对所述验证集数据进行预测得到多个预测结果;

计算各所述预测结果以及与各所述预测结果对应的实际结果之间的差值,并将差值最小的时序预测模型作为所述历史货量时间序列数据的目标预测模型;

根据所述目标预测模型以及所述验证集数据的时序特征矩阵对初始分类器进行训练,得到所述历史货量时间序列数据的模型分类器。

根据本公开的一个方面,提供一种基于时间序列的数据预测装置,包括:

数据获取模块,用于获取历史时间序列数据,并根据所述历史时间序列数据中各时序数据的时序特征得到各所述时序数据的时序特征矩阵;

目标预测模型确定模块,用于利用各所述时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各所述时序数据的目标预测模型;其中,所述模型分类器是利用所述历史时间序列数据对初始网络模型进行训练得到的;

数据预测模块,用于利用所述目标预测模型对各所述时序数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示。

根据本公开的一个方面,提供一种基于时间序列的物流货量预测装置,包括:

时序特征矩阵确定模块,用于获取历史货量时间序列数据,并根据所述历史货量时间序列数据的时序特征得到所述历史货量时间序列数据的时序特征矩阵;

时序预测模型分类模块,用于利用时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到所述历史货量时间序列数据的目标预测模型;其中,所述模型分类器是利用所述历史货量时间序列数据对提升树算法模型进行训练得到的;

预测结果展示模块,用于利用所述目标预测模型对历史货量时间序列数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示,以使得用户根据所述预测结果配置所需的货量。

根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一实施例所述的基于时间序列的数据预测方法或者上述任一实施例所述的基于时间序列的物流货量预测方法。

根据本公开的一个方面,提供一种电子设备,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一实施例所述的基于时间序列的数据预测方法或者上述任一实施例所述的基于时间序列的物流货量预测方法。

本发明实施例提供的一种基于时间序列的数据预测方法,一方面,通过获取历史时间序列数据,并根据历史时间序列数据中各时序数据的时序特征得到各时序数据的时序特征矩阵;然后利用各时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各时序数据的目标预测模型;最后再利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,解决了现有技术中基于时间序列交叉验证的模型选择方法需要对每条时序使用每个模型单独进行模型选择,时间复杂度的阶数为m*n;因此会使得模型选择的效率较低的问题,提高了目标预测模型的选择效率,同时也提高了对各时序数据在未来时间段的数据进行预测的效率;另一方面,通过利用各时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各时序数据的目标预测模型;最后再利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,提高了预测结果的准确率;再一方面,通过利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,以使得相关人员可以根据预测结果进行相应的准备,比如根据预测结果准备相应的货物或者配置相应的物流人员等等,进而可以避免由于没有准备导致对企业造成的经济损失等问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出根据本发明示例实施例的一种基于时间序列的数据预测方法的流程图。

图2示意性示出根据本发明示例实施例的另一种基于时间序列的数据预测方法的流程图。

图3示意性示出根据本发明示例实施例的另一种基于时间序列的数据预测方法的流程图。

图4示意性示出根据本发明示例实施例的一种基于时间序列的物流货量预测方法的流程图。

图5示意性示出根据本发明示例实施例的另一种基于时间序列的物流货量预测方法的流程图。

图6、图7以及图8示意性示出根据本发明示例实施例的一种基于时间序列的物流货量预测方法的应用场景示例图。

图9示意性示出根据本发明示例实施例的一种物流系统的框图。

图10示意性示出根据本发明示例实施例的一种基于时间序列的数据预测装置的框图。

图11示意性示出根据本发明示例实施例的一种基于时间序列的物流货量预测装置的框图。

图12示意性示出根据本发明示例实施例的一种用于实现上述基于时间序列的数据预测方法或者实现上述基于时间序列的物流货量预测方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一个时间点或下一段时间可能达到的水平。根据预测的时间跨度,时间序列预测方法可以分为短期预测、中期预测和长期预测。根据所采用的资料分析方法的不同,又可分为简单序时平均数法、加权序时平均数法、简单移动平均法、加权移动平均法、指数平滑法等。

时间序列预测有广泛的应用领域,比如零售行业的需求预测、金融市场行情预测、物流货量预测等等。在很多商业流程实现自动化智能化的过程中,时间序列预测起着非常重要的作用,比如在一些在线购物网站,未来一段时间内每一类商品的销量是一系列商业决策比如备货、促销等需要考虑的变量,因此预测技术能力会最终对销售收入、库存成本等产生重要影响。与此同时,大型在线购物网站同时售卖的商品数量最高可达百万级,大规模时间序列对现代时序预测技术产生了新的挑战。

时间序列预测是基于历史观测数据训练模型,然后输出未来时间的预测结果,与其他机器学习方法类似,时间序列预测模型也会面临“过拟合”问题,表现为有些模型在历史训练数据上拟合的很好,但在未来时间的预测误差较大。由于未来时间的数据无法在现在观测到,无法通过未来数据选择误差最小的模型,因此需要基于历史训练数据进行模型选择(modelselection)。

目前主要的时间序列预测模型选择方法如下:

一种是,基于信息量准则的模型选择方法。具体的,对于基于统计学框架建模的时间序列预测参数模型如arima(差分自回归移动平均模型,autoregressiveintegratemovingaveragemodel)、ets模型等来说,可以根据信息量准则进行模型选择,比如可以使用aic、bic、aicc等准则进行arima模型中ar(autoregressivemodel,自动回归模型)、ma(movingaveragemodel,移动平均模型)成分参数的选取,通常认为拟合结果中信息量越小的模型泛化能力更好。

另一种是,基于时间序列交叉验证的模型选择方法。具体的,对于树模型等大多数机器学习模型来说,无法通过信息量准则进行模型选择,通常采用时序交叉验证的方法,在历史数据上划分训练时间段和验证时间段,全部候选模型使用训练时间段数据进行训练,然后比较验证时间段的预测准确率,胜出的模型被认为是选择出的预测性能较好的模型。

但是,上述模型选择方法存在如下缺陷。具体的,基于信息量准则的模型选择方法的缺点有:

首先,待选模型需要均可计算信息量准则,而树模型等大多数非参数模型无法计算信息量,因此无法基于信息量准则进行比较不同种类模型的预测性能比较,比如不能通过计算aic比较arima预测模型和基于树的预测模型。

其次,需要保证待选模型均是基于相同的数据进行,以aic准则为例,不能直接比较带差分项的arima模型和不带差分项的arma模型的aic来认为较小的模型更好,因为差分会导致样本观测值的减少而导致aic不可比较。因此,使用信息量准则进行模型选择时,通常需要由专家指定合适的一类模型,如arima模型,然后再进行模型比较与选择,而这会大大限制预测模型选择的范围。

进一步的,基于时间序列交叉验证的模型选择方法的缺点有:

交叉验证需要对数据集划分训练集和验证集,当时序数据观测数量较少时,训练/验证集的划分会陷入困难,训练数据过少会导致模型难以训练,验证集数据过少会导致模型选择结果不可靠。有学者提出了改进的时序交叉验证,通过滚动的单步预测来尽可能多的使用历史数据,该方法能够提高模型选择的稳健性,但该方法增加了模型选择的计算时间复杂度。

除此之外,基于信息量准则的模型选择方法和基于时间序列交叉验证的模型选择方法目前均需要对各时序使用每个模型单独进行模型选择,时间复杂度阶数为m*n,n为时间序列个数,m为待选预测模型个数。

综上所述,当前缺少一种自动化程度高,可扩展性强的时间序列预测模型选择方法。

本示例实施方式中首先提供了一种时间序列预测方法,是一种基于时序特征的、数据驱动的、可扩展性强的时间序列预测模型选择方法。相比上述两种模型选择方法,该方法能够基于样本时序特征,实现快速、自动的模型选择。使用场景包括在零售行业的需求预测、金融市场行情预测、物流货量预测等大规模时间序列预测系统中,用于提高预测模型的选择效率,提升预测性能。进一步的,该方法可以运行于服务器、服务器集群或云服务器等,也可以运行于终端设备;当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该基于时间序列的数据预测方法可以包括以下步骤:

步骤s110.获取历史时间序列数据,并根据所述历史时间序列数据中各时序数据的时序特征得到各所述时序数据的时序特征矩阵。

步骤s120.利用各所述时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各所述时序数据的目标预测模型;其中,所述模型分类器是利用所述历史时间序列数据对初始网络模型进行训练得到的。

步骤s130.利用所述目标预测模型对各所述时序数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示。

上述基于时间序列的数据预测方法中,一方面,通过获取历史时间序列数据,并根据历史时间序列数据中各时序数据的时序特征得到各时序数据的时序特征矩阵;然后利用各时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各时序数据的目标预测模型;最后再利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,解决了现有技术中基于时间序列交叉验证的模型选择方法需要对每条时序使用每个模型单独进行模型选择,时间复杂度的阶数为m*n,因此会使得模型选择的效率较低的问题,提高了目标预测模型的选择效率,同时也提高了对各时序数据在未来时间段的数据进行预测的效率;另一方面,通过利用各时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各时序数据的目标预测模型;最后再利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,提高了预测结果的准确率;再一方面,通过利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,以使得相关人员可以根据预测结果进行相应的准备,比如根据预测结果准备相应的货物或者配置相应的物流人员等等,进而可以避免由于没有准备导致对企业造成的经济损失等问题。

以下,将结合附图对本发明示例实施例基于时间序列的数据预测方法中涉及的各步骤进行详细的解释以及说明。

在步骤s110中,获取历史时间序列数据,并根据所述历史时间序列数据中各时序数据的时序特征得到各所述时序数据的时序特征矩阵。

在本示例实施例中,首先,可以从某一数据集中获取历史时间序列数据;其中,该数据集例如可以是包含时间序列的m4开源数据集,也可以是其他数据集,本示例对此不做特殊限制;其次,当获取到该历史时间序列数据后,可以根据该历史时间序列数据中各时序数据的时序特征得到各时序数据的时序特征矩阵。具体的可以包括:首先,提取所述历史时间序列中的各时序数据的时序特征;其中,所述时序特征包括时序长度、趋势性、季节性、线性、陡增性、谱熵、间隔性、波动性、自相关性以及偏自相关性等等;其次,根据各所述时序特征得到各所述时间序列的时序特征矩阵。其中,上述各时序特征具体可以如下表1所示:

表1

由上表1可以看出,利用以上能衡量时间序列变化规律特点的特征及其最适合的预测模型数据,分类器能够从中“学习”到不同特征的时序最适合的预测方法,并将该信息利用到其他相似特征时序的模型选择上去。

在步骤s120中,利用各所述时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各所述时序数据的目标预测模型;其中,所述模型分类器是利用所述历史时间序列数据对初始网络模型进行训练得到的。

在本示例实施例中,该时序预测模型例如可以包括差分整合移动平均自回归模型(arima模型)、指数平滑模型(ets模型)、时间序列分解模型(stl-ar模型)、theta模型以及模型等等。此处以时间序列分解模型(stl-ar模型)对时间序列的趋势性预测以及季节性预测进行举例说明,其他模型类似,因此不一一赘述。

具体的,时间序列分解模型可以用来测定时间序列的趋势性和季节性,其分解式为:yt=tt+st+rt;其中,tt表示平滑后的趋势项,st表示季节项,rt表示残差项。对于趋势性很强的数据,经季节调整后的数据应比残差项的变动幅度更大。因此,var(rt)/var(tt+rt)会相对较小。但是,对于没有趋势或是趋势很弱的时间序列,两个方差应大致相同。因此,可以将趋势强度定义为:

这可以给趋势强度的衡量标准,其值在0-1之间。因为有些情况下残差项的方差甚至比季节变换后的序列还大,因此可以令ft可取的最小值为0。相似地,季节性的强度定义如下,其所用的数据为去除趋势后的数据而不是季节调整后的数据。

当季节强度fs接近0时表示该序列几乎没有季节性,当季节强度fs接近1时表示该序列的var(rt)远小于var(st+rt)。

因此,当得到上述各时序数据的时序特征矩阵以后,可以利用各时序特征矩阵以及预设的分类模型对上述多个时序预测模型进行分类,得到各不同类型的时序数据的目标预测模型。具体的,可以将时序特征矩阵作为分类模型的输入,然后分类模型会根据该时序特征矩阵为该时序数据预测最优的预测模型。通过该方法,可以提高预测模型的准确率,进而可以提高预测结果的准确率。

此处需要进一步补充说明的是,该模型分类器是利用上述历史时间序列数据对初始网络模型进行训练得到的,具体的训练过程会在后文进行详细描述,此处不再赘述。

在步骤s130中,利用所述目标预测模型对各所述时序数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示。

在本示例实施例中,通过利用目标预测模型对各时序数据在未来时间段的数据进行预测得到预测结果,并对预测结果进行展示,以使得相关人员可以根据预测结果进行相应的准备,比如根据预测结果准备相应的货物或者配置相应的物流人员等等,进而可以避免由于没有准备导致对企业造成的经济损失等问题。同时,还可以通过该方法对金融市场行情进行预测,然后根据预测结果及时止损,避免引起更大的经济损失。

图2示意性示出根据本发明示例实施例的另一种基于时间序列的数据预测方法。参考图2所示,该基于时间序列的数据预测方法可以包括步骤s210-步骤s240,以下进行详细说明。

在步骤s210中,根据所述历史时间序列数据得到训练集数据以及验证集数据,并利用所述训练集数据中的各所述时序数据对各所述时序预测模型分别进行训练。

在本示例实施例中,首先,利用自助采样法(bootstrapping)对所述历史时间序列数据进行采样,得到所述训练集数据以及验证集数据,然后,利用训练集数据中的各时序数据对各时序预测模型分别进行训练(对各时序预测模型中的参数进行调整)。具体的,bootstrapping过程形式化描述为:对于给定的处理任务,选取特定的有指导的训练分类模型的方法。然后需要两个数据集,一般是少量的标注数据集l和未标注的数据集u。然后逐步通过未标注的数据集u来扩大标注的数据集。从而训练出最终的分类器实现具体的处理任务。其中,通过未标注数据集扩大标注数据集的过程如下:

首先,使用已经标注的数据集l(可能是非常少量的数据集),应用选择的分类方法训练分类器h,h的作用主要是用于标注未标注数据集中的标注分类,通常可能是一些启发式规则等;然后,使用h对u进行标注分类目的是从u中获取到标注的数据;进一步的,从标注数据中选择置信度较高的数据作为标注数据加入到标注数据集;最后,重复上述过程直到满足迭代结束条件。通过该方法,可以解决现有技术中由于交叉验证需要对数据集划分训练集和验证集,当时序数据观测数量较少时,训练/验证集的划分会陷入困难,训练数据过少会导致模型难以训练,验证集数据过少会导致模型选择结果不可靠的问题,增加了训练集数据以及验证集数据的数据量,进而可以提高模型分类器的准确率。

在步骤s220中,利用训练后的各所述时序预测模型对所述验证集数据中的各所述时序数据进行预测得到多个预测结果,并计算各所述预测结果以及与各所述预测结果对应的实际结果之间的差值。

在本示例实施例中,首先,利用训练后的各时序预测模型对验证集数据中各时序数据进行预测得到多个预测结果,然后,计算各预测结果以及实际结果之间的差值,该差值可以包括均方误差值或者均方根误差值等等。

在步骤s230中,将差值最小的时序预测模型作为与所述预测结果对应的所述时序数据的当前预测模型。

在步骤s240中,利用所述验证集数据中的各时序数据的当前预测模型以及各时序数据的时序特征矩阵对初始网络模型进行训练,得到所述模型分类器。

在本示例实施例中,首先,将所述验证集数据中的各时序数据的时序特征矩阵分别输入至所述初始网络模型中得到多个输出结果;其中,所述初始网络模型包括决策树模型、提升树模型(xgboost模型)、随机森林模型以及神经网络模型中的至少一种;其次,判断各所述输出结果与各时序数据的当前预测模型是否相同;最后,在确定各所述输出结果与各所述当前预测模型相同时,将所述初始网络模型作为所述模型分类器。

以下,结合图3对本发明示例实施例基于时间序列的数据预测方法进行进一步的解释以及说明。参考图3所示,该基于时间序列的数据预测方法可以包括以下步骤:

阶段一:训练模型分类器

步骤s301,从数据集中获取历史时间序列数据;

步骤s302,对历史时间序列数据进行bootstrap抽样,得到训练集数据以及验证集数据;

步骤s303,利用训练集数据对多个时序预测模型进行训练,并利用训练后的各时序预测模型对验证集数据进行预测得到多个预测结果;

步骤s304,计算预测结果与真实结果之间的差值,并将差值最小的时序预测模型作为最优预测模型;

步骤s305,提取训练集数据的时序特征矩阵,并根据时序特征矩阵以及最后预测模型得到模型分类器;

阶段二:预测模型选择

步骤s306,提取历史时间序列数据中包括的所有时序数据的时序特征矩阵;

步骤s307,根据各时序特征矩阵以及模型分类器为各时序数据选取对应的目标预测模型;

步骤s308,利用对应的目标预测模型进行预测。

图4示意性示出根据本发明示例实施例的一种基于时间序列的物流货量预测方法。参考图4所示,该基于时间序列的物流货量预测方法可以包括步骤s410-步骤s440,以下进行详细说明。

在步骤s410中,获取历史货量时间序列数据,并根据所述历史货量时间序列数据的时序特征得到所述历史货量时间序列数据的时序特征矩阵。

在步骤s420中,利用时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到所述历史货量时间序列数据的目标预测模型;其中,所述模型分类器是利用所述历史货量时间序列数据对提升树算法模型进行训练得到的。

在步骤s430中,利用所述目标预测模型对历史货量时间序列数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示,以使得用户根据所述预测结果配置所需的物流货量。

图4示意性示出的示例实施例中,一方面,解决了现有技术中基于时间序列交叉验证的模型选择方法需要对每条时序使用每个模型单独进行模型选择,时间复杂度的阶数较高;因此会使得模型选择的效率较低的问题,提高了目标预测模型的选择效率,同时也提高了对各时序数据在未来时间段的数据进行预测的效率;另一方面,提高了预测结果的准确率;再一方面,使得相关人员可以根据预测结果准备相应的货物或者配置相应的物流人员等等,进而可以避免由于没有准备导致对企业造成的经济损失等问题。譬如,在双11活动开始之前,通过预测,可以配置足够的货物,或者配置足够的快递配送人员等等。

此处需要进一步补充说明的是,上述基于时间序列的数据预测方法中涉及的关于对步骤s110-步骤s130中的各方法进行限定以及解释的部分,同样适用于步骤s410-步骤s430,为避免冗余内容过多,此处不再赘述。

图5示意性示出根据本发明示例实施例的另一种基于时间序列的物流货量预测方法。参考图5所示,该基于时间序列的物流货量预测方法还可以包括步骤s510-步骤s540,以下进行详细说明。

在步骤s510中,对所述历史货量时间序列数据进行归一化处理,并根据归一化处理后的历史货量时间序列数据训练集数据以及验证集数据。

在本示例实施例中,首先,对历史货量时间序列数据(简称时序数据)进行归一化处理,可以使得训练集数据以及验证数据的普适应具有更好的普适性。然后,对全部历史货量时间序列数据使用自助法(bootstrapping)得到1000条样本数据,然后对这部分数据中的每一条时间序列划分训练集数据和验证集数据。具体的,图6中列出了其中3条时序数据,其中时序数据图中601部分为训练集数据,602部分为验证集数据。

在步骤s520中,利用所述训练集数据对各所述时序预测模型分别进行训练,并利用训练后的各所述时序预测模型对所述验证集数据进行预测得到多个预测结果。

在步骤s530中,计算各所述预测结果以及与各所述预测结果对应的实际结果之间的差值,并将差值最小的时序预测模型作为所述历史货量时间序列数据的目标预测模型。

在步骤s540中,根据所述目标预测模型以及所述验证集数据的时序特征矩阵对初始分类器进行训练,得到所述历史货量时间序列数据的模型分类器。

以下,对步骤s520-步骤s540进行解释以及说明。具体的,首先,在训练集数据上分别拟合待选择的5个时序预测模型,同时基于训练期数据提取时序特征矩阵(统计量),图6中时序特征矩阵列出了部分计算结果。然后,分别使用5个待选预测模型预测验证期数据得到预测结果,通过对比预测值和真实值可以计算均方根误差指标。记录均方根误差最小的模型为该条时序对应的“最优”模型。如图7模型结果表中所示,譬如,对于历史货量时间序列数据中的id为50725的时序数据来说,使用ets模型的误差最小,因此应选择ets模型作为其最优预测模型。最后,对每条时序数据来说,根据各时序特征矩阵以及“最优”模型标记构成了一条新的样本,描述了该特征时序对应的预测性能最佳的模型。汇总每条时序的时序特征及其模型标签,并基于该数据使用xgboost提升树算法训练一个模型分类器。

进一步的,使用上述模型分类器时序特征矩阵,将时序特征矩阵作为xgboost提升树算法的输入,分类模型会预测该条时序预测各时序模型的“最优”预测模型。如图8所示,以历史货量时间序列数据中的id为56712的时序数据为例,计算其各特征取值后,由阶段1中得到的模型选择分类器进行预测,结果为ets模型。作为验证,可以计算该时间序列实际使用5类模型的各自的预测效果,发现使用ets模型预测该时间序列的均方根误差最小,与模型选择的分类器预测结果一致。

进一步的,本发明提出的方法首先能够通过数据抽样避免了直接处理全部的时序数据,然后基于抽样数据建立模型选择分类器,提取不同时序特征适合的不同模型的信息,并将该信息用于全部时序数据的模型选择。该方法相比全部时序数据逐一进行时序交叉验证的模型选择能够利用分类器的“知识”节约大量的模型选择计算时间。

本发明示例实施例还提供了一种物流系统。参考图9所示,该物流系统可以包括配送站910、送货装置920以及收货装置930,并且,配送站、送货装置以及收货站之间可以通信连接,上述送货装置例如可以为无人机,也可以是无人车或者机器人等等,以下进行详细说明。

具体的,以每年一次的大型双11活动为例,可以利用上述基于时间序列的物流货量预测方法对来年的双11活动中所设计到的物流信息进行预测,进而可以更好的筹备需要用到的货物以及对应的送货装置以及收货装置等等,进而可以进一步的提高物流速度,提升用户体验。

详细而言,首先,获取上一年双11活动中各个品类的时间序列数据,并根据各所述品类的时间序列数据的时序特征得到各品类的时间序列数据的时序特征矩阵;其中,该时间序列数据可以包括各个地区的各个品类的销售量、订单发出时间、确认收货时间以及物流信息等等;

其次,利用时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各品类的时间序列数据的目标预测模型;其中,各模型分类器是利用上一年双11活动中各个品类的时间序列数据对提升树算法模型进行训练得到的;

最后,利用各目标预测模型对各品类的时间序列数据在下一年双11的数据进行预测得到预测结果,以使得配送站可以根据该预测结果配置所需的库存量、送货装置以及收货装置等等,进而可以使得用户可以及时的收到自己购买的货物,提升用户体验;并且,还可以增加更多的用户,进而可以提升更多的竞争力,增加企业效益。

本发明示例实施例还提供了一种基于时间序列的数据预测装置。参考图10所示,该基于时间序列的数据预测装置可以包括数据获取模块1010、目标预测模型确定模块1020以及数据预测模块1030。其中:

数据获取模块1010可以用于获取历史时间序列数据,并根据所述历史时间序列数据中各时序数据的时序特征得到各所述时序数据的时序特征矩阵。

目标预测模型确定模块1020可以用于利用各所述时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各所述时序数据的目标预测模型;其中,所述模型分类器是利用所述历史时间序列数据对初始网络模型进行训练得到的。

数据预测模块1030可以用于利用所述目标预测模型对各所述时序数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示。

在本公开的一种示例性实施例中,所述基于时间序列的数据预测装置还包括:

第一训练模块,可以用于根据所述历史时间序列数据得到训练集数据以及验证集数据,并利用所述训练集数据中的各所述时序数据对各所述时序预测模型分别进行训练。

第一差值计算模块,可以用于利用训练后的各所述时序预测模型对所述验证集数据中的各所述时序数据进行预测得到多个预测结果,并计算各所述预测结果以及与各所述预测结果对应的实际结果之间的差值。

第一当前预测模型确定模块,可以用于将差值最小的时序预测模型作为与所述预测结果对应的所述时序数据的当前预测模型。

第一模型分类器确定模块,可以用于利用所述验证集数据中的各时序数据的当前预测模型以及各时序数据的时序特征矩阵对初始网络模型进行训练,得到所述模型分类器。

在本公开的一种示例性实施例中,根据所述历史时间序列数据得到训练集数据以及验证集数据包括:

利用自助采样法对所述历史时间序列数据进行采样,得到所述训练集数据以及验证集数据。

在本公开的一种示例性实施例中,利用所述验证集数据中的各时序数据的当前预测模型以及各时序数据的时序特征矩阵对初始网络模型进行训练,得到所述模型分类器包括:

将所述验证集数据中的各时序数据的时序特征矩阵分别输入至所述初始网络模型中得到多个输出结果;其中,所述初始网络模型包括决策树模型、提升树模型、随机森林模型以及神经网络模型中的至少一种;判断各所述输出结果与各时序数据的当前预测模型是否相同;在确定各所述输出结果与各所述当前预测模型相同时,将所述初始网络模型作为所述模型分类器。

在本公开的一种示例性实施例中,根据所述历史时间序列中各时序数据的时序特征得到各所述时间序列的时序特征矩阵包括:

提取所述历史时间序列中的各时序数据的时序特征;其中,所述时序特征包括时序长度、趋势性、季节性、线性、陡增性、谱熵、间隔性、波动性、自相关性以及偏自相关性中的多种;根据各所述时序特征得到各所述时间序列的时序特征矩阵。

在本公开的一种示例性实施例中,所述时序预测模型包括差分整合移动平均自回归模型、指数平滑模型、时间序列分解模型、概率图模型以及朴素贝叶斯模型中的多种。

上述基于时间序列的数据预测装置中各模块的具体细节已经在对应的基于时间序列的数据预测方法中进行了详细的描述,因此此处不再赘述。

本发明示例实施例还提供了一种基于时间序列的物流货量预测装置。参考图11所示,该基于时间序列的物流货量预测装置可以包括时序特征矩阵确定模块1110、时序预测模型分类模块1120以及预测结果展示模块1130。其中:

时序特征矩阵确定模块1110可以用于获取历史货量时间序列数据,并根据所述历史货量时间序列数据的时序特征得到所述历史货量时间序列数据的时序特征矩阵。

时序预测模型分类模块1120可以用于利用时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到所述历史货量时间序列数据的目标预测模型;其中,所述模型分类器是利用所述历史货量时间序列数据对提升树算法模型进行训练得到的。

预测结果展示模块1130可以用于利用所述目标预测模型对历史货量时间序列数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示,以使得用户根据所述预测结果配置所需的货量。

在本公开的一种示例性实施例中,所述基于时间序列的物流货量预测装置还包括:

归一化处理模块,可以用于对所述历史货量时间序列数据进行归一化处理,并根据归一化处理后的历史货量时间序列数据训练集数据以及验证集数据。

数据预测模块,可以用于利用所述训练集数据对各所述时序预测模型分别进行训练,并利用训练后的各所述时序预测模型对所述验证集数据进行预测得到多个预测结果;

第二差值计算模块,可以用于计算各所述预测结果以及与各所述预测结果对应的实际结果之间的差值,并将差值最小的时序预测模型作为所述历史货量时间序列数据的目标预测模型;

第二模型分类器确定模块,根据所述目标预测模型以及所述验证集数据的时序特征矩阵对初始分类器进行训练,得到所述历史货量时间序列数据的模型分类器。

上述基于时间序列的物流货量预测装置中各模块的具体细节已经在对应的基于时间序列的物流货量预测方法中进行了详细的描述,因此此处不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图12来描述根据本发明的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示,电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1210执行,使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元1210可以执行如图1中所示的步骤s110:获取历史时间序列数据,并根据所述历史时间序列数据中各时序数据的时序特征得到各所述时序数据的时序特征矩阵;步骤s120:利用各所述时序数据的时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到各所述时序数据的目标预测模型;其中,所述模型分类器是利用所述历史时间序列数据对初始网络模型进行训练得到的;步骤s130:利用所述目标预测模型对各所述时序数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示。

所述处理单元1210可以执行如图4中所示的步骤s410:获取历史货量时间序列数据,并根据所述历史货量时间序列数据的时序特征得到所述历史货量时间序列数据的时序特征矩阵;步骤s420:利用时序特征矩阵以及预设的模型分类器对多个时序预测模型进行分类,得到所述历史货量时间序列数据的目标预测模型;其中,所述模型分类器是利用所述历史货量时间序列数据对提升树算法模型进行训练得到的;步骤s430:利用所述目标预测模型对历史货量时间序列数据在未来时间段的数据进行预测得到预测结果,并对所述预测结果进行展示,以使得用户根据所述预测结果配置所需的物流货量。

存储单元1220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)12201和/或高速缓存存储单元12202,还可以进一步包括只读存储单元(rom)12203。

存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204,这样的程序模块12205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1200交互的设备通信,和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1250进行。并且,电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1