基于长短期记忆网络和随机森林的短期爆炸客流预测方法与流程

文档序号:20191098发布日期:2020-03-27 19:40阅读:607来源:国知局

本发明涉及一种客流预测方法,特别是涉及一种基于长短期记忆网络和随机森林的短期爆炸客流预测方法。



背景技术:

文献“forecastingu.s.touristarrivalsusingoptimalsingularspectrumanalysis,tourismmanagement,2015,46:322-135”公开了一种使用奇异谱分析(ssa)来预测旅游需求的方法,文章表明其在预测赴美游客人数方面具有显著优势。该模型的构建主要包括分解和重建两个阶段,在分解阶段中,主要包括嵌入和奇异值分解两个步骤;在重建阶段中,主要包括分组和对角平均两个步骤,从而使模型达到最佳预测状态。但该方法为单一模型预测,在适用范围和准确程度等方面有待提高,同时该方法没有考虑国内旅游受节假日等因素影响更大的现状,不适于处理短期爆炸性客流预测问题。



技术实现要素:

为了克服现有客流预测方法实用性差的不足,本发明提供一种基于长短期记忆网络和随机森林的短期爆炸客流预测方法。该方法将两个单一模型——长短期记忆网络和随机森林相结合,先使用长短期记忆网络来拟合日客流量时间序列数据,再采用随机森林拟合二者之间的残差,最后将两个训练好的单一模型的预测结果叠加,得到组合模型预测结果。组合模型结合了两个单一模型的优点,相比于单一模型提高了预测准确度,预测的稳定性更高,在客流量峰值的预测上也有相应的提高,尤其适用于短期爆炸性客流的预测,实用性好。

本发明解决其技术问题所采用的技术方案是:一种基于长短期记忆网络和随机森林的短期爆炸客流预测方法,其特点是包括以下步骤:

步骤一、预测变量因素选择。

综合考虑相关性、可重复性和可行性因素,客流预测模型选择景区的日客流量,日天气状况,如温度、风向风速和湿度,网络搜索指数、节假日数据作为预测变量因素。

步骤二、训练预测模型。

对原始数据进行预处理转化为模型适用的数据。选择预测变量因素,数据预处理包括温湿指数、风效指数和着衣指数三种指标,分别用xthi、xwci、xicl表示,计算公式见式(1)-(3)。

xthi=(1.8t+32)-0.5(1-f)(1.8t-26)(1)

t为摄氏气温℃,f为相对湿度%,v代表风速m/s,s代表日照时数h/d,h代表人体代谢率的75%w/m2,a代表人体对太阳辐射的吸收情况,a的数值为0.06,r代表垂直阳光的单位面积土地所接受的太阳辐射,取值为(1385±7)w/m2,α代表太阳高度角。

其次,进行长短期记忆网络的训练工作。

将客流量相应的年月日转为一个有序序列。每一天的信息记作一条记录,包括一个由日期转化而来的序号、当日舒适度指数、当日节假日指数、昨日搜索指数和昨日客流量,对应的结果为当日客流量。剔除掉部分异常数据后,将batchsize的大小设为全部数据集,迭代次数为1000次。将数据导入长短期记忆网络,获得长短期记忆网络的预测结果。

再次,进行随机森林的训练工作。

将随机森林的最大子模型数量设为1000,将判断节点是否继续分裂采用的方法是均方误差,节点分裂时所有特征均参与判断,不限制随机森林的最大深度。同时,为了加快训练速度,并考虑到机器本身的承载能力,将并行数设置为16。将记录导入随机森林,训练残差,得到随机森林的预测结果。

最后,进行模型组合工作。

长短期记忆网络模型和随机森林模型两个单一模型的预测结果之和,就是组合模型的最终预测结果。

本发明的有益效果是:该方法将两个单一模型——长短期记忆网络和随机森林相结合,先使用长短期记忆网络来拟合日客流量时间序列数据,再采用随机森林拟合二者之间的残差,最后将两个训练好的单一模型的预测结果叠加,得到组合模型预测结果。组合模型结合了两个单一模型的优点,相比于单一模型提高了预测准确度,预测的稳定性更高,在客流量峰值的预测上也有相应的提高,尤其适用于短期爆炸性客流的预测,实用性好。

下面结合具体实施方式对本发明作详细说明。

具体实施方式

现结合四姑娘山景区客流预测实例对本发明做进一步描述。四姑娘山是一个典型的山岳型景区,在全国范围有一定的知名度。最重要的是四姑娘山较早地推进了信息化进程,有着充足的数据,日客流量数据易于获取。

本发明基于长短期记忆网络和随机森林的短期爆炸客流预测方法具体步骤如下:

步骤1:预测变量因素选择。

在综合考虑相关性、可重复性和可行性等因素,客流预测模型选择四姑娘山景区的日客流量,日天气状况(温度、风向风速、湿度),网络搜索指数、节假日数据作为预测变量因素。

步骤2:训练预测模型。

对原始数据进行预处理转化为模型适用的数据。结合本实例中所选择的具体预测变量因素,数据预处理包括温湿指数、风效指数和着衣指数三种指标,分别用xthi、xwci、xicl表示,计算公式见式(1)-(3)。

xthi=(1.8t+32)-0.5(1-f)(1.8t-26)(1)

t为摄氏气温(℃),f为相对湿度(%),v代表风速(m/s),s代表日照时数(h/d),h代表人体代谢率的75%(w/m2),a代表人体对太阳辐射的吸收情况(在综合考虑实际情况后,选择a的数值为0.06),r代表垂直阳光的单位面积土地所接受的太阳辐射(取值为(1385±7)w/m2),α代表太阳高度角。

其次,进行长短期记忆网络的训练工作。

将客流量相应的年月日转为一个有序序列。每一天的信息记作一条记录,包括一个由日期转化而来的序号、当日舒适度指数、当日节假日指数、昨日搜索指数和昨日客流量,对应的结果为当日客流量。剔除掉部分异常数据后,将batchsize的大小设为全部数据集,迭代次数为1000次。将数据导入长短期记忆网络,获得长短期记忆网络的预测结果。

再次,进行随机森林的训练工作。

将随机森林的最大子模型数量设为1000,将判断节点是否继续分裂采用的方法是均方误差,节点分裂时所有特征均参与判断,不限制随机森林的最大深度。同时,为了加快训练速度,并考虑到机器本身的承载能力,将并行数设置为16。将记录导入随机森林,训练残差,得到随机森林的预测结果。

最后,进行模型组合工作。

长短期记忆网络模型和随机森林模型两个单一模型的预测结果之和,就是组合模型的最终预测结果。

以长短期记忆网络和随机森林模型作为对比,三个模型都是属于回归模型,在此处选择两个评价指标——均方根误差和r平方,来验证组合模型、长短期记忆网络模型和随机森林模型的预测效果,具体结果如表1和表2所示。

表1三种模型实验结果对比

表2三种模型爆炸性客流量预测结果

通过上述实验和最终的实验结果表明,结合了长短期记忆网络模型和随机森林模型的组合模型,是优于单一模型的。无论是从均方根误差的角度,还是从r平方这个指标,组合模型都是最优的。在短期爆炸性客流量预测方面,组合模型也有着单一模型无法比拟的突出优势。组合模型通过选取两个在非线性预测方面表现优秀的单一模型,获得了更强的非线性拟合能力,使其在客流量预测方面有一定的优势。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1