一种基于XGBOOST机场客流量时空分布预测方法与流程

文档序号：16632009发布日期：2019-01-16 06:39阅读：191来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及民航数据预测领域，特别是涉及一种基于xgboost机场客流量时空分布预测方法。

背景技术：

随着民航需求的日益增长，机场及时有效的服务也面临着一定压力，而机场运行产生的大量信息数据目前未被利用，导致管理资源浪费。

机场拥有巨大的旅客吞吐量，与巨大的人员流动相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量，并据此提前调配人力物力，更好的为旅客服务。

另外，当前机场一线员工在分配物力和人力资源时，都基于以前工作中积累的经验进行分配和调度，缺乏科学的数据参考和指导。

技术实现要素：

基于此，本发明的目的在于，提供一种基于xgboost机场客流量时空分布预测方法。

一种基于xgboost机场客流量时空分布预测方法，包括：

将机场内部分隔为多个区域，每个区域设置多个wifi硬件，将各wifi硬件发送的信息存入大数据平台中；

统计分析大数据平台中各wifi硬件发送的信息，并得到各区域每个时间段连接终端的数量；

提取待预测时间的影响客流量分布的特征，提取待预测时间的过往同时间段的连接终端的数量作为历史特征；

将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练学习，得到预测模型；

用预测模型对预测时间各区域连接终端的数量进行预测，得到各区域连接终端的数量预测值；

根据各区域连接终端的数量预测值与真实人数的比例映射得到预测时间各区域的人数。

进一步优选地，所述大数据平台为hadoop；

所述统计分析大数据平台中各wifi硬件发送的信息为利用mapreduce统计分析大数据平台中各wifi硬件发送的信息。

进一步优选地，所述影响客流量分布的特征包括天气情况和航班起降数量。

进一步优选地，所述天气情况包括多种天气；所述航班起降数量为预测时间前后一段时间内的航班起降数量。

进一步优选地，所述提取待预测时间的过往同时间段的连接终端的数量作为历史特征，包括：提取预测时间的过往同时间段的连接终端的数量的均值、最小值、最大值、极差和标准差。

进一步优选地，所述提取待预测时间的过往同时间段的连接终端的数量作为历史特征，还包括：提取待预测时间的过往1-7天同时间段的连接终端的数量作为历史特征。

进一步优选地，所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练，得到预测模型，包括：对影响客流量分布的特征中的天气情况进行one-hot编码。

进一步优选地，所述对影响客流量分布的特征中的天气情况进行one-hot编码，包括：对天气情况的多种天气构造一个多维向量，其中，每一维向量表示一种天气。

进一步优选地，所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练学习，得到预测模型，包括：

构建提升树模型其中，t(x；θm)表示决策树，θm为决策树参数，m为树的个数；

xgboost算法采用前向分布算法，确定初始提升树f0(x)＝0，第m步模型是fm(x)＝fm-1(x)+t(x；θm)，其中，fm-1(x)为当前模型，通过经验风险极小化和结构风险最小化确定下一棵决策树的参数θm，

已知一个训练数据集x是输入空间，y为输出空间，如果将输入空间x划分为j个不互相交的区域r1，r2，...，rj，并且每个区域上确定输出的常量cj，那么树可以表示为同时，记t(x；θm)为f(x；θm)，其中，参数θm＝{(r1，c1)，(r2，c2)，...，(rn，cn)}表示树的区域划分和各区域上的常树，j是回归树的复杂度即叶子节点个数；

回归问题的xgboost使用以下前向分步算法：

f0(x)＝0，fm(x)＝fm-1(x)+fm(x；θm)，在前向分布算法的第m步，给定模型fm-1(x)，需要求解，得到θm，即第m棵树的参数；

需要优化的目标函数即是

利用泰勒展开，可展开为如下形式：

定义目标函数

其中，最小化目标函数；

重新定义树的结构，将回归树以叶子节点的形式进行表达；

将每个样本都最终落到叶子节点上，所以ft(x)＝cq(x)，c为叶子节点的值，q(x)为样本到哪个叶子节点的映射函数，并且结构风险ω(ft)记为定义集合映射ij＝{i|q(xi)＝j}，那么此时目标函数变为假定q(x)已经确定，即树的结构已经确定，那么每个叶子的最优节点和最小目标函数都会确定，即求目标函数最小值

定义xgboost树模型在一个叶子节点分裂的时候的增益为：gain值越大，分裂后的obj就减少越多，所以当一个节点分裂时，计算所有候选分裂点对应的gain，选取gain最大的进行分割；

所述计算所有候选分裂点对应的gain，选取gain最大的进行分割，包括：输入：i，当前节点的样本集，

输入：m，特征维度，

output：以最高增益的分裂节点进行分裂。

进一步优选地，所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练学习，得到预测模型，包括：xgboost算法即得到预测模型的过程：

输入：训练数据集损失函数是l(y，f(x))，

输出：xgboost回归树即为预测模型。

本发明的基于xgboost机场客流量时空分布预测方法的有益效果：

本发明的基于xgboost机场客流量时空分布预测方法基于影响客流量分布的特征，并将连接终端的数量作为历史特征，采用xgboost集成回归树模型进行预测，更加准确地得到预测时间各区域的人数，其改进了传统的预测方法，大大提高了预测的准确率，业务人员可以根据预测结果优化机场的资源分配，提高工作效率。

本发明的基于xgboost机场客流量时空分布预测方法利用信息化手段，结合机场的信息资源，解放了机场的人力资源，在一定程度上优化了机场资源的分配。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是本发明的基于xgboost机场客流量时空分布预测方法的流程框图。

具体实施方式

以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

请参阅图1，图1是本发明的基于xgboost机场客流量时空分布预测方法的流程框图。本实施例的的基于xgboost机场客流量时空分布预测方法，包括：

步骤101，将机场内部分隔为多个区域，每个区域设置多个wifi硬件，将各wifi硬件发送的信息存入大数据平台中；

步骤102，统计分析大数据平台中各wifi硬件发送的信息，并得到各区域每个时间段连接终端的数量；

步骤103，提取待预测时间的影响客流量分布的特征，提取待预测时间的过往同时间段的连接终端的数量作为历史特征；

步骤104，将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练学习，得到预测模型；

步骤105，用预测模型对预测时间各区域连接终端的数量进行预测，得到各区域连接终端的数量预测值；

步骤106，根据各区域连接终端的数量预测值与真实人数的比例映射得到预测时间各区域的人数。

上述步骤101中，优选地，所述大数据平台为hadoop，所述统计分析大数据平台中各wifi硬件发送的信息为利用mapreduce统计分析大数据平台中各wifi硬件发送的信息。

上述描述中，综合机场各部门和单位对数据预测的要求，将机场内部分隔为多个区域。

上述步骤102中，所述每个时间段可以优选地设置为10min，当然，在其他实施例中，还可以将所述每个时间段设置为20min、30min等。

上述步骤103中，利用未来的天气数据和航班计划表，提取待预测时间的影响客流量分布的特征，提取待预测时间的过往同时间段的连接终端的数量作为历史特征。

上述描述中，优选地，提取预测时间的过往同时间段的连接终端的数量的均值、最小值、最大值、极差和标准差，且可以提取待预测时间的过往1-7天同时间段的连接终端的数量作为历史特征。

优选示例，为了降低模型方差，提高鲁棒性，提取待预测时间10min对应的过往1、2、7天的整体10min连接终端的数量的均值、最小值、最大值、极差和标准差等统计信息作为辅助特征。

所述影响客流量分布的特征包括天气情况和航班起降数量。天气情况是影响机场航班正常放行率的重要原因之一，同时航班动态也关系着航班正常起飞，因此，航班起降数量也同样能对xgboost模型提供指导。

所述天气情况包括多种天气，例如晴天、多云、小雨、暴雨等。

所述航班起降数量为预测时间前后一段时间内的航班起降数量。若经过数据分析，得出机场航班晚点30min的情况最多，则所述前后一段时间可以设置为30min，提取待预测时间前后30min有多少个航班在机场进行起降的数量。

上述步骤104中，所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练，得到预测模型，包括：对影响客流量分布的特征中的天气情况进行one-hot编码。

上述描述中，所述对影响客流量分布的特征中的天气情况进行one-hot编码，包括：对天气情况的多种天气构造一个多维向量，其中，每一维向量表示一种天气。

以上述的天气情况例子进行说明，例如总共有上述四种天气，则构造一个四维向量α＝(α1，α2，α3，α4)，每一维代表一种天气，所以当天气情况为晴天时，one-hot编码后得到的向量为(1,0,0,0)，多云为(0,1,0,0)，其他类似。

上述步骤104中，所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集，利用xgboost对训练数据集进行训练学习，得到预测模型，包括：