本发明涉及民航数据预测领域,特别是涉及一种基于xgboost机场客流量时空分布预测方法。
背景技术:
随着民航需求的日益增长,机场及时有效的服务也面临着一定压力,而机场运行产生的大量信息数据目前未被利用,导致管理资源浪费。
机场拥有巨大的旅客吞吐量,与巨大的人员流动相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量,并据此提前调配人力物力,更好的为旅客服务。
另外,当前机场一线员工在分配物力和人力资源时,都基于以前工作中积累的经验进行分配和调度,缺乏科学的数据参考和指导。
技术实现要素:
基于此,本发明的目的在于,提供一种基于xgboost机场客流量时空分布预测方法。
一种基于xgboost机场客流量时空分布预测方法,包括:
将机场内部分隔为多个区域,每个区域设置多个wifi硬件,将各wifi硬件发送的信息存入大数据平台中;
统计分析大数据平台中各wifi硬件发送的信息,并得到各区域每个时间段连接终端的数量;
提取待预测时间的影响客流量分布的特征,提取待预测时间的过往同时间段的连接终端的数量作为历史特征;
将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练学习,得到预测模型;
用预测模型对预测时间各区域连接终端的数量进行预测,得到各区域连接终端的数量预测值;
根据各区域连接终端的数量预测值与真实人数的比例映射得到预测时间各区域的人数。
进一步优选地,所述大数据平台为hadoop;
所述统计分析大数据平台中各wifi硬件发送的信息为利用mapreduce统计分析大数据平台中各wifi硬件发送的信息。
进一步优选地,所述影响客流量分布的特征包括天气情况和航班起降数量。
进一步优选地,所述天气情况包括多种天气;所述航班起降数量为预测时间前后一段时间内的航班起降数量。
进一步优选地,所述提取待预测时间的过往同时间段的连接终端的数量作为历史特征,包括:提取预测时间的过往同时间段的连接终端的数量的均值、最小值、最大值、极差和标准差。
进一步优选地,所述提取待预测时间的过往同时间段的连接终端的数量作为历史特征,还包括:提取待预测时间的过往1-7天同时间段的连接终端的数量作为历史特征。
进一步优选地,所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练,得到预测模型,包括:对影响客流量分布的特征中的天气情况进行one-hot编码。
进一步优选地,所述对影响客流量分布的特征中的天气情况进行one-hot编码,包括:对天气情况的多种天气构造一个多维向量,其中,每一维向量表示一种天气。
进一步优选地,所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练学习,得到预测模型,包括:
构建提升树模型
xgboost算法采用前向分布算法,确定初始提升树f0(x)=0,第m步模型是fm(x)=fm-1(x)+t(x;θm),其中,fm-1(x)为当前模型,通过经验风险极小化和结构风险最小化确定下一棵决策树的参数θm,
已知一个训练数据集
回归问题的xgboost使用以下前向分步算法:
f0(x)=0,fm(x)=fm-1(x)+fm(x;θm),
需要优化的目标函数即是
利用泰勒展开,可展开为如下形式:
定义目标函数
其中,
重新定义树的结构,将回归树以叶子节点的形式进行表达;
将每个样本都最终落到叶子节点上,所以ft(x)=cq(x),c为叶子节点的值,q(x)为样本到哪个叶子节点的映射函数,并且结构风险ω(ft)记为
定义xgboost树模型在一个叶子节点分裂的时候的增益为:
所述计算所有候选分裂点对应的gain,选取gain最大的进行分割,包括:输入:i,当前节点的样本集,
输入:m,特征维度,
output:以最高增益的分裂节点进行分裂。
进一步优选地,所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练学习,得到预测模型,包括:xgboost算法即得到预测模型的过程:
输入:训练数据集
输出:xgboost回归树
本发明的基于xgboost机场客流量时空分布预测方法的有益效果:
本发明的基于xgboost机场客流量时空分布预测方法基于影响客流量分布的特征,并将连接终端的数量作为历史特征,采用xgboost集成回归树模型进行预测,更加准确地得到预测时间各区域的人数,其改进了传统的预测方法,大大提高了预测的准确率,业务人员可以根据预测结果优化机场的资源分配,提高工作效率。
本发明的基于xgboost机场客流量时空分布预测方法利用信息化手段,结合机场的信息资源,解放了机场的人力资源,在一定程度上优化了机场资源的分配。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的基于xgboost机场客流量时空分布预测方法的流程框图。
具体实施方式
以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
请参阅图1,图1是本发明的基于xgboost机场客流量时空分布预测方法的流程框图。本实施例的的基于xgboost机场客流量时空分布预测方法,包括:
步骤101,将机场内部分隔为多个区域,每个区域设置多个wifi硬件,将各wifi硬件发送的信息存入大数据平台中;
步骤102,统计分析大数据平台中各wifi硬件发送的信息,并得到各区域每个时间段连接终端的数量;
步骤103,提取待预测时间的影响客流量分布的特征,提取待预测时间的过往同时间段的连接终端的数量作为历史特征;
步骤104,将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练学习,得到预测模型;
步骤105,用预测模型对预测时间各区域连接终端的数量进行预测,得到各区域连接终端的数量预测值;
步骤106,根据各区域连接终端的数量预测值与真实人数的比例映射得到预测时间各区域的人数。
上述步骤101中,优选地,所述大数据平台为hadoop,所述统计分析大数据平台中各wifi硬件发送的信息为利用mapreduce统计分析大数据平台中各wifi硬件发送的信息。
上述描述中,综合机场各部门和单位对数据预测的要求,将机场内部分隔为多个区域。
上述步骤102中,所述每个时间段可以优选地设置为10min,当然,在其他实施例中,还可以将所述每个时间段设置为20min、30min等。
上述步骤103中,利用未来的天气数据和航班计划表,提取待预测时间的影响客流量分布的特征,提取待预测时间的过往同时间段的连接终端的数量作为历史特征。
上述描述中,优选地,提取预测时间的过往同时间段的连接终端的数量的均值、最小值、最大值、极差和标准差,且可以提取待预测时间的过往1-7天同时间段的连接终端的数量作为历史特征。
优选示例,为了降低模型方差,提高鲁棒性,提取待预测时间10min对应的过往1、2、7天的整体10min连接终端的数量的均值、最小值、最大值、极差和标准差等统计信息作为辅助特征。
所述影响客流量分布的特征包括天气情况和航班起降数量。天气情况是影响机场航班正常放行率的重要原因之一,同时航班动态也关系着航班正常起飞,因此,航班起降数量也同样能对xgboost模型提供指导。
所述天气情况包括多种天气,例如晴天、多云、小雨、暴雨等。
所述航班起降数量为预测时间前后一段时间内的航班起降数量。若经过数据分析,得出机场航班晚点30min的情况最多,则所述前后一段时间可以设置为30min,提取待预测时间前后30min有多少个航班在机场进行起降的数量。
上述步骤104中,所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练,得到预测模型,包括:对影响客流量分布的特征中的天气情况进行one-hot编码。
上述描述中,所述对影响客流量分布的特征中的天气情况进行one-hot编码,包括:对天气情况的多种天气构造一个多维向量,其中,每一维向量表示一种天气。
以上述的天气情况例子进行说明,例如总共有上述四种天气,则构造一个四维向量α=(α1,α2,α3,α4),每一维代表一种天气,所以当天气情况为晴天时,one-hot编码后得到的向量为(1,0,0,0),多云为(0,1,0,0),其他类似。
上述步骤104中,所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练学习,得到预测模型,包括:
构建提升树模型
xgboost算法采用前向分布算法,确定初始提升树f0(x)=0,第m步模型是fm(x)=fm-1(x)+(x;θm),其中,fm-1(x)为当前模型,通过经验风险极小化和结构风险最小化确定下一棵决策树的参数θm,
已知一个训练数据集
回归问题的xgboost使用以下前向分步算法:
f0(x)=0,fm(x)=fm-1(x)+fm(x;θm),
需要优化的目标函数即是
利用泰勒展开,可展开为如下形式:
定义目标函数
其中,
重新定义树的结构,将回归树以叶子节点的形式进行表达;
将每个样本都最终落到叶子节点上,所以ft(x)=cq(x),c为叶子节点的值,q(x)为样本到哪个叶子节点的映射函数,并且结构风险ω(ft)记为
定义xgboost树模型在一个叶子节点分裂的时候的增益为:
所述计算所有候选分裂点对应的gain,选取gain最大的进行分割,包括:输入:i,当前节点的样本集,
输入:m,特征维度,
output:以最高增益的分裂节点进行分裂。
上述步骤104中,所述将影响客流量分布的特征和历史特征作为xgboost的训练数据集,利用xgboost对训练数据集进行训练学习,得到预测模型,包括:xgboost算法即得到预测模型的过程:
输入:训练数据集
输出:xgboost回归树
本发明的基于xgboost机场客流量时空分布预测方法的有益效果:
本发明的基于xgboost机场客流量时空分布预测方法基于影响客流量分布的特征,并将连接终端的数量作为历史特征,采用xgboost集成回归树模型进行预测,更加准确地得到预测时间各区域的人数,其改进了传统的预测方法,大大提高了预测的准确率,业务人员可以根据预测结果优化机场的资源分配,提高工作效率。
本发明的基于xgboost机场客流量时空分布预测方法利用信息化手段,结合机场的信息资源,解放了机场的人力资源,在一定程度上优化了机场资源的分配。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。