基于典型日识别的机场旅客量预测方法与流程

文档序号：17092095发布日期：2019-03-13 23:34阅读：365来源：国知局

本发明属于旅客流预测技术领域，具体涉及一种基于典型日识别的机场旅客量预测方法。

背景技术：

近年来，随着我国民航旅客运输量的快速增长，作为航空网络中枢节点的机场受到严峻挑战。不断增长的旅客量与机场有限资源之间的矛盾日益凸显。特别是在旅客出港高峰期，机场航站楼内经常发生柜台资源饱和、旅客滞留等现象，极大的影响了旅客的旅行体验，造成航空公司的经济损失，并且为机场和民航业带来了负面社会影响。如何实现机场精细化管理，最大化利用现有航站楼保障资源，已经成为机场运行的热点问题。

针对机场旅客量预测问题，国内外现有的研究主要分为基于旅客行为建模和基于机场运行状态建模两类方法。旅客行为建模是指：对单个旅客行为模型进行多次仿真，生成模拟数据，之后对模拟数据进行统计分析。常用的方法为计算机仿真与排队论，一般应用在预测旅客在排队过程所耗费的时间、行李托运时间、登机等待时间等。机场运行状态建模主要是针对整个机场全年吞吐量的预测与机场整体容量的评估，目的是从战略层面上反映机场的容量和发展规模，主要方法包括：时间序列法、趋势外推法、计量经济法、灰色预测法、神经网络法和回归分析预测法等。

上述两类方法能够在一定程度满足实际应用需求，然而，航站楼保障资源分配需要战术层面的旅客量准确预测，即提前七天(或次日)每个时间段的旅客量。针对这一具体需求，第一类方法需要大量重复仿真单个旅客行为，造成微小误差的叠加累计，使得预测结果偏离实际，而且为了分别建立各种条件下的旅客行为模型(反映出特殊天气、节假日等事件)，需要大量历史数据和先验知识；第二类方法虽然能够提供长时间范围的趋势统计，但无法反映航班分布等动态因素的影响。

因此，上述两种方法均无法满足精确、快速的对旅客量进行预测的需求。

技术实现要素：

针对现有技术存在的缺陷，本发明提供一种基于典型日识别的机场旅客量预测方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于典型日识别的机场旅客量预测方法，包括以下步骤：

步骤1，采集机场航班历史日运行数据集合p，将所述机场航班历史日运行数据集合p划分为历史日样本数据集合p1和历史日测试数据；

步骤2，所述历史日运行数据集合p由多个历史日运行数据组成；对于每个所述历史日运行数据，提取历史日时间特征向量和历史日航班特征向量；

所述历史日时间特征向量表示为：＜datei,fea_month,fea_day,fea_week,fea_holiday＞

其中，datei代表日期为i；fea_month代表日期为i的月信息；fea_day代表日期为i的日信息；fea_week代表日期为i的星期信息；fea_holiday代表日期为i的节假日信息；

所述历史日航班特征向量表示为：

其中：datei代表日期为i；分别代表日期为i的第1个时段,…,第n个时段的计划航班起飞量；n代表日期为i的时段总数量；代表日期为i的全天航班起飞量总数；

对所述历史日航班特征向量进行归一化；归一化公式如下：

其中：di,j为归一化后的日期为i的第j个时段的起飞量趋势，dai,j为日期为i的第j个时段的计划航班起飞量；

步骤3，量化特征数据集相似度，得到最优权重因子；本步骤具体包括：

步骤301，赋予时间特征权重因子ω1初始值，以及赋予航班特征权重因子ω2初始值；

步骤302，依次计算历史日测试数据与历史日样本数据集合p1中每一个历史日样本数据的总体相似度，选择总体相似度最高的历史日样本数据，假设总体相似度最高的历史日样本数据所对应的历史日为历史日r3；历史日测试数据所对应的历史日为历史日r2；则历史日r3和历史日r2互为典型日：

其中，假设历史日样本数据集合p1中任意一个历史日样本数据所对应的历史日为历史日r1，则采用以下方法计算历史日r1和历史日r2的总体相似度

步骤3021：计算历史日r1和历史日r2的时间特征相似度

其中，m1为历史日r1和历史日r2之间不相同的时间特征的数量，m2为历史日r1和历史日r2之间相同的时间特征的数量；当为0时，表示历史日r1和历史日r2的时间特征高度相似；当为1时，表示历史日r1和历史日r2的时间特征完全不相似；

步骤3022：计算未归一化的历史日r1和历史日r2的航班分布特征相似度

其中：代表历史日r1的第j个时段的起飞量趋势；代表历史日r2的第j个时段的起飞量趋势；

步骤3023：在中选择最大值记为max(δd)；

步骤3024：采用下式对进行归一化，得到

其中，当为0时，表示历史日r1和历史日r2的航班分布特征高度相似，即出港航班计划相似；当为1时，表示历史日r1和历史日r2的航班分布特征完全不相似；

步骤3025：计算历史日r1和历史日r2的总体相似度

其中，当为0时，表示历史日r1和历史日r2高度相似，即认为这两个历史日互为典型日；当为1时，表示历史日r1和历史日r2完全不相似；

步骤303，计算总偏差dif；

在计算得到历史日r2的典型日为历史日r3后，历史日r2为本次迭代的待预测日，以其典型日即历史日r3在每个时段的实际旅客量作为历史日r2在对应时段的预测旅客量基准值，以历史日r3在各个时段的最大实际旅客量作为历史日r2的预测上界值，以历史日r3在各个时段的最小实际旅客量作为历史日r2的预测下界值；

1)采用下式计算待预测日即历史日r2每时段实际旅客量与预测旅客量基准值的平均偏差dif1：

其中：n是历史日r2的时段总数量，xj是待预测日即历史日r2在第j时段实际旅客量，αj是历史日r2在第j时段的预测旅客量基准值；

2)采用下式计算待预测日即历史日r2每时段实际旅客量超出预测边界的平均偏差dif2：

其中：βj是历史日r2在第j时段的预测边界值，即当xj大于对应时段的预测上界值时，βj表示预测上界，而当xj小于对应时段的预测下界时，βj表示预测下界；

包络是指由预测上界值和预测下界值围成的包络线；

3)采用下式计算待预测日即历史日r2实际旅客量与预测旅客量的总偏差dif：

dif＝dif1+dif2；

步骤3.4，不断调整时间特征权重因子ω1和航班特征权重因子ω2的赋值，按步骤3.2-步骤3.4的方法计算总偏差dif，选择使得总偏差dif最小的权重因子组合，作为最优权重因子；

步骤4，建立典型日识别模型，预测分时段旅客量，包括以下步骤：

步骤4.1，将未来某日作为待预测日，将待预测日记为待预测日r4；

步骤4.2，将所有历史日运行数据作为历史样本数据，提取出待预测日r4的时间特征向量和航班特征向量，与历史样本数据进行匹配计算，分别得到待预测日r4与各个历史样本数据的总体相似度；然后对总体相似度进行排序，选择总体相似度最高的前m个样本作为相似典型日集合；将总体相似度最高的样本作为典型日；

步骤4.2，将典型日的不同时段实际值机旅客量作为待预测日r4在对应时段的预测基准值；

将相似典型日集合中每个时间段的实际旅客量最小值作为待预测日r4在对应时段的预测值上界；将相似典型日集合中每个时间段的实际旅客量最大值作为待预测日r4在对应时段的预测值下界；

由此得到待预测日r4在每个时间段的旅客量预测基准值、预测值上界和预测值下界。

优选的，步骤3.5中，采用以下方法不断调整时间特征权重因子ω1和航班特征权重因子ω2的赋值：

令权重因子满足ω1+ω2＝1，将时间特征权重因子ω1从0.01开始逐渐增大赋值，直到0.99；将航班特征权重因子ω2从0.99开始逐渐减小赋值，直到0.01；按此规则遍历时间特征权重因子ω1和航班特征权重因子ω2。

本发明提供的基于典型日识别的机场旅客量预测方法具有以下优点：

本发明实现了机场旅客量的分时段准确有效的预测，从而有效提高机场运行压力预警能力。

附图说明

图1为本发明提供的基于典型日识别的机场旅客量预测方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的旅客量预测算法所存在的自身局限性表现在以下几个方面：

针对单个旅客建模方法中，容易造成微小误差的叠加累计，并需要大量历史数据和先验知识。

针对全部旅客群体建模方法中，难以反映航班分布等动态因素的影响。

为解决上述方法的不足，本发明提出了一种基于运行典型日识别的旅客量预测方法：首先，在提取运行时间特征(月份、星期、节假日等)和航班分布特征(单位时间间隔计划出港航班量)基础上，分别定义曼哈顿距离与jaccard距离计算特征相似度，进而识别历史运行日与待预测日特征相似的典型日集合；然后，选择相似度最高的典型日旅客量作为预测基准值，并分析典型日集合中各时段旅客量的波动性，给出预测值的上下界。因此，本发明的目的在于提供一种基于典型日识别算法的机场旅客量预测方法，考虑航班特征与时间特征，对未来旅客量进行短间隔预测，提高机场运行压力预警能力。

本发明提供的基于典型日识别的机场旅客量预测方法，主要思路包括：

1)采集机场航班运行数据，提取特征向量数据集；

其中，所述采集机场航班运行数据，提取特征向量数据集方法包括：航班特征向量提取方法、时间特征向量提取方法。

2)量化特征数据集相似度，得到权重因子；

根据特征数据集相似度关系计算，得到权重因子方法包括：航班向量相似度计算方法、时间向量相似度计算方法、任意运行日之间整体相似度计算方法、误差评估方法。

3)建立典型日识别模型，预测分时段旅客量。

建立典型日识别模型，预测分时段旅客量方法包括：典型日识别方法、基准值预测计算方法、波动性预测计算方法。

具体的，参考图1，本发明提供一种基于典型日识别的机场旅客量预测方法，详细包括以下步骤：

步骤1，采集机场航班历史日运行数据集合p，将所述机场航班历史日运行数据集合p划分为历史日样本数据集合p1和历史日测试数据；

步骤2，所述历史日运行数据集合p由多个历史日运行数据组成；在进行典型日识别之前，先对机场历史数据进行特征向量提取。本步骤通过采集机场历史数据，提取典型日识别模型所需特征。

对于每个所述历史日运行数据，提取历史日时间特征向量和历史日航班特征向量；

所述历史日时间特征向量表示为：＜datei,fea_month,fea_day,fea_week,fea_holiday＞

其中，datei代表日期为i；fea_month代表日期为i的月信息，例如，每年1月记为1，2月份记为2，以此类推；；fea_day代表日期为i的日信息，例如，每月1号记为1，每月2号记为2，以此类推；；fea_week代表日期为i的星期信息，例如，星期日记为1，星期一记为2，星期六记为7，以此循环；；fea_holiday代表日期为i的节假日信息，例如，节假日记为1，非节假日记为0；

所述历史日航班特征向量表示为：

其中：datei代表日期为i；分别代表日期为i的第1个时段,…,第n个时段的计划航班起飞量；n代表日期为i的时段总数量，实际应用中，可以每1个小时作为一个时段，因此，一日共有24个时段，n为24，当然，也可以采用其他时段划分方法，本发明对此并不限制；代表日期为i的全天航班起飞量总数；

为消除总航班量对航班量趋势的影响，对所述历史日航班特征向量进行归一化；归一化公式如下：

其中：di,j为归一化后的日期为i的第j个时段的起飞量趋势，dai,j为日期为i的第j个时段的计划航班起飞量；

步骤3，量化特征数据集相似度，得到最优权重因子；

在分别得到机场时间与航班历史特征向量数据集之后，任意某天同时具有两组特征向量，需要对二者合并以表示某天总体特征，因此需计算出一组权重因子以表示两组特征向量所占权重。为了计算出最优权重因子，需要设定评估标准。具体可以通过遍历权重因子取值，同时对每组权重因子计算预测值与实际值累计偏差，将产生最小偏差的权重因子组作为最优权重因子。

本步骤具体包括：

步骤301，赋予时间特征权重因子ω1初始值，以及赋予航班特征权重因子ω2初始值；

其中，假设历史日样本数据集合p1中任意一个历史日样本数据所对应的历史日为历史日r1，则采用以下方法计算历史日r1和历史日r2的总体相似度

步骤3021：计算历史日r1和历史日r2的时间特征相似度时间特征相似度定义为jaccard距离：

例如，历史日r1的时间特征向量中包括月信息、日信息、星期信息和节假日信息；历史日r2的时间特征向量中包括月信息、日信息、星期信息和节假日信息；假设历史日r1和历史日r2的月信息相同，日信息、星期信息和节假日信息均不相同，则m1为3，m2为1。

步骤3022：计算未归一化的历史日r1和历史日r2的航班分布特征相似度航班分布特征相似度定义为曼哈顿距离：