基于转移熵的机场航班延误因果关系挖掘方法与流程

文档序号:17288532发布日期:2019-04-03 03:45阅读:445来源:国知局
基于转移熵的机场航班延误因果关系挖掘方法与流程

本发明涉及航空信息处理技术领域,具体而言,涉及一种基于转移熵的机场航班延误因果关系挖掘方法。



背景技术:

随着国民经济的快速增长,航空运输需求量的不断提高,机场航班延误现象日益凸显。机场航班延误的危害是巨大的,不仅会影响航空公司的运营效率和服务质量,而且会耽误旅客的时间,破坏机场的正常运行秩序,严重的可能会危害航空运输的安全。由于同一架飞机可能会执行多个连续航班的任务,当前序航班发生到达延误时,就会对后续航班产生延误波及,造成机场航班延误的传播。因此,定量化地挖掘机场航班延误的因果关系,有助于控制航班延误的传播,降低由此带来的经济损失,进而促进航空运输业的稳定发展。

近年来,虽然其他领域已经对提取因果分析的方法有了一定的应用,但在航空运输业的信息处理领域仍缺少完整有效的基于时间序列因果关系定量化评估的方法。随着我国航空运输业的不断发展,呈现出多样化和区域化的趋势,导致航空数据具有高维、动态、非线性等特点,因此如何在复杂的时间序列数据中准确地提取客观存在的因果关系显得尤为重要。目前出现了一些相关的技术方案,如一种基于格兰杰因果性的脑电源定位方法、基于海洛因成瘾模型的大脑回路因果作用关系分析方法、基于滞后阶数自适应选择的多变量因果关系分析方法等,均是基于既定模型的格兰杰因果检验方法,并不适用于处理高度复杂的非线性数据。另一种方案提出了基于变尺度符号传递熵的多通道脑肌电耦合分析方法,而该方法利用的变尺度符号化转移熵会在不同程度上损失时间序列数据的特征,同时没有关注数据缺失对因果分析造成的影响。还有一种方案为基于小波#传递熵的多时频尺度间脑肌电耦合分析方法,该方法主要是解决生理信号处理中脑肌电双变量因果分析问题,并未关注多变量时间序列因果分析中存在的问题,同时没有关注因果关系的显著性。



技术实现要素:

本发明实施例的目的在于提供一种基于转移熵的机场航班延误因果关系挖掘方法,以克服现有技术的问题。

为了实现上述目的,本发明实施例采取的技术方案如下。

一种基于转移熵的机场航班延误因果关系挖掘方法,包括:

获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;

从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系;

从所述多个待测机场选取下一个目标机场,计算出所述下一个目标机场的航班延误与对应的各个其它机场之间的航班延误的定量化因果关系,依次遍历所有待测机场,重复执行上述处理过程,输出所有待测机场之间的航班延误的定量化因果关系。

进一步地,所述的获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列,包括:

获取各个待测机场连续多天各小时的航班应到时间和延误后的实到时间,对待测机场的航班延误时间进行小时粒度的聚合,计算单位小时内第i个待测机场第d天h小时所有航班延误时间的累加为:

di(d,h)=∑(tdelay-tplan)

其中,tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,tplan表示第i个机场第d天h小时航班的应到时间;

则第i个待测机场的航班延误时间序列集合表示为:

由此得到待测机场个数为m的航班延误时间序列集合为

其中n为每个机场航班延误时间序列的长度。

进一步地,所述的方法还包括:

利用滑动平均窗口法对待测机场的航班延误时间序列进行缺失数据的补偿,当第i个待测机场的航班延误时间序列集合中第j个数据出现缺失,则将中第j个数据前后各w个数据的平均值填充到缺失位置,w为滑动平均窗口的长度;

对补偿后的第i个待测机场的航班延误时间序列集合进行z-score标准化处理,处理方法如下:

式中,di′(d,h)是第i个待测机场的d天h时标准化后的航班延误时间,di(d,h)是第i个机场d天h时原始的航班延误时间,<di(·,h)>是第i个待测机场的所有h时的样本点航班延误时间的平均值,σ(di(·,h))是第i个待测机场的所有h时的样本点航班延误时间的标准差;

则第i个待测机场的航班延误时间序列预处理后的集合表示为:

由此得到待测机场个数为m的航班延误时间序列预处理后的集合为:

其中n为每个机场航班延误时间序列的长度。

进一步地,所述的从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系,包括:

步骤a:在待测机场个数为m的航班延误时间序列集合中,选取一个目标机场的航班延误时间序列设为xn,将m-1个机场航班延误时间序列作为因果关系备选序列,从该因果关系备选序列中选取一个机场航班延误时间序列设为yn,则其它机场航班延误时间序列集合表示为

步骤b:构建时间序列xn和时间序列yn从1阶到p阶段全部的历史向量集合为:

ω={xn-1,xn-2,xn-3,...,xn-p,yn-1,yn-2,yn-3,...,yn-p}

步骤c:初始化嵌入向量的集合v=φ,计算出一个w1∈ω满足w1与xn的互信息为最大,即:

w1=argmaxi(xn;w),w∈ω

将满足条件的w1嵌入到集合中,即v1={w1}:

式中,xn与w的互信息i(xn;w)是基于knn算法计算得出,具体表示为:

i(xn,w)=h(xn)+h(w)-h(xn,w)

其中h(xn)和h(w)表示xn和w的熵值,h(xn,w)表示联合熵,其计算公式为:

式中,dx和dw是xn与w的维度数量,∈(i)是在(xn,w)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数cd表示d维单位立方体的体积,其中xn为联合空间(xn,w)的投影,故xn的熵估计表示为:

式中,nx(i)的值随着到xn的第i个点的距离小于∈(i)/2的点的数目增加而增加,同理可以得凸的表示为:

式中,nx(i)的值随着到w的第i个点的距离小于∈(i)/2的点的数目增加而增加;

进而求待表示为:

式中<…>定义为对所有样本点i求得的平均值;

步骤d:进行第k步嵌入时(1<k≤dim(ω)),选择一个wk满足

wk=argmaxi(xn;w,vk-1),w∈ω\vk-1

如身(其中a≤1),则嵌入过程停止,嵌入向量集合v=vk-1,否则,将wk嵌入到集合v中,使得v={vk-1,wk},重复步骤d直至满足停止条件,进行步骤e的操作;

步骤e:计算目标机场航班延误时间序列xn与因果关系备选机场航班延误时间序列yn之间的转移熵ty→x;

在嵌入向量集合v中减去来自y的历史向量y′的贡献,v′=v\y′,计算转移熵:

ty→x≡h(xn|v′)-h(xn|v)

将所述转移熵ty→x作为所述目标机场与因果关系备选机场航班延误时间序列yn对应的其它机场之间的航班延误的定量化因果关系;

判断其它机场航班延误时间序列集合中,是否存在待计算序列;若存在,则将待计算时间序列从z中删除,并且设置为时间序列yn,返回步骤b与原目标机场航班延误时间序列xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤e。

进一步地,所述的方法还包括:

通过显著性检验确定备选时间序列yn和目标时间序列xn因果相关性的显著关系;

重新构造多个时间序列,构造时间序列的统计特性与时间序列yn保持相同且时间序列长度与yn的长度等长,计算每个构造时间序列与目标时间序列xn的转移熵,在秩排序的基础上进行显著性检验,估计i型错误概率为:p=1-(i-0.326)/(s+1+0.348);

其中i表示原始时间序列yn与xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数,当p<α时,则确定xn和yn具有因果相关性的显著关系,其中α为显著性水平。

由上述本发明的实施例提供的技术方案可以看出,本发明的方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。

为使本发明的上述目的、特征和优点更能明显易懂,下文特举较佳实施例,并配合所附附图,做详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明一个实施例的基于转移熵的机场航班延误因果关系挖掘方法的总流程图;

图2是根据本发明一个实施例的目标机场航班延误时间序列与备选机场航班延误时间序列因果关系计算的流程图;

图3是根据本发明一个实施例的迭代更新目标机场航班延误时间序列进行因果关系计算及显著性检验的示意图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

本发明的目的是提供一种基于转移熵的机场航班延误因果关系的挖掘方法,该方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性,并且在一定程度上抑制了数据缺失对因果分析的影响。

图1是本发明实施例提供的一种基于转移熵的航班延误因果关系挖掘方法的处理流程图,包括以下步骤:

步骤1:获取待测机场的航班延误时间序列。

图2是根据本发明一个实施例的目标机场航班延误时间序列与备选机场航班延误时间序列因果关系计算的流程图,图2(a)中所示,标号1至标号6表示6个待测机场,通过采集每个待测机场的航班延误信息,对待测机场的航班延误时间进行小时粒度的聚合,生成6个待测机场的航班延误时间序列。

具体的说,获取6个待测机场连续多天各小时的航班应到时间和延误后的实到时间,计算单位小时内第i个机场第d天h小时所有航班延误时间的累加为:

di(d,h)=∑(tdelay-tplan)

其中,tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,tplan表示第i个机场第d天h小时航班的应到时间。

则第i个机场航班延误时间序列集合可以表示为:

由此可得到6个待测机场的航班延误时间序列集合为

其中n为每个机场航班延误时间序列的长度,其长度大小是由采集时间,即采集共持续的小时数所决定的。

步骤2:机场航班延误时间序列的预处理,包括:对聚合后的机场航班延误时间序列数据的缺失进行数据补偿,并对机场航班延误时间序列数据进行标准化:

基于步骤1的所有机场航班延误时间序列,利用滑动平均窗口法进行缺失数据的补偿,例如中第j个数据出现缺失,利用滑动平均窗口法(窗口window=w)进行缺失数据的补偿时,需将中第j个数据前后各w个数据的平均值填充到缺失位置。

对补偿后的机场航班延误时间序列进行z-score标准化处理,对于第i个机场连续各时段的航班延误信息时间序列,处理方法如下:

式中,di′(d,h)是第i个机场d天h时标准化后的航班延误时间,di(d,h)是第i个机场d天h时原始的航班延误时间,<di(·,h)>是第i个机场所有h时的样本点航班延误时间的平均值,σ(di(·,h))是第i个机场所有h时的样本点航班延误时间的标准差。

则第i个机场航班延误时间序列预处理后的集合可以表示为:

由此可得到6个待测机场的航班延误时间序列集合为其中n为每个机场航班延误时间序列的长度。

步骤3:图3是根据本发明一个实施例的迭代更新目标机场航班延误时间序列进行因果关系计算及显著性检验的示意图,如图3所示,在预处理后的机场航班延误时间序列中,选取目标机场的航班延误时间序列,将其它机场航班延误时间序列作为因果关系备选序列。利用转移熵定量地刻画目标机场航班延误与因果关系备选机场航班延误的实际因果关系。

步骤a:在待测机场航班延误时间序列集合中,如图2(b)中所示,选取标号1机场产生的航班延误时间序列为目标机场航班延误时间序列,并设为xn。将其它5个机场航班延误时间序列作为因果关系备选序列,从备选序列中选取一个机场航班延误时间序列设为yn,则其它机场航班延误时间序列集合表示为

步骤b:构建时间序列xn和时间序列yn从1阶到p阶段全部的历史向量集合为:

ω={xn-1,xn-2,xn-3,...,xn-p,yn-1,yn-2,yn-3,...,yn-p}

步骤c:初始化嵌入向量的集合v=φ。计算出一个w1∈ω满足w1与xn的互信息为最大,即:

w1=argmaxi(xn;w),w∈ω

将满足条件的w1嵌入到集合中,即v1={w1}。

式中,xn与w的互信息i(xn;w)估计是基于knn算法计算得出,具体表示为:

i(xn,w)=h(xn)+h(w)-h(xn,w)

其中h(xn)和h(w)表示xn和w的熵值,h(xn,w)表示联合熵,其估计可以表示为:

式中,dx和dw是xn与w的维度数量,∈(i)是在(xn,w)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数cd表示d维单位立方体的体积。其中xn为联合空间(xn,w)的投影,故xn的熵估计可以表示为:

式中,nx(i)的值随着到xn的第i个点的距离小于∈(i)/2的点的数目增加而增加。同理可以得出的表示为:

式中,nx(i)的值随着到w的第i个点的距离小于∈(i)/2的点的数目增加而增加。

进而求得可以表示为:

式中<…>定义为对所有样本点i求得的平均值。

步骤d:进行第k步嵌入时(1<k≤dim(ω)),选择一个wk满足

wk=argmaxi(xn;w,vk-1),w∈ω\vk-1

如果(其中a≤1),则嵌入过程停止,嵌入向量集合v=vk-1。否则,将wk嵌入到集合v中,使得v={vk-1,wk},重复步骤d直至满足停止条件,进行步骤e的操作。

步骤e:计算目标机场航班延误时间序列xn与因果关系备选机场航班延误时间序列yn的转移熵,根据转移熵定量化评估机场航班延误的因果关系。

在嵌入向量集合v中减去来自y的历史向量y′的贡献,v′=v\y′,计算转移熵:

ty→x≡h(xn|v′)-h(xn|v)

将所述转移熵ty→x作为所述目标机场与因果关系备选机场航班延误时间序列yn对应的其它机场之间的航班延误的定量化因果关系,转移熵值越大,说明因果关系备选时间序列yn对目标时间序列xn的因果相关性越强,即两个机场的航班延误时间序列的因果关系越强。

判断其它机场航班延误时间序列集合中,是否存在待计算序列。若存在,则取出待计算时间序列将其从z中删除,并且设置为时间序列yn。返回步骤b与原目标机场航班延误时间序列xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤e。例如在第一次计算转移熵的过程中,如图2(b)中所示,首先计算目标机场(1号机场)时间序列xn与因果关系备选机场之一的2号机场时间序列yn之间的转移熵。之后判断z集合里面是否存在未与1号机场进行转移熵计算的机场。此时z集合中包含3号机场、4号机场、5号机场、6号机场均未与1号机场进行计算,取出3号机场的航班延误时间序列将其从z中删除,并且设置为时间序列yn,如图2(c)所示。返回步骤b与1号机场航班延误时间序列xn,进行转移熵的求解。通过迭代计算目标机场与因果备选机场之间的转移熵,如图2(d)-图2(f)所示,直至z集合中不存在待计算序列,则结束步骤e,得到了1号机场与其它机场之间的因果关系网络图,如图2(g)所示。

步骤f:对得到的具有因果关系的机场航班延误时间序列xn和yn,进行一对一的假设检验,判断xn和yn因果相关性的显著关系,具体包括:

重新构造多条时间序列,构造时间序列的统计特性与时间序列yn保持相同且时间序列长度与yn的长度等长。计算每个构造时间序列与目标时间序列xn的转移熵,在秩排序的基础上进行显著性检验,估计i型错误概率为

p=1-(i-0.326)/(s+1+0.348)

其中i表示原始时间序列yn与xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数。当p<α时,则确定xn和yn具有因果相关性的显著关系,其中α为显著性水平。

例如,重新构造40条统计特性、序列长度与时间序列yn保持相同的时间序列,即s=40。将显著性水平α设为0.05,若i=40,则表面xn和yn具有因果相关性的显著关系,即具有真实存在的因果关系。若i=38,则表明xn和yn没有因果相关性的显著关系,即不具有真实存在的因果关系。通过判断机场间因果相关性的显著关系,可以得到具有真实因果关系的网络图,如图2(h)所示。

步骤4:在所有机场延误时间序列中,选择下一个目标机场的航班延误时间序列,若存在,则返回步骤3,否则,输出所有机场之间的航班延误定量化因果关系。

具体的,目标机场由1号机场更换为2号机场,返回步骤3计算2号机场与其它因果备选机场间的因果关系。直至计算完6号机场与其它因果备选机场的因果关系后,输出全部机场间航班延误量化因果关系,如图2(i)所示。

综上所述,本发明实施例的基于转移熵的机场航班延误因果关系挖掘方法,能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。

本发明利用机场航班延误时间序列,从因果分析的角度出发揭示了延误在机场间传播的机理,阐释了机场航班延误传播特征,通过定量化地挖掘机场航班延误的因果关系,将有助于控制航班延误的传播,降低由此带来的经济损失,从而促进航空运输业的稳定发展。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1