一种基于多源数据分析的风险指数预测方法及系统与流程

文档序号:25048966发布日期:2021-05-14 12:53阅读:220来源:国知局
一种基于多源数据分析的风险指数预测方法及系统与流程

1.本发明涉及数据分析领域,尤其涉及一种基于多源数据分析的风险指数预测方法及系统。


背景技术:

2.随着社会发展,人们对各交通系统的保障需求越来越高,特别是对于大型机场而言,机场客流量不断增加,对机场交通的保障需求也不断增高。但是由于地铁、长途车、公交车等在夜间均停止运行,机场运力在夜间的锐减与夜间航班到达高峰叠加,对机场陆侧交通保障运行造成巨大的压力,并且对这一压力缺乏风险预感,从而对机场到港疏散交通信息管理缺乏数据和技术支持,使得在机场陆侧交通的服务供应保障上十分被动。因此围绕机场陆侧到港疏散交通信息管理,以实现机场陆侧到港交通信息最佳感知为目标,全面汇集空、陆交通相关的动态数据,形成多维度的数据采集与关联模型分析,提供在复杂多变因素交织情况下的更加精准的机场交通保障风险预测,是一个非常重要而有意义的研究课题。
3.有鉴于此,有必要对现有技术中的机场交通保障风险预测方法及系统予以改进,以解决上述问题。


技术实现要素:

4.本发明的目的在于实现基于多源数据分析的实时风险指数预测,为复杂多变因素交织的交通系统提供数据支持,形成智能预警机制。
5.为实现上述目的,本发明提供了一种基于多源数据分析的风险指数预测方法,包括以下步骤:
6.步骤1.基于数据分析与特征构造的方法,使用历史运行数据建立风险指数模型,从而得出带风险标签值的历史数据;
7.步骤2.基于机器学习算法使用所述带风险标签值的历史数据建立风险指数预测模型;
8.步骤3.基于实时运行数据,通过所述风险指数预测模型实现实时风险指数预测。
9.进一步地,所述风险指数模型的建立方法步骤包括:
10.1)对所述历史数据进行数据分析,得到初步风险指标值;
11.2)对所述历史数据进行特征构造,得到特征控制值;
12.3)结合所述初步风险指标值和所述特征控制值,得到所述带风险标签值的历史数据。
13.进一步地,所述数据分析的方法可以有但不限于数据清洗、数据间的逻辑运算,数据归一化。
14.进一步地,所述特征控制值设定有特征控制系数;所述特征控制系数可以是一个区间范围,也可以是一个固定值。
15.进一步地,所述风险指数预测模型建立的具体方法步骤为:
16.step1将所述带风险标签值的历史运行数据划分为训练数据集和测试数据集;
17.step2所述训练数据集上基于lightgbm算法训练得到风险指数预测模型;
18.step3结合验证损失进一步模型优化,得到较优模型;
19.step4测试数据集上基于所述较优模型实现风险指数预测,得到风险预测结果输出。
20.进一步地,所述训练和验证的评估指标参数均为rmse;所述step3和step4循环进行直至得到较为理想的模型参数;所述较优模型具有所述较为理想的模型参数。
21.本发明还提供一种上述风险指数预测方法的风险预测系统,包括数据模块、预测模型建立模块、实时应用模块;所述数据模块通过对数据进行采集分析处理等,获得带风险标签值的数据;
22.所述预测模型建立模块,基于机器学习算法使用所述带风险标签值的数据建立风险指数预测模型;
23.所述实时应用模块,基于实时数据通过所述风险指数预测模型输出实时风险指数,并通过平台展示。
24.进一步地,所述平台展示可以根据不同的风险指数设定不同的应急预警方案。
25.与现有技术相比,本发明的有益效果是:基于历史数据建立风险指数模型,得出运行数据的风险标签值,再通过机器学习算法实现基于实时运行数据的风险指数预测,最终实现风险指数的显示与应用,以此来调节影响风险指数的各项特征,消除、降低运行保障风险,使得风险均匀的分布在一定的时期内,减少风险指数波动。
附图说明
26.图1为本发明一种基于多源数据分析的风险指数预测方法步骤示意图;
27.图2为风险指数模型建立的具体方法步骤示意图;
28.图3为风险指数预测模型建立的具体方法步骤示意图;
29.图4为风险指数预测模型建立的逻辑流程示意图;
30.图5为本发明一种基于风险指数预测方法的风险预测系统的流程示意图。
具体实施方式
31.下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
32.请参图1所示,本发明一种基于多源数据分析的风险指数预测方法,具体包括以下步骤:
33.步骤1.基于数据分析与特征构造的方法,使用历史运行数据建立风险指数模型,从而得出每条带风险标签值的历史运行数据。
34.具体的,如图2所示,风险指数模型建立的具体方法为:
35.1.对历史数据进行数据分析,得到初步风险指标值。具体地,数据分析的方法可以有但不限于数据清洗、数据间的逻辑运算,数据归一化等。
36.2.对历史数据进行特征构造,得到特征控制值。具体地,特征构造需根据数据本身的特点和实际场景的特殊性对最终的风险标签值的影响程度而确定具体的控制特征,比如对于航班延误风险预测来讲,除了通过飞行速度和飞行距离这样的直接数据预测外,也需要结合考虑抵达机场的航空管制情况,那么航空管制情况需要确定为该航班延误风险预测的控制特征之一。
37.3.结合初步风险指标值和特征控制值,得到带风险标签值的历史运行数据。特别地,为了使特征控制值对初步风险指标值的影响限定在一定的影响范围内,避免融入过多的极端情景而使得最终风险标签值失去了区分度,在实际应用中,对特征控制值设定了可调的特征控制系数。该特征控制系数可以是一个区间范围,也可以是通过一定数量的情景模拟,最终确定为一个最利于该应用场景的固定值。
38.步骤2.基于机器学习算法使用带风险标签值的历史运行数据建立风险指数预测模型。
39.具体的,如图3

图4所示,风险指数预测模型建立的具体方法为:
40.1.将带风险标签值的历史运行数据划分为训练数据集和测试数据集。具体地,将历史运行数据中时间较前的数据划分为训练数据集,时间靠后的数据划分为测试数据集,如此能够更符合模型的实际运行规律。
41.2.训练数据集上基于lightgbm算法训练得到风险指数预测模型。具体地,通过lightgbm算法训练能够得出风险指数预测模型的初步模型参数。
42.3.结合验证损失进一步模型优化,得到较优模型。特别地,这里训练和验证的评估指标参数均为rmse。如图4所示,训练数据集的数据经过lightgbm算法训练后,验证损失情况,实现模型优化后,可以循环将数据再次经过lightgbm算法训练和验证损失情况,进行再次的模型优化,直至得到预测效果较为理想的模型参数,即为最终的较优模型。
43.4.测试数据集上基于该较优模型实现风险指数预测,得到风险预测结果输出。具体地,由于测试数据集的数据仍为历史数据,在得到风险预测结果后,判断预测结果的好坏,确定是否需要作进一步的优化,优化的方式可以但不限于重新划分训练数据和测试数据。
44.步骤3.基于实时运行数据,通过风险指数预测模型实现实时风险指数预测。具体地,风险指数预测模型也为lightgbm回归预测模型,是应用于实时运行数据的基于lightgbm算法的回归预测模型。
45.如图5所示,本发明还提出了一种基于上述风险指数预测方法的风险预测系统:包括数据模块、预测模型建立模块、实时应用模块。具体如下:
46.一.数据模块,对数据进行采集分析处理等,获得带风险标签值的数据。具体地,数据模块包括特征提取模块、数据采集模块、风险指数模型建立模块。其中特征提取模块是确定参与风险指数预测模型建立所需的特征。数据采集模块根据所提取的特征分别进行数据采集,这些数据包括历史数据和实时数据。风险指数模型建立模块对通过数据采集模块所得到的历史数据,进行数据分析与特征构造,得出带风险标签值的历史数据,具体的风险指数模型建立的具体方法已在上文一一叙述,因此不再赘述。
47.二.预测模型建立模块,基于机器学习算法使用带风险标签值的数据建立风险指数预测模型。具体的风险指数预测模型建立方法已在上文一一叙述,因此不再赘述。
48.三.实时应用模块,基于实时数据通过风险指数预测模型输出实时风险指数,并通过平台展示。具体地,将实时数据通过lightgbm回归预测模型实现实时风险指数预测,通过媒体介质实现数图化的平台展示。特别的,平台展示还可以根据不同的风险指数设定不同的应急预警方案,以实现更有效的风险管理。
49.下面以某大型机场陆侧交通的风险感知应用为例,具体叙述本系统经过对大型机场陆侧交通相关的数据分析研究,尤其是在极端天气、夜间高峰等情况下,对陆侧交通服务供应保障上的各种关联活动、影响因素所造成的工作保障进行风险预测展示。
50.一.数据处理模块包括下面的步骤:
51.步骤1.特征提取模块。确定参与风险指数预测模型建立所需的特征:
52.1)站点客流统计数据:站点入口流量(t

1)
53.2)站点客流统计数据:站点出口流量(t

1)
54.3)公共停车楼流量统计数据:入场流量(t

1)

出场流量(t

1)
55.4)出租车蓄车场流量统计数据:出口流量(t

1)
56.5)航班统计数据:实际数量(t)
57.6)天气数据:降水量(t)
58.风险指数预测模型在实际应用中是通过过去一小时的站点入口流量、出口流量、公交入口流量

出口流量、出租车蓄车场出口流量,以及下一小时的航班预计到达数量和天气,来预测下一小时的供车风险指标。之所以需要过去一小时的数据特征,原因有两点:
59.第一点:是因为下一小时的供车风险程度大小和过去一小时的进入和离开的客流数、旅客滞留数、出租车、公交、社会车辆保障程度是相关的。
60.第二点:在实际使用模型进行预测时,我们只有站点入口流量、出口流量、公交入口流量

出口流量、出租车蓄车场出口流量这些特征量的历史数据,只能借助历史数据来预测下一小时的旅客滞留/等车的紧张程度。
61.步骤2.数据采集模块,包括对历史数据和实时数据的采集:站点客流统计数据、站点客流统计数据、公共停车楼流量统计数据、出租车蓄车场流量统计数据、航班统计数据、天气数据等。
62.步骤3.风险指数模型建立模块,对以上类别历史数据分别建立风险指数模型。
63.具体的,下面以站点客流数据为例,叙述关于建立风险指数模型在本应用中的方法步骤:
64.1.通过数据采集设备获取站点客流统计数据的出口流量(t)和入口流量(t);
65.2.对统计数据进行清洗:异常数据处理:1)删去入口流量为0的数据;2)删去出口流量或入口流量为负值的数据。
66.3.设定数据分析对象d(t):d(t)=出口流量(t)/入口流量(t)
67.4.对数据分析对象d(t)进行数据分析,确定数据d(t)主要分布在[a,a],得出d(t)的最大值为a,最小值为a。
[0068]
5.对数据分析对象d(t)的离群点数据进行优化处理,以减小离群点对模型的影响:
[0069]
1)当d(t)>a则d(t)赋值为a;
[0070]
2)当d(t)<a则d(t)赋值为a。
[0071]
6.对数据分析对象d(t)进行数据归一化处理得出初步风险指标值r0(t),使得r0(t)∈(0,1)。具体归一化方法为:
[0072]
至此,将d(t)的值归一化为0到1之间的值,得到这样的一个值r0(t),即为初步风险指标值,我们可以形象称之为旅客离开率,以此来衡量该小时时间段内的旅客不用等待或者说不用长期滞留的程度。但该公式刻画的还不够确切。原因如下:
[0073]
情况一:出口流量=80,入口流量=800
[0074]
情况二:出口流量=10,入口流量=100
[0075]
在上述两种情况中,d(t)都等于0.1,但是情况一的旅客滞留情况比情况二要严重,严重的原因是入口和出口流量的差值较大,因此出口流量(t)

入口流量(t)也能衡量旅客不用等待或者说不用长期滞留的程度,即衡量该小时时间段内的供车保障的风险/紧缺程度。
[0076]
针对上述情况,需要对初步风险指标值r0(t)作进一步深化处理,以提高风险程度的衡量的准确性。
[0077]
7.对初步风险指标值r0(t)进行风险叠加控制处理:
[0078]
1)设定数据分析对象d(t):d(t)=出口流量(t)

入口流量(t)
[0079]
2)对数据分析对象d(t)进行数据分析,确定数据d(t)主要分布在[b,b],得出d(t)的最大值为b,最小值为b。
[0080]
特别需要注意的是:确定数据d(t)的分布范围,主要是为了剔除过大过小的数据(离群点)。设置数据分布范围即+max和

max,是为了后面将出口

入口的值量化为0到1之间的值以此来衡量该小时时间段内的供车保障的风险/紧缺程度。如果将离群点纳入考虑范围,那么将导致衡量指标过度受离群点/异常情况极端影响,这就使得对常见情况下的供车保障风险的区分度降低,降低了对常见情况下的供车保障的风险程度的刻画衡量能力。这里针对离群点,可以采取直接剔除,但是我们采用将大于b的值置为b,小于b的值置为b,目的是保留负样本。
[0081]
3)构造特征控制值δ(t):
[0082][0083]
4)通过初步风险指标值r0(t)和特征控制值δ(t)的叠加控制处理,得出风险标签值r(t),具体方法为:
[0084][0085]
其中α为特征控制系数,因为在实际应用中,r0(t)

αδ(t)可能会不可避免的溢出[0,1],对于溢出的情况,我们将其置为0或1,另外δ(t)通过特征控制系数α控制对r(t)的影响,并且特征控制系数α不能过大或者过小,因为过大或者过小会导致δ(t)过多的溢出
[0,1],导致过多的正负样本被置为0或1,使风险标签值r(t)失去一定的区分度。
[0086]
特别地,在本实施例中,我们对于特征控制系数α的取值,是采用以步长为0.1,遍历0.2到0.8的区间,结合得出的风险标签值分布情况和模型最终预测结果的好坏来确定最优的α值为0.4。
[0087]
二.风险指数预测模型建立模块:基于机器学习算法使用上述特征的带风险标签值的历史运行数据建立风险指数预测模型。具体地,在本实施例中,是通过步骤一中提取的6个输入特征来预测一个数据输出,这个数据输出就是通过风险指数预测模型基于lightgbm回归预测算法所得出的风险指数。这里的风险指数预测模型的建立是遵循上文所叙述的风险指数预测模型建立方法,详细内容不再一一赘述。
[0088]
三.实时应用模块:包括实时风险指数预测输出和平台展示。基于实时数据,通过风险指数预测模型对该机场的陆侧交通服务供应保障进行实时风险指数预测。根据实时风险指数,通过平台展示对应的预警讯号或应急预案。具体地,工作人员可以根据不同的风险指数所对应的应急预案进行及时调度,调整不同特征对风险指数的影响,使得该机场的陆侧交通服务供应保障得到快速恢复。
[0089]
特别地,在实际应用中,工作人员执行了对应的应急预案后,可以根据实时的风险指数变化验证应急预案执行的有效性,从而达到检验处置过程、评估执行效果的目的。因此,我们可以说本风险指数预测方法不仅仅是预测模型,也是过程检验、执行评估模型。
[0090]
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
[0091]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0092]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1