一种轨道交通数据处理方法、装置、设备及存储介质与流程

文档序号：29034132发布日期：2022-02-25 16:51阅读：83来源：国知局

1.本发明涉及轨道交通领域，尤其涉及一种轨道交通数据处理方法、装置、设备及存储介质。

背景技术：

2.随着社会的发展，轨道交通已经成为城市中人们的主要出行方式，相对于地面交通工具具备更高的出行便捷性。
3.为了获取准确的轨道交通客流分布数据，现有的客流清分模型在预测乘客出行路径时，受满载率的影响都是根据乘车班次比例推断乘客乘坐的车次，而在轨道运行的高峰时期，由于在常规乘车方向存在严重的留乘，即乘客并不能乘坐其在站台等候的第一班车，因而存在乘客反向乘车现象，这就导致在客流清分中对乘客路径的推定是不准确的。
4.综上，现有技术中客流清分结果存在误差，无法体现真实客流情况。

技术实现要素：

5.本发明实施例提供了一种轨道交通数据处理方法、装置、设备及存储介质，用以获取准确的客流清分结果，从而体现真实客流情况。
6.第一方面，本发明实施例提供一种轨道交通数据处理方法，包括：
7.选择至少一个目标站点，并确定目标站点对应的多个运行区间，其中，运行区间的起始站为目标站点，终点站为目标站点单一路径上无换乘的任一站点；
8.针对任意一个运行区间，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合；
9.通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据；
10.基于异常数据的识别结果，对客流进行清分。
11.本发明实施例提供的轨道交通数据处理方法，首先选择至少一个目标站点，并确定目标站点对应的多个运行区间，其中，运行区间的起始站为目标站点，终点站为目标站点单一路径上无换乘的任一站点，然后针对任意一个运行区间，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合，通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据，最后基于异常数据的识别结果，对客流进行清分。本发明实施例中，基于实际的轨道交通数据获取乘客的非乘车时长集合，运用混合高斯聚类方法对上述集合进行数据聚类，根据聚类结果分析乘客在目标站点是否有反向乘车行为，基于识别出的反向乘车行为对应的异常数据，进行客流清分，与现有技术相比，将具有反向乘车行为的异常数据、和没有反向乘车行为的正常数据，分别通过对应的客流清分模型对客流进行清分，以获取准确的客流清分结果，体现了真实的客流情况。
12.在一种可能的实施方式中，选择至少一个目标站点，包括：
13.针对轨道交通车辆任一行驶方向，确定获取预设时段内行驶方向上每个目标站点区间，其中目标站点区间为行驶方向上所有站点区间中，满载率大于预设满载率阈值的站点区间；
14.将目标站点区间中的轨道交通车辆先行通过的站点作为目标站点。
15.在一种可能的实施方式中，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合，包括：
16.遍历运行区间内多个子区间的轨道交通数据，子区间的起始站为目标站点，终点站为运行区间内除目标站点之外的任一站点；
17.每遍历一条轨道交通数据，执行下列过程：
18.根据轨道交通数据确定乘客在子区间的出行时长，其中，出行时长为乘客从进站时刻到出站时刻之间的时长；
19.将乘客在子区间的出行时长与子区间的最短轨道运行时长之差，作为乘客在运行区间的非乘车时长。
20.在一种可能的实施方式中，通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，包括：
21.对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果，其中目标数组的聚类结果表征乘客在运行区间乘坐目标车次的乘客比例、乘客在目标站点等待目标车次的平均候车时间、及候车时间的标准偏差，目标数组为k类数组中的任一数组。
22.在一种可能的实施方式中，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据，包括：
23.根据k类数组中最后两类数组的均差值，识别轨道交通数据中在目标站点有反向乘车行为的异常数据。
24.在一种可能的实施方式中，对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果，包括：
25.利用k-means算法对非乘车时长集合进行数据聚类，确定包含k类初始数组的初始聚类结果；
26.将初始聚类结果输入至混合高斯模型中，利用最大期望算法，对初始聚类结果以预设次数及预设精度进行迭代收敛，确定包含k类数组的聚类结果。
27.在一种可能的实施方式中，根据k类数组中最后两类数组的均差值，识别轨道交通数据中在目标站点有反向乘车行为的异常数据，包括：
28.判断将k类数组中最后两类数组的均差值是否大于标准差值，若是，则确定轨道交通数据中存在在目标站点有反向乘车行为的异常数据，其中，标准差值为轨道交通车辆在目标站点的发车间隔时长与停站时长之和；
29.将k类数组中的最后一类数据，识别为轨道交通数据中在目标站点有反向乘车行为的异常数据。
30.在一种可能的实施方式中，基于异常数据的识别结果，对客流进行清分，包括：
31.从轨道交通数据中提取异常数据，并将异常数据输入至第一客流清分模型中进行客流清分；
32.将剔除异常数据后的轨道交通数据，输入至第二客流清分模型中进行客流清分。
33.在一种可能的实施方式中，方法还包括：
34.在轨道交通数据中，提取被识别为在目标站点有反向乘车行为的异常数据，形成异常数据集合；
35.对异常数据集合进行混合高斯聚类，并结合目标站点与其反向站点之间的最短轨道运行时长，确定乘客在目标站点反向乘车的折返站点。
36.在一种可能的实施方式中，对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果之前，方法还包括：
37.以预设的不同聚类数目，对非乘车时长集合进行混合高斯聚类，确定不同聚类数目下的多个聚类结果；
38.对不同聚类数目下的多个聚类结果，确定每一聚类结果除最后一类的其它类数据中相邻数据的均差值，并将均差值与标准候车时长最接近的数据所对应的聚类数目，确定为运行区间对应的聚类数目k，标准候车时长为轨道交通车辆在目标站点的发车间隔时长与二分之一停站时长之和。
39.第二方面，本发明实施例提供一种轨道交通数据处理装置，包括：
40.选择单元，用于选择至少一个目标站点，并确定目标站点对应的多个运行区间，其中，运行区间的起始站为目标站点，终点站为目标站点单一路径上无换乘的任一站点；
41.获取单元，用于针对任意一个运行区间，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合；
42.处理单元，用于通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据；
43.执行单元，用于基于异常数据的识别结果，对客流进行清分。
44.在一种可能的实施方式中，选择单元具体用于：
45.针对轨道交通车辆任一行驶方向，确定获取预设时段内行驶方向上每个目标站点区间，其中目标站点区间为行驶方向上所有站点区间中，满载率大于预设满载率阈值的站点区间；
46.将目标站点区间中的轨道交通车辆先行通过的站点作为目标站点。
47.在一种可能的实施方式中，获取单元具体用于：
48.遍历运行区间内多个子区间的轨道交通数据，子区间的起始站为目标站点，终点站为运行区间内除目标站点之外的任一站点；
49.每遍历一条轨道交通数据，执行下列过程：
50.根据轨道交通数据确定乘客在子区间的出行时长，其中，出行时长为乘客从进站时刻到出站时刻之间的时长；
51.将乘客在子区间的出行时长与子区间的最短轨道运行时长之差，作为乘客在运行区间的非乘车时长。
52.在一种可能的实施方式中，处理单元具体用于：
53.对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果，其中目标数组的聚类结果表征乘客在运行区间乘坐目标车次的乘客比例、乘客在目标站点等待目标车
次的平均候车时间、及候车时间的标准偏差，目标数组为k类数组中的任一数组。
54.在一种可能的实施方式中，处理单元具体用于：
55.根据k类数组中最后两类数组的均差值，识别轨道交通数据中在目标站点有反向乘车行为的异常数据。
56.在一种可能的实施方式中，处理单元具体用于：
57.利用k-means算法对非乘车时长集合进行数据聚类，确定包含k类初始数组的初始聚类结果；
58.将初始聚类结果输入至混合高斯模型中，利用最大期望算法，对初始聚类结果以预设次数及预设精度进行迭代收敛，确定包含k类数组的聚类结果。
59.在一种可能的实施方式中，处理单元具体用于：
60.判断将k类数组中最后两类数组的均差值是否大于标准差值，若是，则确定轨道交通数据中存在在目标站点有反向乘车行为的异常数据，其中，标准差值为轨道交通车辆在目标站点的发车间隔时长与停站时长之和；
61.将k类数组中的最后一类数据，识别为轨道交通数据中在目标站点有反向乘车行为的异常数据。
62.在一种可能的实施方式中，执行单元具体用于：
63.从轨道交通数据中提取异常数据，并将异常数据输入至第一客流清分模型中进行客流清分；
64.将剔除异常数据后的轨道交通数据，输入至第二客流清分模型中进行客流清分。
65.在一种可能的实施方式中，处理单元还用于：
66.在轨道交通数据中，提取被识别为在目标站点有反向乘车行为的异常数据，形成异常数据集合；
67.对异常数据集合进行混合高斯聚类，并结合目标站点与其反向站点之间的最短轨道运行时长，确定乘客在目标站点反向乘车的折返站点。
68.在一种可能的实施方式中，对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果之前，处理单元还用于：
69.以预设的不同聚类数目，对非乘车时长集合进行混合高斯聚类，确定不同聚类数目下的多个聚类结果；
70.对不同聚类数目下的多个聚类结果，确定每一聚类结果除最后一类的其它类数据中相邻数据的均差值，并将均差值与标准候车时长最接近的数据所对应的聚类数目，确定为运行区间对应的聚类数目k，标准候车时长为轨道交通车辆在目标站点的发车间隔时长与二分之一停站时长之和。
71.第三方面，本发明实施例还提供一种轨道交通数据处理设备，包括：
72.至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时，以实现本发明实施例第一方面提供的轨道交通数据处理方法。
73.第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时，使得轨道交通数据处理设备能够执行本发明实施例第一方面提供的轨道交通数据处理方法。
附图说明
74.通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
75.图1为本发明实施例提供的一种轨道交通路径示意图；
76.图2为本发明实施例提供的另一轨道交通路径示意图；
77.图3为本发明实施例提供的一种平峰时段afc数据对应的乘客出行时长频数分布图；
78.图4为本发明实施例提供的一种早高峰时段afc数据对应的乘客出行时长频数分布图；
79.图5为本发明实施例提供的一种轨道交通数据处理方法的示意流程图；
80.图6为本发明实施例提供的一种轨道交通数据处理装置的结构示意图；
81.图7为本发明实施例提供的一种轨道交通数据处理设备的结构示意图。
具体实施方式
82.以下结合附图对本发明的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。
83.鉴于现有技术中在获取轨道交通客流分布数据时，由于在常规乘车方向存在严重的留乘，存在乘客反向乘车现象，导致在客流清分中对乘客路径的推定不准确，本发明实施例提供一种轨道交通数据处理方案，用以获取准确的客流清分数据，从而体现真实客流情况。
84.下面对本发明实施例提供的方案，进行详细说明。
85.s1，在早高峰时段针对轨道交通车辆任一行驶方向，查找所述行驶方向上的每个目标站点区间，其中所述目标站点区间为所述行驶方向上满载率大于预设满载率阈值的站点区间，将所述行驶方向上在所述目标站点区间之前经过的每个站点都作为目标站点。
86.如图1所示，为本发明实施例提供的一种轨道交通路径示意图，图1中示例性的示出了a-g共7个站点，其行驶方向为a
→
g，在一种可能的实施方式中，预设满载率阈值为120％，a-c站点区间的满载率为80％、c-d站点区间的满载率为130％、d-g站点区间的满载率为110％，则c-d站点区间为目标站点区间，在a
→
g行驶方向上c-d站点区间中的上行站点为c站点，因此c站点将被作为目标站点；或者，a-b站点区间的满载率为90％、b-d站点区间的满载率为125％、d-e站点区间的满载率为100％，e-g站点区间的满载率为130％，则b-d与e-g站点区间均为目标站点区间，在a
→
g行驶方向上b-d站点区间中的上行站点为b站点，e-g站点区间中的上行站点为e站点，因此b、e站点将被作为目标站点。
87.需要说明的是，其中，满载率＝旅客周转量(人公里)/客位(定员)公里；
88.式中：客位(定员)公里为运营车辆定员数与车公里的乘积；车辆定员数是车内设置固定座位数与每平方米有效面积站立定员定额之和。其反映一定时间内线路上运行车辆乘客满载程度的相对值，是衡量车辆利用程度的指标。一旦满载率过高，轨道交通运营方会采取进站动态限流措施，严格控制站内、车内人流密度。
89.进一步地，所述早高峰时段可以按经验值设定，例如早上7-9点，或者早上8点-9
点，本发明对此不作限定。
90.s2，运用交通出行有效路径表，查找以目标站点为起始站的单一路径无换乘od(o表示origin，指出行的起始地点，d表示destination，指出行的目的地，所以od表示交通起止站)，同时查找上述od在预设时段内的早高峰afc(automatic fare collection，城市轨道交通自动售检票)数据。
91.需要说明的是，交通出行有效路径表是由轨道交通运营方建立的，其包括轨道交通路径中的有效站点，及轨道运行中各车次基于各有效站点的出行路径规划。
92.进一步地，如图2所示为另一轨道交通路径示意图，例如，以4号线中西苑站为目标站点，则以安河桥北
→
天宫院为行驶方向，西苑站的单一路径无换乘od包括：西苑-圆明园、西苑-北京大学东门、西苑-中关村、西苑-海淀黄庄、西苑-人民大学，等等。并且，虽然西苑-北宫门也属于单一路径无换乘od，但其行驶路径方向为天宫院-安河桥北方向，因此不能满足要求。
93.进一步地，afc数据是通过afc系统获取的，所述afc系统是基于计算机、通信、网络、自动控制等技术，实现轨道交通售票、检票、计费、收费、统计、清分、管理等全过程的自动化系统，因此根据afc数据，可以获取乘客在乘坐轨道交通工具时的进出站站点，及进出站时刻。
94.进一步地，查找上述od的afc数据可以是一个月内的早高峰时段数据，也可以是两个月内早高峰时段数据，且数据生成时间并不限定，例如2020年1月1日-1月31日早高峰时段数据，或者2020年4月1日-5月30日早高峰时段数据。
95.s3，遍历上述afc数据，确定乘客在乘坐轨道交通工具时的进出站站点，及进出站时刻，根据所述进出站时刻得到乘客的出行时长，利用乘客出行时间减去对应od的最短轨道运行时长，由于上述od均为单一路径无换乘od，则得到的数据集可认为是乘客在起点站的非乘车时间集合x＝{x1，x2，
…
，xn}，同时记聚类数目为k。
96.需要说明的是，如图3所示，读取2018年9月份出行时间在9-12点，即平峰时段的所有od为沙河-西二旗站的afc数据，计算上述afc数据对应的出行时长并绘制频数分布图。可以看出，乘客的出行时长是符合正态分布的。
97.乘客从进站至出站的出行时长，包括以下几个部分：进站时长、候车时长、乘车时长、及出站时长，其中乘车时长即最短轨道运行时长，因此乘客出行市场减去对应od的最短轨道运行时长，为乘客进站时长、候车时长及出站时长。
98.进一步地，乘客的进站时长与出站时长与乘客的步行速度有关，而步行速度是连续变化的，因此乘客的进出站时长可看作一个连续变化的随机变量；而候车时长往往与乘客的乘坐车次相关，可以将同一车次的乘客的候车时间看作一个连续变化的随机变量。因此，可以假设乘客的非乘车时长服从正态分布，以进一步分析乘客是否有反向乘车行为。
99.s4，运用k-means聚类方法以预设的多个聚类数目，对上述集合x进行聚类，得到初始聚类结果。
100.需要说明的是，预设的多个聚类数目可以本领域技术人员的经验值所设定，所述聚类数目可以是连续数字，也可以是有间隔的数字，例如1-6、2-8、3和5和7、2和5和6-8，等等，本发明实施例对聚类数目的预设值不作限定。
101.s5，将上述得到的初始聚类结果进行混合高斯聚类，得到各个聚类数目下混合高
斯聚类结果，其中混合高斯聚类公式可以表示为：
[0102][0103]
式中，ωi，μi，σi分别为每一个高斯子分布的权重、均值和标准差，分别表征为乘坐各个班次的乘客占比、平均非乘车时间、非乘车时间的标准偏差。
[0104]
具体实施时，运用em(最大期望)算法得到各个聚类数目下混合高斯的聚类结果，其可以有以下步骤：
[0105]
1、e-step：计算x集合中的每个数据xi属于第j个分布zj的概率的计算公式为：
[0106][0107]
其中，ω,μ,σ为混合高斯模型的初始输入值，即s4步骤中通过k-means聚类方法得到的初始聚类结果。
[0108]
需要说明的是，由于em算法在对混合高斯模型求解时，对初值的选择特别敏感，因此在求解之前，首先通过k-means算法对原始数据集进行聚类，分别将各类的均值、各类样本的标准差、各类样本占总样本的百分比作为上述初始输入值，这样可以减少迭代收敛的次数。
[0109]
2、m-step：构建似然函数，即计算在给定ω,μ,σ情况下，得到上述样本集的概率表达式的对数形式，即：
[0110][0111]
3、运用jensen不等式，可以得到：
[0112][0113]
4、以预设迭代次数及预设收敛精度，迭代右端项中的ω,μ,σ直到其收敛，即可得到所求似然函数对应的ω,μ,σ。由于上式右端项中含有ω,μ,σ可以通过对每一个变量求偏导数来实现上式的快速迭代。
[0114]
具体实施时，可以根据经验值设定迭代次数及收敛精度，例如，将迭代次数设置为500代，收敛精度设置为0.00001，本发明对此不作限定。
[0115]
5、将最后达到收敛条件的ω,μ,σ确定为混合高斯聚类公式中的ωi，μi，σi以求解混合高斯聚类公式，确定混合高斯聚类结果。
[0116]
s6，根据混合高斯聚类结果，计算不同聚类数目下前k-1类数据均值间的平均差异，将平均差异与t(发车间隔时长+1/2停站时长)最相近的聚类数目作为最佳聚类数目。
[0117]
需要说明的是，图3示出了乘客在平峰时段的出行时长分布，由于平峰时段不存在明显的留乘现象，因此可用一个正态分布来表示。而对于早高峰，之所以存在反向乘车，是因为在常规乘车方向存在严重的留乘，即乘客并不能乘坐其在站台等候的第一班车，因此需要多个正态分布的混合来表征这一分布，即混合高斯模型。
[0118]
如图4所示，读取2018年9月份出行时间在7-9点(即早高峰时段)的所有od为沙河-西二旗站的afc数据，计算上述afc数据对应的出行时长并绘制频数分布图。
[0119]
进一步地，由于存在“留乘”现象，因此运用多个正态分布(即高斯分布)的加和可以得到一个较为理想的拟合效果；同时，由于不同分布代表不同的乘坐车次，因此每个分布的均值即为该车次条件下出行时长的均值，各个均值间的间隔大致为t(发车间隔时长+1/2停站时长)，图4中的起点站即为沙河站。而最后两个正态分布的均值差异远大于t，因此可将最后一个正态分布内的时间识别为反向乘车的乘客出行时长记录。
[0120]
进一步地，由于在轨道运行的早高峰时段内，一些客流比较拥挤的线路(即满载率比较高)，某些站点存在乘客在抵达站台候车时第一班车上不去的情况，乘客需要等候下一列车抵达后乘车，如果下一车次也乘不了车就需要继续等候，依次类推。按照上述情况，如果乘客第一班车无法上车，假如他乘坐下一车次，那么最长的候车时长为该路径列车发车间隔+列车在该站的停靠时间(即发车前一秒上了车)，最短等候时间为列车发车间隔(即车辆抵达站台立马就上了车)，因此，将t值设定为上述两种极端情况下的平均值，即起始站发车间隔时长+1/2停站时长。
[0121]
s7，根据最佳聚类数目中的聚类数据结果，判断最佳聚类数目下的最后一类与倒数第二类之间的均值差异，是否大于起始站发车间隔时长与停站时长之和，若是，则确定目标站点存在反向乘车现象。
[0122]
需要说明的是，当乘客在目标站点等候下一车次时，最长的候车时长为该路径上发车间隔与停靠时间之和，因此，如果最后一类与倒数第二类之间的均值差异，大于起始站发车间隔时长与停站时长之和，则判定乘客并未等待下一车次，而是乘坐了反向车次。
[0123]
s8，将最佳聚类数目下的最后一类数据的权重，作为目标站点的反向乘车比例。
[0124]
s9，基于异常数据的识别结果，对客流进行清分。
[0125]
具体实施时，客流清分可以通过以下两个步骤分别实施：
[0126]
1、从轨道交通数据中提取异常数据，并将异常数据输入至第一客流清分模型中进行客流清分，以识别乘客反向乘车时的折返站点及具体出行路径；
[0127]
2、将剔除异常数据后的轨道交通数据，输入至第二客流清分模型中进行客流清分，以识别乘客在正常乘车时在目标站点的候车班次及具体出行路径。
[0128]
需要说明的是，第一客流清分模型可以是与第二客流清分模型完全不同的两个客流清分模型，也可以是第二客流清分模型的某一分支模型，本发明对此不做限定。
[0129]
在一种可能的实施方式中，提取异常数据集后，还可以对其进行混合高斯聚类，获取各反向乘车折返站点的选择比例。
[0130]
下面结合附图，以北京市昌平线沙河站为例，对本发明实施例提供的轨道交通数据处理方案进行详细说明。
[0131]
s1，以沙河站为目标站点，查找以沙河站为起始站的所有郊区—市区方向的单一路径无换乘od，并读取各个od的轨道运行最短时长，如表1所示：
[0132]
表1
[0133][0134]
s2，读取上述od一个月内的早高峰afc数据，使用箱线图法筛除异常数据，根据有
效数据计算上述od乘客的出行时长。再用出行时长减去各od的轨道运行最短时长，得到的数据集为是乘客在沙河站的非乘车时长集合。
[0135]
s3，运用k-means算法对上述非乘车时长集合进行聚类，分别取聚类数为1-6进行计算，将得到的结果作为初始值进行混合高斯聚类，运用em(最大期望)算法得到各个聚类数目下的聚类结果，如表2：
[0136]
表2
[0137][0138]
s4，根据实际运行图数据，计算列车发车间隔时长与停站时长，分别为267s和71s，则t＝267+71/2＝302.5s，与聚4类时前3类的平均差异最为接近，因此，最佳聚类数为4。
[0139]
聚4类时，第4类与第3类的均值差异为546s，超过了267+71＝338s，因此可识别为沙河站存在反向乘车现象。
[0140]
其中，沙河站完整的数据聚类识别结果如表3所示，采取反向乘车的乘客比例达到了12.16％，识别结果如下表3所示:
[0141]
表3
[0142][0143]
s5，提取最佳聚类数目下剔除异常数据后的轨道交通数据，即乘客乘坐第一班、第二班及第三班车次的数据，输入客流清分模型中，对客流进行清分。
[0144]
在一种可能的实施方式中，在确定反向乘车的比例后，针对乘客选择不同折返站点的比例进行分析。从总的出行时间数据集中提取采取反向乘车的出行时间数据集，对其进行混合高斯聚类，得出各折返站点的选择比例。以沙河站为目标站点的所有反向乘车行为中，选择沙河高教园站作为折返站点的比例为44％，南邵站为51％，北邵洼站为5％，如表4所示：
[0145]
表4
[0146]
[0147]
如图5所示，本发明实施例提供一种轨道交通数据处理方法，包括：
[0148]
步骤501，选择至少一个目标站点，并确定目标站点对应的多个运行区间，其中，运行区间的起始站为目标站点，终点站为目标站点单一路径上无换乘的任一站点。
[0149]
步骤502，针对任意一个运行区间，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合。
[0150]
步骤503，通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据。
[0151]
步骤504，基于异常数据的识别结果，对客流进行清分。
[0152]
在一种可能的实施方式中，选择至少一个目标站点，包括：
[0153]
针对轨道交通车辆任一行驶方向，确定获取预设时段内行驶方向上每个目标站点区间，其中目标站点区间为行驶方向上所有站点区间中，满载率大于预设满载率阈值的站点区间；
[0154]
将目标站点区间中的轨道交通车辆先行通过的站点作为目标站点。
[0155]
在一种可能的实施方式中，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合，包括：
[0156]
遍历运行区间内多个子区间的轨道交通数据，子区间的起始站为目标站点，终点站为运行区间内除目标站点之外的任一站点；
[0157]
每遍历一条轨道交通数据，执行下列过程：
[0158]
根据轨道交通数据确定乘客在子区间的出行时长，其中，出行时长为乘客从进站时刻到出站时刻之间的时长；
[0159]
将乘客在子区间的出行时长与子区间的最短轨道运行时长之差，作为乘客在运行区间的非乘车时长。
[0160]
在一种可能的实施方式中，通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，包括：
[0161]
对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果，其中目标数组的聚类结果表征乘客在运行区间乘坐目标车次的乘客比例、乘客在目标站点等待目标车次的平均候车时间、及候车时间的标准偏差，目标数组为k类数组中的任一数组。
[0162]
在一种可能的实施方式中，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据，包括：
[0163]
根据k类数组中最后两类数组的均差值，识别轨道交通数据中在目标站点有反向乘车行为的异常数据。
[0164]
在一种可能的实施方式中，对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果，包括：
[0165]
利用k-means算法对非乘车时长集合进行数据聚类，确定包含k类初始数组的初始聚类结果；
[0166]
将初始聚类结果输入至混合高斯模型中，利用最大期望算法，对初始聚类结果以预设次数及预设精度进行迭代收敛，确定包含k类数组的聚类结果。
[0167]
在一种可能的实施方式中，根据k类数组中最后两类数组的均差值，识别轨道交通
数据中在目标站点有反向乘车行为的异常数据，包括：
[0168]
判断将k类数组中最后两类数组的均差值是否大于标准差值，若是，则确定轨道交通数据中存在在目标站点有反向乘车行为的异常数据，其中，标准差值为轨道交通车辆在目标站点的发车间隔时长与停站时长之和；
[0169]
将k类数组中的最后一类数据，识别为轨道交通数据中在目标站点有反向乘车行为的异常数据。
[0170]
在一种可能的实施方式中，基于异常数据的识别结果，对客流进行清分，包括：
[0171]
从轨道交通数据中提取异常数据，并将异常数据输入至第一客流清分模型中进行客流清分；
[0172]
将剔除异常数据后的轨道交通数据，输入至第二客流清分模型中进行客流清分。
[0173]
在一种可能的实施方式中，方法还包括：
[0174]
在轨道交通数据中，提取被识别为在目标站点有反向乘车行为的异常数据，形成异常数据集合；
[0175]
对异常数据集合进行混合高斯聚类，并结合目标站点与其反向站点之间的最短轨道运行时长，确定乘客在目标站点反向乘车的折返站点。
[0176]
在一种可能的实施方式中，对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果之前，方法还包括：
[0177]
以预设的不同聚类数目，对非乘车时长集合进行混合高斯聚类，确定不同聚类数目下的多个聚类结果；
[0178]
对不同聚类数目下的多个聚类结果，确定每一聚类结果除最后一类的其它类数据中相邻数据的均差值，并将均差值与标准候车时长最接近的数据所对应的聚类数目，确定为运行区间对应的聚类数目k，标准候车时长为轨道交通车辆在目标站点的发车间隔时长与二分之一停站时长之和。
[0179]
如图6所示，本发明实施例提供一种轨道交通数据处理装置，包括：
[0180]
选择单元61，用于选择至少一个目标站点，并确定目标站点对应的多个运行区间，其中，运行区间的起始站为目标站点，终点站为目标站点单一路径上无换乘的任一站点；
[0181]
获取单元62，用于针对任意一个运行区间，遍历运行区间在预设时段的轨道交通数据，获取乘客在运行区间的非乘车时长集合；
[0182]
处理单元63，用于通过运行区间对应的无监督学习的方式对非乘车时长集合进行数据聚类，得到运行区间的聚类结果，根据聚类结果识别轨道交通数据中在目标站点有反向乘车行为的异常数据；
[0183]
执行单元64，用于基于异常数据的识别结果，对客流进行清分。
[0184]
在一种可能的实施方式中，选择单元61具体用于：
[0185]
针对轨道交通车辆任一行驶方向，确定获取预设时段内行驶方向上每个目标站点区间，其中目标站点区间为行驶方向上所有站点区间中，满载率大于预设满载率阈值的站点区间；
[0186]
将目标站点区间中的轨道交通车辆先行通过的站点作为目标站点。
[0187]
在一种可能的实施方式中，获取单元62具体用于：
[0188]
遍历运行区间内多个子区间的轨道交通数据，子区间的起始站为目标站点，终点
站为运行区间内除目标站点之外的任一站点；
[0189]
每遍历一条轨道交通数据，执行下列过程：
[0190]
根据轨道交通数据确定乘客在子区间的出行时长，其中，出行时长为乘客从进站时刻到出站时刻之间的时长；
[0191]
将乘客在子区间的出行时长与子区间的最短轨道运行时长之差，作为乘客在运行区间的非乘车时长。
[0192]
在一种可能的实施方式中，处理单元63具体用于：
[0193]
对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果，其中目标数组的聚类结果表征乘客在运行区间乘坐目标车次的乘客比例、乘客在目标站点等待目标车次的平均候车时间、及候车时间的标准偏差，目标数组为k类数组中的任一数组。
[0194]
在一种可能的实施方式中，处理单元63具体用于：
[0195]
根据k类数组中最后两类数组的均差值，识别轨道交通数据中在目标站点有反向乘车行为的异常数据。
[0196]
在一种可能的实施方式中，处理单元63具体用于：
[0197]
利用k-means算法对非乘车时长集合进行数据聚类，确定包含k类初始数组的初始聚类结果；
[0198]
将初始聚类结果输入至混合高斯模型中，利用最大期望算法，对初始聚类结果以预设次数及预设精度进行迭代收敛，确定包含k类数组的聚类结果。
[0199]
在一种可能的实施方式中，处理单元63具体用于：
[0200]
判断将k类数组中最后两类数组的均差值是否大于标准差值，若是，则确定轨道交通数据中存在在目标站点有反向乘车行为的异常数据，其中，标准差值为轨道交通车辆在目标站点的发车间隔时长与停站时长之和；
[0201]
将k类数组中的最后一类数据，识别为轨道交通数据中在目标站点有反向乘车行为的异常数据。
[0202]
在一种可能的实施方式中，执行单元64具体用于：
[0203]
从轨道交通数据中提取异常数据，并将异常数据输入至第一客流清分模型中进行客流清分；
[0204]
将剔除异常数据后的轨道交通数据，输入至第二客流清分模型中进行客流清分。
[0205]
在一种可能的实施方式中，处理单元63还用于：
[0206]
在轨道交通数据中，提取被识别为在目标站点有反向乘车行为的异常数据，形成异常数据集合；
[0207]
对异常数据集合进行混合高斯聚类，并结合目标站点与其反向站点之间的最短轨道运行时长，确定乘客在目标站点反向乘车的折返站点。
[0208]
在一种可能的实施方式中，对非乘车时长集合进行混合高斯聚类，确定包含k类数组的聚类结果之前，处理单元63还用于：
[0209]
以预设的不同聚类数目，对非乘车时长集合进行混合高斯聚类，确定不同聚类数目下的多个聚类结果；
[0210]
对不同聚类数目下的多个聚类结果，确定每一聚类结果除最后一类的其它类数据中相邻数据的均差值，并将均差值与标准候车时长最接近的数据所对应的聚类数目，确定
为运行区间对应的聚类数目k，标准候车时长为轨道交通车辆在目标站点的发车间隔时长与二分之一停站时长之和。
[0211]
如图7所示，本发明实施例还提供一种轨道交通数据处理设备70，包括：
[0212]
至少一个处理器71、至少一个存储器72以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器71执行时，以实现本发明实施例中提供的轨道交通数据处理方法。
[0213]
在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器72，上述指令可由轨道交通数据处理设备的处理器71执行以完成上述方法。
[0214]
可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0215]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0216]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李泳;郝坚剑
技术所有人：北京交大思源科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。