基于地图网格索引和XGBOOST的超限车辆目的地预测方法及系统与流程

文档序号:31163776发布日期:2022-08-17 08:20阅读:84来源:国知局
基于地图网格索引和XGBOOST的超限车辆目的地预测方法及系统与流程
基于地图网格索引和xgboost的超限车辆目的地预测方法及系统
技术领域
1.本发明属于智能交通技术应用领域,具体涉及一种基于地图网格索引和xgboost的超限车辆目的地预测方法及系统。


背景技术:

2.车辆超限超载行为会使得公路基础设施的使用性能大幅衰减,给养护工作带来了巨大压力,且车辆超限超载行为极易引发道路交通事故,事故致死率较高,存在巨大的交通安全隐患。随着交通基础设施建设的快速推进和总体规模的不断扩大,超限超载的治理任务变得愈加繁重,传统的“人海战术”、“守株待兔”等治超方式,劳动强度大,工作效率低,治超执法面临巨大压力。
3.目前交通运输执法部门掌握了违法超限超载运输车辆清单,特别是存在严重超限超载行为的“百吨王”车辆清单,既有超限超载检测站点虽然能够获取车辆的某个时间点的定位数据,但由于车辆行驶目的地存在不确定性且车辆行驶速度快,车辆在被检测后追踪难度较大,如何实现超载车辆布控拦截是执法部门面临的棘手问题。
4.针对车辆行驶目的地的预测,国内外学者和机构已开展了相关研究。在对公交通勤乘客目的地预测方面,有学者提出了一种基于xgboost和图谱修正的公交通勤乘客目的地预测方法,由于公交车辆的路线和站点确定,目的地相对明确,其预测方法无法用于违法超限超载车辆行驶目的地预测。在汽车出行目的地预测研究方面,有学者研究了基于xgboost的汽车出行目的地预测,但是在目的地表达方面,直接用经纬度表达行驶目的地,算法预测的准确率仅为0.61,无法用于实际场景。


技术实现要素:

5.本发明的目的在于提供一种基于地图网格索引和xgboost的超限车辆目的地预测方法及系统,以解决车辆行驶目的地定量表达困难、目的地预测准确率不高等问题。
6.实现本发明目的的技术解决方案为:第一方面,本发明提供一种基于地图网格索引和xgboost的超限车辆目的地预测方法,包括:
7.采集超限超载车辆卫星导航定位数据,并对数据进行预处理,剔除数据集中信息不完整、错误、离散的异常数据;
8.根据车辆经停特征,提取卫星导航定位数据中的车辆停止点和驻留时间;根据时间序列特征提取行程起终点经纬度和连续路径信息,并根据定位数据的速度和里程参数提取最近n个行程的运行特征,所述运行特征包括行驶平均速度、行驶里程;
9.对应用行政区域的地图数据网格化处理并建立空间索引,将车辆定位数据映射至地图网格,基于起终点经纬度信息快速匹配提取行程终点的网络索引号,从而提取并补充车辆行程的终点网格编号特征;
10.将提取的车辆行程特征作为输入使用xgboost进行模型训练,得到分类器,该分类
器即为违法超限超载车辆行驶目的地预测模型;
11.基于车辆实时行驶数据提取当前行程特征,将实时行程特征作为输入对车辆行驶目的地进行预测,预测得到车辆行驶目的地网格编号。
12.在其中一个实施例中,超限超载车辆卫星导航定位数据主要包括的字段有:运营商编号,经度,纬度,速度,海拔,方位角,终端时间,装载状态,定位状态,报警,
13.接收时间,行驶仪速度,总里程,本方法确定的缺少以上任意一个字段的数据视为信息不完整的数据,经度和纬度共同确定的定位点跳出中国区域范围视为错误数据,同时任意连续的5个定位点之间的距离大于阈值2公里视为轨迹的异常跳动点,这些异常数据需要进行剔除;
14.在其中一个实施例中,车辆行程特征提取的车辆停止点和驻留时间提取。车辆停止点的识别采用直接里程差计算,初步判定时只比较相邻两点的里程差并且将小于2公里的点初步判定为停止点,初步计算后再整合结果以获取所有的停止点;初步判定后进行细化判定,通过计算相邻两点的平均速度,如果速度低于1km/h即将该停止点判定为停车状态。根据车辆停止点在2公里范围内的所有点进行聚合,每个区域内聚合的所有点根据时间序列计算获得车辆的停止时间,并将停止1小时以上的区域进行提取以过滤拥堵导致的停驶状态。
15.在其中一个实施例中,车辆行程特征提取的行驶平均速度和行驶里程等运行特征提取。通过车辆停止点的识别,可以将车辆的运行轨迹划分为停止点和行驶行程,根据时间序列特征提取行程起终点经纬度和连续路径信息,并根据定位数据的速度、里程等参数提取行驶平均速度、行驶里程等运行特征,本方法提取的运行特征为最近5个行程的运行特征数据。
16.行程平均速度:每个行程可以根据其走行里程与走行时间的比值,确认其行程内平均速度;多个行程的平均速度,可以通过算术平均求得某个车辆多个行程的平均速度。行程平均速度根据统计日期的长短,可以继续形成三个特征:过去一个月的平均速度、过去一周平均速度、和上一行程的平均速度。
[0017][0018][0019]
其中,k(i,j)为第k个行程,行程停车点j,行程下一个停车点i;v
k(i,j)
为行程k的平均速度;n为某辆车的n个行程;为某辆车n个行程的平均速度。
[0020]
行程平均里程:每个行程可以确定其走行里程d
i,j
;多个行程的里程,可以通过算术平均求得某个车辆多个行程的平均里程。
[0021]
在其中一个实施例中,将卫星定位数据定义为一个二维平面中的点:
[0022]
pi={loni,lati},
[0023]
loni表示经度,lati表示为纬度。
[0024]
以地球纬度和经度作为坐标轴将包含地图区域可以简单映射为一个二维平面:
[0025]
r2{(lon,lat)|lon∈r
+
,lat∈r
+
}
[0026]
然后使用平行坐标轴的直线把地图划分大小相等的网格:
[0027]ri
={lon
max
,lon
min
,lat
max
,lat
min
}
[0028]
其中lon
max
,lon
min
,lat
max
,lat
min
分别为格子的右边界、左边界、上边界、下边界,所划分得到格子的集合s={r1,r2,r3,

,r
i-1
,ri},从而定义了一个映射关系f:r2→
s。
[0029]
在其中一个实施例中,基于起终点经纬度信息快速匹配提取行程终点的网络索引号,从而补充车辆行程的终点网格编号特征。通过每个网格划分的经纬度范围数据与行程终点的经纬度进行快速匹配,匹配后将网格索引号映射到行程终点。
[0030]
在其中一个实施例中,基于xgboost的预测模型构建。
[0031]
xgboost的目标函数定义为
[0032][0033]
其中gi为损失函数的一阶导,hi为损失函数的二阶导,其中f
t
为第t个基模型,ω为模型的正则项。所以,本方法需要求得每一步损失函数的一阶导和二阶导的值,然后最优化目标函数,就可以得到每一步的f(x),最后根据加法模型得到预测方法。
[0034]
在其中一个实施例中,基于预测模型的车辆行驶目的地预测。基于车辆实时行驶数据提取当前行程特征,将实时行程特征作为输入对车辆行驶目的地进行预测,预测得到车辆行驶目的地网格编号,即完成行驶目的地预测,目的地用网格编号表示,将其在地图上进行映射后实现可视化。
[0035]
第二方面,本发明提供一种基于地图网格索引和xgboost的超限车辆目的地预测系统,包括:
[0036]
数据预处理模块,用于采集超限超载车辆卫星导航定位数据,并对数据开展预处理工作,剔除数据集中信息不完整、错误、离散的异常数据;
[0037]
车辆行程特征提取模块,用于根据车辆经停特征,提取卫星导航定位数据中的车辆停止点和驻留时间;根据时间序列特征提取行程起终点经纬度和连续路径信息,并根据定位数据的速度和里程参数提取最近n个行程的运行特征;所述运行特征包括行驶平均速度、行驶里程;
[0038]
地图数据网格化及索引构建模块,用于对应用行政区域的地图数据网格化处理并建立空间索引,将车辆定位数据映射至地图网格,基于起终点经纬度信息快速匹配提取行程终点的网络索引号,从而提取并补充车辆行程的终点网格编号特征;
[0039]
预测模型构建模块,用于将提取的车辆行程特征作为输入使用xgboost进行模型训练,得到分类器,该分类器即为违法超限超载车辆行驶目的地预测模型;
[0040]
车辆行驶目的地预测模块,基于车辆实时行驶数据提取当前行程特征,将实时行程特征作为输入对车辆行驶目的地进行预测,预测得到车辆行驶目的地网格编号。
[0041]
与现有技术相比,本发明的显著优点为:(1)本发明对目的地进行了定量化表达,能够实现不规则空间数据的量化表示,极大提高预测的准确率;(2)结合车辆运行特征提取能够显著提升预测结果的可解释性,目的地定量表达后通过映射能够快速实现可视化,提高方法的应用实用性。
附图说明
[0042]
图1为本发明预测方法的处理流程图。
[0043]
图2为实施例中地图网格化及索引示意图。
[0044]
图3为实施例中目的地预测结果展示图。
具体实施方式
[0045]
本发明提出一种基于地图网格索引和xgboost的超限车辆目的地预测方法,该方法具体处理步骤如下:
[0046]
1)数据预处理
[0047]
采集超限超载车辆卫星导航定位数据,并对数据开展预处理工作,剔除数据集中信息不完整、错误、离散等异常数据;
[0048]
超限超载车辆卫星导航定位数据主要包括的字段有:运营商编号,经度,纬度,速度,海拔,方位角,终端时间,装载状态,定位状态,报警,接收时间,行驶仪速度,总里程,本方法确定的缺少以上任意一个字段的数据视为信息不完整的数据,经度和纬度共同确定的定位点跳出中国区域范围视为错误数据,同时任意连续的5个定位点之间的距离大于阈值2公里视为异常跳动点,首先剔除这些异常数据。
[0049]
2)车辆行程特征提取
[0050]
根据车辆经停特征,提取卫星导航定位数据中的车辆停止点和驻留时间;根据时间序列特征提取行程起终点经纬度和连续路径信息,并根据定位数据的速度、里程等参数提取最近5个行程的行驶平均速度、行驶里程等运行特征;
[0051]
车辆停止点的识别采用直接里程差计算,初步判定时只比较相邻两点的里程差并且将小于2公里的点初步判定为停止点,初步计算后再整合结果以获取所有的停止点;初步判定后进行细化判定,通过计算相邻两点的平均速度,如果速度低于1km/h即将该停止点判定为停车状态。根据车辆停止点在2公里范围内的所有点进行聚合,每个区域内聚合的所有点根据时间序列计算获得车辆的停止时间,并将停止1小时以上的区域进行提取以过滤车辆因为拥堵导致的停驶状态。
[0052]
如果两个轨迹点的空间距离小于设定的空间位移阈值,同时时间差异大于设定的时间阈值,则可判定为停车,如下式。
[0053]di,j
=loc
i-locj<d
threshold
[0054]
t
i,j
=t
i-tj》t
threshold
[0055]
其中,i,j为连续记录的两个轨迹点;loci,locj为轨迹点对应的里程记录;ti,tj为轨迹点对应的时间戳;d
threshold
为停车的空间位移阈值,本方法设置为2公里;t
threshold
为停车装卸的时间阈值,本方法设置为1小时。
[0056]
通过车辆停止点的识别,可以将车辆的运行轨迹划分为停止点和行驶行程,根据时间序列特征提取行程起终点经纬度和连续路径信息,并根据定位数据的速度、里程等参数提取行驶平均速度、行驶里程等运行特征,本方法才提取的运行特征为最近5个行程的运行特征数据。
[0057]
行程平均速度:每个行程可以根据其行驶里程与行驶时间的比值,确认其行程内平均速度;多个行程的平均速度,可以通过算术平均求得某个车辆多个行程的平均速度。行
程平均速度根据统计日期的长短,可以继续形成三个特征:如过去一个月的平均速度、过去一周平均速度、和上一行程的平均速度。
[0058][0059][0060]
其中,k(i,j)为第k个行程,当前行程的起点为停车点j,当前行程的终点即下一个停车点为i;v
k(i,j)
为行程k的平均速度;n为某辆车的n个行程;为某辆车n个行程的平均速度;
[0061]
行程平均里程:每个行程可以确定其行驶里程d
i,j
;多个行程的里程,可以通过算术平均求得某个车辆多个行程的平均里程。
[0062]
3)地图数据网格化及索引构建
[0063]
对应用行政区域的地图数据网格化处理并建立空间索引,并基于起终点经纬度信息快速匹配提取行程终点的网络索引号,从而补充车辆行程的终点网格编号特征。
[0064]
地图数据网格化及索引构建。将卫星定位数据定义为一个二维平面中的点:
[0065]
pi={loni,lati},
[0066]
loni表示经度,lati表示为纬度。
[0067]
以地球纬度和经度作为坐标轴将包含地图区域可以简单映射为一个二维平面:
[0068]
r2{(lon,lat)|lon∈r
+
,lat∈r
+
}
[0069]
然后使用平行坐标轴的直线把地图划分大小相等的网格:
[0070]ri
={lon
max
,lon
min
,lat
max
,lat
min
}
[0071]
其中lon
max
,lon
min
,lat
max
,lat
min
分别为格子的右边界、左边界、上边界、下边界,所划分得到格子的集合s={r1,r2,r3,

,r
i-1
,ri},从而定义了一个映射关系f:r2→
s。
[0072]
以南京市为例,市域范围为东经118
°
22

至119
°
14

,北纬31
°
14

至32
°
37

,可进一步转化为118.3700-119.2300,31.2300-32.6200,经纬度均按照0.01划分网格,每个网格约1平方公里,每行86个格,每列139个格,对每个网格进行编号,合计11954个网格。
[0073]
基于起终点经纬度信息快速匹配提取行程终点的网络索引号,从而补充车辆行程的终点网格编号特征。通过每个网格划分的经纬度范围数据与行程终点的经纬度进行快速匹配,匹配后将网格索引号映射到行程终点。
[0074]
4)训练样本生成
[0075]
通过上述特征提取,根据训练样本数据提取行程训练模型特征数据,特征数据表示为:行程目的地编号、行程目的地停留时间、行程平均速度、行程平均行驶里程等,如表1所示:
[0076]
表1预测方法的特征项
[0077][0078][0079]
5)基于xgboost的预测模型训练
[0080]
将提取的车辆行程特征作为输入使用xgboost进行模型训练,得到分类器,该分类器即为违法超限超载车辆行驶目的地预测模型。xgboost的目标函数定义为
[0081][0082]
其中gi为损失函数的一阶导,hi为损失函数的二阶导,其中f
t
为第t个基模型,ω为模型的正则项。所以,本方法需要求得每一步损失函数的一阶导和二阶导的值,然后最优化目标函数,就可以得到每一步的f(x),最后根据加法模型得到预测方法。
[0083]
6)基于预测模型的车辆行驶目的地预测
[0084]
基于车辆实时行驶数据提取当前行程特征,将实时行程特征作为输入对车辆行驶目的地进行预测,预测得到车辆行驶目的地网格编号,即完成行驶目的地预测,目的地用网格编号表示,将其在地图上进行映射后实现可视化。
[0085]
基于同样的发明构思,本发明还提供了一种基于地图网格索引和xgboost的超限车辆目的地预测系统,包括:
[0086]
数据预处理模块,用于采集超限超载车辆卫星导航定位数据,并对数据开展预处理工作,剔除数据集中信息不完整、错误、离散的异常数据;
[0087]
车辆行程特征提取模块,用于根据车辆经停特征,提取卫星导航定位数据中的车辆停止点和驻留时间;根据时间序列特征提取行程起终点经纬度和连续路径信息,并根据定位数据的速度和里程参数提取最近n个行程的运行特征;所述运行特征包括行驶平均速度、行驶里程;
[0088]
地图数据网格化及索引构建模块,用于对应用行政区域的地图数据网格化处理并建立空间索引,将车辆定位数据映射至地图网格,基于起终点经纬度信息快速匹配提取行程终点的网络索引号,从而提取并补充车辆行程的终点网格编号特征;
[0089]
预测模型构建模块,用于将提取的车辆行程特征作为输入使用xgboost进行模型训练,得到分类器,该分类器即为违法超限超载车辆行驶目的地预测模型;
[0090]
车辆行驶目的地预测模块,基于车辆实时行驶数据提取当前行程特征,将实时行程特征作为输入对车辆行驶目的地进行预测,预测得到车辆行驶目的地网格编号。
[0091]
上述预测系统中的各个模块的具体实现方式与前述的预测方法各步骤相同,此处不再赘述。
[0092]
下面结合实施例和附图对本发明进行详细说明。
[0093]
实施例
[0094]
(1)训练与测试数据情况
[0095]
样本由2020年9月最后一周的车载卫星导航定位数据构成,总计17555个,根据80%样本为训练样本,20%样本为训练样本划分原则,得到训练样本14044个,测试样本3511个。
[0096]
(2)车辆行程特征提取示例
[0097]
表2车辆行程特征提取示例
[0098]
特征序号车牌号苏a**989苏a**989苏a**9891行程起点经度118.6395118.4610118.60902行程起点纬度32.087132.182531.89463行程开始时间2020090108492120200902084351202009030931494行程开始里程2865528872290105行程开始网格编号261652766行程终点经度118.4610118.7952118.88867行程终点纬度32.182531.867731.81048行程结束时间2020090208435120200902124312202009031537109行程结束里程28872289562907610行程结束网格编号16522633411行驶时间23.90833.98926.089212行驶里程217846613行驶平均速度9.0821.0610.84
[0099]
(3)地图网格化及索引构建
[0100]
本次预测以南京市为例,地图网格化及索引构建见图2。
[0101]
(4)训练样本及数据集生成
[0102]
表3训练样本及数据及生成
[0103][0104][0105]
(5)模型预测结果对比分析
[0106]
模型训练的结果对比发现xgboost相较于随机森林rf以及逻辑回归模型在准确率、精确率以及召回率三方面均具有明显优势。因此,xgboost模型更合适目的地预测问题,预测结果可视化样例如图3所示,
[0107]
xgboost模型测试样本案例预测输出情况样例数据如表4所示。
[0108]
表4模型输出结果样例数据
[0109][0110][0111]
表5模型测试结果对比
[0112]
模型\指标准确率精准率召回率xgboost98.55%98.12%98.55%rf65.86%64.81%65.86%逻辑回归43.25%27.61%43.25%
[0113]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1