一种车联网行驶大数据异常标记方法及电子设备

文档序号:33006705发布日期:2023-01-18 04:54阅读:30来源:国知局
一种车联网行驶大数据异常标记方法及电子设备

1.本发明属于车联网行驶大数据清洗领域,具体涉及一种车联网行驶大数据异常标记方法及电子设备。


背景技术:

2.车联网终端由无线发送模块、数据采集器、传感器组成,车辆实时运行情况包括驾驶员的操作行为、动力系统工作参数数据等:由云计算处理平台处理车辆信息,对数据进行数据分析平台负责对数据报表进行处理分析,供后台管理人员查看。
3.车联网终端数据涵盖了大规模复杂的数据。数据采集到应用过程中因为传感器异常、传输设备异常、外部环境干扰等原因,会导致数据出现跳变、零点漂移、超值等数值不合理问题。值得注意的是,这些“脏数据”并不具备实际意义,同时也会影响后续数据的质量和分析结果。因此,需要清除车联网海量行驶数据中的异常值、保存有价值的数据。
4.传统的车联网行驶数据异常检测方法多依赖于经验规则的总结,即对常见异常数据类型预先进行判断及归纳,并分类制定相应的清洗规则,如对特定字段数据gps车速设定单一量阈值进行超值“脏数据”判断、对时间错误数据进行异常清洗、对零点漂移数据进行清洗等。然而真实情况复杂多变,异常数据类型的经验判断规则仅对特定情况下极少量的数据通道异常数据才有效,判断条件局限且单一,存在设备数据信息利用率低、异常数据检测结果片面等问题,无法满足海量、高维行驶数据的异常检测工作。
5.近年来,随着机器学习算法的研究愈加深入,也有学者将机器学习引入到车联网行驶大数据清洗中,主要包括基于线性模型的异常值检测方法、基于邻近度的异常值检测方法和基于集成方法的异常值检验方法等,其特征提取及特征选择过于依赖现有模型及算法,并没有从车辆动力学特征本身去探究数据及数据特征的意义,存在非线性依赖关系数据检测效果受限、海量数据样本计算效率低、无法体现车辆行驶特征等问题。


技术实现要素:

6.本发明的目的是提供一种车联网行驶大数据异常标记方法,其基于动力学特征指标状态及孤立森林算法实现,解决了传统车辆行驶数据降维处理无法反映车辆动力学特征、非线性依赖关系数据检测效果受限等问题,可为海量高维车联网行驶数据清洗提供更高效、准确的异常数据检测效果。
7.本发明的目的通过如下技术方案实现:
8.一种车联网行驶大数据异常标记方法,包括如下步骤:
9.步骤一、获取某车型车联网行驶数据,并对其进行预处理得到车联网行驶样本数据集;
10.步骤二、构造动力学特征指标,包括动态力观测偏差特征指标以及动态速度观测偏差特征指标;
11.所述的动态力观测偏差特征指标δf,计算公式如下:
12.δf=f
t-f
f-f
w-f
i-fjꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
13.其中,f
t
为驱动力,ff为滚动阻力;fw为空气阻力;fi为坡道阻力;fj为加速阻力;
14.所述的动力学特征指标中的动态速度观测偏差特征指标δv,计算公式如下:
[0015][0016]
其中,va为汽车理论行驶速度,r为车轮半径,n为发动机转速,ig为变速器传动比;i0为主减速器传动比;
[0017]
步骤三、构建二维特征状态训练数据集,所述的二维特征状态训练数据集如下:
[0018]
d={δf,δv}n×2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0019]
其中,d为构造的二维特征状态训练数据集,n为数据集样本点数;特征维数为2;
[0020]
步骤四、利用孤立森林算法实现异常标记;
[0021]
输入构建的二维特征状态训练数据集并进行缺失值处理;
[0022]
再根据式(10)计算数据集平均异常分数;
[0023][0024]
式中,e(h(x))表示数据x在整个孤立森林路径长度均值,c(n)表示用n条数据构建的二叉树的平均路径长度,ε为算法偏移量为-0.5。
[0025]
再根据平均异常分数结果选取合适的异常分数阈值。
[0026]
作为本发明更优的技术方案,步骤一所述的车联网行驶数据包括某车型运行状态信息、地图的输出参数和原始数据信息等特征属性。
[0027]
作为本发明更优的技术方案,步骤一所述的车联网行驶数据预处理包括时间不连续条件下的加速度求解和变速器传动比数据匹配。
[0028]
作为本发明更优的技术方案,所述的时间不连续条件下的行驶加速度求解具体步骤如下:
[0029]
根据式(2)计算前后数据点时间戳差值,并判断前后数据点时间戳差值是否满足时间连续条件;
[0030]
δt=t
i+1-tiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0031]
式(2)中,δt为前后数据点时间戳差值,t
i+1
为第i+1个数据点的时间戳,ti为第i个数据点的时间戳;
[0032]
然后对符合时间连续条件的前后数据点进行合并,采用式(3)构造子样本速度数据集;
[0033]vsub
=[vi,v
i+1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0034]
式(3)中,v
sub
为构造的子样本速度数据集,v
i+1
为第i+1个数据点的速度,vi为第i个数据点的速度;
[0035]
再对计算得到时间连续条件下的子样本速度数据集求解导数得到时间连续条件下第i点及第i+1点的行驶加速度;
[0036]
最后迭代递归此过程,得到样本数据集行驶加速度。
[0037]
作为本发明更优的技术方案,所述的变速器传动比数据匹配为利用传动系模型拟合某车型发动机外特性曲线计算全局转速对应的各档车速范围,匹配获得可选档位集合;
同时根据车速与发动机转矩最大时对应动力性期望车速偏差最小的原则,从可选档位集合中选择动力性最佳档位,获得对应的变速器传动比数据。
[0038]
作为本发明更优的技术方案,所述的数据x在整个孤立森林路径长度h(x)通过公式进行标准化;其中,h(k)=in(k)+ξ,ξ为欧拉常数;x为待训练的数据样本,n表示单棵孤立决策树的训练样本的样本数。
[0039]
本发明还有一个目的是提供一种电子设备,所述的电子设备包括显示器;处理器,所述的处理器用于对车联网行驶数据进行预处理得到车联网行驶样本数据集;构造动态力观测偏差特征指标以及动态速度观测偏差特征指标;构建二维特征状态训练数据集;利用孤立森林算法实现异常标记。
[0040]
本发明提供的一种车联网行驶大数据异常标记方法,首先根据车辆动力学关系构造动态偏差特征指标,计算数据集的动态力观测偏差特征指标及动态速度观测偏差特征指标,根据计算结果构造二维特征状态训练数据集,利用孤立森林算法对异常数据进行标记。
[0041]
本发明的异常标记方法从车辆动力学角度构建指标对多维车辆行驶数据集进行降维处理,并结合孤立森林算法实现异常数据标记,解决了传统车辆行驶数据降维处理无法反映车辆动力学特征、非线性依赖关系数据检测效果受限等问题,可为海量高维车联网行驶数据清洗提供更高效、准确的异常数据检测效果,大大降低其计算成本及时间成本。
附图说明
[0042]
为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]
图1是本发明的基于动力学特征指标状态及孤立森林的车联网行驶大数据异常标记方法流程示意图;
[0044]
图2是本发明的实施例1中构造的二维特征状态训练数据集;
[0045]
图3是本发明的实施例1中利用孤立森林算法得到的数据集平均异常分数;
[0046]
图4是本发明的实施例1中利用孤立森林算法得到的异常标记效果图;
[0047]
图5和图6和图7是本发明的实施例1中时间序列异常标记可视化效果图。
具体实施方式
[0048]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0049]
参考图1,本发明提供一种车联网行驶大数据异常标记方法,包括如下步骤:
[0050]
步骤一、获取某车型车联网行驶数据,并对其进行预处理得到车联网行驶样本数据集。
[0051]
步骤二、构造动力学特征指标,包括动态力观测偏差特征指标以及动态速度观测
偏差特征指标;所述的动态力观测偏差特征指标δf,计算公式如下:
[0052]
δf=f
t-f
f-f
w-f
i-fjꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0053]
其中,f
t
为驱动力,ff为滚动阻力;fw为空气阻力;fi为坡道阻力;fj为加速阻力;
[0054]
所述的动力学特征指标中的动态速度观测偏差特征指标δv,计算公式如下:
[0055][0056]
其中,va为汽车理论行驶速度,r为车轮半径,n为发动机转速,ig为变速器传动比,i0为主减速器传动比。
[0057]
步骤三、构建二维特征状态训练数据集,所述的二维特征状态训练数据集如下:
[0058]
d={δf,δv}n×2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0059]
其中,d为构造的二维特征状态训练数据集,n为数据集样本点数,特征维数为2;
[0060]
步骤四、利用孤立森林算法实现异常标记;
[0061]
输入构建的二维特征状态训练数据集并进行缺失值处理;
[0062]
再根据式(10)计算数据集平均异常分数;
[0063][0064]
式中,e(h(x))表示数据x在整个孤立森林路径长度均值,c(n)表示用n条数据构建的二叉树的平均路径长度,ε为算法偏移量,默认为-0.5;
[0065]
再根据平均异常分数结果选取合适的异常分数阈值。
[0066]
在一些实施方式中,步骤一所述的车联网行驶数据包括某车型运行状态信息、地图的输出参数和原始数据信息等特征属性。
[0067]
在一些实施方式中,步骤一所述的车联网行驶数据预处理包括时间不连续条件下的加速度求解和变速器传动比数据匹配。
[0068]
在一些实施方式中,所述的时间不连续条件下的行驶加速度求解具体步骤如下:根据式(2)计算前后数据点时间戳差值,并判断前后数据点时间戳差值是否满足时间连续条件;
[0069]
δt=t
i+1-tiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0070]
式(2)中,δt为前后数据点时间戳差值,t
i+1
为第i+1个数据点的时间戳,ti为第i个数据点的时间戳;
[0071]
然后对符合时间连续条件的前后数据点进行合并,采用式(3)构造子样本速度数据集;
[0072]vsub
=[vi,v
i+1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0073]
式(3)中,v
sub
为构造的子样本速度数据集,v
i+1
为第i+1个数据点的速度,vi为第i个数据点的速度;
[0074]
再对计算得到时间连续条件下的子样本速度数据集求解导数得到时间连续条件下第i点及第i+1点的行驶加速度;
[0075]
最后迭代递归此过程,得到样本数据集行驶加速度。
[0076]
在一些实施方式中,所述的变速器传动比数据匹配为利用传动系模型拟合某车型发动机外特性曲线计算全局转速对应的各档车速范围,匹配获得可选档位集合;同时根据
车速与发动机转矩最大时对应动力性期望车速偏差最小的原则,从可选档位集合中选择动力性最佳档位,获得对应的变速器传动比数据。
[0077]
在一些实施方式中,所述的数据x在整个孤立森林路径长度h(x)通过公式进行标准化;其中,h(k)=in(k)+ξ,ξ为欧拉常数;x为待训练的数据样本,n表示单棵孤立决策树的训练样本的样本数。
[0078]
本发明还提供一种电子设备,所述的电子设备包括显示器和处理器,所述的处理器用于对车联网行驶数据进行预处理得到车联网行驶样本数据集;构造动态力观测偏差特征指标以及动态速度观测偏差特征指标;构建二维特征状态训练数据集;利用孤立森林算法实现异常标记。
[0079]
实施例1
[0080]
一种车联网行驶大数据异常标记方法,包括如下步骤:
[0081]
步骤一、获取车联网行驶样本数据集:获取某车型车联网行驶数据,对所述车联网行驶数据进行预处理,得到车联网行驶样本数据集。其中,预处理操作主要包括时间不连续条件下的加速度求解以及变速器传动比数据匹配。
[0082]
获取车联网行驶数据,数据采集频率为1hz,包括时间戳、gps速度、经度、纬度、高程、车轮车速、发动机转速、发动机转矩、坡度、整车质量等数十维特征属性,如式(1)所示。
[0083]
x={t,vg,lg,l
t
,h,vw,ve,t
tq
,α,m,...}n×kꢀꢀꢀꢀꢀꢀ
(1)
[0084]
其中,x为车联网数据集;k为数据集特征维度,且k>10;n为数据集样本点数;t为时间戳;vg为gps车速;lg为经度;l
t
为纬度;h为高程;vw为车轮车速;ve为发动机转速;t
tq
为发动机转矩;α为坡度角;m为整车质量。
[0085]
对所述车联网行驶数据进行预处理,得到车联网行驶样本数据集。其中,预处理操作主要包括时间不连续条件下的加速度求解以及变速器传动比数据匹配。
[0086]
1.1时间不连续条件下的行驶加速度求解;
[0087]
首先根据式(2)计算前后数据点时间戳差值,并判断前后数据点时间戳差值是否满足时间连续条件。
[0088]
δt=t
i+1-tiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0089]
式(2)中,δt为前后数据点时间戳差值,t
i+1
为第i+1个数据点的时间戳,ti为第i个数据点的时间戳。
[0090]
然后对符合时间连续条件的前后数据点进行合并,采用式(3)构造子样本速度数据集。
[0091]vsub
=[vi,v
i+1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0092]
式(3)中,v
sub
为构造的子样本速度数据集,v
i+1
为第i+1个数据点的速度,vi为第i个数据点的速度。
[0093]
计算得到时间连续条件下的子样本速度数据集,对其求解导数得到时间连续条件下第i点及第i+1点的行驶加速度。最后迭代递归此过程,得到样本数据集行驶加速度。
[0094]
1.2根据传动系模型进行档位匹配得到变速器传动比数据;
[0095]
利用传动系模型拟合某车型发动机外特性曲线,计算全局转速对应的各档车速范围,匹配获得可选档位集合。同时根据车速与发动机转矩最大时对应动力性期望车速偏差
最小的原则,从可选档位集合中选择动力性最佳档位,获得对应的变速器传动比数据。
[0096]
步骤二、构造动力学特征指标;
[0097]
动力学特征指标包括动态力观测偏差特征指标的构建以及动态速度观测偏差特征指标的构建。首先根据汽车行驶过程纵向力平衡关系构建动力学特征指标中的动态力观测偏差特征指标,再根据发动机转速、传动系参数与汽车速度之间的关系构建动力学特征指标中的动态速度观测偏差特征指标。
[0098]
2.1构造动态力观测偏差特征指标
[0099]
根据汽车行驶过程纵向力平衡关系,整车纵向动力学模型如下:
[0100]ft
=ff+fw+fi+fjꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0101]
其中,f
t
为驱动力,ff为滚动阻力;fw为空气阻力;fi为坡道阻力;fj为加速阻力;
[0102]
对整车纵向动力学模型逐项分析,式(4)各项展开得到的纵向动力学模型如下:
[0103][0104]
其中,t
tq
为发动机转矩;ig为变速器传动比;i0为主减速器传动比;η
t
为传动系的机械效率;r为车轮半径;g为作用在汽车上的重力,g=mg,m为整车质量,g为重力加速度;α为坡度角;cd为空气阻力系数;ρ为空气密度;a为迎风面积;u为汽车行驶速度;δ为汽车旋转质量换算系数;为行驶加速度。
[0105]
根据纵向动力学模型构建动态力观测偏差特征指标δf,计算公式如下:
[0106][0107]
2.2构造动态速度观测偏差特征指标
[0108]
发动机转速、传动系参数与汽车速度之间的关系如下:
[0109][0110]
其中,va为汽车理论行驶速度,n为发动机转速。
[0111]
根据式(7)构建动力学特征指标中的动态速度观测偏差特征指标δv,计算公式如下:
[0112][0113]
其中,vg为车辆行驶样本数据集中的gps车速数据。
[0114]
步骤三、构建二维特征状态训练数据集;
[0115]
对预处理后得到的车联网行驶样本数据集进行动力学特征指标计算,利用动态力观测偏差特征指标计算结果和动态速度观测偏差特征指标计算结果构造二维特征状态训练数据集。
[0116]
根据式(5)计算动力学特征指标中的动态力观测偏差特征指标,根据式(8)计算动力学特征指标中的动态速度观测偏差特征指标。构造二维特征状态训练数据集如下:
[0117]
d={δf,δv}n×2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0118]
其中,d为构造的二维特征状态训练数据集,n为数据集样本点数;特征维数为2:每
个样本数据点由两个特征属性描述,即由所构造的动态力观测偏差特征指标δf和动态速度观测偏差特征指标δv描述。
[0119]
根据动力学特征指标构造的二维特征状态训练数据集可视化效果,如图2所示。
[0120]
步骤四、孤立森林算法实现异常标记;
[0121]
输入二维特征状态训练数据集,利用异常数据“少且不同于其他正常点”的特征,对其应用孤立森林算法计算数据点被孤立的平均路径长度,返回得到数据集的平均异常分数。根据平均异常分数结果选取合适的异常分数阈值,对小于异常分数阈值的数据点进行标记,实现对数据集的异常检测。
[0122]
孤立森林中单棵孤立决策树将随机选取训练数据集中的样本及特征,并在所选特征最大值、最小值范围内随机选取一个数值点划分该特征数据,重复递归划分步骤,直到所有数据点被孤立或达到孤立决策树指定的最大高度/深度。
[0123]
首先输入构建的二维特征状态训练数据集并进行缺失值处理,保证数据集的数据可用且有效。对其应用孤立森林算法计算数据点被孤立的决策树路径长度,根据式(10)计算数据集的平均异常分数,如图3所示。
[0124][0125]
式中,e(h(x))表示数据x在整个孤立森林路径长度均值,c(n)表示用n条数据构建的二叉树的平均路径长度,计算公式为用于对h(x)进行标准化。其中,h(k)=in(k)+ξ,ξ为欧拉常数。x为待训练的数据样本,n表示单棵孤立决策树的训练样本的样本数,ε为算法偏移量,默认为-0.5。
[0126]
根据平均异常分数结果选取合适的异常分数阈值,对小于异常分数阈值的数据点进行标记,实现对数据集的异常标记。标记效果如图4所示,正常数据点使用圆形标记,异常数据点使用三角形标记。其中,图4中圆框内异常数据点对应的时间序列异常数据标记如图5、图6、图7所示。
[0127]
本发明优化的异常分数阈值为-0.2,对小于异常分数阈值的数据点进行异常标记,实现对数据集的异常检测。
[0128]
通过实施例1中的技术方案和结果可知:本发明的车联网行驶数据清洗方法高效、异常数据检测结果准确,计算成本及时间成本低。
[0129]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0130]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
[0131]
最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1