基于城市场景中车联网时空数据的分析处理方法与流程

文档序号:16545041发布日期:2019-01-08 20:48阅读:362来源:国知局
基于城市场景中车联网时空数据的分析处理方法与流程

本发明涉及车联网领域,具体涉及城市道路场景中车联网时空数据分析处理方法。



背景技术:

车联网中的原始数据来自于各个车辆节点在运行过程中产生的时间及空间数据,包括但不限于离散的状态信息和连续的轨迹数据。这些数据具有分散性强,结构差异大,实时性强和信息密度低的特性,因此数据的处理、存储、管理本身,以及在基于结构化的数据之上进一步对其它性质分析都是车联网数据的研究方向。

在对车联网的时空数据研究中通常会将其与移动自组织网络manet(mobileadhocnetwork)做类比,例如有研究者结合大数据以及manet对车联网面临的挑战进行了总结:要找到合适的过滤器来提取有价值的车联网信息;将无用冗余的信息从收集到的数据里剔除;对数据有效的表示方式和分析;使用合适预测模型来进行交通管理;安全通信。在对数据应用方面,从传统网络负载和容量有限不足以支撑车辆间各种多媒体数据传输出发,由qos角度来阐述了车联网的必要性。具体方法是将路网进行划分,相应车辆映射到划分出的格子中,以交通密度、带宽、时延和花费作为指标对车辆的网络接入进行评价,从而对车辆接入传统网络或是车联网以及车联网中哪个节点进行决策,最终的目的是使车辆获得较好的qos。有研究者基于gps数据的分布更为广阔,而且lbs(locationbasedservice)的兴起使得数据的查询更新频率更快,而查询方式的多样性,如给定时间周期和数据维度的查询使得传统的dbms(databasemanagementsystem)和关系型数据库对这些复杂结构支持并不够。在如今key-value结构的非关系型数据存储快速发展的情形下,在静态的r树结构上使用hilbert曲线和hbase技术,使得所提出模型对范围查询和k近邻查询都有不俗的性能表现。

同样的,车联网时空数据作为一种特殊的大数据形态,很多学者也会对已有的数据处理分析手段来进行迁移。例如,从大数据的特性分析和存储方面进行了阐述,并对dijkstra算法应用到路由中进行了评估,并对车联网大数据的几个挑战进行了总结:(1)实时数据。因为车联网数据实时性强,会随着时间不断更新,只要车辆在运动就会有新的输入产生,其组织和存储需要优化。(2)网络密度多变。车辆装备的gps和传感器多种多样,产生的数据类型及结构也多种多样,既有结构化数据也有非结构化数据,如何对这些数据进行标准化也是车联网大数据研究的一部分。(3)高动态拓扑和移动结构。相对于manet,因为车辆具有更高的移动性vanet的拓扑结构变化更为频繁。(4)大规模网络和高速计算能力。gps数据大小的与节点数量成正相关,而相关数据计算和路由策略选取则是与gps数据成倍数增长关系,需要有高速计算才能满足vanet实时性的需求。(5)匿名地址和基础设施的支持。因为车辆的高速移动,传统的ip地址定位模式显然不适合vanet,如何对车辆的标识符进行管理也是车联网要解决的问题。

轨迹数据作为车联网时空数据的一种特殊表达形式,许多研究也针对它来展开。例如,利用kalman滤波方式来对数据进行预处理,可以有效地去除噪声点,加上particle过滤方式使得算法更具有普遍性。在数据的压缩方面,针对轨迹数据的特性,利用mdl(minimaldescriptionlanguage)的方式,主要包括l(h)和l(d|h)两个概念,其中l(h)为用来描述假设h的数据流长度,而l(d|h)则是已知假设情况下用于描述的数据流长度。所以如果用l(h)表示分段后的总长度而l(d|h)表示原始数据和压缩后数据之间的差异,通过最小化l(d|h)+l(h)的值就可以找到合适的压缩方式。此外,cse-tree的数据结构来对数据进行存储和管理,其思路是将地理空间映射到网格中去,对应的车辆轨迹就会按照时间序列被切割成小的段,落入相应的地理空间网格,其中每一段都可以用2d坐标配合时间戳来标注起点和终点,这些点的索引可以用b+tree形式来建立,如此可以方便轨迹数据的范围查询。有研究者使用了基于mbr(minimumboundingrectangles)的轨迹数据段距离度量方式,mbr采用了最小矩形方式对轨迹进行包裹,如果分别用(xl,yl),(xu,yu)来表示矩形的左下及右上坐标,那么两条数据段l,l′的距离就可以采用sqrt((δ([xl,xu],[xl′,x′u]))2+(δ([yl,yu],[yl′,y′u]))2)公式来表示。

基于数据而进行的车联网分析则是我们对数据进行处理和存储的意义所在。有研究者使用移动代理的概念提出了交通时空数据分析模型,描述了一个全新的用于交通分析的全局数据流框架。在所提出的方案中设计伪彩色和轮廓图用于交通数据分析,然后评价所提出方案在不同网络条件下的性能从而证明方案的有效性。有研究者针对vanet中拓扑结构动态多变,时空数据量大、时效性强、复杂不易、统一存储和管理等特点,使用贝叶斯联盟博弈(bayesiancoalitiongame,bcg)和学习自动机(learningautomata,la)来使网络中的节点联合处理这些时空数据。

在目前的车联网研究中按照抽象层次由高到低有两种典型的方向。第一种是将车辆抽象为节点从而构成车联网,对网络的性质进行研究。第二种则是从网络层具体的网络路由出发研究车联网的性质。但两者中大多数对数据的研究对车联网实时性的数据特点,以及拓扑结构变化快的特性考虑不足,在网络中车辆数目不断增加,相应的各类数据规模将会越来越大,由于网络拥塞导致传输效率低下,最终严重影响其实用性,因此探究着眼于车联网的大数据处理方式迫在眉睫。



技术实现要素:

发明目的:本发明研究方法是针对时空数据的特性,给出了基于噪声去除和数据填充的源数据处理方法;然后,通过特征无量纲转化,基于信息增益的特征选取,以及基于主成分分析的特征降维等方法对特征数据进行压缩,从而减少车联网网络模型训练时由数据带来的困扰,总体上提升车联网网络模型的训练效率。

现有研究方法主要从统计学角度进行粗粒度数据处理,没有综合考虑车联网自身特性,缺少有效处理时空数据的方法,从而从源头上缺乏对车联网通达性提供支撑的时空有效信息。本发明综合车联网数据源、采样方法、采样频率和数据结构不同等问题,针对时空数据的特性,给出了基于噪声去除和数据填充的源数据处理方法,达到数据填充的目的,可以用于解决数据完整但由于采样频率不同而造成的计算误差问题;然后,通过特征无量纲转化,突出原始特征数据特征内的差异;基于信息增益的特征选取,以及基于主成分分析的特征降维等方法对特征数据进行压缩,减少车联网网络模型训练时高维度带来的困扰,总体上提升车联网网络模型的训练效率。

为此,本发明具体给出以下技术方案实现:

城市道路场景中车联网时空数据分析处理方法,其特征在于,具体方法包括如下步骤:

步骤1.基于噪声去除和数据填充的时空数据处理;

步骤1.1基于语义的噪声点去除

步骤1.2时间性自相关数据填充

步骤1.3时空性协同过滤数据填充

步骤2.基于特征压缩的时空数据降维。

步骤2.1特征无量纲转化

步骤2.2基于信息增益的特征选取

步骤2.3基于主成分分析的特征降维

有益效果

本发明目的在于公开一种减少车联网网络模型训练时由数据带来的困扰的城市道路场景中车联网时空数据分析处理方法。针对时空数据的特性,给出了基于噪声去除和数据填充的源数据处理方法;然后,通过特征无量纲转化,基于信息增益的特征选取,以及基于主成分分析的特征降维等方法对特征数据进行压缩,从而从根本上可以有助于提升车联网网络模型的训练效率,对构建车联网数据转发路由策略和通达性方案具有重要意义。

附图说明

图1可信区间示意图

图2整个基于噪声去除和数据填充的时空数据处理流程图

图3特征差异

图4方向定值转化

图5连续变量离散化

图6基于特征压缩的时空数据降维流程图

图7为本发明方法流程图

具体实施方式

本发明的具体实施过程如图7所示,包括如下2个方面:

①基于噪声去除和数据填充的时空数据处理

②基于特征压缩的时空数据降维

基于噪声去除和数据填充的时空数据处理

车联网数据来源广泛,包括不同的车辆以及基础设施,由于数据源的不同,从采样方法、采样频率再到采样结果,都会有很大的差异。而且由于受物理情况影响,会出现采样数据丢失的情况。而传统的数据预处理方法并不完全适用于结构变化频繁的车联网情况,所以,针对数据填充以及标准化处理方面需结合车联网特性来进行。

(1)基于语义的噪声点去除

在数据采样过程中,采集到的数据不可能是完全准确的,总会因为传感器噪声或者其它原因造成误差。有些情况小的误差是可以接受的,比如我们用gps数据去定位用户在哪个位置,但在大多数的车联网数据使用情况中,我们需要对误差大的噪声点进行去除,小的误差进行平滑处理,从而使得采样数据可用。

在采样数据中,最容易出现异常点的是gps坐标,首先可以根据车辆的速度和位置坐标来进行筛选。设车辆p在t时刻的速度为vt,加速度为at,位置坐标为st(xt,yt),下一个采样点t′的速度为vt′,位置坐标为st′(xt′,yt′),t与t′的时间间隔为δt。如果只考虑t状态,加速度与速度同向,那么在t′点的预测坐标应该

但在实际行驶中由于路况复杂,速度和加速度不可能一成不变,而且由于都是矢量,所以要考虑方向问题。我们分别就角度和距离设置可信阈值θ,l,对应数学表达式(1)和(2):

其中,θ0和l0为常数,在vt和at不大的情况下作为可信阈值,此处的以加速与速度夹角为正举例,引入可信阈值之后变为了一个有边界的扇形区域,中心点的坐标为rcenter=st+vtδt,根据逆时针向量旋转矩阵得到rleftbottom,rlefttop,相应表达式为(3)和(4),同理根据顺时针矩阵得到rrightbottom,rrighttop,对应表达式(5)和(6),可信值的范围也就是由这几个点围成的区域,由此来评估t′时刻的观测值st′。

可信区间如图1可信区间示意图虚线包裹范围所示。

根据数据点是否落在可信区间判断其是否属于噪声点的决策函数定义为noisejudge(x),表达式为(7):

其中,x为观测值st′,noisejudge(x)为决策函数,值域为{tru,efalse}。当等式右边的bool表达式为真时取true;反之为false,同时该观测点被判定为噪声点,从而去除。

(2)时间性自相关数据填充

时间性自相关数据填充方法主要针对在数据去噪之后产生的采样空白,或由于其它情况导致的少量数据丢失情况,从时间角度分析车辆的历史行为数据情况,从而对某点的数据进行预测估计,进而达到数据填充的目的。此外,方法还可以用于解决数据完整但由于采样频率不同而造成的计算误差问题,同样是根据同一车辆不同时间点采样数据来得到某点的直接观测值或估计值。

要实现数据填充的目的,时间性自相关数据填充的方法主要是对指数平滑方法进行改良,标准指数平滑公式定义如公式(8):

st=αxt+(1-α)(st-1+tt-1)(8)

其中st是在时间点t得到观测值xt后的平滑级数,同样也可以是某些模型里的预测值,α是介于0到1之间的平滑系数,tt-1是上一个时间周期的加性平滑因子,零表示无线性变化趋势,从公式中可以看出st的值由过去一段时间内的观察值来决定,而α系数的引入可以给时间相近的观测值以高权重,而时间较远的观测值则更多充当了平滑值的角色。

如果要将此方法用在对采样数据进行填充方面,需要结合车联网中节点变化频繁,数据跳跃性变化的特性,对平滑系数进行调整,使得时间近的采样值有更高的权重,与传统的指数平滑预测不同,填充不仅可以得到过去一段时间的观测值,同样需要结合未来一段时间内的采样值来进行,所以可以对上述公式进行变化及展开。

根据数据自身前后一段时间内的值情况进行的数据填充定义为时间性自相关数据填充函数selffill(t)。

其中tj为距离目标时间点t相距的时间周期个数,如时间周期为t,采样点时间戳为tj,则tj=(|tj-t|+t)/t。相比于之前的公式,这样可以按照公式结合目标时间点t的前后一段时间内采样数据进行计算,从而得到我们需要的填充值,而且对系数α*(1-α)tj-1进行了归一化,可以方便我们对前后的时间余量进行控制,避免对时间相距较远的平滑量进行多余的计算,如果n=2,那么只需要进行前后各两项即四项的值即可,大量减少了由于计算带来的性能瓶颈和延迟,也不会对准确度造成影响。

(3)时空性协同过滤数据填充

如果是因为噪声点或者其它原因引起的少量数据丢失或空白,那么根据时间序列上的前后节点就可以对目标时间点上的数据进行填充,即时间性自相关数据填充方法。但如果是大量的数据空白或者车辆本身不支持历史数据的存储,只能显示瞬时参数,体现在时间序列上即存在连续的空值,空值段前后的时间节点都相距较远,无法据此对之前的数据进行估计填充,需要借助其它地方的数据推测。对于其空间数据,可以通过使用路网匹配的方式,将前后轨迹数据映射到路网中,对可能的轨迹进行评价,从而选取概率最大的一条作为填充数据,但其在对应时间点上的参数情况则预测困难。在车联网中虽然节点状态变化频繁,拓扑结构也每时每刻都在更新,但由于路网的存在,人们对于最佳路线选取的策略也几乎一致,两辆在某时间点上连通的车辆在过去和未来都可能存在相似的轨迹和状态。尤其是在高速路段以及工作日早晚高峰,车辆的目的地极为相近,所以可以借助这些轨迹相似的车辆对目标车辆的空值数据段进行填充。

协同过滤自诞生以来被广泛应用于推荐系统中,推荐问题的本质在于挖掘用户潜在性的需求,而协同过滤的核心思想是用向量描述用户的历史信息,然后计算用户之间的相似性,再通过与目标用户相似性较高的邻居对其产品的评价,从而得到目标用户对特定产品的潜在需求程度,系统也就根据计算到的结果来进行针对性推荐。将协同过滤的思想用到车联网的数据填充上,关键是对车辆之间的相似性进行计算。

假设需要填充的时间序列为tbegin~tend时刻,在tend时间点上节点vp状态为cp(tend)={cp1,cp2,…,cpn},其中cpi,i∈[1,n]表示速度、加速度等归一化后的不同维度属性,γ表示临近节点集。

γ={vq|distance(vp,vq)≤range}(10)

其中,distance(vp,vq)表示节点vp,vq之间的距离,此处以欧式距离计算,range表示临近节点划分阈值,此处取节点间最小通信距离。那么集合γ中每个节点的状态为cqi(tend),i∈[0,|γ|]。

tend时刻两个节点相似度定义为simtend(p,q),表达式为(11),展开式为(12):

simtend(vp,vq)的主体为皮尔逊相关系数,主要用于求解线性相关程度,后边的加1常数项是为了保证整个simtend(vp,vq)函数的值位于[0,2]内,为正值且与相关程度呈正相关。有了相似度之后,就可以据此来进行数据填充,用相似度作为权值。

根据t时刻节点周围的邻近节点时空数据来进行数据填充的函数定义为时空性协同过滤填充函数cooperatefill(t)。

其中,k∈[1,|γ|]表示t时刻选取q中simt(vp,vq)最高的个数,按照实际情况可以只取3,一般不取到上限值|γ|以节省计算量。所以待填充数据也由这k个邻居点的数据生成。

综合(1)和(2),整个基于噪声去除和数据填充的时空数据处理流程如算法1所示。具体如图2所示。

基于特征压缩的时空数据降维

当数据维度变高时,很多机器学习问题会变的复杂而困难,变量数目不变情况下,计算复杂度会随着变量维度的增加而指数级的增长,这种现象被称之为维数灾难。为了在数据处理过程中可以加快模型的训练速度,优化最终结果,接下来我们将介绍如何通过特征无量纲转化、基于信息增益的特征选取和主成分分析分别来避免无意义信息,复杂信息和重复信息。

(1)特征无量纲转化

无量纲化是使不同规格的数据转换到同一规格,在按照信息增益进行过特征筛除之后剩下的特征必然是对我们的训练和决策有用的部分,但在这些特征中会有冗余信息以及复杂信息对我们下一步模型的训练造成困扰,因此我们需要对特征进行无量纲转化,对于不同特征属性我们可以采取与之对应的方法。具体方法如下:

1)按照物理意义进行转化

这种方法主要处理经纬度等位置坐标信息,经纬度可以准确的表示一个物体在地球上所处的位置,不管是分析车辆行为还是轨迹数据都是非常重要的特征,其作为特征属性在计算信息增益时必然不会被筛除掉,但在实际应用中我们更多的是通过经纬度来对距离进行度量,或者定位物体所属区域。假设两点经纬度分别为地球半径r=6371km,那么利用haversine公式可以得到距离d,这样就可以将四个特征维度压缩到一维。

其中

2)通过区间缩放对特征进行标准化

因为不同的特征往往具有不同的量纲和单位,这样对结果以及模型的训练都会产生很大的影响,为了消除指标之间的量纲影响,需要进行数据标准化即无量纲化处理,以保证特征间的差异水平在同一起跑线上。原始特征数据经过标准化处理后,特征内的差异性才会得以体现。

如图3所示,不同形状代表不同节点,我们可以看出在车辆不同特征间由于量纲不同其差异非常大,很难用同一个量级来描述这种差异,因此我们需要借助max-minscaler来进行缩放。xi为一个样本中第i维特征的值,mini为所有样本中第i维特征的最小值,maxi是第i维特征的最大值,那么缩放后的x′i∈[0,1]为(16)所示:

3)特征定值化

对于一些特征的值在分布区间非常大,但我们并不需要如此“丰富”的值区间。例如在判断车辆是否处于运动状态时,我们并不关心其速度是多少那么就可以用二值函数来进行判断,判断条件见(17):

对于车辆的行进方向我们也希望用1(north),2(south),3(west),4(east)四个定值来表示而非一个角度值,建立如图4所示坐标系,定义辅助方向矢量原始方向矢量为两个方向界定变量转换后的x′就可以表示为公式(18)。

方向及向量表示如图4所示。

(2)基于信息增益的特征选取

根据信息熵h(y),信息增益ig(y|x)和相对信息增益rig(y|x)的概念,根据公式(19)中rig的定义,在h(y)与h(y|x)相等时相对信息最低为0,从条件熵的定义来看,代表的是在一定条件x下,随机变量y的不确定度,所以h(y)=h(y|x)意味着x的加入没有减少y的不确定度,当y为标签,x表示特征时,该特征即为无关特征,可以被筛除掉。

当将该方法用于连通强度的训练模型中时,因为连通强度是具体的数值,属于连续性随机变量,不是离散性的,而h(y)的计算是针对离散性随机变量而进行的,所以需要进行变量离散化处理,连续变量的离散化通常有以下几种方法,具体如图5所示,其中:

1)二元转化

该方法是将连续型变量根据指定阈值,转化成二元分类变量,小于阈值的为0,大于则取1。从名字和方法就可以看出此种方法通常用于二元分类中标签的离散化。

2)多元转化

当两类不足以表达变量之间的差异时,就扩展为多类,即给定n+1个阈值,最后会将连续性变量转化为n个指定的离散变量值,方法与特征无量纲转化中的定值转化类似。

3)分位数离散化

与前两种方法的指定阈值不同,分位数离散化根据样本数据中的具体情况来划分为大致相等的部分,其设定范围后每个离散变量值中样本的数目都相近。

在对样本标签连续变量连通强度的离散化时,考虑到分布不均的特性,如果采用指定阈值的方式无法体现其分布规律,而且进行离散化的目的在于使用信息增益进行特征选取,因此对细粒度和粗粒度样本应采取不同的误差容忍度,使用分位数离散化的方式更符合使用情形。

(3)基于主成分分析的特征降维

在通过特征的筛除和转化后,如果要进一步压缩信息量,减少模型训练时高维度带来的困扰,主成分分析(principalcomponentanalysis,pca)是一种在尽可能保持原有信息量情况下有效的线性降维方法,它主要是通过寻找某种线性投影,将高维的数据映射到低维的空间中表示,目的在所投影的维度上数据的方差最大,从而使得即使使用较少的数据维度,也可以最大化保留原数据点的特性。

假设输入的数据集为{x(1),x(2),…,x(m)},维度为n,即首先要计算出协方差矩阵∑:

在计算出协方差矩阵的特征向量,按列排放组成矩阵u:

将x用特征向量为基表示就变为表达式:

在n维特征向量里只需要舍弃末尾的几个维度,选取topk(0<k≤n)即可达到降维目的。

综合(1)和(2),基于特征压缩的时空数据降维如算法2所示。具体流程图如图6所示。

通过对采集的原始时空数据的噪声去除、数据填充和特征降维处理后,整合成存储在mongodb里的训练数据集,从而有助于提升车联网网络模型的训练效率。

创新点

创新点:针对城市场景中车联网网络客观存在路网交错复杂,拓扑频繁变化,以及通信协议多样等特性,导致车联网数据源、采样方法、采样频率和数据结构不同等问题,提出了车联网时空数据分析处理方法,从而有效提升车联网网络模型的训练效率。

本发明结合传统的数据预处理方法并不完全适用于结构变化频繁的车联网情况,考虑车联网特性,给出了基于语义的噪声点去除和时间性自相关,时空性协同过滤数据填充方法,结合车联网特性对原始采集到的车联网时空数据进行处理,在此基础之上,利用特征无量纲转化和基于信息增益的特征选取以及基于pca的特征降维方法对车辆节点的特征数据进行压缩降维,从而为车联网网络模型的训练效率的提升提供铺垫,也为车联网路由策略以及构建通达性方案具有重要意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1