一种基于出租车GPS的数据归整化方法及装置与流程

文档序号:16918850发布日期:2019-02-19 19:11阅读:382来源:国知局
一种基于出租车GPS的数据归整化方法及装置与流程

本发明涉及数据处理领域,更具体的涉及一种基于出租车gps的数据归整化方法及装置。



背景技术:

gps(英文为:globalpositioningsystem,中文为:全球定位系统)作为一种空间卫星导航定位系统,具有实时性、全天候和全路网性的特点。出租车gps数据已经成为获取路网动态交通信息、判别路网交通状态以及统计交通拥堵持续时间样本的重要数据源。另外,出租车数据的精度直接影响路网交通状态判别的准确性,进而影响交通拥堵持续时间样本的准确性。因此,如果要得到准确的交通拥堵持续时间样本,就需要对出租车gps数据进行规整化处理,进而提高路网交通状态判别的准确性。

现有出租车gps数据中的噪声数据及异常数据一方面主要在数据采集、传输及存储过程中产生,另一方面是由于出租车的异常行为模式产生。现有技术在提高数据精确性方面提出了很多方法,也验证了方法的可用性。但是由于缺乏对数据本身的特征进行分析,即缺乏对出租车gps数据详细的探索性分析,因此得出的噪声数据分类会有疏漏,如在判断速度的噪声数据时,如果不考虑速度数据的累计分布情况及车辆的异常行为车速值,数据处理得到的速度就不够精确,进而会影响交通状态判别和拥堵时间统计的准确性。

综上所述,现有技术中由于对交通拥堵持续时间样本存在删失数据,导致判断交通拥堵持续的时间精度比较低。



技术实现要素:

本发明实施例提供一种基于出租车gps的数据归整化方法及装置,用以解决现有技术因对交通拥堵持续时间样本存在删失数据,导致判断交通拥堵持续的时间精度比较低的问题。

本发明实施例提供了一种基于出租车gps的数据归整化方法,包括:

根据设定的除噪模式对获取到的原始数据进行除噪处理得到无噪数据,所述原始数据来源于多辆出租车在多个路段的gps数据;

将同一辆出租车对应的所述无噪数据包括的无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度;

根据中值归约法将同一个路段内包括的多辆出租车对应的所述均值速度转换为中值速度,所述中值速度为同一个路段内包括的多辆出租车的瞬时速度的中位数。

优选地,所述除噪模式包括以下情形中的一种或者多种:

设定区域经纬度异常数据;

设定速度异常数据;

方向角异常数据;

eff无效数据;

出租车运行状态无意义数据;

出租车在同一时间点的多条数据。

优选地,所述时序模型的时间间隔为15秒,所述时序模型如下所示:

其中,newdate=newyear+newmonth+newday+newhr+newmin+newsec,newyear=year,newmonth=month,newday=day,newhr=hr,newmin=min,newsec=sec,year、month、day、hr、min和sec分别表示无噪数据的gps时间的年、月、日、时、分和秒,newyear、newmonth、newday、newhr、newmin和newsec分别表示待归约数据的gps时间的年、月、日、时、分和秒。

优选地,所述均值归约法如下所示:

其中,μx表示均值经纬度,x表示在15秒内同一辆出租车包括的所述无噪数据对应的每个所述经纬度,n表示在15秒内同一辆出租车包括的所述无噪数据对应的所述经纬度的数量;μv表示均值速度,v表示在15秒内同一辆出租车包括的所述无噪数据对应的每个所述速度,m表示在15秒内同一辆出租车包括的所述无噪数据对应的所述速度的数量;

所述根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度,还包括:

将所述待归约数据的gps时间对应的经纬度转换为均值经纬度。

优选地,所述中值归约法如下所示:

其中,表示中值速度,μv表示均值速度,p表示在15秒内同一个路段包括的出租车数量。

本发明实施例还提供了一种基于出租车gps的数据归整化装置,包括:

得到单元,用于根据设定的除噪模式对获取到的原始数据进行除噪处理得到无噪数据,所述原始数据来源于多辆出租车在多个路段的gps数据;

第一转换单元,用于将同一辆出租车对应的所述无噪数据包括的无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度;

第二转换单元,用于根据中值归约法将同一个路段内包括的多辆出租车对应的所述均值速度转换为中值速度,所述中值速度为同一个路段内包括的多辆出租车的瞬时速度的中位数。

优选地,所述除噪模式包括以下情形中的一种或者多种:

设定区域经纬度异常数据;

设定速度异常数据;

方向角异常数据;

eff无效数据;

出租车运行状态无意义数据;

出租车在同一时间点的多条数据。

优选地,所述时序模型的时间间隔为15秒,所述时序模型如下所示:

其中,newdate=newyear+newmonth+newday+newhr+newmin+newsec,newyear=year,newmonth=month,newday=day,newhr=hr,newmin=min,newsec=sec,year、month、day、hr、min、sec表示无噪数据的gps时间的年、月、日、时、分、秒,newyear、newmonth、newday、newhr、newmin、newsec表示待归约数据的gps时间的年、月、日、时、分、秒。

优选地,所述均值归约法如下所示:

其中,μx表示均值经纬度,x表示在15秒内同一辆出租车包括的所述无噪数据对应的每个所述经纬度,n表示在15秒内同一辆出租车包括的所述无噪数据对应的所述经纬度的数量;μv表示均值速度,v表示在15秒内同一辆出租车包括的所述无噪数据对应的每个所述速度,m表示在15秒内同一辆出租车包括的所述无噪数据对应的所述速度的数量;

所述第一转换单元还用于:将所述待归约数据的gps时间对应的经纬度转换为均值经纬度。

优选地,所述中值归约法如下所示:

其中,表示中值速度,μv表示均值速度,p表示在15秒内同一个路段包括的出租车数量。

本发明实施例提供了一种基于出租车gps的数据归整化方法及装置,该方法包括:根据设定的除噪模式对获取到的原始数据进行除噪处理得到无噪数据,所述原始数据来源于多辆出租车在多个路段的gps数据;将同一辆出租车对应的所述无噪数据包括的无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度;根据中值归约法将同一个路段内包括的多辆出租车对应的所述均值速度转换为中值速度,所述中值速度为同一个路段内包括的多辆出租车的瞬时速度的中位数。该方法中,通过对出租车gps原始数据包括的噪声类型进行分析,将噪声数据删除,避免了错删数据的问题;再者,考虑到出租车的经过路口的gps记录时间和载客过程的时间,建立时序模块,并将无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约和中值归约将待归约数据的gps时间对应的速度确定为中值速度,即确定了某个确定区域在设定时间内包括的出租车的瞬时速度,该方法一方面原始数据减少了2/3以上,另一方面提高了数据质量和数据精度。从而解决了现有判断交通拥堵持续的时间精度较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于出租车gps的数据归整化方法流程示意图;

图2为本发明实施例提供的出租车gps原始数据累计分布示意图;

图3为本发明实施例提供的出租车gps数据上传示意图;

图4为本发明实施例提供的出租车载客行为分析示意图;

图5为本发明实施例提供的基于时序模型的无噪数据的gps时间转为为待归约数据的gps时间流程示意图;

图6为本发明实施例一提供的无噪数据示意图;

图7为本发明实施例一提供的基于时序模型转换后的数据示意图;

图8为本发明实施例一提供的基于均值归约处理后的数据结果示意图;

图9为本发明实施例一提供的某路段的交通状态图;

图10为本发明实施例提供的一种基于出租车gps的数据归整化装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示例性的示出了本发明实施例提供的一种基于出租车gps的数据归整化方法流程示意图,该方法至少可以应用在城市交通数据处理中。

如图1所示,该方法主要包括以下步骤:

步骤101,根据设定的除噪模式对获取到的原始数据进行除噪处理得到无噪数据,所述原始数据来源于多辆出租车在多个路段的gps数据;

步骤102,将同一辆出租车对应的所述无噪数据包括的无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度;

步骤103,根据中值归约法将同一个路段内包括的多辆出租车对应的所述均值速度转换为中值速度,所述中值速度为同一个路段内包括的多辆出租车的瞬时速度的中位数。

在介绍以下步骤之前,需要先介绍以下出租车的gps数据的来源以及在成为原始数据之前需要进行如下数据处理。

1)、确定获取到数据是否有缺失值:

在实际应用中,由于缺失数据会对统计,分析工作产生影响,导致分析结果的偏差。在本发明实施例中,可以通过统计软件分析得到数据中各变量是否有缺失值,进而考虑如何对缺失值进行处理。

具体地,表1为记录出租车gps数据的数据字典,在实际应用中,需要将出租车gps数据库中的数据逐条对应数据字典,使用r语言判断和处理缺失值的函数,判断一天的出租车gps数据从数据库中加载到内存中的原始数据是否有缺失值。

2)、确定获取到的数据的详细情况,判断数据是否有异常值:

在实际应用中,通过统计可以获得数据中各字段数据的最小值、最大值、均值及各分为点的值,从而可以大体判断数据的分布情况及数据是否有异常值。

具体地,可以使用r语言对数据中各字段数据的最小值、一分位点、中位数、平均值、三分位点、最大值指标进行统计,并记录它们的经度、纬度、高度、速度、方向字段每个指标的最大值,通过记录的数据看是否存在异常值。举例来说,以出租车gps数据的车牌字段为例进行探索。西安市出租车gps数据上传时间间隔为30秒,gps终端设备正常情况下每辆车一天的数据量为2880条,通过统计单车的gps记录数发现,每天单车记录数大于2880的车辆占总车辆的35%,其中一部分原因是gps终端上传数据或者数据库录入数据出现故障,使得同一辆车在同一时刻出现了多条数据;另一部分原因是车辆的点火、熄火、签到、签退和防劫状态被记录在了数据中,其中点火、熄火、签到和签退状态对本发明的研究没有意义,而处于防劫状态的车辆,其gps数据上传时间间隔为1~5秒,由此分析得出gps数据具有冗余性。因此,需要通过r语言对其它字段的一系列指标进行统计。

3)、获知数据的累计分布情况:

由于判断噪声数据过程中阈值的选择具有重要的作用,因此需要通过统计软件获取数据的累计分布情况。

具体地,可以参考我国《城市道路交通运行评价指标体系》的标准行程车速指标进行交通状态判别,使用r语言绘制当日出租车速度数据的累积分布图得出累计分布情况。举例来说,图2为本发明实施例提供的出租车gps原始数据累计分布示意图,如图2所示,图中速度为0的曲线斜率最大,说明gps数据中速度为0的数据概率密度最大,并且速度为0的数据大约占了50%,说明速度数据中存在异常值;西安市的城市道路最高限速为70km/h,从累计分布图可以看出,速度大约在大于70以后,曲线的斜率接近于0,可以说明大约有99%的数据速度小于70,所以在对噪声数据分类时,可以将速度数据的阈值定为70。从而确定速度数据阈值方便噪声数据分类。

表1出租车gps数据字典

通过上述3个步骤可以将获取到的原始数据进行了相关处理,在本发明实施例中,为了能够避免误删数据,还根据以下多种情况建立了出租车gps数据噪声模式,即将原始数据内符合以下情况的数据作为噪声,全部删除掉。以下以西安市2017年10月16日的出租车gps数据为例,来详细介绍符合噪声模式的多种情况:

1)、设定区域经纬度异常数据:

在实际应用中,需要对获取到数据所在区域范围进行规定,即获取到的数据应用在设定范围内,若获取到数据对应的经纬度不再该区域的范围内,则可以将该数据定义为噪声数据。比如,西安市的东经经度范围为【107.40,109.49】,北纬纬度范围为【33.42,34.45】,则可以将gps数据中经度数值小于107.4或者大于109.49的数据,纬度数值小于33.42或者大于34.45的数据定义为噪声数据。

2)、设定速度异常数据:

在实际应用中,不管是城市道路还是高速道路,均设置有最高限速,若获取到数据对应的速度大于最高限速,则可以将该数据定义为噪声数据。比如,西安市城市道路最高限速为70km/h,根据瞬时速度数据累积分布情况得出,有99%的速度数据小于等于70km/h,所以将gps数据中瞬时速度大于70km/h的数据定义为噪声数据。

需要说明的是,由于城市道路中的高架桥或高大的建筑物会影响gps信号的接收,其接收到的gps数据会产生跳点误差,会存在根据同一辆车的gps时间和经纬度字段计算车辆的平均行程速度大于70km/h,因此,将车辆的平均行程速度大于70km/h的数据也定义为噪声数据。

3)、方向角异常数据:

因为方向角的数值范围为0~359,所以将gps数据中方向角数值大于359的数据定义为噪声数据。

4)、eff(英文为:effective)无效数据:

数据字典中eff字段为1的数据是有效数据,为0的数据是无效数据。所以将gps数据中eff字段为0的数据定义为噪声数据。

5)、出租车运行状态无意义数据:

由于处于无状态、签到、签退、点火、熄火状态的出租车数据对判别交通状态无意义,所以将gps数据中车辆运行状态无意义的数据定义为噪声数据。

6)、出租车在同一时间点的多条数据

gps终端上传数据或者数据库录入数据出现故障,会使同一辆车在同一时刻出现了多条数据,观察数据特征会发现,同一辆车在同一个时间点出现的多条数据中时,仅有一条数据方向角和速度都不为零,所以对于同一辆车在同一时间点的多条数据,只保留速度最大的那一条数据,其余数据全部确定为噪声数据。

在本发明实施例中,设定区域经纬度异常数据,方向角异常数据,eff无效数据,出租车运行状态无意义数据和出租车在同一时间点的多条数据为噪声数据时,可以根据各字段直接判断并进行数据除噪。对应设定速度异常数据中对应的瞬时速度也可以根据各字段直接判断并进行数据除噪,而对应平均速度,则需要根据gps数据中同一辆车两点的经纬度数据采用haversine公式计算其行驶距离,除以时间跨度得到车辆的平均行程速度,将平均行程速度大于70km/h的数据进行清理。

在本发明实施例中,对采用haversine公式根据同一辆车两点的经纬度数据确定同一辆车的平均速度的具体方法,不做限定。

在步骤101中,在设置的位置区域内,先确定在该区域内行驶的出租车,然后获取出租车的gps数据。需要说明的是,现有的gps数据的获取是通过安装在出租车上的gps监控系统获取的。在本发明实施例中,为了区别说明,将最先获取到的gps数据定义为原始数据,进一步地,根据设定的除噪模式,对原始数据进行除噪处理,即将原始数据内满足除噪模式包括的多情情况的数据删除掉。比如,若原始数据内存在速度大于设定速度值得数据时,则可以将这条或者多条大于设定速度的数据删除掉;若原始数据对应的经纬度没有在设定的经纬度范围时,则将这条或者多条未在设定经纬度范围的数据删除掉;若原始数据内存在方向角大于设定范围方向角的数据时,则将这条或者多条大于设定方向角的数据删除掉;若原始数据中存在eff字段为0的数据时,则将这条或者多条eff字段为0的数据删除掉;若原始数据中存在没有车辆运行状态的数据时,则将这条或者多条没有车辆运行状态的数据删除掉;若原始数据内存在同一个时间点对应多个数据时,则值包括上述多个数据中具有最大速度的一条数据,将剩余的多条数据删除掉。

需要说明的是,上述除噪模式内包括的多种情况,可以只有一种情况与原始数据中的某条或多条数据相匹配,也可以有多种情况分别与原始数据中的多条数据相匹配,也可有全部情况均与原始数据中的多条数据相匹配,在本发明实施例中,对除噪模式包括的多种情况不做具体地限定。

在步骤102之前,需要介绍一下本发明实施例建立数值归约时序模型的时间间隔。

在实际应用中,由于出租车具有独特的运行特点,再者出租车在上传gps数据时需要结合城市道路的特点,所以,本发明实施例中,需要根据出租车的运行特点以及出租车上传gps数据的特点,来确定时序模型的时间间隔。

1)、出租车经过的路段至少记录1个gps点的特点:

本发明实施例中,假设城市道路相邻两交叉口之间路段的最短距离为300米,路段设计速度为60km/h。图3为本发明实施例提供的出租车gps数据上传示意图,如图3所示,图3显示了具体地gps数据上传的各种情况,即出租车在位置a时,进行了第一次gps数据上传,当出租车向上至位置b时,进行了第二次gps数据上传,由于该城市路口为丁字路口,则出租车在该路口可能会出现两种向上路线,即出租车没有行驶至位置b,而是行驶至位置c,并且在位置c完成了第二次gps数据上传。根据图3所示情况,可以确定,若出租车经过该路段只记录了一个gps数据,则至少需要18s。

2)、出租车载客行为分析

图4为本发明实施例提供的出租车载客行为分析示意图,如图4所示,该图展示了一辆出租车发生的载客行为时的行驶速度及时间变化图,出租车未载客时以35km/h的平均速度行驶,而当有乘客需要乘车时,司机有2秒钟的时间将车速减速到零,乘客花费4秒钟的时间乘车,司机再用2秒钟的时间将车加速到正常行驶速度。根据图4所示情况可以确定,出租车gps最佳上传时间间隔必须包含出租车载客行为所需要的时间,即至少需要8s。

结合1)和2)两部分得出的时间范围,在本发明实施例中,将出租车gps数据最佳上传时间间隔定为15秒,进一步地,将数值归约时序模型的时间间隔定为15秒,并按照此时间间隔,后续对数据进行归约处理。

在步骤102中,从步骤101确定的无噪数据中确定其中一辆出租车在一个时间段内包括的全部无噪数据,进一步地,确定该辆出租车无噪数据的gps时间,由于确定的是该辆出租车在一个时间段内的全部无噪数据,则可以肯定,在无噪数据内可以包括有多个无噪数据的gps时间。

进一步地,将确定的无噪数据的gps时间根据时序模型转换为待归约的gps模型,在前面已经阐述过,时序模型的时间间隔为15秒,则再次,该时序模型的时间间隔即为15秒。

在本发明实施例中,时序模型可以通过如下公式(1)来表示:

在该公式(1)中,newdate=newyear+newmonth+newday+newhr+newmin+newsec,newyear=year,newmonth=month,newday=day,newhr=hr,newmin=min,其中,year、month、day、hr、min和sec分别表示无噪数据的gps时间的年、月、日、时、分和秒,而newyear、newmonth、newday、newhr、newmin和newsec分别表示待归约数据的gps时间的年、月、日、时、分和秒。

举例来说,图5为本发明实施例提供的基于时序模型的无噪数据的gps时间转为为待归约数据的gps时间流程示意图,如图5所示,若无噪数据的gps时间为2008年8月8日8点8分8秒时,则根据上述公式(1)可以确定待归约数据的gps时间为2008年8月8日8点8分15秒。这里的区别是,由于无噪数据的gps时间对应的秒为8,而8恰好符合“8≤sec≤22”,则根据公式(1),可以确定待归约数据的gps时间对应的秒为15;若无噪数据的gps时间为2008年8月8日8点8分28秒时,则根据上述公式(1)可以确定待归约数据的gps时间为2008年8月8日8点8分30秒。这里的区别是,由于无噪数据的gps时间对应的秒为28,而28恰好符合“23≤sec≤37”,则根据公式(1),可以确定待归约数据的gps时间对应的秒为30;若无噪数据的gps时间为2008年8月8日8点8分38秒时,则根据上述公式(1)可以确定待归约数据的gps时间为2008年8月8日8点8分45秒。这里的区别是,由于无噪数据的gps时间对应的秒为38,而38恰好符合“38≤sec≤52”,则根据公式(1),可以确定待归约数据的gps时间对应的秒为45;若无噪数据的gps时间为2008年8月8日8点8分58秒时,则根据上述公式(1)可以确定待归约数据的gps时间为2008年8月8日8点9分45秒。这里的区别是,由于无噪数据的gps时间对应的秒为58,而58恰好符合“53≤sec≤59”,则根据公式(1)内的“newdate=newdate+1min”,可以确定待归约数据的gps时间对应的分为9分,而对应的秒没有变化,依然为58。

当确定一辆车的在设定时间段的待归约数据的gps时间之后,则可以根据上述方法,确定设定时间段内包括的全部出租车的待归约数据的gps时间。再次对确定全部出租车的待归约数据的gps时间不做详细介绍。

进一步地,根据确定的待归约数据的gps时间,可以通过本发明实施例提供的均值归约法,依次确定每辆出租车在一个设定时间段内的均值速度和均值经纬度。

在本发明实施例中,均匀归约法包括以下两个公式:

公式(2)以时序模型中15秒为时间间隔,分别将同一辆出租车对应的无噪数据中所包括的多个经纬度值进行求平均,即得到一辆车在设定时间段的均值经纬度。公式(2)中,μx表示均值经纬度,x表示在15秒内同一辆出租包括的无噪数据对应的每个经纬度,n表示在15秒内同一辆出租车包括的无噪数据对应的经纬度的数量。

在实际应用中,对速度数据的处理要区分出租车停车等待红灯行为与停车载客行为,停车等待红灯行为车辆的速度数据特征为在连续两个15秒间隔内,无噪数据的速度都为0,而停车载客行为车辆的速度数据特征为在连续两个15秒间隔内,无噪数据的速度有0和非0值。因此,对于停车等待红灯行为数据的均值归约表示为0。而对于非0,则需要将同一辆出租车对应的无噪数据中所包括的多个速度进行求平均。其中,μv表示均值速度,v表示在15秒内同一辆出租车包括的无噪数据对应的每个速度,m表示在15秒内同一辆出租车包括的无噪数据对应的速度的数量。

在步骤103中,由于均值归约时以单辆出租车为研究对象,将同一辆车在一个时间段内的多条数据进行平均值计算;而中值归约时以路段(区域)所包括的全部出租车为研究对象,将同一路段同一时间段内的所有出租车的多条数据进行中值计算。

基于此,在步骤102确定同一辆车在一个时间段的均值速度的基础上,可以确定同一个路段在设定的时间段内包括的全部出租车的中值速度。在本发明实施例中,对同一路段(区域)在15秒的时间间隔内所有出租车的速度数据进行归约处理,从而减小因出租车路边长时间停车行为以及当前路段行程速度高而个别出租车低速行驶行为的影响。

中值速度可以通过下列公式(4)确定:

其中,表示中值速度,μv表示均值速度,p表示在15秒内同一个路段包括的全部出租车数量。

在实际应用中,由于车辆加速和减速时,车速一般是连续变化的,因此在本发明实施例中,引入离散系数对出租车原始数据与数值归约数据的质量进行比较,度量数值归约的效果。在统计学中一组数据的离散程度可以使用离散系数来衡量,如果离散系数值大说明该组数据离散程度大,否则说明该组数据离散程度小。离散系数的定义为数据的标准差与其均值之比,实际计算时可以采用统计分析软件如r、python、spss等计算。换言之,速度数据离散程度比较大,说明数据精度不高。因此,中值速度数据作为归约后得到的速度数据,它的离散系数肯定要低于原始数据的离散系数。

综上所述,本发明实施例提供了一种基于出租车gps的数据归整化方法及装置,该方法包括:根据设定的除噪模式对获取到的原始数据进行除噪处理得到无噪数据,所述原始数据来源于多辆出租车在多个路段的gps数据;将同一辆出租车对应的所述无噪数据包括的无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度;根据中值归约法将同一个路段内包括的多辆出租车对应的所述均值速度转换为中值速度,所述中值速度为同一个路段内包括的多辆出租车的瞬时速度的中位数。该方法中,通过对出租车gps原始数据包括的噪声类型进行分析,将噪声数据删除,避免了错删数据的问题;再者,考虑到出租车的经过路口的gps记录时间和载客过程的时间,建立时序模块,并将无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约和中值归约将待归约数据的gps时间对应的速度确定为中值速度,即确定了某个确定区域在设定时间内包括的出租车的瞬时速度,该方法一方面原始数据减少了2/3以上,另一方面提高了数据质量和数据精度。从而解决了现有判断交通拥堵持续的时间精度较低的问题。

为了能够更清楚的介绍本发明实施例提供的一种基于出租车gps的数据归整化方法,以下根据结合2017年10月16日的出租车gps数据和附图6~图9为例,更详细的介绍本发明实施例提供的数据归整化方法。

步骤201,原始数据除噪处理:

2017年10月16日的出租车gps数据有31,904,400条记录数,根据数据除噪模式对原始数据进行数据除噪后,无噪数据的记录数为22,494,879条。

步骤202,应用时序模型将无噪数据时序化:

将建立的时序模型对无噪数据加工后得到时序化数据,选取车牌号为陕at9633的具有异常行为的出租车进行对比分析。该车一天有14145条记录,图6为本发明实施例一提供的无噪数据示意图,如图6可以看出无噪数据中该车的gps数据上传时间间隔大约为5至6秒,通过时序模型对数据加工后如图7所示,图7为本发明实施例一提供的基于时序模型转换后的数据示意图,其中time字段为新添加的字段,是gps时间时序化后对应的时间。可以看出一个time的时刻大约对应三个gps_time。

步骤203,均值归约:

图8为本发明实施例一提供的基于均值归约处理后的数据结果示意图,采用均值归约法对时序化数据处理后如图8所示,time字段中的每个时刻对应一个速度、经度、纬度。

步骤204,均值归约前后数据质量度量:

分别统计无噪数据和均值归约数据中,该车的数据量条数,并按瞬时速度数据分别计算离散系数,可以得出均值归约后该车的数据量从14145条减少到了4846条,数据量减少了66%,离散系数从0.9402降低到了0.8165,数据质量有了提高。

对均值归约数据进行中值归约处理,至此数值归约步骤结束。分别统计原始数据和数值归约数据的数据量条数,并按瞬时速度数据分别计算离散系数,可以得出数值归约后一天的出租车数据量从31,904,400条减少到20,991,331,数据量减少了34%,离散系数从1.2963降低到了0.8042,数据质量有了提高。

步骤205,地图匹配

在本发明实施例中,由于gps定位误差、坐标系转换误差、电子地图误差等问题,出租车gps数据不能直接呈现在道路上,通过地图匹配技术可以对gps数据的精度进行改善。在地图匹配阶段本发明实施例使用出租车gps数据与百度地图进行匹配,由于道路的gps信息较少,适合使用相关性分析算法对西安市出租车gps数据与西安市路网进行匹配,提高gps数据的精度。将数值归约后的出租车gps数据进行了地图匹配。

具体地,提取数值归约后gps数据的经度、纬度、速度、方向角等字段,将数值归约后的出租车gps数据按5分钟的时间间隔,与百度地图进行地图匹配。图9为本发明实施例一提供的某路段的交通状态图,如图9所示为2017年10月16日8:05-8:10时间段内二环南路东段的交通状态图。

基于同一发明构思,本发明实施例提供了一种基于出租车gps的数据归整化装置,由于该装置解决技术问题的原理与一种基于出租车gps的数据归整化方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。

图10为本发明实施例提供的一种基于出租车gps的数据归整化装置结构示意图,如图10所示,该装置主要包括:得到单元301,第一转换单元302和第二转换单元303。

得到单元301,用于根根据设定的除噪模式对获取到的原始数据进行除噪处理得到无噪数据,所述原始数据来源于多辆出租车在多个路段的gps数据;

第一转换单元302,用于将同一辆出租车对应的所述无噪数据包括的无噪数据的gps时间根据时序模型转换为待归约数据的gps时间,根据均值归约法将所述待归约数据的gps时间对应的速度转换为均值速度;

第二转换单元303,用于根据中值归约法将同一个路段内包括的多辆出租车对应的所述均值速度转换为中值速度,所述中值速度为同一个路段内包括的多辆出租车的瞬时速度的中位数。

优选地,所述除噪模式包括以下情形中的一种或者多种:

设定区域经纬度异常数据;

设定速度异常数据;

方向角异常数据;

eff无效数据;

出租车运行状态无意义数据;

出租车在同一时间点的多条数据。

优选地,所述时序模型的时间间隔为15秒,所述时序模型如下所示:

其中,newdate=newyear+newmonth+newday+newhr+newmin+newsec,newyear=year,newmonth=month,newday=day,newhr=hr,newmin=min,newsec=sec,year、month、day、hr、min、sec表示无噪数据的gps时间的年、月、日、时、分、秒,newyear、newmonth、newday、newhr、newmin、newsec表示待归约数据的gps时间的年、月、日、时、分、秒。

优选地,所述均值归约法如下所示:

其中,μx表示均值经纬度,x表示在15秒内同一辆出租车包括的所述无噪数据对应的每个所述经纬度,n表示在15秒内同一辆出租车包括的所述无噪数据对应的所述经纬度的数量;μv表示均值速度,v表示在15秒内同一辆出租车包括的所述无噪数据对应的每个所述速度,m表示在15秒内同一辆出租车包括的所述无噪数据对应的所述速度的数量;

所述第一转换单元302还用于:

将所述待归约数据的gps时间对应的经纬度转换为均值经纬度。

优选地,所述中值归约法如下所示:

其中,表示中值速度,μv表示均值速度,p表示在15秒内同一个路段包括的出租车数量。

应当理解,以上一种基于出租车gps的数据归整化装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种基于出租车gps的数据归整化装置所实现的功能与上述实施例提供的一种基于出租车gps的数据归整化方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1