互联网+时代下的车辆驾驶行为分析大数据公共服务平台的制作方法

文档序号:10725088阅读:349来源:国知局
互联网+时代下的车辆驾驶行为分析大数据公共服务平台的制作方法
【专利摘要】一种互联网+时代下的车辆驾驶行为分析大数据公共服务平台,对车辆驾驶行为、汽车行驶风险概率进行分析,其中包括步骤一、通过大数据平台存储汽车一段时间内的行驶数据并采用MapReduce框架对这些数据进行处理和分析,步骤二、基于大数据平台下对数据进行处理过后统计出某个区域和时间段内汽车非正常驾驶次数,包括超速、超载、急加速急减速、疲劳驾驶、夜间行驶,步骤三、对非正常驾驶行为统计后,利用自组织映射神经网络算法计算车辆风险概率,并对后续车辆行驶风险进行预测。本发明通过采集车辆的北斗/GPS导航数据,利用大数据平台对采集的数据进行预处理,在对数据进一步数据挖掘,可以分析和判断驾驶者的驾驶行为。
【专利说明】
互联网+时代下的车辆驾驶行为分析大数据公共服务平台
技术领域:
[0001] 本发明涉及物理领域,尤其涉及数据的存储与处理技术,特别是一种互联网+时代 下的车辆驾驶行为分析大数据公共服务平台。
【背景技术】:
[0002] 随着信息化程度提高,生活中充满着海量信息,在这些信息中有些与我们的生活 息息相关,分析与挖掘它们可以为我们改善生活,服务公众,提高社会信息化程度,为智慧 城市及信息化的动态管理方案提供了新的契机。
[0003] 随着道路行驶的车辆不断增加,因人的违规驾驶导致人员财产损失的风险也在不 断增加。不同地段区域内车辆出现违规驾驶行为的风险也不同,所以不能将简单的将风险 平均,要因地而异。这就是需要考虑到汽车行驶的环境因素,所以首先要对汽车行驶区域进 行划分然后分析出每个区域内的风险概率。现有技术中,不能从生活中的海量信息分析车 辆驾驶行为。

【发明内容】

[0004] 本发明的目的在于提供一种互联网+时代下的车辆驾驶行为分析大数据公共服务 平台,所述的这种互联网+时代下的车辆驾驶行为分析大数据公共服务平台要解决现有技 术中不能从生活中的海量信息分析车辆驾驶行为的技术问题。
[0005] 本发明的这种互联网+时代下的车辆驾驶行为分析大数据公共服务平台,包括对 车辆驾驶行为、汽车行驶风险概率进行分析,其中包括以下步骤:
[0006] 步骤一、通过大数据平台存储汽车一段时间内的行驶数据并采用MapReduce框架 对这些数据进行处理和分析,
[0007] 步骤二、基于大数据平台下对数据进行处理过后统计出某个区域和时间段内汽车 非正常驾驶次数,包括超速、超载、急加速急减速、疲劳驾驶、夜间行驶,
[0008] 步骤三、对非正常驾驶行为统计后,利用自组织映射神经网络算法计算车辆风险 概率,并对后续车辆行驶风险进行预测。
[0009] 进一步的,对汽车驾驶数据进行处理分析,其中包括,第一步建立数据存储层,主 要方案为基于Hadoop分布式文件系统(简称HDFS)存储方案和基于HDFS+分布式面向列开源 数据库(简称HBase)技术存储方案;第二步建立数据处理层,在数据处理层中采用大规模并 行计算框架MapReduce (简称MR)框架来处理原始数据,第三步建立数据分析层,对数据进一 步分析、建模和挖掘,第四步建立数据可视化,第五步建立安全层,为大数据平台提供安全 保护系统,对外提供统一的服务接口,用户通过统一数据访问接口或统一门户页面来访问 大数据服务平台。
[0010] 进一步的,利用隐马尔科夫算法找到车辆行驶的路网路段,并通过地图数据找到 汽车行驶的路段信息,最后将定位数据中行驶速度输入时空限速模型中,最终得出车辆是 否超速的判断。
[0011] 进一步的,利用大数据平台实现支持向量机的算法,其中包括,第一步、将原始数 据进行标准化消除量纲的影响;第二步、通过原始数据中时间、速度和里程计算平均速度、 平均加速度和启动加速度,并作为训练样本;第三步、将大量的训练样本上传到HDFS中并做 分块,每个节点会启动HDFS的Map任务对块中数据进行序列最小优化(简称SM0)训练算出每 个块数据的支持向量,最后将各个节点训练处的支持向量输入到HDFS的Reduce任务中交于 SM0算法训练得到最终的支持向量;第四步、利用第三步中的支持向量得到分类器,并利用 分类器对车辆是否超载进行判别。
[0012] 进一步的,建立大数据平台下线性回归模型,其中包括,第一步、利用大数据平台 找到该路段内所有汽车行驶的数据,并计算出相邻两个数据之间速度差值;第二步、利用统 计线性回归算法得到某段道路上汽车以某个起始车速V。和行驶至下一时刻车速变化量A v 为输入,以汽车在该段时间内行驶距离S为输出,并统计该路段内所有行驶汽车的数据,第 三步、计算回归方程,得到该路段内汽车速度变化量和行驶距离的模型S = f(Av,v。),最 后利用该方程判别该汽车发生急加速和急减速的概率,判断规则为第i量汽车的距离与模 型距离误差e=| IS-S1! |越大则说明汽车发生急加速和急减速概率越大,越小则说明概率 越低。
[0013] 具体的,首先通过大数据平台从原始数据中找出某个路段所有时间所有车辆的行 驶数据,对这些数据进行处理得出相邻两点速度的差值,接着利用回归分析方法得出回归 模型。通过回归模型得出汽车在该路段发生急加速和急减速的概率。设同一个路段上两个 时间点的速度差为A v,汽车的每个时间点的初始速度为V。。因为汽车在一段时间内行驶距 离与速度差和初始速度成线性关系,所以可以该回归模型为
[0014] S: = h0 + ^Αν +1)^0 ( 1)
[0015] 其中为变量Δν和VQ的偏回归系数。
[0016] 通过训练数据和最小二乘原理得出偏回归系数的值,并利用方差分析对得出的模 型进行检验,最后根据e = |s-S|的大小得出汽车发生急加速和急减速的概率。其中S为汽车 实际的行驶距离,f为满足回归模型下的行驶距离。
[0017] 进一步的,所述的计算车辆风险概率的步骤中包括,第一步度量风险概率,第二步 建立风险概率模型,首先对历史数据进行预处理,包括对数据进行聚类得到1个簇即C n = {I1J2……Ιι}其中^是其中的一个簇,然后针对聚类结果构造预测模型包括求簇的平均 风险概率和特征向量与平均向量的相似系数,接着对风险概率进行预测。
[0018] 具体的,风险概率是风险发生可能性的百分比,是对事物状态发生可能性的衡量。 汽车在同一区域内行驶数据具有较高的相似性,不同区域内行驶数据差别性比较大。以一 个区域为一个簇,将汽车行驶数据按特征点进行聚类,可以得到不同区域内的行驶数据。每 一个特征点(特征向量)都与簇中的点有关,并假设簇中第i个特征向量为XUieN),那么风 险概率可以表示为
[0020]其中| |Ν:(χ4 I I表示区域r中所有点的个数,Nr#)为点xWr为半径的领域。U(Nr (X1))为该簇中安全风险发生的次数。有(2)可以看出,风险概率就是该簇中所有点的平均 概率。也可以表示为
[0021] P(X')^s{X\X)xP,(X ) ( 3 )
[0022] 其中λ'(Α'叉)表示特征点X1与所有点的平均向量的相似度。
[0023]其中,风险概率预测模型确定包括三部分:
[0024]对历史数据的预处理
[0025] (1)从历史数据中抽象出数据属性,在汽车驾驶行为数据包括车牌号、经炜度、行 驶速度、行驶方向、行驶时间。
[0026] (2)对历史数据进行聚类得到1个簇即(^={1^12……Ιι},其中是其中的一个 簇,假设簇中有k个特征向量即(={4,4....4卜其中^是簇中第」个特征向量。
[0027] 构造预测模型
[0028]聚类得到结果后对每个簇中的特征向量计算风险概率,步骤如下:
[0029] (1)计算簇Ii中平均风险概率。
[0031] 其中,|h|是簇I冲元素的个数,如果表示的点为风险发生,那么£({') = 1否则 为〇〇
[0032] (2)计算簇中所有点的平均特征向量果
[0033] (3)计算簇中每个特征向量Z/与乂的相似系数sCZ/,兄)
[0034] (4)计算每个特征向量的风险概率P (λ'/)
[0035] 5.3风险概率预测
[0036] 计算得到风险概率模型之后就可以对新的汽车数据进行预测,步骤如下:
[0037] (1)对于新的汽车行驶数据乂1)进行聚类分析;
[0038] (2)-般聚类后会将新的数据聚类到某一簇中,然后计算该数据与平均向量笔的 相似系数;
[0039] (3)那么新的数据点的概率计算公式为:
[0040] = ^ Α^χΡ?.?.) ( 5)
[0041] 进一步的,在对数据进行聚类的步骤中,采用基于hadoop的自组织映射的神经网 络聚类算法,使用Mapreduce并行计算框架对数据进行计算。
[0042] 进一步的,在使用Mapreduce并行计算框架对数据进行计算的步骤中,在Map阶段 计算获胜神经元并计算权值修改量,Reducer阶段对相同的获胜神经元,统计与其连接的每 个权值的总体更新量,然后对权值进行更新。
[0043]进一步的,在实现支持向量机的算法中,利用欧式距离态度量两个向量之间的相 似度。
[0044]具体的,在上述基于hadoop的自组织映射(S0M)的神经网络聚类算法中,采用竞争 学习实现内部自适应和自组织的改变内部结构,即在接受外界输入后会自动地分为不同区 域,每个区域对于输入都有不同的响应特征,而且这个过程是自动完成的。该算法的步骤如 下:
[0045] (1)初始化和归一化。首先对当前输入向量和竞争层中神经元权值向量Wi进行归 一化处理,并建立初始优胜域Λ^(〇),并对增益μ(〇)进行赋值。
[0046] (2)寻找获胜神经元。将输入向量与竞争层中所有响应的权值向量进行相似性比 较,将最相思的权值向量最为获胜神经元。在数学中两个向量最相似则他们的点积越大可 以表示为下面公式:
[0048] (3)对优胜领域内节点权值调整
[00511其中,y(t)为增益并随着时间下降到0。
[0052] (4)如果增益下降到设定的阈值μΜη那么结束流程,否则继续输入数据从第一步开 始新的流程计算。
[0053] 将上述算法运行在Hadoop平台运行,其实施步骤如下:
[0054] Map 阶段
[0055] 输入键值对〈key,value〉,其中key表示样本序号value表示样本特征集合。
[0056]根据竞争学习原则计算出竞争层的输出值。
[0057]判定获胜神经元,将其状态判定为1,其他状态判定为0。设置flag为获胜神经元在 竞争层的位置。
[0058]计算与获胜神经元相连接的各权值更新量,其他权值保持不变。
[0059]输出键值对其中key表示flag,value表示与获胜神经元相连接的权值更新量。
[0060] Reducer 阶段
[0061 ]接受map函数的输出作为re du c e函数的输入,输入key表示获胜神经元的位置, values表示与获胜神经元相连接的权值更新量的结合。
[0062]累计获得每个权值的总体更新量,并计算平均更新量。
[0063]调整相应的网络权值。
[0064] 输出键值对,key表示权值更新状态,value表示更新后的网络权值。
[0065]更新全局向量,并重复MapReduce过程,直到权值向量和获胜样本误差小于设定的 阈值则结束。
[0066]从上述计算步骤中可以看出S0M网络的学习可以自适应的根据样本内在的联系进 行聚类,输出神经元权值向量Wi逐渐的向获胜样本靠近,权值向量集{Wi| i = l,2. . .1}看成 所有样本的聚类中心。相似性度量方法描述如下:
[0067]特征向量X= {xi,X2. . . .xn}属于特征空间某个簇Ii,该特征向量与平均向量爲 (聚类中心)相似系数可表示为,
[0069] 从式(9)中可以看出度量向量之间相似度使用欧式距离来测量的,两个向量越相 似则兄)值越大最大值为1。
[0070] 本发明和已有技术相比较,其效果是积极和明显的。本发明通过采集车辆的北斗/ GPS导航数据,利用大数据平台对采集的数据进行预处理,在对数据进一步数据挖掘,可以 分析和判断驾驶者的驾驶行为。
【附图说明】:
[0071] 图1是本发明的互联网+时代下的车辆驾驶行为分析大数据公共服务平台的框架 图。
[0072] 图2是本发明中的基于自组织映射神经网络算法流程图。
【具体实施方式】:
[0073] 实施例1:
[0074] 如图1和图2所示,本发明的互联网+时代下的车辆驾驶行为分析大数据公共服务 平台,包括四个部分:数据存储层、数据处理层、数据分析层和数据可视化层。
[0075] 判断汽车超速,第一步、利用隐马尔科夫算法找到车辆行驶的最佳路段;第二步、 利用地图数据找到汽车行驶的道路类型对应的限速大小;第三步、将获得数据中行驶速度 大小和路段限速大小进行对比判别车辆是否超速。
[0076] 判断汽车超载,第一步、将原始数据进行标准化消除量纲的影响;第二步、通过原 始数据中时间、速度和里程计算平均速度、平均加速度和启动加速度,并作为训练样本;第 三步、利用第二步中的训练样本训练出分类器;第四步、利用分类器对车辆是否超载进行判 别。
[0077] 急加速与急减速判断,首先通过大数据平台从原始数据中找出某个路段所有时间 所有车辆的行驶数据,对这些数据进行处理得出相邻两点速度的差值,接着利用回归分析 方法得出回归模型。通过回归模型得出汽车在该路段发生急加速和急减速的概率。设同一 个路段上两个时间点的速度差为Α V,汽车的每个时间点的初始速度为ν。。因为汽车在一段 时间内行驶距离与速度差和初始速度成线性关系,该回归模型为:
[0078] S = h, + b,Av +(1)
[0079] 其中b。,!^,^为变量Δν和VQ的偏回归系数。
[0080] 通过训练数据和最小二乘原理得出偏回归系数的值,并利用方差分析对得出的模 型进行检验,最后根据β = ||5* -1||的大小得出汽车发生急加速和急减速的概率。其中S为汽车 实际的行驶距离,左为满足回归模型下的行驶距离。
[0081] 风险概率是风险发生可能性的百分比,是对事物状态发生可能性的衡量。汽车在 同一区域内行驶数据具有较高的相似性,不同区域内行驶数据差别性比较大。以一个区域 为一个簇,将汽车行驶数据按特征点进行聚类,可以得到不同区域内的行驶数据。每一个特 征点(特征向量)都与簇中的点有关,并假设簇中第i个特征向量为xUieN),那么风险概率 可以表示为
[0083] 其中| |Ν:(χ4 I I表示区域r中所有点的个数,Nr#)为点xWr为半径的领域。U(Nr (X1))为该簇中安全风险发生的次数。有(1)可以看出,风险概率就是该簇中所有点的平均 概率。也可以表示为
[0084] Pr(X')^s(X\X)xP(X ) 13)
[0085] 其中 <妒夕)表示特征点X1与所有点的平均向量的相似度。
[0086]其中,风险概率预测模型需要分三个部分:
[0087]对历史数据的预处理
[0088] 从历史数据中抽象出数据属性,在汽车驾驶行为数据包括车牌号、经炜度、行驶速 度、行驶方向、行驶时间。
[0089] 对历史数据进行聚类得到1个簇即(^={1^12.....IU,其中^是其中的一个簇,假 设簇中有k个特征向量即.....Zf卜其中X/是簇中第j个特征向量。
[0090] 构造预测模型
[0091] 聚类得到结果后对每个簇中的特征向量计算风险概率,步骤如下:
[0092] (1)计算簇Ii中平均风险概率。
[0094] 其中,| |是簇I冲元素的个数,如果X/表示的点为风险发生,那么£(Λ7 )=丨否则 为0〇
[0095] (2)计算簇I i中所有点的平均特征向量尾
[0096] (3)计算簇中每个特征向量与萬的相似系数<巧,属)
[0097] (4)计算每个特征向量的风险概率/3 (Λ7)
[0098] 风险概率预测
[0099] 计算得到风险概率模型之后就可以对新的汽车数据进行预测,步骤如下:
[0100] 对于新的汽车行驶数据乂1)进行聚类分析;
[0101] 一般聚类后会将新的数据聚类到某一簇中,然后计算该数据与平均向量粟的相似 系数;
[0102] 新的数据点的概率计算公式为:
[0103] P(X-'·) = ,v(X,X:)x P(X.) ( 5 )
[0104] 求数据点的风险概率模型的关键技术是如何利用聚类算法对历史数据进行聚 类。此处采用基于自组织映射(S0M)的神经网络聚类算法。该算法采用竞争学习实现内部自 适应和自组织的改变内部结构,即在接受外界输入后会自动地分为不同区域,每个区域对 于输入都有不同的响应特征,而且这个过程是自动完成的。该算法的步骤如下:
[0105] 初始化和归一化。首先对当前输入向量和竞争层中神经元权值向量Wi进行归一化 处理,并建立初始优胜域&*(0),并对增益μ(0)进行赋值。
[0106] 寻找获胜神经元。将输入向量与竞争层中所有响应的权值向量进行相似性比较, 将最相思的权值向量最为获胜神经元。在数学中两个向量最相似则他们的点积越大可以表 示为下面公式:
[0108]对优胜领域内节点权值调整
[0111] 其中,y(t)为增益并随着时间下降到0。
[0112] 如果增益下降到设定的阈值μηιη那么结束流程,否则继续输入数据从第一步开始 新的流程计算。
[0113] 将上述算法运行在Hadoop平台运行,其实施步骤如下:
[0114] Map 阶段
[0115] 输入键值对〈key,value〉,其中key表示样本序号value表示样本特征集合
[0116]根据竞争学习原则计算出竞争层的输出值。
[0117] 判定获胜神经元,将其状态判定为1,其他状态判定为0。设置flag为获胜神经元在 竞争层的位置。
[0118] 计算与获胜神经元相连接的各权值更新量,其他权值保持不变。
[0119] 输出键值对其中key表示flag,value表示与获胜神经元相连接的权值更新量。
[0120] Reducer 阶段
[0121 ]接受map函数的输出作为re du c e函数的输入,输入key表示获胜神经元的位置, values表示与获胜神经元相连接的权值更新量的结合。
[0122] 累计获得每个权值的总体更新量,并计算平均更新量。
[0123] 调整相应的网络权值。
[0124] 输出键值对,key表示权值更新状态,value表示更新后的网络权值。
[0125] 更新全局向量,并重复MapReduce过程,直到权值向量和获胜样本误差小于设定的 阈值则结束。
[0126] 从上述计算步骤中可以看出S0M网络的学习可以自适应的根据样本内在的联系进 行聚类,输出神经元权值向量Wi逐渐的向获胜样本靠近,那么权值向量集{Wi I i = l ,2. .. 1} 就可以看成所有样本的聚类中心。相似性度量方法:
[0127] 特征向量X= {xi,X2. . . .xn}属于特征空间某个簇Ii,该特征向量与平均向量足 (聚类中心)相似系数可表示为
[0129]从式(9)中可以看出度量向量之间相似度使用欧式距离来测量的,两个向量越相 似则、( Α-?,.)值越大最大值为1。
【主权项】
1. 一种互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特征在于,其特征 在于:对车辆驾驶行为、汽车行驶风险概率进行分析,其中包括以下步骤: 步骤一、通过大数据平台存储汽车一段时间内的行驶数据并采用MapReduce框架对这 些数据进行处理和分析, 步骤二、基于大数据平台下对数据进行处理过后统计出某个区域和时间段内汽车非正 常驾驶次数,包括超速、超载、急加速急减速、疲劳驾驶、夜间行驶, 步骤三、对非正常驾驶行为统计后,利用自组织映射神经网络算法计算车辆风险概率, 并对后续车辆行驶风险进行预测。2. 如权利要求1所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:对汽车驾驶数据进行处理分析,其中包括,第一步建立数据存储层,基于Hadoop分 布式文件系统存储方案和基于Hadoop分布式文件系统+分布式面向列开源数据库技术存储 方案;第二步建立数据处理层,在数据处理层中采用大规模并行计算框架来处理原始数据, 第三步建立数据分析层,对数据进一步分析、建模和挖掘,第四步建立数据可视化,第五步 建立安全层,为大数据平台提供安全保护系统,对外提供统一的服务接口,用户通过统一数 据访问接口或统一门户页面来访问大数据服务平台。3. 如权利要求1所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:利用隐马尔科夫算法找到车辆行驶的路网路段,并通过地图数据找到汽车行驶的 路段信息,最后将定位数据中行驶速度输入时空限速模型中,最终得出车辆是否超速的判 断。4. 如权利要求1所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:利用大数据平台实现支持向量机的算法,其中包括,第一步、将原始数据进行标准 化消除量纲的影响;第二步、通过原始数据中时间、速度和里程计算平均速度、平均加速度 和启动加速度,并作为训练样本;第三步、将大量的训练样本上传到Hadoop分布式文件系统 中并做分块,每个节点启动Hadoop分布式处理平台的Map任务对块中数据进行序列最小优 化训练算出每个块数据的支持向量,最后将各个节点训练处的支持向量输入到Hadoop分布 式处理平台的Reduce任务中交于SM0算法训练得到最终的支持向量;第四步、利用第三步中 的支持向量得到分类器,并利用分类器对车辆是否超载进行判别。5. 如权利要求1所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:建立大数据平台下线性回归模型,其中包括,第一步、利用大数据平台找到该路段 内所有汽车行驶的数据,并计算出相邻两个数据之间速度差值;第二步、利用统计线性回归 算法得到某段道路上汽车以某个起始车速V。和行驶至下一时刻车速变化量△ v为输入,以 汽车在该段时间内行驶距离S为输出,并统计该路段内所有行驶汽车的数据,第三步、计算 回归方程,得到该路段内汽车速度变化量和行驶距离的模型S = f(Av,v。),最后利用该方 程判别该汽车发生急加速和急减速的概率,判断规则为第i量汽车的距离与模型距离误差e =| Is-s1! |越大则说明汽车发生急加速和急减速概率越大,越小则说明概率越低。6. 如权利要求1所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:所述的计算车辆风险概率的步骤中包括,第一步度量风险概率,第二步建立风险概 率模型,首先对历史数据进行预处理,包括对数据进行聚类得到1个簇即(^={1:, 12……Ιι}其中^是其中的一个簇,然后针对聚类结果构造预测模型包括求簇的平均风险 概率和特征向量与平均向量的相似系数,接着对风险概率进行预测。7. 如权利要求6所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:在对数据进行聚类的步骤中,采用自组织映射的神经网络聚类算法,使用大规模并 行计算框架Mapreduce并行计算框架对数据进行计算。8. 如权利要求7所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:在使用大规模并行计算框架Mapreduce并行计算框架对数据进行计算的步骤中,在 Map阶段计算获胜神经元并计算权值修改量,Reduce阶段对相同的获胜神经元,统计与其连 接的每个权值的总体更新量,然后对权值进行更新。9. 如权利要求4所述的互联网+时代下的车辆驾驶行为分析大数据公共服务平台,其特 征在于:在实现支持向量机的算法中,利用欧式距离态度量两个向量之间的相似度。
【文档编号】G06K9/62GK106095963SQ201610430864
【公开日】2016年11月9日
【申请日】2016年6月17日
【发明人】文巨峰, 罗赞文, 穆祥强, 许伟
【申请人】上海经达信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1