一种交通数据弥补方法

文档序号:6620159阅读:232来源:国知局
一种交通数据弥补方法
【专利摘要】本发明公开一种交通数据弥补方法,该方法包括以下步骤:步骤S1:按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失处理后的完整交通数据集;步骤S2:对缺失处理后的完整数据集和完整交通数据集进行归一化处理,得到归一化后的交通数据;步骤S3:对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构建出弥补模型;步骤S4:调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到弥补后的交通数据值。本发明将缺失数据和观测数据视为整体,以数据恢复的角度弥补交通数据,深度挖掘交通数据之间的结构关联,一次补全缺失数据,效率高,鲁棒性好。
【专利说明】一种交通数据弥补方法

【技术领域】
[0001] 本发明属于智能交通系统领域,特别涉及一种基于降噪堆式自动编码器 (Denoising Stacked Autoencoders)深层网络结构的交通数据弥补方法。

【背景技术】
[0002] 交通数据是交通领域应用和研究的基础。个体出行者的出行规划、研究者和政府 部门的交通控制与管理均需要足够的交通数据作为支持。然而,采集自实际交通系统中的 交通数据往往是不完整的数据,含有部分缺失数据。这些缺失数据的存在为交通分析和研 究带来诸多不便。交通数据弥补旨在尽可能准确地填补这些缺失的数据,为交通领域的应 用和研究提供足够的数据支持。
[0003] 现有的交通数据弥补方法主要有基于时间序列分析的方法,非参数回归方法和统 计学习估计方法。基于时间序列分析的方法通常使用待弥补位置的历史交通数据建立一个 预测模型并预测缺失位置的数据。非参数回归方法通常使用临近位置或者临近状态的数据 来估计缺失位置的数据。统计学习估计方法通常使用观测数据学习一个模型并通过迭代的 模式推测缺失的数据。上述这些方法在不同的应用场景中均表现出一定的应用价值。但是 这些方法的弥补误差通常会随着数据缺失率的提高而增大。而且这些方法将观测数据和缺 失数据分开对待,不能充分挖掘交通数据之间的结构关联。对于数据量较大的交通数据,这 些方法的弥补效率不高。


【发明内容】

[0004] (一)要解决的技术问题
[0005] 本发明的目的是解决现有技术对于数据量较大的交通数据,弥补效率低的问题, 提出一种基于降噪堆式自动编码器的深层网络结构的交通数据弥补方法。
[0006] (二)本发明的技术方案
[0007] 本发明的一种交通数据弥补方法,包括以下步骤:
[0008] 步骤S1 :按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得 缺失处理后的完整交通数据集;
[0009] 步骤S2 :对缺失处理后的完整数据集和完整交通数据集进行归一化处理,得到归 一化后的交通数据;
[0010] 步骤S3 :对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训 练,构建出弥补模型;
[0011] 步骤S4 :调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到 弥补后的交通数据值。
[0012] (三)本发明的有益效果
[0013] 现有技术中目前还没有基于降噪堆式自动编码器的深层网络结构的交通数据弥 补方法,本发明考虑深度挖掘交通数据之间的结构关联,高效率地弥补交通数据的方法,研 究基于深层结构模型的交通数据弥补问题。本发明包括数据处理,深层网络训练,利用深层 网络进行交通数据弥补。利用完整的交通数据,通过训练基于降噪堆式自动编码器的深层 网络结构,得到一个深层结构的网络弥补模型进行交通数据弥补。本发明将缺失数据和观 测数据视为整体,以数据恢复的角度弥补交通数据,深度挖掘交通数据之间的结构关联,能 够一次补全缺失的交通数据,在不同的数据缺失率下保持稳定的弥补误差,弥补效率高,鲁 棒性好。

【专利附图】

【附图说明】
[0014] 图1是本发明交通数据弥补方法流程图。
[0015] 图2是本发明获取交通数据弥补模型流程图。
[0016] 图3是降噪自动编码器结构示意图。
[0017] 图4是堆式自动编码器结构示意图。
[0018] 图5是本发明深层网络交通数据弥补模型结构图。

【具体实施方式】
[0019] 下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便 于对本发明的理解,而对其不起任何限定作用。
[0020] 如图1所示,本发明给出一种交通数据弥补方法,具体地,该方法包括以下步骤:
[0021] 步骤S1 :按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得 缺失处理后的完整交通数据集;
[0022] 所述完整的交通数据集来源于交通数据采集系统,可以通过线圈检测、视频检测 等手段获取。获取的交通数据为每个观测点在一定时间间隔内的属性,例如流量,平均速 度,平均占有率等。以下描述以交通数据中的流量为例说明。
[0023] 所述设定的交通数据缺失率是待弥补交通数据的缺失率。
[0024] 所述随机缺失处理是按照设定的交通数据缺失率,指定完整交通数据的缺失率, 按照缺失率对完整交通数据进行随机缺失处理,记录缺失数据的位置,得到缺失处理后的 完整交通数据集。随机缺失处理是随机地将完整交通数据中的部分数据置零,并使这部分 数据与总数据的比例为设定的数据缺失率。此过程中记录缺失数据的位置。
[0025] 步骤S2 :对缺失处理后的完整数据集和完整交通数据集进行归一化处理,得到归 一化后的交通数据;所述归一化处理是选取完整数据集中交通数据的最大值X max,将缺失处 理前后的完整数据与最大值Xmax的比值作为归一化到[0,1]区间的交通数据。
[0026] 选取完整数据集中的最大流量值Xmax,则归一化后的交通数据X定义为:
[0027] Λ:=-- ^ max
[0028] 其中,x是归一化到[0,1]区间的交通流量值,X是归一化前的交通流量值,从而获 得归一化的缺失前后的交通数据。
[0029] 步骤S3 :对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训 练,构建出弥补模型;
[0030] 附图2 :获取交通数据弥补模型流程,包括以下步骤:
[0031] 步骤S31 :按照交通数据的周期将归一化后的交通数据分组,得到多个缺失后交 通数据组、多个缺失前交通数据组的输入输出数据对;
[0032] 具体的,给定归一化后的交通数据,指定交通数据的周期,通常为一天。按照周期 分别将缺失后交通数据和缺失前交通数据分为N组,每组数据包含一个周期内的Μ个数据, 则分别得到缺失前后的ΝΧΜ个数据。对于每组缺失前的交通数据对应有一组缺失后的交 通数据。对于Ν组缺失前的交通数据则有对应的Ν组缺失后的交通数据,即得到Ν对的输 入输出数据对,所述Ν对是缺失后交通数据和缺失前交通数据。
[0033] 步骤S32 :将得到的输入输出交通数据对分为训练集和测试集;
[0034] 具体的,将上述Ν对数据对分为训练集和测试集,其中训练集包含ρ对数据,测试 集包含q即(Ν-ρ)对数据。
[0035] 步骤S33 :根据一个周期内交通数据的个数设定深度网络的输入、输出交通数据 维数,在限定范围内选取深层网络的隐层数、隐层节点数;
[0036] 设定深度网络的输入层神经元的个数、输出层神经元的个数都等于一个周期内交 通数据的个数M,在限定范围内选取深层网络的隐层数、隐层节点数;选取Sigmoid函数作 为深层网络的激活函数表示如下:
[0037] - 1 + e^
[0038] 其中,y为神经元的输出,x为神经元的输入。根据前向神经网络运算规则表示如 下:
[0039] XJ=J2Wuai+bJ
[0040] 其中,Xj为某层第j个神经元的输入,%为低一层第i个神经元的输出,Wij为连 接权重,bj为偏置量。
[0041] 步骤S34 :在每个选取的深层网络结构上,利用训练集数据,非监督逐层训练深层 网络中堆积的每个自动编码器的权重参数;
[0042] 附图4示出堆式自动编码器结构是由多个自动编码器堆积而成;其中,最底层自 动编码器的输入是缺失后并归一化后的交通数据,单一自动编码器的输出目标和输入一 致,图4右半部分虚线层表示单一自动编码器的输出层。低层的单一自动编码器训练完后 获得输入到隐层的连接权重I,其隐层作为高一层自动编码器的输入层,同时也是堆式自 动编码器的隐层i。
[0043] 具体的,单一自动编码器的训练过程为,给定训练集中数据对的输入数据{x(1), χ (2),χ(3),"·,χ(ρ)},其中x(i)(i = 1,2,3, "·,ρ)在此处表示训练集中第i对输入输出数据 对的输入部分,自动编码器对输入χω按照公式(1)进行编码,获得编码数据y(x (i))表示如 下:
[0044] y (x(l)) = f (WjX^^b) (1)
[0045] 并对输入x(i)依据公式(2)进行解码,获得解码数据z (x(i))表如下:
[0046] ζ(χω) = g(ff2y(x(i))+c) (2)
[0047] 其中,单一自动编码器的输入层到隐层以及隐层到输出层的连接权重分别是1、 W2,偏置分别是b、c。f(x)和g(x)分别是单一自动编码器的隐层激活函数和输出层激活函 数,可取为Sigmoid函数lAl+eXp(-X))。自动编码器的目标是使得输入值和输出值相等, 对于最底层的单一自动编码器,目标即使得输出等于输入的交通数据。令最小化自动编码 器的目标函数J〇表示如下:
[0048] Λ =丄£ xW-(3) 2 ,.=ι
[0049] 通过最小化自动编码器的目标函数I可求得单一自动编码器的输入层到隐层的 连接权重A和偏置b。考虑到编码稀疏性,最小化自动编码器的目标函数1可变为Λ如下 表不:
[0050] Jj = (4) 广1
[0051] 其中Y是稀疏项权重,HD是隐层单元数目,P是稀疏参数(取接近0的数), A是隐层神经元j的平均活跃度,(在训练集上取平均),紅^||卩,)是 Kullback-Leibler(KL) divergence,即KL散度,此处表示隐层神经元激活度的稀疏程度与 设定的稀疏参数之间的差异,通过最小化自动编码器的 目标函数1,训练出单一自动编码器的输入层到隐层的连接权重Α和偏置b,得到自动稀疏 编码。
[0052] 步骤S35 :在堆积的自动编码器的顶层加入恢复层,有监督地调整深层网络的各 层参数;
[0053] 如图5所示本发明深层网络交通数据弥补模型结构图,由堆式自动编码器和恢复 层组成,其中堆式自动编码器包括输入层,隐层1、隐层2、隐层3、以及它们之间的连接权重 Wp W2、W3,恢复层的输入是堆式自动编码器最高层的隐层3,恢复层输出目标为缺失处理前 的数据,形成一个降噪堆式自动编码器。附图3示出降噪自动编码器结构,将降噪自动编码 器的隐层替换为堆式自动编码器,即可得到该深层网络。网络整体目标是使得弥补模型的 输出与缺失前归一化后的交通数据之间的误差最小,利用缺失前的归一化数据有监督地反 向微调深层网络的各层参数。
[0054] 步骤S36 :每个选取的深层网络结构训练完成后,利用测试集数据进行前向运算, 根据记录缺失数据的位置得到每个选取的深层网络结构在测试集上的弥补平均误差;选择 平均误差最小的深层网络结构作为交通数据弥补的降噪堆式自动编码器深层网络结构。
[0055] 步骤S4 :调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到 弥补后的交通数据值。
[0056] 所述弥补模型是步骤S3中训练的降噪堆式自动编码器深层网络结构弥补模型。 弥补过程具体包括以下步骤:
[0057] 步骤S41 :按照选定的交通数据周期将输入的含缺失数据的不完整的交通数据分 成若干组交通数据;
[0058] 步骤S42 :将上述若干组交通数据进行归一化处理,得到若干组输入交通数据。
[0059] 步骤S43 :将上述输入交通数据输入深层网络,进行前向计算,得到并输出对应的 输出数据,即弥补后的交通数据的归一化值。
[0060] 步骤S44 :将上述归一化的弥补后的交通数据弥补值进行反归一化,得到弥补后 的交通数据值。
[0061] 以上所述,仅为本发明中的【具体实施方式】,但本发明的保护范围并不局限于此,任 何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在 本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
【权利要求】
1. 一种交通数据弥补方法,其特征在于,该方法包括以下步骤: 步骤S1 :按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失 处理后的完整交通数据集; 步骤S2 :对缺失处理后的完整数据集和完整交通数据集进行归一化处理,得到归一化 后的交通数据; 步骤S3 :对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构 建出弥补模型; 步骤S4 :调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到弥补 后的交通数据值。
2. 根据权利要求1所述的交通数据弥补方法,其特征在于,所述随机缺失处理是按照 设定的交通数据缺失率,指定完整交通数据的缺失率,按照缺失率对完整交通数据进行随 机缺失处理,记录缺失数据的位置,得到缺失处理后的完整交通数据集。
3. 根据权利要求1所述的交通数据弥补方法,其特征在于,所述归一化处理是选取完 整数据集中交通数据的最大值)^ax,将缺失处理前后的完整数据与最大值X max的比值作为归 一化到[〇,1]区间的交通数据。
4. 根据权利要求1所述的交通数据弥补方法,其特征在于,所选取交通数据的周期,通 常为一天。
5. 根据权利要求1所述的交通数据弥补方法,其特征在于,构建降噪堆式自动编码器 深层网络结构的步骤包括: 步骤S31 :按照交通数据的周期将归一化后的交通数据分组,得到多个缺失后交通数 据组、多个缺失前交通数据组的输入输出数据对; 步骤S32 :将得到的输入输出交通数据对分为训练集和测试集; 步骤S33 :根据一个周期内交通数据的个数设定深度网络的输入、输出交通数据维数, 在限定范围内选取深层网络的隐层数、隐层节点数; 步骤S34 :在每个选取的深层网络结构上,利用训练集数据,非监督逐层训练深层网络 中堆积的每个自动编码器的权重参数; 步骤S35 :在堆积的自动编码器的顶层加入恢复层,有监督地调整深层网络的各层参 数; 步骤S36 :每个选取的深层网络结构训练完成后,利用测试集数据进行前向运算,根据 记录缺失数据的位置得到每个选取的深层网络结构在测试集上的弥补平均误差;选择平均 误差最小的深层网络结构作为交通数据弥补的降噪堆式自动编码器深层网络结构。
6. 根据权利要求1所述的交通数据弥补方法,其特征在于,所述得到弥补后的交通数 据值的步骤包括: 步骤S41 :按照选定的交通数据周期将输入的含缺失数据的不完整的交通数据分成若 干组交通数据; 步骤S42 :将上述若干组交通数据进行归一化处理,得到若干组输入交通数据; 步骤S43 :将上述输入交通数据输入深层网络进行前向计算,得到并输出对应的输出 数据,即弥补后的交通数据的归一化值; 步骤S44:将上述弥补后的交通数据的归一化值进行反归一化,得到弥补后的交通数 据值。
【文档编号】G06F17/30GK104091081SQ201410336212
【公开日】2014年10月8日 申请日期:2014年7月15日 优先权日:2014年7月15日
【发明者】王飞跃, 段艳杰, 吕宜生, 亢文文, 朱凤华, 刘裕良, 赵一飞 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1