一种数据处理方法及装置的制作方法

文档序号：6585458阅读：128来源：国知局

专利名称：一种数据处理方法及装置的制作方法
技术领域：
本发明涉及智能交通系统技术领域，尤其涉及一种数据处理方法及装置。
背景技术：
先进交通信息服务系统(Advanced Traffic Information System, ATIS)建立在完善的信息网络基础之上，该系统可以通过装备在道路、车、换乘站、停车场以及气象中心的传感器或者数据传输设备来获取各类交通信息，根据所述获取到的数据进行综合处理。该系统可以实时向社会提供全面、准确的实时道路交通拥堵信息。但是，通过所述设备所获取到的数据不能完全覆盖所有的道路，从而需要通过历史数据的相似查询进行实时数据填补，并可用历史数据经过分析后进行预测。为了提高动态交通信息的可用性，需要增加系统的信息预测的功能，需要对过去
一定时间周期内的历史路况数据进行独立分析，获取每条道路在历史数据周期内的交通状
况的变化趋势，通过接口的方式提供给交通信息服务系统使用。然而在现有技术中，通常采
用中值滤波平滑处理来对历史数据进行处理，从而实现数据预测的目的。在实现本发明的过程中，发明人发现现有技术中至少存在如下问题由于现有技
术所采用的中值滤波平滑处理技术预测过程较为随机，使得预测精度较低，无法满足实际
预测的需要。

发明内容
本发明的实施例提供一种数据处理方法及装置。
为达到上述目的，本发明的实施例采用如下技术方案
—种数据处理方法，包括
获取历史数据信息；对所述历史数据信息进行数据预处理；对所述预处理后的历史数据信息进行数据合并及填补；将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。
—种数据处理装置，包括信息获取单元，用于获取历史数据信息；预处理单元，用于对所述历史数据信息进行数据预处理；数据合并填补单元，用于对所述预处理后的历史数据信息进行数据合并及填补；
数据平滑单元，用于将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。本发明实施例提供的数据处理方法及装置，通过获取历史数据信息；对所述历史数据信息进行数据预处理；对所述预处理后的历史数据信息进行数据合并及填补；将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。与现有技术相比，本发明所述采用的动态指数平滑处理，可以使得预测精度较高且能够满足实际预测的需要。

图1为本发明实施例提供的一种数据处理方法流程图；图2为本发明实施例提供的一种数据处理方法中对所述历史数据信息进行数据预处理的步骤的实现过程流程图；图3为本发明实施例提供的一种数据处理方法中对所述预处理后的历史数据信息进行数据合并及填补的步骤的实现过程过程流程图；图4为本发明实施例提供的一种数据处理方法中将所述数据合并及填补后的历史数据信息进行动态指数平滑处理的步骤的实现过程流程图；
图5为本发明实施例提供的一种数据处理装置结构示意图。
具体实施例方式
下面结合附图对本发明实施例数据处理方法及装置进行详细描述。
如图1所示，为本发明实施例提供的一种数据处理方法，该方法包括
101 :获取历史数据信息； 102 :对所述历史数据信息进行数据预处理；该步骤主要是对所述历史数据进行异常数据的剔除，提高历史数据的质量。
103 :对所述预处理后的历史数据信息进行数据合并及填补； 104:将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。由于所述历史数据在采集和处理输出过程中存在各种干扰会产生一批异常数据，
如果对所述异常数据进行数据分析会影响到最后预测结果的准确度，所以需要对所述历史
数据进行预处理，消除所述异常数据。本发明实施例中可以采用一种基于时间带的统计方
法来剔除异常车速值。如图2所示，为本发明实施例提供的一种数据处理方法中对所述历史数据信息进行数据预处理的步骤的实现过程；设所述历史数据的时间维度的取值为00:00-23:59 ;每5 分钟为一个时间段；时间带是指某道路的一天的车速值；其中，以半小时为一个时间带。所述历史数据预处理以连续一个月以上的城市历史路况数据为基础，剔除一些异常数据，其具体的实现过程包括 201 :将所述历史数据信息进行时间带划分；其中，所述历史数据可以是从数据库中读出的历史车速值；所述的时间带划分是对指定道路的一天的车速以半小时进行划分，从而初步得到48个时间带。
202 :按照划分的时间带，进行合并校验；该步骤的具体实现过程为将所述划分好的时间带先后使用F检验和双样本的T检验来判断是否能够合并时
间带；其中，所述F检验用于判断两个待检验的时间带的方差是否相等；所述双样本的T检
验用于判断两个待检验的时间带的均值是否相等；如果所述的F检验与所述双样本的T检
验都通过则合并相邻的两个时间带。
构造F检验统计量的公式为F二古 F("！ _1，"2 -1)

巧—丄,=i "2 — i /=I
Xi、 l分别为两个正态总体的各个车速值；文、？为样本均值。
F检验的拒绝域为
『=< & - 1, "2 - l)或F >《2 (", - 1, "2 - 1)}
a为检验水平。
<formula>formula see original document page 6</formula>
构造T检验统计量的公式为<formula>formula see original document page 6</formula>
其中，&、&分别为两个正态总体的有效值个数；
~2 - 1)&2 "2、"分别为两个正态总体的方差)<formula>formula see original document page 6</formula>
T检验的拒绝域为5 =們> + "2 一 2)} 需要注意的是，如果所述时间带满足合并条件，则将其合并，然后将合并后的时间带作为一个时间带进行处理；如果所述时间带不满足合并条件，则将其仍然按照其预处理后划分的时间带进行后续的处理。 203 :将所述经过合并校验的时间带进行异常校验，给出异常校验结果；该步骤的实现过程为遍历经过合并处理的时间带，对所述有效的时间带分别进行U检验或单样本的T检验，如果所述有效的时间带未通过所述检验，则认为该条数据为异常数据，将所述异
常数据记录到异常校验结果中。其中，所述u检验适用于样本量充分大的情况。需要注意的是，U检验用于样本数很大的情况下，此处条件为车速有效值个数大于 30。构造U检验统计量的公式为# = 其中，Xi代表该时间带中的车速变量，P代表时间带的车速均值，o代表时间带
的车速方差，n代表时间带的有效值个数； U检验的拒绝域为W= {|U| > ii a/2}; 单样本T检验用于小样本量的情况下，此处条件为车速有效值个数小于或等于30
A构造T检验统计量的公式为其中，Xi代表该时间带中的车速变量，P代表时间带的车速均值，s代表时间带的
车速方差，n代表时间带的有效值个数； T检验的拒绝域为W = {I T I > ta (n-1)}。 204 :根据所述异常校验结果，将异常数据剔除。如图3所示，为本发明实施例提供的一种数据处理方法中对所述预处理后的历史数据信息进行数据合并及填补的步骤的实现过程，该过程包括
301 :接收所述经过异常数据剔除的历史数据信息；
302 :将所述历史数据信息中相同时刻的数据进行合并处理；具体的讲，就是对相同星期特征日，相同时间点上的数据进行合并，简单的使用算术平均值的方法进行合并处理后，得到一组数据。
303 :检测所述合并处理后的数据是否存在时刻点上无数据； 304:如果存在时刻点上无数据，则进行数据填补处理。其中，所述进行数据填补处理可以采用最小二乘法的方法进行填补，例如可以取需要填补数据的时间点前后各两个时间上的数据做样本点；其具体实现过程如下
建立回归模型为f =在+>^; 其中X表示需要填充数据的时间点；
f表示该时间点上应该要填补的数据；
在4-4 .
1=1 ;=i 1=1 ,=i (Xi， y》为选取的x时间点前后各两个时间上的数据值。如图4所示，为本发明实施例提供的一种数据处理方法中将所述数据合并及填补后的历史数据信息进行动态指数平滑处理的步骤的实现过程，该过程设平滑系数a的初值为a。，指数平滑的初值及控制精度e 。其中，所述控制精度用来判断是否为近似最优解。该过程具体包括 401 :接收所述经过数填补处理的历史数据信息； 402:获取平滑系数a的初值a 。，指数平滑初值以及控制精度e ; 403 :根据所述平滑系数的初值以及所述指数平滑初值，获取所述指数平滑初值下
一时刻点的指数平滑数值；其中，所述的指数平滑数值是通过指数平滑法的计算公式获得
的。所述的指数平滑法是由移动平均方法发展而来的一种信息处理方法。该方法不需要存
储n期的时间序列数据，而给近期的实际数据以较大的权数，给远期的数据以较小的权数，
而且各期数据的权数符合指数规律。指数平滑法计算公式为 =吼+(1 —(1-1) 式中，由于本发明实施例中的数据为0:00-23:59中每5分钟的一个数据，t取值 1-288，表示从0:00开始每5分钟一个时间点，t = l，表示0:00 ;t = 288，表示23:55 ; -—时期t后一个5分钟的平滑值； yt-—时期t的实际值； ^-—时期t的平滑值； a—一平滑系数，又称加权因子，取值范围为O《a《1。上式表明指数平滑预测是用预测误差不断地对上期的预测值进行修正，而得到本期的预测值。;,+1是;和yt的加权算数平均数，随着a取值的大小变化，决定^和yt对
;w的影响程度。^+1具有逐期追溯性质，包含有全期数据的影响。
7
所述最优梯度法是应用目标函数的负梯度方向作为每一步迭代的搜索方向。因为每一步都取负梯度方向的最优步长，所以称为最优梯度法。应用最优梯度法，会使其目标函数值在前几步下降最快，故称为最速下降法。
例如一个n维非线性函数f (X)的梯度定义为
<formula>formula see original document page 8</formula>
这是一个n维偏导向J
梯度的单位向量为S<formula>formula see original document page 8</formula> 可以看出，梯度方向也就是函数的法线方向，负梯度方向与-s同向。其中iiy/tx)u
叫做梯度v/(x)的模，也叫范数。模的计算公式为
梯度方向的性质有沿负梯度方向函数值下降最快，为最速下降方向。最优梯度法的迭代公式先令Xk+1 = Xk+ A kSk ; 其中，单位向量^ 入k为最优步长。因此，对最优梯度法的具体定义是始终沿负梯度方向取最优步长搜索的最优化数值方法。由最优梯度法的迭代公式，可有函数极小化的公式 m*(X* + a )=瓶+义a )=瓶+1)

将f (X)在Xk点附近展开成泰勒级数/(X卜/(X*)+VT/(X》X + ^AXTAAX ; 其中，h
32/ 52/32/
3x23x ;
将AX= ASk代入上式，有 /(X)=/(X4)+VT/(XAK +>)TA(A&)
而
3义
所以最优步长可表示为
vT/(x)&
4=— 由于本发明实施例中为求min5SE二 J]
i
7=1
的最小值，该函数
是含变量a的一维函数。所以推导一维的cik值，推导过程如下 [O川]ak+1 = ak+ASk射"=—^k^，入亂 mjn /(a + ao = /(a + v*) = ) 将f(x)在cik点附近展开成泰勒级数/(x)^(cO+V/(cOAx +会/"(cOAx2; 因Ax =入Sk，带入上式，有 =/(^)+v/( * ;k +1 /" )27/8页
验结果

而盖= v/(a k +义/" h2 = o
所以最优步长可表示为 ,、_ v/(q)
这样，利用最优梯度法的方式，从a。出发沿-v&s^(cO方向进行一维搜索，求最
获取至'K = a—, - V,v鹏(aH ) ， " 1;
若iiv5^(cOl^"则ak就是近似最优解，输出cik并转向步骤二，否则转向步骤
步骤二根据所述建立的优化模型，获取所述最优平滑系数。具体的讲就是将近似牟ak带入指数平滑模型，并用于预测。
如图5所示，为本发明实施例提供的一种数据处理装置，该装置包括信息获取单元501，用于获取历史数据信息；预处理单元502，用于对所述历史数据信息进行数据预处理；数据合并填补单元503，用于对所述预处理后的历史数据信息进行数据合并及填
数据平滑单元504，用于将所述数据合并及填补后的历史数据信息进行动态指数
其中，所述预处理单元，包括
时间带划分子单元，用于将所述历史数据信息进行时间带划分；合并校验子单元，用于按照划分的时间带，进行合并校验；
异常校验子单元，用于将所述经过合并校验的时间带进行异常校验，给出异常校
异常值剔除子单元，用于根据所述异常校验结果，将异常数据剔除。所述数据合并填补单元，包括
数据信息接收子单元，用于接收所述经过异常数据剔除的历史数据信息；数据合并子单元，用于将所述历史数据信息中相同时刻的数据进行合并处理；数据检查子单元，用于检测所述合并处理后的数据是否存在时刻点上无数据；数据填补子单元，用于如果存在时刻点上无数据，则进行数据填补处理。
所述数据合并填补单元，包括
数据信息接收子单元，用于接收所述经过异常数据剔除的历史数据信息；数据合并子单元，用于将所述历史数据信息中相同时刻的数据进行合并处理；数据检查子单元，用于检测所述合并处理后的数据是否存在时刻点上无数据；数据填补子单元，用于如果存在时刻点上无数据，则进行数据填补处理。
所述数据平滑单元，包括
数据信息接收子单元，用于接收所述经过数填补处理的历史数据信息；参数获取子单元，用于获取平滑系数的初值，指数平滑初值以及控制精度；指数平滑值获取子单元，用于根据所述平滑系数的初值以及所述指数平滑初值，获取所述指数平滑初值下一时刻点的指数平滑数值；最优平滑系数判断子单元，用于根据所述获取到的指数平滑数据以及控制精度，判断所述平滑系数是否最优平滑系数；平滑处理子单元，用于如果是最优平滑系数，则继续进行下一时刻点的指数平滑处理；平滑系数搜索子单元，用于如果不是最优平滑系数，则进行平滑系数搜索。
需要注意的是，所述平滑系数搜索子单元，可以进一步包括优化模型建立分单元，用于为所述平滑系数建立预测误差平方和最小的优化模型；最优平滑系数获取分单元，用于根据所述建立的优化模型，获取所述最优平滑系数。本发明实施例提供的数据处理方法及装置，通过获取历史数据信息；对所述历史数据信息进行数据预处理；对所述预处理后的历史数据信息进行数据合并及填补；将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。与现有技术相比，本发明所述采用的动态指数平滑处理，可以使得预测精度较高且能够满足实际预测的需要。
通过以上的实施方式的描述，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如上述方法实施例的步骤，所述的存储介质，如FLASH、 R0M/RAM、磁碟、光盘等。以上所述，仅为本发明的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。
权利要求
一种数据处理方法，其特征在于，包括获取历史数据信息；对所述历史数据信息进行数据预处理；对所述预处理后的历史数据信息进行数据合并及填补；将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。
2. 根据权利要求1所述的数据处理方法，其特征在于，对所述历史数据信息进行数据预处理的步骤，包括将所述历史数据信息进行时间带划分；按照划分的时间带，进行合并校验；将所述经过合并校验的时间带进行异常校验，给出异常校验结果；根据所述异常校验结果，将异常数据剔除。
3. 根据权利要求2所述的数据处理方法，其特征在于，对所述预处理后的历史数据信息进行数据合并及填补的步骤，包括接收所述经过异常数据剔除的历史数据信息；将所述历史数据信息中相同时刻的数据进行合并处理；检测所述合并处理后的数据是否存在时刻点上无数据；如果存在时刻点上无数据，则进行数据填补处理。
4. 根据权利要求3所述的数据处理方法，其特征在于，将所述数据合并及填补后的历史数据信息进行动态指数平滑处理的步骤，包括接收所述经过数填补处理的历史数据信息；获取平滑系数的初值，指数平滑初值以及控制精度；根据所述平滑系数的初值以及所述指数平滑初值，获取所述指数平滑初值下一时刻点的指数平滑数值；根据所述获取到的指数平滑数据以及控制精度，判断所述平滑系数是否最优平滑系数；如果是最优平滑系数，则继续进行下一时刻点的指数平滑处理；如果不是最优平滑系数，则进行平滑系数搜索。
5. 根据权利要求4所述的数据处理方法，其特征在于，所述平滑系数搜索的步骤，包括为所述平滑系数建立预测误差平方和最小的优化模型；根据所述建立的优化模型，获取所述最优平滑系数。
6. —种数据处理装置，其特征在于，信息获取单元，用于获取历史数据信息；预处理单元，用于对所述历史数据信息进行数据预处理；数据合并填补单元，用于对所述预处理后的历史数据信息进行数据合并及填补；数据平滑单元，用于将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。
7. 根据权利要求6所述的数据处理装置，其特征在于，所述预处理单元，包括时间带划分子单元，用于将所述历史数据信息进行时间带划分；合并校验子单元，用于按照划分的时间带，进行合并校验；异常校验子单元，用于将所述经过合并校验的时间带进行异常校验，给出异常校验结果；异常值剔除子单元，用于根据所述异常校验结果，将异常数据剔除。
8. 根据权利要求7所述的数据处理装置，其特征在于，所述数据合并填补单元，包括数据信息接收子单元，用于接收所述经过异常数据剔除的历史数据信息；数据合并子单元，用于将所述历史数据信息中相同时刻的数据进行合并处理；数据检查子单元，用于检测所述合并处理后的数据是否存在时刻点上无数据；数据填补子单元，用于如果存在时刻点上无数据，则进行数据填补处理。
9. 根据权利要求8所述的数据处理装置，其特征在于，所述数据平滑单元，包括数据信息接收子单元，用于接收所述经过数填补处理的历史数据信息；参数获取子单元，用于获取平滑系数的初值，指数平滑初值以及控制精度；指数平滑值获取子单元，用于根据所述平滑系数的初值以及所述指数平滑初值，获取所述指数平滑初值下一时刻点的指数平滑数值；最优平滑系数判断子单元，用于根据所述获取到的指数平滑数据以及控制精度，判断所述平滑系数是否最优平滑系数；平滑处理子单元，用于如果是最优平滑系数，则继续进行下一时刻点的指数平滑处理；平滑系数搜索子单元，用于如果不是最优平滑系数，则进行平滑系数搜索。
10. 根据权利要求9所述的数据处理装置，其特征在于，所述平滑系数搜索子单元，包括优化模型建立分单元，用于为所述平滑系数建立预测误差平方和最小的优化模型；最优平滑系数获取分单元，用于根据所述建立的优化模型，获取所述最优平滑系数。
全文摘要
本发明公开了一种数据处理方法及装置，涉及智能交通系统技术领域。为了解决现有技术中由于现有技术所采用的中值滤波平滑处理技术预测过程较为随机，使得预测精度较低，无法满足实际预测的需要而发明。本发明实施例提供了一种数据处理方法，该方法包括获取历史数据信息；对所述历史数据信息进行数据预处理；对所述预处理后的历史数据信息进行数据合并及填补；将所述数据合并及填补后的历史数据信息进行动态指数平滑处理。采用本发明实施例可以提高预测精度，满足实际预测的需要。
文档编号G06F19/00GK101794345SQ20091024415
公开日2010年8月4日申请日期2009年12月30日优先权日2009年12月30日
发明者付新刚, 庄明亮, 李建军, 申小次, 贾学力申请人:北京世纪高通科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申小次;贾学力;李建军;庄明亮;付新刚
技术所有人：北京世纪高通科技有限公司
我是此专利的发明人

上一篇：一种数据查询方法及装置的制作方法
上一篇：一种回归测试的管理方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。