路况数据筛选方法、装置、计算机设备及存储介质与流程

文档序号:20781119发布日期:2020-05-19 21:15阅读:94来源:国知局
路况数据筛选方法、装置、计算机设备及存储介质与流程

本发明涉及数据处理领域,尤其涉及一种路况数据筛选方法、装置、计算机设备及存储介质。



背景技术:

随着互联网技术的不断发展,先进交通信息服务系统在完善的信息网络基础上,获得各类交通信息并进行综合处理,实时向社会提供全面、准确的道路交通拥堵信息。然而,由于先进交通信息服务系统的数据源是实时获取的,只能反馈出实时的路况信息,不能实现路况的预测以警示出行者,从而导致经常出现交通堵点疏散不及时的现象。因此,利用历史路况数据进行路况的预测是解决交通堵点疏散不及时现象的重要手段之一。但是,由于上下班高峰期时的路况数据比正常时间段的路况数据往往会有较明显的波动,只使用常规的模型学习得到的结果不能很好的表征路况的实时情况。因此,对获取的路况数据的特征往往有着较高的要求,例如:历史路况数据特征的稳定性,历史路况数据特征的多样性以及历史路况数据特征的平衡等,以更好地保证后续预测的准确性。



技术实现要素:

本发明实施例提供一种路况数据筛选方法、装置、计算机设备及存储介质,以解决对路况数据进行筛选的准确性较低问题。

一种路况数据筛选方法,包括:

获取路况样本数据集,将所述路况样本数据集分为训练路况数据集和验证路况数据集;

对所述训练路况数据集中的每一训练路况数据进行特征提取,得到所述训练路况数据集的n组训练特征值;

对所述验证路况数据集中的每一验证路况数据进行特征提取,得到所述验证路况数据集的m组验证特征值;

对所述训练路况数据集中的每一所述训练特征值进行特征编码,得到所述训练路况数据集的训练特征编码,所述训练特征编码为所述训练路况数据集中每一路况特征对应的编码;

对所述验证路况数据集中的每一所述验证特征值进行特征编码,得到所述验证路况数据集的验证特征编码,所述验证特征编码为所述验证路况数据集中每一路况特征对应的编码;

计算所述训练路况数据集中每一所述路况特征的所述训练特征编码与对应的所述验证路况数据集中所述路况特征的所述验证特征编码的特征相似度;

提取出所述特征相似度大于相似度阈值的路况特征,得到目标路况特征。

一种路况数据筛选装置,包括:

路况样本数据集获取模块,用于获取路况样本数据集,将所述路况样本数据集分为训练路况数据集和验证路况数据集;

第一特征提取模块,用于对所述训练路况数据集中的每一训练路况数据进行特征提取,得到所述训练路况数据集的n组训练特征值;

第二特征提取模块,用于对所述验证路况数据集中的每一验证路况数据进行特征提取,得到所述验证路况数据集的m组验证特征值;

第一特征编码模块,用于对所述训练路况数据集中的每一所述训练特征值进行特征编码,得到所述训练路况数据集的训练特征编码,所述训练特征编码为所述训练路况数据集中每一路况特征对应的编码;

第二特征编码模块,用于对所述验证路况数据集中的每一所述验证特征值进行特征编码,得到所述验证路况数据集的验证特征编码,所述验证特征编码为所述验证路况数据集中每一路况特征对应的编码;

特征相似度计算模块,用于计算所述训练路况数据集中每一所述路况特征的所述训练特征编码与对应的所述验证路况数据集中所述路况特征的所述验证特征编码的特征相似度;

目标路况特征生成模块,用于提取出所述特征相似度大于相似度阈值的路况特征,得到目标路况特征。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述路况数据筛选方法。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述路况数据筛选方法。

上述路况数据筛选方法、装置、计算机设备及存储介质,获取路况样本数据集,将路况样本数据集分为训练路况数据集和验证路况数据集;对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n个训练特征值;对验证路况数据集中的每一验证路况数据进行特征提取,得到验证路况数据集的m个验证特征值;对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码,训练特征编码为训练路况数据集中每一路况特征对应的编码;对验证路况数据集中的每一验证特征值进行特征编码,得到验证路况数据集的验证特征编码,验证特征编码为验证路况数据集中每一路况特征对应的编码;计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度;提取出特征相似度大于相似度阈值的路况特征,得到目标路况特征;通过将训练路况数据集的训练特征编码和验证路况数据集的验证特征编码进行特征相似度比较,筛选出特征相似度大于相似度阈值的目标路况特征的,从而保证了生成的目标路况特征的稳定性和精确性,提高了对路况数据进行筛选的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中路况数据筛选方法的一应用环境示意图;

图2是本发明一实施例中路况数据筛选方法的一示例图;

图3是本发明一实施例中路况数据筛选方法的另一示例图;

图4是本发明一实施例中路况数据筛选方法的另一示例图;

图5是本发明一实施例中路况数据筛选方法的另一示例图;

图6是本发明一实施例中路况数据筛选方法的另一示例图;

图7是本发明一实施例中路况数据筛选装置的一原理框图;

图8是本发明一实施例中路况数据筛选装置的另一原理框图;

图9是本发明一实施例中路况数据筛选装置的另一原理框图;

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的路况数据筛选方法,该路况数据筛选方法可应用如图1所示的应用环境中。具体地,该路况数据筛选方法应用在路况数据筛选系统中,该路况数据筛选系统包括如图1所示的客户端和服务端,客户端与服务端通过网络进行通信,用于解决对路况数据进行筛选的准确性较低问题。其中,客户端又称为用户端,是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中,如图2所示,提供一种路况数据筛选方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:

s10:获取路况样本数据集,将路况样本数据集分为训练路况数据集和验证路况数据集。

其中,路况样本数据集指待进行处理的路况数据。在本实施例中,路况样本数据集为获取的最近的至少三个月的历史路况数据。具体地,历史路况数据可以为通过百度地图获取的最近三个月深圳市各主干道路上的实时路况数据。历史路况数据可以包括道路车速、交通拥堵情况和交通事故发生情况等。具体地,路况样本数据集是由若干个路况样本数据组成的数据集。

其中,训练路况数据集指用来建立模型的数据集。验证路况数据集指用来验证建立后的模型效果的数据集。具体地,将路况样本数据集划分为训练路况数据集和验证路况数据集可采用随机划分或交叉检验的方法进行划分;划分后训练路况数据集和验证路况数据集的比例值可以为:训练路况数据集:验证路况数据集=5:5,训练路况数据集:验证路况数据集=6:4,或训练路况数据集:验证路况数据集=7:3等。在一具体实施例中,为了提高后续模型训练的精准度,训练路况数据集的数量比验证路况数据集的数量多。在本步骤中,将获取的路况样本数据集的75%作为训练路况数据集,用于对模型进行训练;把获取的路况样本数据集的25%作为验证路况数据集,用于对完成训练的模型进行效果评估。

s20:对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值。

其中,训练特征值指能反映训练路况数据的性质的一组特征值。例如:训练特征值可以为日期、道路和时间窗等所对应的取值。例如:日期对应的取值为周一、周二、周三、周四、周五、周六和周日;道路对应的取值为城市的主要道路,各条道路通过道路名进行区分,如北京市主干线所有道路单元集合,西二环路、学院路等。时间窗对应的取值为08:00、08:05、08:10、08:15等。其中,时间窗是通过对00:00-23:59每隔一预设时间进行分界得到的,如每个5分钟为分界得到的时间窗集合。需要说明的是,不同的日期下包含有相同的时间窗集合。

具体地,对训练路况数据集中的每一训练路况数据进行特征提取,从每一训练路况数据中将具有路况特征的数据提取出来,并将该具有路况特征的数据作为该训练路况数据的训练特征值。可以理解地,每一训练路况数据对应一组训练特征值。训练特征值的数量n等于该训练路况数据集所包含的训练路况数据的数量。具体地,可采用特征提取算法自动实现对每一训练路况数据的特征提取,得到训练路况数据集的n组训练特征值。其中,特征提取算法可以为线性特征提取(pca)或非线性特征提取。优选地,为了保证能从训练路况数据集中提取更全面准确的的训练特征值,还可以通过从服务端的数据库获取预先编译好的特征提取脚本,然后采用对应的特征提取脚本对训练路况数据集中的每一训练路况数据进行特征提取。

s30:对验证路况数据集中的每一验证路况数据进行特征提取,得到验证路况数据集的m个验证特征值。

其中,验证特征值指能反映验证路况数据的性质的一组特征数据。可以理解地,由于验证路况数据与训练路况数据属于同一类型的样本数据。因此,对验证路况数据集中的每一验证路况数据进行特征提取后得到的验证特征值与训练特征值属于相同路况特征的值。可以理解地,每一验证路况数据对应一组验证特征值。验证特征值的数量m等于该验证路况数据集所包含的验证路况数据的数量。

具体地,该步骤中对验证路况数据集中的每一验证路况数据进行特征提取的具体方法和过程,与步骤s20中对训练路况数据集中的每一训练路况数据进行特征提取的具体方法和过程相似,此处不作做冗余赘述。

s40:对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码,训练特征编码为训练路况数据集中每一路况特征对应的编码。

其中,训练特征编码指训练路况数据集中每一路况特征对应的编码。其中,路况特征指预先设定的能反映训练路况数据集的路况性质的特征信息。例如:“日期”、“道路”、“时间窗”等特征信息。可以理解地,训练路况数据集中每一训练特征数据所对应的路况特征相同。

具体地,可采用one-hot编码或者fm算法等对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码。优选地,为了避免后续进行路况特征筛选后出现欠拟合的想象。在本实施例中,采用gbdt算法对对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码。其中,gbdt是一种梯度提升决策树。gbdt算法是一种迭代的决策树算法,该算法由多棵决策树组成。可以理解地,采用gbdt算法法对训练路况数据集中的每一训练特征值进行特征编码的同时会进行特征构造,从而避免了后续进行路况特征筛选后出现欠拟合的想象。

可以理解地,由于生成的训练特征编码是以每一路况特征为单位的,因此,若训练路况数据集中训练特征数据的数量不同,则进行特征编码后得到的训练特征编码的向量长度也不同,即训练特征编码的向量长度取决于训练路况数据集中训练特征数据的数量。

示例性地,若训练路况数据集中包括:

训练特征数据a1为:日期:周一,道路:西二环路,时间窗:08:00;

训练特征数据a2为:日期:周二、道路:学院路、时间窗:08:05;

训练特征数据a3为:日期:周三、道路:北京路、时间窗:08:10;

则对路况训练数据集中的每一训练特征值进行特征编码后,得到路况特征“日期”对应的训练特征编码为[1,0,0,0,1,0,0,0,1];路况特征“道路”对应的训练特征编码为[1,0,0,0,0,0,0,0,0];路况特征“时间窗”对应的训练特征编码为[1,0,0,0,0,0,0,0,1]。

s50:对验证路况数据集中的每一验证特征值进行特征编码,得到验证路况数据集的验证特征编码,验证特征编码为验证路况数据集中每一路况特征对应的编码。

其中,验证特征编码指验证路况数据集中每一路况特征对应的编码。在本实施例中,验证路况数据集所对应的路况特征和训练路况数据集所对应的路况特征相同。

具体地,该步骤中对验证路况数据集中的每一验证特征值进行特征编码的具体方法和过程,与步骤s40中对训练路况数据集中的每一训练特征值进行特征编码的具体方法和过程相似,此处不作做冗余赘述。可以理解地,由于生成的验证特征编码是以每一路况特征为单位的,因此,若验证路况数据集中验证特征数据的数量不同,则进行特征编码后得到的验证特征编码的向量长度也不同,即验证特征编码的向量长度取决于验证路况数据集中验证特征数据的数量。

在一具体实施例中,若验证路况数据集中验证特征数据的数量与训练路况数据集中训练特征数据的数量相同,则生成的每一路况特征对应的验证特征编码与训练特征编码的向量长度相同。若验证路况数据集中验证特征数据的数量与训练路况数据集中训练特征数据的数量不同,则生成的每一路况特征对应的验证特征编码与训练特征编码的向量长度不同。

s60:计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度。

由步骤s40和步骤s50可知,训练特征编码为训练路况数据集中每一路况特征对应的编码,验证特征编码为验证路况数据集中每一路况特征对应的编码,且验证路况数据集所包括的路况特征和训练路况数据集所包括的路况特征相同。因此,训练路况数据集中每一路况特征对应的训练特征编码,在验证路况数据集中都有与之对应相同的路况特征对应的验证特征编码。

具体地,先采用字符串匹配法将训练路况数据集中的每一路况特征与验证路况数据集中的每一路况特征进行匹配,然后将匹配成功的路况特征所对应的训练特征编码和验证特征编码确定为特征相似度计算的特征编码对,再采用余弦相似度算法计算每一特征编码对中训练特征编码和对应的验证特征编码的特征相似度,从而得到每一特征编码对中训练特征编码和对应的验证特征编码的特征相似度。

示例性,若训练路况数据集中包括路况特征“日期”对应的训练特征编码[1,0,0,0,1,0,0,0,1],和路况特征“道路”对应的训练特征编码[1,0,0,0,0,0,0,0,0];验证路况数据集中包括路况特征“日期”对应的验证特征编码[1,1,0,0,1,0,0,1,0],和路况特征“道路”对应的验证特征编码[1,1,0,0,0,0,0,0,0],则计算训练路况数据集中路况特征“日期”对应的训练特征编码[1,0,0,0,1,0,0,0,1]与验证路况数据集中路况特征“日期”对应的验证特征编码[1,1,0,0,1,0,0,1,0]的特征相似度,训练路况数据集中路况特征“道路”对应的训练特征编码[1,0,0,0,0,0,0,0,0]与验证路况数据集中路况特征“道路”对应的验证特征编码[1,1,0,0,0,0,0,0,0]的特征相似度。

s70:提取出特征相似度大于相似度阈值的路况特征,得到目标路况特征。

具体地,在根据步骤s60计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度,确定了每一路况特征对应的特征相似度之后,再将每一路况特征的特征相似度与预设的相似度阈值进行一一比较,提取出特征相似度大于相似度阈值的路况特征,即可得到目标路况特征。其中,相似度阈值指预先设定的用于评估训练特征编码与验证特征编码是否相似的阈值。可选地,相似度阈值可以设定为80%、85%或者90%,用户可根据实际情况自定义设置。

示例性地,若相似度阈值设为85%,计算得到路况特征“日期”对应的特征相似度为80%;路况特征“道路”对应的特征相似度为87%;则将路况特征“道路”提取出来作为目标路况特征。

在本实施例中,获取路况样本数据集,将路况样本数据集分为训练路况数据集和验证路况数据集;对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n个训练特征值;对验证路况数据集中的每一验证路况数据进行特征提取,得到验证路况数据集的m个验证特征值;对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码,训练特征编码为训练路况数据集中每一路况特征对应的编码;对验证路况数据集中的每一验证特征值进行特征编码,得到验证路况数据集的验证特征编码,验证特征编码为验证路况数据集中每一路况特征对应的编码;计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度;提取出特征相似度大于相似度阈值的路况特征,得到目标路况特征;通过将训练路况数据集的训练特征编码和验证路况数据集的验证特征编码进行特征相似度比较,筛选出特征相似度大于相似度阈值的目标路况特征的,从而保证了生成的目标路况特征的稳定性和精确性,提高了对路况数据进行筛选的准确性。

在一实施例中,如图3所示,在对验证路况数据集中的每一验证特征值进行特征编码之后,且在计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度之前,该路况数据筛选方法还具体包括如下步骤:

s51:判断训练特征编码和验证特征编码之间是否存在缺失编码值。

由于训练路况数据集中训练路况数据的数量与验证路况数据集中验证特征数据的数量可能不同,即生成的训练特征编码的向量长度和验证特征编码的向量长度可能不同。因此,为了提高后续计算训练特征编码与对应的验证特征编码的特征相似度的准确性,先判断训练特征编码和验证特征编码之间是否存在缺失编码值,即判断训练特征编码的向量长度和验证特征编码的向量长度是否相同。

具体地,先计算每一训练特征编码的向量长度和每一验证特征编码的向量长度,然后将每一训练特征编码的向量长度与对应的验证特征编码的向量长度进行比较。若训练特征编码的向量长度与对应的验证特征编码的向量长度相同,则判断该训练特征编码和该验证特征编码之间不存在缺失编码值;若训练特征编码的向量长度与对应的验证特征编码的向量长度不相同,则判断该训练特征编码和该验证特征编码之间存在缺失编码值。

s52:若训练特征编码和验证特征编码之间存在缺失编码值,则采用基于正则化最大期望算法进行缺失值填补,得到目标训练特征编码和目标验证特征编码。

若根据步骤s51判断得到训练特征编码和验证特征编码之间存在缺失编码值,则采用基于正则化最大期望算法对向量长度较短的特征编码进行缺失值填补,将缺失编码值视为无法观测的隐藏编码值,以保证得到的目标训练特征编码与目标验证特征编码的向量长度相同。

其中,基于正则化最大期望算法是一种迭代优化算法,其计算方法是每次迭代分为期望(e)步和最大(m)步。具体地,首先计算期望(e),利用对隐藏变量的现有估计值,计算其最大似然估计值;然后最大化(m),最大化在期望(e)步上求得的最大似然值来计算参数的值,最大化(m)步找到的参数估计值被用于下一个期望(e)步计算中,这个过程不断交替进行,以实现将缺失编码值视为无法观测的隐藏编码值,得到目标训练特征编码和目标验证特征编码。

优选地,为了保证生成的目标训练特征编码和目标验证特征编码的准确性,还可再采用标准误差(rmse)对缺失编码值的填充效果进行评估,rmse(采用标准误差)能够很好地反映出所填充数据和真实数据的偏离程度,rmse值越小,表示填充数据和真实数据的偏离程度越小,其精度越高,反之,rmse(采用标准误差)越大,表示填充数据和真实数据的偏离程度越大,rmse(采用标准误差)的数学表达式如下式:

其中,n为样本数;xobs,i代表第i个观测的隐藏编码值;xmodel,i代表xobs,i的预测值。

在本实施例中,通过判断训练特征编码和验证特征编码之间是否存在缺失编码值,若训练特征编码和验证特征编码之间存在缺失编码值,则采用基于正则化最大期望算法进行缺失值填补,得到目标训练特征编码和目标验证特征编码,从而提高了后续计算训练特征编码和验证特征编码的特征相似度的准确性。

在一实施例中,如图4所示,在计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度之后,该路况数据筛选还具体包括如下步骤:

s61:提取出特征相似度大于相似度阈值的路况特征,作为正常特征,提取出特征相似度小于或等于相似度阈值的路况特征,作为异常特征。

其中,正常特征指经筛选后得到的相对比较稳定的特征。异常特征指经筛选后得到的比较不稳定的特征。在本实施例中,在计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度之后,将特征相似度大于相似度阈值的路况特征提取出来作为正常特征;将特征相似度小于或等于相似度阈值的路况特征提取出来作为正常特征。

s62:分别对正常特征和异常特征进行标签设置,得到标签信息。

其中,标签信息指为了区分正常特征和异常特征的一种标识。标签信息可以用大小写字母或者阿拉伯数字等任意标识符表示。具体地,在确定了正常特征和异常特征之后,为了后续便于分辨,分别对正常特征和异常特征进行标签设置。例如:可以将正常特征标签设置为1,异常特征标签设置为0;或者将正常特征标签设置为a,异常特征标签设置为a等。

s63:基于标签信息,将正常特征和异常特征存入预设信息数据库中。

其中,预设信息数据库是指预先设定的用于存储路况特征的数据库。具体地,在分别对正常特征和异常特征进行标签设置之后,将正常特征与对应的标签信息相关联,和将异常特征与对应的标签信息相关联存入预设信息数据库中,便于后续可直接根据标签信息获取对应的特征进行模型训练。

在本实施例中,提取出特征相似度大于相似度阈值的路况特征,作为正常特征,提取出特征相似度小于或等于相似度阈值的路况特征,作为异常特征;分别对正常特征和异常特征进行标签设置,得到标签信息;基于标签信息,将正常特征和异常特征存入预设信息数据库中;以便于后续根据实际情况直接从数据库获取所需的路况特征。

在一实施例中,如图5所示,对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码,具体包括如下步骤:

s401:获取训练路况数据集中的每一训练特征值,对每一训练特征值进行训练,生成梯度提升决策树模型。

其中,梯度提升决策树模型是指根据训练路况数据集中的每一训练特征值进行决策树训练后所构建的具有n棵树的决策树模型。具体地,将获取的训练路况数据集中的每一训练特征值输入预设的决策树中进行训练,以构建生成具有n棵树的梯度提升决策树模型。

s402:将每一训练特征值输入梯度提升决策树模型中进行特征编码,得到训练路况数据集的训练特征编码。

具体地,将每一训练特征值输入梯度提升决策树模型中进行特征编码,即可得到训练路况数据集的训练特征编码。可以理解地,由于在将训练特征值输入到梯度提升决策树模型中进行特征编码时,梯度提升决策树模型会对训练特征值进行特征构造,因此生成的训练特征编码属于组合特征编码。

示例性地,若梯度提升决策树模型由两棵树组合,第一棵树有3个叶子结点,而第二棵树有2个叶子节点。输入一个训练特征值x,若它在第一棵树最后落在其中的第二个叶子结点,而在第二棵树里最后落在其中的第一个叶子结点;则那么通过该梯度提升决策树模型进行特征编码后,生成的训练特征编码为[0,1,0,1,0],其中向量中的前三位对应第一棵树的3个叶子结点,后两位对应第二棵树的2个叶子结点。

在本实施例中,获取训练路况数据集中的每一训练特征值,对每一训练特征值进行训练,生成梯度提升决策树模型;将每一训练特征值输入梯度提升决策树模型中进行特征编码,得到训练路况数据集的训练特征编码;从而保证了生成的训练特征编码和验证特征编码的准确性。

在一实施例中,如图6所示,对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值,具体包括如下步骤:

s201:获取特征参数集,特征参数集包括l个参数标识,l为正整数。

其中,特征参数集指预先设定需进行提取的训练路况数据集的特征集合。具体地,特征参数集包括l个参数标识,l为正整数。参数标识指为每一个特征参数所赋予的一种标识号。例如:日期的参数标识可以为day;道路的参数标识可以为road;时间窗的参数标识可以为time。

s202:根据每一参数标识获取对应的特征提取脚本。

其中,特征提取脚本指可直接对训练路况数据集中的每一训练路况数据进行特征提取的文本。在本实施例中,特征提取脚本是预先编译好、并保存在服务端的数据库的,因此根据获取的参数标识可直接从服务端的数据库获取对应的特征提取脚本。例如:根据日期的参数标识day可从服务端的数据库获取到对应的特征提取脚本<day>;根据道路的参数标识road可从服务端的数据库获取到对应的特征提取脚本<road>;根据时间窗的参数标识time可从服务端的数据库获取到对应的特征提取脚本<time>等。

s203:采用特征提取脚本对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值。

具体地,由于每一特征提取脚本都具有对训练路况数据集中的每一训练路况数据都有进行直接特征提取的功能,因此可直接将根据步骤s202获取的特征提取脚本对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值。

在本实施例中,获取特征参数集,特征参数集包括l个参数标识,l为正整数;根据每一参数标识获取对应的特征提取脚本;采用特征提取脚本对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值;从而保证了生成的训练路况值的准确性和有效性。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种路况数据筛选装置,该路况数据筛选装置与上述实施例中路况数据筛选方法一一对应。如图7所示,该路况数据筛选装置包括路况样本数据集获取模块10、第一特征提取模块20、第特征提取模块30、第一特征编码模块40、第二特征编码模块50、特征相似度计算模块60和目标路况特征生成模块70。各功能模块详细说明如下:

路况样本数据集获取模块10,用于获取路况样本数据集,将路况样本数据集分为训练路况数据集和验证路况数据集;

第一特征提取模块20,用于对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值;

特征提取模块30,用于对验证路况数据集中的每一验证路况数据进行特征提取,得到验证路况数据集的m组验证特征值;

第一特征编码模块40,用于对训练路况数据集中的每一训练特征值进行特征编码,得到训练路况数据集的训练特征编码,训练特征编码为训练路况数据集中每一路况特征对应的编码;

第二特征编码模块50,用于对验证路况数据集中的每一验证特征值进行特征编码,得到验证路况数据集的验证特征编码,验证特征编码为验证路况数据集中每一路况特征对应的编码;

特征相似度计算模块60,用于计算训练路况数据集中每一路况特征的训练特征编码与对应的验证路况数据集中路况特征的验证特征编码的特征相似度;

目标路况特征生成模块70,用于提取出特征相似度大于相似度阈值的路况特征,得到目标路况特征。

优选地,如图8所示,路况数据筛选装置,还包括:

判断模块51,用于判断训练特征编码和验证特征编码之间是否存在缺失编码值;

缺失值填补模块52,用于在训练特征编码和验证特征编码之间存在缺失编码值时,采用基于正则化最大期望算法进行缺失值填补,得到目标训练特征编码和目标验证特征编码。

优选地,如图9所示,路况数据筛选装置,还包括:

提取模块61,用于提取出特征相似度大于相似度阈值的路况特征,作为正常特征,提取出特征相似度小于或等于相似度阈值的路况特征,作为异常特征;

标签设置模块62,用于分别对正常特征和异常特征进行标签设置,得到标签信息;

存入模块63,用于基于标签信息,将正常特征和异常特征存入预设信息数据库中。

优选地,第一特征编码模块40,包括:

梯度提升决策树模型生成单元,用于获取训练路况数据集中的每一训练特征值,对每一训练特征值进行训练,生成梯度提升决策树模型;

特征编码单元,用于将每一训练特征值输入梯度提升决策树模型中进行特征编码,得到训练路况数据集的训练特征编码。

优选地,第一特征提取模块20,包括:

特征参数集获取单元,用于获取特征参数集,所述特征参数集包括l个参数标识,l为正整数;

特征提取脚本获取单元,用于根据每一参数标识获取对应的特征提取脚本。

特征提取单元,用于采用特征提取脚本对训练路况数据集中的每一训练路况数据进行特征提取,得到训练路况数据集的n组训练特征值。

关于路况数据筛选装置的具体限定可以参见上文中对于路况数据筛选方法的限定,在此不再赘述。上述路况数据筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的路况数据筛选方法使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种路况数据筛选方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的路况数据筛选方法。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的路况数据筛选方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1