用于估算汽车质量的有效数据的筛选方法与流程

文档序号:17443965发布日期:2019-04-17 05:14阅读:464来源:国知局
用于估算汽车质量的有效数据的筛选方法与流程

本发明属于汽车安全驾驶技术领域,特别是涉及一种用于估算汽车质量的有效数据的筛选方法。



背景技术:

汽车的重量参数包括整备质量、载质量、总质量等,其中整备质量是指整车装备质量,即汽车无乘员或不载货时(仅带有工具、备胎)加满燃油和冷却水时的重量;核定载质量是指该车辆设计规定装载货物的标准质量;汽车总质量则是指汽车装备齐全,并按规定装满客(包括驾驶员)、货时的重量。根据汽车理论的相关内容可知,汽车总质量会直接或间接影响汽车的动力性、经济性、操纵稳定性、制动性、通过性等,同时依据交通运输管理的相关规定,汽车总质量应限制在一定范围内,因此需要根据车辆实时采集到的数据对汽车质量进行估算,避免因超载而导致潜在的危险。

在车辆运行过程中,当车辆发生转向、制动或处于空挡、离合器接合等状态时,发动机转矩、车速、加速度等车辆数据并不满足汽车行驶方程式,即车辆采集到的数据并非全部可以直接用于估算汽车质量。汽车质量由行驶方程式计算得到,满足汽车行驶方程式、能够较好地估算车辆质量的有效数据为需要筛选出来的“好”数据;而不满足上述条件的无效数据则为需要筛选出来的“坏”数据。因此,如何经过一系列筛选得到“好”数据是估算汽车质量的重要一步。

另外,车辆运行过程中可采集到的数据一般包括经纬度、海拔高度、转向盘方向、速度、发动机转速、发动机扭矩、离合器工作状态、制动器工作状态、燃油消耗率、油门踏板开度、水温、进气管温度、进气管压力等变量,而这些变量中并非所有变量都可以代表汽车质量的特征属性。如何找到汽车质量的特征变量,即找到能够作为筛选出“好/坏”数据的特征变量,成为数据筛选的必需工作。

再者,由于采集到的数据有“好”、“坏”之分,相当于构造一个分类器将数据一分为二,此时涉及到数据挖掘中的分类算法分析。分类数据挖掘是通过找出共同事物的相同属性及不同事物间的差异,利用找出的相同点或者不同点将事物分类。分类算法通常是基于决策树来实现,算法简单,当数据量较大时仍能快速地将数据进行分类。决策树中最顶部的决策节点是根决策节点,每一个分支都有一个新的决策节点,中间的节点用于表示事物的属性;决策节点下面是叶子节点,用叶子节点表示设定的分类种类。整个决策的过程从根决策节点开始,从上到下。由于决策树会产生过拟合现象,导致泛化能力变弱,因而针对初步筛选后的车辆数据,基于选取的特征变量,如何构造合适的分类器将“好”、“坏”数据合理得区分开,同时避免过拟合问题以提高分类器的准确性也成为需要解决的问题之一。



技术实现要素:

本发明的目的是至少解决上述现有技术中存在的问题之一,该目的是通过以下技术方案实现的:

本发明提出了一种用于估算汽车质量的有效数据的筛选方法,包括以下步骤:

步骤一:建立能够对数据进行分类的分类器模型,当在分类器模型中输入用于估算汽车质量的数据时,分类器模型会将该数据归类为“好数据”或“坏数据”;

步骤二:利用步骤一所建立的分类器模型对车辆所采集到的数据实时进行分类,并将归为“好数据”一类的数据筛选出来,以作为可用于估算汽车质量的有效数据;

其中,所述步骤一中的分类器模型的建立过程如下:

1)定义“好数据”和“坏数据”的分类依据;

2)根据步骤1)所定义的分类依据对建模用原始数据进行分类;

3)在影响汽车质量的变量中选取出能够代表汽车质量的特征属性,作为区分“好数据”和“坏数据”的特征变量;

4)基于多决策树随机组合分类算法对训练数据进行训练,从而生成分类器模型,其中,训练过程以建模用原始数据作为训练数据,以训练数据的特征变量作为训练样本集,以数据的类别作为候选属性集合。

进一步地,所述步骤1)中的“好数据”定义为:满足汽车行驶方程式,并且代入汽车行驶方程式后所得到的质量与汽车实际质量之间的误差不超过5%的数据;不满足“好数据”定义的数据则定义为“坏数据”。

进一步地,在步骤1)与步骤2)之间增加对建模用原始数据进行初步筛选的步骤,在初步筛选步骤中剔除掉的数据不参与步骤2)-步骤4),初步筛选的过程为:筛选出汽车未发生转向、离合器分离、制动器未发生制动、实际档位为非空挡状态时所采集的数据,剔除掉其余数据。

进一步地,汽车行驶方程式为:

其中,m为汽车质量,ttq为发动机转矩,ig为变速器传动比,i0为主减速比,η为机械传动效率,r为车轮滚动半径,f为滚动阻力摩擦系数,α为坡度角,cd为风阻系数,a为迎风面积,ua为车速,du/dt为加速度,δ为旋转质量换算系数,g为重力加速度,ft为汽车行驶的驱动力。

进一步地,所述步骤3)所选取出的特征变量为5个,分别是:速度、发动机扭矩、加速度、传动比、油门开度变化。

进一步地,选取出所述5个特征变量所采用的方法为因子分析法,选取出所述5个特征变量的过程如下:

基于汽车行驶方程式中涉及的参数,对汽车质量估算产生影响的因素主要包括:发动机扭矩、燃料消耗率、油门开度、油门开度变化、速度、实际档位、加速度、传动比;

先对燃料消耗率、油门开度、发动机扭矩、加速度、油门开度变化5个变量进行因子分析,提取出1个公因子,进而获得该公因子与各变量之间的系数,根据该系数选取出发动机扭矩、加速度、油门开度变化3个变量作为特征变量;

再对速度、实际档位、传动比3个变量进行因子分析,提取出1个公因子,进而获得该公因子与各变量之间的系数,根据该系数选取出速度、传动比2个变量作为特征变量。

进一步地,所述步骤4)中单一决策树的生成方法为:

设训练样本集合为p_train,候选属性集合为m_train,具体流程如下:

①创建决策树的根节点n,若所有样本均属于同一类别c,则返回n作为一个叶子节点,并标志为c类别;若m_train为空,则返回n作为一个叶子节点,并标志该节点所含样本中类别最多的类别;

②计算m_train集合中各个候选属性的信息增益率,选择最大的信息增益率对应的属性m,标记为根节点n;

③根据属性m值域中的每个值vi,从根节点n产生相应的一个分支,并记xi为p_train集合中满足m=vi条件的样本子集合;

④若xi为空,则将相应的叶子节点标志为p_train样本集合中类别最多的类别;否则,将属性m从m_train中删除,返回①。

⑤重复①~④,递归创建子树,即形成分支,直到数据样本集不可分,决策树停止生长。

进一步地,所述步骤4)中的多决策树随机组合是在原始数据中以每次有放回的方式抽取一个样本,抽取n次形成新的集合s′,重复实施l次该取样过程,以随机产生l个训练集s1,s2,…,sl,针对每个训练集,根据步骤一所述流程①~⑤生成对应的决策树c1,c2,…,cl,其中每一棵决策树之间并无关联;在每个非叶子节点上选择属性之前,从5个属性中随机抽取m(0<m<5,m∈n*)个属性作为当前节点的分类属性集,并以这m个属性中最好的分裂方式对该节点进行分裂。

进一步地,利用分类器模型对数据进行分类时,先利用每个决策树进行测试,得到对应的类别c1(x),c2(x),…,cl(x),采用投票的方法,将l个决策树中输出最多的类别作为分类结果。

进一步地,完成所述步骤4)后,选用一部分经过初步筛选的原始数据作为测试样本集,该部分原始数据未参与分类器模型的训练生成,利用分类器模型对测试样本集中的数据归类,并且计算得到分类的正确率。

本发明的优点在于:

1、本发明建立了一套能够筛选出可用于汽车质量估算的有效数据的筛选方法,从而提高对汽车质量的估算精准度。2、本发明所提的数据筛选包括初步筛选和分类筛选两步,初步筛选过程可剔除掉冗余数据,实现数据的简化。3、本发明基于多决策树随机组合分类算法对数据分类,避免发生数据过拟合现象,对单一决策树无需进行剪枝操作,可保证模型具有较高的分类准确率。4、本发明分类算法中数据集无需规范化,降低了数据处理的复杂程度,同时参数调整方便,运算速度快,可实现实时筛选实车数据。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明的分类器模型的建立过程的流程示意图;

图2为本发明中单一决策树生成的原理示意图。

图3为本发明中多决策树随机组合分类算法原理的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。

本发明提出了一种用于估算汽车质量的有效数据的筛选方法,包括以下步骤:

步骤一:建立能够对数据进行分类的分类器模型,当在分类器模型中输入用于估算汽车质量的数据时,分类器模型会将该数据归类为“好数据”或“坏数据”;

步骤二:利用步骤一所建立的分类器模型对车辆所采集到的数据实时进行分类,并将归为“好数据”一类的数据筛选出来,以作为可用于估算汽车质量的有效数据。

其中,所述步骤一中的分类器模型的建立过程如下(如图1所示):

1)定义“好数据”和“坏数据”的分类依据。

汽车行驶方程式(如下所述)可以用于估算汽车质量:

式中,m为汽车质量,ttq为发动机转矩,ig为变速器传动比,i0为主减速比,η为机械传动效率,r为车轮滚动半径,f为滚动阻力摩擦系数,α为坡度角,cd为风阻系数,a为迎风面积,ua为车速,du/dt为加速度,δ为旋转质量换算系数,g为重力加速度,ft为汽车行驶的驱动力。

根据汽车行驶方程式适用于对汽车质量进行静态估算,而当汽车处于转向、空挡、制动、离合器接合等情况下,采集到的数据均不满足汽车行驶方程式。本发明定义“好数据”为:满足汽车行驶方程式,并且代入汽车行驶方程式后所得到的质量与汽车实际质量之间的误差不超过5%的数据,“好数据”能够较好地用于估算汽车质量。相对地,不满足“好数据”定义的数据为“坏数据”。为便于后续对数据进行训练和验证,规定“好数据”为类别1,否则为类别2。

2)根据“好数据”和“坏数据”的定义对建模用原始数据进行分类。

在对建模用原始数据分类之前,可以先对原始数据进行初步筛选,剔除明显且必然落入“坏数据”范围的数据。当汽车发生转向、制动、处于空挡、离合器接合等状态时,所采集到的数据均不满足汽车行驶方程式,因此,可以根据汽车是否发生转向、离合器是否分离(0代表离合器分离,1代表离合器接合)、制动器工作状态(0代表未发生制动,1代表发生制动)、实际档位是否非空挡等条件对数据进行初步筛选。

具体地,可以先筛选出相邻时刻方向未发生改变的数据,由于汽车以较高的车速转向时,需考虑到测量仪器反应灵敏度等因素,同时为了缩小初步筛选后“好数据”与“坏数据”所占的比例差异(通常“坏数据”的数量是“好数据”数量的好几倍),初步认定车速高于50km/h、相邻时刻的方向差异较小时,认为该时刻未发生转向。之后,可以在筛选出的未发生转向的数据中依次根据离合器开关等于0、制动开关等于0、实际档位非0进一步进行筛选。

经过初步筛选所得到的数据,再进一步进行“好数据”和“坏数据”的分类。

3)在影响汽车质量的变量中选取出能够代表汽车质量的特征属性,作为区分“好数据”和“坏数据”的特征变量。

影响汽车质量的外在因素诸多,涉及的变量包括发动机转速、发动机扭矩、速度、实际档位、加速度、传动比、油门开度、燃料消耗率、油门开度变化、油门开度变化的变化率、经纬度、海拔、进气歧管温度、进气歧管压力等。将车辆质量作为因变量y,各影响因素作为自变量θ,则二者的关系由y=f(θ)表示。由于以上变量中并非所有变量都可以代表汽车质量的特征属性,通过相关性分析得到各变量与汽车质量的相关系数,根据相关系数可知各自变量与质量m之间并非是简单的线性关系,因而并不能单纯地根据各变量与汽车质量之间的相关系数大小进行特征变量选取,可通过因子分析实现自变量的降维,以降低计算负荷。因子分析是指用少数几个抽象的因子,去描述多个指标或者因素(原变量)之间的联系,将相互之间关系比较密切的变量归为同一个类别之中,每一类变量变成了一个因子。因此,采用因子分析选出用于数据分类的特征变量,具体过程如下:

基于汽车行驶方程式中涉及的参数,对质量估算会产生影响的因素主要包括发动机转速、发动机扭矩、燃料消耗率、油门开度、油门开度变化、速度、实际档位、加速度、传动比等。将上述变量依次定义为变量θ1,θ2,…θ9,建立因子分析的数学模型:

θ1=a11f1+a12f2+…+a1kfk+ε1

θ2=a21f1+a22f2+…+a2kfk+ε2

θ9=a91f1+a92f2+…+a9kfk+ε9

其中,f1,f2,…,fk为k个因子变量,k的值取决于所要提取的公因子的个数,此处满足k<9。将上式表示成矩阵的形式为θ=af+ε,其中a为因子载荷矩阵,aij表示第i个原有变量在第j个因子变量上的负荷,因子负荷越大说明第i个变量与第j个因子的关系越密切,即该因子对变量重要程度越高,反之则说明该因子对变量重要程度越低;ε为特殊因子,表示原有变量不能被公因子所解释的部分。进行因子分析的前提条件是原始变量之间具有相关性,如果变量之间彼此独立,则无法使用因子分析,在spss中可用kmo检验和bartlett球形检验来判断上述变量之间的相关性。

首先对燃料消耗率、油门开度、发动机扭矩、加速度、油门开度变化等5个变量进行因子分析,其中kmo检验和bartlett球形检验结果如表1所示。

表1kmo检验和bartlett球形检验

一般来说,kmo值大于0.6且bartlett球形度检验p值<0.001说明变量之间存在相关性。综合kmo值和p值两个指标,可知5个变量之间存在较强的相关性,可进行因子分析。根据spss因子分析结果可知,提取出1个公因子,该因子与各变量之间的系数如表2。

表2因子分析的系数

由于因子分析方法提取出的因子为综合原始信息的新变量,为避免对原数据进行综合处理,简化计算过程,从该因子的相关变量中取出能够代表原始变量大部分信息的变量作为特征变量。根据公因子与各变量之间的系数大小,选取的变量包括发动机扭矩、加速度、油门开度变化。

同理,对速度、实际档位、传动比等3个变量进行因子分析,其中kmo检验和bartlett球形检验结果如表3所示。

表3kmo检验和bartlett球形检验

综合kmo值和p值两个指标,可知3个变量之间存在相关性,可进行因子分析。提取出1个公因子,该因子与各变量之间的系数如表4。

表4因子分析的系数

根据以上结果,选取的变量包括速度、传动比。

综上所述,最终选择速度、发动机扭矩、加速度、传动比、油门开度变化等5个变量作为汽车质量的特征属性,即作为区分“好数据”和“坏数据”的特征变量。

4)基于多决策树随机组合分类算法对训练数据进行训练,从而生成分类器模型,其中,训练过程以建模用原始数据作为训练数据,以训练数据的特征变量作为训练样本集,以数据的类别作为候选属性集合。

在数据分类中常用的算法包括决策树、随机森林、聚类算法等,其中决策树是一个类似流程图的树形结构,如图2所示,采用自顶向下的递归方法,从树的根节点开始,在它的内部节点上进行属性值的测试比较,然后按照给定实例的属性值确定对应的分支,最后在决策树的叶子节点得到结论。本发明中初步筛选后的数据中“好数据”、“坏数据”所占比例相差较大,而单一决策树可能在某些类占主导地位时创建有偏异的树。此外,单一决策树易出现数据过拟合现象,即无法较好地区分出样本集的属性特征。根据伯努利大数定理可知,随机事件的频率r,当重复试验的次数n增大时,该值稳定在某一个常数的附近,即呈现出一定的稳定性,且数量越多,其平均值就越趋近于期望值。因此,为了减小偏异树产生的可能性,同时为了避免出现数据过拟合现象,提高分类器的准确性,采用多决策树随机组合的分类算法。

多决策树随机组合分类算法依靠于决策树的投票选择来决定最后的分类结果,即通过建立几个模型组合起来解决单一预测问题。其原理示意图如图3所示,包括决策树的生成、多决策树随机组合及投票选择等三个过程,即生成多个分类器/模型,各自独立地学习并做出预测,最后组合投票得出预测结果,因此优于任何一个单分类做出的预测。虽然单一决策树预测正确的概率可能不高,但是集体预测正确的概率较高,因而能显著降低测试样本分类的错误率。具体实施步骤如下:

(1)基于训练样本集,进行决策树的生成。

针对训练数据,速度、发动机扭矩、加速度、传动比、油门踏板开度变化等5个变量数据作为决策树的训练样本集,数据类别为候选属性集合。

首先,决策树从训练数据众多的特征中选择一个特征作为当前节点的分裂标准,具体的量化评估标准为“信息增益”。采用概率论中的信息熵来衡量随机变量的不确定性。本发明中数据样本分为两类,分别是x1,x2,每一种取到的概率分别是p,1-p(0≤p≤1),则熵为h(x)=-plog2p-(1-p)log2(1-p)。根据随机变量(x,y)的联合概率分布,条件熵h(y|x)表示在已知随机变量x的条件下随机变量y的不确定性,定义为其中v(m)是属性m的值域,xv是集合x中在属性m上值等于v的子集。得知特征x的信息后,使得y的不确定性减少的程度定义为信息增益。同时,定义分裂信息量为根据信息增益率(即信息增益与分裂信息量的比值)来选择属性。然后,根据选择的特征评估标准,从上至下递归地生成子节点,直到数据样本集不可分,决策树停止生长,即生成整棵决策树。设训练样本集合为p_train,候选属性集合为m_train,具体流程如下:

①创建决策树的根节点n,若所有样本均属于同一类别c,则返回n作为一个叶子节点,并标志为c类别;若m_train为空,则返回n作为一个叶子节点,并标志该节点所含样本中类别最多的类别;

②计算m_train集合中各个候选属性的信息增益率,选择最大的信息增益率对应的属性m,标记为根节点n;

③根据属性m值域中的每个值vi,从根节点n产生相应的一个分支,并记xi为p_train集合中满足m=vi条件的样本子集合;

④若xi为空,则将相应的叶子节点标志为p_train样本集合中类别最多的类别;否则,将属性m从m_train中删除,返回①。

⑤重复①~④,递归创建子树,即形成分支,直到数据样本集不可分,决策树停止生长。

(2)基于训练样本集,进行多决策树的随机组合。

设集合s中含有n个不同样本{s1,s2,…,sn},每次有放回地从集合s中抽取一个样本,共抽取n次,形成新集合s′,则s′中不包含某个样本si的概率为:

当n→∞时,则:

由于有放回地抽取,新集合s′中可能包含了重复的样本,若除去重复的样本,则新集合s′中包含原集合s中约63.2%的样本。

本发明中样本的属性个数为5,分别为速度、发动机扭矩、加速度、传动比、油门踏板开度变化。利用上述bootstrap重采样技术,随机产生l个训练集s1,s2,…,sl,针对每个训练集,根据步骤一所述流程①~⑤生成对应的决策树c1,c2,…,cl,其中每一棵决策树之间并无关联。在每个非叶子节点上选择属性之前,从5个属性中随机抽取m(0<m<5,m∈n*)个属性作为当前节点的分类属性集,并以这m个属性中最好的分裂方式对该节点进行分裂。

(3)基于测试集样本,采用投票方式进行数据类别的输出。

针对测试集样本t_test,利用每个决策树进行测试,得到对应的类别c1(x),c2(x),…,cl(x)。采用投票的方法,将l个决策树中输出最多的类别作为训练集样本t_test所属的类别,即输出数据类别1或2。

本发明中,速度、发动机扭矩、加速度、传动比、油门踏板开度变化等5个变量数据作为组合分类器的输入,对应的数据类别作为目标期望,对样本数据进行训练。调整决策树棵树(一般≥100)和节点数(不宜取大),得到合适的多决策树随机组合分类器。举例如样本数据总数为92721,“好”数据个数为10979,“坏”数据个数为81742;训练集总数为90000,“好”数据个数为10645,“坏”数据个数为79355;测试集总数为2721,“好”数据个数为334,“坏”数据个数为2387。测试集整体分类结果的正确率如表5:

表5样本数据的正确率

训练后得到多决策树随机组合分类器模型model,包括决策树棵树、决策树节点数、决策树节点类别等,用于实车数据的验证。

5)利用测试样本集对分类器模型进行验证

选用一部分经过初步筛选的原始数据作为测试样本集,该部分原始数据未参与分类器模型的训练生成,利用分类器模型对测试样本集中的数据归类,并且计算得到分类的正确率。

针对实车数据,首先通过数据的初步筛选过程得到测试样本,以5个特征变量数据为输入,利用训练后得到的多决策树随机组合分类模型model,输出各组数据的所属类别,计算各组运算数据“好/坏”数据分类的正确率,比如验证结果如表6:

表6实车测试数据的验证结果

本发明组合分类算法通过建立多个决策树,并将它们随机组合以获得更准确、更稳定的预测。与一般的决策树算法相比,决策树算法通常采用树剪枝来处理数据过分适应问题,缩小树结构规模,以缓解过拟合现象,而该算法由于随机采样过程已经保证了随机性,因而决策树的构建不需要进行剪枝。同时,由于该算法的数据集无需规范化,可降低数据处理的复杂程度。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1