1.一种基于多元回归模型的高速列车动态轴温预测方法,其特征在于,具体按照以下步骤实施:
步骤1、对列车的原始数据进行分类;
步骤2:对所述步骤1进行分类后的数据进行分区处理;
步骤3:对所述步骤2得到的分区处理后的数据建立轴温分析的流模型;
步骤4:对所述步骤3得到的流模型进行检验。
2.根据权利要求1所述的一种基于多元回归模型的高速列车动态轴温预测方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤(1.1)、采集列车原始轴温数据,放入集合“Num.1”中,列车原始轴温数据包括:列车速度v、轴温T、每个起停阶段的初始轴温T0、环境温度C、运行时间t以及载重L;
步骤(1.2)、将所述步骤(1.1)中采集到的列车原始轴温数据集合“Num.1”按照速度分割为n个起停阶段,每个起停阶段均包括n个加速阶段、n个平稳运行阶段和n个减速阶段;
步骤(1.3)、将所述步骤(1.2)中的n个加速阶段的数据放入集合“Num.2”中的表sheet1中,然后将表sheet1重命名为“加速阶段”,将n个平稳运行阶段的数据放入集合“Num.2”中的表sheet2中,然后将sheet2重命名为“平稳运行阶段”,将n个减速阶段的数据放入集合“Num.2”中的表sheet3中,然后将表sheet3重命名为“减速阶段”。
3.根据权利要求2所述的一种基于多元回归模型的高速列车动态轴温预测方法,其特征在于,所述步骤(1.1)中n=9。
4.根据权利要求1所述的一种基于多元回归模型的高速列车动态轴温预测方法,其特征在于,所述步骤2具体按照以下步骤实施:
对于所述步骤1中的“Num.2”中三个运行阶段的运行时间点t,令t=random(10),随机产生一个0~10的随机数赋给变量t,若t>3则为“真”,否则为“假”,且导出包含t>3对应的变量作为“训练样本”数据集,导出不包含t>3对应的变量作为“测试样本”数据集,以此方法将会分别得到“加速训练样本.xls”,“平稳训练样本.xls”,“减速训练样本.xls”,“加速测试样本.xls”,“平稳测试样本.xls”,“减速测试样本.xls”。
5.根据权利要求1所述的一种基于多元回归模型的高速列车动态轴温预测方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤(3.1)、预测变量的相关性:
对经过所述步骤2处理后的“加速训练样本.xls”,“平稳训练样本.xls”及“减速训练样本.xls”中的预测变量进行相关性分析,即速度v、每个起停阶段的初始轴温T0、环境温度C、运行时间t以及载重L与轴温T之间的相关性系数,其依据如下:
其中,N为变量的个数,xi为自变量,yi为因变量——轴温T,r为皮尔逊Pearson相关系数,当
(1)0.8≤r≤1时,变量为极强相关;
(2)0.6≤r<0.8时,变量为强相关;
(3)0.4≤r<0.6时,变量为中等程度相关;
(4)0.2≤r<0.4时,变量为弱相关;
(5)0.0≤r<0.2时,变量为极弱相关或者无相关,
因为影响轴温的因素较多,故能够根据相关系数r剔除掉极弱相关或者无关的影响因素;
步骤(3.2)、回归系数的计算:
对经过所述步骤2处理后得到的三个阶段的训练样本数据进行回归分析,样本回归模型的矩阵表示为其中,e为因变量的实测值与估计值之差,为偏回归系数,表示当其他自变量取值固定时,自变量xi每改变一个单位时yi的变化量,将三个运行阶段中的变量速度v(x1i)、每个起停阶段的初始轴温T0(x2i)、环境温度C(x3i)、运行时间t(x4i)以及载重L(x5i)作为回归模型中的自变量xki,且生成自变量矩阵X如下:
上式中,k为自变量的个数,i为每个自变量包含的元素数,
将轴温T(yi)作为回归模型中的因变量yi,且生成包含所有目标集的k维向量Y如下:
用公式得出各回归系数进而得到因变量yi的估计值其中,X'为自变量组成的矩阵X的转置;
步骤(3.3)、在数据挖掘工具SPSS Modeler中建立流模型:
在SPSS Modeler中,首先在“源”选项卡里面选择“excel”节点,将“训练样本.xls”导入此节点中,然后在“字段选项”选项卡里面选择“过滤”节点filter与“类型”节点type,用此“过滤”节点可以过滤掉列车运行的“时刻”项,“类型”节点用以设置各变量的角色,然后在“建模”选项卡里面选择“特征选择”feature selection和“回归”regression节点,接下来在“字段”选项卡里选择“导出”节点export,用以导出模型得到的轴温值与原始轴温对比的表和方框图。
6.根据权利要求1所述的一种基于多元回归模型的高速列车动态轴温预测方法,其特征在于,所述步骤4具体按照以下步骤实施:
步骤(4.1)、模型的汇总检验:
用如下公式衡量模型整体的好坏,其中,复相关系数R,决定系数R2,校正的决定系数Radj2:
其中,复相关系数R表示模型中自变量与因变量线性关系的密切程度,其中yi为因变量轴温T,为所述步骤(3.2)中得到的yi的估计量,实际上它是yi与其估计量的简单线性相关系数,其取值范围为(0,1),没有负值,R值越大,说明线性回归关系越密切,决定系数R2表示因变量的总变异中由回归模型中自变量解释的部分所占的比例,回归方程的解释力一般是由决定系数R2来测量的,因此一般情况下R2越大越好,其中SSR为回归平方和,SStotal为总的平方和,为因变量轴温T的均值,校正的决定系数Radj2是衡量所建模型好坏的重要指标之一,其中,n表示的是样本的含量,p表示的是自变量的个数,Radj2越大,模型的效果越好;
步骤(4.2)、训练样本的相对误差直方图:
对步骤2中得到的训练样本,分别对三个运行阶段的训练样本,用步骤(3.2)得到的回归方程计算出估计值则相对误差为
然后画出其直方图,观察其分布情况;
步骤(4.3)、对测试样本进行检验:
对步骤2中得到的测试样本,分别对三个运行阶段的测试样本,用步骤(3.2)得到的回归方程计算出估计值则相对误差为
然后分别对三个运行阶段的测试样本,在一个图中画出因变量轴温T、轴温T的估计值相对误差(relative error)的折线图,并使用双坐标形式,相对误差图能够反映出模型拟合效果的情况,在此图中,通过预测值和真实值的折线图能够清楚的看到模型拟合的效果,而通过相对误差折线图能够看到预测效果的好坏,如果随着时间的推移,相对误差值变得越来越大,则说明模型对后期预测效果不如早期的,因为预测误差始终处于可接受范围,故该方法能有效对轴温进行预测,从而可以将轴温的不正常升温当做列车热轴故障检测的一个判别标准,以最大可能的避免事故的扩大。