基于灰色关联的电动汽车换电需求的集成学习预测方法及系统与流程

文档序号:23720533发布日期:2021-01-24 07:57阅读:86来源:国知局
基于灰色关联的电动汽车换电需求的集成学习预测方法及系统与流程

[0001]
本发明涉及机器学习技术领域,具体涉及一种基于灰色关联的电动汽车换电需求的集成学习预测方法及系统。


背景技术:

[0002]
汽车是人们日常的出行方式,但是传统燃油汽车会带来严重的环境污染问题,如大汽和水资源的污染、全球变暖等。而电动汽车的出现能够减少对传统化石能源的使用,进而减少污染物的排放,对环境起到一定的保护作用。电动汽车的换电模式可以减少充电时间,提高用户的便利性。例如,2017年,北京汽车工业控股有限公司(baic)宣布实施“擎天柱计划”,旨在通过电池交换模式促进新能源和电动汽车的一体化发展。baic计划在2022年底前建造3000个光存储交换站。
[0003]
虽然电动汽车换电模式相比充电模式有很多优势,但是目前换电模式普及率远低于充电模式。其主要原因是目前我国换电站等基础设施建设不完善,导致电动汽车用户往往不能够及时找到换电站进行换电。除此之外,换电站对电池的不合理的管理和运行也成为了电动汽车换电模式发展的阻碍。由于换电站运营商缺乏对未来短期内顾客数量或电池需求变化的了解,导致经常出现供应电池的数量不足或排队充电的问题,使得电动汽车无法及时更换电池,从而极大的降低了用户的满意度,特别是对时间敏感的用户。
[0004]
为了提高服务水平和电池充电效率,换电站运营商需要准确预测电动汽车的换电需求,为此需要对电动汽车换电需求进行准确预测。对于预测方法主要有三种,包括基于蒙特卡洛的模拟分析、时间序列分析和机器学习方法等。而机器学习有着非常高的预测准确率,被广泛的应用于各个领域。
[0005]
对于单个类型的机器学习方法(通常称为基学习器),在设计之初都有其工作偏向,在其不适应的数据集上其预测准确率较低。为了克服单一预测器的缺点,从而渐渐出现了集成预测方法,即结合多种基学习器构建集成预测器来提高预测准确率。目前集成预测方法有投票法(voting)、袋装法(bagging)、提升法(boosting)、堆叠法(stacking)等等。由于实际中得到的数据集分布并不均匀,而且如电动汽车换电需求,其波动性更大,有着极强的不确定性。


技术实现要素:

[0006]
针对现有技术中存在的上述问题,本发明提供一种基于灰色关联的电动汽车换电需求的集成学习预测方法及系统,其采用类似于堆叠法的集成预测方法来提高模型的泛化性与预测结果的准确性。
[0007]
本发明公开了一种基于灰色关联的电动汽车换电需求的集成学习预测方法,包括:
[0008]
构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
[0009]
选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测;
[0010]
对于所述测试集中的每一个输入样本,通过灰色关联分析选择其最佳相似日训练集;
[0011]
根据各基学习器在最佳相似日训练集中的预测结果,建立预测偏差最小化优化模型,并采用带权重系数的l1范数作为正则项;
[0012]
基于优化模型求解得到的各基学习器的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果;其中,集成预测器的输出是各基学习器输出的线性加权组合。
[0013]
作为本发明的进一步改进,所述数据集为t={(x
1
,y
1
),...,(x
n
,y
n
)},
[0014]
式中,t为数据集,x
i
为第i个样本,i取1,
···
,n,n为样本数;为样本i的第j个特征,j取1,
···
,m,m为特征数;y
i
为样本i的标签,即电动汽车换电需求量,i取1,
···
,n。
[0015]
作为本发明的进一步改进,所述特征包括:
[0016]
x
(1)
为星期,编码从1到7;
[0017]
x
(2)
为是否为周末,是则编码为1,否则为0;
[0018]
x
(3)
为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
[0019]
x
(4)
为当日的最高气温值;
[0020]
x
(5)
为当日的最低气温值;
[0021]
x
(6)
为上周同一天的所有电动汽车换电需求量;
[0022]
x
(7)
为预测日的前一天所有电动汽车的换电需求量;
[0023]
x
(8)
为所有电动汽车在预测日前一天的行驶里程;
[0024]
x
(9)
~x
(13)
分别为在预测日前一天所有车辆结束行驶时,其电池剩余量(soc)在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例。
[0025]
作为本发明的进一步改进,所述数据集的预处理,包括:先对数据进行标准化,而后采用pca进行降维处理;
[0026]
所述训练集包括训练子集和验证集,所述训练子集为总数据量的70%,所述验证集和测试集均为总数据量的15%;
[0027]
所述基学习器包括k近邻(knn)、支持向量机(svr)、梯度提升回归树(gbrt)、随机森林(rf)和岭回归(rr)。
[0028]
作为本发明的进一步改进,所述采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测,包括:
[0029]
采用六折交叉验证;
[0030]
将训练集平均分成6份,分别为t1、t2、t3、t4、t5、t6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;
[0031]
进行多次训练和预测后,得到每个基学习器在训练集中的预测结果;其中,f
r
(
·
)为第r个基学习器,r=1,2,3,4,5,通过交叉验证方式,可以得到5个基学习器在训练集中的
预测结果f
r
(x
i
);
[0032]
将所有基学习器在整个训练子集上进行训练。
[0033]
作为本发明的进一步改进,使用灰色关联分析选择在训练集中与第i个样本最相关的r(i
1
,i
2
,

,i
r
)天,作为相似日训练集t
i

[0034][0035]
式中,为第k个基学习器对第r天样本i的预测结果。
[0036]
作为本发明的进一步改进,灰色关联分析包括:
[0037]
首先计算灰色关联系数(ξ
0i
),然后计算灰色关联度(γ
0i
),对于输入的测试集样本x
0
和训练集中的样本x
i
,灰色关联系数计算公式为:
[0038][0039]
其中ξ
0i
(c)为测试集样本x
0
和训练集中的样本x
i
在第c个特征的灰色关联系数,在第c个特征的灰色关联系数,计算出输入的测试集样本与训练集中集所有样本在每个特征的灰色关联系数后,需要计算出输入的测试集样本和训练集中每个样本的灰色关联度,其公式为即取每个灰色关联系数的平均值,计算出来的灰色关联度值越大相关性越高;根据计算出来灰色关联度,从训练集中选取最相关的r个样本作为相似日训练集。
[0040]
作为本发明的进一步改进,优化模型为:
[0041][0042]
该公式可等价为如下线性规划:
[0043][0044]
s.t.α≥0
[0045][0046][0047][0048]
式中,e[]为对括号里面的公式求期望,在离散情况下即为求均值;y是一个随机变量,即训练集中某样本实际的预测值,y
i
为第i个样本的实际值;f=(f
1
,...,f
k
),即k个基预测器分别在y对应的样本的预测值,‖α‖
1
=|α
1
|+...+|α
k
|,w为权重系数,k为基学习器的个数;z和ν
i
为引入的中间变量,求解该优化模型,可得到决策变量α=(α
1
,..,α
k
)。
[0049]
作为本发明的进一步改进,对于某一测试集样本x
i
,最终的预测结果f(x
i
)=α
1
f
1
(x
i
)+...+α
k
f
k
(x
i
)。
[0050]
本发明还公开了一种实现上述集成学习预测方法的预测系统,包括:
[0051]
构建模块,用于构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
[0052]
训练模块,用于选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测;
[0053]
分析模块,用于对于所述测试集中的每一个输入样本,通过灰色关联分析选择其最佳相似日训练集;
[0054]
建立模块,用于根据各基学习器在最佳相似日训练集中的预测结果,建立预测偏差最小化优化模型,并采用带权重系数的l1范数作为正则项;
[0055]
预测模块,用于基于优化模型求解得到的各基学习器的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果;其中,集成预测器的输出是各基学习器输出的线性加权组合。
[0056]
与现有技术相比,本发明的有益效果为:
[0057]
本发明考虑了集成预测器的预测准确度和泛化性,与预测效果最好的基学习器相比能够有效降低预测偏差,对于随机波动性大的数据具有更好的预测效果,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
附图说明
[0058]
图1为本发明一种实施例公开的基于灰色关联的电动汽车换电需求的集成学习预测方法的流程图。
具体实施方式
[0059]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]
本发明提供一种基于灰色关联的电动汽车换电需求的集成学习预测方法及系统,属于机器学习技术领域;该方法涉及到两层结构,即多个基学习器和一个集成预测器,集成预测器是多个基学习器的加权组合。为提高预测精度,本发明对于每个输入的预测样本,基于灰色关联分析选择其最佳相似日训练集,进而为集成预测器权重的求解提供最相关的训练集来提高模型的预测精度。为了提高集成预测器的泛化性,本发明建立了一个带有加权的l1范数正则项的优化模型,该优化模型等价于一个线性规划问题,权重系数将通过该优化模型来求解。本发明考虑了集成预测器的预测准确度和泛化性,与预测效果最好的基学习器相比能够有效降低预测偏差,对于随机波动性大的数据具有更好的预测效果,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
[0061]
下面结合附图对本发明做进一步的详细描述:
[0062]
如图1所示,本发明提供一种基于灰色关联的电动汽车换电需求的集成学习预测方法,包括:
[0063]
步骤1、特征选择、构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;其中,
[0064]
对于采集到的电动汽车行驶记录数据,其特征包括:
[0065]
x
(1)
为星期,编码从1到7;
[0066]
x
(2)
为是否为周末,是则编码为1,否则为0;
[0067]
x
(3)
为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
[0068]
x
(4)
为当日的最高气温值;
[0069]
x
(5)
为当日的最低气温值;
[0070]
x
(6)
为上周同一天的所有电动汽车换电需求量;
[0071]
x
(7)
为预测日的前一天所有电动汽车的换电需求量;
[0072]
x
(8)
为所有电动汽车在预测日前一天的行驶里程;
[0073]
x
(9)
~x
(13)
分别为在预测日前一天所有车辆结束行驶时,其电池剩余量(soc)在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
[0074]
y为对应日期所有的电动汽车换电需求量,即数据集的标签,假设有n个样本,每个样本有m个特征,那么最终数据集为t={(x
1
,y
1
),...,(x
n
,y
n
)},
[0075][0076]
式中,t为数据集,x
i
为第i个样本,i取1,
···
,n,n为样本数;为样本i的第j个特征,j取1,
···
,m,m为特征数;y
i
为样本i的标签,即电动汽车换电需求量,i取1,
···
,n;
[0077]
数据集的预处理,包括:先采用公式对数据进行标准化,而后采用pca进行降维处理,标准化之后的数据集降维后由13个特征降为12个特征。
[0078]
训练集包括训练子集和验证集,训练子集为总数据量的70%,验证集和测试集均为总数据量的15%。
[0079]
进一步,为了便于数据提取,可以将日期(年-月-日)添加到数据集中,但不作为特征输入到模型中。
[0080]
步骤2、选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测;其中,
[0081]
基学习器的数量为5个,包括k近邻(knn)、支持向量机(svr)、梯度提升回归树(gbrt)、随机森林(rf)和岭回归(rr);
[0082]
交叉验证采用六折交叉验证,假设f
r
(
·
)为第r个基学习器(r=1,2,3,4,5),通过交叉验证方式,可以得到5个基学习器在训练集中的预测结果f
r
(x
i
)。
[0083]
具体的:
[0084]
采用六折交叉验证;将训练集平均分成6份,分别为t1、t2、t3、t4、t5、t6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;进行多次训练和预测后,得到每个基学习器在训练集中的预测结果,并将该结果记录下来;将所有基学习器在整个训练子集上进行训练。
[0085]
由于最终的集成预测方法是结合基学习器而集成的,所以基学习器预测准确率提高必然会提高集成预测方法的准确率。所以在进行训练和预测的时候,所有基学习器超参数均采用python中sklearn包中的默认值。
[0086]
步骤3、对于测试集中的每一个输入样本,通过灰色关联分析选择其最佳相似日训
练集;
[0087]
其中,
[0088]
使用灰色关联分析选择在训练集中与第i个样本最相关的r(i
1
,i
2
,

,i
r
)天,作为相似日训练集t
i

[0089][0090]
式中,为第k个基学习器对第r天样本i的预测结果;
[0091]
灰色关联分析包括:
[0092]
首先计算灰色关联系数(ξ
0i
),然后计算灰色关联度(γ
0i
),对于输入的测试集样本x
0
和训练集中的样本x
i
,灰色关联系数计算公式为:
[0093][0094]
其中ξ
0i
(c)为测试集样本x
0
和训练集中的样本x
i
在第c个特征的灰色关联系数,在第c个特征的灰色关联系数,计算出输入的测试集样本与训练集中集所有样本在每个特征的灰色关联系数后,需要计算出输入的测试集样本和训练集中每个样本的灰色关联度,其公式为即取每个灰色关联系数的平均值,计算出来的灰色关联度值越大相关性越高;根据计算出来灰色关联度,从训练集中选取最相关的r个样本作为相似日训练集;其中,,其中r通常取训练集样本总量的75%。
[0095]
步骤4、根据各基学习器在最佳相似日训练集中的预测结果,建立预测偏差最小化优化模型,并采用带权重系数的l1范数作为正则项;
[0096]
其中,优化模型为:
[0097][0098]
该公式可等价为如下线性规划:
[0099][0100]
s.t.α≥0
[0101][0102][0103][0104]
式中,e[]为对括号里面的公式求期望,在离散情况下即为求均值;y是一个随机变量,即训练集中某样本实际的预测值,y
i
为第i个样本的实际值;f=(f
1
,...,f
k
),即k个基预测器分别在y对应的样本的预测值,‖α‖
1
=|α
1
|+...+|α
k
|,w为权重系数,k为基学习器的个数;z和v
i
为引入的中间变量,求解该优化模型,可得到决策变量α=(α
1
,..,α
k
)。
[0105]
其中,其中w可以在训练集中采用交叉验证的方式寻找最佳的r,即将训练集平均分为6份,选取其中五份作为训练集,另一份作为验证集进行预测,每一份预测均可得到一个评估指标,由于分为了6份,便可以得到6个评估指标,取该6个评估指标的平均值作为该参数在某一数值最终的预测效果表现,通过不断循坏迭代,找到评估指标最优的值作为预测时参数所取得值,本实例中优选得评估指标为均方误差mae和对称平均绝对百分比误差(smape)。
[0106]
步骤5、基于优化模型求解得到的各基学习器的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果;其中,集成预测器的输出是各基学习器输出的线性加权组合,即对于某一测试集样本x
i
,最终的预测结果f(x
i
)=α
1
f
1
(x
i
)+...+α
k
f
k
(x
i
)。
[0107]
本发明提供一种实现上述集成学习预测方法的预测系统,包括:
[0108]
构建模块,用于实现上述步骤1;
[0109]
训练模块,用于实现上述步骤2;
[0110]
分析模块,用于实现上述步骤3;
[0111]
建立模块,用于实现上述步骤4;
[0112]
预测模块,用于实现上述步骤5。
[0113]
与现有技术相比,本发明的有益效果为:
[0114]
本发明考虑了集成预测器的预测准确度和泛化性,与预测效果最好的基学习器相比能够有效降低预测偏差,对于随机波动性大的数据具有更好的预测效果,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
[0115]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1