基于强化学习的大型电动汽车充电站的充电优化调度方法

文档序号：26010238发布日期：2021-07-23 21:30阅读：来源：国知局

技术特征：

1.基于强化学习的大型电动汽车充电站的充电优化调度方法，其特征根在于：具体包括如下步骤：

步骤一、数据集准备：

直接采集充电站内历史数据，为状态空间矩阵和动作空间矩阵的创建做准备；所需要的数据主要包括电动汽车的到达充电站的时间t^arrival、离开充电站的时间δt^depart以及其充电需求w；为方便计量，将充电需求转化为电动汽车充满所需要的充电时间δt^charge；

步骤二、定义状态空间：

电动汽车充电特征：电动汽车到达时间、电动汽车离开时间、需要的充电量和电动汽车充电率；由于未来电动汽车的到达时间未知，因此在当前的电动汽车表示中不包括到达时间；如果电动汽车的充电率ws，则充电量转换为完成充电所需的时间为：

δt^charge＝w/ws(1)；

如果系统中有ns辆电动汽车，则其特征v表示为如下所示集合：

式子(1)中表示第ns辆电动汽车的离开时间，表示第ns辆电动汽车的所需充电量；

每个状态空间s＝(t,xs)，xs表示总需求矩阵，t∈{1,…,smax}表示时隙，其中smax表示按照给定的时间间隙δt^slot划分的一天中的最大决策时间段数；每个给定时隙δt^slot的总需求通过合并算法获得，需求可以使用二维网格表示，即矩阵xs，一个轴表示汽车的离开时间δt^depart，另一个轴表示汽车的充电时间δt^charge；所得总需求矩阵xs具有尺寸smax×smax，最大的决策时间段数smax取决于最大连接时间hmax，即电动汽车连接到充电站的最长持续时间：smax＝hmax/δt^slot；确保最大电动汽车数量nmax不会影响状态空间的大小；

根据电动汽车的离开时间和所需充电量，将电动汽车的允许调度空间即充电灵活性表示为δt^flex＝δt^depart-δt^charge，从xs的对角线推断出：

根据上述公式，矩阵xs主对角线上的单元中的电动汽车的灵活性为零；而xs上对角线上的单元中的电动汽车可调度安排，即充电可延迟；负δt^flex对应于xs中较低对角线，表示无法满足其充电需求的电动汽车；

步骤三、定义动作空间：

将状态空间s＝(t,xs)采取的动作表示是否对当前连接的电动汽车充电z，将基于充电灵活性δt^flex做出决策；步骤二中具有相同充电灵活性δt^flex的电动汽车会被合并到xs的相同对角线上的单元中；将xs的每个对角线表示为xs(d)，其中d＝0,…,smax-1，xs(0)是主对角线，xs(d)表示矩阵上三角的第d条对角线，而xs(-d)是xs的下三角的第d对角线；将表示为单元中第d对角线上的电动汽车总数；当电动汽车的充电需求全部满足，并且汽车的充电状态不会变成下三角对角线的单元格所属的情况，在状态空间s下采取的动作被定义为长度为smax的向量us；只需要对在xs的主对角线和上对角线上对汽车采取充电或者延迟的策略；其中在每个时隙δt^slot中，动作向量us的第d个元素取值范围在[0,1]，us(d)表示动作向量us的第d个元素的值，us(d)＝0表示电动汽车均不充电，us(d)＝1表示电动汽车全部处于充电状态；us表示状态空间s能采取的动作的集合；

步骤四、建立动作价值函数：

为使得一组电动汽车的充电负载保持平稳，同时确保在每辆电动汽车离开前已完成充电需求及尽可能的降低电价成本；通过动作us从状态s过渡到s'价值函数包括三部分：

c(s,us,s')＝c^demand(xs,us)+c^penalty(xs')+c^electricity(ns,p,st)(4)；

其中，c^demand(xs,us)是时隙中所有已连接的电动汽车的总功耗成本，c^penalty(xs')是未完成充电的惩罚函数，c^electricity(ns,p,st)为当前时隙下的电价成本；

为了实现负载均衡，选择c^demand作为时隙总功耗的二次函数；所有电动汽车的充电率均相同，因此时隙中的总功耗与要充电的电动汽车数量成正比；因此，c(s,us,s')转换价值函数的第一部分为：

式子(4)中表示状态s的第d个上对角线的电动汽车总数，smax表示最大的决策时间段数，us(d)表示第d个上对角线所采取的动作；

由于在当前状态s＝(t,xs)中采取动作生成下一个状态s'＝(t+1,xs')；价值函数的第二项是跟下一个状态s'＝(t+1,xs')有关的一个惩罚项，故价值函数的第二部分为：

m为一个恒定的惩罚因子，将其设置为大于2nmax，以确保任何电动汽车的充电始终在出发前完成，和为第n辆汽车的离开时间和充电时间；

根据当前的实时的电价水平、目前状态下充电桩的连接个数以及电桩的平均充电功率，设计电站的分时电价成本，故价值函数的第三部分为：

式子(6)中ns表示在状态s下充电桩被连接的数量，p表示充电桩的平均充电功率，st表示t时刻的电价；

步骤五、数据处理：

根据步骤二、步骤三及步骤四对于状态空间和动作空间的定义以及价值函数模型的建立，对步骤一所采集的数据进行处理，以一天上午某时刻充电站的车辆情况作为当前状态s，以晚上某时刻作为一天的最后一个状态；随机的采取动作us，并以元组(s,us,s',c(s,us,s'))的形式记录组成数据集；并将数据集分为两个部分，一部分数据作为神经网络训练集，另一部分数据作为神经网络测试集；

步骤六、神经网络训练：

首先构建一个含有一个输入神经元，两个具有激励函数的隐藏层以及一个输出层的神经网络，然后将步骤五所整理的训练数据集元组中的状态动作对(s,u)以长度为的形式作为神经网络的输入，并设置最大迭代次数t和时间间隙δt^slot；输出为qn(s,us)，qn(s,us)计算公式为：

其中qn(s,us)的初始迭代值为c(s,us,s')，每次的输出均可以保证整体的动作价值函数的累加和为最小，为了稳定学习过程，使用huber损失代替均方差误差；循环迭代t次后，神经网络隐藏层之间的权重相对固定，自此神经网络模型训练结束；

步骤七、利用测试集元组数据测试模型：

根据步骤六所训练的神经网络模型，运用步骤五所得的测试集数据对模型进行测试；在对模型测试时，构造评价函数，用于评价神经网络模型的有效性；评价函数如下：

其中β^test表示测试集数据长度，e为测试集数据的子集，为神经网络的输出，为充电站采用先到先充策略的价值函数值，通过实际的充电站数据直接计算；当所有的测试集数据中cπ的值均小于1时，表示神经网络模型的结果优于目前充电站所采用的充电策略的价值函数结果；

步骤八、调度方案生成：

充电站根据当下充电站所到达的电动汽车的离开时间和充电需求，作为神经网络的输入，经过神经网络模型的迭代循环，最终得到该输入条件下最优的价值函数；提取每次迭代得到的价值函数所采取的动作，迭代结束后将所有的动作整合成最优动作集π^*＝{u1,u2,…,ut}，π^*即为当前充电站所到达电动汽车的最优充电策略；

步骤九、执行调度方案：

当上述步骤执行完毕后，按照所生成的调度方案π^*，对充电站内的电动汽车进行充电；如果有新的到达车辆，则返回步骤8，根据当前车站内各个电动汽车的离开时间和充电需求，如果在此之前有些电动汽车已经充电一段时间了，则其充电需求为剩余充电时间；重新生成神经网络模型输入元组，迭代运算得到最优价值函数；迭代结束后将所有的动作整合成最优动作集π^*(π^*＝{u1,u2,…,ut})，再根据该策略，对当前充电站内的电动汽车充电。

技术总结
本发明提供了一种基于强化学习的大型电动汽车充电站的充电优化调度方法。首先在当下实际的电动汽车充电站采集数据，并根据状态空间、动作空间及目标函数的定义对采集的数据进行处理，然后运用处理后的数据进行神经网络模型的训练及测试，在保证所用模型的有效性的前提下，将充电站的实际情况作为模型的输入，以模型的输出作为电动汽车充电的参考策略进行实际的充电操作。有效了解决了充电环境下的不确定性问题，而且本发明的方法并不受限于充电站的规模以及充电站达到的电动汽车的数量，训练所得的模型更具有通用性，适用于不同规模下的电动汽车充电站。为电动汽车充电站解决充电调度模型的通用性以及最大化能源和经济效益问题。

技术研发人员：葛冬明;江爱朋;王浩栋;吴文浩;徐平;刘亦安
受保护的技术使用者：杭州电子科技大学
技术研发日：2021.04.22
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2