一种基于改进Transformer模型的二次供水用水量预测方法与流程

文档序号:34604337发布日期:2023-06-29 02:27阅读:178来源:国知局
一种基于改进Transformer模型的二次供水用水量预测方法与流程

本发明涉及二次供水,尤其是涉及一种基于改进transformer模型的二次供水用水量预测方法。


背景技术:

1、二次供水用水量预测主要是通过预测的用水量,进行水箱进水控制,来改善二次供水泵房的水质和能耗。用水量预测过小,可能会导致小区停水等问题,用水量预测过大,可能会导致水质下降,还会增加能耗成本。在传统的二次供水机理模型中,用水量的预测需要通过用户数、需水量、高峰时段、用水趋势等数据,针对这部分数据存在较大不确定性问题。此外,用水量不仅受到用户数、用水趋势等因子的影响,还会受到节假日等的影响,所以对用水量的影响不能单从几个具有完整数据的影响因子进行建模,还要考虑到其他因子对它的综合影响,所需要的基础数据太多太复杂,专业型数据来源于专家、从业人员经验;实时型数据来源于感知层仪表,但是很多历史数据在此前并没有进行记录,使得数据缺失从而导致用水量预测的结果与实际用水量偏离较大,数据精度不高可靠性不足。

2、在中国专利文献上公开的“一种基于大数据的二次供水量预测方法、设备及储存介质”,其公开号为cn115423224a,公开日期为2022-12-02,包括:建立单户居民用水预测模型;具体包括:获取单户居民用水数据生成数据集;根据正态分布将全部居民用水量划分为5个等级,并对获取的全部居民用水数据进行等级标注;根据决策树算法训练得到单户居民用水预测模型;基于单户居民用水预测模型预测单户居民用水量,根据单户居民用水量计算获得二次供水用水点的用水量预测值;若单户居民用水量预测值与单户居民用水量实际值不属于同一用水量等级,则修正单户居民用水预测模型。该技术解决了现有的二次供水量预测模型存在的模型输入参数简单、缺乏反馈优化机制的问题;但是该技术中模型建立和训练所需要的基础数据过多,同时还需要考虑节假日等因素的影响,因此需要各个影响因素的历史数据,但是在实际操作中只有部分影响因素存在完整历史数据,这会使得用水量预测的结果与实际用水量偏离较大,数据精度不高可靠性不足。


技术实现思路

1、本发明是为了克服现有技术中进行用水量预测需要的用户数、需水量、高峰时段、用水趋势等数据存在较大不确定性和不完整,使得用水量预测结果数据精度不高可靠性不足的问题,提供了一种基于改进transformer模型的二次供水用水量预测方法,对二次供水泵房的历史数据进行分析和预处理后输入到改进transformer模型中进行训练,使得模型在训练中自动学习出规律,并在模型训练过程中不断进行迭代优化使其用水量预测能力达到精度和可靠性要求。

2、为了实现上述目的,本发明采用以下技术方案:

3、一种基于改进transformer模型的二次供水用水量预测方法,包括:

4、获取历史用水量数据并进行数据预处理;

5、将预处理后的历史用水量数据转化为符合transformer模型训练结构要求的数据组,并与位置编码相加得到数据样本;

6、建立包括缩放点乘注意力模块以及多头注意力模块的改进transformer模型,并输入数据样本进行训练得到用水量预测模型;

7、通过用水量预测模型对用水量进行预测。

8、本发明中transformer模型在时序预测问题上完全绕开了序列串行的约束方式,并根据位置编码技术,使其同样可以获取到序列间的位置信息,同时相比于现有技术中需要大量不同种类基础数据进行模型建立和训练的缺点,本发明中的方法并不需要对工作日和节假日等影响因素的数据进行处理,可以直接将预处理后的用水量数据输入到模型中,使得模型在训练中自动学习出规律,这一定程度上提高了模型的泛化能力,同时通过对二次供水的用水量预测来应用到二次供水的进水次数、进水量等的智能控制。

9、作为优选,所述数据预处理的过程包括:

10、采用箱型图对历史用水量数据进行异常检测,并将异常值作为缺失值进行处理;

11、对于历史用水量数据中的缺失值,采用移动中值滤波方式进行填充;

12、将历史用水量数据进行box-cox变换后在进行标准化处理。

13、本发明中数据的预处理包括异常检测、缺失填补和特征变换等步骤,由于用水量数据是通过仪器仪表采集的,因为仪器仪表的安装或维修等因素会导致数据存在缺失或类似“尖刺”的异常值,因此需要先对异常值进行处理;考虑到本发明时间序列数据前后存在一定的关联性,因此通过移动中值滤波方式进行填充,对于数据具有一定的抗敏性;而特征变换则是将数据处理成有利于模型训练的形式。

14、作为优选,将预处理后的历史用水量数据转化为符合transformer模型训练结构要求的数据组的过程包括:

15、将历史用水量数据进行训练集和测试集划分,并设定输入窗口大小m和输出窗口大小1;

16、结合滑动窗口遍历方式生成序列数据和目标数据,其维度大小均为[t-m,m,1],t为训练集或训练集的数据量。

17、本发明中历史用水量数据是一维结构,而transformer模型训练的数据是三维结构,即:[sample_size,seq_len,feature],其中sample_size为样本数量,seq_len为样本序列的长度,feature为序列的特征维度,因此需要将用水量数据先进行维度转化后才能进行训练;将总的历史用水量数据按照一定比例划分成训练集和测试集分别对模型进行训练和对训练完成的模型进行测试。

18、作为优选,预处理后的历史用水量数据进行转化并与位置编码相加后,还需要进行样本填充和拼接后得到数据样本;

19、所述样本填充是指在转化完成后的数据组的最顶部填充一行数据,填充的数据值为0;

20、所述拼接是指将填充后的数据组xt的前半列与填充前的数据组x0的后半列进行拼接,作为改进transformer模型最终输入的数据样本。

21、本发明中transformer模型本质上在实现3个过程:将序列样本的全局信息增加到每一个样本点上;量化每个样本点在序列中所具有的关注度,即权重;重复之前出现过的样本点组合;模型并不善于完成最后一个过程,这在很大程度上会降低模型的学习效率,甚至还可能会用过拟合的错误方式完成任务;因此增加了样本填充和拼接的过程,拼接后的数据样本在模型的训练过程中引入了先验信息,使得序列前后样本点具有比较大的关联性,这样模型不用学习也能获得这些信息,进而加速训练。

22、作为优选,所述box-cox变换为:

23、

24、其中λ是变换参数,yi为第i个用水量数据;

25、本发明中使用的历史用水量数据可能因为分布规律不同,需要进行数据变换操作以适合模型的训练,由于进水浊度数据均为正,恰好满足利用box-cox变换的条件,同时使用box-cox变换可以使用水量数据趋于正态分布。

26、作为优选,所述标准化处理为:

27、

28、x为处理前的数据,x'为处理后的数据,xmin和xmax分别为标准化处理前的最小值和最大值。

29、本发明中由于用水量数据数值比较大,在模型训练时很容易导致梯度数值较大而直接达到激活函数饱和区,使得模型更新困难,因此需将数据进行标准化处理,将数据按比例缩放,使之落入一个特性区间,并去除数据单位得到无量纲的纯数值。

30、作为优选,所述改进transformer模型中将transformer模型的解码器替换为线性变换层;所述改进transformer模型通过数据样本的训练集进行训练得到用水量预测模型,并通过数据样本的测试集测试用水量预测模型;训练时根据均方差mse最小作为评价指标确定单次训练的样本个数batch_size。

31、本发明中是对用水量的预测,属于时序回归问题,而现有的transformer模型包括编码器和解码器两部分,对于解码器而言在回归问题上会累计误差,导致模型预测效果差,因此在改进的模型设计中去掉解码部分,直接使用线性变换层进行替换,从而提升模型的预测精度。

32、作为优选,所述改进transformer模型采用rmsprop优化算法进行迭代训练:

33、

34、

35、和分别是第t轮和第t-1轮迭代过程中累积的权重梯度动量;dw为损失函数关于权重w的梯度;β为梯度累积的指数;α为学习率,ε为常数。

36、本发明中在训练过程中,考虑到模型梯度更新时,在损失函数变化较大和平缓的地方采用了同样的学习率;如果学习率太大很容易在损失函数变化较大的地方直接跨过最优解,如果学习率太小则在损失函数平缓的地方学习很慢,很难收敛;因此采用rmsprop优化算法,保证了损失函数变化较大时,将学习率自动更改为一个较小值,反之则更改为较大的值,从而加快模型的学习速度。

37、作为优选,通过数据样本的测试集对用水量预测模型测试的输出结果,还需要进行box-cox逆变换及反归一化变换得到用水量预测值;

38、将用水量预测值和测试集中的实际用水量进行精度拟合r2,得到用水量预测模型的预测效果:

39、

40、yi为实际用水量数据;为预测的用水量数据;为实际用水量数据的平均值。

41、本发明中通过对用水量预测值和实际用水量两个序列的精度拟合来测试用水量预测模型的预测精度和效果;由于在模型训练时训练的数据样本经过box-cox变换和标准化处理,因此使用测试集对用水量预测模型的测试结果需要相应的进行逆变换来得到最终的用水量预测值。

42、本发明具有如下有益效果:对二次供水泵房的历史数据进行分析和预处理后输入到改进transformer模型中进行训练,使得模型在训练中自动学习出规律,并在模型训练过程中不断进行迭代优化使其用水量预测能力达到精度和可靠性要求;本发明中不需要对工作日、节假日等影响因素的数据进行处理,基础数据的数量要求不高,所需要的历史数据是二次供水泵房中最普遍的检测数据,因此数据较完整,使得用水量预测结果符合实际用水量,数据精度高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1