基于分类合并的时序数据预处理及预测方法

文档序号:37933779发布日期:2024-05-11 00:12阅读:7来源:国知局
基于分类合并的时序数据预处理及预测方法

本发明涉及人工智能及时序数据处理领域,具体地说是一种基于分类合并的时序数据预处理及预测方法。


背景技术:

1、时序数据是按照时间顺序排列的数据集合,记录了一系列与时间相关的观测值或事件,具有较强的时间依赖性,这种时间依赖性反映了数据之间的动态关系,对于揭示事件的发展趋势和模式具有关键作用。时序数据在时间上呈现出明显的变化,研究这些特定规律的变动可以更好地预测事件的发生,为决策提供支持。传统的时间序列分析方法是研究时序数据中的模式、趋势和周期性的传统统计方法,通常包括自相关、移动平均、分解和模型拟合等技术,用于揭示数据中的结构和规律。统计学方法在时序数据分析中发挥着关键作用,其中涉及到描述性统计、推断统计和假设检验等技术,用于对数据分布、趋势和相关性进行推断和验证。随着机器学习和深度学习的发展,监督学习算法、无监督学习算法、循环神经网络(rnn)和长短时记忆网络(lstm)等架构被广泛用于时序数据建模和预测。

2、时序数据的分析可以用于预测数据的未来趋势和可能事件,为决策提供有力的支持,这在电力、气象、生产制造等领域都具有广泛的应用。并且,时序数据的异常点可能代表了潜在的问题或突发事件,通过对时序数据的监测和分析,可以及时发现异常,采取相应的措施。在工业生产中,通过分析生产线上的时序数据,洞察事件之间的关联性和因果关系,以找出生产效率的瓶颈并进行优化。


技术实现思路

1、本发明的目的是提供一种基于分类合并的时序数据预处理及预测方法,以提升时序数据预测的准确率。

2、本发明是这样实现的:

3、本发明提供了一种基于分类合并的时序数据预处理及预测方法,该方法首先采用vmd分解算法对原始时序数据进行分解,获取不同频率的分量,其次通过k-means聚类算法将不同特征的分量聚成一类以深入分析其特征,对原始时序数据进行分解、分类以及合并,随后在划分好的数据子集上应用lstm算法作为特例对时序数据进行预测,同时该方法还可用于cnn-lstm、gru、bp、xgboost等模型。

4、本发明所提供的基于分类合并的时序数据预处理及预测方法,包括以下步骤:

5、(1)采集目标领域的原始时间序列数据,对采集到的数据进行数据扩充;

6、(2)采用vmd分解算法对扩充后的时序数据进行分解,每一样本分别得到n种频率成分的分解信号;

7、(3)针对分解后的n种分解信号,分别采用k-means算法进行聚类,每种分解信号分成2类,一共产生2n种组合;

8、(4)对步骤(3)得到的2n种数据进行数据合并,合并后一共得到m类数据,将这m类数据分别输入预测模型中进行训练,得到能够预测不同分类的时序数据预测模型;

9、(5)利用步骤(4)得到的时序数据预测模型对待测数据进行预测,得到预测结果。

10、所述步骤(1)中,对数据进行扩充的步骤如下:

11、采集到的目标领域的原始时间序列数据样本类别可能不平衡,采用smote算法为样本补充数据。新数据生成过程如式(1.1)所示:

12、xnew=x1+rand(0,1)·(x2-x1)  (1.1)

13、以欧氏距离为判据,选择与x1最近邻的数据点x2,从而生成新数据点xnew;rand(0,1)表示随机生成范围在(0,1)区间内的随机数。

14、所述步骤(2)中,具体操作步骤如下:

15、1)对于vmd分解信号来说,首先要构造约束变分问题。

16、将输入信号f(t)分解为k个有限带宽的imf分量uk(t);其次通过hilbert变换得到各个模态分量对应的解析函数,用以获得其单边频谱;最后在f(t)与各模态分量uk(t)之和相等的约束条件下混合解析函数与中心频率,将uk(t)的频谱移动到基频带。相应约束变分模问题如式(2.1)所示:

17、

18、式中,t为时间;j为虚数单位;f(t)为输入信号;为时间t的偏导数;*为卷积运算;uk(t)为第k个模态函数;δ(t)为点位脉冲函数;ωk为第k个模态函数的中心频率。

19、2)其次求解约束变分问题。

20、引入拉格朗日乘子λ(t)和二次惩罚因子α将上述约束变分问题转化为非约束问题,如公式(2.2)所示:

21、

22、式中,< >表示内积运算。

23、3)基于式(2.3)采用交替方向乘子法迭代更新中心频率、imf分量以及拉格朗日乘子,求取式(2.1)的最优解。

24、

25、式中,分别为f(t),λn多对应的傅里叶变换;τ为噪声容忍度。

26、4)当满足式(2.4)时,停止迭代。

27、

28、式中,ε为收敛精度,一般取10-7。

29、5)得到目标领域原始时间序列数据经过vmd分解的n类信号。

30、所述步骤(3)中,具体操作步骤如下:

31、1)使用k-means算法对分解的n类信号进行聚类。使用欧式距离来度量数据对象之间的相似度,如式(3.1)所示:

32、

33、式中,d为样本到聚类中心的欧式距离;bi为第i个样本点,aj为第j个聚类中心。

34、2)确定初始聚类数目k以及k个初始聚类中心,本发明k值选取2。

35、3)通过计算数据对象与聚类中心之间的相似度,不断更新聚类中心的位置,以逐步降低类簇的误差平方和(sum of squared error,sse)。当sse不再发生变化或目标函数达到收敛时,聚类过程终止,最终得到聚类结果。sse计算过程如式(3.2)所示:

36、

37、式中,k为聚类簇数;zj为第j个簇的聚类中心。

38、4)k-means算法分别将n类信号分为2类,一共得到2n种数据组合。针对任意一种分量,0代表一类,1代表另一类,具体分类情况见表1。

39、表1各分量分类结果

40、

41、所述步骤(4)中,具体操作步骤如下:

42、1)将步骤(3)得到的2n种数据中子集数据量小于总数据集p%的子集合并,合并策略应充分考虑数据分布得到均衡性,并且针对不同数据集的特点对不同的分解信号应赋予不同的合并优先级,以削弱由于样本数量偏少而引入的随机性和噪声,最终将所有数据合并为m类数据。

43、2)将得到的m类数据子集分别输入m个相同的预测模型中进行训练。

44、3)得到m种目标领域的时序数据预测模型。

45、所述步骤(5)具体操作步骤如下:

46、利用步骤(4)得到的时序数据预测模型对待测数据进行预测,得到预测结果。

47、本发明提供的技术方案具有的有益效果如下:

48、通过使用vmd分解算法和k-means聚类算法对目标领域原始时序数据进行数据处理,与传统直接使用k-means聚类相比,本发明提出的分类方法,经过vmd分解后的分量特征更为明显,因此分类准确度更高,从而导致基于分类训练出来的预测模型对时序数据的预测精度更高。本发明提出了一种创新的分类方法,通过采用vmd分解算法和k-means聚类算法对特定领域的原始时序数据进行处理,相对于传统的直接使用k-means聚类的方法,本发明的分类方法在准确度上表现更为出色,通过使用这一分类方法训练得到的时序预测模型,对时序数据进行预测的精度也相较传统方法有显著提高。该方法首先利用vmd分解算法有效地分解了原始时序数据,使得数据中的潜在模式和结构更为清晰地呈现;随后,采用k-means聚类算法对分解后的数据进行分类,从而更好地捕捉数据中的簇状结构和相似性;基于经过优化的分类结果,本方法训练了相应的预测模型,其在对时序数据进行预测时展现出更高的精度。这表明在处理目标领域的时序数据时,采用本发明提出的方法不仅在分类阶段取得了显著的改进,而且在后续任务中也实现了更为准确的预测,这一方法的成功应用为时序数据处理领域提供了一种新的、高效的方法,为进一步的研究和应用奠定了坚实的基础。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1