一种基于Flink动态水位线调整的方法及相关设备与流程

文档序号:37174716发布日期:2024-03-01 12:25阅读:15来源:国知局
一种基于Flink动态水位线调整的方法及相关设备与流程

本技术涉及数据处理,尤其涉及一种基于flink动态水位线调整的方法及相关设备。


背景技术:

1、当今大数据时代,各类门户网站、搜索引擎和社交媒体等互联网平台持续不断地产生着海量的数据,在这些数据中蕴含着丰富的信息价值,因此针对实时性和准确性提出了迫切需求。然而,由于网络传输速度不同、计算节点性能差异以及数据背压等因素的影响,流入计算框架的流式数据往往呈现局部乱序或弹性乱序的现象,对海量流式数据的价值挖掘产生了不利影响。

2、现有的处理方法是利用flink的水位线调整,flink水位线的优点是能够在流数据处理中引入时间语义,并通过设置水位线来控制窗口计算的触发时机。这可以确保只有那些达到一定延迟要求或者已经没有更多迟到数据的事件被包含在窗口计算中,从而保证了结果的准确性。然而,现有flink的水位线调整需要人工手动进行设置设置,使用人工设置flink水位线存在以下缺点:

3、(1)需要依赖工作人员的专业知识和经验,由于不同场景和应用可能需要不同延迟要求,手动设置水位线需要对系统行为和数据特征有深入理解。

4、(2)不适应实时变化,传统方式下无法根据流数据乱序程度等条件动态调整水位线,导致难以满足实际需求。

5、(3)特殊场景难以处理,某些应用场景中,流数据可能会出现非常快速、频繁地乱序现象,手动调整水位线无法及时跟踪这些巨大波动。

6、因此很大程度影响了数据的准确性,无法满足不同延迟要求和实际情况下窗口计算结果准确性需求。


技术实现思路

1、为了解决上述技术问题,本技术提供了一种基于flink动态水位线调整的方法及相关设备。

2、下面对本技术中提供的技术方案进行描述:

3、本技术第一方面提供了基于flink动态水位线调整的方法,所述方法包括:

4、从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;

5、构建初始时间训练模型,所述初始时间训练模型中内嵌有lstm时间序列模型;

6、将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;

7、获取多个目标流式时间序列数据;

8、将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;

9、根据所述乱序值确定乱序程度;

10、根据所述乱序程度制定动态水位调整策略;

11、根据所述动态水位调整策略动态调整flink水位线。

12、可选的,从流式数据源中采集目标数据集合之后,所述方法还包括:

13、将所述目标数据集合中的多个流式时间序列数据按照事件时间戳进行排序;

14、将经过排序后的流式时间序列数据保存至数据存储介质中,所述数据存储介质包括消息队列、分布式文件系统或数据库。

15、可选的,在将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型之前,所述方法还包括:

16、将所述目标数据集合中多个流式时间序列数据的格式均转化为目标格式,所述目标格式为输入所述初始时间训练模型的格式;

17、将转化为目标格式的多个流式时间序列数据切割成对应数量的处理窗口;

18、为每个所述处理窗口创建输入标签和输出标签。

19、可选的,所述将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型,包括:

20、将多个所述处理窗口分为训练窗口集合和验证窗口集合;

21、将所述训练窗口集合所述验证窗口集合处理窗口迭代输入所述初始时间训练模型中训练,并生成目标时间训练模型。

22、可选的,将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值,包括:

23、将所述多个目标流式时间序列数据输入所述目标时间训练模型,生成预测到达时间戳;

24、获取所述多个目标流式时间序列数据的实际到达时间戳;

25、根据所述预测到达时间戳和所述实际到达时间戳计算获取所述多个目标流式时间序列数据的乱序值。

26、可选的,根据所述乱序值确定乱序程度,包括:

27、计算所述多个目标流式时间序列数据的乱序值的均值;

28、根据所述均值确定所述乱序程度。

29、可选的,根据所述乱序值确定乱序程度,包括:

30、计算所述多个目标流式时间序列数据的乱序值的总和值;

31、根据所述总和值确定所述乱序程度。

32、本技术第二方面提供了一种基于flink动态水位线调整的系统,包括:

33、采集单元,用于从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;

34、构建单元,用于构建初始时间训练模型,所述初始时间训练中内嵌有lstm时间序列模型;

35、输入单元,用于将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;

36、第一获取单元,用于获取多个目标流式时间序列数据;

37、第二获取单元,用于将所述多个目标流式时间序列数据输入所述目标时间训练模型,以获取多个目标流式时间序列数据的乱序值;

38、确定单元,用于根据所述乱序值确定乱序程度;

39、制定单元,用于根据所述乱序程度制定动态水位调整策略;

40、调整单元,用于根据所述动态水位调整策略动态调整flink水位线。

41、本技术第三方面提供了一种基于flink动态水位线调整装置,所述装置包括:

42、处理器、存储器、输入输出单元以及总线;

43、所述处理器与所述存储器、所述输入输出单元以及所述总线相连;

44、所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。

45、本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。

46、从以上技术方案可以看出,本技术具有以下优点:

47、本技术基于flink动态水位线调整的方法首先是从流式数据源中采集目标数据集合,在目标数据集合中包含有多个流式时间序列数据;然后构建初始时间训练模型,初始时间训练中内嵌有lstm时间序列模型;将目标数据集合输入初始时间训练模型中训练并生成目标时间训练模型;获取多个目标流式时间序列数据;将多个目标流式时间序列数据输入目标时间训练模型,以获取多个目标流式时间序列数据的乱序值,后面根据乱序值确定乱序程度;根据乱序程度制定动态水位调整策略,最后根据动态水位调整策略动态调整flink水位线。

48、基于目标时间训练模型预测乱序值,并根据乱序值确定乱序程度之后,从而动态的调整flink水位线,无需使用人工进行干预,且该策略可以根据具体业务需求进行灵活配置和优化,适应不同业务场景下的数据处理要求,具有通用性,从而提高数据的准确性,可满足不同延迟要求和实际情况下窗口计算结果准确性需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1