对数据执行链路监控的方法、系统、装置、设备及介质与流程

文档序号:36391322发布日期:2023-12-15 09:45阅读:26来源:国知局
对数据执行链路监控的方法与流程

本发明涉及大数据业务,具体涉及一种对数据执行链路监控的监控方法、系统及装置。


背景技术:

1、hdfs(hadoop distributed file system,分布式系统基础架构分布式文件系统)是大数据业务的底层存储服务,也是大数据平台最为基础的依赖组件。如果hdfs服务异常,会导致数据丢失、上层业务大面积终止等一系列严重后果。由于hdfs服务中任务请求的处理流程复杂,因此难以对hdfs请求执行链路进行监控,难以获取hdfs完整链路信息、追溯hdfs服务异常的根源、识别异常情况并对异常情况进行告警。

2、现有技术通过排查日志记录对hdfs请求执行链路进行监控。然而,由于日志记录信息杂乱,排查过程会占用大量的时间成本,使得hdfs服务异常的解决丧失了时效性,对数据业务造成不必要的损失。并且,现有技术没有将获取到的链路信息进行可视化展示,难以高效便捷的定位hdfs服务异常。

3、因此,现有技术日志存在信息记录杂乱,排查日志的时间成本高,影响了监控数据执行链路的时效性的问题。


技术实现思路

1、有鉴于此,本发明提供了一种对数据执行链路监控的方法、系统、装置、设备及介质,以解决现有技术中存在日志存在信息记录杂乱,排查日志的时间成本高,影响了监控数据执行链路的时效性的问题。

2、第一方面,本发明提供了一种对数据执行链路监控的方法,该方法包括:

3、获取数据访问请求执行过程中每个步骤的执行信息;

4、根据执行信息中的上下游关系信息,得到数据访问请求执行过程的目标执行链路;

5、根据执行信息,得到每个步骤的执行频次、数据访问请求执行过程的总执行耗时和异常步骤;

6、将执行频次、总执行耗时以及异常步骤进行汇总,得到目标执行链路的告警关联信息。

7、本实施例提供的对数据执行链路监控的方法,不需要对繁琐日志文件进行解析,通过获取数据访问请求执行过程中每个步骤的执行信息,根据执行信息中的上下游关系信息,得到数据访问请求执行过程的目标执行链路,根据执行信息,得到目标执行链路的告警关联信息。使数据访问请求执行过程中问题的定位更为高效便捷,有助于大数据平台的日常维护与稳定,能够降低时间成本,满足大数据实时场景的时效性要求。解决了日志存在信息记录杂乱,排查日志的时间成本高,影响了监控数据执行链路的时效性的问题。

8、在一种可选的实施方式中,在得到目标执行链路的告警关联信息之前,方法还包括:

9、根据执行信息判断是否存在执行超时的步骤,如果存在执行超时的步骤,则生成第一告警信息,其中,执行超时的步骤为耗时大于第一预设阈值的步骤;

10、根据执行信息判断是否存在满足第一触发条件的步骤,如果存在,则生成第二告警信息,其中,第一触发条件用于表征步骤的参数出现异常;

11、根据目标执行链路和执行信息判断是否存在满足第二触发条件的步骤,如果存在,则生成第三告警信息,其中,第二触发条件用于表征步骤的执行过程出现异常。

12、在本实施方式中,在对执行信息进行解析,得到目标执行链路的告警关联信息的过程中,根据执行信息、目标执行链路、第一预设阈值、第一触发条件以及第二触发条件,判断是否需要生成告警信息。保证了数据访问请求执行过程的正确进行,如果存在异常,则直接定位异常所在的步骤,大大减小了问题处理与故障恢复的时间与人力消耗。

13、在一种可选的实施方式中,在根据执行信息判断是否存在执行超时的步骤之前,方法还包括:

14、获取第一预设阈值、第一触发条件以及第二触发条件;

15、将第一预设阈值、第一触发条件以及第二触发条件同步到信息聚合部件,其中,信息聚合部件用于生成第一告警信息、第二告警信息以及第三告警信息。

16、在本实施方式中,告警部件获取第一预设阈值、第一触发条件以及第二触发条件,并将第一预设阈值、第一触发条件以及第二触发条件同步到信息聚合部件。信息聚合部件在对执行信息进行解析,得到目标执行链路的告警关联信息的过程中,根据执行信息、目标执行链路、第一预设阈值、第一触发条件以及第二触发条件,判断是否需要生成告警信息。保证了数据访问请求执行过程的正确进行,如果存在异常,则直接定位异常所在的步骤,大大减小了问题处理与故障恢复的时间与人力消耗。

17、在一种可选的实施方式中,在得到目标执行链路的告警关联信息之后,方法还包括:

18、在生成告警信息之后,将目标执行链路、执行信息、告警关联信息以及告警信息进行可视化展示,其中,告警信息包括第一告警信息、第二告警信息以及第三告警信息。

19、在本实施方式中,将目标执行链路、执行信息、告警关联信息以及告警信息进行可视化展示,通过可视化的方式直观地展示了复杂的数据访问请求执行过程中的详细经过,并通过展示告警信息,直接定位问题所在的步骤,大大减小了问题处理与故障恢复的时间与人力消耗,满足了大数据实时场景的时效性要求。

20、在一种可选的实施方式中,获取数据访问请求执行过程中每个步骤的执行信息,包括:

21、将监控元件嵌入数据访问请求执行模块,其中,数据访问请求执行模块用于进行数据访问请求执行过程,数据访问请求执行模块包括客户端、管理节点服务子模块以及工作节点服务子模块,客户端执行数据访问请求执行过程中的第一数量个步骤,管理节点服务子模块执行数据访问请求执行过程中的第二数量个步骤,工作节点服务子模块执行数据访问请求执行过程中的第三数量个步骤;

22、在客户端执行第一数量个步骤时,利用监控元件获取第一数量个步骤的执行信息,其中,执行信息包括数据访问请求执行模块的当前时间信息、每个步骤的耗时信息、网络连接信息、线程信息、位置信息、上下游关系信息以及执行过程信息,线程信息用于确定执行数据访问请求的线程;

23、在管理节点服务子模块执行第二数量个步骤时,利用监控元件获取第二数量个步骤的执行信息;

24、在工作节点服务子模块执行第三数量个步骤时,利用监控元件获取第三数量个步骤的执行信息。

25、在本实施方式中,将监控元件嵌入数据访问请求执行模块,在数据访问请求执行模块中的客户端、管理节点服务子模块以及工作节点服务子模块开始执行步骤的时候,利用监控元件获取每个步骤的执行信息。为后续生成目标执行链路、告警关联信息,判断是否进行告警以及将信息进行可视化展示提供基础。

26、在一种可选的实施方式中,将监控元件嵌入数据访问请求执行模块,包括:

27、生成监控元件对应的采集接口,其中,调用采集接口能够使监控元件获取执行信息;

28、将采集接口分别设置在客户端、管理节点服务子模块以及工作节点服务子模块中。

29、在本实施方式中,通过调用采集接口,使得监控元件获取不同步骤的执行信息,保证监控元件能够及时采集执行信息。

30、第二方面,本发明提供了一种对数据执行链路监控的系统,该系统包括:监控元件和信息聚合部件;

31、监控元件与信息聚合部件相连,用于获取数据访问请求执行过程中每个步骤的执行信息,并将执行信息发送至信息聚合部件;

32、信息聚合部件用于根据执行信息中的上下游关系信息,得到数据访问请求执行过程的目标执行链路,根据执行信息,得到目标执行链路的告警关联信息。

33、本实施例提供的对数据执行链路监控的系统,通过监控元件获取数据访问请求执行过程中每个步骤的执行信息。通过信息聚合部件根据执行信息中的上下游关系信息,得到数据访问请求执行过程的目标执行链路,根据执行信息,得到目标执行链路的告警关联信息。不需要对繁琐日志文件进行解析,使数据访问请求执行过程中问题的定位更为高效便捷,有助于大数据平台的日常维护与稳定,能够降低时间成本,满足大数据实时场景的时效性要求。解决了日志存在信息记录杂乱,排查日志的时间成本高,影响了监控数据执行链路的时效性的问题。

34、第三方面,本发明提供了一种对数据执行链路监控的装置,该装置包括:

35、获取模块,用于获取数据访问请求执行过程中每个步骤的执行信息;

36、第一得到模块,用于根据执行信息中的上下游关系信息,得到数据访问请求执行过程的目标执行链路;

37、第二得到模块,用于根据执行信息,得到目标执行链路的告警关联信息。

38、第四方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的对数据执行链路监控的方法。

39、第五方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的对数据执行链路监控的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1