使用分布式执行跟踪的故障管理系统和方法与流程

文档序号:19418578发布日期:2019-12-14 01:11阅读:来源:国知局

技术特征:

1.一种用于对分布式系统提供的业务发生的故障进行管理的跟踪系统(100,300),其特征在于,所述跟踪系统包括:

状态机存储器(110,312),用于存储分布式执行状态机(distributedexecutionstatemachine,desm),其中,所述desm的状态对应于所述业务的预定里程碑,所述desm的转变对应于所述业务的一个或多个指令;

日志单元(120,336),用于在日志存储器中记录所述分布式系统的事件,其中,事件指示所述desm的状态(610,614,618,622,626)和/或转变(612,616,620,624);

进程重构子系统(130,350),用于从存储于所述日志存储器中的所述事件重构(440)desm跟踪;以及

关联单元(140),用于将所述分布式系统的日志信息(333,335)关联(450)至所述状态。

2.根据权利要求1所述的跟踪系统(100,300),其特征在于,所述事件((610,614,618,622,626)包括:

业务发放事件,指示业务发放的开始和/或结束;

进程事件,指示一个进程的进入和/或退出;

状态事件,指示一个状态的进入和/或退出;

任务事件,指示属于进程的任务的执行;

控制流事件,指示影响进程的控制流的决定;

相关性事件,指示第一进程和第二进程之间的相关性;

并行执行事件,指示进程的并行执行;和/或

同步,指示进程之间的同步。

3.根据前述权利要求中的任一项所述的跟踪系统(100,300),其特征在于,所述desm的开始状态对应于用户提交创建新虚拟机的请求。

4.根据前述权利要求中的任一项所述的跟踪系统(100,300),其特征在于,记录事件包括写独立跟踪语言(independenttracinglanguage,itl)的语句,其中,所述itl包括行,所述行指示进程的标识符、进程相关性和/或上下文元数据。

5.根据权利要求4所述的跟踪系统(100,300),其特征在于,所述上下文元数据包括调试消息、时间戳、部件或模块标识符、系统度量、方法名称、文件名称,和/或进行处理时对应的行号。

6.根据权利要求4或5所述的跟踪系统(100,300),其特征在于,所述itl以开始标识来指示进程的开始和/或以停止标识来指示进程的停止。

7.根据权利要求4至6中的任意一项所述的跟踪系统(100,300),其特征在于,所述分布式系统的第一服务器响应于请求所生成的所有事件接收同一个标识符;若所述第一服务器调用第二服务器的函数,则通过所述itl的相关性语句来指示所述第一服务器的第一进程和所述第二服务器的第二进程之间的相关性。

8.根据前述权利要求中的任一项所述的跟踪系统(100,300),其特征在于,所述日志信息包括时间戳,所述关联单元用于基于所述时间戳将所述分布式系统的所述日志信息关联至所述desm的所述状态。

9.根据前述权利要求中的任一项所述的跟踪系统(100,300),其特征在于,所述日志存储器包括消息队列。

10.根据权利要求9所述的跟踪系统(100,300),其特征在于,所述分布式系统包括仪器应用程序接口(applicationprogramminginterface,api),用于:当调用所述仪器api的函数时,生成事件并将所述事件传输至所述消息队列。

11.根据前述权利要求中的任一项所述的跟踪系统(100,300),其特征在于,所述dems可以通过(σ,s,t,s,a,m,l,f)进行描述,其中,

σ是任务集合,其中,一个任务包括一个或多个指令;

s是所述dems的状态集合;

s∈s是所述desm的开始状态和结束状态;

t:sc×σ→sn是所述desm的转变函数;

是接受状态的集合;

m:ssub→ssup是将状态ssub∈s和转变tsub∈t指派到超状态ssup∈s的映射函数;

l:s→(st,sl)是为状态s指派状态类型st∈{sequence,split,join}和状态逻辑sl∈{xor,or,and}的映射函数;以及

f:t→n是为每个转变t∈t指派一个自然数以指示转变的执行流的映射函数。

12.根据前述权利要求中的任一项所述的跟踪系统(100,300),其特征在于,还包括可视化子系统,用于为所述重构的desm跟踪生成图示(1000),其中,所述图示具体包括树形视图。

13.一种用于对分布式系统提供的业务发生的故障进行管理的方法(200),其特征在于,所述方法包括:

存储(210)分布式执行状态机(distributedexecutionstatemachine,desm),其中,所述desm的状态对应于所述业务的预定里程碑,所述desm的转变对应于所述业务的一个或多个指令;

在日志存储器中记录(220)所述分布式系统的事件,其中,事件指示所述desm的状态(610,614,618,622,626)和/或转变(612,616,620,624);

从存储于所述日志存储器中的所述事件重构(230,440)desm跟踪;以及

将所述分布式系统的日志信息关联(240,450)至所述状态。

14.根据权利要求13所述的方法(200),其特征在于,记录事件包括写独立跟踪语言(independenttracinglanguage,itl)的语句,其中,所述itl包括行,所述行指示进程的标识符、进程相关性和/或上下文元数据。

15.一种存储程序代码的计算机可读存储介质,其特征在于,所述程序代码包括指令,在由处理器执行时,所述指令执行根据权利要求13或14所述的方法。


技术总结
本发明提供了一种用于对分布式系统提供的业务发生的故障进行管理的跟踪系统。所述跟踪系统包括:状态机存储器,用于存储分布式执行状态机(distributed execution state machine,DESM),其中,所述DESM的状态对应于所述业务的预定里程碑,所述DESM的转变对应于所述业务的一个或多个指令;日志单元,用于在日志存储器中记录所述分布式系统的事件,其中,事件指示所述DESM的状态和/或转变;进程重构子系统,用于从存储于所述日志存储器中的所述事件重构DESM跟踪;以及关联单元,用于将所述分布式系统的日志信息关联至所述状态。

技术研发人员:乔治·卡多索;朱星;戈兹·布兰切
受保护的技术使用者:华为技术有限公司
技术研发日:2017.02.08
技术公布日:2019.12.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1