数据库运维方法和装置与流程

文档序号:33797873发布日期:2023-04-19 10:33阅读:25来源:国知局
数据库运维方法和装置与流程

本技术涉及自治数据库,尤其涉及一种数据库运维方法和装置。


背景技术:

1、数据是任何商业和公共安全中最具有战略性的资产,信息技术领域全面云化已是大势所趋,继云计算大数据之后,数据库上云也是数据库未来的发展方向。随着信息时代的发展,数据库信息的价值及可访问性得到了提升,数据库的安全性、实用性、可靠性的考验也越来越严峻。对数据库的监控运维往往需要大量的人力物力,发生宕机情况后如果处理不当或由于人为操作失误导致数据丢失损坏,会造成巨大的损失。在运维过程中,数据库管理员(database administrator,dba)很难全面掌握海量节点的状态,因而设计一套可以进行数据库故障自动识别、故障原因自动分析,从而实现数据库故障自动修复的自动运维系统显得尤为重要。

2、现有技术主要为基于人工智能的自动运维方法,即通过搜集历史运维数据对该自动运维模型进行训练,然后基于该自动运维模型对数据库进行自动运维。

3、然而,上述基于人工智能的自动运维方法高度依赖历史运维数据集,且在场景切换后,无法解决冷启动问题,即该自动运维方法的适应性差。


技术实现思路

1、本技术实施例提供了一种数据库运维方法和装置,使得数据库的自动运维过程对历史运维数据的依赖性小,且在场景切换后,可以快速修复数据库故障,即适应性强。

2、第一方面,本技术提供了一种数据库运维方法,所述方法包括:获取数据库的异常指标集合,所述异常指标集合中每个异常指标的值位于与所述每个异常指标对应的预设取值范围外;基于图结构搜索出与所述每个异常指标具有映射关系的至少一个根因,得到根因集合,所述图结构包括异常指标与根因之间的映射关系;基于所述图结构,搜索出与所述根因集合中第一根因具有映射关系的至少一个修复方式,并利用所述至少一个修复方式对所述数据库进行修复,直到所述异常指标集合中的异常指标全部处于正常状态,所述图结构还包括根因与修复方式之间的映射关系。

3、其中,异常指标的异常情况可以包括高异常和低异常两种。高异常指异常指标的值大于异常指标对应预设区间的两个端点中的较大值;低异常指异常指标的值小于异常指标对应预设区间的两个端点中的较小值。

4、其中,第一根因可以为上述根因集合中的任意一个根因。

5、从技术效果上看,本技术实施例基于图结构构建了异常指标与根因之间的映射关系,以及根因与修复方式之间的映射关系,因而可以直接基于图结构搜索出对异常数据库(或称为故障数据库)的修复方式,相对现有技术中ai运维方式而言,无需历史运维数据,即对历史数据的依赖性小。同时,由于无需历史运维数据,因而可以避免不适合的历史运维数据对数据库当前的修复过程的影响;且由于实际运维过程中,不同数据库的历史运维数据较难获取(保密需要),因而本技术中实施例具有较好的通用性。此外,在数据库运行场景切换后,本技术实施例也可以直接基于图结构搜索出相应的修复方式并快速实现故障修复,可以有效避免现有技术中场景切换后的冷启动问题。

6、在一种可行的实施方式中,所述基于所述每个指标的值搜索出与所述每个指标具有映射关系的至少一个根因,得到根因集合,包括:基于所述图结构搜索出与所述每个异常指标具有映射关系的至少一个根因,得到p个根因,所述p为正整数;对所述p个根因进行去重,得到q个根因,并基于所述q个根因中每个根因的权重系数对所述q个根因进行排序,得到所述根因集合;其中,所述q为小于或等于所述p的正整数。

7、其中,上述根因集合中每个根因对应的权重系数可以表征由该根因使得上述异常指标集合中的指标产生异常的可能性大小。例如,当根因集合中根因对应的权重系数越大时,由该根因使得异常指标集合中的指标产生异常的可能性越大;或者,当根因集合中根因对应的权重系数越大时,由该根因使得异常指标集合中的指标产生异常的可能性越小。

8、从技术效果上看,由于根因集合是基于q个根因的权重系数进行排序得到的,因而后续可以基于根因集合来快速确定最有可能使得上述异常指标集合中指标产生异常的根因,即尽快修复数据库故障,提升自动运维性能。

9、应当理解,当异常指标集合中的k个异常指标都与一个根因具有映射关系时,该根因对应k个权重系数,且该k个权重系数可以相同或分别不同,此时,上述p个根因中包含k个相同的该根因,且该k个相同的根因与k个权重系数分别对应,k为大于或等于2的整数。

10、在一种可行的实施方式中,所述p个根因和所述q个根因中的每个根因对应一个权重系数;所述q个根因中第i个根因的权重系数等于所述第i个根因在所述p个根因中对应的所有权重系数之和,i=1,…,q。

11、从技术效果上看,由于p个根因中可能包含相同的根因,本技术实施例通过将p个根因中相同根因分别对应的权重系数相加,得到该相同根因在q个根因中的权重系数,通过此种方式来提升该相同根因的重要程度,从而使得后续可以通过权重系数从根因集合中选出重要程度高的根因,以对数据库进行修复,提升自动运维性能。

12、在一种可行的实施方式中,所述并利用所述至少一个修复方式对所述数据库进行修复,直到所述异常指标集合中的异常指标全部处于正常状态,包括:当利用所述至少一个修复方式对所述数据库进行修复后,且所述异常指标集合中的异常指标未全部处于所述正常状态时,基于所述图结构,搜索出与第二根因具有映射关系的至少一个修复方式,并利用与所述第二根因具有映射关系的至少一个修复方式对所述数据库进行修复,所述第二根因为在所述根因集合中排在所述第一根因之后的下一个根因。

13、从技术效果上看,本技术实施例可以按照根因集合中各根因的顺序,依次选用与每个根因具有映射关系的修复方式进行修复,直到每个异常指标都处于正常状态。此种方式可以快速确定导致异常指标集合中指标出现异常的根因,提升故障修复的速度。

14、在一种可行的实施方式中,所述搜索出与所述根因集合中第一根因具有映射关系的至少一个修复方式,并利用所述至少一个修复方式对所述数据库进行修复,包括:搜索出与所述第一根因具有映射关系的至少一个修复方式,得到修复方式集合,其中,与所述第一根因具有映射关系的至少一个修复方式中的每个修复方式对应一个权重系数,且在所述修复方式集合中,排序在前的修复方式对应的权重系数大于或等于排序在后的修复方式对应的权重系数;在利用所述修复方式集合中的第一修复方式对所述数据库进行修复后,若所述异常指标集合中的异常指标全部处于正常状态时,停止所述修复过程,若所述异常指标集合中的异常指标未全部处于正常状态时,利用第二修复方式对所述数据库进行修复,所述第二修复方式为在所述修复方式集合中排在所述第一修复方式后的下一个修复方式。

15、其中,每个修复方式对应的权重系数可以表征采用该修复方式对数据库进行修复后,异常指标集合中的异常指标恢复正常状态的可能性。

16、应当注意,在确定根因集合之后,第一次对数据库进行修复的过程中,第一根因可以为根因集合中的第一个根因,即排序在第一位的根因。

17、从技术效果上看,本技术实施例通过修复方式对应的权重系数的大小,依次选用对应的修复方式对数据库进行故障修复,可以快速地找出正确的修复方式,提升故障修复速度。

18、在一种可行的实施方式中,所述正常状态指所述异常指标的值位于与所述异常指标对应的预设取值范围内。

19、在一种可行的实施方式中,所述方法还包括:确定第三根因和第三修复方式,所述第三修复方式为在所述图结构中与所述第三根因具有映射关系的至少一个修复方式中的一个,且在采用所述第三修复方式对所述数据库进行修复后,所述异常指标集合中的异常指标全部处于所述正常状态;更新所述第三修复方式对应的权重系数,以及更新所述p个根因中所述第三根因对应的权重系数。

20、从技术效果上看,在数据库故障被修复后,确定修复故障时所使用的修复方式和相应的根因,此时,更新图结构中第一修复方式和第三根因对应的权重系数,以便后续出现相同的异常情况时,可以快速定位正确的根因以及正确的修复方式,从而快速对数据库进行修复。

21、在一种可行的实施方式中,所述更新所述第三修复方式对应的权重系数,以及更新所述p个根因中所述第三根因对应的权重系数,包括:提高所述第三修复方式对应的权重系数,以及提高所述p个根因中所述第三根因对应的权重系数。

22、从技术效果上看,通过提升第一修复方式和第三根因的权重系数,使得后续数据库出现相同异常情况,且根因集合中根因按权重系数从大到小进行排序时,可以快速定位正确的根因以及正确的修复方式,从而快速对数据库进行修复。

23、在一种可行的实施方式中,所述异常指标集合中的异常指标包括每秒事务处理数量tps、每秒查询数量qps、响应时间、中央处理单元使用率、内存使用率或每秒读写操作次数iops中的至少一个。

24、在一种可行的实施方式中,所述根因集合中的根因包括参数不正确、流量过大、索引不当或资源不足中的至少一个;所述修复方式集合中的修复方式包括重启数据库、执行限流操作、调用结构化查询语言sql优化或呼叫管理员中的至少一个。

25、第二方面,本技术实施例提供了一种数据库运维装置,所述装置包括:获取单元,用于获取数据库的异常指标集合,所述异常指标集合中每个异常指标的值位于与所述每个异常指标对应的预设取值范围外;搜索单元,用于基于图结构搜索出与所述每个异常指标具有映射关系的至少一个根因,得到根因集合,所述图结构包括异常指标与根因之间的映射关系;以及用于基于所述图结构,搜索出与所述根因集合中第一根因具有映射关系的至少一个修复方式;修复单元,用于利用所述至少一个修复方式对所述数据库进行修复,直到所述异常指标集合中的异常指标全部处于正常状态,所述图结构还包括根因与修复方式之间的映射关系。

26、在一种可行的实施方式中,在所述基于图结构搜索出与所述每个异常指标具有映射关系的至少一个根因,得到根因集合的方面,所述搜索单元具体用于:基于所述图结构搜索出与所述每个异常指标具有映射关系的至少一个根因,得到p个根因,所述p为正整数;对所述p个根因进行去重,得到q个根因,并基于所述q个根因中每个根因的权重系数对所述q个根因进行排序,得到所述根因集合;其中,所述q为小于或等于所述p的正整数。

27、在一种可行的实施方式中,所述p个根因和所述q个根因中的每个根因对应一个权重系数;所述q个根因中第i个根因的权重系数等于所述第i个根因在所述p个根因中对应的所有权重系数之和,i=1,…,q。

28、在一种可行的实施方式中,在所述利用所述至少一个修复方式对所述数据库进行修复,直到所述异常指标集合中的异常指标全部处于正常状态的方面,所述搜索单元具体用于:当利用所述至少一个修复方式对所述数据库进行修复后,且所述异常指标集合中的异常指标未全部处于所述正常状态时,基于所述图结构,搜索出与第二根因具有映射关系的至少一个修复方式;所述修复单元具体用于:利用与所述第二根因具有映射关系的至少一个修复方式对所述数据库进行修复,所述第二根因为在所述根因集合中排在所述第一根因之后的下一个根因。

29、在一种可行的实施方式中,在所述搜索出与所述根因集合中第一根因具有映射关系的至少一个修复方式的方面,所述搜索单元具体用于:搜索出与所述第一根因具有映射关系的至少一个修复方式,得到修复方式集合,其中,与所述第一根因具有映射关系的至少一个修复方式中的每个修复方式对应一个权重系数,且在所述修复方式集合中,排序在前的修复方式对应的权重系数大于或等于排序在后的修复方式对应的权重系数;在所述利用所述至少一个修复方式对所述数据库进行修复的方面,所述修复单元具体用于:在利用所述修复方式集合中的第一修复方式对所述数据库进行修复后,若所述异常指标集合中的异常指标全部处于正常状态时,停止所述修复过程,若所述异常指标集合中的异常指标未全部处于正常状态时,利用第二修复方式对所述数据库进行修复,所述第二修复方式为在所述修复方式集合中排在所述第一修复方式后的下一个修复方式。

30、在一种可行的实施方式中,所述正常状态指所述异常指标的值位于与所述异常指标对应的预设取值范围内。

31、在一种可行的实施方式中,所述装置还包括:确定单元,用于确定第三根因和第三修复方式,所述第三修复方式为与所述第三根因具有映射关系的至少一个修复方式中的一个,且在采用所述第三修复方式对所述数据库进行修复后,所述异常指标集合中的异常指标全部处于所述正常状态;更新单元,用于更新所述第三修复方式对应的权重系数,以及更新所述p个根因中所述第三根因对应的权重系数。

32、在一种可行的实施方式中,所述更新单元具体用于:提高所述第三修复方式对应的权重系数,以及提高所述p个根因中所述第三根因对应的权重系数。

33、在一种可行的实施方式中,所述异常指标集合中的异常指标包括每秒事务处理数量tps、每秒查询数量qps、响应时间、中央处理单元使用率、内存使用率或每秒读写操作次数iops中的至少一个。

34、在一种可行的实施方式中,所述根因集合中的根因包括参数不正确、流量过大、索引不当或资源不足中的至少一个;所述修复方式集合中的修复方式包括重启数据库、执行限流操作、调用结构化查询语言sql优化或呼叫管理员中的至少一个。

35、第三方面,本技术实施例提供了一种芯片系统,所述芯片系统包括至少一个处理器,存储器和接口电路,所述存储器、所述接口电路和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有指令;所述指令被所述处理器执行时,上述第一方面中任意一项所述的方法得以实现。

36、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,当所述程序指令在一个或多个处理器上运行时,上述第一方面中任意一项所述的方法得以实现。

37、第五方面,本技术实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,上述第一方面中任意一项所述的方法得以实现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1