用于存储器内系统的自动管理和监控的平台的制作方法

文档序号:26584729发布日期:2021-09-10 18:44阅读:52来源:国知局
用于存储器内系统的自动管理和监控的平台的制作方法

1.本公开的实施方式针对用于存储器内数据库系统的自动管理和监控的平台。更具体地,本公开的平台提供了实现对存储器内系统的自动管理和监控、并且提供所执行的任务的可审计的可追溯性的配置。


背景技术:

2.存储器内(in

memory)系统可以包括存储在一个或多个计算设备的主存储器中并从一个或多个计算设备的主存储器执行的存储器内平台和数据库系统。例如,存储器内数据库系统可以被描述为使用主存储器用于数据存储的数据库管理系统。管理和监控存储器内系统的正常操作和/或可能发生的任何问题,以便按需实施解决方案。
3.然而,用于管理和监控存储器内系统的传统系统本质上是被动的,并且需要用户的大量手动努力(例如,管理员用户寻找和响应警报和错误)。此外,用于管理和监控存储器内系统的传统系统依赖于相应用户的个人专业知识(例如,管理用户在辨识问题以及可被执行以解决问题的解决方案方面的专业知识和领域知识)。此外,用于管理和监控存储器内系统的传统系统不支持随着规模的增加(例如,在存储器内系统内执行的应用实例的数量增加)而对资源的优化,通常需要随着规模的增加而添加资源。


技术实现要素:

4.本公开的实施方式针对用于存储器内数据库系统的自动管理和监控的平台。更具体地,本公开的平台提供了实现对存储器内系统的自动管理和监控、并且提供所执行的任务的可审计的可追溯性的配置。
5.在一些实施方式中,动作包括由自动引导平台从存储器内系统接收一个或多个日志文件;由自动引导平台基于一个或多个日志,确定存储器内系统内第一错误的发生,其中,第一错误由一个或多个日志文件内的第一错误代码指示;由自动引导平台基于第一错误代码从解决方案库中识别第一解决方案,解决方案库包括将错误代码与解决方案相关联的一个或多个映射,将错误代码与解决方案相关联包括将第一错误代码与第一解决方案相关联;由自动引导平台启动第一解决方案的执行;以及由自动引导平台基于第一解决方案的执行,更新解决方案库。本方面的其他实施方式包括相应的系统、装置和计算机程序,计算机程序被配置为执行方法的动作,并且被编码在计算机存储设备上。
6.这些和其他实施方式每个可以可选地包括以下特征中的一个或多个:由自动引导平台基于一个或多个日志,确定存储器内系统内第一错误的发生包括将第一错误代码与错误代码列表进行交叉对照(cross

reference),并且确定第一错误代码包括在错误代码列表中;基于第一解决方案的执行更新解决方案库是响应于第一解决方案成功地解决第一错误而发生的,并且至少部分地包括增加表示第一解决方案已经解决了错误的次数的频率;响应于确定以下中的一个或多个,从多个解决方案中将第一解决方案识别为第一错误的最适配的解决方案:与第一解决方案相关联的频率大于多个解决方案中的一个或多个其他解
决方案的频率,和第一解决方案的最后执行时间比多个解决方案中的一个或多个其他解决方案的相应最后执行时间更新;动作还包括由自动引导平台基于一个或多个日志确定存储器内系统内第二错误的发生,其中,第二错误由一个或多个日志文件内的第二错误代码指示,由自动引导平台基于第二错误代码从解决方案库中识别第二解决方案,由自动引导平台启动第二解决方案的执行,以及由自动引导平台确定第二解决方案不成功,以及作为响应,启动在解决第二错误时用于手动干预的支持单;动作还包括更新解决方案库以包括第三解决方案,响应于支持单,执行第三解决方案以解决第二问题;并且存储器内系统包括存储器内数据库系统。
7.本公开还提供了一种耦合到一个或多个处理器并且其上存储有指令的计算机可读存储介质,当指令被一个或多个处理器执行时,使得一个或多个处理器根据本文提供的方法的实施方式执行操作。
8.本公开还提供了一种用于实施本文所提供的方法的系统。系统包括一个或多个处理器,以及耦合到一个或多个处理器且其上存储有指令的计算机可读存储介质,当指令由一个或多个处理器执行时,使得一个或多个处理器根据本文提供的方法的实施方式执行操作。
9.应当理解,根据本公开的方法可以包括本文所描述的方面和特征的任何组合。也就是说,根据本公开的方法不限于本文具体描述的方面和特征的组合,还包括所提供的方面和特征的任何组合。
10.本公开的一个或多个实施方式的细节在附图和以下描述中阐述。从说明书和附图以及权利要求中,本公开的其他特征和优点将变得清楚。
附图说明
11.图1描绘了可用于执行本公开的实施方式的示例架构。
12.图2描绘了根据本公开的实施方式的概念架构,其包括用于存储器内系统的自动管理和监控的平台。
13.图3

图5描绘了可以根据本公开的实施方式来执行的示例过程。
14.图6是可用于执行本公开的实施方式的示例计算机系统的示意图。
15.各图中相同的参考符号指示相同的元件。
具体实施方式
16.本公开的实施方式针对用于存储器内数据库系统的自动管理和监控的平台。更具体地,本公开的平台提供了实现对存储器内系统的自动管理和监控、并且提供所执行的任务的可审计的可追溯性的配置。
17.实施方式可以包括以下动作:由自动引导平台从存储器内系统接收一个或多个日志文件;由自动引导平台基于一个或多个日志,确定存储器内系统内第一错误的发生,其中,第一错误由一个或多个日志文件内的第一错误代码指示;由自动引导平台基于第一错误代码从解决方案库中识别第一解决方案,解决方案库包括将错误代码与解决方案相关联的一个或多个映射,将错误代码与解决方案相关联包括将第一错误代码与第一解决方案相关联;由自动引导平台启动第一解决方案的执行;以及由自动引导平台基于第一解决方案
的执行,更新解决方案库。
18.为了提供本公开的实施方式的进一步的上下文,并且如上所述,存储器内系统可以包括存储在一个或多个计算设备的主存储器中并从一个或多个计算设备的主存储器执行的内存平台和数据库系统。例如,存储器内数据库系统可以被描述为使用主存储器用于数据存储的数据库管理系统。管理和监控存储器内系统的正常操作和/或可能发生的任何问题,以便按需实施解决方案。然而,用于管理和监控存储器内系统的传统系统本质上是被动的,并且需要用户的大量手动努力(例如,管理员用户寻找和响应警报和错误)。这种被动和手动的方法可以满足在内存平台内执行的少量可管理规模的实例,并且满足在服务级别没有(例如,通过服务级别协议(sla))被合同性约束的情况。此外,用于管理和监控存储器内系统的传统系统依赖于相应用户的个人专业知识(例如,管理用户在辨识问题以及可被执行以解决问题的解决方案方面的专业知识和领域知识)。此外,用于管理和监控存储器内系统的传统系统不支持随着规模的增加(例如,在存储器内系统内执行的应用实例的数量增加)而对资源的优化,通常需要随着规模的增加而添加资源。
19.为了提供进一步的上下文,随着企业云环境、混合内部和云环境以及多云环境的出现,以及在任何特定环境中执行的实例(例如,应用实例)的数量的指数级增长,管理和监控实例的任务变得繁重。也就是说,管理和监控部署在这些环境中的存储器内系统越来越困难,效率也越来越低。供应商执行的分散化活动只是为了管理日常事务(例如,备份、警报、安全漏洞)。传统方法使用安装在客户端侧的工作室类型工具或安装在服务器侧的机舱(cockpit)、支持实例级别的管理/监控任务。其他工具包括基于浏览器的工具。但问题仍然是,这些解决方案在本质上是被动的,并且即使对于已知问题和解决场景,也始终需要人工干预。
20.例如,对于x个实例的具有已知解决方案的已知问题,可能需要来自一个或多个管理员的相当多的关注。这可能会限制可扩展的实例的数量,因为必须在资源上实现平衡,以处理随着实例的数量增加而出现的问题。例如,云环境支持大量的实例,但使用传统方法来满足sla可能是一项挑战。
21.鉴于上述上下文,本公开的实施方式提供了用于存储器内系统的自动管理和监控的平台。更具体地,并且如在此进一步详细描述的,本公开的平台提供了实现对存储器内系统的自动管理和监控、并且提供所执行的任务的可审计的可追溯性的配置。本公开的平台被称为存储器内系统自动引导平台,或简称为自动引导平台。在一些实施方式中,该平台提供故障、影响、模式和分析(failure,effect,mode and analysis,fema)模型和故障排除指南(troubleshooting guides,tsg),fema模型和tsg被统称为解决方案库。总体而言,本公开的平台解决了困扰传统方法的被动性本质和人工可变性,并提供了最适配的解决方案以主动地解决问题。此外,随着新的解决方案被发布,新的解决方案将被添加到平台中。在一些实施方式中,平台检测并被配置为解决异常(例如,先前未发现的问题)。一般地,如在此进一步详细描述的,本公开的平台基于以迭代方式配置、检测、干预、鉴定、理解、补救、回填、学习、即兴(improvising)和报告任务的过程。
22.参考包括存储器内数据库系统的示例存储器内系统来进一步详细描述本公开的实施方式。存储器内数据库系统的非限制性示例(在此出于说明的目的被提及),包括由德国沃尔多夫的思爱普软件工程公司(sap se)提供的sap hana。然而,可以考虑,本公开的实
施方式可以在任何适当的存储器内系统中实现。此外,本公开的实施方式可以在存储器内系统的内部部署、存储器内系统的基于云的部署或者存储器内系统的混合部署中实现。
23.图1描绘了根据本公开的实施方式的示例架构100。在所描绘的示例中,示例架构100包括客户端设备102、网络106和服务器系统104。服务器系统104包括一个或多个服务器设备和数据库108(例如,处理器、存储器)。在所描绘的示例中,用户112与客户端设备102交互。
24.在一些示例中,客户端设备102可以通过网络106与服务器系统104通信。在一些示例中,客户端设备102包括任何适当类型的计算设备,诸如台式计算机、膝上型计算机、手持计算机、平板计算机、个人数字助理(personal digital assistant,pda)、蜂窝电话、网络设备、相机、智能手机、增强型通用分组无线电服务(enhanced general packet radio service,egprs)移动电话、媒体播放器、导航设备、电子邮件设备、游戏控制台或这些设备或者其他数据处理设备中的任何两个或更多个的适当组合。在一些实施方式中,网络106可以包括连接任意数量的通信设备、移动计算设备、固定计算设备和服务器系统的大型计算机网络,诸如局域网(local area network,lan)、广域网(wide area network,wan)、互联网、蜂窝网络、电话网络(例如,pstn)或它们的适当组合。
25.在一些实施方式中,服务器系统104包括至少一个服务器和至少一个数据存储。在图1的示例中,服务器系统104旨在表示各种形式的服务器,包括但不限于web服务器、应用服务器、代理服务器、网络服务器和/或服务器池。一般地,服务器系统接受对应用服务的请求,并向任意数量的客户端设备(例如,通过网络106向客户端设备102)提供这种服务。
26.根据本公开的实施方式,并且如上所述,服务器系统104可以托管(host)存储器内数据库系统(例如,sap hana)。在一些示例中,存储器内数据库系统是使用主存储器用于数据存储的数据库管理系统。在一些示例中,主存储器包括通过存储器总线与一个或多个处理器(例如,中央处理单元(central processing units,cpu))通信的随机访问存储器(random access memory,ram)。内存数据库可以与使用磁盘存储机制的数据库管理系统形成对比。在一些示例中,内存数据库比磁盘存储数据库更快,因为内部优化算法可以更简单并且执行更少的cpu指令(例如,需要减少的cpu消耗)。在一些示例中,访问内存数据库中的数据消除了查询数据时的查找时间,这比磁盘存储数据库提供了更快且更可预测的性能。
27.根据本公开的实施方式,用于存储器内系统的自动管理和监控的存储器内系统自动引导平台在示例架构100内执行。例如,自动引导平台或其至少部分可以由服务器系统104托管。作为另一示例,自动引导平台或其至少部分可以由一个或多个其他服务器系统(图1中未示出)托管。
28.图2描绘了存储器内数据库系统的内部部署的示例概念架构200。在所描绘的示例中,概念架构200包括自动引导平台202,该自动引导平台202用于对内部环境204、云环境206和混合环境208的自动化管理和监控。在一些示例中,环境204、206、208中的每一个环境执行存储器内系统(例如,存储器内数据库系统)的一个或多个实例。在一些示例中,实例可以被描述为环境内的存储器内系统的实例。每个环境可以包括存储器内系统的多个实例。在一些实施方式中,自动引导平台202可以被配置用于对存储器内系统的自动管理和监控。在一些示例中,并且如在此进一步详细描述的,为每个存储器内系统提供配置。例如,配置设置可以由用户212(例如,管理员)通过计算设备210来提供。如这里所述,自动引导平台
202执行管理和监控,并且可以提供关于活动的报告(例如,被发送到计算设备210并在计算设备210上显示的报告)。
29.在图2的示例中,自动引导平台202包括配置220和模块222。配置包括代码分类224(例如,错误代码分类、警告代码分类、警报代码分类)、错误代码优先化226(例如,相对于第二错误代码优先化第一错误代码)、代码动作228、源位置维护(source location maintenance,slm)230、库设置232、用户和角色设置234、映射236(例如,fema映射、tsg映射)、启用/禁用设置238,以及频率设置240(例如,指示用于监控存储器内系统的频率的设置)。在一些示例中,每个代码可以被分类到分类中,该分类被记录在代码分类224中。示例分类包括但不限于持久性、备份、高可用性、灾难恢复、安全性和审计。在一些示例中,源位置维护230定义了要被访问以用于监控的数据源。示例数据包括但不限于跟踪、日志、警报和遥测数据。例如,源位置维护230可以包括标识用于从中读取数据的相应文件(例如,日志文件)的统一资源定位符(uniform resource locator,url)。
30.在图2的示例中,模块222包括检测模块250、干预模块252、鉴定模块254、理解模块256、补救模块258、回填模块260、学习模块262、即兴模块264和报告模块266。尽管模块222被描绘为单独的模块,但是可以考虑这些模块可以以任何适当的组合来提供。例如,干预模块252、鉴定模块254、理解模块256和补救模块258可以各自作为检测模块250的子模块来提供。
31.在一些实施方式中,在配置220中为每个存储器内系统提供配置。对于存储器内系统的每个实例,自动引导平台202应用相应的配置以用于自动管理和监控。例如,用户212可以向计算设备210提供输入,该输入定义将被应用于相应存储器内系统的实例的配置设置。在一些示例中,可以为每个存储器内系统分配与要被应用于存储器内系统的配置相关联的通用唯一标识符(universally unique identifier,uuid)。以这种方式,在环境204、206、208之一内的存储器内系统的实例的实例化时,可以基于uuid检索配置,以用于对存储器内系统的实例的自动管理和监控。
32.响应于存储器内系统的实例化,自动引导平台202开始对内存平台的实例的监控。例如,检测模块250从存储器内系统接收数据,确定要解决的问题是否已经发生,如果已经发生,则实施对问题的解决方案。
33.图3描绘了可以根据本公开的实施方式来执行的示例过程300。在一些示例中,使用由一个或多个计算设备执行的一个或多个计算机可执行程序来提供示例过程300。例如,示例过程300的至少部分由检测模块250执行。
34.读取配置设置(302)。例如,检测模块250读取配置220的至少部分,诸如指示数据源的源位置维护230,该数据源中存储了表示存储器内系统的操作的数据。接收数据(304)。例如,检测模块250从源位置维护230中指示的数据源检索一个或多个文件。示例数据包括但不限于跟踪、日志、警报和遥测数据。查找停止字(306)。例如,检测模块250处理数据以识别被映射到一个或多个消息代码(例如,错误代码、警告代码、警报代码)的一个或多个停止字。这包括配置220中提供的消息代码。
35.提供经鉴定的停止字以触发动作(310)。在一些示例中,检测模块250识别消息代码内的经鉴定的停止字,并提供经鉴定的停止字来发起动作(例如,补救)。确定停止字是否与预定义的错误代码相关联(312)。如果停止字不与预定义的错误代码相关联,则确定已经
发生了不与经鉴定的停止字相关联的问题314。确定该问题是否可解决(316)。例如,并且如本文进一步详细描述的,确定是否已经提供了一个或多个解决方案来解决该问题。如果问题不可解决,则触发支持单(318)。在一些示例中,错误代码作为支持单的内容被提供。如果问题可解决,则识别解决方案集(320),并且从该解决方案集中选择一个解决方案并执行该解决方案(322)。
36.在一些实施方式中,为经鉴定的错误代码提供解决方案。在一些示例中,经鉴定的错误代码是对于其已经存在至少一个解决方案的错误代码。在一些示例中,错误代码用于查询和搜索已知的(例如,在fema和/或tsg中可用的)解决方案。在一些示例中,如果识别到多个解决方案,则从所述多个解决方案中选择最适合的解决方案。在一些示例中,可以基于与每个解决方案相关联的日期和/或每个解决方案的使用频率,将某个解决方案区分为最适合的解决方案。在一些示例中,更新的、更频繁使用的解决方案被确定为最适合的解决方案。
37.图4描绘了可以根据本公开的实施方式来执行的示例过程400。在一些示例中,使用由一个或多个计算设备执行的一个或多个计算机可执行程序来提供示例过程400。例如,示例过程400的至少部分由检测模块250(和/或鉴定模块254)执行。
38.读取配置设置(402)。例如,检测模块250读取配置220的至少部分,诸如将错误代码映射到解决方案库中的解决方案的映射234。确定一个或多个经鉴定的错误代码规则(404)。例如,从映射中确定一个或多个经鉴定的错误代码规则。对于每个错误代码,确定与该错误代码相关联的解决方案(406)。例如,错误代码(或唯一标识错误代码的标识符)可以用于索引解决方案列表,每个解决方案与一个或多个错误代码相关联。如果为错误代码提供了单个解决方案,则该解决方案被实例化以解决该错误代码代表的问题。如果提供了多个解决方案,则每个解决方案的频率被确定为相应的权重(408)。在一些示例中,频率指示过去已经使用该解决方案的次数。在一些示例中,如果多个解决方案每个都具有最高频率,则选择最近使用过的解决方案(410)。在一些示例中,选择具有最高频率的解决方案来解决错误代码代表的问题(412)。
39.在一些实施方式中,执行用于计划对解决方案的执行的(例如,由理解模块246执行的)理解过程。在一些示例中,提供了问题的严重性和解决方案要求集。严重性的范围可以从低严重性(例如,警告)到高严重性(例如,功能的停止)。在一些示例中,该解决方案要求集包括表示执行解决方案的一个或多个参数。示例参数可以包括但不限于,解决方案是否是热修复(例如,修复是在系统运行时实施的)、实现解决方案所需的停机时间、实施解决方案的版本要求等。基于该信息,计划对该解决方案的执行。在一些示例中,对解决方案的执行可以基于所需的停机时间,并且解决方案是针对存储器内系统的排定停机时间而计划的,该排定停机时间长于实施解决方案所需的停机时间。然而,严重性可以发挥作用。例如,如果问题是最严重的,可以立即实施解决方案,而不是等待以在存储器内系统的排定停机时间内发生。
40.图5描绘了可以根据本公开的实施方式来执行的示例过程500。在一些示例中,使用由一个或多个计算设备执行的一个或多个计算机可执行程序来提供示例过程500。例如,示例过程500的至少部分由检测模块250(和/或补救模块248)执行。
41.读取配置设置(502)。例如,检测模块250读取配置220的至少部分。准备解决方案
(504)。例如,安排所选解决方案以执行。应用该解决方案(506)。例如,在排定时间,适当地应用解决方案(例如,作为触发了错误的计算机可执行代码的热修复)。确定解决方案是否被成功应用(510)。如果解决方案未被成功应用,则确定尝试的次数n是否小于尝试的阈值次数n
thr
(512)。如果尝试的次数n小于尝试的阈值次数n
thr
,则示例过程500循环返回以进行另一次尝试。如果尝试的次数n小于尝试的阈值次数n
thr
,则准备支持单的内容,并提出支持单(514)。在一些示例中,支持单的内容可以包括但不限于错误代码、识别到的解决方案以及要应用解决方案的特定代码。在一些示例中,对支持单的提出包括将表示支持单的数据发送给负责所代表的问题的手动(或部分手动)解决方案的一个或多个管理员。如果解决方案被成功应用,则准备要更新和报告的状态(516)。例如,如果解决方案被成功应用,状态可以指示错误的解决方案和细节(例如,哪个解决方案被应用以及何时被应用)。如果解决方案未被成功应用,状态可以指示错误未解决,并提供其他详细信息(例如,哪个解决方案被尝试,但失败了)。更新跨平台的系统(518)。对系统的更新可以被称为回填。例如,如果解决方案成功,则解决方案的频率计数可以增加。如果所应用的解决方案是新的(例如,以前未被使用过),则如这里进一步详细描述的执行回填过程以更新fema/tsg,并通知其他系统相应错误的解决方案的可用性。此外,如果解决方案失败,可以相应地更新系统。
42.在一些实施方式中,可以自动地执行解决方案(即,无需人工干预)。在一些实施方式中,解决方案可以是部分自动化的(例如,解决方案的一个或多个任务在没有人工干预的情况下被自动执行)。在一些实施方式中,可以基于指派给用户的一个或多个任务来手动地执行解决方案。例如,对于解决方案的手动执行,可以在ui中向用户显示要执行的一个或多个任务。以这种方式,向用户提供关于解决问题所要执行的动作的指令。
43.表1提供了示例错误和相对应的解决方案:
[0044][0045][0046]
表1:示例错误和解决方案
[0047]
在一些实施方式中,回填包括更新平台以说明对解决方案的应用(无论成功还是不成功)。简而言之,回填更新各种平台系统,以说明和反映所应用的解决方案。在一些示例中,图2的回填模块260执行回填过程的至少部分。例如,在对解决方案的应用之后接收状态数据。在一些示例中,状态数据包括但不限于表示错误的数据、经受错误的组件(例如,软件、硬件)、所应用的解决方案(例如,特定补丁)、解决方案是否成功/不成功以及如果解决方案不成功的支持单数据(例如,发出时间、支持单发送至的(多个)接收者等)。
[0048]
在一些示例中,更新fema/tsg以说明对解决方案的应用。在一些示例中,更新可以包括添加或更新与解决方案相关联的解决方案数据,解决方案数据可以包括但不限于频率(例如,增加频率)、解决方案被成功应用的时间/日期(例如,对解决方案的最后一次成功应用)等。在一些示例中,如果解决方案是新的(即,先前未被应用),则更新fema/tsg以添加该解决方案(例如,无论成功还是不成功)。例如,可以添加解决方案数据,并且解决方案数据可以包括但不限于解决方案的标识符(例如,名称、唯一标识符)、频率(例如,等于1)、解决方案被成功应用的时间/日期(例如,对解决方案的最后一次成功应用)等。
[0049]
在一些示例中,一个或多个其他系统被通知该解决方案。例如,可以向一个或多个
管理员发送通知,指示该解决方案已经被添加到fema/tsg或在fema/tsg内被更新,并且可以提供相关的细节(例如,与该解决方案相关联的解决方案数据的至少部分)。以这种方式,保留在系统中的整体知识和系统的用户(例如,管理员)的知识被更新。
[0050]
在一些实施方式中,学习包括一个或多个学习算法(例如,一个或多个机器学习(machine

learning,ml)模型),所述一个或多个学习算法处理解决方案应用的实例(例如,是否成功),以提供可用于改善解决方案应用的将来实例和/或存储器内系统的整体性能的信息。在一些示例中,图2的学习模块262执行学习过程的至少部分。
[0051]
在一些示例中,可以执行学习来确定相应错误的最适配的解决方案。例如,学习算法(例如,ml模型)可以处理跨多个错误的多个解决方案的解决方案数据,以识别哪个解决方案在解决相应错误时最有效。作为非限制性示例,解决方案数据可以指示第一解决方案和第二解决方案各自被应用多次以解决错误。在该示例中,解决方案数据可以指示第一解决方案被应用了x次并且成功了y次(其中y≤x),并且对于每次应用,可以提供解决方案时间(例如,t
rt_x
={t1,t2,

,t
x
})。在一些示例中,每个解决方案时间是从应用解决方案到解决错误或到发出支持单所需的时间(例如,如果解决方案不能解决错误)。同样在该示例中,解决方案数据可以指示第二解决方案被应用了w次并且成功了z次的时间(其中z≤w),并且对于每次应用,可以提供解决方案时间(例如,t
rt_x
={t1,t2,

,t
w
})。学习算法可以接收第一解决方案和第二解决方案中的每一个解决方案的解决方案数据作为输入,并且为第一解决方案和第二解决方案中的每一个解决方案提供分数(例如,在0到1的范围内),该分数指示针对特定错误的相应解决方案的性能。作为非限制性示例,对于特定错误,第一解决方案可以获得0.9的分数,而第二解决方案可以获得0.85的分数,这指示对于特定错误,第一解决方案比第二解决方案表现得更好(例如,更常成功和/或具有最低解决方案时间)。以这种方式,响应于错误的将来发生,可以在开始时尝试第一解决方案。
[0052]
在一些示例中,(多个)学习算法可以处理错误和解决方案的实例,以识别前k个问题和/或后k个问题(例如,前10个、后10个),并且定期对问题进行重新排序。以这种方式,管理员可以意识到需要更多或更少关注的问题,并对存储器内系统应用更改,以主动地解决这些问题。例如,尽管在存储器内系统的特定实例中错误不会被触发,但是可以主动地应用补丁以避免将来对错误的触发。
[0053]
在一些实施方式中,(多个)学习算法可以处理解决方案数据和/或支持单数据,以在将来错误的发生时改善对解决方案的应用。例如,如这里所描述的,如果解决方案最初不起作用(例如,在成功之前做出了多次尝试,或者没有成功,并且发出了手动解决方案的支持单),则学习算法可以确定为什么最初没有成功,并且使用该信息改进在将来对解决方案的应用。作为非限制性示例,解决方案数据可以揭示解决方案被尝试多次而没有成功,并且发出了支持单,并且支持单数据可以揭示一个或多个参数的值没有被设置,管理员设置一个或多个参数的值,导致该解决方案的成功应用。为了将来对解决方案的应用,平台可以自动地设置参数值,以实现对解决方案的快速、成功的应用,并且避免触发支持单。
[0054]
在一些实施方式中,(多个)学习算法处理支持单数据,以跟踪支持单并识别管理员在解决错误时所应用的解决方案。在一些示例中,通过支持单过程应用的解决方案可以被集成到平台中,以用于将来自动应用。例如,对于特定的解决方案,(多个)学习算法可以识别解决方案被应用到的一个或多个错误,并且可以将解决方案集成到平台中,使得在(多
个)错误的将来发生时,可以自动地应用解决方案以解决(多个)错误,并且避免对支持单的发出。
[0055]
在一些实施方式中,(多个)学习算法可以处理错误数据(例如,错误代码、描述)以对相似的错误代码进行聚类。在一些示例中,一个或多个解决方案可以与聚类相关联,使得如果错误发生并且在聚类中,则可以应用与聚类相关联的解决方案。以这种方式,在错误还不具有与之相关联的解决方案的情况下,可以对该错误尝试与类似的错误相关联的解决方案。这可以避免为手动干预发出支持单的需要。
[0056]
在一些示例中,可以使用任何适当的聚类技术来执行聚类。示例聚类技术包括k

均值聚类。在一些示例中,基于一个或多个参数执行聚类。示例参数包括但不限于组件类型、功能区域、严重性和优先级。
[0057]
在一些实施方式中,(多个)学习算法可以处理错误数据和解决方案数据,以识别存储器内系统中需要更多关注的区域(例如,备份、恢复、监控)。这些可以包括比其他区域更频繁地看到错误的区域。以这种方式,可以识别到易损区域,管理员可以查看该区域并使该区域更稳定和/或主动解决问题。
[0058]
在一些示例中,在ui内显示的仪表板中以图形方式表示了收集到的关于错误的度量和在解决错误时的周转(turn

around)。在一些示例中,可以基于组件、具有子类别级和趋势的历史比较的功能区域来提供排序。这些信息被共享于开发,用于对即将到来的版本进行分析和主动开发修复,以避免将来的缺陷。这种监控是持续的过程。
[0059]
在一些实施方式中,即兴包括可以被执行以在平台中提供效率和/或提高解决方案可用性和应用的各种任务。在一些示例中,图2的即兴模块264执行即兴过程的至少部分。
[0060]
在一些示例中,即兴可以包括在平台内对解决方案的去重复。例如,可以通过定期识别特定组件上不同错误的相似的解决方案来执行去重复。在一些示例中,基于发生的被最少应用的修复被重新访问并与常用的修复合并,以避免在故障树中的重复无效的修复。
[0061]
在一些示例中,即兴可以包括识别错误的替代或替换解决方案(例如,根据fema/tsg提供的解决方案)。尽管多个错误代码是不同的,但是所代表的错误可以足够相似,即一个错误的解决方案也可以被应用于解决另一个错误(例如,不具有在fema/tsg中指示的解决方案的错误,具有所指示的解决方案、但是解决方案不如期望的有效的错误)。在一些示例中,如上参考学习所述,可以对错误进行聚类,使得被确定为足够相似的错误被包括在相同的聚类中。在一些示例中,每个聚类可以与解决方案集相关联,该解决方案集中的每个解决方案适用于聚类中的任何错误。在一些示例中,解决方案集包括与包括在聚类中的错误相关联的解决方案。在一些示例中,包括在聚类中的错误可以与相同的解决方案相关联。因此,可以在解决方案集中对解决方案进行去重复。在一些示例中,如果错误发生并且该错误包括在聚类中,则可以评估该解决方案集中的解决方案,并且可以选择解决方案来应用。在一些示例中,对解决方案的选择可以基于解决方案时间(例如,选择具有最短解决方案时间的解决方案)、解决方案资源(例如,消耗最少计算资源量来实施的解决方案)和/或解决方案功效(例如,在解决错误时具有最大成功机会的解决方案)。
[0062]
在一些示例中,即兴可以包括产品改进建议。例如,如上参考学习所述,存储器内系统内的一个或多个区域可以被识别为易损区域(例如,比其他区域更频繁地看到错误的区域)。在一些示例中,学习也可以提供错误的潜在原因。因此,本公开的平台可以(例如,向
管理员)发出识别易损区域和潜在原因的通知,这些通知可以在产品开发期间被考虑。例如,在存储器内系统内一个或多个软件模块的下一次迭代的产品周期期间,开发人员可以考虑这些通知,以减少后续版本中的错误的发生。
[0063]
在一些示例中,即兴可以包括主动建议,以避免错误的发生。例如,错误的发生会导致级联效应(例如,一个错误导致另一个错误)。如上所述,这种级联可以通过学习来确定,以识别相联的错误。在一些示例中,如果第一错误发生并且连接到第二错误,则可以生成警报,使得第二错误可以被避免(例如,可以在第二错误发生之前主动实施解决方案)。
[0064]
在一些示例中,即兴可以包括提供用于解决相应错误的预计解决方案时间的通知。例如,如上参考学习所讨论的,可以针对错误确定解决方案时间。在一些示例中,可以提供每个错误的估计解决方案时间(例如,作为对错误的解决方案的多个应用的解决方案时间的平均)。在一些示例中,即兴可以包括基于相应解决方案时间对相应错误的严重性的重新分类。例如,可以根据严重性对错误进行排序。在一些示例中,严重性可以基于错误的一个或多个特性。示例特性可以包括但不限于由错误导致的停机时间、受错误影响的计算资源量、受错误影响的系统的数量等。在一些示例中,可以确定严重性分数(例如,范围从0到1)。在一些实施方式中,可以基于与错误相关联的解决方案时间来调整错误的严重性分数。例如,权重可以基于解决方案时间来确定,并且可以被应用于严重性值。解决方案时间越高,权重越高。例如,对于相对低的解决方案时间,权重可以小于1,但大于0,并且对于相对高的解决方案时间,权重可以大于1,但小于某个最大值(例如,1.5)。
[0065]
在一些示例中,即兴可以包括触发对未解决的支持单的跟进。例如,平台可以跟踪已发出的支持单,直到错误被解决。在一些示例中,如果在特定时间段(例如,24小时)内支持单没有被处理,则向一个或多个管理员发送通知。以这种方式,支持单可以定期引起管理员的注意,以促进对潜在错误的解决并从所应用的解决方案中学习。
[0066]
在一些实施方式中,报告包括各种任务,用于但不限于报告错误的发生、由平台自动解决错误、由平台发出的支持单、由平台发出的建议(例如,在将来的产品开发中要解决的易损区域和潜在问题)、平台的更新(例如,向fema/tsg添加解决方案、更新fema/tsg内的解决方案)等。在一些示例中,如这里所述,图2的报告模块266执行报告的至少部分。
[0067]
现在参考图6,提供了示例计算系统600的示意图。系统600可以用于结合本文描述的实施方式所描述的操作。例如,系统600可以包括在本文所讨论的任何或所有服务器组件中。系统600包括处理器610、存储器620、存储设备630和输入/输出设备640。组件610、620、630、640使用系统总线650互连。处理器610能够处理指令,以在系统600内执行。在一些实施方式中,处理器610是单线程处理器。在一些实施方式中,处理器610是多线程处理器。处理器610能够处理存储在存储器620或存储设备630中的指令,以在输入/输出设备640上显示用户界面的图形信息。
[0068]
存储器620存储系统600内的信息。在一些实施方式中,存储器620是计算机可读介质。在一些实施方式中,存储器620是易失性存储单元。在一些实施方式中,存储器620是非易失性存储单元。存储设备630能够为系统600提供大容量存储。在一些实施方式中,存储设备630是计算机可读介质。在一些实施方式中,存储设备630可以是软盘设备、硬盘设备、光盘设备或磁带设备。输入/输出设备640为系统600提供输入/输出操作。在一些实施方式中,输入/输出设备640包括键盘和/或定点设备。在一些实施方式中,输入/输出设备640包括用
于显示图形用户界面的显示单元。
[0069]
所描述的特征可以在数字电子电路中实现,或者在计算机硬件、固件、软件或它们的组合中实现。装置可以在有形地包含在信息载体中(例如,在机器可读存储设备中,以由可编程处理器执行)的计算机程序产品中实现,并且方法步骤可以由可编程处理器执行,该可编程处理器执行指令程序,以通过对输入数据进行操作并生成输出来执行所描述的实施方式的功能。所描述的特征可以有利地在可在可编程系统上执行的一个或多个计算机程序中实现,该可编程系统包括至少一个可编程处理器,该可编程处理器被耦合以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向数据存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。计算机程序是可以在计算机中直接或间接用来执行某个活动或产生某个结果的指令集。计算机程序可以用任何形式的编程语言(包括编译或解释语言)编写,并且计算机程序可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。
[0070]
例如,用于执行指令程序的合适的处理器包括例如通用和专用微处理器两者,以及任何类型计算机的单个处理器或多个处理器之一。一般地,处理器将从只读存储器或随机访问存储器或者两者接收指令和数据。计算机的元件可以包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般地,计算机还可以包括用于存储数据文件的一个或多个大容量存储设备,或可操作地耦合到用于存储数据文件的一个或多个大容量存储设备以与一个或多个大容量存储设备通信;这样的设备包括磁盘(诸如内部硬盘和可移动磁盘)、磁光盘、和光盘。适用于有形地包含计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,例如,包括例如半导体存储器设备(诸如eprom、eeprom和闪存设备)、磁盘(诸如内部硬盘和可移动磁盘)、磁光盘、以及cd

rom和dvd

rom盘。处理器和存储器可以由专用集成电路(application

specific integrated circuit,asic)补充或并入专用集成电路(asic)中。
[0071]
为了提供与用户的交互,这些特征可以在计算机上实现,该计算机具有用于向用户显示信息的显示设备(诸如阴极射线管(crt)或液晶显示器(lcd))以及键盘和定点设备(诸如鼠标或轨迹球),用户可以通过键盘和定点设备向计算机提供输入。
[0072]
特征可以在计算机系统中实现,计算机系统包括后端组件(诸如数据服务器),或包括中间件组件(诸如应用服务器或互联网服务器),或包括前端组件(诸如具有图形用户界面或互联网浏览器的客户端计算机),或者它们的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(诸如通信网络)来连接。例如,通信网络的示例包括lan、wan以及形成互联网的计算机和网络。
[0073]
计算机系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过诸如所描述的网络进行交互。客户端和服务器的关系是通过运行在相应计算机上并且彼此具有客户端

服务器关系的计算机程序产生的。
[0074]
此外,图中所描绘的逻辑流程不需要所示的特定次序或顺序来实现期望的结果。此外,可以向所描述的流程中提供其他步骤,或者可以从所描述的流程中取消步骤,并且可以向所描述的系统添加其他组件,或者从所描述的系统中移除其他组件。因此,其他实施方式在所附权利要求的范围内。
[0075]
已经描述了本公开的多种实施方式。然而,应当理解,在不脱离本公开的精神和范
围的情况下,可以进行各种修改。因此,其他实施方式在所附权利要求的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1