用于监测系统性能和可用性的系统和方法_4

文档序号：9713913阅读：来源：国知局

直到预期将遇到致命错误(或其它类型的错误)的估计的时间，和/或当性能参数(系统范围性能参数和/或针对多元件系统102的特定方面或多个方面的性能参数)被预期为下降到在希望的、要求的或以其他方式预定的阈值之下时的估计的时间。
[0038]建模模块118被配置为开发一个或多个模型以用于以下中的一个或多个:确定多元件系统102的一个或多个方面的状态(例如，性能参数、预期寿命、或健康状况的其它测量)、或确定给定状态已经出现了多长时间。所确定的状态可以对应于以下中的一个或多个:整个多元件系统102、多元件系统102的元件组、或多元件系统102的特定方面或部分。模型也可以用于识别感兴趣的特征(例如，可以用作模型的输入的操作信息的部分或方面)，该感兴趣的特征可以用于确定多元件系统102或其一个或多个方面的状态或情况。例如，可以通过集合或融合技术来组合多个模型。在各种实施例中，历史数据和/或参数的运行总数可以用于开发或修改模型。在一些实施例中，机器学习可以用于开发一个或多个模型。在各种实施例中，物理诊断信息或计算机信息中的一者或两者可以用于评价状态。在各种实施例中，系统范围信息和关于系统的特定方面或多个方面的信息两者可以用作针对用于确定状态的模型的输入。
[0039]在各种实施例中，建模过程可以被理解为包括多个步骤。例如，可以通过生成数据、提取感兴趣的特征、以及然后设计分类器(或识别器)来开发模型。在各种实施例中，数据的生成可以包括:收集数据以及将该数据关联于由系统执行的已知过程(或保存用于关联于将被执行的随后识别的过程的数据)。可以针对正常和/或恶意过程来收集数据。然后可以分析数据以确定可以用于建立模型以识别特定过程(或与过程相关联的状态)的一个或多个特征或参数。与数据相关联的统计描述符和/或形状可以用于识别和/或提取特征。然后可以选择特征以用于与一个或多个模型结合使用。例如，结合模型的构建，可以选择被观察到针对各种过程相异的特征，而可以丢弃针对各种过程不倾向于相异的特征。模型可以被设计以使得所选择的特征可以用于提供用于区分过程的输出(签名、图表、图或诸如此类)，针对该过程而言已经生成了数据。在一些实施例中，模型可以是基于系统的已知属性的基于物理的模型。另外或可替代地，可以使用数据驱动的模型。
[0040]例如，在各种实施例中，可以收集并分析数据集以确定在一个或多个类型的数据与预期的故障、错误或诸如此类中的一个或多个之间的关系和/或性能参数。例如，数据集或日志可以被挖掘以识别在估测即将发生的故障、即将发生的服务质量降级或诸如此类中有用的数据。作为一个示例，可以使用例如网络服务代理框架来收集由各种网络服务质量(QWS)测量值组成的网络服务数据集。所收集的服务质量(Q0S)信息的类型可以包括:例如，除了别的之外，响应时间、可用性、吞吐量、成功性(successabi Iity)、可靠性、兼容性、最佳实践、延迟、或文档。各种属性可以基于整体质量评分被加权或归一化以生成服务分类。在各种实施例中，网络服务日志作为无监督式机器学习过程的一部分可以与提供“自然分组”的数据结合使用，该“自然分组”可以被识别以对数据进行分类。
[0041]例如，所选择的属性的直方图轮廓可以被分析以理解跨域网络服务的属性值景观。在各种实施例中，主成分分析(例如，通过特征值分解的数据的正交变换)可以被采用以提供具有最高方差的维度或变量，其可以用于探索数据(例如，形象化地)。在各种实施例中，可以使用无监督式机器学习技术。例如，可以使用k均值聚类算法。
[0042]作为另一个示例，在各种实施例中，可以生成高执行计算机环境(例如，被配置为提供云服务的环境)的服务日志。在一些实施例中，可以利用一个或多个日志(诸如可靠性、可用性、可服务性(RAS)日志、工作日志或诸如此类)以收集用于建立和/或使用模型的数据。例如，RAS日志可以提供关于在高执行计算机环境中出现的值得注意的事件的信息，以及工作日志可以提供应用层信息以进一步探究特定问题的根本原因分析，以及/或可以帮助在软件和硬件故障之间进行区分。此外，例如，结合RAS日志的工作日志的使用在过滤掉冗余条目中可能是有用的。一般地，在各种实施例中，日志的特征或条目可以被识别，以便在各种实施例中可以使用关于在前错误的信息来预测致命事件(诸如，应用崩溃、硬件崩溃或严重的服务丢失)。
[0043]为了基于在前的日志条目来预测致命错误，在各种实施例中，可以利用基于支持向量机(SVM)的分类器。例如，可以从RAS日志提取有关信息。日志可以被解析成例如在某一时间处的一行以提取不同字段的值。针对每个RAS字段的每个唯一值，可以生成唯一代码索弓I。使用该索引，RAS日志然后可以被转换成具有与被转换为索引条目的每个字段相关联的实际字的码书。为了确定是否可以基于在前行来预测给定类型的错误(例如致命的错误)，可以分析在每个致命错误前面的日志条目的固定窗口以创建特征向量。例如，描述行的集合的窗口可以基于固定数量的行、固定时间窗口、或诸如此类。作为一个示例，500行的固定窗口可以描述日志块。
[0044]在各种实施例中，关键字(其由码书中的索引条目来表示)可以用作特征以分类长条目的在前块是表示导致致命错误的块还是导致非致命错误的块。关键字条目可以用于创建针对日志条目的不同块的特征向量。特征向量可以被理解为在日志条目的固定长度块中出现的关键字的直方图。针对致命块，具有等于“致命”的严重性字段的所有属性可以被考虑并且与在致命事件之前的日志条目用于生成特征向量。针对非致命条目，没有等于“致命”的严重性字段的日志中的条目可以被考虑并且用于生成属于非致命事件的特征向量。然后，所生成的特征向量可以与监督式学习技术(例如与基于SVM的分类器)结合使用。
[0045]图2提供了根据实施例的用于开发用于使用系统范围操作信息来分析或评价系统的将来健康状况的模型的方法200的流程图。将被分析的系统可以包括:由至少一个公共通信链路连接的多个功能系统或子系统。在各种实施例中，方法200例如可以利用本申请中论述的各种实施例(例如，系统和/或方法)的结构或方面。在各种实施例中，可以省略或增加某些步骤，可以组合某些步骤，可以同时执行某些步骤，可以并发地执行某些步骤，某些步骤可以被分成多个步骤，可以以不同的顺序来执行某些步骤，或可以以迭代的方式来重新执行某些步骤或一连串的步骤。
[0046]在202，获得日志或其它数据或信息。所收集的数据例如可以包括:由各种功能系统或子系统使用的通信链路或系统的一个或多个日志。此外，所收集的数据也可以包括:针对特定功能系统或子系统的操作信息。
[0047]在204处，在202处获得或收集的操作信息被分组。例如，日志可以被解析以及基于公共特征或关键字被分解成组。例如，日志可以被分成具有预定数量的行的块，以及基于在该块内特征和/或关键字的出现，直方图可以用于描述块。
[0048]在206处，选择代表性的日志。例如，在获得了在204处通过分组获得的块后(例如，基于如使用例如特征或关键字的直方图所确定的相似性，块被分组在一起)，可以选择并分析来自每个组的预定数量的块。
[0049]在208处，分析所选择的日志。例如，可以分析代表性的块以确定哪些代表性的块包括致命错误和/或包括致命错误的在前块(和/或依据给定数量的行或时间量的包括致命错误的在前块)。然后，在210处可以基于来自每个组的代表性块是对应于致命错误还是对应于非致命错误来构建关联块的组的模型。在各种实施例中，可以使用机器学习技术来执行操作信息的分组、代表性日志的选择、和/或所选择的日志的分析。在一些实施例中，可以使用监督式机器学习技术，而在其它实施例中，可以使用无监督式机器学习技术。使用所构建的模型，可以使用随后获得的操作信息利用该模型来确定将来健康状况。在各种实施例中，可以针对给定系统或多个系统随着时间来修改该模型以利用另外获得的数据、调节针对系统的改变、或诸如此类。
[0050]参照图1，所描绘的分析模块120被配置为使用一个或多个模型连同所获得的操作信息(例如，经由系统分析模块112获得的操作信息)以确定多元件系统102的一个或多个方面的将来健康状况。例如，分析模块120可以被配置为使用基于对应于操作信息的历史信息的模型来确定多个元件中的至少一个元件的将来健康状况，该操作信息对应于多元件系统102的系统范围操作。可替代地或另外，分析模块120可以被配置为使用对应于元件中的不同的一个或多个元件的操作信息来确定多个元件中的至少一个元件的将来健康状况。另夕卜，在各种实施例中，分析模块120可以被配置为确定针对整个多元件系统102的将来健康状况。将来健康状况可以对应于预期寿命或有用的服务时间，例如在预期的致命错误之前的寿命或有用的服务时间。
[0051]在各种实施例中，将来健康状况可以对应于系统范围性能参数的性能的阈值。例如，预期寿命或使用寿命可以对应于在系统范围性能参数下降到低于阈值之前的预期的时间量。例如，多元件系统102可以被配置为医疗保健系统，该医疗保健系统被配置为获得对应于患者的一个或多个生理参数的信息以及基于该信息来提供显示。可以通过一个或多个功能系统150来获得该信息，一个或多个功能系统150被配置为:除了别的之外，传感器、检测器或成像系统。显示可以对应于患者的至少一个状态，以及可以经由显示系统170来提供，该显示系统170被配置为由从业人员使用的工作站。系统范围性能参数可以是皮肤至屏幕测量，皮肤至屏幕测量对应于时间量，该时间量从对应于一个或多个生理参数的信息的收集(例如，经由一个或多个功能系统150的收集)到基于在给定时间处收集的信息的对应显示的提供(例如经由显示系统170)。
[0052]图3示出了根据各种实施例的系统范围性能参数的示例。在图3中，系统范围性能参数被描述为皮肤至屏幕延迟300;然而，另外或可替代地，在各种实施例中，可以使用其它性能参数。在所说明的实施例中，皮肤至屏幕延迟300包括各种组件延迟。即，所描绘的皮肤至屏幕延迟300包括:获取延迟310、第一联网延迟320、私有云延迟330、第二联网延迟340、以及查看延迟350。因此，从来自患者的特定信息或特定数据集的获取的初始时间到对应于在初始时

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6