用于分布式系统中的故障分析的视觉工具的制作方法

文档序号：19043001发布日期：2019-11-05 23:20阅读：174来源：国知局

分布式计算技术已经使得多个计算资源能够提供协调且不同的方案。分布式计算的一个例子是云计算，其将多个系统联合在一起来为用户需求提供解决方案。云计算可以跨越大量的计算资源。在云计算应用和服务中使用的计算资源跨网络和位置分散。分散的计算资源被远程地控制和管理。通常，人工方案为云计算资产提供安装和配置支持。借助于广泛分散的计算资源的人工组件的人工安装方案是不具成本效益的。

用于云计算系统的传统错误监视方案具有限制。云计算系统的个体组件本地监视与健康相关的度量。由监视过程产生的信息通常在本地消费。基于该信息的任何动作是在本地尝试的，且可以在本地记录或丢弃动作的结果。

技术实现要素：

提供该“发明内容”是为了以简化形式介绍在下文的“具体实施方式”中进一步描述的概念的选集。该“发明内容”并不意图排他地标识所要求保护主题的关键特征或必要特征，且也不打算帮助确定所要求保护主题的范围。

实施例涉及提供用于分布式系统中的故障分析的视觉工具。在一些示例性实施例中，基于云的服务的管理应用可以汇总来自与基于云的服务相关联的综合测量和使用数据的错误。使用数据可以包括与基于云的服务的使用场景相关联的顾客动作的输出。综合测量可以包括对所述顾客动作的模拟的输出。管理应用可以处理所述错误以创建基于所述基于云的服务的组件来对所述错误进行分割的分布。可以对故障组件进行突出显示(highlight)，其中所述故障组件是所述组件之一，所述故障组件产生所述错误中的与故障相关联的一个子集。可以以可视化提供分布，从而通过借助于在所述故障组件附近的故障信息对所述故障组件进行强调来标识所述故障。

通过阅读下文的具体实施方式并且审阅相关联附图，这些和其它特征和优点将成为显而易见的。可以理解的是，上文的发明内容和下文的具体实施方式都是示例性的，并不限制所要求保护的各方面。

附图说明

图1是示出根据实施例的提供用于分布式系统中的故障分析的视觉工具的方案的组件的概念图；

图2示出了根据实施例的提供分布式系统中的故障分析的分布的可视化的例子；

图3示出了根据实施例的提供分布式系统中的故障分析的分布的可视化的另一例子；

图4示出了根据实施例的提供分布式系统中的故障分析的分布的可视化的另一例子；

图5是简化的联网环境，其中可以实现根据实施例的系统；

图6示出了通用计算设备，其可以被配置为提供用于分布式系统中故障分析的视觉工具；以及

图7示出了根据实施例的提供用于分布式系统中故障分析的视觉工具的过程的逻辑流程图。

具体实施方式

如上所简述的，用于分布式系统中的故障分析的视觉工具可以由管理应用提供。来自与基于云的服务相关联的综合测量和使用数据的错误可以由管理应用汇总。可以处理所述错误以创建基于所述基于云的服务的组件来对错误进行分割的分布。可以对故障组件进行突出显示，其中故障组件是组件之一，所述故障组件产生所述错误中的与故障相关联的一个子集。可以以可视化提供分布，从而通过借助于在故障组件附近的故障信息对故障组件进行强调来标识故障。

在下文的具体实施方式中，参考形成其一部分的附图，并且特定实施例或例子在附图中中通过图示示出。在不背离本公开的精神和范围的前提下，可以组合这些方面，可以使用其它方面，并且可以进行结构改变。因此，下文的具体实施方式不应被理解成是限制性的，并且本发明的范围由随附权利要求及其等同物来限定。

虽然将在结合在计算设备的操作系统上运行的应用程序执行的程序模块的一般上下文中描述实施例，但是本领域技术人员将认识到，各方面还可以与其它程序模块组合地实现。

一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构以及其它类型的结构。此外，本领域技术人员将理解的是，可以通过其它计算机系统配置来实践实施例，所述配置包括手持设备、多处理器系统、基于微处理器或可编程的消费者电子器件、微型计算机、大型计算机以及类似计算设备。实施例还可以在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。

实施例可以实现为计算机实现过程(方法)、计算系统、或制品例如计算机程序产品或计算机可读介质。计算机程序产品可以是计算机系统可读的计算机存储介质，并且编码有包括用于使得计算机或计算系统执行示例性过程的指令的计算机程序。计算机可读存储介质是计算机可读存储器设备。计算机可读存储介质例如可以经由易失性计算机存储器、非易失性存储器、硬盘驱动器和闪存驱动器中的一个或多个实现。

在该说明书通篇中，术语“平台”可以是软件和硬件组件的组合，以提供用于分布式系统中的故障分析的视觉工具。平台的例子包括但不限于：在多个服务器上执行的托管服务、在单个计算设备上执行的应用、以及可比较的系统。术语“服务器”一般指的是典型地在联网环境中执行一个或多个软件程序的计算设备。然而，服务器还可以实现为在一个或多个计算设备上执行的虚拟服务器(软件程序)，其被视为是在网络上的服务器。可以在下文的描述中发现关于这些技术和示例性实施例的更多细节。

图1是示出根据实施例的提供用于分布式系统中的故障分析的视觉工具的方案的组件的概念图。

在图100中，基于云的服务104可以通过客户端设备118向顾客116提供服务。基于云的服务104可以是包括多个组件的分布式系统的例子，所述多个组件进行交互以提供一个或多个服务。基于云的服务104可以通过客户端设备118处的客户端接口来提供扩展性的服务。服务可以包括文档共享、电子邮件服务、存储服务等等。另外，顾客116(被授权与客户端设备118进行交互的)可以是包括一个人、多个人、一组人、组织等等的实体。

基于云的服务104可以是分布式应用，其通过一个或多个计算设备提供服务，所述一个或多个计算设备执行分布式应用的一个或多个组件。一个或多个计算设备可以通过使用有线或无线基础设施的一个或多个网络进行连接。基于云的服务104的例子可以包括电子邮件服务。电子邮件服务可以托管于多个计算设备中。可以基于每个计算设备的可用处理能力在计算设备之间划分电子邮件服务。可以通过提供目录功能、联网功能、邮箱功能等的多个组件来提供电子邮件服务。

在另一示例性场景中，基于云的服务104可以包括文档共享服务。文档共享服务可以基于每个计算设备的可用存储容量将所存储的文档跨多个计算设备分布。可以通过提供目录功能、联网功能、文档托管功能等的多个组件来提供文档共享服务。基于云的服务104的作为电子邮件服务和文档共享服务的例子并不是在限制性的意义上提供的。基于云的服务104可以包括任意分布式计算解决方案，其为一个或多个顾客(例如，顾客116)提供服务。

顾客116可以被允许通过客户端设备118与基于云的服务104进行交互。客户端设备118可以包括多个计算设备，例如台式计算机、智能手机、笔记本计算机、平板计算机等。顾客116可以通过客户端设备118所提供的基于云的服务104的客户端接口与基于云的服务104交互。或者，基于云的服务104可以提供客户端接口，并且客户端设备118可以在客户端应用中呈现客户端接口。顾客116可以通过多个输入模态与客户端接口交互，所述输入模态可以包括基于触摸的动作114、基于键盘的输入、基于鼠标的输入等。基于触摸的动作114可以包括多种手势，例如，触摸动作、滑动动作等。

管理应用102可以分析综合测量108和使用数据110，以确定与基于云的服务104的组件106相关联的故障。管理应用102可以是基于云的服务104的另一组件。或者，管理应用可以是独立的应用，其提供与分布式系统(例如基于云的服务104)相关联的分析服务。

使用数据110可以包括与基于云的服务104的使用场景相关联的顾客动作的输出。顾客动作的例子可以包括顾客116发起关于基于云的服务104的认证方案，以及与基于云的服务104的客户端接口进行交互。在作为基于云的服务104的例子的电子邮件服务中，顾客动作的例子可以包括顾客116在客户端接口中进行认证、取回电子邮件、以及与电子邮件交互。在作为基于云的服务104的例子的文档共享服务中，顾客动作的例子可以包括顾客116借助于客户端接口进行认证、取回文档、以及与文档交互。

综合测量108可以包括对顾客动作的模拟的输出。可以从来自基于云的服务104的组件或客户端设备(例如，捕捉用户场景的测量的客户端设备118)的日志文件中取回使用数据110。可以由管理应用102执行综合测量108，以通过对与模拟使用场景相关联的故障进行检测来确定基于云的服务104的健康。可以解析使用数据110和综合测量108的输出，以检测与基于云的服务的组件(例如，组件106)相关联的错误107。组件106可以包括硬件组件，例如，服务器、网络设备、处理器、存储器、存储设备，等等。

从综合测量108和使用数据110检测到的错误107可以被汇总。错误107可以基于标准来汇总，所述标准包括错误类型、基于云的服务104的关联组件的标识、关联组件的类型等。可以处理错误107以创建分布112，其基于所述基于云的服务104的组件来对错误107进行分割。在示例性场景中，与组件106相关联的错误107可以用于创建分布的一个片段(segment)。

故障组件可以被突出显示，例如产生与故障109相关联的错误107的子集的组件106。可以通过将子集的数量除以错误107的数量来计算错误107的与故障组件相关联的子集的百分比，来标识故障。可以借助于包括下列各项的图形方案，来对分布112的与故障109相关联的片段进行突出显示：着色方案、将该片段与在分布112中的类似项目相区分的背景变化、应用于该片段的动画、线条尺寸增加、或片段变化(例如，线条颜色变化和虚线类型改变)等。

分布112可以呈现在客户端设备118上显示的客户端接口处。分布112可以以可视化来呈现，例如直方图、饼状图、图表等。管理应用可以提供分布112来对故障组件附近的故障信息进行强调，以标识故障109。可视化可以包括在网页中作为管理应用102的用户接口(UI)来显示的分布112。分布112可以包括在一个时间段期间由管理应用102处理的错误107，以标识与组件106相关联的故障109。

除了提供用于基于云的服务104的故障分析的视觉工具外，管理应用102还可以配置为提供用于其它基于云的服务的故障分析的视觉工具。管理应用102可以配置为在UI的不同呈现中显示用于其它基于云的服务的视觉工具。替代地，管理应用102可以提供用于对在基于云的服务104和其它基于云的服务之间的故障分析进行整合的特征。

虽然已经通过包括基于云的服务104和分布112的特定组件描述了图1中的示例性系统，但是实施例不限于这些组件或系统配置，并可以通过采用更少的或额外的组件的其它系统配置进行实现。

图2示出了根据实施例的提供分布式系统中的故障分析的分布的可视化的例子。

在图200中，可以描述提供用于基于云的服务中的故障分析的视觉工具的分布202。管理应用可以根据在基于云的服务的综合测量和使用数据的输出中标识出的错误来产生分布202。通过移除顾客标识数据(例如，顾客的IP地址等)，可以在处理之前对使用数据进行匿名化。可以基于与组件的关联将错误分成组。可以根据如分布202的组创建直方图。每个组可以表示为分布202的片段。

根据一些实施例，可以对片段的百分比值与阈值204进行比较。可以通过用所述错误的数量来除在片段之一(例如，片段206)中的错误数量，并将结果值乘以100，来计算百分比值。响应于确定出百分比值超过阈值204，可以将与片段206相关联的故障组件标识为故障源。另外，可以通过利益相关者(例如，基于云的服务的管理员或管理故障组件的团队的成员)来配置阈值204。利益相关者可以被允许增加或减少阈值204的值，以减少或增加管理应用对基于云的服务的故障进行检测的灵敏度。

图3示出了根据实施例的提供分布式系统中的故障分析的分布的可视化的另一例子。

在图300中，管理应用可以提供在基于云的系统中的故障分析。可以根据基于云的服务的综合测量和使用数据的输出，来产生分布302。可以分析输出数据，来检测与基于云的服务的组件相关联的错误。可以解析并处理错误，以基于在错误和组件之间的关联来产生分布302的片段。

根据一些实施例，管理应用可以提供可视化(visualization)，该可视化包括分布302。可视化可以包括在管理应用的UI处呈现的网页。分布302可以标识基于云的服务的故障组件。可以基于所述错误的与超过阈值304的故障组件相关联的子集来检测故障组件306。

可以通过包括与由故障组件306产生的所述错误的子集相关联的时间段，用故障信息来突出显示故障组件306。错误的类型可被标记，以向分布302的利益相关者描述所述错误。错误的类型可以包括错误类型1(310)或错误类型2(312)。可以基于与利益相关者的相关度的标准来对错误类型进行排序(sort)。例子可以包括标记为错误类型1(310)的网络中断错误(network outage error)。网络中断错误对于与故障组件306相关联的网络团队可能具有较高的价值。错误类型2(312)(例如，存储子系统输入/输出(I/O)错误)对于网络团队可能具有较低的相关度。结果，错误类型2(312)可以被放置在错误类型1(310)之下。

管理应用还可以标识分布302中的相关组件308。可以基于包括共享连接、共享数据资源、共享操作等的关系，来检测与故障组件306相关联的相关组件308。可以基于诸如错误类型等标准，来划分与相关组件308相关联的错误。基于与故障组件306的错误相类似的错误类型，可以基于与利益相关者的相关度来对错误进行排序(rank)和放置(place)。基于错误类型1(314)对于利益相关者的相关度高于错误类型2(316)对于利益相关者的相关度，错误类型1(314)可以放置在错误类型2(316)之上。

可以基于由相关组件产生的相关联的错误百分比来对相关组件308和其它相关组件进行排序。可以基于所述相关联的百分比在分布302内将相关组件放置在故障组件附近，以突出显示受故障影响的相关组件。可以将具有比其它相关组件更高的错误百分比的相关组件308放置在故障组件306旁边。可以基于相关联的错误百分比，将其它相关组件放置在相邻的位置。可以将具有比相关组件308更低的错误百分比的另一相关组件放置在相关组件308旁边但是不与故障组件306相邻。可以将相关组件放置在故障组件306附近，以向利益相关者强调，所述相关组件可能需要连同故障组件306一起考虑。

另外，可以在分布中放置其它组件318。其它组件318可能产生错误。可以将该错误划分为可被标记为例如错误类型3(320)的错误类型。其它组件318可能与故障组件306不相关。其它组件318可能产生错误，但不足以超过阈值304以至于有必要强调。

图4示出了根据实施例的提供分布式系统中的故障分析的分布的可视化的另一例子。

在图400中，管理应用可以产生分布402以强调产生超过阈值404的错误的故障组件410。多于一个组件可能超过阈值404，并引起基于云的服务的故障。另外，相关组件408可以放置为与故障组件相邻，以引起对相关组件和由相关组件408产生的错误的注意。

根据一些实施例，可以由管理应用提供故障信息412来强调故障组件410处的故障。故障信息412能够通过故障组件的标识、所述错误的与故障组件410相关联的子集的百分比、或分布402内所述子集的频率来标识故障组件410。故障信息412可以呈现为故障组件410附近的弹出窗格，如故障组件410内的文本，或作为类似方案。

可以通过认证方案检测利益相关者的访问权限(access privilege)。管理应用可以向基于云的服务的管理员(作为利益相关者)提供访问以查看与和基于云的服务的故障组件410、相关组件408以及其它组件相关联的错误相关联的粒化信息(granular information)。管理应用还可以为管理故障组件410的团队的成员(作为利益相关者)提供访问以查看与和基于云的服务的故障组件410以及相关组件408相关联的错误相关联的粒化信息。可以将对与基于云的服务的其它组件相关联的错误的访问限制于或约束于管理故障组件410的团队的成员。

用于分布式系统中的故障分析的视觉工具的技术效果可以是与基于个体组件的方案相比的对涵盖了分布式系统和分布式系统的组件的错误分析的增强。

结合特定组件、数据类型和配置示出了在图2和图4中的示例性场景和方案。实施例并不限于根据这些示例性配置的系统。可以在应用和用户接口中采用更少或额外组件的配置中实现提供用于分布式系统中的故障分析的视觉工具。此外，可以以使用本文描述的原理的其它数值的类似的方式实现图2和图4中示出的示例性方案和组件及其子组件。

图5是可以实现实施例的联网环境的例子。可以经由通过一个或多个服务器514执行的软件(例如，托管服务)实现配置为提供用于分布式系统中的故障分析的视觉工具的管理应用。平台可以与个体计算设备上的客户端应用通过网络510进行通信，所述个体计算设备例如是智能手机513、膝上型计算机512或台式计算机511(“客户端设备”)。

在客户端设备511-513中任一个上执行的客户端应用可以促进经由在多个服务器514上或在个体服务器516上执行的应用的通信。管理应用可以处理来自基于云的服务的综合测量和使用数据的错误，以创建基于所述基于云的服务的组件来对错误进行分割的分布。可以在分布中对发生故障的一个或多个组件进行突出显示，并通过可视化提供。管理应用可以直接地或经由数据库服务器518，将与分布相关联的数据存储在数据存储519中。

网络510可以包括服务器、客户端、互联网服务提供商和通信介质的任意的拓扑。根据实施例的系统可以具有静态或动态拓扑。网络510可以包括安全网络(例如企业网络)、不安全网络(例如无线开放式网络)或互联网。网络510还可以通过其它网络(例如，公共交换电话网络(PSTN)或蜂窝网络)协调通信。此外，网络510可以包括短程无线网络，例如蓝牙或类似网络。网络510提供本文描述的节点之间的通信。以举例但非限制方式，网络510可以包括无线介质，例如，声、RF、红外和其它无线介质。

可以采用计算设备、应用、数据源和数据分布系统的许多其它配置来提供用于分布式系统中的故障分析的视觉工具。此外，在图5中讨论的联网环境只是出于说明的目的。实施例并不局限于示例性的应用、模块或过程。

图6示出了根据本文描述的至少一些实施例布置的通用计算设备，其可以配置为提供用于分布式系统中故障分析的视觉工具。

例如，计算设备600可以用于提供用于分布式系统中故障分析的视觉工具。在基本配置602的例子中，计算设备600可以包括一个或多个处理器604和系统存储器606。存储器总线608可以用于在处理器604和系统存储器606之间进行通信。可以通过内部虚线内的那些组件在图6中示出基本配置602。

取决于期望的配置，处理器604可以是任意类型的，包括但不限于，微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任意组合。处理器604可以包括一级或多级高速缓存，例如级高速缓存存储器612、处理器核心614和寄存器616。处理器核心614可以包括运算逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP核心)或其任意组合。存储器控制器618还可以与处理器604相结合地使用，或在一些实现方式中，存储器控制器618可以是处理器604的内部部分。

取决于期望的配置，系统存储器606可以是任意类型，包括但不限于易失性存储器(例如，RAM)、非易失性存储器(例如，ROM、闪存等)或其组合。系统存储器606可以包括操作系统620、管理应用622以及程序数据624。管理应用622可以创建基于在基于云的服务处产生错误的组件分割的错误的分布。程序数据624可以包括分布数据628等，如本文所描述的。分布数据628可以包括与错误和故障相关联的信息。

计算设备600可以具有额外的特征或功能、以及额外的接口，用于促进基本配置602和任意期望设备和接口之间的通信。例如，总线/接口控制器630可用于经由存储接口总线634促进基本配置602和一个或多个数据存储设备632之间的通信。数据存储设备632可以是一个或多个可移除存储设备636、一个或多个不可移除存储设备638、或其组合。可移除存储设备和不可移除存储设备的例子可以包括磁盘设备，例如软盘驱动器和硬盘驱动器(HDD)、光盘驱动器(例如，压缩盘(CD)驱动器或数字通用盘(DVD)驱动器)、固态驱动器(SSD)、以及磁带驱动器等。计算机存储介质的例子包括易失性和非易失性、可移除、以及不可移除介质，其以任意方法或技术实现用于存储信息，例如，计算机可读指令、数据结构、程序模块或其它数据。

系统存储器606、可移除存储设备636以及不可移除存储设备638可以是计算机存储介质的例子。计算机存储介质可以包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)、固态驱动器、或其它光存储器、磁带盒、磁带、磁盘存储设备或其它磁存储设备、或者可以用于存储期望的信息并被计算设备600访问的任意其它介质。任意这种计算机存储介质可以是计算设备600的一部分。

计算设备600还可以包括接口总线640，用于促进经由总线/接口控制器630从各种接口设备(例如，一个或多个输出设备642、一个或多个外围接口644以及一个或多个通信设备666)到基本配置602的通信。一些示例性输出设备642可以包括图形处理单元648和音频处理单元650，其可以配置为与各种外部设备(例如，显示器或扬声器)经由一个或多个A/V端口652进行通信。一个或多个示例性外围接口644可以包括串行接口控制器654或并行接口控制器656，其可以配置为经由一个或多个I/O端口658与外部设备通信，例如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备等)或其它外围设备(例如，打印机、扫描仪等)。示例性通信设备666可以包括网络控制器660，其可以布置为促进与一个或多个其它计算设备662通过网络通信链路经由一个或多个通信端口664进行通信。一个或多个其它计算设备662可以包括服务器、客户端设备和类似设备。

网络通信链路可以是通信介质的一个例子。通信介质可以由计算机可读指令、数据结构、程序模块或在已调制数据信号(例如，载波或其它传输机制)中的其它数据实现，并可以包括任意信息输送介质。“已调制数据信号”可以是具有一个或多个已调制数据信号特性集或以编码信号中信息的方式改变的信号。通过例子而非限制，通信介质可以包括有线介质(例如，有线网络或直连线连接)和无线介质(例如，声、射频(RF)、微波、红外(IR)和其它无线介质)。如本文使用的术语“计算机可读介质”可以包括存储介质和通信介质。

计算设备600可以实现为通用或专用服务器、大型计算机或类似计算机的一部分，其包括任意上述功能。计算设备600还可以实现为个人及三级，包括膝上型计算机和非膝上型计算机配置。

示例性实施例还可以包括用于分布式系统中故障分析的视觉工具。这些方法可以以任意数量的方式实现，包括本文所描述的结构。一种这样的方式可以是机器操作，利用在本公开中描述的类型的设备。另一可选方式可以是结合执行一些操作的一个或多个人类操作员执行方法的个体操作中的一个或多个，而其它操作可以由机器执行。这些人类操作员不需要彼此处于同一地点，而是每个人可以具有执行一部分程序的机器。在其它例子中，例如可以通过预先选择机器自动的标准来使得人机交互自动化。

图7示出了根据实施例的用于提供用于分布式系统中故障分析的视觉工具的过程的逻辑流程图。过程700可以实现于基于云的服务的管理应用上。

过程700开始于操作710，在此可以汇总来自与基于云的服务相关联的综合测量和使用数据的错误。使用数据可以包括与基于云的服务的使用场景相关联的顾客动作的输出。综合测量可以包括对顾客动作的模拟的输出。在操作720处，可以处理错误以创建基于所述基于云的服务的组件来对错误进行分割的分布。在操作730处可以对产生所述错误的一个子集的故障组件进行突出显示，其中故障组件可以是基于云的服务的组件之一。在操作740处，可以以可视化提供分布，从而通过借助于在故障组件附近的故障信息对故障组件进行强调来标识故障。

在过程700中包含的操作是出于说明的目的。可以通过类似具有更少或额外步骤的过程以及以使用本文描述的原理的操作的不同次序，来实现根据实施例的管理应用。

根据一些例子，可以描述在计算设备上执行以提供用于分布式系统中故障分析的视觉工具的方法。所述方法可以包括汇总来自与基于云的服务相关联的综合测量和使用数据的错误，处理错误以创建基于所述基于云的服务的组件来对错误进行分割的分布，对故障组件进行突出显示，其中所述故障组件是所述组件之一，所述故障组件产生所述错误中的与故障相关联的一个子集，以及以可视化提供分布，从而通过借助于在故障组件附近的故障信息对故障组件进行强调来标识故障。

根据其它例子，所述方法还包括：使得包括输出与所述基于云的服务的使用场景相关联的一个或多个顾客动作的使用数据匿名化；以及解析所述使用数据和包括输出一个或多个顾客动作的模拟的综合测量。基于将由以下各项组成的集合中的一项或多项包括在内的一个或多个标准来汇总所述综合测量和所述使用数据：错误类型、所述基于云的服务的关联组件的标识、以及所述关联组件的类型，其中所述综合测量和所述使用数据是在共享时间段期间收集的。可以基于与组件的关联将所述错误分成组；以及可以根据所述组创建直方图作为分布。

根据其它例子，所述方法还包括：通过将子集的数量除以错误的数量来计算与错误的子集相关联的错误的百分比；以及响应于确定出所述百分比超过阈值，标识故障组件作为故障的来源；通过将所述子集的时间段和所述子集的类型在所述故障组件附近包括于所述分布中，来用故障信息突出显示所述故障组件。提供故障信息以标识所述故障组件，一个或多个故障信息来自由下列各项组成的集合中的一项或多项：故障组件的标识、子集的百分比、以及在分布内子集的频率。

根据一些例子，所述方法还包括：基于将来自由共享连接、共享数据资源和共享操作组成的集合中的一个或多个包括在内的关系，检测与所述故障组件相关联的相关组件；基于由相关组件产生的错误的相关联百分比，对所述相关组件进行排序；以及基于所述相关联百分比将相关组件放置在所述故障组件附近，以突出显示受到故障影响的相关组件。

根据一些例子，描述了一种提供用于分布式系统中的故障分析的视觉工具的计算设备。所述计算设备可以包括：存储器；与所述存储器耦合的处理器。所述处理器可以配置为与存储于所述存储器中的指令相结合地执行管理应用。所述管理应用可以配置为：汇总来自与基于云的服务相关联的综合测量和使用数据的错误，其中所述使用数据包括所述基于云的服务的使用场景的顾客动作的匿名化输出，以及所述综合测量包括对所述顾客动作的模拟的输出；处理所述错误，以创建基于所述基于云的服务的组件来对所述错误进行分割的分布；对故障组件进行突出显示，其中所述故障组件是所述组件之一，所述故障组件产生所述错误中的与故障相关联的一个子集；以及以可视化提供分布，从而通过借助于在所述故障组件附近的故障信息对所述故障组件进行强调来标识所述故障。

根据其它例子，所述管理应用还配置为：通过认证方案检测利益相关者的访问权限，其中所述利益相关者是所述基于云的服务的管理员；以及提供访问以查看与和基于云的服务的故障组件、故障组件的相关组件和其它组件相关联的错误相关联的粒化信息。

根据一些例子，所述管理应用还配置为：通过认证方案检测利益相关者的访问权限，其中所述利益相关者是管理所述基于云的服务的故障组件的团队的成员；提供访问以查看与和故障组件相关联的错误、以及和故障组件的相关组件相关联的错误相关联的粒化信息；以及限制访问与所述基于云的服务的其它组件相关联的错误。可以允许利益相关者配置与检测故障相关联的阈值，其中所述利益相关者包括基于云的服务的管理员和管理基于云的服务的故障组件的团队。

根据一些例子，可以描述一种存储有提供用于分布式系统中的故障分析的视觉工具的指令的计算机可读存储器设备。所述指令可以包括类似于上述方法的动作。

上述说明、例子和数据提供了对实施例的组成的制造和使用的完整描述。虽然以特定于结构特征和/或方法动作的语言描述了主题，但是可以理解的是在随附权利要求中定义的主题不必限于上述特定特征或动作。而是，上述特定特征和动作被公开为实现权利要求和实施例的示例性形式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·萨多夫斯基;V·纳拉亚南;S·欧嘉;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

上一篇：一种基于NB-IOT的加油站广告牌的制作方法
上一篇：一种盐碱地生物调理剂智能化造粒设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。