利用补充资源动态地促进无边界、高可用性M..N工作配置管理的方法、系统和设备与流程

文档序号:17439313发布日期:2019-04-17 04:32阅读:186来源:国知局
利用补充资源动态地促进无边界、高可用性M..N工作配置管理的方法、系统和设备与流程

本申请声明以下临时专利申请的优先权并从中受益:(1)在2016年6月24日提交的题为“boundarylesshighavailability(无边界高可用性)”的序列号为62/354,669的美国临时申请。上述专利申请的全部内容通过引用明确地并入本文。

附图说明

图1a至图1b是示出可靠系统和可用系统的方面的框图。

图1c1是示出实现1:1硬件故障转移/冗余架构的系统的示例的框图。

图1c2是示出根据所公开技术的一些实施例的实现m:n工作配置架构的无边界、高可用性(“bcha”)系统的示例的框图。

图2a示出与无边界控制高可用性(bcha)架构相关联的组件的方面。

图2b是示出bcha委派(commnission)模块如何开发bcha系统的方面的流程图。

图3a示出使用bcha委派模块和bcha数据服务模块的实例化开发的bcha架构的方面。

图3b示出提供无边界控制高可用性(bcha)计算资源的方面。

图3c示出委派无边界控制高可用性(bcha)应用的方面。

图3d示出提供无边界控制高可用性(bcha)控制应用程序-高可用性控制的各个方面。

图3e示出提供无边界控制高可用性(bcha)工作项的方面。

图3f是示出用于bcha架构属性的分层继承关系的各示例方面的框图

图4示出无边界控制高可用性(bcha)bcha应用如何执行的方面;

图5a示出bcha系统如何监视操作状态以促进资源故障检测负载平衡和ha-m:n验证负载平衡的方面;

图5b1是示出资源故障检测负载-平衡的方面的流程图;

图5b2是示出资源故障检测负载-平衡修复操作状态确定的方面的流程图;

图5c是示出ha-m:n验证负载-平衡的方面的流程图;

图6a是示出bcha系统m:n工作配置的方面的系统图;

图6b1是示出在计算资源故障之前的操作状态评估的操作状态数据图;

图6b2是示出故障检测-检测到cr4故障/故障的操作状态数据图;

图6b3是示出bcha系统重新分配元素能力/特性确定的方面的操作状态数据图;

图6b4是示出bcha系统重新分配池能力/特性确定的方面的操作状态数据图;

图6b5是示出bcha系统重新分配目标选择的方面的操作状态数据图;

图6b6是示出bcha系统重新分配修复的方面的操作状态数据图

图6b7是示出bcha系统执行目标选择/非关键应用暂停的方面的操作状态数据图;

图6b8是示出修复操作状态确定/验证m:n工作配置的方面的操作状态数据图;

图7a是示出将补充bcha计算资源开发为m:n+r工作配置的方面的流程图;

图7b是示出作为m:n+r工作配置的补充bcha计算资源的方面的操作状态数据图;

图7c是示出作为m:n+r工作配置的补充bcha计算资源的方面的系统图;



背景技术:

现有系统通过使用相同的几乎相同的硬件来利用专门的1:1物理、冗余故障转移配置来促进高可用性特征和功能。这种1:1物理、冗余故障转移配置既昂贵又难以有效和高效地扩展。此外,使用这种1:1故障转移配置的现有系统通常需要在更换完成之前延长数十年的运行时间。因此,1:1物理、冗余故障转移配置涉及支持具有过时组件的旧硬件模块的重大工程挑战,因为各种组件遇到寿命终止硬件故障并且需要物理替换。这是更复杂的,因为现有系统通常需要正式的硬件/软件系统定义,其需要工程努力以在工厂扩展以增加产量时进行调整。



技术实现要素:

本公开的至少一个方面涉及一种用于跨一组计算资源动态地负载-平衡至少一个重新分配元素的系统,其促进以m:n工作配置构造的工业执行过程[或工业执行过程]的组件,所述系统包括:一种系统被配置为:监视与m:n工作配置相关的m:n工作配置组件操作数据、能力或特性;检测负载-平衡机会以初始化将至少一个重新分配元素重新分配到从由与所述m:n计算资源工作配置相关联的剩余m个计算资源组件定义的重新分配目标池选择的重新分配目标;无法从所述重新分配目标池中识别至少一个重新分配目标用于重新部署所述至少一个重新分配元素;请求补充m:n工作配置计算资源,将所述至少一个重新分配元素重新部署到作为重新分配目标的补充m:n工作配置计算资源;以及确定所述至少一个重新分配元素到所述至少一个补充m:n工作配置计算资源重新分配目标的可行的重新部署。

在一些实施例中,所述系统还可以包括:当所述负载-平衡机会涉及资源故障检测负载平衡时,促进重新部署。另外,所述至少一个重新分配元素可与故障的m:n工作配置组件和/或计算资源相关联。

在所述系统的一些实施例中,所述至少一个重新分配元素是在所述故障的m:n工作配置组件和/或计算资源上执行的应用。此外,所述至少一个重新分配元素可包括在所述故障的m:n工作配置组件/计算资源上执行的应用和相应工作项。另外,可将与所述至少一个重新分配元素相关联的操作数据、能力或特性与与重新分配目标池组件相关联的操作数据、能力和特性进行比较。

在一些实施例中,所述系统可还包括基于所述至少一个重新分配元素生成所请求的m:n工作配置组件和/或计算资源能力和特性的最小集合。

在一些实施例中,所述系统可还包括:基于所述m:n工作配置资源能力和特性生成所请求的m:n工作配置组件和/或计算资源能力和特性的最优集合。

在所述系统的一些实施例中,所述至少一个重新分配元素可与活动m:n工作配置组件相关联。

在一些实施例中,所述系统还可以包括执行修复操作状态确定以确定维持m:n工作配置完整性的可行的重新部署。

在一些实施例中,所述系统还可以包括维持m:n工作配置高可用性要求。

在系统的一些实施例中,可以维持m:n工作配置完整性并且暂停至少一个m:n工作配置组件应用或工作项以维持m:n工作配置完整性。

在一些实施例中,所述系统还可以包括执行修复操作状态确定以确定可行的重新部署;和确定m:n工作配置完整性尚未得到维持。

在一些实施例中,所述系统还可以包括生成指示转变回可行的m:n工作配置所需的最小补充组件要求的补充m:n工作配置组件请求。

在一些实施例中,所述系统还可以包括在所述负载-平衡机会涉及组件故障模拟验证的情况下,促进重新部署。

在一些实施例中,所述系统还可以包括迭代模拟m:n工作配置中每个组件的m:n工作配置组件故障。

在一些实施例中,所述系统还可以包括执行z验证度计算资源故障模拟,其中z大于或等于1;以及使用补充m:n工作配置资源验证所述m:n工作配置是鲁棒的。

在一些实施例中,所述系统还可以包括生成鲁棒的m:n工作配置修复补充m:n+r工作配置组件/计算资源请求,以促进转变到鲁棒的m:n工作配置。

在一些实施例中,所述系统还可以包括在计算资源故障时或接近计算资源故障时激活重新分配的元素以及存储在数据服务模块中的相应应用或工作项操作数据。

根据一个实施例,提供了一种用于跨一组计算资源动态地负载-平衡至少一个重新分配元素的方法,其促进以m:n工作配置构造的工业执行过程和/或工业执行过程的组件,所述方法包括:监视与所述m:n工作配置相关的m:n工作配置组件操作数据、能力或特性;检测负载-平衡机会以初始化将至少一个重新分配元素重新分配到从由与所述m:n计算资源工作配置相关联的剩余m个计算资源组件定义的重新分配目标池选择的重新分配目标;无法从所述重新分配目标池识别至少一个重新分配目标,以重新部署所述至少一个重新分配元素;请求补充m:n工作配置计算资源;将所述至少一个重新分配元素重新部署到作为重新分配目标的补充m:n工作配置计算资源;以及确定所述至少一个重新分配元素到所述至少一个补充m:n工作配置计算资源重新分配目标的可行的重新部署。

在一些实施例中,所述方法还可以包括:当所述负载-平衡机会涉及资源故障检测负载平衡时,促进重新部署。此外,所述至少一个重新分配元素可与故障的m:n工作配置组件和/或计算资源相关联。

在该方法的一些实施例中,所述至少一个重新分配元素是在所述故障的m:n工作配置组件和/或计算资源上执行的应用。此外,至少一个重新分配元素可包括在所述故障的m:n工作配置组件/计算资源上执行的应用和相应工作项。另外,可将与所述至少一个重新分配元素相关联的操作数据、能力或特性与与重新分配目标池组件相关联的操作数据、能力和特性进行比较。

在一些实施例中,所述方法可还包括:基于所述至少一个重新分配元素生成所请求的m:n工作配置组件和/或计算资源能力和特性的最小集合。

在一些实施例中,所述方法可还包括:基于所述m:n工作配置资源能力和特性生成所请求的m:n工作配置组件和/或计算资源能力和特性的最佳集合。

在所述方法的一些实施例中,至少一个重新分配元素与活动m:n工作配置组件相关联。

在一些实施例中,所述方法还可以包括执行修复操作状态确定以确定维持m:n工作配置完整性的可行的重新部署。

在一些实施例中,所述方法还可以包括维持m:n工作配置高可用性要求。

在该方法的一些实施例中,可维持m:n工作配置完整性并且暂停至少一个m:n工作配置组件应用或工作项以维持m:n工作配置完整性。

在一些实施例中,所述方法还可以包括执行修复操作状态确定以确定可行的重新部署;以及确定m:n工作配置完整性尚未得到维持。

在一些实施例中,所述方法还可以包括生成指示转变回可行的m:n工作配置所需的最小补充组件要求的补充m:n工作配置组件请求。

在一些实施例中,所述方法还可以包括在所述负载-平衡机会涉及组件故障模拟验证的情况下促进重新部署。

在一些实施例中,所述方法还可以包括迭代模拟m:n工作配置中每个组件的m:n工作配置组件故障。

在一些实施例中,所述方法还可以包括执行z验证度计算资源故障模拟,其中z大于或等于1;以及使用补充m:n工作配置资源验证所述m:n工作配置是鲁棒的。

在一些实施例中,所述方法还可以包括生成鲁棒的m:n工作配置修复补充m:n+r工作配置组件/计算资源请求,以促进转变到鲁棒的m:n工作配置。

在一些实施例中,所述方法还可以包括在计算资源故障时或接近计算资源故障时激活重新分配的元素以及存储在数据服务模块中的相应应用或工作项操作数据。

根据一个方面,一种存储计算机可执行指令序列的非暂时性计算机可读介质,所述计算机可执行指令用于跨一组计算资源动态地负载-平衡至少一个重新分配元素,其促进以m:n工作配置构造的工业执行过程和/或工业执行过程的组件的至少一个方面,所述计算机可执行指令序列包括指令,所述指令指示至少一个处理器执行以下操作:监视与所述m:n工作配置相关的m:n工作配置组件操作数据、能力或特性;检测负载-平衡机会以初始化将至少一个重新分配元素重新分配到从由与所述m:n计算资源工作配置相关联的剩余m个计算资源组件定义的重新分配目标池选择的重新分配目标;无法从所述重新分配目标池识别至少一个重新分配目标,以重新部署所述至少一个重新分配元素;请求补充m:n工作配置计算资源;将所述至少一个重新分配元素重新部署到作为重新分配目标的补充m:n工作配置计算资源;以及确定所述至少一个重新分配元素到所述至少一个补充m:n工作配置计算资源重新分配目标的可行的重新部署。

具体实施方式

本公开描述了这样的特征和功能性:特征和功能性有助于管理bcha计算资源的bcha系统以实现bcha系统(例如,工业控制系统)的指定可用性,以使bcha系统能够递送和维持具有指定质量和更低成本的所需可用性和/或功能性,而无需为每个计算资源/机器提供1:1物理故障转移冗余。所公开的技术利用多个bcha计算资源池来促进动态地实现和维持特定bcha系统的必要高可用性要求。在一些实施例中,所公开的技术监视并报告关键性能指标(kpi),例如bcha系统和/或bcha计算资源可用性,并为系统操作员生成操作系统度量/推荐,以实现为特定bcha系统建立的实时可靠性和可用性目标。所描述的bcha系统还可以模拟某些动作(例如,添加或移除一个或多个计算资源)将如何作用、影响这种可用性和可靠性度量,并相应地动态地进行负载-平衡,以便于实现bcha系统/或特定的bcha系统组件的可靠性和可用性目标。

图1a至图1b是示出可靠系统和可用系统之间的关系的方面的框图,这是无边界计算高可用性(“bcha”)系统解决的两个关键问题-更具体地说是bcha系统分析bcha系统、bcha组件计算资源、bcha组件应用和所需的bcha组件工作项可用性,以便分配bcha系统重新分配元素,包括bcha应用和bcha工作项(“wi”),以便动态管理和最大化系统可用性。

图1a示出在该图的左侧没有修复的故障的通用马尔可夫图。图1a的右侧示出可以修复的故障的通用马尔可夫图,并且因此示出“可用性”的方面。在图1a和图1b所示的示例中,可用性(“a”)是系统/系统应用程在需要使用时正常运行的概率。换句话说,可用性是系统工作的概率,即,没有故障或正在经历修复动作并因此不可用。可靠性考虑了组件、部件或系统在运行时发生故障所需的时间。它没有反映将维修单元恢复到工作状态需要多长时间、可以维修或需要更换。例如,灯泡是一个可靠的元素-最终它会发生故障。但是,一旦发生故障,它就无法修复并被丢弃。建筑物的照明系统是可用的系统。当灯泡发生故障时,可以用另一个灯泡替换它,但更换系统组件涉及资源协调以及可能系统组件停机时间。

如果可以跨多个计算资源分割和管理系统,则相对于一个计算资源系统增加系统的可靠性。例如,可以使用确定改进的可靠性/可用性。在十六个机器节点分为四个离散系统并进行管理的示例中,涉及以下计算:示例系统具有五倍以上的可用性,这意味着如果要维持满容量并且单个系统具有十年的平均故障间隔时间(mtbf),则拆分系统具有五十年的mtbf。如果系统被分成k个部分,则丢失超过1/k容量的几率比在单个计算资源上实现的单个系统失去其所有容量时的变化要小很多倍。根据系统的范围/规模,分布式可用性可以用几个世纪来衡量。

在bcha系统中,其可以包括bcha计算资源,其包括控制处理或者处理段的软件和硬件元素(例如,应用、组件、模块、机器、逻辑硬件元素、软件框架、通信框架等),可用性确保重要的控制算法、应用和工作项继续运行而不会中断。因此,系统可用性是基于机器、计算资源、控制应用、应用的冗余方案等的计算的可用性,以及维持高可用性操作状态的能力(其通过管理和协调bcha计算资源、bcha应用和bcha工作项来确保系统可用)。

如图1c1中所示,现有实施通过构建具有重复、物理冗余备份/故障转移硬件的系统来实现工业控制系统(“ics”)的高可用性。这些一对一(1:1)冗余硬件专用计算资源对高可用性解决方案可能成本过高,具体取决于系统的范围和规模。此类系统使用多个一对一(1:1)冗余硬件专用计算资源对,其中部署在主机器上的控制应用可在主计算资源/机器发生故障时故障转移到辅助或备用计算资源/机器。这种1到1冗余硬件专用计算资源对的设置提供了高可用性,但是具有对于每个控制应用需要两个专用计算资源/机器的缺点,导致机器成本加倍以及可扩展性差。此外,现有技术使用平均故障间隔时间和平均修复时间(mtbf和mttr)功能集来确定传统硬件组件故障计算的可靠性度量。这些计算在设计和制造期间执行,并且主要是静态的,并且只有在硬件元素(及其冗余故障转移硬件被引入系统和/或当系统组件发生变化时)才可以更新。

通过本文描述的无边界计算高可用性(“bcha”)系统的特征和功能克服了1:1架构以及mtbf和mttr可靠性度量的这些和各种其他缺点。通过将bcha系统实现为图1c2中所示的m:n工作配置冗余系统,利用bcha计算资源、bcha应用和bcha工作项,可以实现额外的益处。例如,对于bcha系统:

(a)可以根据特定应用的需要并基于相关的控制需求来指定可用性,而不是简单地遵守1:1冗余控制要求;

(b)应用工程师不必考虑将控制回路分配到特定硬件-从而减少工程时间并简化工程工作;

(c)通过使用在it服务器上提供的虚拟化bcha计算资源,消除1:1硬件要求开启了支持可用性要求的可能性;和

(d)在某些情况下,io可以远离bcha计算资源。

如本文所使用的,无边界控制(bc或bc)是利用无边界计算来控制工业过程、工厂或操作。更具体地说,无边界控制涉及一组灵活的体系结构原理、技术、方法和工具,通过利用不断发展的it技术和抽象高级功能来实现自动化解决方案在整个生命周期中的优化,从而促进可扩展和可扩展的系统,而不受基于底层操作硬件或软件组件、平台或应用的限制。无边界控制系统通过利用软件定义的应用层、灵活可靠的通信骨干网、智能连接资产和硬件平台(旨在以可扩展和可更新的方式随着技术的不断发展,与硬件资源协同工作利用当前技术)来促进和实现这种灵活性。

有利地,bcha机器或bcha计算资源可以是具有能够托管一个或多个bcha应用的操作系统的物理机器或虚拟机。如这里所使用的,虚拟机(vm)包括模仿特定(或部分)计算机系统的bcha计算资源。vm基于计算机体系结构和真实或假设计算机的功能来操作,并且它们的实现可以涉及专用硬件、软件或两者的组合。根据一些实施例,bcha计算资源具有bc软件资源,其具有促进bcha系统/组件操作基础设施特征/功能的三个组件/方面:(1)bcha机器配置方面,(2)bcha物理计算资源/机器方面,以及(3)系统管理方面。如这里所使用的,bcha计算资源是能够运行一个或多个bc应用的资源。在一些实施例中,bcha应用可具有四个方面。这些包括(1)角色方面,(2)实例(运行时间)方面,(3)可视化方面,以及(4)系统管理方面。

bcha应用或bcha控制应用具有执行bcha计算资源内的一个或多个功能的可执行代码。在一些实施例中,bcha应用(运行时间)实例被提供为独立于其他bcha应用的单独可执行程序。在各种实施例中,bcha应用可以促进处理控制特征和功能性,例如控制算法、处理优化、网络物理计算等。在一些实现中,bcha应用可以被配置为执行bcha工作项。

对于bcha工作项,基本概念是软件和固件应用执行工作,例如计算或控制元素。这项工作可以是控制算法的执行、io的扫描、多变量计算、网络物理计算等等。bcha应用作为软件/固件部署到bcha计算资源,bcha计算资源又是被定义为bcha计算资源/机器(其将基础结构元素与计算元素绑定)的计算元素。形成bcha计算资源/机器的计算引擎可以是物理计算机、虚拟机或容器。

bcha应用可以使用bcha数据服务来与其他bcha应用、应用、遗产服务、ia运行时间等交换信息。在一些实施例中,开发组织外部的组可以创建bc应用,从而实现bc应用或在云/雾/边缘/薄雾中执行的一系列应用(和/或其某种组合)的完全第三方可扩展性。bcha应用程可以是提供者端点(ep)和/或消费者ep。

在涉及工业控制系统(ics)的示例bcha系统实现中,专用于处理控制的一些bcha控制应用用于控制关键处理,例如安全地在由安全系统设置的阈值内运行(例如,以避免被安全系统关闭)和以尽可能低的成本生产符合特定规格的产品。一些bcha应用还可用于优化处理(和/或处理的方面)和/或确保与ics处理操作相关联的bcha系统监管控制合规性。例如,一些控制应用有助于更经济地运行处理,例如,使用更少的能量、减少峰值功率的使用、减少昂贵的原料的使用,同时保持质量,减少溶液的占地面积等。

本文描述的bcha系统和架构以对bcha应用进行负载平衡的方式管理bcha计算资源,同时管理和协调bcha系统组件以实现系统可用性度量。可以建立bcha系统可用性要求以维持bcha应用特征/功能。在一些实现中,可以利用基于系统操作员的风险容忍度、与特定处理和/或应用相关联的特性/操作约束,和/或各种其他操作度量来启动重新操作的附加阈值来建立bcha系统可用性。在一些实现中,bcha系统包括实现所需可用性的操作特性/约束优化特征和功能,以及平衡一个或多个操作约束(例如在指定的制造质量、可接受的安全度量和/或最低可能成本)的功能。

在m:n工作配置操作实现中,避免了每个机器的一对一冗余要求,导致进一步的系统/操作成本效率。在m:n操作实现中,bcha控制模块跨当前bcha计算资源管理和协调bcha应用268,以仅利用现有bcha系统组件来实现并动态维持必要的高可用性操作状态。在m:n+r操作实现中,bcha控制模块跨当前bcha计算资源管理和协调bcha应用,但是除了提供的现有bcha计算资源之外还请求额外的资源“r”以实现必要的高可用性操作状态。有利地,在m:n+r工作配置中,仍然可以避免1:1物理冗余的硬件要求-bcha控制模块可以计算/确定适当数量的“r”补充/附加请求的bcha计算资源以供应现有的bcha计算资源来实现和维持建立的可用性要求,并在配置额外的bcha计算资源后转变到可行的m:n工作配置。bcha控制模块可以基于bcha系统属性确定、协调和管理bcha计算资源,以实时实现机器/整体系统可用性-包括bcha系统组件能力和bcha计算资源的特性、bcha应用、bcha工作项和bcha系统组件的分配/管理。如本文所使用的,bcha能力或特性是bcha属性,其定义bcha计算资源、bcha应用和/或bcha工作项的操作参数或约束。示例包括但不限于:cpu影响、托管要求、存储器需求、数据服务需求、cpu类型要求和与其他bc应用的共址、应用进程关键性等。

在一些实施例中,bcha系统通过bcha控制应用实现高可用性,以跨m到n工作配置中的计算资源部署、协调和管理bcha应用/bcha工作项。只要bcha属性-bcha系统组件能力/特性使其成为合适的主机,bcha计算资源就可以托管所提供的任何配置的bcha应用。单个bcha计算资源本质上不一定需要完全冗余,但是可能需要不止一个bcha计算资源来实现高可用性。

以下序列的附图讨论了额外的bcha系统特征/功能的各种示例,其复合了通过bcha应用实现的高可用性效率。例如,bcha系统可以具有(1)增加的可靠性度量,(2)提供可靠的bcha系统组件/计算资源,(3)减少/最小化bcha系统停机时间,(4)减少检测bcha计算资源/bcha应用故障的时间,(5)减少从/向bcha数据服务读/写数据的时间,6)减少bcha应用重新部署的时间,(8)提供备用bcha计算资源,而不需要1:1物理,冗余故障转移要求,(9)通过bcha计算资源动态分配bcha应用程序,创建最佳物理/虚拟/bcha计算资源平衡使用,(10)在bcha计算资源在m:n工作配置中出现故障时,将bcha应用切换到备用bcha计算资源或适当的m:n+r工作配置,(11)最小化bcha重新分配元素(例如,bcha应用和/或bcha工作项)重新部署和继续进行备用bchc计算资源的时间,以及关于附图更详细描述的其他bcha益处、解决方案、特征和功能。

在一些实施例中,bcha系统高可用性要求可以通过bcha可靠性引擎模块来实现,该模块使用约束(例如,资源约束、应用约束、处理约束单独或与bcha系统组件能力、特性和/或操作数据协调)来计算bcha系统的可用性。在一些实施例中,bcha可靠性引擎模块可以实现为与bcha控制模块集成的组件,并且提出可用性改进建议或采取诸如以下的动作:

(i)考虑到安全系统的潜在行动,使用可用的(例如,重新获得的)计算资源/计算能力来移动和重启关键应用;和/或

(ii)在资源有限状态下,关闭最不重要或非关键的应用。

bcha系统通过提供关于整体bcha系统可用性和/或许多其他bcha系统平衡优化特性(例如,计算资源应用负载水平)的实时反馈,促进基于可用性选择的优化和负载平衡。最佳可用性m:n工作配置可能不涉及某些bcha应用的活动冗余(例如,在机器或资源发生故障和/或容易在其他bcha计算资源上重新启动时,非关键控制应用可能被禁用或停用)。在其他示例中,通过运行活动的冗余bcha计算资源/bcha应用(例如,n到n冗余,其中每个在线bcha计算资源可能潜在地用于故障转移;m:n冗余,如果一个bcha计算资源发生故障,则在bcha计算资源上执行的bcha应用/bcha工作项被重新分配到与m:n工作配置相关联的剩余mbcha计算资源),最佳可用性可涉及甚至更多可用性。bcha系统所需的或指定的可用性使得处理能够以指定的质量和更低的成本交付产品,而无需为每个计算资源提供1:1物理冗余的硬件。

所公开技术的另一个优点是该系统是自我修复的。在具有m:n冗余的控制系统中和/或如果bcha控制模块请求额外的bcha计算资源(例如,m:n+r工作配置),则重新部署目标被选择(和/或配置并且可用于m:n+r工作配置),它们可用于促进增加的可用性指标以及降低生产成本。

根据所公开的技术,可以通过以下方式实现高可用性(例如,在bcha计算资源发生故障的情况下):

(i)动态管理m:n工作配置以促进冗余系统架构;和/或

(ii)bcha控制应用活动监视系统健康状况/动态管理bcha系统组件作为bcha计算资源、bcha应用和/或bcha工作项,以促进工业执行过程或与工业执行过程相关联的工业系统控制组件。

在一些实现中,bcha控制模块可以临时或无限地暂停具有较低优先级/关键性的bcha应用,并使用可用的bcha计算资源来运行较高优先级/关键bcha应用。如本文所使用的,bcha应用优先级/关键性是特定bcha应用对于工业执行过程有多重要的指示。在一些实现中,高bcha应用优先级/关键性指示bcha应用的故障可导致安全系统比低bcha应用优先级更快地使过程进入安全状态。这是一种有用的措施,用于确定可以快速有效地请求和提供哪种类型的bcha计算资源,以促进在安全系统关闭工业执行过程之前发生的bcha系统修复时间。

图1c2介绍了bcha系统架构的方面以及核心bcha系统特征和功能的方面-在随后的附图和说明书中的相应文本中更详细地讨论了这两者。在一些实施例中,高可用性控制器与可靠性引擎协同工作,以为整个bcha系统提供实时度量,以提供控制系统的可靠性和可用性度量的指示。例如,某些度量可以指示一些备用机器可能提供比专用的一对一冗余方法可提供的更高的可用性。

图1c1是示出实现1:1物理硬件故障转移/冗余架构的系统的示例的框图。更具体地,计算资源105a1-105e1中的每一个具有专用的1:1物理冗余计算资源,其可操作地并联连接105a2-105e2。在这种类型的示例中,计算资源每个都具有可以处于非活动状态的专用冗余计算资源,直到检测到故障时才使用。或者,在一些时间敏感的实现中,计算资源105e1和105e2可以同时运行相同的应用,只有一个活动参与系统。因此,如果计算资源105e1故障,则计算资源105e2步入活动角色,同时最小化任何数据、时间切换损失。然而,如上所述,这种类型的系统具有显著的缺点。

图1c2是示出根据所公开技术的一些实施例的实现m:n工作配置架构的bcha系统100的示例的框图。bcha应用(“bchaappx”)可以分布在多个计算资源105a3-105e3上。可以将一个或多个bcha应用(bcapp)提供给bcha计算资源。例如,bcha计算资源105b可以执行bchaappa和bchaappd。bcha系统100还包括具有bcha可靠性引擎模块120的bcha控制模块120。通过实现bcha数据服务模块130还实现了效率和系统功效的额外改进。根据特定实现,数据存储服务可以是分布式的或集中式的。出于本讨论的目的,bcha数据服务被示为中央数据存储,每个计算资源连接并提供bcha计算资源、bcha应用、以及bcha工作项配置数据、状态数据、输出数据和其他相关的bcha系统运行数据参数。如本文所使用的,供应是在硬件起点实例上安装和激活计算资源的能力,以及在特定bcha计算资源上发起bcha应用和/或bcha工作项的能力。

在一些实施例中,bcha控制模块115和bcha可靠性引擎模块120监视系统健康和操作数据,例如bcha计算资源可用性和对在跨越m:n工作配置的每个相应计算资源105a-105e上执行的每个bcha应用实例的加载。在图1c2中,bcha控制模块115可以检测bcha计算资源105e3是否发生故障并且工作以将bchaappe重新分配到m:n工作配置内的适当的备用bcha计算资源。如图所示,bchaapp3被重新部署到bcha计算资源105a3。此外,在一些实现中,bcha控制模块115还可以临时暂停bchaappa或将bchaappa重新部署到合适的不同的bcha计算资源,以便于重新部署。如图所示,bcha控制模块将bchaappa转移到bcha计算资源105b3,以便于将bchaappe重新部署到bcha计算资源105a3。关于图5a-7c更详细地讨论bcha系统负载平衡的方面。

在一些实施例中,bcha系统协调bcha计算资源活动以实现可用性至少与针对无论哪个bcha应用是最高优先级/最关键bcha应用所定义的高可用性要求一样高。bcha可靠性引擎模块120利用bcha应用属性,其识别bcha应用/bcha计算资源(“bcha系统属性”)的可用性能力/特性,以管理和监视系统的可用性。在一些实施例中,bcha可靠性引擎模块120在管理bcha系统可用性要求时可以利用bcha计算资源属性并最终识别哪些计算资源适合作为用于重新部署给定bcha应用的重新分配目标。

管理bcha系统可用性可以包括,例如,使用bcha应用属性来确定bcha系统对bcha计算资源的要求,然后可以使用该要求来促进协调和管理供应规则、活动bcha应用管理、bcha计算资源负载-平衡等。如这里所使用的,bcha应用属性是bcha计算资源、bcha应用和/或bchc工作项的可访问参数。取决于bcha应用、应用或工作项,属性通常具有标识、数据类型、安全性、分类(运行时间和/或输入和/或配置)等。一些bcha属性为用户提供了配置bcha应用的可能性。运行时间属性可以具有质量指示和/或时间指示。可以基于系统中的另一个bcha属性(即,输入参数)动态地改变一些属性的值。bcha属性是存储在bcha数据服务模块130中的数据参数,并且将在下面作为特征、能力和/或操作约束更详细地讨论。

在一些实施例中,bcha可靠性引擎模块120可以在控制器(未示出)上实现。在其他实施例中,bcha可靠性引擎模块120可以与bcha控制模块115协调或集成部署,或者在bcha计算资源(例如,资源105a-e)中的一个或多个上独立地执行。如上所述的bcha控制应用bcha主管模块110、bcha控制模块115和bcha可靠性引擎模块120可以促进控制应用供应、负载平衡、数据的高速缓存(例如,控制应用数据)、监视状态、操作、性能等等。在一些实施例中,bcha计算资源/bcha应用通过应用编程接口(api)与控制应用接口。

bcha数据服务模块130可以使用多种技术。例如,提供高速和低延迟的更快技术可用于运行时间和外部io数据访问以及用于配置数据访问的较慢技术。在一些实施例中,一些数据可以被更加本地缓存到bcha应用实例,例如在bc资源上,以提高性能。bcha数据服务模块110确保可以及时地写入数据,并且数据及时地可用于bcha计算资源、bcha应用和bcha工作项。在一些实施例中,数据服务读/写访问能力至少与加快的bcha应用所需的一样快。

根据所公开的技术,bcha控制模块115可以活动地管理bcha应用/bcha工作项并将其从一个bcha计算资源重新部署到另一个bcha计算资源。例如,在系统100中,bcha控制模块可以将bchaappa从bcha计算资源105a3移动到资源105b3(例如,由于资源105a关闭或者为重新部署创建可用性)。移动到资源105b的决定可以基于操作特性和/或系统度量(例如,从bcha数据服务模块130高速缓存和/或访问)。例如,bchaappa可以是关键应用,并且资源105b可以具有可用于执行bchaappa的计算资源。从一个资源移动到另一个资源的bchaappa可以在控制应用(本例中为bchaappa)控制的处理部分或段的时间常数内恢复。

在所公开技术的一些实施例中,一些bcha应用可能是关键的,而其他bcha应用可能是非关键的。在某些情况下,非关键bcha应用可以被赋予较低的优先级以进行故障转移。例如,在bcha系统100中,bchaappe可以是非关键控制应用,并且为了维持整个系统的可用性,如果不存在处理可用性,则可以暂停bcappe不在另一资源上重新启动。例如,当bcha处理可用性确实存在时,在bcha计算资源105a上,可以在其上提供非关键bcha应用appe,并且通过从bcha数据服务模块130访问最后可行日期状态,在处理过程中重新启动/或拾取。

因此,所描述的bcha系统、特征和功能促进了bcha系统的能力的显著增益以:

-为许多联网的连接设备实现、监控和维持高可用性系统要求;

-通过实施m..n故障转移架构而不是1:1物理冗余、故障转移架构,显著降低硬件和资源要求和费用;和

-通过m:n+r工作配置实现改进的系统架构管理,最终通过补充资源调试/部署促进更强大的m:n工作配置。

因此,为了示出这些核心bcha系统益处/优化中的每一个的各个方面,以及通过实现bcha系统架构实现的相关系统益处和效率,以下描述将讨论以下方面:

(1)如何开发/委托bcha系统;

(2)bcha系统的特性和功能,以及与ha-m:n验证负载-平衡的各种操作特性和功能相关的相关逻辑流程,以及故障检测/修复;

(3)bcha负载-平衡故障检测/重新调解的工作示例;和

(4)bcha系统ha-m:n验证负载-平衡补充计算资源调试/分配。

图2a示出与无边界控制高可用性(bcha)架构相关联的组件和bcha系统200的组件的方面。bcha系统主管模块210是bcha系统模块,其负责在初始bcha系统开发期间接收和执行bcha系统开发调试计划。在系统调试之后,操作管理转变到bcha控制模块215以协调工作项管理和bcha系统负载平衡(资源故障检测负载-平衡,以及活动负载平衡/m:n工作配置验证)。在一些实现中,bcha系统主管模块210/bcha控制模块215还可以在初始bcha系统开发之后具有供应计算资源、应用和/或工作项的角色,因为为bcha系统200提供补充/附加bcha计算资源240/250。根据具体的实现细节,bcha主管模块210可以在其自己的bcha计算资源上实例化,与bcha控制模块215合并,或者在一些实现中,调试特征/功能或者与bcha控制模块215集成和/或远程地执行为云服务。

在bcha系统主管模块210验证bcha系统200的初始配置和调试之后,bcha控制模块215驱动操作运行时间管理工作以实现在bcha系统开发调试计划中定义的可用性要求/度量。可以由bcha系统主管模块210提供一个或多个bcha计算资源240/250,以有效地托管由bcha系统200执行的bcha应用268,以及在各个bcha应用上执行的bcha工作项270。bcha系统主管模块210被配置为实现与bcha系统200相关联的大部分调试功能,但是与具有专用实用的两个bcha控制应用205一起工作:(1)bcha应用配置器211-用于开发bcha工作项;(2)bcha控制应用配置器212,用于开发bcha控制应用205,例如bcha控制模块215、bcha可靠性引擎模块220和bchawi池管理器模块221。最后,调试和管理bcha计算资源240/250、bcha应用268和相应的bcha工作项270以促进工业执行过程。考虑到bcha系统200的灵活性,工业执行过程可以是整个工作流、工业控制过程或工业控制过程内的元素/组件工作流-例如,协调生产线或生产线的元素,例如输送机部件。

用于bcha系统200的配置、操作和bcha系统管理数据被存储在bcha数据服务模块230中。bcha控制模块215管理(或与bchawi池管理器模块221一起工作以管理)工作项分配。在bcha计算资源240/250故障-bcha应用/bcha工作项故障,则集中存储bcha计算资源、bcha应用、bcha工作项配置数据以及操作/输出数据(或分布但独立于在相应的计算资源上的本地存储)导致显著的系统灵活性并且促进m:n架构的关键优势之一-如果一个计算资源发生故障,则高可用性控制器可以快速有效地从一个计算资源到另一个计算资源重新分配/重新部署应用和工作项。

如图2a所示,bcha数据服务模块230被配置为集中式数据存储/数据库,其存储并使得可访问各种调试系统/计算资源/应用特性和能力。存储在bcha数据服务模块230中的数据由bcha控制模块215使用(其与bcha可靠性引擎模块220协同工作以活动/被动地监视系统健康、系统操作特性)并且工作以实现用于系统200和bcha工作项(“wi”)池管理器221的bcha系统可用性度量/要求。

取决于可用资源的性质,与特定bcha系统相关联的bcha计算资源240/250可以是基于异构计算资源硬件起点的不同频谱提供的各种物理bcha计算资源240或虚拟bcha计算资源250的异构混合。可以在任何数量的裸金属平台上配置和构建物理和虚拟计算资源。例如,在图2a中,物理bcha计算资源240被示为基于bchahw资源243供应,其可以是与raspberrypi一样简单的东西,可替换地,物理计算资源241可以从预置pc-服务器硬件资源246开发。类似地,虚拟bcha计算资源250可以使用托管在计算资源起点的预置pc服务器硬件资源253、预置云计算资源256和/或公共云计算资源259的虚拟机来开发。对于bcha系统200,不管底层计算资源起点如何,bcha系统主管模块210用bc资源操作系统264和bcha资源266(其包括诸如bcha技术栈服务、bc机器软件和/或容器管理服务,以及bcha应用268的物流软件组件)实例化bchw资源起点262。如将在图3d中更详细地描述的那样,bcha应用268是执行bcha工作项270的bcha系统元素,并且最终实现工业执行过程。

应当理解,所描述的各种bcha系统架构有助于显著的灵活性,因此,各种bcha系统200实现是可能的。可以重新配置bcha系统200特征、功能、数据处理和存储的各个方面,以满足各种不同的最终实现/工业执行过程的操作约束、需求和要求。例如,尽管图2a示出用于bcha数据服务模块230、bcha系统主管模块210、bcha控制模块215以及bcha可靠性引擎模块220的分立系统模块,但是与这些模块中的一个或多个相关联的特征/功能可以实现为分立模块或者对于一些bcha系统架构实现,与一个或多个其他bcha系统控制应用205和/或其他bcha系统模块/计算资源结合和/或分布。此外,取决于与bcha系统200相关联的特定工业执行过程应用的性质,基础特征或功能的方面可被配置为作为事件驱动任务、连续循环活动和/或事件/循环的某种组合来执行。

图2b是说明bcha系统主管模块210如何开发bcha系统200的方面的流程图。更具体地,图2b是说明bcha系统主管模块210如何开发和调试与bcha系统200相关联的各种bcha计算资源240/250以及根据bcha系统开发调试计划与其他bcha控制应用205协同工作(在步骤273)的方面的流程图。在步骤275中,bcha系统主管模块210实例化bcha数据服务模块230。在建立bcha数据服务模块230之后,bcha系统主管模块210将可用计算资源硬件起点与bcha系统开发调试计划进行比较,以在步骤276检查是否有足够的计算资源可以开发bcha计算资源240/250以促进工业执行过程。步骤281和284涉及识别任何额外的裸硬件起点资源需求、访问和任何提供的额外资源。

在步骤287中,bcha系统主管模块210迭代地提供bcha计算资源240/250以及在相应bcha计算资源240/250上实例化适当的bcha应用268。在步骤290中,每个bcha计算资源240/250和各个bcha应用268又向bcha数据服务模块230注册(尽管示出为离散步骤,但是当调试模块与每个相应的计算资源一起工作时,可以发生实例化和注册)。

在步骤293中,bcha系统主管模块210或bcha控制应用配置器211与bcha计算资源240/250中的一个一起工作以实例化一个或多个bcha控制应用205和相应的计算资源。更具体地,bcha控制应用可以被配置为bcha控制模块215,其还包括bcha可靠性引擎模块220和/或bchawi池管理器模块221,两者也都向bcha数据服务模块230注册。调试/实例化bcha控制模块215和可靠性引擎模块220的方面涉及处理bcha系统开发调试计划的各方面,以开发bcha系统的可用性和操作要求度量。bcha控制模块215、bcha可靠性引擎模块220和bchawi管理池管理器221跨注册的bcha计算资源240/250管理和协调bcha工作项270以维持:(1)bcha系统操作,(1a)可行的m:n工作配置和(1b)bcha高可用性操作要求。

在一些实现中,bcha控制模块215将基于操作状态或基于计算资源故障检测来发起负载平衡活动。在步骤294中,作为bcha控制模块215调试的一部分,bcha系统控制应用配置器模块212还实例化bchawi管理池管理器221。一旦创建了wi池,在步骤295中,bcha系统主管模块210就实例化并向bcha数据服务模块230注册工作项的初始集合,以及用注册的工作项填充池以供bchawi管理池管理器221分配。在实例化各种bcha系统元素之后,在步骤297中,bcha系统控制应用205为bcha系统关键元素(例如bcha数据服务模块230、bcha控制模块215和bcha可靠性引擎模块220)建立高可用性/冗余。bcha系统主管模块210验证调试的bcha系统架构以确认与bcha系统开发调试计划的一致性。如果验证成功,则bcha系统200然后在步骤298中转变到操作状态。如果验证有任何问题,则bcha系统主管模块210与bcha系统控制应用205一起工作以纠正在验证期间识别的任何问题/不一致,然后转变到操作状态。

在基线bcha系统200开发和实例化之后,当bcha系统200工作以实现工业执行过程时,bcha控制模块215监视与bcha应用268相关联的系统健康/负载平衡度量,该bcha应用268跨相应的bcha计算资源240/250处理bcha工作项270。工业执行过程是过程控制系统(或相应的工作流[或子工作流]的最终执行目标,这是创建bcha系统200的原因-驱动生产线或生产线的组件。针对特定bcha系统识别和定义工业执行过程,并且工业执行过程包括关于bcha计算资源240/250、bcha应用268、bcha系统可用性/可靠性度量的要求的一些方面的操作/配置细节以及用于开发bcha基线系统要求的各种其他操作特性/能力定义。基线要求被下载到bcha系统主管模块210并有效地用作开发与bcha系统调试计划相关的各种组件/元素的路线图。

提供相应的系统元素和组件(例如bcha计算资源240/250、bcha应用268、bcha工作项270、bcha数据服务模块)的bcha系统主管模块210的方面参考图3a至图3f更详细地描述。

图3a示出bcha系统主管模块的方面以及bcha数据服务模块230的实例化。bcha系统调试计划被下载到bcha系统主管模块210,并且进而用于实例化bcha数据服务模块230。该过程开始于bcha系统主管模块210根据调试计划实例化一些基线bcha系统架构数据300。例如,bcha系统主管模块210实例化与调试计划相关联的bcha计算资源240/250的初步数据记录。当bcha系统主管模块210继续开发执行配置/调试过程的bcha系统200时,当实例化每个其他组件/元素时,填充实例化的计算资源数据和其他bcha系统组件数据305。bcha数据服务模块230包括与bcha系统架构300、工业执行过程301、bcha组件能力/特性数据302、操作数据输出数据303相关联的数据参数。bcha数据服务模块230还包括与bcha控制应用205相关的数据记录。bcha系统主管模块数据306、bcha控制模块数据307、bcha可靠性引擎模块数据308以及bchawi池管理器数据309。bcha系统组件数据记录310和相关参数数据也被维持用于与相应bcha计算资源311、312,在相应计算资源上执行的bcha应用313、314和315以及由bcha应用314执行的bcha工作项316、317和318相关联的数据。

bcha控制模块

bcha数据服务模块230可以是高度可用(集中或分布式)数据存储/服务(例如,实现冗余),其可访问所有bcha计算资源240/250、在bcha计算资源240/250上执行的bcha应用268/工作项270、bcha主管模块210、bcha控制模块215和bcha可靠性引擎模块220以及bchawi池管理器221。在一些实施例中,数据服务可用性至少与最关键的bc应用的可用性一样高。在一些实施例中,bcha数据服务模块230还可以存储数据,例如但不限于:

-无边界名称空间管理所有bcha计算资源240/250、bcha应用268和bcha工作项270运行时间数据方面

-bcha应用能力/特征数据/参数、应用配置数据/参数、应用约束数据/参数

-bcha应用操作状态数据/参数;和

-由外部io接口收集并由一个或多个bcio应用存储在数据服务中的所有外部io数据、iovtq。

图3b示出开发无边界控制高可用性(bcha)架构计算资源的方面。在图3b中,步骤325,bcha系统主管模块210使用bcha系统调试计划来开发执行bcha应用268和bcha工作项270所必需的bcha计算资源240/250,bcha应用268和bcha工作项270又执行工业执行过程。在步骤327,bcha系统主管模块210访问调试计划以确定可用的bcha计算资源240/250的数量/类型满足在调试计划中建立的要求。更具体地,bcha系统主管模块210确认现有的物理/虚拟裸金属/起点资源存储,并且能够配置以满足工业执行过程bcha计算资源处理要求。在步骤329中,bcha系统主管模块210请求额外的资源起点以满足执行计划计算资源需求与可用资源起点之间的任何差异。一旦提供了附加资源,在步骤331,bcha系统调试模块重新验证该计划和可用的启动资源。在验证之后,bcha系统主管模块210系统地为每个bcha计算资源起点提供物流软件/固件模块配置以促进bcha服务。

在步骤333中,计算资源起点配置有操作系统。一旦操作系统被实例化,bcha系统主管模块210在步骤335中配置(a)计算资源技术堆栈服务,(b)bcha机器软件和/或(c)容器管理服务。利用适当的计算资源逻辑软件组件,对于与实例化的特定bcha计算资源240/250相关联的bcha应用268,bcha系统主管模块210在步骤337、338中迭代地实例化计算资源bcha应用268。bcha应用268根据在调试计划中确定的要求,针对特定bcha计算资源240/250进行配置和调试,并且便于工业执行过程。bcha应用实例化在图3c中更详细地讨论。在步骤340中,相应的bcha计算资源240/250和相应的bcha应用268向bcha数据服务模块230注册。尽管这被示为离散步骤,但取决于实现,在bcha系统主管模块210完成实例化过程之后,每个bcha计算资源240/250和相应的bcha应用268可以向bcha数据服务模块230注册。步骤342,示出当bcha系统主管模块210通过实例化和注册与bcha系统200相关联的每个bcha计算资源240/250而进行的迭代循环。在bcha计算资源240/250和相应的bcha应用268已被调试和注册之后,在步骤344,bcha系统主管模块210开始实例化bcha控制应用和工作项270(分别在图3d和3e中更详细地讨论)。

图3c示出调试无边界控制高可用性(bcha)应用的方面。如关于图3b所讨论的那样,调试bcha计算资源240/250的一个方面涉及实例化各个计算资源将执行的各种bcha应用268以促进工业执行过程。图3c示出如何实例化每个bcha应用268的方面。对于与bcha计算资源240/250相关联的每个bcha应用268,bcha系统控制应用205实例化为一系列服务。更具体地,如状态服务345所示,为每个bcha应用建立268wi管理服务346、健康服务347和数据服务348。

图3d示出实例化bcha系统控制应用205的方面。bcha控制应用配置器212负责bcha系统控制应用205的初始供应。bcha系统控制应用205具有与上面关于图3c讨论的与bcha应用268类似的开始,并且作为在bcha计算资源240/250上实例化的bcha应用268开始。bcha系统主管模块210进一步向bcha控制应用提供附加的增强特征/功能模块(其促进bcha系统200内的密钥分层控制角色355)。例如,bcha控制模块215被开发为具有bcha应用268的bcha计算资源240/250,其通过附加的负载平衡操作能力得到增强,bcha可靠性引擎模块220和bchawi池管理器221也是如此。

bcha可靠性引擎模块220主要负责与bcha控制模块215一起工作以促进资源故障检测负载-平衡部署和ha-m:n验证负载-平衡。bcha可靠性引擎模块220还可以监视活动bcha系统200可用性/操作度量以确定何时wi负载-平衡是合适的。当bcha可靠性引擎模块220进行操作状态评估并确定负载平衡是适当的时,bcha控制模块215与bchawi池管理器模块221协调并促进重新部署。

bcha可靠性引擎模块220/bchawi池管理器221通过监视操作状态/加载数据和bcha工作项270的重新部署来促进各种负载平衡类型。在资源故障检测负载-平衡中,bcha可靠性引擎模块220可以检测bcha计算资源240/250故障并启动bcha控制模块215/bchawi池管理器221重新分配元素重新部署以重新部署和负载平衡与故障的bcha计算资源240/250相关联的bcha应用268/bcha工作项270。

作为另一示例,bcha控制模块221可以促进ha-m:n验证负载-平衡并且模拟bcha计算资源故障以确定和验证m:n工作配置能力以维持高可用性要求,尽管模拟bcha计算资源故障。

bcha系统加载-平衡的这两个示例示出了与bcha系统相关联的特征和功能的方面,并且应当理解,其他类型的bcha系统加载-平衡也是可能的。这两种类型的bcha系统加载-平衡将是图5a-7c的焦点

图3e示出开发无边界控制高可用性(bcha)架构工作项的方面。在图3e中,作为执行bcha系统开发调试计划的部分,在bcha系统200实例化过程期间创建bcha工作项270。在步骤357中,bcha系统主管模块210与bcha应用配置器211一起工作,将工业执行过程的元素原子化以创建bcha工作项270,作为可由bcha应用268执行的计算或控制元素单元。更具体地,在步骤358,bcha系统主管模块210/bcha应用配置器211处理具有具体生成模型-例如ias88控制模型358a或61850控制模型358b的工业执行过程元素。在步骤360中,作为wi生成的部分,bcha系统主管模块210/bcha应用配置器211为工作项创建两个部分:(1)基于具体模型的分隔的、独立的计算/控制单元;(2)工作项抽象模型,其包括与bc工作项270相关联的元数据(例如,bcha应用执行类型、wi处理执行/负载需求、时序约束、输入/输出数据元素要求等)。

在步骤362中,wi池管理器221处理抽象模型以匹配和分配工作项270bcha控制模块215以供bcha过程应用268/bcha计算资源240/250执行。

例如,在wi分配步骤364中,bchawi池管理器221处理wi抽象模型364a并确定wi元数据指示wi具有两个操作特性(1)wi需要iec61131bc应用来执行;和(2)wi将在工作项270被最终分配到的任何bc计算资源240/250上消耗五个执行/加载单元。wi池管理器221访问bcha数据服务模块230并搜索可能匹配的任何bcha计算资源240/250并且标识364b-具有wiapi度量的计算资源240/250,其指示bc应用是iec61131bc应用运行时间实例;并具有25个执行/加载单元可用。取决于应用和实现的性质,bcha控制模块215/bchawi池管理器模块可以被配置为一旦找到匹配就分配bc工作项270。或者,它可以迭代通过bcha计算资源240/250以不仅识别潜在匹配,而且还基于各种优化方法/标准来识别最佳匹配。

在备选实施例中,bcha工作项270(或工作项组)可以预先配置用于各种过程控制、优选的故障转移默认目标和/或作为预配置组件包括在bcha系统开发调试计划内。用于plc和dcs中的控制和其他功能的bc应用268专注于高粒度控制应用。高粒度有助于将工业执行过程分解为这些原子化元素并且反过来在工作项270和底层计算资源240/250之间创建独立性的能力。只要能够执行bcha工作项270的bcha应用268正在运行,执行bcha应用268的bcha计算资源240/250就不是直接关键的。在plc环境中,通常使用任何iec61131语言创建“程序”。然后将创建的程序发送到执行它的plc。在dcs系统中,存在程序控制应用和基于配置的控制应用的混合。但是,在这两种情况下,配置都针对系统中的特定控制器。

bcha工作项270定义要由bcha系统200中的任何bcha应用268执行的工作,诸如控制、io扫描、报警、多变量优化、资产管理等。bcha工作项270类型将增长并且随着新的bc应用程序的开发而扩展。bcha系统200必须提供围绕bc工作项管理的抽象,以支持多样性和可扩展性。如图3e中所示,在步骤358中,由bcha调试模块利用bcha应用配置器211和与bcha系统200相关联的各种bcha应用268,创建bcha工作项270的抽象模型/定义。

该信息可用于在wi负载-平衡事件期间促进与bcha应用268的最佳匹配。bcha工作项270还包含所有bcha工作项270共有的一组通用数据参数/字段(例如,用于执行的计算加载单元的数量等)。通用信息用于将bcha工作项270分配到bcha应用268。通用信息是bcha应用配置器211外部的bcha系统200可见的唯一工作项数据。独立于任何用户交互,bcha应用配置器211将创建的定义进行分段为bcha工作项270。基于特定于bcha应用配置器211的规则来创建bcha工作项270。

作为示例,循环编辑器可以将循环定义分段为多个bcha工作项270;主控制、辅助控制、用于主输入的io、用于辅助输入的io、用于输出的io。生成的bcha工作项270的数量的确定由bc应用配置器211基于其内部处理规则、工业执行过程的范围/规模以及bcha系统架构调试计划和其他操作能力/特性来完成。通过bcha工作项270的抽象允许bcha系统200管理bcha工作项270到bcha应用268的分配,而不知道工作分配中包含的信息或底层计算元素或控制元素的性质。这种抽象提供了高水平的可扩展性。

将具体和抽象行为分离到bcha工作项270的另一个好处是能够将各种具体模型应用于bcha系统200。具体模型及其具体定义对于bcha系统200是未知的,例如bcha控制模块215和/或管理抽象模型的其他bcha系统架构。这允许bcha系统200的灵活性和可扩展性。作为示例,与bcha调试模块210相关联的bcha应用配置器211可以向用户呈现用于控制定义的isa88视图。相同的bcha应用配置器211可以向用户呈现bcha系统200的iec61850视图。在两种情况下,bcha应用配置器211可以向用户呈现循环编辑器以生成用于执行的具体工作项单元。然而,在一种情况下,bcha应用配置器211可以单独显示过程资产,或者与包括电站组件的第二场景组合显示过程资产。在该示例中,实现两个物理资产模型而不对bcha系统200进行架构改变。bcha系统200和bcha控制模块215在不知道底层具体单元/表示的情况下分配所创建的bcha工作项270。新的具体模型仅仅是bcha应用配置器的新输入和由bcha主管模块210促成的系统中的新bcha应用268,因此,有利地,bcha系统200可以促进新的数据模型、特征和/或功能,而不必要求bcha系统架构改变。

基于包括特性和能力的bcha系统200属性来抽象bcha工作项270到bcha应用268的分配。然而,bcha系统200确实需要关于哪个bcha应用268可处理bcha工作项270的信息以及支持该分配的其他信息。bcha工作项270抽象模型包含元数据信息,该元数据信息表征bc工作项270及其预期用途,而不涉及与具体模型相关联的细节。bcha应用268还公布描述它们在bcha数据服务模块230中工作的能力的元数据。元数据不是固定的,并且随着bcha系统200的发展是可扩展的。包含在bcha工作项270中的元数据也可以随时间更新、补充、补足或以其他方式改变。旧的bcha工作项270可以具有比较新的bcha工作项270更少的元数据信息。bcha系统200和bcha控制模块215将使用存在的尽可能多的信息来确定负载平衡事件期间的分配和重新部署。类似地,新的bcha工作项270可以包含bcha系统200不知道的附加元数据信息。再次,bcha系统200将使用可用且已知的尽可能多的元数据来确定分配。在所有情况下,bcha应用268可拒绝要求bcha系统200将bc工作项270分配到不同的目标重新部署bcha应用268的分配/重新部署。关于图4a1和4a2更详细地讨论工作项匹配、管理和重新部署。

bcha系统组件识别负载-平衡机会,以及通过重新分配bcha组件作为重新分配元素来执行wi负载平衡事件。取决于特定实现,所实现的负载平衡的类型可以由系统操作员建立,并且使用所描述的系统可以实现若干类型的负载平衡(例如,操作状态、活动系统负载平衡故障检测等)。此外,可以实现优化模型,该优化模型根据多于一种负载平衡类型来优化系统负载平衡。然而,为了示出通过实现bcha控制模块215实现的灵活性和益处,以下示例可以首先关注负载平衡事件以实现维持所需的“可用性”水平和/或分配重新分配元素(例如,bcha应用268/工作项270)以最大化系统可用性和/或在与bcha系统200相关联的计算资源240/250上广泛地分配工作项执行/处理器负载。bcha控制模块215还可以通过临时暂停关键bcha应用268/工作项270来实现负载平衡。在某些情况下,非关键bcha应用268/工作项270可以无限期地暂停或直到向bcha系统200提供额外资源。

bcha控制模块215/bchawi池管理器221利用工作项元数据来促进wi重新分配。bcha工作项270将包含可变数量的信息,包括操作数据、配置元数据(如上面关于图3e所讨论的抽象模型)。元数据至少指定bcha应用类型和性能特征。它还可以包括其他能力或特征,例如wi优先级;中断/暂停能力或wi操作执行的其他方面。

尽管在以下示例中,bcha控制模块215/bchawi池管理器221基于匹配可以执行bcha工作项270的bcha应用268的类型以及系统计算资源重新分配可用性来重新分配bcha工作项270,辅助重新分配度量涉及在bcha计算资源240/250上广泛地分配处理负载。重新分配度量和/或工作项270性能特征不是静态的。建立初始配置的bcha主管模块210将执行初始分配并生成用于bcha工作项270加载特性的估计。当bcha应用268执行bcha工作项270时,它可以生成和跟踪诸如实际加载特性的操作度量。这些操作度量(和基础数据/统计)在bcha数据服务模块230中维持,并且可能需要比bcha主管模块210最初生成的信息更多的信息。性能特征的运行时间改进将被写回bcha工作项270。如果bcha工作项270被重新分配到不同的bcha应用268以及bcha系统主管模块210、bcha控制模块215和/或用于资源计划,调整和bcha组件重新分配的相关bcha控制应用,则bcha系统200将使用该改进的信息。

加载特性特定于分配用于处理bcha工作项270的bcha应用268。加载是bcha工作项270在bcha应用268中消耗的计算资源的表示,并将被描述为执行单位。bcha应用管理器使用bcha应用268加载来实例化bcha应用的新实例以进行负载平衡,更重要的是维持bcha系统200所需的可用性级别。bcha工作项中的特征将被分类为“必须有”和“理想的”。在进行重新分配/分配之前,bcha系统200必须匹配所有“必须有”特征。如果可能的话,将匹配“理想的”特征。然而,诸如缺乏可用资源之类的其他限制可能导致与“期望的”特性不匹配的分配。

用于分配的规则将与bcha系统200一起发展。初始规则可以仅考虑匹配的bcha应用类型和总执行单元加载。但是,未来可能会应用诸如多核、资产类型、平台类型等规则。当生成和/或更新bcha工作项时,bcha应用配置器可以扩展这些分配规则。如前所述,如果元数据丢失或者如果存在的元数据多于理解数量,则bcha工作项分配可能不会成功。在这些情况下,可能会发生次优分配,但不会出现系统故障。新规则将遵循必要和辅助的范例。请注意,如果无边界系统不知道所需规则,则仍将执行分配,期望bc应用运行时间实例将拒绝分配(如果不适当)。bcha应用268应该匹配配置器并理解由配置器指定的最新特性。

资源计划是相关的,但与bcha工作项和bcha工作项分配完全分开。

用于bcha工作项分配的bcha系统200服务仅将bcha工作项270分配到可用的bcha计算资源240/250。如果资源不足,则bchawi池管理器模块221将生成并修复错误。bcha系统控制应用的另一个是bcha应用计划器模块213。通过bcha应用计划器模块,bcha应用268以及核心bcha服务和应用被指定用于部署到bcha计算资源240/250。来自bcha应用计划器模块213的输出由供应服务用于为bcha系统200建立资源(在图3a中描述)。bcha应用计划器213可以利用bcha工作项270中的信息作为计划指南。当计算推荐的bcha系统200配置、实现特定工业执行过程所需的可用性所需的bcha应用268和bcha计算资源240/250的数量时,bcha应用计划器213可以使用bcha工作项270中的容量能力特性。类似地,bcha控制模块215和bc工作项池管理器模块221可以提供可用资源不足的系统通知。类似地,可以创建额外的系统加载,因为bcha应用配置器211生成用于执行的附加bcha工作项270。用户可以与bcha应用计划器213/bcha系统主管模块210交互以提供额外的bcha计算资源240/250。

与部署到特定plc或dcs控制器的传统配置相比,bcha工作项提供更精细粒度的工作定义。更精细粒度的一个优点是bcha系统200中的自动bcha控制器模块215/bchawi池管理器模块221负载平衡。而不是要求用户计算系统加载并将bcha应用268分配到不同的bcha计算资源240/250,bcha系统200可以连续监视和调整在bcha计算资源240/250上放置的负载。负载平衡最初将实现初步规则,例如在每个bcha计算资源240/250上维持偶数bcha工作项270负载。然而,可以扩展负载平衡以结合更复杂的规则,例如将工作转移到低能耗资源,从而允许更有利的bcha系统200利用。

粒度还允许在bcha计算资源240/250故障的情况下(在下面的图5a、5b1和5b2中描述),在给定bcha应用268中执行的工作可以在其他bcha应用268之间重新分配。不是将所有工作转移到备用bcha计算资源240/250中的bcha应用,而是可以在与m:n工作配置相关联的剩余活动bcha计算资源240/250相关联的任何bcha应用之间划分工作。该bcha工作项管理实现m:n工作配置冗余模型。在一些实例中,可以实现m:n+r工作配置冗余模型,其中需要请求和提供一个或多个附加bcha计算资源240/250以补充现有bcha计算资源240/250并为特定重新分配元素提供重新分配目标。性能考虑可能要求bcha应用268具有为bcha工作项270预加载的可以要求它们执行但当前不执行的配置数据。这允许更快的故障转移作为bcha工作项的重新分配,并且将要求新的bcha应用268加载最新的状态数据而不是bc工作项的完整配置。

图3f1示出使用bcha数据服务模块230如何管理和协调无边界控制高可用性(bcha)架构属性、能力和特性的方面。与bcha系统架构相关联的每个bcha组件具有包括bcha组件能力和特性的bcha系统属性,当在bcha系统开发过程期间实例化/注册每个组件时,bcha组件能力和特性被存储在ha数据服务模块230中。图3f1示出与bcha系统组件相关联的分层元素的分层相互依赖性。具体如图3f所示,每层bcha应用工作项层376、bcha应用层377、bcha控制应用层378、bcha容器/资源层379和bcha计算资源层380分别贡献用于bcha系统组件的bcha系统属性作为能力/特性。bcha系统属性最终在bcha控制模块中影响bcha系统管理和/或bcha重新分配元素重新部署。

bcha系统控制应用205(例如bcha控制模块和/或bcha可靠性引擎模块)使用这些要求来确定用于bcha计算资源240/250的系统需求以促进负载平衡。bcha控制模块215可以使用bcha系统属性来基于预定的应用特性(例如,应用元数据)来识别哪个bcha计算资源240/250适合于给定应用。bcha可靠性引擎模块220可以使用bcha应用特性来管理供应规则。bcha可靠性引擎模块220还可以计算bcha系统200的系统可用性度量。用于计算实时bcha系统200可用性度量的算法最大化系统用户在负面影响之前获得响应的最佳机会的机会(例如,在安全系统关闭bcha系统之前提供额外的请求的资源)。在一些实施例中,系统的实际可用性基于当前可用的bcha计算资源240/250和bcha活动/非活动应用268、故障资源的数量、运行的bcha应用268的数量、应用及其优先级/关键性、非活动应用的数量及其关键性、需要提供以运行每个所需的应用的额外资源的数量等。bcha系统促进系统实现中的显著灵活性,并且被配置为实现涉及各种不同实现/配置中的bcha系统管理的所述益处。以下序列的附图和相应的描述将更详细地描述如何实现这些特征和功能,并因此描述如何实现效率和系统功效改进。

图4示出如何执行无边界控制高可用性(bcha)应用的方面。在图4中,bcha应用268在bcha计算资源240/250上作为app_1450执行。当在监视bcha计算资源240/250数据的控制回路中检测到任何变化时,用bcha数据服务230更新bcha计算资源240/250注册的能力/特性。app_1450,在451中与bcha数据服务连接,在步骤452中更新bcha应用能力/特性(如果适用),并在步骤453中获得任何分配的bcha工作项270。

在执行分配的bcha工作项270时,app1在步骤455中更新操作状态,在步骤456中处理工作项1_1,在步骤457中更新工作项能力/特性(如果适当的话)。步骤bcha工作项执行458、操作状态更新459、bcha数据服务模块220中的wi数据记录更新和循环直到完成步骤461示出与应用工作项处理相关联的元素的示例。在步骤462,bcha应用周期性地检查以确定bcha数据服务模块230是否具有要分配到特定bcha应用的附加bcha工作项。

图5a示出bcha系统的bcha负载-平衡机会的方面。bcha系统200功能的一个关键方面是负载平衡系统元素以实现与特定工业执行过程和相关过程控制应用要求相关的高可用性要求的能力。动态负载平衡是一个关键特征,其还有助于使m:n工作配置成为可能并且对于bcha系统200可行,其中冗余和高可用性是bcha系统200的关键要求。图5a示出与bcha系统200相关联的负载平衡类型的方面,诸如资源故障检测负载-平衡/重新分配和ha-m:n验证负载平衡。应当理解,其他类型的负载-平衡也是可能的,这取决于特定实现的性质和bcha系统组件、特性和/或能力。

在图5a中,在步骤500中,当系统转变到“操作”状态时,bcha应用配置器211提供用于分配的bcha工作项270的初始池。在步骤503,bcha控制应用205参与bcha系统200。bchawi池管理器模块将bcha工作项270分配到适当的bcha应用268/bcha计算资源240/250。在步骤506中,bcha控制模块215/bcha可靠性引擎220开始监视在bcha数据服务模块230中维持的系统健康/操作状态数据。bcha控制模块215/bcha可靠性引擎模块220正在监视bcha系统200健康/操作状态,以识别资源故障检测负载-平衡机会509并循环通过步骤511,并返回到步骤506以连续监视直到检测到故障。根据具体实施和工业执行过程要求,可以根据具体实施调整循环频率,范围从作为后台工作流的恒定循环到5ms、到5秒、到5分钟到每5小时或者否则基于可能适合于特定bcha系统200实现的内容进行调整。

在步骤509中,如果识别出资源故障检测负载-平衡机会,则在步骤513中启动资源故障检测负载-平衡机会,并且将确定bcha系统动作的后续步骤/时间线。在步骤515中,bcha系统200和bcha控制模块资源故障检测负载-平衡基于哪个bcha计算资源240/250已经故障来确定应该将哪个bcha系统组件重新分配为重新分配元素。bcha控制模块215在步骤517中确定重新分配类型,在步骤518中确定重新分配池以及在步骤519中确定特定重新分配目标。在步骤521中,bcha控制模块215执行将重新分配元素转移到重新分配目标的重新分配。bcha控制模块215试图维持(1)系统可行性;(1a)系统高可用性操作特性,因此可行的m:n工作配置。对于资源故障检测重新分配,尽管实际计算资源240/250故障,但是bcha系统面临着这样的挑战:维持(1)系统可行性;(1a)系统高可用性操作特性。

在步骤523中,bcha控制模块215运行后台任务,其迭代地模拟bcha系统200计算资源240/250故障以验证bcha系统高可用性要求和可行的m:n工作配置-作为ha-m:n验证负载-平衡。在步骤525中,bcha控制模块215迭代地循环,并且模拟与bcha系统故障相关联并且根据资源故障检测重新分配而重新部署的相应计算资源240/250。在资源故障检测之后重新分配,bcha控制模块215在步骤527中确定修复操作状态。如果在模拟每个计算资源240/250之后,资源故障检测重新分配导致所有绿色状态重新部署-bcha系统确实是可行的m:n工作配置。如果在每次模拟资源故障检测重新分配之后存在非绿色状态,则bcha系统200是m:n+r工作配置-需要额外的计算资源来维持bcha系统200的高可用性要求和将bcha系统转变到可行的m:n工作配置。分别关于图5b1-5b2和5c更详细地描述资源故障检测重新分配和活动负载平衡/模拟。

图5b1示出与bcha系统的故障检测/修复相关联的bcha负载-平衡机会的方面。在bcha计算资源240/250发生故障的情况下,bcha系统200执行资源故障负载-平衡重新分配并且用于工作以维持(1)系统可行性、(1a)可行的m:n工作配置以及(1b)系统高可用性操作特性。取决于特定的工业执行过程和应用,bcha系统200可以被配置为主要关注于1和1a,而1b可能不是关于操作要求的关键。bcha系统200可被快速且有效地预先配置请求、接收、提供和转变重新分配元素到补充资源-有效地操作m:n+r工作配置。在一些实现中,bcha系统200可以通过与bcha计算资源提供者一起工作来自动修复,以获得预先配置的bcha计算资源240/250,而不生成对附加资源的请求。m:n和m:n+rbcha系统工作配置都可以实现避免1:1物理硬件冗余工作配置的所有额外成本/费用的好处。此外,与1:1物理硬件冗余工作配置相比,它们还实现了更好的操作效率和资源利用特性。

在图5b1的步骤531中,监视bcha数据服务模块230的bcha控制器215/bcha可靠性220引擎检测bcha计算资源240/250故障。在步骤533中,在检测到故障之后,bcha控制器215确定哪些bcha系统组件正在故障的bcha计算资源240/250上执行并且需要被重新分配为重新分配元素(例如,bcha应用268和/或bcha工作项270)。一旦确定了重新分配元素,在步骤535中,除了当前重新分配类型设置之外,与故障的bcha计算资源240/250相关联的特征/能力以及重新分配元素被分析。各种重新分配类型是可能的,包括最快的重新分配、平衡的重新分配、最佳的重新分配、关键的重新分配元素重新部署或最大化使用现有资源(补充/额外的bcha计算资源240/250可能稀缺和/或难以提供)。这些重新分配类型作为非限制性示例被提供,取决于特定bcha系统实现、相应的工业执行过程和/或其他配置或操作特性/能力,其他类型是可能的。在步骤538中,bcha控制模块215开始确定重新分配目标池(基于来自步骤533和535的确定和分析),其识别潜在地可用于重新部署重新分配元素的可能的重新分配目标(例如,bcha应用268和/或bcha计算资源240/250)。

为了最大化可行的现有资源重新分配目标池的可能性,匹配匹配方法关注于与bcha系统组件能力和特征相关联的两组参数-(1)bcha重新部署要求(例如,高可用性要求;特定的i/o类型;执行单元处理负载;以及(2)bcha重新部署首选(例如,近实时执行等)。通常有两种可能类型的重新分配目标池:(1)仅使用现有资源(例如,m:n工作配置)的目标池,其中所有bcha重新部署要求被满足并且最大化满足的bcha重新部署首选的数量的重新部署选项被选择;或(2)使用现有资源和补充请求的资源(例如,m:n+1或m:n+r)的目标池。在图5b1中,步骤539涉及确定可能的最佳解决方案作为具有用于各种重新分配元素重新部署目标的多个选项的从现有bcha系统组件创建的重新分配目标池。此选项的变体是一个完美的拟合方案,其中至少一个现有bcha目标可以促进单个重新部署选项-满足所有bcha重新部署要求。在步骤539中,bcha控制模块确定是否存在可用的即时目标重新部署选项。如果在步骤541中确定存在多个潜在的再分配目标选项,则bcha控制模块215分析bcha重新部署要求和bcha重新部署首选以识别符合重新分配类型的选项(例如,最快的故障转移类型是识别的第一个再分配选项,即使其他可能存在;最佳是满足大多数重新部署要求/首选的重新分配选项),并在步骤543中选择重新分配目标。在步骤544中,重新分配元素转变到重新分配目标并在步骤544中激活。在一些实施中,重新分配元素访问bcha数据服务模块230并在bcha计算资源故障的时间(或之前)获得与部署相关联的操作/配置数据。因此,重新分配元素可以有效地拾取具有最小化时间/数据丢失的它们的停止位置。

如果在步骤539中没有可用的即时目标,则在步骤545中,bcha控制模块215可执行模拟的工作配置负载重新分配以确定转变活动的bcha应用268/bcha工作项270是否为重新分配元素创建可用目标,而不停止bcha组件或请求补充bcha计算资源240/250。如果模拟的工作配置负载重新分配创建重新分配目标,则bcha控制模块重新分配活动的bcha应用268/bcha工作项270以在步骤542中创建目标,并在步骤543中选择目标。在步骤544中,重新分配元素被分配到重新分配目标并使其激活。

如果在步骤545中模拟的工作配置负载重新分配没有创建可用的重新分配目标,则在步骤547中bcha控制模块215尝试停止非关键(和/或一些实现低优先级)组件以尝试创建可用的重新分配目标。如果停止非关键bcha计算资源240/250创建可用的重新分配目标,则bcha控制模块215在步骤548中确定是否启用降级的非关键时间分片处理,并且如果它将非关键的bcha组件转移到时间分片队列,其中队列的成员每个是步骤549中的专用处理执行资源的一部分(如果和作为附加处理资源被提供)。例如,如果两个非关键应用在队列中,则每个都会得到正常的处理执行资源。队列还可以基于bcha应用优先级重新平衡,例如,如果app_1可以获得75%的处理执行资源,因为它比仅获得25%的处理执行资源的app2具有更高的优先级。bcha控制模块215在步骤550中停止非关键bcha组件并在步骤552中创建目标池。在步骤544中,将重新分配元素分配到重新分配目标并使其激活。如果停止非关键组件没有创建可用的再分配目标,则bcha控制模块215尝试也通过在步骤551中停止关键bcha组件来尝试创建可用的重新分配目标来尝试创建可用的重新分配目标。如果在步骤551中停止关键bcha组件创建可用的重新分配目标,则bcha控制模块分别在步骤552和550中停止至少一个关键bcha组件和一个或多个非关键组件,以分别地在步骤542中创建目标重新分配池,并且在步骤543中选择重新分配目标。在步骤544中,将重新分配元素分配到重新分配目标并使其激活。

此时,在进行模拟工作配置负载重新分配,检查非关键组件以及检查关键组件(单独或与非关键组件组合)之后,bcha控制模块215在步骤553中可能必须请求(或自动修复)补充bcha计算资源240/250,并在步骤554中提供补充bcha计算资源240/250。在进行了每个先前检查之后,bcha控制模块可以识别哪个尝试最接近于实际创建可用性重新分配目标并且定义与所请求的补充bcha计算资源相关联的类型、大小能力/特性,以最小化成本或供应时间或bcha计算资源参数的数量。在一些实现中,补充bcha计算资源配置可以基于bcha控制模块确定提供什么是所必需的以确保鲁棒的m:n工作配置。利用所提供的补充bcha计算资源240/250,bcha控制模块可以在步骤442中创建重新分配目标池,并在543中选择重新分配目标。在步骤544中,将重新分配元素分配到重新分配目标并使其激活。

图5b2示出bcha系统的bcha系统恢复操作状态相关的故障检测/修复负载-平衡机会的方面。在图5b2中,在步骤560中,在bcha系统200促进重新分配/重新部署以维持系统可行性作为bcha系统200的主要目标之后,在步骤560中,bcha控制模块215/bcha可靠性引擎220检查bcha操作状态以尝试遵守bcha系统目标1a-符合bcha系统高可用性要求。在步骤563中,bcha可靠性引擎模块220检查bcha数据服务模块230中的操作度量/状态数据,并确认已经实现了绿色状态修复。更具体地,在状态图元素565中,所有bcha应用268和bcha工作项270已经被重新部署并且在所有bcha系统高可用性要求下完全可操作。如果实现了绿色状态修复,则在步骤568中,bcha控制模块215转变回周期性/连续bcha系统健康/操作状态监视。

在步骤563中,如果bcha控制模块215确定尚未实现绿色状态修复,则控制器将在步骤571中开发并执行bcha系统恢复计划。在图5b2中,开发bcha系统恢复计划的第一方面是确定哪个非绿色状态与bcha系统200操作状态相关联。如果作为故障检测重新分配,则bcha控制模块215能够保持系统运行但是必须暂停关键bcha应用268,以便保持较高优先级的关键bcha应用268运行,bcha系统200被认为是在红色操作状态-如状态图元素573。如果bcha控制模块215能够保持系统运行但是必须暂停一个或多个非关键bcha应用268,则认为bcha系统200是在橙色操作状态中-如状态图元素575。第三非绿色操作状态是黄色状态(状态图元素577),其中所有重新分配元素已被成功重新部署,但bcha系统200具有一个或多个不符合bcha系统200高可用性要求的bcha应用268。

在一些实现中,可以将暂停的非关键应用维持在活动但降级的操作状态。更具体地,可以将暂停的非关键应用添加到降级的进展队列中,并且bcha控制模块215可以顺序地迭代暂停的应用以为重新分配元素的某些方面提供部分处理/计算资源,以便保持系统可操作,直到可以提供额外的资源。bcha控制模块215顺序地迭代降级的应用268/工作项270队列,并系统地提供重新分配元素的所请求的计算资源执行单元要求的至少一部分。

在所有红色和橙色操作状态中,bcha控制模块215可以确定将bcha系统200转变回完全绿色操作状态所需的补充bcha计算资源的数量和类型(565)。bcha系统还可以确定并报告在工业执行过程安全系统转变关闭工业执行过程之前是否可以实现维修时间-转变回绿色操作状态(565)的时间,以避免不安全的情况/操作。根据具体实施,以及当前的操作特性,确定的操作状态和补充bcha计算资源240/250的可用性,转变回绿色状态可以是从红色、橙色到绿色的完全、直接过渡或者它可以是渐进的转变回绿色状态(任一路径的修复时间都少于工业执行过程安全系统关闭时间)。

图5b2中作为绿色、黄色,橙色和红色操作状态被讨论的操作状态被提供以帮助说明bcha系统200如何能够动态地管理和协调各种bcha系统组件的方面,包括bcha计算资源240/250、bcha应用268和bcha工作项,以维持一个或多个bcha系统200操作完整性、可行的m:n工作配置、以及根据bcha系统200/bcha应用高可用性要求的操作。根据实施,可以实现不同的功能操作状态名称、操作特性和甚至操作次数。例如,绿色可以重命名为“可变mnha操作状态(viablemnhaoperationalstate)”并缩写为“mnok_haok”,黄色可以重命名为“可变mn操作状态(viablemnoperationalstate)”并缩写为“mnok_hadg”,橙色可以重命名为“降级mn操作状态(degradedmnoperationalstate)”并且缩写为“mndg_hacrt”,红色可以重命名为“危急系统(criticalsystems)”操作状态“并缩写为”c“s或”mncrt_hacrt“。而不是涉及m:n和ha操作状态,也可以将一个子集集中在一个bcha操作参数。例如,配置有关注于一个bcha操作参数的三个操作状态(或子状态)的bcha系统可以作为“可变ha”或“可变mn”;“降级ha”或“降级mn”;“危急ha”或“危急m:n”。其他bcha操作参数也可用于开发状态控制(例如,工作项执行负载分配为“重”、“中”和/或“轻”。另一个例子,bcha系统200可以配置有二进制操作状态,其中系统是“操作的或不操作的”。这些示例被提供为非限制性示例,并且bcha系统200可以被配置为促进多个其他操作实施。

图5c示出与m:n验证相关联的活动bcha系统负载平衡/修复的方面。图5c示出与ha-m:n验证负载平衡和m:n工作组验证/修复相关联的方面。更具体地,为了确保具有足够的备用计算资源执行可用性的可行m:n工作配置而没有实际的1:1冗余物理硬件,bcha控制模块220执行涉及ha-m:n验证负载平衡的后台活动,以促进m:n工作组验证/修复方案测试。m:n工作组验证/修复作为辅助bcha应用268执行以迭代地模拟bcha计算资源240/250故障、资源故障检测负载平衡和后续操作状态测试,以确定对于特定bcha计算资源240/250故障,m:n工作配置是否具有足够的计算资源执行可用性,以便于仅使用现有计算资源240/250促进重新部署,同时维持与bcha系统200相关联的高可用性操作要求。ha-m:n验证负载平衡是灵活的仿真过程并且可以验证各种bcha系统配置。在图5c中描述的示例中,bcha控制模块215逐步通过并模拟第一级故障,其中验证报告反映了聚合的修复状态–一次一个地模拟与m:n工作配置相关联的每个bcha计算资源240/250的故障的结果-例如具有五个bcha计算资源240/250的bcha系统将执行五个模拟循环-并且在每个模拟循环期间,不同的bcha计算资源240/250将故障。如果五个模拟循环中的每一个都具有绿色修复状态,则m:n工作配置已经过验证。如果任何一个模拟循环导致非绿色修复状态,则m:n工作配置可能必须进一步发展为m:n+r工作配置,即,可能需要补充资源来实现可行的m:n工作配置,使用优化的备用执行资源平衡来执行,同时最小化额外的计算资源要求,并仍然完全避免旧的1:1冗余物理硬件要求。

在图5c中,bcha控制模块在步骤575中启动ha-m:n验证负载平衡执行周期。根据实现、相应的工业执行过程和其他操作特性,ha-m:n验证负载平衡可以执行为连续循环,或具有静态或动态执行频率-与石油和天然气炼油厂操作控制系统相关的工业执行过程可能涉及更多时间关键/敏感操作,而不是与废水处理厂相关的工业执行过程或其他时间较少的关键/敏感操作。在步骤577中,bcha控制器220确定ha-m:n验证负载平衡验证程度,例如第一级故障模拟。在一些实现,模拟故障程度可以被建立为系统默认值并且由系统操作员适当地更新。验证程度设置bcha控制器220将在迭代期间将模拟的计算资源240/250的数量(例如,第一度故障模拟验证m:n工作配置,其中一个计算资源240/250故障,第二度故障模拟验证两个计算资源240/250故障的实例,等等......)。在图5c的示例中,bcha控制器220在bcha数据服务模块230的隔离段中工作,该bcha数据服务模块230填充有bcha系统200架构、组件、作为启动ha-m:n验证负载平衡的实例的时间的与系统相关联的操作数据。在步骤579中,bcha控制器220模拟与bcha系统200相关联的第一计算资源240/250的故障。在步骤581中,bcha控制器模块215模拟如图5b1和图5b中所描述的bcha故障检测资源重新部署。在步骤583中,bcha控制器模块215在将故障重新分配元素重新部署到重新分配目标之后确定修复操作状态。如果在步骤585中修复操作状态涉及绿色状态,则针对相应bcha计算资源240/250的故障验证m:n工作配置。然而,鲁棒的可行的m:n工作配置,与bcha系统200相关联的每个bcha计算资源240/250也必须具有绿色状态修复操作状态。因此,在步骤587中针对ha-m:n验证负载平衡验证的相应循环记录修复操作状态,bcha控制模块220在步骤589检查是否需要模拟额外的bcha计算资源240/250故障以进行验证。在步骤591中,m:n工作配置计算资源计数递增,并且模拟启动下一循环,模拟序列中下一个bcha计算资源240/250的故障,循环回到步骤579。

在图5c中,如果步骤583中的修复操作状态如在步骤593中识别非绿色状态,则相应计算资源240/250的模拟故障不符合m:n工作配置。该系统可能仍然是可操作的,但是在m:n+r工作配置中,其中可能需要补充/附加计算资源240/250以将修复操作状态转变回绿色状态并实现可行的m:n工作配置。基于故障的计算资源240/250的能力/特性以及重新分配元素的能力/特性,bcha控制器220可以确定可能需要什么类型/多少补充/附加计算资源240/250以从m:n+r工作配置转变为可行的m:n工作配置。根据特定的系统配置,可以在检测到m:n+r工作配置转变要求时报告它们。或者,如在图5c中所示的示例中那样,m:n+r工作配置转变要求在步骤593中被确定并在步骤587中被记录。

如果在与bcha系统200相关联的步骤589中针对所有工作配置bcha计算资源240/250模拟了所有故障,则步骤595涉及开发m:n工作配置验证报告和用于基于与执行的ha-m:n验证负载平衡验证相关联的任何m:n+r工作配置转变要求确认对于补充/附加bcha计算资源240/250的系统请求的自动执行。在一些实现中,m:n工作配置验证报告可以识别各种操作验证结果,以及系统生成的修复措施以解决在模拟/验证期间识别的问题。例如,系统生成的修复动作可以包括将被要求、提供和供应的建议的系统生成的补充计算资源240/250的列表,以实现bcha系统200的可行的m:n工作配置。还可以包括关于在所提出的系统生成的补充计算资源的列表中如何考虑一个或多个特定计算资源240/250故障的细节。

在实现中,bcha控制模块215可以包括如595中的自动修复特征。更具体地,bcha控制模块215可以被配置为与预先批准的bcha计算资源240/250提供者(例如,公共云服务提供商)连接。一旦与提供商连接,bcha控制模块215可以直接访问并请求提供一个或多个预配置或定制的bcha计算资源240/250。因此,bcha控制模块215可以快速、有效地修复通过ha-m:n验证负载平衡确定的问题,请求、提供和重新部署重新分配元素到补充bhca计算资源240/250。bcha控制模块215可以选择将预先配置的bcha计算资源240/250与重新分配所需的能力和特性进行比较,以确定最佳拟合的预先配置的bcha计算资源240/250。bcha控制模块215可以选择比较预先配置的bcha计算资源240/250,其具有比识别的那些附加的能力和特性,以修复在修复操作状态确定期间识别的问题。bcha控制模块215可以生成针对定制的bhca计算资源240/250的类似请求-具体地向定制的bhca计算资源240/250请求比识别的那些附加的能力和特性,以修复在修复操作状态确定期间识别的问题。

利用附加能力和特性,bcha控制模块215可以执行最佳负载重新分配以跨越可用bcha计算资源来转移应用以最小化处理器负载、bcha工作项执行单元负载、bcha应用负载和/或两个或更多个最小化参数(例如,第一个bcha工作项执行单元负载和第二个bcha应用负载)的组合。bcha控制模块215可以在请求预先配置的或定制的bcha计算资源240/250之前进行最佳负载重新分配确定。

图6a-图6b7示出bcha系统200如何工作以修复bcha计算资源240/250故障并维持可行的m:n工作配置的示例的方面。图6a示出这样的bcha系统,其包括五个bcha计算资源240/250(在图6a中标识为cr-1610、cr-2620、cr-3630、cr-4640和cr-5650),在bcha计算资源240/250上执行的各自的bcha应用268(在图6a中标识为app_1612、app_2614、app_3616、app_4626、app_5642、app_6645和app_7654)以及在相应的bcha应用268上执行的bcha工作项270(在图6a中标识为wi1_1613、wi2_1615、wi3_1617、wi4_1627、wi5_1633、wi6_1645和app_7_1655)。每个bcha系统组件与bcha数据服务230和bcha控制应用205进行操作通信,特别是bcha控制模块215、bcha可靠性引擎模块220和bchawi池管理器模块221正在积极地参与bcha系统200组件。

图序列6b1-6b7是bcha系统200如何工作以识别和修复bcha计算资源240/250的故障以及重新部署与故障bcha计算资源240/250相关联的重新分配元素的示例实现。重新分配元素可以包括在bcha计算资源上执行的bcha应用268和/或由相应bcha应用268执行的相应bcha工作项270。每个图6b1-6b7示出与bcha系统执行以将资源故障检测修复为执行时间线699的每个步骤相关联的关键操作状态。

图6b1示出bcha计算资源240/250和bcha应用268能力、特性以及与bcha工作项270相关联的bcha操作状态。在图6b1中,bcha系统在绿色状态下操作,满足所有高可用性要求。

图6b1中所示的bcha系统200组件是作为与时间/状态160相关联并存储在bcha日期服务中的bcha数据服务数据的稳态操作视图。在状态1,所有bcha计算资源240/250作为可行的m:n工作配置在绿色状态下执行,其中满足所有bcha系统200高可用性操作要求。状态1图600示出计算资源cr1-cr5、app_1-app_7和相应工作项1_1-7_1的相应能力/特性,以及分别为活动,非活动,保持的与每个bcha系统组件相关联的bcha系统组件操作状态(在计算资源cr-4故障后的图6b2中-“故障”)。图序列是bcha系统200如何工作以识别和修复bcha计算资源240/250,图6b2中的bcha应用268的故障的示例实现-bcha-故障检测/ha操作评估-cr4故障/故障检测;

图6b2示出当bcha计算资源cr-4故障时的操作状态,以及app_5/工作项5_1和app6/工作项6_1的实例。在cr-4故障之后,bcha控制模块215检测bcha数据服务模块230中的故障并更新与cr-4相关联的操作状态。

在图6b3中,bcha控制模块215确定与故障的计算资源240/250相关联的能力和特性,包括计算资源可用性要求以及实时操作要求。bcha控制模块215还确定与app_5/工作项5_1和app_65/工作项6_1相关联的能力和特性,包括应用优先级、应用可用性要求以及应用实时要求。在一些bcha系统200实现中,bcha应用268优先级用于执行重新分配类型-例如,可以在较低优先级重新分配元素之前将较高优先级重新分配元素重新部署到具有快速重新部署重新分配类型的潜在重新分配目标中。在最佳重新部署重新分配类型中,bcha控制模块可以尝试暂停较低优先级的应用,以支持为更高优先级的应用的重新部署创建可用性。取决于实现,其他能力/特性可以包括与特定计算资源240/250或bcha应用268/bcha工作项270相关联的专用i/o连接,以及处理器加载能力或处理器执行要求。

在图6b4中,bcha控制模块215评估与bcha系统200相关联的其他现有计算资源240/250(例如,cr-1、cr-2、cr-3和cr-5)的能力、特性和可用性要求。在该示例中,每个计算资源240/250具有关于处理存储器/处理能力的能力,以支持三个bcha应用268/工作项270。因此,bcha控制模块215从潜在重新部署目标的重新分配池排除cr1和cr-2。因此,生成的重新分配池包括cr-3和cr-5。为了维持可行的m:n工作配置,bcha控制模块215将检查cr-3和cr-5的其他特征/能力,以及app_5/工作项5_1和app6/工作项5_1并且发现cr-3和cr-5都是能够同时采用重新分配元素的潜在目标-本例中故障的应用/工作项作为重新分配池。

bcha控制模块215选择cr-3作为app5的重新分配目标,因为cr-3满足前两个检查(即,(1)获取重新分配元素的可用性;以及(2)已存在处于活动/非活动状态的重新分配的实例)。bcha控制模块215尝试平衡快速故障转移,同时还尝试在重新分配池潜在目标之间平衡/扩展重新分配元素以最小化处理器加载并且保持在与特定m:n工作配置相关联的bcha计算资源240/250之间开放的尽可能多的可用重新分配槽。通过努力最大化尽可能多的可用重新分配槽,bcha控制模块最大化在现有m:n工作配置中重新部署的可能性,特别是在这样的工作配置中,包括广泛的bcha计算资源240/250异构池和具有相应的广泛范围的功能和特性的bcha应用系统类型/硬件类型。

图6b5示出bcha控制模块215如何选择特定bcha计算资源240/250作为相应重新分配元素的重新分配目标的方面。在该示例中,bcha控制模块215确定所选择的重新分配类型(而不是“平衡故障转移重新部署”、“最佳故障转移重新部署”或“最快故障转移重新部署”)。重新分配类型在确定重新分配目标时特别有用,其中特定重新分配池的几种可能的重新部署目标方案。根据实施,m:n工作配置操作数据、bcha系统组件功能/特性以及特定可用的重新分配类型,可能存在每个重新部署类型将导致选择相同的重新分配目标的情况。可能还存在一些实例,具体取决于特定m:n工作配置的加载特性以及资源故障的特定类型,其中补充/额外计算资源将是维持系统可行性以及bcha系统高可用性要求所必需的。对于平衡重新分配类型,在检查现有的非活动实例并且可以使其处于活动状态并采用再分配元素,或具有处理负载可用性(例如,在评估时执行少于3个应用)之后。

在该示例中,bcha控制模块215的“平衡故障转移类型”检查重新分配池中的任何重新分配目标当前是否具有在活动/非活动状态下执行的应用的现有实例(这也是对于最快故障转移重新部署重新分配类型的首次检查)。

因此,在图6b5中,bcha控制模块215识别在非活动状态下在cr-3上执行的app_5的实例。在确认cr-3没有满载处理器之后,bcha控制模块215确认cr-3是否匹配与故障的app_5相关联的任何其他所需的重新分配特性/能力,以及检查是否存在与故障的app_5相关的任何辅助重新分配特性/能力(例如,特定处理速度/处理能力)。在“平衡故障转移类型”中,如果重新分配池中的多个潜在重新分配目标满足所有必需的重新分配特征/功能,则可以选择满足最大次要重新分配特征/功能的潜在重新分配目标作为重新分配目标(此对于最佳故障转移重新部署重新分配类型也是如此)。

图6b6示出bcha控制模块将app_5/工作项5_1和app_6/工作项6_1从故障的计算资源cr-4重新分配到选定的重新分配目标上,其中app_5/工作项5_1转移到cr-3和app_6/工作项6_1被实例化并且在cr-5上分别执行工作项6-1。对于此示例,bcha控制器通过从现有m:n工作配置资源开发重新分配池来重新部署系统。

在一些实现中,为了确保bcha系统200使用m:n工作配置内的现有bcha系统组件继续操作,bcha控制器215可以临时/无限地暂停非关键bcha应用。例如,在图6b7示出的替代实施例中,改变了与图6b1-6b6中描述的示例实施例相关联的一些能力/特性。更具体地,在图6b6所示的示例中,cr-4,app_6具有不能重新部署到cr-5的重新分配能力/特征要求。例如,cr-4,app可能具有未连接到cr-5的i/o传感器输入要求。相反,在该示例中,cr-2是满足在cr-4针对m:n工作配置故障时的i/o传感器输入要求的唯一的其他bcha计算资源240/250。因此,如在图6b1-6b6中描述的示例实施例中所述,基于处理器/负载要求从重新分配目标池中排除cr-2,其中计算资源240/250在给定时间不能执行多于三个bcha应用。但是,在此示例中,与app_6协调的bcha应用io要求具有应用优先级为3,而app_4的应用优先级为6。bcha应用也可以标记为“严重”或“非严重”,这是确定bcha应用268是否可以临时/无限期地暂停以创建处理器负载可用性并适应重新分配元素的关键参数。在图6b7中,临时暂停app_4,其创建处理器负载可用性以适应故障的app_6的重新部署。

一旦重新分配元素已被重新部署到所选目标并且是活动的,bcha控制器215就执行修复状态确定以验证即使bcha重新分配元素已经被重新部署并且是活动的,bcha系统可用性要求也被保持。如果修复操作状态(图5b2中所示)是绿色,则bcha系统目标,(1)维持系统操作,(1a)仅使用现有bcha系统组件来促进资源故障重新分配;和(1b)维持bcha系统高可用性要求,已全部满足。如果修复操作状态不是绿色,则仅(1)如果状态为红色或(1)和(1a)如果状态为橙色或黄色,bcha系统可能实现。在任何情况下,如果修复操作状态不是绿色,则bcha控制模块可能需要请求bcha补充/附加资源以执行转变回绿色操作状态,其中(1),(1a)和(1b)都被满足。

在图6b8中,bcha控制模块215通过分析特定bcha应用的高可用性要求并添加计算资源-执行特定的bcha应用的活动/非活动实例的每个计算资源的可用性特征,通过修复状态确定每个应用执行是否具有所需的高可用性。在所示示例中,app_1具有设置为.999999的高可用性要求;并且app-1在两个离散的bcha计算资源240/250上执行,特别是cr-1和cr-2。因此,尽管计算资源cr-4故障并且仅使用从m:n工作配置中选择的现有计算资源240/250重新部署重新分配元素,bcha系统200仍满足app_1高可用性要求。bcha控制模块215迭代地检查每个bcha应用268的高可用性要求(在图6a-6b中针对app_1-app7的示例中)。如果验证是否定的-例如app_5的高可用性要求为0.99999,则重新部署到cr-3,其具有0.9999的高可用性特征。由于cr-4的故障,app_5高可用性要求0.99999不再是绿色状态。当cr-4处于“在线”状态时,cr-4的高可用性特性0.99999足以满足app_5的高可用性要求。但是,资源故障检测修复状态确定表明已满足bcha系统目标(1)和(1a),1b故障,因为如果未满足至少一个bcha应用268高可用性要求,则bcha系统高可用性要求也会发生故障。

应理解,本文使用的示例旨在示出与bcha系统负载平衡(资源故障检测负载平衡和活动负载平衡两者)相关联的各种特征/功能。bcha系统可能使用或实施其他方法来计算高可用性要求/确定高可用性合规性。此外,应该理解,添加bcha计算资源240/250高可用性特性以及与bcha应用高可用性的比较仅仅是计算高可用性要求/确定高可用性合规性的一个非限制性示例-其他bcha系统操作参数计算是可能的,并且可以以与本文描述的方式类似的方式与bcha系统组件协调使用,以实现(1)、(1a)和(1b)的bcha系统目标。

关于图6b8讨论的高可用性合规性故障是通过参考图5c描述的bcha活动负载平衡已经识别和修复的故障的示例。在图6b8的上下文中,在z度验证设置为1的情况下,在cr-4的实际故障之前,bcha控制器215将在执行时间线699期间-状态1“绿色”,所有bcha计算资源都是在线的,迭代通过模拟故障cr-1、cr-2、cr-3、cr-4和cr-5中的每一个。在模拟cr-1、cr-2、cr-3的资源故障检测重新分配之后,由于鉴于cr-4的0.99999高可用性特性的丢失app_5高可用性要求不符合app_5的0.9999高可用性要求,bcha控制器215将模拟cr-4的故障并识别出黄色修复操作状态。根据图5c的步骤595,bcha控制模块开发m:n工作配置验证报告,并且在该示例中将识别app_5的高可用性要求不合规(以及基于迭代bcha计算资源故障模拟的其他bcha应用的任何其他不合规问题)。除了生成报告之外,bcha控制模块还可以生成对其他bcha计算资源的请求,以修复任何高可用性要求不合规和/或m:n工作配置不合规。此类修复将涉及从m:n+r工作配置转变回可行的绿色状态m:n工作配置的过渡计划,其中满足所有高可用性要求。

图7a示出流程图,其示出基于(a)没有足够的重新分配潜在目标来生成可行的重新分配池的控制模块;或(b)由z度ha-m:n验证负载=平衡生成以实现工作配置验证的结果报告而开发的补充/附加计算资源240/250请求,bcha控制模块215如何从非绿色修复操作状态转变到绿色修复操作状态的方面。在步骤700中,bcha控制模块215识别非绿色修复操作状态并确定最小bcha计算资源能力/特性以将修复操作状态转变回绿色状态并实现也符合bcha系统200bcha应用268高可用性要求的m:n工作配置。在一些情况下,bcha系统可以执行自动修复以获得适当的bcha计算资源240/250。

根据实现,转变到绿色状态操作的最小bcha计算资源能力/特性可以从由z度活动负载平衡生成的验证报告导出,或者包括在资源故障检测负载均衡期间生成的补充/附加资源请求。在一些实现中,在步骤706中,bcha控制模块215包括补充/附加bcha计算资源请求信息,其被包括并且不一定需要促进转变到绿色状态操作,而是补充/附加bcha计算资源请求信息可以有助于提供更强大的m:n工作配置。可以生成补充/附加bcha计算资源请求信息,并从在z度实时负载平衡/m:n工作配置验证期间执行的计算资源故障模拟中导出。在步骤709中,可以将计算资源请求组合成单个请求,或者可以与补充/附加bcha计算资源请求分开地发出用于促进绿色状态转变的最小计算资源请求的请求。在步骤715中,bcha调试模块210和bcha控制模块215一起工作以将在步骤712中提供的任何所请求的bcha硬件资源起点提供到在线bcha计算资源240/250中。在步骤718中,bcha控制模块215重新部署适当的bcha应用268和相应的bcha工作项270,以便于转变回绿色状态。bcha控制模块确定是否在步骤721中还提供了超出最小请求资源的任何补充/附加bcha,其可用于附加系统利用或作为更鲁棒的m:n工作配置操作。在步骤724中,bcha控制模块实例化bcha应用以促进更鲁棒的m:n工作配置。在步骤727中,bcha控制模块进行转变后操作状态验证,并且如果识别出任何问题则循环回到步骤700。在步骤730,bcha控制模块215转变为监视bcha系统健康/操作数据并执行活动负载平衡。

图7b中所示的操作图图示出请求的完全供应的bcha计算资源240/250作为cr-6735。在该示例中,bcha控制模块215识别出涉及先前在故障的cr-4上执行的app_6的i/o连接的重新分配元素能力/特性要求。与上面在6b8中的示例相反,其中cr-2满足重新分配元素能力/特性要求,在该示例中仅符合故障的cr-4。因此,作为由bcha控制模块215发起的资源故障检测负载平衡的部分,bcha控制模块215识别出当前m:n工作配置不能遵守并立即发出对符合要求的补充/附加计算资源240/250的请求。

在图7b的示例中,基于活动负载平衡,bcha控制模块215还请求补充/附加计算资源以确保鲁棒的绿色状态,m:n工作配置。具体地,进行z=1度活动负载平衡,bcha控制模块215识别出促进更鲁棒的绿色状态的机会,操作请求具有0.99999高可用性特征的bcha计算资源,使得app_1、app_2和app_3将具有可行的故障转移目标,如果满载cr-1故障,则app_3(也具有0.99999应用可用性要求)应该需要计算资源。图7c示出对应于图7b的操作图部署的附加cr-6bcha计算资源。

在一些实施例中,bcha控制模块215可以使用可靠性监视器度量的方面来促进系统负载平衡。例如,可靠性引擎模块可以使用能力、特性作为重新分配约束(例如,对特定bc应用、应用元素和/或工作项类型的os要求)来:

(i)确定运行所有应用所需的资源数量。

(ii)确定具有不同os要求的各种应用所需的系统可用性。这可以针对整个过程或过程段(例如单元、火车和设备)进行计算。

(iii)确定哪些应用对过程或运行工厂至关重要。如果关键应用停止并且未在备用资源上重新启动,则安全系统可以终止该过程以使工厂进入安全状态。

(iv)确定每个bc应用所需的关键性。

(v)确定应用约束是什么(例如,可能需要在同一资源上运行两个控制应用)。

这些是可靠性引擎可以监视的一些示例/不同的负载平衡/可用性管理度量。通过与高可用性控制器协同动态协调计算资源/应用/工作项管理,这些模块可帮助确保高效、有效的系统操作参数,并有助于实现系统的目标可用性指标。

基于上述确定中的一个或多个,与可靠性监视器115协同工作的bcha控制120可以计算系统的可用性并促进负载平衡优化。例如,在机器故障或资源受限状态的情况下,高可用性控制器120/可靠性监视器115可以临时或关闭非关键或最不重要的应用(例如,优化控制应用),以便可用的计算能力可用于运行关键控制应用。高可用性控制器120/可靠性监视器115可以快速实现该故障转移,而不会触发过程终止/安全系统。作为另一示例,高可用性控制器120/可靠性监视器115可以使用可用或重新获得的计算资源/可用性(或附加/补充提供的资源(例如,一旦机器重新联机)以重新分配移动并重新启动考虑到安全系统的潜在动作(例如,关闭动作)的关键应用。在一些实施例中,可靠性监视器还可以跨多个bc资源分布bc应用实例工作项以管理资源加载。

在一些实施例中,可以实时计算bcha系统200的各种系统度量。这些系统度量可以指示bcha系统200可靠性和/或可用性。在一些实施例中,bcha系统200度量也可以被传送给用户(例如,传送到客户端设备、人机界面)。bcha系统200度量的示例包括但不限于:

(a)在所期望或所需可用性下运行所有应用所必需的硬件数量和资源。

(b)运行超过规定临界点的应用所需的机器数量。

(c)高可用性编号(han)、表示系统总体可用性的关键性能指标(kpi)以及bcha系统操作度量,包括:

i.基于当前可用的bcha计算资源240/250和活动bcha应用268的bcha系统200的实际可用性。

ii.故障的bcha计算资源的数量240/250。

iii.运行的bcha应用268的数量及其关键性和/或优先级。

iv.非活动bcha应用268的数量及其关键性和/或优先级。

v.由于非关键bcha应用268的不活动而导致的收入损失。

vi.要供应以运行每个bcha应用268的附加bcha计算资源240/250的数量。

vii.如果从可用bcha计算资源240/250池中添加或移除bcha计算资源240/250,则改变整体bcha系统200的可靠性和可用性。

计算机系统化

bcha系统组件可以包括物理机器或物理计算机硬件(“计算机系统”),其中现在将讨论用于使计算机系统执行本文所讨论的任何一种或多种方法的一组指令。有助于在附图中讨论并在此描述的特征和/或功能的在bcha系统中使用的软件或固件可以存储在机器可读存储介质上,并且可以由一个或多个通用或专用可编程微处理器执行。

计算机系统可包括处理器、主存储器、非易失性存储器和接口设备。为简单起见,省略了各种通用组件(例如,高速缓冲存储器)。计算机系统旨在示出可以在其上实现本说明书中描述的任何组件和方法的硬件设备。计算机系统可以是任何适用的已知或方便类型。计算机系统的组件可以通过总线或通过一些其他已知或方便的设备耦合在一起。

处理器可以是例如传统的微处理器,例如intelpentium微处理器或motorolapowerpc微处理器、单核处理器或任何多核处理器。相关领域的技术人员将认识到,术语“机器可读(存储)介质”或“计算机可读(存储)介质”包括可由处理器访问的任何类型的设备。

存储器通过例如总线耦合到处理器。作为示例而非限制,存储器可以包括随机存取存储器(ram),诸如动态ram(dram)和静态ram(sram)。内存可以是本地、远程或分布式的。

总线还将处理器耦合到非易失性存储器和驱动单元。非易失性存储器通常是磁性软盘或硬盘、磁光盘、光盘、只读存储器(rom),例如cd-rom、eprom或eeprom,磁卡或光卡、或大量数据的其他形式的存储。在计算机系统中执行软件期间,这些数据中的一些通常由直接存储器访问过程写入存储器。非易失性存储可以是本地的、远程的或分布式的。非易失性存储器是可选的,因为可以使用存储器中可用的所有适用数据来创建系统。典型的计算机系统通常包括至少处理器、存储器和将存储器耦合到处理器的设备(例如,总线)。

软件通常存储在非易失性存储器和/或驱动单元中。实际上,对于大型程序,甚至可能无法将整个程序存储在存储器中。然而,应该理解,对于运行的软件,如果需要,将其移动到适于处理的计算机可读位置,并且出于说明的目的,该位置在本文中被称为存储器。即使当软件被移动到存储器以供执行时,处理器通常也将利用硬件寄存器来存储与软件和本地高速缓存相关联的值。理想情况下,这可以加快执行速度。如本文所使用的,当软件程序被称为“在计算机可读介质中实现”时,假设软件程序存储在任何已知或方便的位置(从非易失性存储器到硬件寄存器)。当与程序相关联的至少一个值存储在处理器可读的寄存器中时,处理器被认为“被配置为执行程序”。

总线还将处理器耦合到网络接口设备。该接口可以包括调制解调器或网络接口中的一个或多个。可以理解,调制解调器或网络接口可以被认为是计算机系统的部分。该接口可以包括模拟调制解调器、isdn调制解调器、电缆调制解调器、令牌环接口、卫星传输接口(例如,“直接pc”)或用于将计算机系统耦合到其他计算机系统的其他接口。该接口可以包括一个或多个输入和/或输出设备。作为示例而非限制,i/o设备可以包括键盘、鼠标或其他指示设备、磁盘驱动器、打印机、扫描仪以及包括显示设备的其他输入和/或输出设备。作为示例而非限制,显示装置可包括阴极射线管(crt)、液晶显示器(lcd)或一些其他适用的已知或方便的显示装置。为简单起见,假设本文未描述的任何设备的控制器可以驻留在接口中。

在操作中,计算机系统可以由操作系统软件控制,该操作系统软件可以包括文件管理系统,例如磁盘操作系统。具有相关文件管理系统软件的操作系统软件的一个例子是来自华盛顿州雷德蒙德的微软公司的称为的操作系统系列及其相关的文件管理系统。操作系统软件及其相关文件管理系统软件的另一个例子是linux操作系统及其相关的文件管理系统。文件管理系统通常存储在非易失性存储器和/或驱动单元中,并使处理器执行操作系统输入和输出数据以及将数据存储在存储器中所需的各种动作,包括在非易失性存储器和/或驱动单元上存储文件。

可以根据对计算机存储器内的数据位的操作的算法和符号表示来呈现详细描述的一些部分。这些算法描述和表示是数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域其他技术人员的手段。这里的算法通常被认为是导致期望结果的自洽操作序列。操作是需要物理操纵物理量的操作。通常,尽管不是必需的,这些量采用能够被存储、传输、组合、比较和以其他方式操纵的电信号或磁信号的形式。有时,主要出于通用的原因,已经证明将这些信号称为比特、值、元素、符号、字符、术语、数字等是方便的。

然而,应该记住,所有这些和类似术语都与适当的物理量相关联,并且仅仅是应用于这些量的方便标签。除非从以下讨论中明确说明,否则应当理解,在整个说明书中,利用诸如“处理”或“计算”或“计算”或“确定”或“显示”等术语的讨论指的是计算机系统或类似电子计算设备的动作和过程,其将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操作和转变成类似地表示为计算机系统存储器或寄存器或其他此类内的信息存储、传输或显示设备内的物理量的其他数据。

本文呈现的算法和显示并非固有地与任何特定计算机或其他装置相关。各种通用系统可以与根据本文的教导的程序一起使用,或者可以证明构造更专用的装置以执行一些实施例的方法是方便的。各种这些系统所需的结构将从下面的描述中看出。另外,没有参考任何特定编程语言描述这些技术,因此可以使用各种编程语言来实现各种实施例。

在替代实施例中,机器作为独立设备操作或者可以连接(例如,联网)到其他机器。在联网部署中,机器可以在客户端-服务器网络环境中以服务器或客户端机器的能力运行,或者作为对等(或分布式)网络环境中的对等机器运行。

该机器可以是服务器计算机、客户端计算机、个人计算机(pc)、平板电脑、膝上型计算机、机顶盒(stb)、个人数字助理(pda)、蜂窝电话、iphone、黑莓、处理器、电话、网络设备、网络路由器、交换机或网桥,或能够执行指定该机器要采取的操作的一组指令(顺序或其他)的任何机器。

虽然机器可读介质或机器可读存储介质在示例性实施例中被示为单个介质,但是术语“机器可读介质”和“机器可读存储介质”应被视为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“机器可读介质”和“机器可读存储介质”还应被视为包括能够存储、编码或携带一组指令以供机器执行并且使机器执行本公开技术和创新的一种或多种方法的任何介质。

通常,被执行以实现本公开的实施例的例程可以被实现为操作系统或特定应用、组件、程序、对象、模块或被称为“计算机程序”的指令序列的部分。计算机程序通常包括在计算机中的各种存储器和存储设备中在不同时间设置的一个或多个指令,并且当由计算机中的一个或多个处理单元或处理器读取和执行时,使计算机执行操作以执行涉及本公开的方面的元素。

此外,虽然已经在完全运行的计算机和计算机系统的背景下描述了实施例,但是本领域技术人员将理解,各种实施例能够以各种形式被分配为程序产品,并且无论用于实际影响分配的特定类型的机器或计算机可读介质如何,该公开均适用。

机器可读存储介质、机器可读介质或计算机可读(存储)介质的其他示例包括但不限于可记录类型介质,诸如易失性和非易失性存储器设备、软盘和其他可移动磁盘、硬盘驱动器、光盘(例如,光盘只读存储器(cdrom)、数字通用盘(dvd)等)等以及诸如数字和模拟通信链路的传输类型介质。

除非上下文明确要求,否则在整个说明书和权利要求书中,词语“包括”、“包含”等应以包含性的含义来解释,而不是排他性或穷举性的含义;也就是说,在“包括但不限于”的意义上。如本文所使用的,术语“连接”、“耦合”或其任何变体意指两者或更多元素之间的任何直接或间接连接或耦合;元素之间的连接的耦合可以是物理的、逻辑的或其组合。另外,当在本申请中使用时,词语“在这里”、“上方”、“下方”和类似含义的词语应当指代本申请的整体而不是本申请的任何特定部分。在上下文允许的情况下,使用单数或复数的上述具体实施方式中的词语也可以分别包括复数或单数。单词“或”参考两个或多个项目的列表涵盖了该单词的所有以下解释:列表中的任何项目、列表中的所有项目以及列表中的项目的任何组合。

本公开的实施例的以上详细描述并非旨在穷举或将教导限制为上文公开的精确形式。虽然以上出于说明性目的描述了本公开的特定实施例和示例,但是如相关领域的技术人员将认识到的,在本公开的范围内可以进行各种等同修改。例如,虽然以给定顺序呈现过程或块,但是备选实施例可以执行具有步骤的例程,或者采用具有不同顺序的块的系统,并且可以删除、移动、添加、细分、组合和/或修改一些过程或块,以提供替代或子组合。这些过程或块中的每一个可以以各种不同的方式实现。而且,虽然有时将过程或块示出为串行执行,但是这些过程或块可以替代地并行执行,或者可以在不同时间执行。此外,本文中提到的任何具体数字仅是示例:替代实施可以采用不同的值或范围。

本文提供的本公开的教导可以应用于其他系统,不一定是上述系统。可以组合上述各种实施例的元素和动作以提供进一步的实施例。

上面提到的任何专利和申请以及其他参考文献,包括可能在随附的文件中列出的任何参考文献,都通过引用结合在此。如果需要,可以修改本公开的方面以采用上述各种参考的系统、功能和概念来提供本公开的又一些实施例。

根据以上详细描述,可以对本公开做出这些和其他改变。虽然以上描述描述了本公开的某些实施例,并且描述了预期的最佳模式,但无论上文在文本中如何详细描述,该教导可以以多种方式实践。系统的细节在其实现细节方面可以有很大不同,同时仍然包含在本文公开的主题中。如上所述,在描述本公开的某些特征或方面时使用的特定术语不应被视为暗示本文中重新定义术语以限于与该术语相关联的本公开的任何特定特性、特征或方面。通常,以下权利要求中使用的术语不应被解释为将本公开限制于说明书中公开的特定实施例,除非上述具体实施方式部分明确地定义了这些术语。因此,本公开的实际范围不仅包括所公开的实施例,还包括在权利要求下实践或实现本公开的所有等同方式。

从前述内容可以理解,本文已经出于说明的目的描述了所公开技术的特定实施例,但是在不脱离实施例的精神和范围的情况下可以进行各种修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1