用于数据处理的操作风险控制装置和方法

文档序号:6568858阅读:125来源:国知局
专利名称:用于数据处理的操作风险控制装置和方法
技术领域
本发明涉及用于控制数据处理系统中的操作风险的技术措施, 并且更具体地涉及控制联网数据处理系统中的操作风险。
背景技术
当前,比如存储网络这样的网络架构主要围绕如下事实来设计对数据存储并且因此对存储系统本身的要求正变得越来越大并 且需要适应由不同销售商供应的不兼容系统。随着系统规模增加以 适应增长的处理需要,依赖于网络的应用和服务面临越来越多的风 险。随着更多单元被部署到网络中,该网络内的总体风险增加。因 此,系统的规模越大,软件故障、硬件故障或者管理员错误自行跨 越更大数目的IT系统单元而传播并且因此影响更大一部分业务的概 率就越大。目前没有系统地将风险作为网络架构设计中的控制因素来考 虑的已知设计方式。也就是说,没有用于准确地量化业务因它的IT 架构而导致的操作风险以及用于以显而易见的的方式緩解该风险的 机制。没有这样的风险控制机制,除非以资源的过度投资和过度分 配为代价,否则业务就不能一致地管理故障风险。因而,在业务可 靠性上进行高级投资,其中一些投资可能是多余的或者目标性不强。例如从申请人为Chang和Ashutosh、发明名称为"Software application domain and storage domain risk analysis process and method"(软件应用域和存储域风险分析处理和方法)的公开文献 US2004/0054618中已知使用各种用于评估在比如软件应用和数据存 储设备这样的计算系统单元中固有的故障技术风险的技术。然而, 其中考虑的评估技术仅向用户提供与在使用这样的计算系统单元时涉及到的技术风险有关的信息。没有考虑风险单元对于业务的关键 性级别,并且在其中对该信息的利用仍属空白。因此,希望具有用于参照业务重要性以及基础结构单元的估计 故障概率来量化计算系统风险的技术措施以及具有一种用以在设计 级将适当的风险緩解包含到系统中的技术装置、逻辑设置或者方法。发明内容本发明相应地在第 一 方面中提供 一 种用于控制数据处理系统中的操作风险的装置,该装置包括风险域分段器,用于将所述数 据处理系统分段成多个风险域;域风险阈值选择器,用于为所述多 个风险域中的至少一个风险域选择域风险阈值;系统单元监视器, 可操作为向所述数据处理系统查询对系统单元的存在的指示;风险 量化器,用于评价系统单元的单元风险以及用于计算所述单元风险 对域风险总量的潜在贡献;风险阈值比较器,用于对所述域风险总 量与所述域风险阈值进行比较;以及域分配器,可操作为按照所述 风险阈值比较器的输出将所述系统单元分配给风险域。 优选地,所述潜在贡献为正则增加所述域风险总量。 优选地,所述潜在贡献为负则减少所述域风险总量。 优选地,所述风险阈值可作为预算值来进行运算,其中风险值 扣减器使用 一个或者多个所述单元风险值进行减法运算来从该预算 值进行扣减。优选地,所述风险阈值可作为上限值来进行运算,其中风险值 累加器使用一个或者多个所述单元风险值进行加法运算来逼近该上限值。优选地,所述系统单元包括应用、主冲几系统、数据存储系统、 I/O系统和数据通信系统中的至少一个。优选地,所述单元风险值包含用于功能关键性的加权因子。 优选地,所述单元风险值包含单元可靠性因子。 优选地,所述多个风险域按层级结构的等级来设置。优选地,为层级结构的各所述等级分配管理条件。 优选地,所述管理条件包括功能复制、备份、镜像和热待机中 的至少一个。优选地,所述系统单元包括存储区网络。优选地,所述存储区网络可操作为借助虛拟化组件而被划分成域。在第二方面中,本发明提供一种用于控制数据处理系统中的操作风险的方法,该方法包括以下步骤由风险域分段器将所述数据 处理系统分段成多个风险域;由域风险阈值选择器为所述多个风险 域中的至少 一个风险域选择域风险阈值;由系统单元监视器向所述 数据处理系统查询对系统单元的存在的指示;由风险量化器评价系 统单元的单元风险以及计算所述单元风险对域风险总量的潜在贡 献;由风险阈值比较器对所述域风险总量与所述域风险阈值进行比 较;以及由域分配器按照所述风险阈值比较器的输出将所述系统单 元分配给风险域。优选地,所述潜在贡献为正则增加所述域风险总量。 优选地,所述潜在贡献为负则减少所述域风险总量。 优选地,所述风险阈值可作为预算值来进行运算,其中风险值 扣减器使用一个或者多个所述单元风险值进行减法运算来从该预算 值进4于扣减。优选地,所述风险阈值可作为上限值来进行运算,其中风险值 累加器使用 一个或者多个所述单元风险值进行加法运算来逼近该上 限值。优选地,所述系统单元包括应用、主机系统、数据存储系统、 I/O系统和数据通信系统中的至少一个。优选地,所述单元风险值包含用于功能关键性的加权因子。 优选地,所述单元风险值包含单元可靠性因子。 优选地,所述多个风险域按层级结构的等级来设置。 优选地,为层级结构的各所述等级分配管理条件。优选地,所述管理条件包括功能复制、备份、镜像和热待机中 的至少一个。优选地,所述系统单元包括存储区网络。优选地,所述存储区网络可操作为借助虛拟化组件而被划分成域。在第三方面中,本发明提供一种计算机程序,该计算机程序包 括用以在加载到计算机系统中并且在该计算机系统上执行时使所述 计算机系统执行根据第二方面所述的方法的所有步骤的计算机程序 代码并且优选地包括与第二方面的优选特征的步骤相对应的计算机 程序代码。在第四方面中,提供一种部署服务的由计算机实施的方法,该 方法包括部署计算机程序代码的步骤,该计算机程序代码可操作为 在部署到计算机基础结构中并且在该计算机基础结构上执行时使所 述计算机系统执行根据第二方面所述的方法的所有步骤,并且该方 法优选地包括部署与第二方面的优选特征的步骤相对应的计算机程 序代码。因此,从其最广义的方面来说,本发明考虑了一种用于量化和控制因对IT软件和基础结构的依赖性而导致的业务风险。


现在将参照附图仅通过例子来描述本发明的优选实施例,在附 图中图1以示意形式示出了根据本发明优选实施例的装置。 图2以流程图形式示出了根据本发明优选实施例的操作方法可 以实施于其中的一种方法或者一种逻辑设置。
具体实施方式
本发明的优选实施例通过使用由风险驱动的系统分段以创建 隔离的风险域来解决网络环境尤其是存储网络环境内的风险緩解问题。这些隔离的风险域在下文中称为ird。 ird是设计为例如在存 储网络中使用块级和文件级存储虚拟化来限制操作风险的基础结构 分段。这一物理或者逻辑的分段用来限制现实风险(即故障)可能 传播跨越并且影响联网操作环境、应用或者服务的程度。ird内允许的风险数量或者量值可以通过阈值来表示,该阈值 限定了该ird内可以允许的最大风险容量。随着单元^皮添加到ird, 该ird内包含的当前风险从空状态朝着如阈值所限定的最大状态递 增。在一个实施例中,阈值可以表达为在新单元^皮添加到ird时不 能超过的总容量。在一个可选实施例中,阈值可以表达为在添加新 单元时从中进行适当扣减的预算。添加到ird的各新单元的影响取决于单元对于整个ird的重要 性。其作用对于ird的预定功能而言高度关键的单元具有较大权值 并且因此在它朝着最大风险容量阈值移动时对ird的当前"所含风 险"值具有较大影响。类似地,其作用不那么关键的单元具有较小权 值并且对ird的当前"所含风险"值具有较小影响。因此,可以基于单元对业务功能的关键性以及它的故障可能性 来为该单元赋予分值或者加权。在这样考虑的情况下,各单元可以 表征为1. 关键而可靠2. 关键而不可靠3. 非关键而可靠4. 非关键而不可靠因此,这些组合中的各组合可以被给予总体风险值,并且系统 的分,殳优选地以之为基础。作为本发明优选实施例的 一 个应用的例子,离散ird —旦创建 和以单元填充就可以基于各成员ird内包含的单元的业务重要性和 风险级来分类成等级。例如,包含对于相关业务的操作具有高度关 键性质并且具有固有高单元风险或者相关性的单元(应用、软件、 服务器、存储装置等)的ird可以分类为1级ird。然而,仅包含中等关键或者风险倾向性质的单元的IRD可以分类为3级IRD。等 级分类允许按照不同种类的IRD对相关业务的操作而言的重要性来 适当地独立管理这些IRD。可以根据特定等级的要求来定制比如风 险阈值、管理授权、管理和维护循环以及变化控制策略之类的考虑 事项。相关业务在IRD或者特定等级内能够容忍的总风险由用于该 等级的风险阈值限定。本发明的优选实施例通过使用存储虛拟化(存储网络虚拟化、 块存储虚拟化和文件存储虛拟化)以及(物理和逻辑)分段来包含 风险和緩解故障事件传播来工作。等级逻辑优选地应用于IRD以在 每等级的基础上限定管理策略和最大风险容量。等级内的IRD然后 将被设置为具有等同和一致的策略及风险容量。相关业务可以限定 很多等级,只要它认为该等级数量对管理它所能容忍的风险点范围 来说是稳健的。在优选实施例中,本发明提供一种通过使用聚集算法以包含如 下值来控制IT环境内的操作风险的技术手段,这些值代表了基础结 构内的单独单元在它们传播经过环境内各种关系和相关性时的风险 贡献。总风险可以表达为在指定时间长度上的停机概率(例如明年 的停冲几风险为0.00001 )。在这一意义下,单元可以是IT基础结构内的任何可限定 (circumscribable )的硬件、软件或者逻辑实体(例如磁盘池或者文 件系统)。参照图1,示出了根据本发明优选实施例的装置的设置。 风险控制引擎100包括查询网络并且获取与基础结构的层级结 构内的所有单元有关的信息的系统单元监视器和分析器110 。风险量 化器120然后将风险值与层级结构的各单元相关联。所示例子为关 4建应用A 170、关4建存储域180、应用B 190和应用C 210。风险值 是按照与单独单元相关联的固有操作风险以及由于单元的集群和非集群相关性所致的风险来分配的。在一个实施例中,风险值也考虑 单元对一个或者多个业务功能的关键性。例如,应用或者数据库可以用于实施事务处理中,在该情况下它对业务的重要性可以反映在 包含于它的风险值中的加权因子中。下文将介绍相关性的具体细节。风险域分段器130然后可操作为创建IRD,由风险阈值选择器150 为各IRD分配风险阈值。在系统的正常操作过程中,系统单元监视 器和分析器定期地查询网络并且获取与基础结构的层级结构内的新 单元有关的信息。使该信息可为风险量化器120所用,该风险量化 器将风险值与已经发现的层级结构内的任何新单元相关联。风险量 化器120还可操作为重新计算由于新单元以及受新单元的引入所影 响的任何单元的集群和非集群相关性所致的风险。风险阈值比较器 140可操作为对任何受影响的IRD的潜在风险聚集值与风险阈值选 择器150所分配的阈值进行比较。如果潜在风险值造成因新单元的 引入而超过任何IRD的风险阈值,则风险域分段器130可操作为创 建新IRD,由风险阈值选择器150为该新IRD分配风险阈值。风险 阈值分配器220然后可操作为将新单元分配给新创建的IRD。另一 方面,如果潜在风险值不会造成因新单元的引入而超过IRD的风险 阈值,则风险域分配器220可操作为将新单元分配给原IRD。例如在图l所示示例结构中,表示为隔离风险域X 160的IRD 创建于IT层级结构内并且初始地以关键应用A 170、关键存储域180 和应用B 190填充。在某一点,将应用C210安装于系统中。系统单 元监视器和分析器查询网络并且获取与新应用C210有关的信息。使信息可为风险量化器120所用,该风险量化器将风险值与新 应用C 120相关联。调用风险量化器120以重新计算因新应用C 210 以及受新应用C 210的引入所影响的任何单元的集群和非集群相关 性所致的风险。然后,调用风险阈值比较器140以对隔离风险域X 160 的潜在风险聚集值与风险阈值选择器150分配给它的阈值进行比较。 将由于新应用C 210的引入而超过隔离风险域X 160在这一示例情 况下的风险阈值,因此调用风险域分,殳器130以创建新IRD即隔离 风险域Y 200,风险阈值选择器150接着为隔离风险域Y200分配风 险阈值。风险域分配器220然后将新单元分配给隔离风险域Y200。现在参照图2,以流程图形式示出了根据本发明优选实施例的 方法或者逻辑设置的步骤。因此,逻辑设置的方法或者操作始于开始步骤300。在步骤302, 查询系统以发现新的或者添加的单元。在步骤304,分析单元以确定 它们的固有和相关的风险值,而在步骤306,为各单元分配单元风险 值。在步骤308,为各单元分配域风险量值。如果在测试步骤310 确定将单元包含在域中将造成超过域风险阁值,则在步骤314创建 新域并且在该域中包含具有其风险值的单元。如果将单元包含在现 有域中将不会造成超过域风险阈值,则在步骤312在现有域中包含 具有其风险值的单元。逻辑设置的方法或者操作在结束步骤316结 束。例如考虑其中将各等级镜像到远程恢复站的三级网络设计。尽 管这一例子考虑将所有三个等级镜像到远程恢复站,但是并非必须 是这种情况。比如远程站镜像之类的考虑取决于针对等级而限定的 管理策略。如果相关业务认为合适,则第四域等级可以用来包含其 重要性并不保证以这一 方式进行镜像的那些单元。可以通过改造现有系统来实施优选实施例的联网基础结构架 构。 一旦已经为各等级限定最大风险容量阈值和关联管理策略,该 实施就包括根据策略来创建逻辑网络(例如虚拟SAN)或者物理网 络(例如物理SAN)并且填充它们的步骤。险信号的值1.固有风险信号固有信号是IT环境内的单个单元所特有的 风险信号并且不直接依赖于环境内的任何其它单元。单元的固有风 险信号可以表达为每单位时间的停机概率。单元的固有风险信号是 可以依赖于各种参数的风险计算算法的输出,这些参数包括安装库 上的OEM可用性数据、现场缺陷率、硬件故障率、故障预测数据、 故障预测算法、最大服务小时的到期部分以及其它可用性或者风险 数据源。2. 非集群相关风险信号非集群相关信号是从接收单元与之具 有相关性的单个单元传播直至单元的风险信号。例如,应用可以从 它运行于其上的服务器接收相关信号,该信号表明了每单位时间服 务器可能经历停机的概率。实际上,非集群相关信号对如下关系进 行建模,这些关系对IT环境内的单元对总风险值的贡献进行加法运 算。3. 集群相关风险信号集群相关信号类似于非集群信号,不同 之处在于可以通过多个底层单元的子集来满足相关性,其中各底层 单元能够等同地对满足相关性作出贡献。底层单元的数目可以足以 达到或者大于满足相关性所必需的数目。在数目大于满足相关性所 必须的数目的情况下,集群相关信号对如下关系进行建模,这些关 系通过用多个等同对等体"配对"(bracing)来緩解IT环境内的风 险。集群相关风险因此可以对IT环境内的单元对总风险值的贡献进 行减法运算。对于各单元,可以使用适当算法来操控固有风险信号以及任何 非集群和集群相关风险信号以计算停机的总风险。这一总量或者聚 集数代表了每单位时间可能在这一单元或者它的底层相关单元内出 现停机的概率。随着在特定IT环境内单元的层级结构中上移,该技 术提供如下值,该值代表了特定业务过程或者活动所依赖于的所有 从属单元的聚集值。这一顶级值代表了每单位时间停机在结构内出 现并且影响业务的概率。因此,在优选实施例中,本发明系统地汇集代表了架构内所有 单元对业务的总风险的风险结构并且提供一种用于通过提供适当隔 离和可独立管理的域来緩解IT环境内的风险的机制。因此,按照与 单独单元相关联的固有操作风险以及由于单元的集群和非集群相关 性所致的风险来管理风险。这一风险结构用于系统设置时的第 一 实 例中、然后在现有硬件或者软件单元超出它们的寿命周期时、在部 署新单元时以及在部署新的架构策略(比如多站镜像)时用来监视 和緩解正在发生的风险。对于本领域普通技术人员而言将清楚的是本发明优选实施例 的方法的全部或者部分可以适当地和有用地实施于一个或者多个逻 辑装置中,这些逻辑装置包括适于执行方法步骤的逻辑单元;并且 这样的逻辑单元可以包括硬件组件、固件组件或者其组合。对于本领域技术人员而言将同样清楚的是本发明优选实施例骤的逻辑单元的逻辑装置中;并且这样的逻辑单元可以比如包括在 例如可编程逻辑阵列或者专用集成电路中的逻辑门之类的组件。这 样的逻辑设置还可以实施于如下启用单元中,这些启用单元用于例 如使用虛拟硬件描述符语言在这样的阵列或者电路中暂时地或者持 久地建立逻辑结构,其中可以使用固定或可传输的载体介质来存储 和传输该虚拟硬件描述符语言。将认识到也可以适当地完全或者部分地用运行于一个或者多 个处理器(图中未示出)上的软件来实现上述方法和设置,并且可 以用在比如磁盘或者光盘等任何适当数据载体(图中也未示出)上 承载的 一 个或者多个计算机程序单元的形式来提供该软件。用于传 输数据的通道可以类似地包括所有描述的存储介质以及信号承载介 质如有线或者无线信号承载介质。本发明还可以适当地实施为用于与计算机系统一起4吏用的计 算机程序产品。这样的实施可以包括固定于有形介质如计算机可读 介质(例如磁盘、CD-ROM、 ROM或硬盘)上或者可通过有形介质 (包括但不限于光学或者模拟通信线路)或者使用无线技术(包括 但不限于微波、红外或者其它传输技术)无形地经由调制解调器或者其它接口设备传输到计算机系统的 一 系列计算机可读指令。该一 系列计算机可读指令实施这里先前描述的所有或者部分功能。本领域技术人员将认识到这样的计算机可读指令可以通过用 于与很多计算机架构或者操作系统 一 起使用的很多编程语言来编 写。另外,可以使用任何当前或者将来的存储器技术(包括但不限 于半导体、磁或者光学)来存储或者使用任何当前或者将来的通信技术(包括但不限于光学、红外或者微波)来传输这样的指令。考 虑到这样的计算机程序产品可以作为可移动介质与附带的印刷或者电子文档(例如用计算才几系统在例如系统ROM或者固定万兹盘上预加 载的压缩包装软件)一起发布或者通过网络如因特网或者万维网从 服务器或者电子公告板发布。在可选方式中,本发明的优选实施例可以用部署服务的由计算 机实施的方法的形式来实现,该方法包括部署计算机程序代码的步 骤,该计算机程序代码可操作为在部署到计算机基础结构中并且在 该计算机基础结构上执行时使所述计算机系统执行该方法的所有步 骤。对于本领域技术人员来说将很清楚的是,在不脱离本发明范围 的情况下,可以对前述示例实施例做出很多改进和修改。
权利要求
1.一种用于控制数据处理系统中的操作风险的装置,所述装置包括风险域分段器,用于将所述数据处理系统分段成多个风险域;域风险阈值选择器,用于为所述多个风险域中的至少一个风险域选择域风险阈值;系统单元监视器,可操作为向所述数据处理系统查询对系统单元的存在的指示;风险量化器,用于评价系统单元的单元风险以及用于计算所述单元风险对域风险总量的潜在贡献;风险阈值比较器,用于对所述域风险总量与所述域风险阈值进行比较;以及域分配器,可操作为按照所述风险阈值比较器的输出将所述系统单元分配给风险域。
2. 如权利要求l所述的装置,其中当所述潜在贡献为正时增加 所述域风险总量,而当所述潜在贡献为负时减少所述域风险总量。
3. 如权利要求1或者2所述的装置,其中所述风险阈值可作为 如下各项中的至少一项来进行运算预算值,其中风险值扣减器使用一个或者多个所述单元风险值 进行减法运算来从所述预算值进行扣减;以及上限值,其中风险值累加器使用一个或者多个所述单元风险值 进行加法运算来逼近所述上限值。
4. 如任一前述权利要求所述的装置,其中所述系统单元包括应 用、主机系统、数据存储系统、I/O系统和数据通信系统中的至少一 个。
5. 如任一前述权利要求所述的装置,其中所述单元风险值包含 以下各项中的至少一项用于功能关键性的加权因子;以及单元可靠性因子。
6. —种用于控制数据处理系统中的操作风险的方法,包括以下 步骤由风险域分段器将所述数据处理系统分段成多个风险域; 由域风险阈值选择器为所述多个风险域中的至少一个风险域选 择域风险阈值;由系统单元监视器向所述数据处理系统查询对系统单元的存在 的指示;由风险量化器评价系统单元的单元风险以及计算所述单元风险 对域风险总量的潜在贡献;由风险阈值比较器对所述域风险总量与所述域风险阈值进行比 较;以及由域分配器按照所述风险阈值比较器的输出将所述系统单元分 配给风险域。
7. 如权利要求6所述的方法,其中当所述潜在贡献为正时增加 所述域风险总量,而当所述潜在贡献为负时减少所述域风险总量。
8. 如权利要求6或者7所述的方法,其中所述风险阈值可作为 如下各项中的至少一项来进行运算预算值,其中风险值扣减器使用一个或者多个所述单元风险值 进行减法运算来从所述预算值进行扣减;以及上限值,其中风险值累加器使用 一个或者多个备用的所述单元 风险值进行加法运算来逼近所述上限值。
9. 一种包括计算机程序代码的计算机程序,所述计算机程序 代码用以在加载到计算机系统中并且在所述计算机系统上执行时使 所述计算机系统执行如权利要求6至8中任一权利要求所述的方法 的所有步骤。
10. —种部署服务的由计算机实施的方法,包括部署计算机程 序代码的步骤,所述计算机程序代码可操作为在部署到计算机基础 结构中并且在所述计算机基础结构上执行时使所述计算机系统执行如权利要求6至8中任一权利要求所述的方法的所有步骤。
全文摘要
一种用于控制数据处理系统中的操作风险的装置,包括风险域分段器,用于将数据处理系统分段成多个风险域;域风险阈值选择器,用于为多个风险域中的至少一个风险域选择域风险阈值;系统单元监视器,可操作为向数据处理系统查询对系统单元的存在的指示;风险量化器,用于评价系统单元的单元风险以及用于计算单元风险对域风险总量的潜在贡献;风险阈值比较器,用于对域风险总量与域风险阈值进行比较;以及域分配器,可操作为按照风险阈值比较器的输出将系统单元分配给风险域。
文档编号G06Q40/00GK101258519SQ200680032822
公开日2008年9月3日 申请日期2006年7月31日 优先权日2005年9月9日
发明者B·D·怀特, S·M·赫尔利 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1