一种云故障数据的决策方法及系统的制作方法

文档序号:7800374阅读:239来源:国知局
一种云故障数据的决策方法及系统的制作方法
【专利摘要】本发明涉及一种云故障数据的决策方法及系统,属于云故障领域。本发明文件操作模块,用于对云故障数据文件的打开、分析:文件打开模块,用于选择打开云故障数据文件;文件分析模块,用于获取云故障数据文件的特征属性和类别属性;决策结果生成模块,用于根据打开的云故障数据文件生成决策图;检测结果显示模块,用于显示云故障检测的结果:当遍历到决策图中类别属性表示的节点时,计数器加1,并记录下该节点的值,直至整张图遍历完毕,再将记录下的节点值显示给用户。本发明结合传统故障分类及云计算环境的特点,建立云故障的分类;使新算法适应云计算环境下软件故障的类别多样化特征;通过遍历得到的决策图,能够得出检测到的云故障列表。
【专利说明】一种云故障数据的决策方法及系统
【技术领域】
[0001]本发明涉及一种云故障数据的决策方法及系统,属于云故障领域。
【背景技术】
[0002]关于软件故障的分类和故障模型的建立已经较为成熟,已经有研究从故障发生阶段、故障引起的后果、错误性质、错误类型等方面建立软件故障模型。朱荣等人主要针对科学计算程序建立了计算型、分支型、循环型、功能型、死锁型、测试型6种可以覆盖相当数量故障的故障模型,以便管理和标准化这些故障;聂林波等人在考察了国内外关于软件缺陷错误分类方法的基础上,提出了基于过程的缺陷分类方法;曾福萍等人在缺陷模式所属分类中引入了“层次原理”,即分层思想,通过分析积累的软件缺陷数据对缺陷模式的所属分类进行划分,在此基础上进一步给出了软件需求分析、设计和编码各阶段的软件缺陷模式。上述研究都是针对传统运行环境下的软件故障,我们将之称为传统软件故障,这些故障的分类、检测如果用于云计算环境下,可能会出现偏差。此外,云环境中也出现了一些传统软件环境下没有的故障。
[0003]云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模式。通过云计算,用户可以根据其业务负载快速申请或释放资源,并以按需支付的方式对所使用的资源付费,在提高服务质量的同时减低运维成本。虽然有些研究开始针对在线测试、云计算环境下的软件故障进行研究,但是没有体现云环境资源众多、调度策略复杂多变所导致的故障的特征。
[0004]决策树是一种简单有效并被广泛认可和使用的分类技术,通常用来解决多属性数据的分类问题。C4.5算法是J.R.Quinlan于1993年提出的一种对ID3的改进算法,C4.5算法采用信息增益率来选择属性,避免了选择属性时偏向选择取值多的属性的现象,并能处理连续属性。但是C4.5算法的类别属性只有一个,即分类是从一个角度展开的,然后分成不同的类别。比如说,一个学校的校奖学金制度,分为一等奖学金、二等奖学金、三等奖学金和无奖学金,那么根据学生的表现,仅可以得到四种情况中的一种。云计算环境下的故障有其特殊性,传统的C4.5算法并不能满足云故障的决策分类。

【发明内容】

[0005]本发明提供了一种云故障数据的决策方法及系统,以用于解决云计算环境下故障来源多样、特征复杂及云故障难以决策分类的问题。
[0006]本发明的技术方案是:一种云故障数据的决策方法,包括:
文件操作模块,用于对云故障数据文件的打开、分析:文件打开模块,用于选择打开云故障数据文件;文件分析模块,用于获取云故障数据文件的特征属性和类别属性;
决策结果生成模块,用于根据打开的云故障数据文件生成决策图;
检测结果显示模块,用于显示云故障检测的结果:当遍历到决策图中类别属性表示的节点时,计数器加1,并记录下该节点的值,直至整张图遍历完毕,再将记录下的节点值显示给用户。
[0007]所述决策结果生成模块的具体步骤如下:
51、训练集中云故障数据的处理(当第一次执行时训练集指的是云故障数据文件,当递归执行时训练集指的是非空子集):
如果训练集中的特征属性及类别属性值为空,则返回null ;
如果训练集中每一个实例都属于相同的类别创建4个节点并返回,分别以标记节点;
如果训练集中的特征属性为空,那么创建4个节点并返回,分别用训练集中多数实例所在的类标记节点;
如果训练集中每一个实例都属于相同的类别G (I^i ^ 4),创建节点并以G标记; 其中,训练集的数据包括云故障的特征属性和类别属性;
特征属性指云计算环境下软件在运行中与故障相关的属性;
类别属性C;、C2、C,分别表示按故障所属层次分类、按故障来源分类、按故障所属服务阶段分类、按故障影响范围分类:
所述按故障所属 层次分类包括基础设施即服务层故障、平台即服务层故障和软件即服务层故障;
所述按故障来源分类包括硬件故障和软件故障,所述硬件故障包括存储区域网络故障、主机故障和网络设备故障,所述软件故障包括云计算系统软件故障、用户应用软件故障和第三方软件故障,所述云计算系统软件故障包括虚拟机故障、监控软件故障、数据库软件故障、安全相关软件故障以及计价收费软件故障;
所述按故障所属服务阶段分类包括服务查找阶段故障、服务请求阶段故障和服务提供阶段故障;
所述按故障影响范围分类包括仅影响自身故障、影响其他部分故障和影响服务结果故
障;
52、对云故障数据源进行预处理:对于训练集中的云故障数据,若存在连续型的属性,则将其离散化;如果没有连续取值的属性则忽略这一步骤;
53、针对每一种分类,计算所有属性的信息增益率:要获得信息增益率最大的属性,需要对每一个特征属性在每一种类别属性情况下进行信息增益率的计算;
54、选择信息增益率最大的特征属性,创建节点并标记为该属性:根据计算的信息增益率选择属性,创建新的节点,以该属性的属性名进行标记;
55、根据特征属性的取值划分相应的子集:得到信息增益率最大的属性并创建节点之后,根据该属性的取值采用步骤S2的计算结果划分相应的子集:
如果为空子集,则生成标记属性值的节点;
如果为非空子集,则对每个非空子集执行步骤Sf S5的操作;
56、整合生成的节点:如果得到的节点存在重复,则对重复的节点进行合并,否则结束。
[0008]所述步骤S2中,若存在连续型的属性,则将其离散化为:对于所有连续属性,其分支都是2条,分支分别对应着Θ”和“> θ”,Θ代表分支阈值;把需要处理的样本或样本子集按照连续属性的大小从小到大进行排序,假设该属性对应的不同的属性值一共有#个,那么总共有#_1个可能的候选分支阈值点;其中,每个候选的分支阈值点的值为上述排序后的属性值链表中两两前后连续元素的中点,N-1个候选分支阈值点中使信息增益最大的点作为分支阈值。
[0009]所述信息增益的定义过程为:
设S代表训练集,由々个样本组成'Ci (i=l, 2,3,4)是S的类别属性,具有J个不同的取值为Cji Cj=I, 2,..., κ);设属于类别Cji的样本的个数为I,那么训练集夕对于G的熵为:
【权利要求】
1.一种云故障数据的决策方法,其特征在于:包括: 文件操作模块,用于对云故障数据文件的打开、分析:文件打开模块,用于选择打开云故障数据文件;文件分析模块,用于获取云故障数据文件的特征属性和类别属性; 决策结果生成模块,用于根据打开的云故障数据文件生成决策图; 检测结果显示模块,用于显示云故障检测的结果:当遍历到决策图中类别属性表示的节点时,计数器加1,并记录下该节点的值,直至整张图遍历完毕,再将记录下的节点值显示给用户。
2.根据权利要求1所述的云故障数据的决策方法,其特征在于:所述决策结果生成模块的具体步骤如下: S1、训练集中云故障数据的处理: 如果训练集中的特征属性及类别属性值为空,则返回null ; 如果训练集中每一个实例都属于相同的类别创建4个节点并返回,分别以标记节点; 如果训练集中的特征属性为空,那么创建4个节点并返回,分别用训练集中多数实例所在的类标记节点; 如果训练集中每一个实例都属于相同的类别Ci4),创建节点并以Ci标记; 其中,训练集的数据包括云故障的特征属性和类别属性; 特征属性指云计算环境下软件在运行中与故障相关的属性; 类别属性C;、C2、C,分别表示按故障所属层次分类、按故障来源分类、按故障所属服务阶段分类、按故障影响范围分类: 所述按故障所属层次分类包括基础设施即服务层故障、平台即服务层故障和软件即服务层故障; 所述按故障来源分类包括硬件故障和软件故障,所述硬件故障包括存储区域网络故障、主机故障和网络设备故障,所述软件故障包括云计算系统软件故障、用户应用软件故障和第三方软件故障,所述云计算系统软件故障包括虚拟机故障、监控软件故障、数据库软件故障、安全相关软件故障以及计价收费软件故障; 所述按故障所属服务阶段分类包括服务查找阶段故障、服务请求阶段故障和服务提供阶段故障; 所述按故障影响范围分类包括仅影响自身故障、影响其他部分故障和影响服务结果故障; S2、对云故障数据源进行预处理:对于训练集中的云故障数据,若存在连续型的属性,则将其离散化;如果没有连续取值的属性则忽略这一步骤; S3、针对每一种分类,计算所有属性的信息增益率:要获得信息增益率最大的属性,需要对每一个特征属性在每一种类别属性情况下进行信息增益率的计算; S4、选择信息增益率最大的特征属性,创建节点并标记为该属性:根据计算的信息增益率选择属性,创建新的节点,以该属性的属性名进行标记; S5、根据特征属性的取值划分相应的子集:得到信息增益率最大的属性并创建节点之后,根据该属性的取值采用步骤S2的计算结果划分相应的子集: 如果为空子集,则生成标记属性值的节点;如果为非空子集,则对每个非空子集执行步骤Sf S5的操作; S6、整合生成的节点:如果得到的节点存在重复,则对重复的节点进行合并,否则结束。
3.根据权利要求2所述的云故障数据的决策方法,其特征在于:所述步骤S2中,若存在连续型的属性,则将其离散化为:对于所有连续属性,其分支都是2条,分支分别对应着 Θ”和“> θ”,Θ代表分支阈值;把需要处理的样本或样本子集按照连续属性的大小从小到大进行排序,假设该属性对应的不同的属性值一共有#个,那么总共有#-1个可能的候选分支阈值点;其中,每个候选的分支阈值点的值为上述排序后的属性值链表中两两前后连续元素的中点,N-1个候选分支阈值点中使信息增益最大的点作为分支阈值。
4.根据权利要求3所述的云故障数据的决策方法,其特征在于:所述信息增益的定义过程为: 设S代表训练集,由々个样本组成'Ci (i=l, 2,3,4)是S的类别属性,具有J个不同的取值为Cji Cj=I, 2,..., κ);设属于类别Cji的样本的个数为I,那么训练集夕对于G的熵为:
5.根据权利要求2所述的云故障数据的决策方法,其特征在于:所述信息增益率的定义为:
6.根据权利要求5所述的云故障数据的决策方法,其特征在于?.积iSPlit_Info{S,D.)定义为: 设S代表训练集,由A个样本组成W是^的某个属性,有《个不同的取值,根据这些取值把划分为》个子集,5;表示第z个子集U=I, 2,...》), 15; I表示子集5;中的样本数量,那么:
7.—种云故障数据的决策系统,其特征在于:包括: 文件操作模块,用于对云故障数据文件的打开、分析:文件打开模块,用于选择打开云故障数据文件;文件分析模块,用于获取云故障数据文件的特征属性和类别属性; 决策结果生成模块,用于根据打开的云故障数据文件生成决策图; 检测结果显示模块,用于显示云故障检测的结果:当遍历到决策图中类别属性表示的节点时,计数器加1,并记录下该节点的值,直至整张图遍历完毕,再将记录下的节点值显示给用户。
【文档编号】H04L12/24GK103957116SQ201410125387
【公开日】2014年7月30日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】姜瑛, 黄婕, 丁家满, 刘英莉, 李凌宇, 汪海涛 申请人:昆明理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1