基于ahp-rbf的分布式大数据系统风险预测方法

文档序号:9261629阅读:358来源:国知局
基于ahp-rbf的分布式大数据系统风险预测方法
【技术领域】
[0001] 本发明属于云计算技术领域,设及一种针对面向服务的云计算系统的风险评测研 究,具体是一种基于AHP-RBF的分布式大数据系统风险预测方法。
【背景技术】
[0002] 近年来,云计算技术发展迅猛,成为产业界、学术界、政府等各界关注的焦点。云计 算的实质是一种动态的资源组合与服务技术,并通过大量虚拟化组件形成资源池来对计算 任务进行分配,使用户可对云计算的服务按需获取。云计算也是并行计算、效用计算、网格 计算和虚拟化技术综合运用的技术,按照服务类型主要划分为SaaS、PaaS、laaSS种层次 架构,各层次架构针对服务的资源类型与形式有所不同,但均WWeb服务的形式为用户提 供资源访问入口,因而向云计算系统的Web服务层提出了更高的要求。
[0003] 伴随着云计算的广泛运用,W及网络计算机资源Web化和服务化的普及,云计算 服务的安全问题及其重要性也越来越明显。系统是否安全可靠,关键在于衡量系统的异常 行为是否可识别、服务行为是否可W预测、行为结果是否可W评估。该些重要的衡量参数都 直接体现了云计算系统的风险度高低。所W如何准确评测地云计算系统服务层的风险度, 是衡量云计算系统是否安全可靠和进行服务选择的关键因素之一。
[0004]目前,云计算系统的WebService服务安全大多采用WS化安全策略。然而,该些 都是静态的Web安全措施,并未针对云计算虚拟化、大规模、分布式的技术特点进行优化, 二者之间存在较大的技术代沟。因而在云计算环境下,WebService将面临全新的的安全挑 战。基于云计算环境的WebService是动态变化的,其所需要的安全措施会根据应用背景和 服务性质的不同而有所区别。即使已有的WebService安全技术已经成熟,能够解决一部分 安全问题,但面向云计算环境的WebService效果却不能令人满意。云计算的安全架构和安 全策略对WebService系统服务层设计提出了较高的要求。因此,进行面向服务的云计算系 统风险评测研究是十分必要的。

【发明内容】

[0005] 因此,针对上述的问题,本发明提出一种基于AHP-RBF(AHP;Anal^ic化erarchy Process,层次化分析法;RBF;RadialBasis化nction,径向基神经网络)的云计算风险预 测方法,该方法WAHP方法为云计算虚拟机节点进行风险值建模,在AHP中设定四个指标 (虚拟机性能指标、时间指标、安全事件指标、风险识别指标),并在指标层和参数层之间引 入RBF神经网络进行风险指标预测,从而获得虚拟机节点的主机风险预测值,提高了风险 值预测精度。同时义用MRPGA(MapReduceforParallelizingGeneticAlgorithms,基于 MapRe化ce模型的并行化遗传算法)并行遗传算法对RBF的核函数进行优化,通过RBF核函 数的动态学习和优化,用多个节点实现快速的实时评估。仿真结果显示,基于MRPGA-RBF并 行遗传神经网络的风险预测方法得到的预测值和基准风险值高度一致。
[0006] 云计算系统的风险监测包含系统状态可用性和可靠性监测、事件安全风险识别、 层次化风险预测、整体风险评估、SLA服务选择等几个关键模块,首先对虚拟池里面的多个VM进行基于风险评估的Qos约束(接口、质量、行为),然后根据云计算服务访问需求化及 单点风险监测预测器进行系统风险评估,最后从决策库里服务选择决策。其中,虚拟池里面 的VM(VirtualMachine)代表网络系统中的受监测的虚拟化主机,云计算系统主要是对由 VM组成的资源池进行动态管理,因此可W通过VM的表现对系统所处的风险状态进行反推。 本发明主要研究对VM监测采集后的风险指标进行计算,对VM的可服务能力进行评估,从而 满足更上层的风险决策和系统状态判断。
[0007] VM的运行状态数据通过风险状态监测器进行采集。该监测器的主要功能是对VM 的操作系统、虚拟设备和Web服务进程进行参数采集,举例说明如下;(1)虚拟机性能方面 的主要指标有;CPU使用率、磁盘I/O、内存大小、内存使用率和空闲率、硬盘大小及使用率、 系统调用和负载状况。该些指标反映了虚拟机系统的负载程度;(2)虚拟机时间指标;包括 平均响应时间、用户等待时间、10读写时间等;(3)安全事件指标主要包括;针对系统安全 事件日志进行统计分析,获得每个时间周期的各类安全事件数量。可反映系统受访问行为 的审计统计数据。该指标还可扩展到WebService服务进程访问日志统计、软件防火墙安全 日志统计等不同Web应用服务层实体的日志信息;可从WebService接口的访问行为日志进 行接口语义层面的日志分析;(4)风险识别指标是采用事件语义分析方法获得的LSA风险 等级,例如分为Levell至Level4。基于上述指标实现了风险预测模块,可采集虚拟节点执 行的效率、负载、服务访问成功率、资源性能W及响应时间长短等参数并综合分析。所有可 能获取参数按照类型可W划分为不同的风险指标。
[0008] 但是,状态采集频度太高会大量的消耗本地VM的计算资源,在通信过程中也会消 耗更多的网络带宽。并且,过于频繁的采集会获得大量的噪声数据,该在一定程度上会干扰 风险判别过程。在实践过程中,对很大一部分状态的采集要通过对应用程序植入跟踪代码 来完成,把相应的状态收集功能嵌入在Web服务接口的代码中,不仅会使云计算Web服务的 设计和部署难度加大,还会对风险监测功能产生影响。因此要同时兼顾VM的性能承受能力 和风险状态之间相关性,从该个角度出发,合理的设计风险预测所必须的参数,妥当的制定 风险监测策略。
[0009] 为了解决上述技术问题,本发明所采用的技术方案是,一种基于AHP-RBF的分布 式大数据系统风险预测方法,包括如下步骤:
[0010] 步骤1 ;采用AHP方法构建云计算虚拟机的单点风险描述模型;其中,AHP方法的 具体步骤如下:
[0011] 步骤11;划分递阶层次结构,其包括=层,目标层、准则层和方案层,其中,目标层 包含一个元素,是构建云计算虚拟机的单点风险描述的预设目标;准则层包含多个元素,是 构建云计算虚拟机的单点风险描述的中间环节,还可W划分为不同的准则、子准则;方案层 位于最底层,是构建云计算虚拟机的单点风险描述的各种可行方案和措施;
[0012] 步骤12 ;建立两两比较判断矩阵,判断矩阵是针对某一层某要素而言的,表示该 要素与处于相同层的其它要素之间的相对优越程度;首先W第一层的要素为标准,将第二 层次的要素和其进行两两比较,依据评定尺度对其相对重要度进行确定,构造判断矩阵;
[0013] 步骤13 ;通过判断矩阵来计算被比较元素的相对权重值,将该层各种要素和上一 层相比排出优劣顺序,也即权重值;权重值通过各判断矩阵计算而得,计算权重值时,首先 计算出判断矩阵的特征向量w,再通过归一化处理的方法,便可计算出针对的相对重要度, 也就是权重;
[0014] 步骤14 ;对每一层次的元素的组合权重进行计算,在计算时要用到层次单排序时 的计算结果,也就是每一层元素关于上一层各元素的相对权重值,进而得出层次分析模型 中每一层中的所有要素和针对总目标的组合权重值;组合权重在计算时的顺序是由上而下 进行的,最终得出最低层元素对于总体目标的组合权重;
[00巧]步骤2 ;用RBF径向基神经网络(简称RBF神经网络)实现AHP中的风险指标的预 巧U;RBF神经网络包含3层;第一层是输入层,由信号源节点组成;第二层为隐含层,该层所 含的神经元数目是由具体问题而定的;第=层为输出层,主要是对输入模式做出响应;其 中,RBF神经网络的隐含层的传输函数采用径向基函数,径向基函数网络是局部逼近网络, 学习速度比较快,高斯函数是比较常用的基函数,基函数表示为:
[0016]
[0017] 在式中,I|x-Ci||表示X与Ci之间的欧式距离,Ti(x)表示第i个隐含层节点的输 出,X是n维的输入向量,m是隐含层神经元个数,Ci是基函数中屯、,0i是第i个隐含层节 点的基宽度;隐含层的每个神经元节点都有一个径向基函数中屯、向量Ci,该向量和输入样 本X具有相同的维数,Ci=[C…Ci2,. ..,cjT,i= 1, 2,. ..m,隐含层有m个神经元,则有m 个该样的中屯、;
[001引 RBF神经网络的输出层是隐含层节点输出的线性组合,输出表达式为:
[0019]
[0020] 是第i个隐含层节点到输出层节点的权值,P是输出层神经元个数。
[0021] 在RBF神经网络中,隐含层节点的输出代表着输入样本X离开隐含层节点的径向 基函数中屯、。的程度。由于不存在连接输入节点和隐含层节点的权矩阵,因此隐含层的训 练任务不是调节权矩阵,而是为每个隐节点选择其中屯、向量。网络的输入层实现非线性映 射,输出层实现线性映射;
[002引步骤3 ;采用MRPGA算法对RBF神经网络的隐含层优化,实现RBF神经网络对云计 算虚拟机的单点风险预测;
[0023] 在RBF神经网络中,每个指标都对应一个RBF,每个指标的RBF输入为各自对应的 参数,如虚拟机性能指标P,P=巧1,P2, P4,Pg,Pe},该指标对应的RBFi输入为该指标下 的参数Pi,输出为该指标的评分为Sp。最后再将各个指标的评分结果(Sp,St,S。,Sf)作为RBF,的输入参数,输出即为总体评价值S"。。1。即逐层推进对每个指标进行评分,然后综合考 虑各个指标的风险情况,得到最后的风险值。因此,RBF神经网络中需要确定的参数有:
[0024] (1)隐含层节点数;本发明的验证数据维数较低,可W接设为参数层的个数;
[0025] (2)隐含层节点的中屯、值和宽度;可采用进化算法进行优化,采用MapRe化ce做并 行进化算法的优化;
[0026] (3)隐含层到输出层的连接权值:递推的最小二乘法训练。
[0027] 其中隐含层节点中屯、值的选取对网络的函数逼近能力具有很大的影响,不恰当地 选取会使网络收敛慢,甚至会造成网络发散。因此本发明采用GA算法寻优,并利用MRPGA 进行并行加速,快速确定RBF的最优值。
[0028] 本发明主要采用改进的并行的递阶遗传算法(HGA)实现对RBF核函数进行优化。 首先采用混合递阶遗传算法训练RBF神经网络,其将递阶遗传算法与递推最小二乘法相结 合。利用递阶遗传算法只确定RBF神经网络的结构、隐含层节点的中屯、和宽度,同时用递推 最小二乘法对隐含层和输出层之间的连接权值进行构造。采用递推最小二乘法确定隐含层 和输出层之间的权值,可W保证较快的收敛速度。混合递阶遗传算法使递阶遗传算法训练 RBF神经网络的效率得到了提高,同时也保留了递阶遗传算法的优点。
[0029] 混合递阶遗传算法训练RBF神经网络步骤如下:
[0030] 步骤(1);编码阶段;考虑到RBF神经网络参数及其解的寻优能力,参数基因采用 实数编码,每个基因用一个实数代表。控制基因仍然采用二进制编码,每个二进制位对应一 个隐含层节点的中屯、编码和宽度编码;
[0031] 步骤(2):生成初始化种群;
[003引步骤(3);个体解码,构造RBF神经网络隐含层;
[003引步骤(4);递推最小二乘法确定权值;
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1