石油云平台资源监控与预警模型的制作方法_2

文档序号:9711568阅读:来源:国知局
云平台中所有代理 模块的个数和服务模块的个数,之后可以确定出每个服务模块连接的代理模块数,然后通 知拥有较多代理模块的服务模块将其多余的代理模块连接到其它服务模块,从而达到负载 均衡的目的。
[0063] 中控模块同时还将服务模块连接成一个环形,目的是防止服务模块的单点故障。 当某一个服务模块突然发生故障时,为了防止其下代理模块的信息丢失,中控模块可以通 知服务模块其下的代理模块将其信息发送到相邻的服务模块。
[0064] 预警模块通过分析由代理模块采集的信息,为每个节点设定一个性能指标,当超 过该指标时,预警模块会触发预警信息,通过短信的方式发送到用户的手机,告知用户石油 云平台某个节点出现了故障,需要及时处理。
[0065] 远程管理模块主要是用来管理该模型的,主要包括了远程日志,远程升级以及发 送命令等功能。用户可以通过远程管理模块请求查看某个服务模块或者中控模块的日志文 件,可以对服务模块和中控模块进行远程一键升级,可以查看服务模块和中控模块的状态 信息,可以发送命令给代理模块执行相应的系统命令和请求代理节点采集静态信息。
[0066] (2)软件环境:
[0067] Linux内核的系统、JDKl.6以上、部署Hadoop环境的集群。
[0068] 硬件环境:
[0069] 内存:4G; CPU:双CPU四核处理器;硬盘容量:I TB
[0070] (3)环境搭建:
[0071 ]中控节点:Cp2001,IP 地址:168 · 173 · 2 · 1
[0072]服务节点:Cp2002~cp2021,IP 地址:168 · 173 · 2 · 2~168 · 173 · 2 · 21 [0073]远程管理模块:Cp2022,IP 地址:168 · 173 · 2 · 22
[0074] JobTracker 节点:cp2023,IP 地址:168 · 173 · 2 · 23
[0075] NameNode 节点:cp2024,IP 地址:168 · 173 · 2 · 24
[0076] SecondaryNameNode 节点:cp2025,IP 地址:168 · 173 · 2 · 25
[0077] 剩下的1975个节点作为代理模块和TaskTracker/DataNode。
[0078] 服务节点与代理节点的映射如表3。

[0081 ] 中控模块将上述的20个服务模块连接成一个环形,即cp2002-cp2003-……- cp2021-cp2002。若服务节点cp2002发生故障,则代理节点cp2026~cp2125则会自动连接 至Ijcp2003,以此类推。一旦cp2002故障修复好,节点cp2026~cp2125则又会自动连接到 cp2002。
[0082]服务节点〇?2002~叩2021会各自与数据库建立连接,连接数为服务节点数\2,即 40个,每个服务节点生成两个连接数,一个负责写即时数据,一个负责写历史数据。
[0083] 代理节点cp2002~cp2021和cp2026~cp4000负责采集数据,然后将数据发送到服 务节点。
[0084] 经长期试验,本发明占用CPU使用率0%~2%,内存占用80M左右。
【主权项】
1. 石油云平台监控与预警模型,其特征在于:包括中控模块,服务模块、代理模块、远程 管理模块以及预警模块; 多个服务模块分别与中控模块之间通过心跳协议通讯,多个代理模块分组,每组分别 与一个服务模块之间通过心跳协议通讯; (1) 代理模块 代理模块通过算法得到如下信息: (a) 进程信息:1分钟运行进程数、5分钟运行进程数和15分钟运行进程数; (b) CPU的信息:用户时间百分比、NICE时间百分比、系统时间百分比、I/O时间百分比、 空闲时间百分比、所有CPU的用户时间百分比、所有CPU的NICE时间百分比、所有CPU的系统 时间百分比、所有(PU的I/O等待时间百分比和所有CPU的空闲时间百分比; (c) 内存信息:总内存、使用内存和空闲内存; (d) 交换区信息:总交换区、使用交换区和空闲交换区; (e) 磁盘信息:磁盘每秒10次数、磁盘读速度、磁盘读字节数、磁盘写速度和磁盘写字节 数; (f) 网络流量信息:IP接受包率、IP回应包率、IP请求包率、TCP接受段率、TCP发送段率、 TCP重发段率、UDP接受包率和UDP接受包率; 代理模块将上述采集的信息通过心跳协议每隔3秒发送给服务模块,由服务模块处理 这些信息; (2) 服务模块 服务模块将代理模块采集的信息统一存储到缓存中,定时将信息写入数据库中;数据 库提供了两种接口,MySQL和Oracle;信息被分为即时信息、一月历史信息和三月历史信息, 即时信息每5秒从缓存中取出信息更新即时信息,一月历史信息和三月历史信息每30秒从 缓存中取出信息将信息存储到历史信息中;信息供预警模块进行数据挖掘使用; 服务模块将自身的状态信息和代理模块采集的信息,通过心跳协议每隔3秒发送给中 控模块; (3) 中控模块 中控模块接受服务模块发送过来的信息,服务模块出现故障及时告知代理模块,代理 模块进行处理,同时通过计算出石油云平台的负载均衡算法,使得石油云平台的负载处于 一定的稳定、平衡状态之中; (4) 预警模块 预警模块由处于Hadoop环境中的集群设计出的K-means对海量数据的挖掘算法,对海 量数据进行挖掘分析,判断节点的运行状态及是否正常,并将信息及时反馈给用户; (5) 远程管理模块 用来管理该石油云平台监控与预警模型。2. 根据权利要求1所述的石油云平台监控与预警模型,其特征在于:代理模块的算法 为: 采用分组机制适应不同规模的机群以及对大规模机群的实时响应,采用拓扑结构解决 Group的单点故障,用监控与预警相结合对机群实时监控,具体包括以下过程: (1)机群分组 cluster Size ., 根据机群的规模确定将机群分成N组,100 " ,其中, 1 chisierSize <\QQ chtsierSize - Ν χ 2 - 1 . f clusterSize为机群的总节点数,贝lj每组的节点数& = < N ' ^小数 clusicrSizc - 3 0 < /V ^ 1 点后舍弃; 多余的节点数采用平均分配到随机组中,每一组均有一个服务器,称为Group,其下的 所有节点均由代理负责采集信息,称为Agent,Agent采集的信息分为静态信息和动态信息, 机群分组包含以下执行步骤: ① Agent将信息通过通信协议定时交给Group处理; ② Group对信息进行分类,将信息分为即时信息和历史信息,又将历史信息分成1月历 史ig息和3月历史彳目息; ③ Group定时将上述信息写入指定数据库中,以供用户实时监控且为预警方法提供数 据基础; ④ Group对Agent的响应时间为3秒,符合大部分机群规模实时响应需求; (2)解决单点故障 Group存在单点故障,即当某个Group出现故障时,该Group下的Agent将不能工作,采用 G r 〇 u p的冗余机制和星形拓扑结构,为每个G r 〇 u p设个备用G r o u p,称作 SecondaryGroup,SecondaryGroup与Group具有同样的功能,但是当没有Agent与 SecondaryGroup通信时,SecondaryGroup只开启了 一个监听线程,不断地监听是否有Agent 连接进来,一旦有Agent连接进来,SecondaryGroup将会启动数据处理功能,由于Group与 SecondaryGroup的灵活切换需要一个中心节点去处理,因此又引入星形拓扑结构,其中心 节点为服务器,又称为Contro INode,所有Group和SecondaryGroup与Contro INode直接相 连,由此便形成了一个星形拓扑结构,解决单点故障包含以下具体步骤: ① Agent在启动时记录一个Group与SecondaryGroup的映射关系; ② ControlNode实时记录着每个Group与SecondaryGroup的映射关系; ③ 一旦某个Group出现故障时,Agent将会自动识别到当前的Group已经出现故障, Agent会自动与SecondaryGroup建立通讯,将采集的信息交给SecondaryGroup处理; ④ Contro INode与此同时将映射Group->SecondaryGroup打上标记,表示该Group已经 出现故障,需要进行人工恢复; ⑤ 当G r 〇 u p的故障恢复时,C ο n t r ο 1Ν 〇 d e将会取消此映射的标记,同时通知 SecondaryGroup暂定处理由Agent采集的信息且通过SecondaryGroup告知Agent Group的 故障已经解决; ⑥ Agent接受到指令之后,重新与Group建立通讯,Group单点故障解决。
【专利摘要】本发明涉及一种监控模型,具体为石油云平台资源监控与预警模型,包括中控模块,服务模块、代理模块、远程管理模块以及预警模块;多个服务模块分别与中控模块之间通过心跳协议通讯,多个代理模块分组,每组分别与一个服务模块之间通过心跳协议通讯。该石油云平台资源监控与预警模型适用不同规模的石油云平台,且实现石油云平台的负载均衡而合理利用石油云平台的资源,对石油云平台进行实时监控和预警。
【IPC分类】H04L12/24, H04L29/08
【公开号】CN105471999
【申请号】CN201510888035
【发明人】俞辉, 何旭莉, 王东, 马玉鹏
【申请人】中国石油大学(华东)
【公开日】2016年4月6日
【申请日】2015年12月4日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1