一种机房运维管理平台及管理办法的制作方法

文档序号:33505384发布日期:2023-03-18 00:04阅读:87来源:国知局
一种机房运维管理平台及管理办法的制作方法

1.本发明涉及信息处理技术领域,具体涉及到一种机房运维管理平台及管理办法。


背景技术:

2.随着计算机和互联网技术的普及,信息化已经被应用于多种使用场景,不仅提高了工作效率,还能够为企业的设备管理和运营维护起到积极作用,随着信息化的普及,提高运维管理的信息化和智能化是未来发展的重要方向之一。
3.传统的维护管理平台和管理办法存在以下方面问题:(1)机房安全运维是一个复杂的工作,包含人员培训、设备巡检、资产管理、工作报表等多项工作模块,而且根据客户的不同,工作内容和流程结构也各不相同,现有问题是功能零散,每个模块都是一个单独的软件系统,无法做到资源整合,大大降低工作效率;(2)大部分机房是无人值守机房,日常巡检极为重要,确保运维人员按时按照巡检计划完成巡检任务是对我们维护工作的一个基本的要求;(3)客户数据的安全,随着网络安全形势的日益严重,现有软件无法对用户的数据做到有效的保护;(4)缺少数据挖掘分析的利用,运维系统大多针对巡检数据进行阈值判定,来规划下次巡检策略,未针对巡检数据进行深入挖掘,尤其是综合评价需要运维设备的异常识别和综合风险,并基于异常数据和综合风险指定巡检策略。


技术实现要素:

4.为解决上述问题,本发明提供了一种机房运维管理平台及管理办法,通过数据挖掘和分析,可以对异常信息进行预警,尤其针对危害性严重的因素提前做出预判,防止该因素造成巨大的损失;为了提高数据的安全性,将数据管理模块分为公共数据管理模块和私有数据管理模块,管理终端功能模块与移动端功能模块分别与公共数据管理模块连接,而公共数据管理模块与私有数据管理模块连接,可以提高私有数据的安全性。
5.为了实现上述目的,本发明所采用的技术方案如下:一方面,本发明提供一种机房运维管理平台,包括:管理终端功能模块、数据管理模块和移动端功能模块,所述管理终端功能模块包括巡检管理模块,知识库管理模块和安全综合判定模块,所述巡检管理模块基于策略命令采集巡检数据,通过安全综合判定模块对巡检数据进行判定后,制定下次策略命令;所述知识库管理模块用于对运维人员进行培训和学习;所述数据管理模块包括公共数据管理模块和私有数据管理模块;所述公共数据管理模块一端与管理终端功能模块和移动端功能模块连接,另一端与私有数据管理模块连接;所述公共数据管理模块接收管理终端功能模块或移动端功能模块的指令,并控制所述私有数据管理模块采集巡检数据,并将所需数据传递至公共数据管理模块进行分析处理,分析完成后,将不同客户的私有数据转存到对应客户的私有数据管理模块中;所述移动端功能模块包括设备模块、工作模块和学习模块,所述设备模块显示机房设备的状态、基础信息、检修记录和技术资料,所述工作模块包括巡检计划、故障上报以及系统通知模块,学习模块包括学习计划,学习资料及等级测试。
6.进一步地,所述巡检管理模块包括巡检报表展示、告警列表、巡检记录、作业计划和故障报告。
7.进一步地,所述知识库管理模块包括知识库、学习和考试模块。
8.进一步地,安全综合判定模块包括机房巡检数据异常判定模块和安全评估模块,基于所述机房巡检数据异常判定模块和安全评估模块的评估结果,安全综合判定模块输出所述策略命令,所述机房巡检数据异常判定模块用于判定单个因素运行是否异常,所述安全评估模块用于评估机房的风险大小。
9.进一步地,所述公共数据管理模块与移动端功能模块通过vpdn互联,所述公共数据管理模块与管理终端功能模块及私有数据管理模块通过mpls专线互联,数据的传递采用加密算法。
10.进一步地,还包括前置数据处理模块,所述前置数据处理模块通过vpn连接公共数据管理模块,所述前置数据处理模块拦截传递至公共数据管理模块的非必要数据。
11.进一步地,所述移动端功能模块的登陆策略为只允许通过公共数据管理模块登录私有数据管理模块,且移动端功能模块登录公共数据管理模块时需断开公网,通过专用l2tp账号密码来拨号接入vpdn专用网络来连通公共数据管理模块。
12.另一方面,本发明提供了一种上述机房运维管理平台的管理办法,包括以下步骤:下发巡检策略命令,采集巡检数据;对巡检数据进行分析,识别异常巡检数据和机房风险;基于异常巡检数据和机房风险,制定下次巡检策略命令。
13.进一步的,基于改进的聚类算法识别异常巡检数据,包括:基于历史正常样本数据,通过层次聚类cure算法进行聚类,获取正常样本数据的聚类簇;基于正常样本数据的聚类簇选取边界样本;基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别。
14.进一步的,所述安全评估模块用于评估机房的风险大小,包括:基于类密度指标、类内紧密性和类间分布性所确定的最有聚类条件对模糊集进行划分;采用三角形隶属函数作为相似性度量;一级模糊综合评判和二级模糊综合评判得到最终的评价结果。
15.本发明提供的技术方案带来的有益效果包括:通过设置安全综合判定模块,对系统风险进行评估并指定下次策略命令,相较于现有的运维平台,大大提高了运维策略命令指定的科学性;通过数据挖掘和分析,可以对异常信息进行预警,尤其针对危害性严重的因素提前做出预判,防止该因素造成巨大的损失;其次,为了提高数据的安全性,将数据管理模块分为公共数据管理模块和私有数据管理模块,管理终端功能模块与移动端功能模块分别与公共数据管理模块连接,而公共数据管理模块与私有数据管理模块连接,可以提高私有数据的安全性。
附图说明
16.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明实施例一所述的一种机房运维管理平台示意图;
图2为本发明实施例一移动端功能模块的连接流程图;图3为本发明实施例二提供的一种机房运维管理平台的管理办法流程图。
18.附图标记:1-管理终端功能模块;10-巡检管理模块;11-知识库管理模块;12-安全综合判定模块;2-数据管理模块;20-公共数据管理模块;21-私有数据管理模块;3-移动端功能模块;30-设备模块;31-工作模块;32-学习模块。
具体实施方式
19.为了使本技术领域的人员更好地理解本发明中的技术方案,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
20.实施例1如图1所示,本发明提供一种机房运维管理平台,包括:管理终端功能模块1、数据管理模块2和移动端功能模块3,所述管理终端功能模块包括巡检管理模块10,知识库管理模块11和安全综合判定模块12,所述巡检管理模块10基于策略命令采集巡检数据,通过安全综合判定模块12对巡检数据进行判定后,制定下次策略命令;所述知识库管理模块11用于对运维人员进行培训和学习;所述数据管理模块2包括公共数据管理模块20和私有数据管理模块21;所述公共数据管理模块20一端与管理终端功能模块1和移动端功能模块3连接,另一端与私有数据管理模块21连接;所述公共数据管理模块20接收管理终端功能模块1或移动端功能模块3的指令,并控制所述私有数据管理模块21采集巡检数据,并将所需数据传递至公共数据管理模块20进行分析处理,分析完成后,将不同客户的私有数据转存到对应客户的私有数据管理模块21中;所述移动端功能模块包括设备模块30、工作模块31和学习模块32,所述设备模块30显示机房设备的状态、基础信息、检修记录和技术资料,所述工作模块31包括巡检计划、故障上报以及系统通知模块,学习模块32包括学习计划,学习资料及等级测试。
21.本发明通过设置安全综合判定模块,对系统风险进行评估并指定下次策略命令,相较于现有的运维平台,大大提高了运维策略命令指定的科学性;通过数据挖掘和分析,可以对异常信息进行预警,尤其针对危害性严重的因素提前做出预判,防止该因素造成巨大的损失;其次,为了提高数据的安全性,将数据管理模块分为公共数据管理模块和私有数据管理模块,管理终端功能模块与移动端功能模块分别与公共数据管理模块连接,而公共数据管理模块与私有数据管理模块连接,可以提高私有数据的安全性。
22.可以理解的是,数据管理模块为服务器,可以储存数据并执行管理终端功能模块和移动端功能模块的命令;为了提高数据的安全性,本发明中的数据管理模块包括公共数据管理模块和私有数据管理模块,其中公共数据管理模块用于长期储存公共数据,私有数据管理模块长期储存私有数据,所述公共数据管理模块为云管理服务器,所述私有数据管理模块为设置于客户本地的服务器;需要指出的是,当响应于管理终端功能模块或移动端功能模块发出的指令,公共数据管理模块会调用私有数据进行计算、处理和分析,分析完成之后则将数据传递至本地服务器进行保存,不会长期将私有数据保存在公共数据管理模块中。
23.移动端功能模块,可以为专用的手持移动工具,具有相应的模块完成相应任务或为手机app,通过手机app与公用数据管理模块连通。
24.本发明中,私有数据和公共数据的划分依赖于客户信息保密等级来确定,不对其具体内容进行限定。巡检数据,包括通过下发取数策略命令到客户对应机房的对应网络设备中获得的数据,也可以为在相关仪表上安装识别装置来巡检,例如对于机房环境类需要现场查看仪表的,在仪表上方定点安装摄像头,巡检时通过摄像头拍摄仪表的高清照片回传至公共数据管理模块,后台通过ocr文字识别技术,读取图片中的巡检参数,还包括将取数策略或巡检任务以消息推送的形式下发至巡检人员进行实地巡检所获得的数据。
25.所述巡检管理模块包括巡检报表展示、告警列表、巡检记录、作业计划和故障报告。其中巡检管理模块在预设巡检时间,基于作业计划,将取数策略命令下发进行巡检数据的采集,可以得到巡检报表和巡检记录,其次,巡检数据经过安全综合判定模块对异常数据进行识别和机房整体安全风险评估后,出具告警列表,故障报告以及下次取数策略命令,运维人员可以通过移动端功能模块上传设备故障信息,形成相应的故障报告。
26.所述知识库管理模块包括知识库、学习和考试模块。其中知识库基于运维人员的等级和管理设备提供相应的知识和技能,学习模块为运维人员提供系统性学习框架,考试模块为运维人员对掌握的知识和技能进行考核,当考试通过时,会允许学习高阶技术知识或对错误的知识点或技术点进行补强。
27.安全综合判定模块包括机房巡检数据异常判定模块和安全评估模块,基于所述机房巡检数据异常判定模块和安全评估模块的评估结果,安全综合判定模块输出所述策略命令,所述机房巡检数据异常判定模块用于判定单个因素运行是否异常,所述安全评估模块用于评估机房的风险大小。具体地,本发明中通过聚类算法,识别巡检数据中的异常值,并基于多级模糊评估模型对机房的风险大小进行评估,接合所述异常值和风险大小指定下次巡检策略命令。
28.所述公共数据管理模块与移动端功能模块通过vpdn互联,所述公共数据管理模块与管理终端功能模块及私有数据管理模块通过mpls专线互联,数据的传递采用加密算法。通过上述设置,可以提高数据的安全性。所述加密算法优选采用sm9国密算法进行加密,通过公私密钥比对的方式对数据进行验证。
29.本发明的运维管理平台还包括前置数据处理模块,所述前置数据处理模块通过vpn连接公共数据管理模块,所述前置数据处理模块拦截传递至公共数据管理模块的非必要数据。具体地,前置数据处理模块通过vpn连接云管服务器,交互云管服务器所需运维数据,如告警、流量分析结果、脚本验证等,无需回传直接采集的大量运维数据,例如镜像流量分析数据、运维日志等需要高带宽支持的数据保存在本地服务器,能够有效的节省带宽资源,通过很小的网络资源实现云管服务器运维管理平台的本地化管理效果。
30.所述移动端功能模块的登陆策略为只允许通过公共数据管理模块登录私有数据管理模块,且移动端功能模块登录公共数据管理模块时需断开公网,通过专用l2tp账号密码来拨号接入vpdn专用网络来连通公共数据管理模块。具体地,移动端功能模块只能通过公共数据管理模块与私有数据管理模块连接,不允许直接telnet或者ssh登录,如图2所示,图2展示了移动端功能模块与公共数据管理模块和私有数据管理模块的通讯连接方式,运维人员通过移动端功能模块登录系统,公共数据管理模块根据账户信息下发查看和操作权
限;运维人员通过移动端功能模块申请客户资产和巡检信息时,公共数据管理模块将申请信息传递至私有数据管理模块,当请求通过时,则返回相关数据,公共数据管理模块将相关数据传递至移动端模功能模块;运维人员上报巡检、故障数据时,公共数据管理模块对数据进行分析后,根据客户id将数据转存至对应的私有数据管理模块;知识库数据存储在公共数据管理模块中,移动端功能模块申请学习资料数据时,则公共数据管理模块直接将相关数据提供给移动端功能模块,运维人员学习完成后,将考试成绩上传至公共数据管理模块。需要指出的是,当需要从私有数据管理模块获知相关信息时,私有数据管理服务器会审核运维人员操作权限,操作环境,确保信息无泄漏时才会通过请求,操作环境例如移动端功能模块登录公共数据管理模块时需断开公网,通过专用l2tp账号密码来拨号接入vpdn专用网络来连通公共数据管理模块。
31.实施例2本发明实施例提供了一种机房运维管理平台的管理办法,如图3所示,包括:s1下发巡检策略命令,采集巡检数据;本发明中,管理终端功能模块的巡检模块下发巡检策略命令,采集巡检数据,巡检数据包括:(1)通过下发取数策略命令到客户对应机房的对应网络设备中获得的数据;(2)在相关仪表上安装识别装置来巡检,例如对于机房环境类需要现场查看仪表的,在仪表上方定点安装摄像头,巡检时通过摄像头拍摄仪表的高清照片回传至公共数据管理模块,后台通过ocr文字识别技术,读取图片中的巡检参数;(3)还包括将取数策略或巡检任务以消息推送的形式下发至巡检人员进行实地巡检,上报的巡检数据。上述数据采集后,前置处理模块对所检测的数据中的非必要数据进行拦截,必要数据传递至公共数据管理模块,前置处理模块与私有数据管理模块,即客户本地服务器类似,设置于客户本地,可以节省带宽资源,防止数据拥堵。
32.s2对巡检数据进行分析,识别异常巡检数据和机房风险;安全综合判定模块包括机房巡检数据异常判定模块和安全评估模块。
33.巡检数据异常判定模块采用改进的聚类算法进行判定,具体地,首先基于历史正常样本数据,通过改进的cure聚类算法进行聚类,共两次聚类,第一次聚类结束后删除离群点,第二次聚类完成后,删除簇中样本点小于一定值的类并将剩余的数据点划入最近的簇完成聚类,得到正常簇样本。此处一定值不做具体限定,基于客户自身设备的情况进行设置。
34.样本的选取,首先通过选取样本可以减少数据的计算量,但为了使得聚类结果获得最优的正常簇样本,本发明实施例采样的方式为:设s为可能获得到的簇对象的分数,s∈[0,1],对于一个大小为n的簇,在1-α概率的条件下,样本大小m应该为:
[0035]
其中n0为对象个数第一次聚类增长非常缓慢的类作为离群点删除,通过离群程度判定值对这类样本点进行判断,可以有效删除第一阶段聚类离群点。
[0036]
对每个划分的数据块进行聚类,得到的数据簇表示为,其中pi表示块中
第i簇,mpi表示为第i个簇的中心点,wi表示每个中心点的权重值,是每个簇中数据的个数。
[0037]
设代表点的集合为p,每个代表点pi的中心点到簇外任意一点的偏差距离表示为离群程度:
[0038]
其中,n为数据的总维数,j表示数据的第j维,x
ji
,y
ji
为数据的两个属性;用欧氏距离表示一个点的偏离程度,当某样本离簇中心点越远,则离群程度值越大。
[0039]
离群程度判定值ad为:
[0040]
其中di为离群程度集d中的任一值。
[0041]
离群参数为:
[0042]
max(di)为离群程度最大值,min(di)为离群程度最小值,则离群点为。
[0043]
基于正常样本数据的聚类簇选取边界样本。首先,将正常簇样本、边界样本数量作为输入数据;其次,计算正常簇样本的质心;将离质心最远的正常簇样本点作为第一个边界样本;计算到第一个边界样本点的距离,选择距离值最大的点最为第二个边界样本;然后,选择距离前两个样本点距离之和最大的点作为边界样本,直到选取的边界样本覆盖率达到n1,则停止选择;最后,输出所有的边界样本。
[0044]
基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别。正常簇样本的边界样本集为b={b1,b2,

,bn},正常簇样本的识别半径为r。待测试样本为t={t1,t2,

,tm},s为识别出的非异常监测信息,n为识别出的异常监测信息。以边界样本集作为平面检测器,异常信息识别规则表示为:
[0045]
其中l1为待识别样本点到边界样本的距离序列最小值,l2为待识别样本到边界样本距离最远点距离值,dm为待识别样本到质心距离,r为正常簇样本的识别半径。
[0046]
表1 不同离群点删除算法分析比较
[0047]
针对正常样本获取过程中离群点删除算法,本文测试了几种离群点检测算法的检测率,测试结果如表1所示安全评估模块用于评估机房的风险大小,影响机房安全状况的因素有很多,基于机房实际情况将机房安全状况的因素分为二级,例如机房it设备检测数据为一级因素,二级因素包括服务器设备,安全设备,监控设备,网络设备,监控设备和存储设备等的监测数据,其他因素不再赘述。包括:基于类密度指标、类内紧密性和类间分布性所确定的最有聚类条件对模糊集进行划分。监测数据属性集合为x,聚类个数为c,偏差δ为:
[0048]
其中,xk为各监测数据属性值,为监测数据属性均值。同理,可得第i个聚类的偏差:
[0049]
其中,xi为第i个类数据元素属性,为xi的均值,c个聚类平均偏差为:
[0050]
设有n个监测信息的聚类簇,则簇之间的平均距离为:
[0051]
其中,是各个聚类之间距离的平均度量,第i和第j个聚类的中心可用分别ri、rj表示,聚类中心数据集合用r表示.假定每一个数据点都是潜在的聚类中心,按照欧式距离指标,计算样本点的密度指标;
[0052]
最优聚类条件如下式:
[0053]
对于最优聚类条件值越小,得到的聚类结果越好。给定聚类数c,使用模糊均值聚类算法,不断调整聚类数,用最优聚类数来检测这些结果,得到了理想的聚类结果,通过找到的聚类数和各个簇的中心,我们就可以将这些给点的数据集划分到n各模糊集中,进而确定模糊划分。
[0054]
模糊隶属度和隶属函数确定,采用三角形隶属函数作为相似性度量,为聚类中心点集合,隶属函数为:
[0055]
建立二级模糊安全评估模型。因素集通常表示为,n表示为因素集中共有n个元素,代表了对结果影响因素的抽象所组成的普通集合;评判集,通常表示为,m表示为评判集中共有m个元素,对评估结果抽象所组成的集合,本技术m为a,b,c和d四个等级,分别对应安全、较安全、较危险和危险。
[0056]
本发明中各个层次影响因素的权值由层次分析法来确定并得到最终权值向量为:,至于得到权值向量的算法为现有技术。
[0057]
一级模糊综合评判得到的结果表示为:
[0058]rij
表示第k个元素所对应的隶属度,其中“。”为算子,本发明实施例采用(积,有界算子)对模糊矩阵进行合成运算,继而计算其综合评价向量b二级模糊综合评判,对一级评估结果进行二级模糊综合判定,其中权重集合为得到的结果表示为,最终的评价结果用,采用(积,有界算子)对模糊矩阵进行合成运算。
[0059]
通过模型公式计算,相较于其他模型算法,本发明采用加权平均算法得到的结果与实际更加符合。
[0060]
s3基于异常巡检数据和机房风险,制定下次巡检策略命令。
[0061]
具体地,当无异常巡检数据,机房风险为a,则按照常规巡检计划即可,所述常规巡检计划为
[0062]
其中为巡检间隔时间,δt为厂家推荐的巡检间隔时间或客户基于公司自身情况所指定的巡检间隔时间,t0为设备设计使用寿命,t为设备已使用时间,为设备维修次数。
[0063]
当无异常巡检数据,机房风险为b,则在常规巡检计划的基础上,将巡检间隔时间缩短至70-85%之间。
[0064]
当异常巡检数据大于0小于总数据的1%时,机房风险为a或b,则制定维修单,将巡检数据异常的点进行定位并下发至巡检人员的移动端功能模块上,巡检人员维护结束后将巡检记录通过移动端功能模块上传至数据管理模块,并按照常规巡检计划计算下次巡检间隔时间。
[0065]
当异常巡检数据不小于1%,且机房风险为c或d,则发出告警信息,提醒用户切换备用系统,并将故障点下发至巡检人员的移动端功能模块上,巡检人员维护结束后将巡检记录通过移动端功能模块上传至数据管理模块,并按照常规巡检计划计算下次巡检间隔时间。
[0066]
当无异常巡检数据,且机房风险为c时,则即刻通知运维人员立即对机房整个系统进行维护检查,若设备有异常,则进行维护,并将巡检记录上传至数据管理模块,数据管理模块基于修为情况,通过常规巡检计划计算下次巡检间隔时间。
[0067]
当无异常巡检数据,且机房风险为d时,则发出告警信息,提醒用户切换备用系统,并即刻通知运维人员立即对机房整个系统进行维护检查,若设备有异常,则进行维护,并将巡检记录上传至数据管理模块,数据管理模块基于修为情况,通过常规巡检计划计算下次巡检间隔时间。
[0068]
本发明通过检测巡检数据异常并计算系统整体风险大小,制定相应的巡检计划,提高了制定巡检计划的科学性,提高了设备的可靠性,避免产生较大的损失。
[0069]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:下发巡检策略命令,采集巡检数据;对巡检数据进行分析,识别异常巡检数据和机房风险,基于改进的聚类算法识别异常巡检数据,包括:基于历史正常样本数据,通过层次聚类cure算法进行聚类,获取正常样本数据的聚类簇;基于正常样本数据的聚类簇选取边界样本;基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别;所述安全评估模块用于评估机房的风险大小,包括:基于类密度指标、类内紧密性和类间分布性所确定的最有聚类条件对模糊集进行划分;采用三角形隶属函数作为相似性度量;一级模糊综合评判和二级模糊综合评判得到最终的评价结果。
[0070]
本发明实施例还提供了一种计算机设备,该计算机设备包括:处理器、存储器、及存储在存储器上并可在处理器上运行的计算机程序,其中存储器和处理器均设置在总线上处理器执行程序时实现以下步骤:下发巡检策略命令,采集巡检数据;对巡检数据进行分析,识别异常巡检数据和机房风险,基于改进的聚类算法识别异常巡检数据,包括:基于历史正常样本数据,通过层次聚类cure算法进行聚类,获取正常样本数据的聚类簇;基于正常样本数据的聚类簇选取边界样本;基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别;所述安全评估模块用于评估机房的风险大小,包括:基于类密
度指标、类内紧密性和类间分布性所确定的最有聚类条件对模糊集进行划分;采用三角形隶属函数作为相似性度量;一级模糊综合评判和二级模糊综合评判得到最终的评价结果。
[0071]
以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1