本发明涉及电子信息技术领域,特别涉及一种用于网络设备及服务器故障诊断和修复的系统和方法。
背景技术:
如果机房环境设备出现故障,就会影响计算机系统正常运行,对数据传输、存储及系统运行的可靠性构成威胁。如果事故严重,又没有及时处理,就可能使硬件设备损坏,造成严重后果。对于政府、银行、电力、证券、海关等需要实时数据处理的单位,机房管理更为重要,一旦系统发生故障,造成的经济损失不可估量。目前,许多网络机房的管理人员逼迫采用24小时专人值班,定时巡查机房环境设备。这样不仅成为机房管理人员的负担,并且更多的时候,不能及时排除安全隐患。目前,国内普遍缺乏机房环境设备的专业管理人员,在许多地方的机房,只得安排软件人员或者不太懂机房设备维护甚至根本不懂机房设备维护的人员来值班,这对机房的安全运行是不利的。
实现网络机房设备故障及安全事件的风险识别、趋势研判及网络机房设备故障及安全隐患预见、安全预警,能够减轻值班人员的工作强度或网络机房的无人管理化,减少网络机房设备故障及安全风险降低经济损失。
现有网络机房设备监控系统一旦系统发生故障,造成的经济损失不可估量。目前,许多网络机房的管理人员逼迫采用24小时专人值班,定时巡查机房环境设备。这样不仅成为机房管理人员的负担,并且更多的时候,不能及时排除安全隐患。目前,国内普遍缺乏机房环境设备的专业管理人员,在许多地方的机房,只得安排软件人员或者不太懂机房设备维护甚至根本不懂机房设备维护的人员来值班,这对机房的安全运行是不利的。
此外,目前的机房设备监控管理均以安全设备为主,无法智能有效找到计算机服务器及网络设备故障通常需由工程师至现场检查设备型号、判断软件故障还是硬件故障。解决故障效率低下,解决故障时间较长。有时给企业带来损失。
例如:专利号:201510192330.X名称:一种服务器故障在线诊断、健康分析及失效预报系统及方法
现有技术存在以下缺陷:
1.网络机房的管理人员逼迫采用24小时专人值班,定时巡查机房环境设备。这样不仅成为机房管理人员的负担,并且更多的时候,不能及时排除安全隐患。
2.无法对机房服务器及网络设备故障进行提前预判。
3.故障出现时不能区分机房服务器及网络设备硬件故障还是软件故障。
4.无法解决机房服务器及网络设备软件进程造成的故障。
5.无法评估硬件故障。
6.无法对机房服务器及网络设备故障进行诊断。
7.必须工程师到现场解决软硬件故障,解决故障周期较长。
技术实现要素:
本发明针对现有技术的缺陷,提供了一种用于网络设备及服务器故障诊断和修复的系统和方法,能有效的解决上述现有技术存在的问题。
为了实现以上发明目的,本发明采取的技术方案如下:
一种用于网络设备及服务器故障诊断和修复的系统,其包括装置主体、设备状态大数据存储阵列和设备日志大数据存储阵列;
所述装置主体表面的前端有三部分接口组成;
第一部分是千兆万兆网络接口或光纤接口,用于连接网络机房服务器、交换机、路由器等网络设备;
第二部分是千兆万兆网络接口或光纤接口,用于连接各种数据库服务集群;
第三部分是该调试接口用于设备调试;
装置主体表面的后端设有电源接口和UPS电源接口;
装置主体内部包括硬件部分和软件部分;
其中硬件部分包括:
电源模块:用于供电;
CPU处理器:中央处理器;
RAM存储器:用于数据的临时存储,相当于计算机内存;
ROM存储器:用于系统的启动和维护,相当于计算机BIOS;
Flash存储器:用于存储文件相当于计算机硬盘;
网络接口模块:提供千兆万兆网络接口或者是光纤接口;
操作系统:管理设备的硬件。
其中软件部分包括:
神经网络框架:集成谷歌TensorFlow神经网络框架;
设备管理软件:用于进行初始化和管理;
网络机房故障诊断软件:用于对网络机房服务器及网络设备进行诊断,采集网络机房服务器及网络设备硬件运行信息,通过Logistic神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患;
网络机房数据分析软件:负责存储网络机房服务器及网络设备各种日志信息及状态信息进行离线静态分析,利用Apache Spark软件对网络机房服务器及网络设各种日志信息及状态信息进行离线静态分析将结果进行归类;
网络机房设备故障修复软件:对网络机房服务器及网络设备存在故障进行分析及修复,如果判断为硬件故障则定位故障点然后通知管理员。如果判断为软件故障则使用RNN(循环神经网络)神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题。问题无法解决定位故障点联系管理员;
所述设备日志大数据存储阵列负责存储网络机房服务器及网络设备各种日志信息。
所述设备状态大数据存储阵列负责存储网络机房服务器及网络设备硬件运行信息。
进一步地,该设备连接网络机房各种服务器及网络设备,后台的设备日志大数据存储阵列和设备状态大数据存储阵列也与该装置相连。
一种基于上述系统的诊断和修复方法,包括以下步骤:
步骤1,实时采集网络机房服务器及网络设备硬件运行信息。如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程及信息、各种应用程序服务程序进程信息、日志信息。
步骤2,通过逻辑回归神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患,无故障回到步骤1;出现故障及隐患进入步骤3。
步骤3,通过设备日志大数据阵列及设备状态大数据阵列对出现故障及隐患的服务器或者设备进行数据分析将分析结果传入步骤4,步骤5。
步骤4,将步骤3的分析结果利用逻辑回归神经网络模型判断网络机房服务器及网络设备故障及隐患是硬件造成的还是软件造成的。如果硬件故障通过步骤3获得的数据送入RNN神经网络模型评估硬件故障找到故障点联系管理员。若解决故障回到步骤1。若是软件故障到步骤5。
步骤5,通过步骤3获得的数据送入RNN神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题回到步骤1。如问题无法解决联系管理员。
与现有技术相比本发明的优点在于:通过大数据及神经网络技术对网络机房服务器及网络设备故障及安全事件风险评估与趋势研判平台,实现网络机房设备故障及安全事件的风险识别、趋势研判及服务器及网络设备故障及安全隐患预见、安全预警、设备软件故障解决、设备硬件故障评估,能够减轻值班人员的工作强度或网络机房的无人管理化,减少网络机房设备故障及安全风险降低经济损失。本发明促进智慧城市信息化建设。提高智慧城市服务水平、加快智慧城市及数字化建设具有积极的意义。
附图说明
图1为本发明实施例装置主体主视图;
图2为本发明实施例装置主体后视图;
图3为本发明实施例装置主体后视图;
图4为本发明实施例系统的结构示意;
图5为本发明实施例主流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明做进一步详细说明。
一种用于网络设备及服务器故障诊断和修复的系统,其包括装置主体、设备日志大数据存储阵列和设备日志大数据存储阵列;
如图1所示,装置主体表面的前端有三部分接口组成,
第一部分是千兆万兆网络接口或光纤接口,用于连接网络机房服务器、交换机、路由器等网络设备;
第二部分是千兆万兆网络接口或光纤接口,用于连接各种数据库服务集群;
第三部分是该调试接口用于设备调试。
如图2所示,装置主体表面的后端设有电源接口和UPS电源接口。
如图3所示,装置主体内部包括硬件部分和软件部分;
其中硬件部分包括:
电源模块:用于供电;
CPU处理器:中央处理器;
RAM存储器:用于数据的临时存储,相当于计算机内存;
ROM存储器:用于系统的启动和维护,相当于计算机BIOS;
Flash存储器:用于存储文件相当于计算机硬盘;
网络接口模块:提供千兆万兆网络接口或者是光纤接口;
操作系统:管理设备的硬件。
其中软件部分包括:
神经网络框架:集成谷歌TensorFlow神经网络框架
设备管理软件:用于进行初始化和管理
网络机房故障诊断软件:用于对网络机房服务器及网络设备进行诊断,采集网络机房服务器及网络设备硬件运行信息。如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程及信息、各种应用程序服务程序进程信息、日志信息。通过Logistic(逻辑回归)神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患。
网络机房数据分析软件:负责存储网络机房服务器及网络设备各种日志信息及状态信息进行(离线静态)分析,利用Apache Spark软件对网络机房服务器及网络设各种日志信息及状态信息进行(离线静态)分析将结果进行归类。
网络机房设备故障修复软件:对网络机房服务器及网络设备存在故障进行分析及修复,如果判断为硬件故障则定位故障点然后通知管理员。如果判断为软件故障则使用RNN(循环神经网络)神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题。问题无法解决定位故障点联系管理员。
所述设备日志大数据存储阵列负责存储网络机房服务器及网络设备各种日志信息;
所述设备状态大数据存储阵列负责存储网络机房服务器及网络设备硬件运行信息。如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程信息、各种应用程序服务程序进程信息。
如图4所示,该设备连接网络机房各种服务器及网络设备,后台的设备日志大数据存储阵列和设备状态大数据存储阵列也与该装置相连。
如图5所示,一种基于上述系统的诊断和修复方法,包括以下步骤:
步骤1,实时采集网络机房服务器及网络设备硬件运行信息。如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程及信息、各种应用程序服务程序进程信息、日志信息。
步骤2,通过逻辑回归神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患,无故障回到步骤1;出现故障及隐患进入步骤3。
步骤3,通过设备日志大数据阵列及设备状态大数据阵列对出现故障及隐患的服务器或者设备进行数据分析将分析结果传入步骤4,步骤5。
步骤4,将步骤3的分析结果利用逻辑回归神经网络模型判断网络机房服务器及网络设备故障及隐患是硬件造成的还是软件造成的。如果硬件故障通过步骤3获得的数据送入RNN(循环神经网络)神经网络模型评估硬件故障找到故障点联系管理员。若解决故障回到步骤1。若是软件故障到步骤5。
步骤5,通过步骤3获得的数据送入RNN(循环神经网络)神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题回到步骤1。如问题无法解决联系管理员。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。