一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法

文档序号:6639034阅读:260来源:国知局
一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
【专利摘要】本发明提出了一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,属于计算机和通信【技术领域】,特别适用于保障用户业务连续性和可靠性。传统的高可用集群技术在业务切换的时候会造成业务的中断,关键业务已不能容忍,而基于虚拟机在线迁移的虚拟机容错技术,由于主机内存信息实时同步到备机,在主机系统异常、业务运行异常的情况下,这种异常信息也被同步到备机,这样即使备机能接管主机,但是系统和业务的异常信息同时也体现在备机上,从而不能保障业务的可靠性。本发明通过虚拟机容错技术和高可用集群技术相结合,即解决了高可用集群技术切换时间业务暂停的问题,又弥补了虚拟机容错技术在主机系统异常和业务异常的情况下,备机接管后系统和业务同样是异常的问题。从而有效的保障了用户业务的连续性和可靠性。
【专利说明】一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
(一)

【技术领域】
[0001]本发明适用于计算机和通信【技术领域】,特别适用于保障用户关键业务的可靠性和连续性,具体涉及一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法。
(二)

【背景技术】
[0002]随着通信网络技术的飞速发展,电信、金融、电子政务等关键领域对服务器持续运行的要求越来越高,由于软硬件问题导致的用户业务停止将带来无法估量的损失。传统的保障用户业务连续性和可靠性的方法是采用高可用集群技术。高可用集群系统由主服务器和备份服务器组成,主服务器运行用户业务,备份服务器处于standby状态。当主服务器发生故障时,高可用集群系统可以把业务切换到备份服务器,从而保障用户业务的连续性。虽然高可用集群系统从一定层度上保障了用户业务连续性,但是业务从主服务器切换到备份服务器需要一定的时间。业务切换的时间包括:从业务故障到高可用集群系统检测到故障的时间间隔?\、业务在主服务器停止时间Τ2、业务在备份服务器启动时间Τ3、高可用集群系统软件内部延时Τ4。!\的最大值是业务检测时间间隔,一般是30秒,最小值接近零。1~2和Τ3则跟用户的业务软件有关。1\基本可以忽略。一般情况下业务切换的时间间隔是30秒以上。在业务切换的这段时间,服务器对外提供业务中断。目前,用户的关键业务已经不能容忍高可用集群系统业务切换导致的长时间业务中断。
[0003]近年来随着虚拟化、在线迀移、容错技术的发展,对保障用户业务连续性和可靠性的需求,有了虚拟机容错的解决方案。该方案在保证虚拟机上服务正常运行的同时,将一个虚拟机系统从一个物理主机迀移到另一个物理主机。迀移前,服务在源主机的虚拟机上运行,目的主机已经具备了运行虚拟机系统的必须资源。迀移过程只需要经过一个非常短暂的切换,源主机将控制权转移到目的主机,虚拟机系统在目的主机上继续运行。对于虚拟机服务本身而言,由于切换的时间非常短暂,用户感觉不到服务的中断,因而迀移过程对用户是透明的。
[0004]在保障用户业务连续性和可靠性方面,相比高可用集群技术,虚拟机容错方案解决了切换时间长导致的业务中断问题。但是由于虚拟机容错方案主虚拟机内存实时同步到备份虚拟机,备份虚拟机实时记录了主虚拟机的运行状态,在主虚拟机业务异常、系统崩溃、系统假死等情况下,备份虚拟机虽然能接管主虚拟机运行,但是接管后系统仍跟主虚拟机一样,存在业务或系统的异常问题,因而虚拟机迀移后,不能正常对外提供服务。
[0005]为了解决高可用集群系统和虚拟机容错方案在解决业务连续性方面的问题,本发明将高可用集群系统和虚拟机容错方案相结合,在保障用户业务连续性和可靠性方面,即解决了高可用集群系统业务切换时间长的问题,又弥补了业务异常或系统异常后虚拟机容错技术的不足。
(三)
【发明内容】

[0006]本发明提供了一种虚拟机容错技术和高可用集群技术相结合的高可靠系统装置和方法,以满足用户业务连续性和可靠性的需求。
[0007]一种虚拟机容错技术和高可用集群技术相结合的高可靠系统装置,包括:
[0008]两个服务器A、B,硬件都支持虚拟化,分别安装redhat 6操作系统,安装虚拟化相关组件,挂载共享存储设备;
[0009]主机A上安装虚拟机A1;
[0010]虚拟机&安装虚拟机检测模块VCM ;
[0011]虚拟机AjP B 1配置成一对容错系统,A i是主虚拟机,B i是备份虚拟机;
[0012]物理机A、B分别安装高可用集群系统HA,集群配置为主备模式,A是主机,B是备机。
[0013]两主机上的HA模块通过网卡通信;
[0014]虚拟机Ai上的虚拟机检测模块VCM和主机A上的HA模块通过虚拟网卡进行通信;
[0015]虚拟机&上的虚拟机检测模块VCM和主机B上的HA模块通过虚拟网卡进行通信。
[0016]一种基于KVM虚拟化容错技术和高可用集群技术相结合的高可靠系统方法,包括:
[0017]虚拟机虚拟机AjP B i使用同一个虚拟机镜像文件,A i作为容错系统的主机启动,虚拟机&作为备机启动。虚拟机A 存实时同步到虚拟机Bp在发生主机A掉电、断网卡等情况下,虚拟机间接管虚拟机A ρ业务正常运行不受影响。
[0018]虚拟机&上的虚拟机检测模块VCM实时检测系统运行状况和业务运行状况,当异常情况大于阀值,VCM向HA模块发送信息。
[0019]HA模块收到VCM模块发送的异常信息,重新完整启动虚拟机,并停止虚拟机A-由于虚拟机是一次完整的启动,虚拟机A i的运行异常信息没有体现在虚拟机B i中,保障了业务的连续性和可靠性。
[0020]主机A系统掉电情况下,由于虚拟机仏和B i配置为一对虚拟机容错系统,虚拟机4内存信息实时同步到虚拟机,所以虚拟机&能够瞬间接管业务,保障了用户业务的可靠性和连续性。
[0021 ] 虚拟机仏和B i里的虚拟机检测模块VCM实时检测虚拟机的运行状况,当出现系统崩溃、系统假死、用户业务异常等情况下,VCM能实时检测到,并通过网络发送给高可用集群模块HA。HA收到信息后启动虚拟机的迀移命令,虚拟机完整启动,同时虚拟机A i关闭。由于虚拟机&是完整启动,系统的异常信息被清除掉。保障了用户业务的连续性和稳定性。
(四)

【专利附图】

【附图说明】
[0022]图1是传统高可用集群系统图。
[0023]图2是一种虚拟机容错系统图。
[0024]图3是虚拟机容错技术和高可用集群技术结合的高可靠系统装置图。
(五)

【具体实施方式】
[0025]为了保障用户业务连续性和可靠性,本发明实施例中,将传统的高可用集群技术和虚拟机容错技术相结合。
[0026]以下结合附图对本发明【具体实施方式】详细说明。
[0027]服务器A、B在同一个局域网,分别有三张以上网卡,安装redhat 6操作系统,安装KVM虚拟化组件。服务器A、B分别安装高可用集群软件,并配置为一套双机高可用集群系统。心跳链路可走网口和串口。
[0028]服务器A安装虚拟机4,^等,服务器B安装虚拟机B ρ B2等。服务器A和服务器B挂载共享存储,虚拟WApBi的镜像文件使用共享存储,即虚拟机A 的镜像文件是同一个文件。虚拟机的安装过程只需要安装虚拟机仏。虚拟机ApBi配置为一对虚拟机容错系统。虚拟机&的启动命令如下:
[0029]qemu — sy s t em-x86_64_enab 1 e-kvm — M pc_m 1024 — smp 2-monitorstd1-localtime-boot c-drive file = /qemu/linux.1mg,if = virt1,index = 0,_netnic,model = virt1,macaddr = 52: 54: 00: 05: 11: 12-net tap,ifname = tapl,script = no-vnc:5_incoming tcp:0:4444
[0030]虚拟机启动命令如下:
[0031]qemu-sy s t em-x86_64-enab 1 e-kvm-M pc-m 1024-smp 2-monitorstd1-localtime-boot c-drive file = /qemu/linux.1mg,if = virt1, index = 0,-netnic,model = virt1,macaddr = 52: 54: 00: 05: 11: 11-net tap, ifname = tapO,script = no-vnc:6
[0032]在虚拟WAiqemumonitor 上打开 micro checkpoint 功能:
[0033]$migrate_set_capabilit yx-mc on
[0034]在虚拟WAdemu monitor上启动容错功能:
[0035]$migrate-d tcp:192.168.1.150:4444(其中 192.168.1.150 是虚拟机 &的 IP 地址)
[0036]配置后虚拟机仏正常运行,虚拟机^作为容错系统的备机,虚拟机A i内存信息实时同步到虚拟机虚拟机仏对外提供服务。
[0037]启动虚拟机检测模块VCM,启动主机A和主机B上的高可用集群软件HA。VCM实时检测虚拟机运行状况。
[0038]当主虚拟机&掉电,网络异常等情况下,虚拟机B廣间接管虚拟机A i运行。从而保障了用户业务连续性和可靠性;当主虚拟机仏系统异常、业务软件异常的情况下,VCM检测到异常通知HA模块,HA模块收到通知后,停止主虚拟机,完整的启动备份虚拟机,从而保障用户业务可靠性和连续性。
【权利要求】
1.一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法。其特征在于,包括以下步骤:环境搭建的步骤;系统启动的步骤;异常保护的步骤;其中: 环境搭建的步骤包括以下步骤: 主机A和主机B redhat 6操作系统的安装步骤; 主机A和主机B共享存储的挂载步骤; 虚拟机A1的安装步骤; 虚拟机A1的虚拟机检测模块VCM的安装步骤; 主机A和主机B高可用集群软件HA的安装步骤; 系统启动的步骤包括以下步骤: 主机A和主机B的启动步骤; 虚拟机AjP B工的启动步骤; 虚拟机检测模块VCM的启动步骤; 主机A和主机B高可用集群软件HA的启动步骤。 异常保护的步骤包括以下步骤: 物理机A掉电、网卡断开、虚拟机A1掉电、虚拟机A i网卡中断等情况下,虚拟机B !瞬间接管虚拟机A1,并保持虚拟机仏的运行状况,虚拟机1接管后正常提供服务,保障了业务的可靠性和可持续性; 虚拟机统异常,业务异常等情况下,VCM模块检测到异常后发送消息给HA,HA收到消息后完整启动虚拟机B1,停止虚拟机4。虚拟机B1启动后正常提供服务,保障了业务的可靠性和可持续性。
2.如权利要求1所述的一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:主机A和主机B挂载共享存储,虚拟机的镜像文件存放在共享存储,虚拟机AjP B ^勺镜像文件是同一个。
3.如权利要求1所述的一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:虚拟机检测模块VCM实时检测主虚拟机的系统运行状况和业务运行状况,如果出现系统崩溃、系统假死、业务崩溃等异常情况,VCM通过网络发送消息给HA丰旲块。
4.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:HA模块收到VCM模块发送的虚拟机异常消息,立即完整的重启备份虚拟机,并停止主虚拟机的运行。由于备份虚拟机是一次完整的启动,启动后系统能够正常对外提供服务,从而保障了业务的可靠性和连续性。
5.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于该装置和方法在主虚拟机和业务运行无异常的情况下,保障业务可靠性和连续性的优先使用虚拟机容错方式。在主虚拟机和业务运行异常的情况下,保障业务可靠性和连续性使用高可用集群方式。
6.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于该装置和方法即保留了虚拟机容错系统的优势,又利用高可用集群技术弥补了虚拟机容错系统的不足。
7.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:虚拟机容错技术可以是kvm虚拟化平台下的micro-checkpoint技术,也可以是xen虚拟化平台下的remuse技术。
8.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:主机A和主机B上可以根据用户需求安装多个虚拟机,且可以部署除仏、的容错系统。
【文档编号】G06F9/455GK104484243SQ201410783236
【公开日】2015年4月1日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】王幸福, 莫庆良, 袁泉, 董春青, 沈星宇 申请人:广东新支点技术服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1