基于Big-Cluster的大平台集群系统的制作方法

文档序号:7824248阅读:242来源:国知局
基于Big-Cluster的大平台集群系统的制作方法
【专利摘要】本发明公开了一种基于Big-Cluster的大平台集群系统,包括一个或多个分布式任务调度中心、媒体服务单元、WEB及应用服务器中心、消息自动处理中心和数据存储中心,各分布式任务调度中心、WEB及应用服务器中心、消息自动处理中心和数据存储中心分别与媒体服务单元通信连接。本发明除了单一分布式计算任务调度及执行软件系统内处理相同业务的软件或者硬件进行多机冗余热备外,分布式计算任务调度系统之间可以互为热备,负载均衡,如果用户板块内的分布式计算任务调度系统发生故障,该用户可以跨板块进行分布式任务调度和服务请求处理,其结果对用户来说是完全透明的,自动转移的,可提升电视台分布式计算任务调度大平台集群系统整体可靠性。
【专利说明】基于Bi g-CI uster的大平台集群系统

【技术领域】
[0001]本发明涉及一种基于Big-Cluster的大平台集群系统。

【背景技术】
[0002]随着科学技术的发展,从宏观的星图描绘到微观的粒子结构的研宄,从军事领域的模拟核试验到生物领域的后基因组计划的解读,再到大规模网络测量、仿真与模拟等等,这些重大挑战性计算问题均需要跨管理域利用大量分布式计算任务调度及执行资源,随着人们对信息数据日益广泛的需求,使得传统的分布式计算任务调度及执行无法满足日益膨胀的需求。
[0003]分布式计算任务调度及执行软件就是多台相连的计算机各自承担同一工作任务的不同部分,在人的控制下,同时运行,共同完成同一件工作任务。由多个自主的、相互连接的信息处理系统,在一个高级操作系统协调下共同完成同一任务的处理方式。分布式计算任务调度及执行软件必须有能力在短时间内动态地组合成面向不同服务对象的系统。对用户来说系统是透明的,用户只需指定系统干什么而不必指出哪个部件可以提供这一服务。系统各组成部分是自主的,但不是无政府状态,而是遵循某个主计划由高级操作系统进行协调工作。在一个计算机网中有多台主机不一定都是分布式处理。如果这样的系统不具备动态组合及任务再指派的能力,那么它们仍然是集中式处理。高级操作系统是分布式处理的关键。在分布式系统中不再使用完整的信息,各个组成部分提供自己的状态信息,高级操作系统根据这些状态信息进行任务协调和资源再分配,各组成部分之间没有层次关系而是自主的。
[0004]传统的分布式计算任务调度及执行系统无法将不同地点的、或具有不同功能的、或拥有不同数据的多台计算机用通信网络连接起来,无法在控制系统的统一管理控制下,协调地完成信息处理任务,无法在短时间内动态地组合成面向不同服务对象的系统,系统无法根据用户的需求为用户提供相应服务。传统的分布式任务调度及执行系统对任务的几种状态中,大多规定“刚分配”和“已完成”两种状态为零容忍状态,在DSC的连续状态汇报中,如果因为网络的瞬时故障(这在复杂的分布式环境中是允许出现的)造成零容忍状态丢失或者被覆盖,就会造成任务的分配混乱或者再次分配同一条任务,如果任务的结果信息丢失,长时间完成的成果(比如转码成果)就会成为垃圾。


【发明内容】

[0005]本发明的目的在于克服现有技术的不足,提供一种新型的基于Big-Cluster的大平台集群系统,除了单一分布式计算任务调度及执行软件系统内处理相同业务的软件或者硬件进行多机冗余热备外,分布式计算任务调度系统之间可以互为热备,负载均衡,如果用户板块内的分布式计算任务调度系统发生故障,该用户可以跨板块进行分布式任务调度和服务请求处理,其结果对用户来说是完全透明的,自动转移的,可提升电视台分布式计算任务调度大平台集群系统整体可靠性。
[0006]本发明的目的是通过以下技术方案来实现的:基于Big-Cluster的大平台集群系统,包括一个或多个分布式任务调度中心、媒体服务单元、WEB及应用服务器中心、消息自动处理中心和数据存储中心,各分布式任务调度中心、WEB及应用服务器中心、消息自动处理中心和数据存储中心分别与媒体服务单元通信连接;
所述的分布式任务调度中心设置有分布式任务调度TSC进程、高效集群控制HAC进程和第一进程启动代理Agent进程,分布式任务调度TSC进程获取用户提交的任务列表,实时获取并维护分布式任务处理DSC进程的状态信息,根据分布式任务处理DSC进程的状态信息和任务分配原则完成对任务的调度分配;分布式任务调度TSC部署在任意多台计算机设备上,这些计算机设备组成一个分布式任务调度集群网络环境,多个分布式任务调度TSC进程互为热备,通过心跳完成各自状态信息的交换,同一时刻只有一个分布式任务调度TSC进程实例的状态为主,其他都为备;分布式任务调度TSC进程实例的主备切换通过高效集群控制HAC进程完成,所有分布式任务调度TSC进程在运行过程中实时向高效集群控制HAC进程汇报自己的当前状态,只要发现当前为主状态的分布式任务调度TSC进程实例异常,就根据参数序号原则在剩下的为备状态的分布式任务调度TSC进程实例中选择一个序号最小的分布式任务调度TSC进程实例为主,该分布式任务调度TSC进程实例在切换后,保留预设时间间隔的时间窗;
高效集群控制HAC进程完成分布式任务调度集群网络环境和分布式任务调度TSC进程之间的心跳检测,实时监视并控制分布式任务调度TSC进程的主备状态,高效集群控制HAC进程在运行过程中实时向互为备份的高效集群控制HAC进程实例汇报自己的当前状态,并实时获取所有分布式任务调度TSC进程实例的状态信息,根据TSC状态信息发送正确的控制命令,只有状态为主的高效集群控制HAC进程实例才能控制分布式任务调度TSC进程实例间的主备状态切换;
第一进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成分布式任务调度TSC进程、高效集群控制HAC进程实例的维护。
[0007]所述的媒体服务单元设置有分布式任务处理DSC进程、DSC进程管理DSCM进程和第二进程启动代理Agent进程,分布式任务处理DSC进程完成媒体文件的处理,分布式任务处理DSC进程实例在运行过程中实时向分布式任务调度TSC进程汇报自己的当前状态;
DSC进程管理DSCM进程使DSC进程具有自我管理能力,异常退出后自动恢复,根据参数配置的DSC进程实例数量动态调整本地DSC进程实例数量;同时,DSC进程管理DSCM进程获取本地设备上所有DSC进程实例汇报的实时状态,并向TSC集群转发本地设备上DSC进程实例状态,以备分布式任务调度TSC进程完成任务的实时分配和调度;
第二进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成分布式任务处理DSC进程、DSC进程管理DSCM进程实例的维护。
[0008]所述的WEB及应用服务器中心设置有WEB负载均衡WLB进程、任务服务库和第三进程启动代理Agent进程,WEB负载均衡WLB进程完成WEB及应用服务器之间的负载均衡和容错服务控制,WEB负载均衡WLB进程实例在设定频率内完成检查IIS、DB有效性检查,同时通过心跳,综合本地计算机设备和WLB集群中其他计算机设备的CPU利用率情况,再向需要IIS服务的进程实例组播发送“有效”的服务器名称;
任务服务库以WEB SERVICE的形式提供给分布式任务调度TSC进程,完成任务信息的处理;
第三进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成WEB负载均衡WLB进程实例的维护。
[0009]所述的消息自动处理中心设置有消息自动处理DPU进程和第四进程启动代理Agent进程,消息自动处理DPU进程自动实时地获取本机上队列中的最新消息信息,对消息内容进行解析,根据消息内容完成业务的处理;
第四进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成消息自动处理DPU进程实例的维护。
[0010]所述的数据存储中心存储以下几类数据:以媒体文件为主的公共数据交换和处理区存储设备,以存储元数据为主的数据库系统,以存储消息为主的MQ系统;所有数据存储中心中:媒体文件存储设备、数据库系统DB、MQ系统都分别一一进行热备容错构建。
[0011]本发明的有益效果是:
I)除了单一分布式计算任务调度及执行软件系统内处理相同业务的软件或者硬件进行多机冗余热备外,分布式计算任务调度系统之间可以互为热备,负载均衡,如果用户板块内的分布式计算任务调度系统发生故障,该用户可以跨板块进行分布式任务调度和服务请求处理,其结果对用户来说是完全透明的,自动转移的,可提升电视台分布式计算任务调度大平台集群系统整体可靠性。
[0012]2)多个TSC进程互为热备,通过心跳完成各自状态信息的交换,同一时刻只有一个TSC进程实例的状态为主,其他都为备,可以极大地提高分布式任务调度的可靠性。
[0013]3)分布式任务调度进程实例在切换后,保留一定时间间隔的时间窗,有利于TSC集群的稳定,可避免热备进程间的颠簸。
[0014]4)所有数据存储中心中媒体文件存储设备、DB、MQ都分别一一进行了热备容错构建,可有效避免单点故障,进而提高了分布式计算任务调度大平台集群系统的可用性。

【具体实施方式】
[0015]下面进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
[0016]分布式计算任务调度大平台集群系统是构建分布式计算任务调度互联互通的业务支撑平台,整个分布式计算任务调度由几类不同的功能区域构成,每类功能区域以单独集群形式存在,集群的规模可根据用户的业务量进行动态构建和配置。不同功能区域之间或者功能区域内部间通过SOA、标准的IP (Socket/FTP)或者MSMQ等协议方式进行数据交换,媒体文件的存取通过FTP (文件传输协议)完成,任务结束后的消息通过MSMQ队列进行传递。
[0017]整个分布式计算任务调度大平台集群系统的所有进程实例都动态自适应运行,管理中心能够自动剔除异常进程实例(比如TSC、DSC等关键进程),在运行过程,能根据各个板块的具体业务需求动态配置DSC的对应任务类别和数量,自动融入并监控新增DSC进程实例。通过分布式计算任务调度大平台集群系统实时完成参数配置和监视。
[0018]基于Big-Cluster的大平台集群系统,包括一个或多个分布式任务调度中心、媒体服务单元、WEB及应用服务器中心、消息自动处理中心和数据存储中心,各分布式任务调度中心、WEB及应用服务器中心、消息自动处理中心和数据存储中心分别与媒体服务单元通信连接。
[0019]所述的分布式任务调度中心设置有分布式任务调度TSC进程、高效集群控制HAC进程和第一进程启动代理Agent进程,分布式任务调度TSC进程获取用户提交的任务列表,实时获取并维护分布式任务处理DSC进程的状态信息,根据分布式任务处理DSC进程的状态信息和任务分配原则完成对任务的调度分配;分布式任务调度TSC部署在任意多台计算机设备上,这些计算机设备组成一个分布式任务调度集群网络环境,多个分布式任务调度TSC进程互为热备,通过心跳完成各自状态信息的交换,同一时刻只有一个分布式任务调度TSC进程实例的状态为主,其他都为备,这样可以极大提高TSC(分布式任务调度)的可靠性。
[0020]分布式任务调度TSC进程实例的主备切换通过高效集群控制HAC进程完成,所有分布式任务调度TSC进程在运行过程中实时向高效集群控制HAC进程汇报自己的当前状态,只要发现当前为主状态的分布式任务调度TSC进程实例异常,就根据参数序号原则在剩下的为备状态的分布式任务调度TSC进程实例中选择一个序号最小的分布式任务调度TSC进程实例为主,该分布式任务调度TSC进程实例在切换后,保留预设时间间隔的时间窗,以利TSC集群的稳定,避免热备进程间的颠簸。主状态TSC (分布式任务调度)进程实例除了汇报自己的状态外,还要完成最新任务的分配,完成任务的确认,并向目标板块消息队列发送任务结束消息。
[0021]高效集群控制HAC进程完成分布式任务调度集群网络环境和分布式任务调度TSC进程之间的心跳检测,实时监视并控制分布式任务调度TSC进程的主备状态,高效集群控制HAC进程在运行过程中实时向互为备份的高效集群控制HAC进程实例汇报自己的当前状态,并实时获取所有分布式任务调度TSC进程实例的状态信息,根据TSC状态信息发送正确的控制命令,只有状态为主的高效集群控制HAC进程实例才能控制分布式任务调度TSC进程实例间的主备状态切换;
第一进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成分布式任务调度TSC进程、高效集群控制HAC进程实例的维护。
[0022]所述的媒体服务单元设置有分布式任务处理DSC进程、DSC进程管理DSCM进程和第二进程启动代理Agent进程,分布式任务处理DSC进程完成媒体文件的处理,根据任务类别分为:归档、下载、转码、迀移、回迀、合成等媒体服务类别。一台计算机设备可以启动一个DSC进程服务实例,也可以启动多个处理不同任务类别或者相同任务类别的DSC进程服务实例,也可以根据用户的要求部署在刀片集群上。分布式任务处理DSC进程实例在运行过程中实时向分布式任务调度TSC进程汇报自己的当前状态;
DSC进程管理DSCM进程使DSC进程具有自我管理能力,异常退出后自动恢复,根据参数配置的DSC进程实例数量动态调整本地DSC进程实例数量;同时,DSC进程管理DSCM进程获取本地设备上所有DSC进程实例汇报的实时状态,并向TSC集群转发本地设备上DSC进程实例状态,以备分布式任务调度TSC进程完成任务的实时分配和调度。
[0023]第二进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成分布式任务处理DSC进程、DSC进程管理DSCM进程实例的维护。
[0024]所述的WEB及应用服务器中心设置有WEB负载均衡WLB进程、任务服务库(.NETSOA LIB)和第三进程启动代理Agent进程,WEB负载均衡WLB进程完成IIS (WEB及应用服务器)之间的负载均衡和容错服务控制,WEB负载均衡WLB进程实例在设定频率内完成检查IIS、DB有效性检查,同时通过心跳,综合本地计算机设备和WLB集群中其他计算机设备的CPU利用率情况,再向需要IIS服务的进程实例组播发送“有效”的服务器名称;
任务服务库以WEB SERVICE的形式提供给分布式任务调度TSC进程,完成任务信息的处理;
第三进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成WEB负载均衡WLB进程实例的维护。
[0025]所述的消息自动处理中心设置有消息自动处理DPU进程和第四进程启动代理Agent进程,消息自动处理DPU进程自动实时地获取本机上队列中的最新消息信息,对消息内容进行解析,根据消息内容完成业务的处理;
第四进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成消息自动处理DPU进程实例的维护。
[0026]所述的数据存储中心存储以下几类数据:以媒体文件为主的公共数据交换和处理区存储设备,以存储元数据为主的数据库系统,以存储消息为主的MQ系统;所有数据存储中心中:媒体文件存储设备、数据库系统DB、MQ系统都分别一一进行热备容错构建。
[0027]网管服务中心:分布式计算任务调度大平台集群系统网管中心主要功能完成板块间互联互通的业务参数配置,所有进程的部署配置及实时监控,实时获取整个系统中所有设备的资源利用等运行情况信息,包括计算机的CPU利用率、总内存、剩余内存、磁盘容量等信息;DSC进程实例处理任务的情况信息,包括当前DSC进程实例是否是忙或者空闲状态信息,或者异常状态信息,正忙DSC进程实例完成任务的百分比,正在处理的媒体文件名称,任务类型等状态信息;各个计算机设备及其对应进程的运行状态等信息,包括TSC、HAC进程的主、备和异常状态监控,也包括DSC、DSCM、DPU、WLB等进程是否正常或者异常状态信息,并可以远程完成以上进程实例的启动、结束或者结束命令动作。
[0028]以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
【权利要求】
1.基于Big-ClUSter的大平台集群系统,其特征在于:包括一个或多个分布式任务调度中心、媒体服务单元、WEB及应用服务器中心、消息自动处理中心和数据存储中心,各分布式任务调度中心、WEB及应用服务器中心、消息自动处理中心和数据存储中心分别与媒体服务单元通信连接; 所述的分布式任务调度中心设置有分布式任务调度TSC进程、高效集群控制HAC进程和第一进程启动代理Agent进程,分布式任务调度TSC进程获取用户提交的任务列表,实时获取并维护分布式任务处理DSC进程的状态信息,根据分布式任务处理DSC进程的状态信息和任务分配原则完成对任务的调度分配;分布式任务调度TSC部署在任意多台计算机设备上,这些计算机设备组成一个分布式任务调度集群网络环境,多个分布式任务调度TSC进程互为热备,通过心跳完成各自状态信息的交换,同一时刻只有一个分布式任务调度TSC进程实例的状态为主,其他都为备;分布式任务调度TSC进程实例的主备切换通过高效集群控制HAC进程完成,所有分布式任务调度TSC进程在运行过程中实时向高效集群控制HAC进程汇报自己的当前状态,只要发现当前为主状态的分布式任务调度TSC进程实例异常,就根据参数序号原则在剩下的为备状态的分布式任务调度TSC进程实例中选择一个序号最小的分布式任务调度TSC进程实例为主,该分布式任务调度TSC进程实例在切换后,保留预设时间间隔的时间窗; 高效集群控制HAC进程完成分布式任务调度集群网络环境和分布式任务调度TSC进程之间的心跳检测,实时监视并控制分布式任务调度TSC进程的主备状态,高效集群控制HAC进程在运行过程中实时向互为备份的高效集群控制HAC进程实例汇报自己的当前状态,并实时获取所有分布式任务调度TSC进程实例的状态信息,根据TSC状态信息发送正确的控制命令,只有状态为主的高效集群控制HAC进程实例才能控制分布式任务调度TSC进程实例间的主备状态切换; 第一进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成分布式任务调度TSC进程、高效集群控制HAC进程实例的维护。
2.根据权利要求1所述的基于Big-Cluster的大平台集群系统,其特征在于:所述的媒体服务单元设置有分布式任务处理DSC进程、DSC进程管理DSCM进程和第二进程启动代理Agent进程,分布式任务处理DSC进程完成媒体文件的处理,分布式任务处理DSC进程实例在运行过程中实时向分布式任务调度TSC进程汇报自己的当前状态; DSC进程管理DSCM进程使DSC进程具有自我管理能力,异常退出后自动恢复,根据参数配置的DSC进程实例数量动态调整本地DSC进程实例数量;同时,DSC进程管理DSCM进程获取本地设备上所有DSC进程实例汇报的实时状态,并向TSC集群转发本地设备上DSC进程实例状态,以备分布式任务调度TSC进程完成任务的实时分配和调度; 第二进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成分布式任务处理DSC进程、DSC进程管理DSCM进程实例的维护。
3.根据权利要求1所述的基于Big-Cluster的大平台集群系统,其特征在于:所述的WEB及应用服务器中心设置有WEB负载均衡WLB进程、任务服务库和第三进程启动代理Agent进程,WEB负载均衡WLB进程完成WEB及应用服务器之间的负载均衡和容错服务控制,WEB负载均衡WLB进程实例在设定频率内完成检查IIS、DB有效性检查,同时通过心跳,综合本地计算机设备和WLB集群中其他计算机设备的CPU利用率情况,再向需要IIS服务的进程实例组播发送“有效”的服务器名称; 任务服务库以WEB SERVICE的形式提供给分布式任务调度TSC进程,完成任务信息的处理; 第三进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成WEB负载均衡WLB进程实例的维护。
4.根据权利要求1所述的基于Big-Cluster的大平台集群系统,其特征在于:所述的消息自动处理中心设置有消息自动处理DPU进程和第四进程启动代理Agent进程,消息自动处理DPU进程自动实时地获取本机上队列中的最新消息信息,对消息内容进行解析,根据消息内容完成业务的处理; 第四进程启动代理Agent进程完成当前计算机设备的运行环境资源监测,控制进程的启动、结束和状态检测,完成消息自动处理DPU进程实例的维护。
5.根据权利要求1所述的基于Big-Cluster的大平台集群系统,其特征在于:所述的数据存储中心存储以下几类数据:以媒体文件为主的公共数据交换和处理区存储设备,以存储元数据为主的数据库系统,以存储消息为主的MQ系统;所有数据存储中心中:媒体文件存储设备、数据库系统DB、MQ系统都分别一一进行热备容错构建。
【文档编号】H04L29/08GK104486447SQ201410839478
【公开日】2015年4月1日 申请日期:2014年12月30日 优先权日:2014年12月30日
【发明者】李正 申请人:成都因纳伟盛科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1