一种端云协同计算系统及其容错方法与流程

文档序号:11589841阅读:254来源:国知局
一种端云协同计算系统及其容错方法与流程

本发明涉及云计算技术领域,尤其涉及一种端云协同计算系统及其容错方法。



背景技术:

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户可以通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。

云计算是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。对云计算的定义有多种说法,现阶段广为接受的是美国国家标准与技术研究院的定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,而只需投入很少的管理工作,或与服务供应商进行很少的交互。

云计算平台也称为云平台。云平台可以划分为3类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据处理兼顾的综合型云计算平台。

端云协同平台区别于传统的云平台,将提供一定计算能力的移动终端也加入资源池中,共同完成计算任务。达到了对空闲资源的有效利用,响应了现在低碳科技,绿色科技的号召。

由于终端移动设备多数为可移动设备,接入端云协同架构中大多数为无线网络的方式的接入,其和云平台之上的计算节点在网络稳定性和质量上都存在一定的差距。同时终端的持久性相对较弱,并且易受到受诸多外界环境因素影响,其发生异常或出现故障的可能性也大大增加。



技术实现要素:

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种端云协同计算系统及其容错方法,采用云备份和云恢复两种策略结合的方式来实现安全的端云协同容错方法,保证架构的高可靠性。

为实现上述目的,本发明提供了一种端云协同计算系统,其特征在于:该系统由任务管理服务器模块、端云协同服务器模块、静态云服务节点模块、移动终端计算服务节点模块共四个模块组成,其中:

任务管理服务器模块:该模块负责获取由用户提交的任务,并将任务打包处理并发送至所诉的端云协同服务器模块;

端云协同服务器模块:该模块负责接收管理服务器发送的任务、制定任务调度策略,对静态云和移动终端资源协同管理;

静态云服务节点模块:该模块由静态云服务器组成,负责计算由端云协同服务器发送来的各种计算任务,以及给移动终端任务设置检查点并对该任务进行云备份以防止任务在移动终端资源上计算失败而丢失;

移动终端计算服务节点模块:该模块由多种硬件终端组成,负责计算由端云协同服务器发送来的任务。

进一步地,所述端云协同服务器模块还配备有自动发现模块,端云协同服务器使用主动探测的方法,用于及时发现可用资源,可以动态为云平台扩展移动终端资源,为静态云和移动终端资源分配适合其运算的任务,以及与静态云和移动终端资源进行实时通信以保证容错系统的正常执行。

进一步地,所述静态云服务节点模块还配备有动态监听模块,可以配合端云协同服务器实时监听终端资源检查点计算结果的上传情况,以保证容错系统的运行。

进一步地,所述移动终端计算服务节点模块还配备有日志存储和上传模块,可以存储检查点计算结果并向端云协同服务器按时上传各检查点计算结果。

进一步地,所述各类移动终端为基于安卓系统的各品牌pad、手机。

一种端云协同计算系统的容错方法,其特征在于,具体步骤为:

步骤一:在用户发布任务后,任务管理服务器接收到任务,将所有任务整理并发送给端云协同服务器;

步骤二:端云协同服务器接收到任务后,进行任务调度及传输;

步骤三:静态云端收到任务后,对任务进行检查点设置,并对设置检查点后的任务进行静态云备份操作,执行完成后将该任务发送给端云协同服务器;

步骤四:端云协同服务器将静态云端处理过的任务发送至移动端设备;

步骤五:移动端接收到任务后,即对任务进行运算处理。

进一步地,所述步骤二具体为:对任务进行分类处理,并根据端云分发模块将任务划分优先级,结合先来先服务和优先级大小对任务队列进行排序,制定任务分配策略,将适合在前端设备进行计算的任务先发送至云端。

进一步地,所述步骤五具体为:在处理过程中,若运算成功,则将结果上传至协同服务器,同时协同服务器将结果上传给云端,然后由云端删除该任务的备份部分;若运算失败,则由协同服务器执行容错方法,将任务返回云端进行执行。

本发明的有益效果是:

本发明利用云端能力强于终端的特点,在云端实现云备份与云恢复两种安全容错的策略,保证了任务的安全性和端云协同计算的正确性。并提供异常终端节点检测功能,使云节点能够实时替换掉不符合系统计算标准的终端节点,保证整个业务系统的稳定运行。本发明将已安全认证接入系统中具有一定计算能力的终端也加入计算资源池中,组成终端集群,终端集群具有较强的扩展性,增加了云的扩展性,终端集群与静态云中的服务节点共同完成之前的单一云平台所要计算的任务,优化了传统的云平台,有效的减少了云端的负载,达到负载均衡。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一种端云协同计算系统结构框图。

图2是本发明的具备容错系统的一种基于端云协同系统的任务计算流程图。

图3是本发明的一种端云协同计算架构的容错方法流程图。

具体实施方式

如图1所示,一种端云协同计算系统,其特征在于:该系统由任务管理服务器模块、端云协同服务器模块、静态云服务节点模块、移动终端计算服务节点模块共四个模块组成,其中:

任务管理服务器模块:该模块负责获取由用户提交的任务,并将任务打包处理并发送至所诉的端云协同服务器模块;

端云协同服务器模块:该模块负责接收管理服务器发送的任务、制定任务调度策略,对静态云和移动终端资源协同管理;

静态云服务节点模块:该模块由静态云服务器组成,负责计算由端云协同服务器发送来的各种计算任务,以及给移动终端任务设置检查点并对该任务进行云备份以防止任务在移动终端资源上计算失败而丢失;

移动终端计算服务节点模块:该模块由多种硬件终端组成,负责计算由端云协同服务器发送来的任务。

本实施例中,所述端云协同服务器模块还配备有自动发现模块,端云协同服务器使用主动探测的方法,用于及时发现可用资源,可以动态为云平台扩展移动终端资源,为静态云和移动终端资源分配适合其运算的任务,以及与静态云和移动终端资源进行实时通信以保证容错系统的正常执行。

本实施例中,所述静态云服务节点模块还配备有动态监听模块,可以配合端云协同服务器实时监听终端资源检查点计算结果的上传情况,以保证容错系统的运行。

本实施例中,所述移动终端计算服务节点模块还配备有日志存储和上传模块,可向端云协同服务器按时上传各检查点计算结果。

本实施例中,所述各类移动终端为基于安卓系统的各品牌pad、手机。

如图2所示,一种端云协同计算系统的容错方法,其特征在于,具体步骤为:

步骤一:在用户发布任务后,任务管理服务器接收到任务,将所有任务整理并发送给端云协同服务器;

步骤二:端云协同服务器接收到任务后,进行任务调度及传输;

步骤三:云端收到任务后,对任务进行检查点设置,并对设置检查点后的任务进行静态云备份操作,执行完成后将该任务发送给端云协同服务器;

步骤四:端云协同服务器将云端处理过的任务发送至移动端设备;

步骤五:移动端接收到任务后,即对任务进行运算处理。

本实施例中,所述步骤二具体为:对任务进行分类处理,并根据端云分发模块将任务划分优先级,结合先来先服务和优先级大小对任务队列进行排序,制定任务分配策略,将适合在前端设备进行计算的任务先发送至云端。

本实施例中,所述步骤五具体为:在处理过程中,若运算成功,则将结果上传至协同服务器,同时协同服务器将结果上传给云端,然后由云端删除该任务的备份部分;若运算失败,则由协同服务器执行容错方法,将任务返回云端进行执行。

实例一

结合图1和图2,本实例详述本发明具备容错方法的一种基于端云协同计算架构的具体执行流程,步骤如下:

步骤1,所诉的端云协同系统的任务管理服务器将接收到的来自用户的任务发送至端云协同服务器;

步骤2,端云协同服务器接收到任务管理服务器的任务,然后对其进行任务分配操作,主要依据的是对任务设置优先级和先进先出原理,并根据任务的类别将任务分别发送至云端和移动端进行计算;

步骤3,对于步骤2中适合移动端进行计算的任务,先发送至静态云端,静态云端对该任务得出一个预估的截止时间t,然后给该任务设置检查点,设置完成后,将任务进行静态云备份并发送给协同服务器;

步骤4,协同服务器将设置过检查点的任务发送到移动端;

步骤5,移动端执行该任务,在计算过程中根据容错机制对任务进行判断,若在执行过程中,静态云端一直收到来自协同服务器获取的移动端每个检查点的计算结果,则任务由移动端继续执行至完成;

步骤6,若在移动端执行过程中,静态云端未收到来自协同服务器获取的移动端的检查点计算结果,则通过端云服务器要求移动端的计算回到其上一个可用的检查点,进行重新计算,若重试次数超过3次而静态云端仍未收到,则执行云恢复操作,卸载在移动端上计算的该任务,并将该任务恢复至静态云端,由静态云端接着上一个可用的检查点计算结果进行计算;

步骤7,结束。

实例二

结合图3,此实例详细描述本发明提供的一种基于端云协同计算架构的容错方法,此方法描述如下:

将一个任务的总量设置为m,a表示等距离插入可容忍e个错误任务的检查点个数,其间隔为n,则n=m/(a+1);其中,e1表示在检查点保存期间发生错误,e2表示在检查点恢复时发生的错误,e3表示在有效计算过程中发生的错误;则当产生e1错误时,恢复至正常运算所需的最大时间为“检查点间隔时间n+恢复一个检查点所用时间rc+保存一个检查点所用的时间sc”,当产生e2错误时,恢复至正常运算所需的最大时间为“恢复一个检查点所用的时间rc”,当产生b3错误时,恢复至正常运算所需的最大时间为“检查点间隔时间n+恢复一个检查点所用时间rc”。当执行一个任务时,它总的响应时间就是由“没有发生错误时预估的任务执行时间+保存a个检查点所需时间+e1个故障出现在保存期间内的时间+e2个故障出现在状态恢复期间+e3个故障出现在有效执行期间”组成。可知,出现最坏的情况是只发生e1类型的错误(当发生该错误时,从故障恢复至任务正常运行所需的最大时间最长),并且,总响应时间应小于系统预先计算的一个截止时间t,通过此可以最终计算出检查点a的数量。

在设置完检查点后,在静态云端进行云备份保存,并将设置检查点后的任务发送至端云协同服务器,由端云协同服务器发送给移动端进行计算。在移动端计算过程中,每到一个检查点时,任务就会进行一次计算结果备份操作,将该结果保存在本地日志文件中,并上传至协同服务器,由协同服务器上传给静态云端。而静态云端在每个检查点会进行等待,等待时间最长不超过“检查点间隔时间+任务传输时间”,若超时未得到相应,则由静态云端发送指令给协同服务器,要求移动端进行重试:计算返回到移动端上一个可用的检查点进行重新计算,并且最大重试次数为3次。若超过3次端云协同服务器仍未得到移动端的任何响应或者当移动端发生错误的总次数超过检查点个数的一半以上,则执行云恢复操作,将移动端的任务卸载,由静态云端接着该任务上一个可用的检查点数据进行计算。若重试得到响应,则继续由移动端执行任务,任务完成后,静态云端卸载之前保存的该任务的备份信息。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1