基于混合云调度的智慧物流数据挖掘方法与流程

文档序号:11775459阅读:275来源:国知局
基于混合云调度的智慧物流数据挖掘方法与流程

本发明涉及云计算与数据挖掘领域,尤其是一种物流任务调度分配方法,特别适用于智慧物流数据处理方面的问题。



背景技术:

随着智慧物流发展,物流的数据也呈现指数级增加,因此应用于物流大数据的云计算任务调度研究十分必要;目前,国内外已经大量开始研究云计算的任务调度,也有很多涉及到物流数据的;但是由于私有云的计算能力有时不能满足实际需求;而为这些爆发性的资源请求而扩大私有云规模是不经济的,一种较为廉价的方式是按需租用公有云服务商提供的计算资源来辅助完成计算任务,从而构成一个由公有云与私有云结合的混合云环境;混合云也能为其他目的的弹性需求提供良好的基础,将公有云作为一个选择性平台按需使用;因而混合云能够精简企业成本,同时能按照业务需求做出快速、灵活的调整;基于此,研究混合云调度的智慧物流数据挖掘方法更具现实意义;



技术实现要素:

为了克服对已有智慧物流数据中所隐含信息分析、处理能力不足的问题,本发明提供了一种有效的基于混合云调度的智慧物流数据挖掘方法;

本发明解决其技术问题所采用的技术方案是:

基于混合云调度的智慧物流数据挖掘方法,包括以下步骤:

步骤1.建立物流数据的混合云环境:搭建包含共有云与私有云的混合云调度环境,将物流任务调度分配过程分成两种情况:第一种情况,私有云计算资源能够满足用户的计算需求,此时不需要申请公有云中的计算资源;第二种情况,私有云计算资源不能满足用户需求,必须申请公有云资源来辅助完成计算任务,这时需要判断私有云计算资源能否满足需求,当私有云能满足需求时,直接利用计算机得出调度方案,并优化调度费用;而在私有云不能满足需求时需要考虑任务分配以及资源分配,不合理的任务分配将会增加不同云环境间的数据传输量,不但不能缩短工作流整体计算时间,反而可能增加;

步骤2.构建混合云环境的物流数据处理模型:混合云任务调度的场景是用户将包含敏感物流数据的应用提交给一个由公有云与私有云两部分组成的混合云平台,并给出用户能接受的最迟完成时间,即截止时间;在进行任务调度、分配计算资源时需要保证工作流能够在用户要求的截止时间之前完成,并且保证应用中的敏感数据不能离开私有云,以防数据泄露;此部分的内容包括混合云工作流调度的系统模型、安全模型与任务分配模型,具体如下:

①设计混合云工作流调度系统模型:云工作流系统是面向云工作流的处理系统,可以将复杂的应用和用户需求按照流程的方式有序地组织起来,并通过调度引擎,根据用户需求对流程中的任务指派计算资源,达到高效资源调度目的,最后将系统处理结果返回给用户;图1描述了混合云工作流系统的结构图,在混合云环境下,云平台由私有云和公有云两部分组成,调度引擎首先要决定任务所属的云环境,为优化调度成本,会优先为任务分配私有云中的计算资源;当私有云中的计算能力不足,不能在用户要求的截止时间之前完成工作流计算任务时,调度引擎根据需要将任务指派到公有云中,并按需申请公有云中的资源;

②架构混合云安全模型:公有云服务提供商一方面是诚实的,按照协议要求提供可靠的服务;但另一方面又是充满好奇心的,会根据某些目的收集用户数据;私有云一般由企业自身、合作方或者可信第三方提供,和公有云相比更加安全,可被信任;因此在工作流调度过程中,为了防止重要数据泄露,应该保证重要、敏感的数据不能离开私有云;需设置以下两种策略:一是不允许向上转型,即如果当前任务所有的输入数据都是非敏感的,则当前任务产生的数据也必须是非敏感的;二是允许向下转型,即任务的输入数据为敏感数据时输出数据可以为非敏感数据,根据以上策略,图2为基于混合云安全的工作流调度过程;

③搭建混合云环境的任务分配模型:把n个互不影响的子任务放到m个虚拟资源上运行(m<n),用t={t1,t2,…,tn}表示等待调度任务集,tj(j=1,2,…,n)表示第j个子任务,vm={vm1,vm2,…,vmm}表示虚拟资源节点集合,其中vmi表示第i个虚拟资源,虚拟资源用六元组表示{vmid,mips,ram,bw,pesnumber},其中vmid表示虚拟资源编号,mips表示虚拟资源指令执行速度,ram表示虚拟资源内存,bw表示虚拟资源带宽,pesnumber表示虚拟资源cpu个数,任务队列可以用四元组表示{id,length,filesize,outputsize},其中id表示任务编号,length表示任务长度,filesize表示任务输入长度,outputsize表示任务输出长度,每一个任务都可以用四元组表示{tid,tram,tbw,tpesnumber},其中tid表示任务编号,tsram表示本任务需要的内存,tbw表示任务需要带宽,tpesnumber表示任务需要的处理机个数;

步骤3.采用基于帕累托最优的任务分配策略实现:在混合云工作流调度中,工作流截止时间与数据安全性是调度策略在优化调度成本时必须满足的前提条件,数据安全性可在任务分配阶段就得到满足,使用或者产生了敏感性数据的任务都可被认为是敏感性任务,这些任务都必须留在私有云中;因此,在初始化所有分配策略之前就可以排除不满足数据安全性的分配方案;因此在判断任务是否为“帕雷托最优”状态时,只需要考虑该任务分配策略对应的截止时间以及调度费用;混合云工作流调度产生的调度费用可分为两部分,任务执行费用以及数据传输费用,数据传输费用可以通过任务在混合云上的分配情况计算数据传输总量,再根据网络数据传输收费标准计算获得,任务执行费用则可通过任务对应的指令数目以及计算资源收费标准计算获得,虽然在完成资源分配之前仍不知道任务与资源的关系,并且在异构环境下,不同的计算资源拥有不同的计算能力与收费标准,但仍能给出近似估计;然而,任务分配方案对应的截止时间在完成计算资源分配之前是无法得知且难以估计,但在云计算中,工作负载与计算时间存在着某种联系,因此可以利用分配方案对私有云产生的负载来代替计算时间,用以下公式计算私有云负载load与调度费用cost:

其中n为任务个数,α与β分别对应云资源单位时间的使用费用以及连接公有云与私有云网络传输单位数据的费用,θi∈(0,1)表示任务ui被分配到私有云或者公有云中,wi为任务i权重,di,j为任务i,j之间的重要度,δi为私有云使用成本;如果有两个方案中一个方案能够在不损害另一个方案的费用与负载的前提下优化其中任何一个指标,则可认为该方案是另一个方案的一个“帕雷托改善”,经过多次比较筛选后,最后剩余的分配方案都是不可被代替的,这些剩余方案都有可能是资源调度最优解对应的任务分配,是最优解的候选方案;

本发明的技术构思为:结合已有智慧物流数据中所隐含信息分析、处理能力不足的问题,提出了基于混合云调度的智慧物流数据挖掘方法,利用云计算与数据挖掘等技术来提升物流数据的分析处理能力;

基于此,本发明以物流平台任务调度为研究对象,引入云计算技术、数据挖掘技术,充分考虑物流大数据的特征,提出基于混合云调度的智慧物流数据挖掘方法,通过该方法帮助政府部门、物流企业实现对物流任务的有效调度与分配;

引入云计算技术、数据挖掘技术实现对物流数据的有效分析与管理,首先建立物流数据的混合云环境,分析混合云调度的特点;其次构建混合云环境的物流数据处理模型,包括系统模型、安全模型与任务分配模型等;再次采用基于帕累托最优的任务分配策略,处理私有云计算能力不足导致资源分配不均的情况,从而提高物流数据的分析处理能力,解决我国物流数据分析、处理能力不高的问题;

本发明的有益效果在于:本发明有效克服了对物流数据中所隐含的深层次信息挖掘不深入,数据分析、处理能力不高的问题,具有良好的应用价值;

附图说明

图1是实施本发明方法的混合云工作流系统的结构图

图2是本发明的基于混合云安全的工作流调度过程图

具体实施方式

下面结合附图对本发明作进一步描述:

参照图1和图2,基于混合云调度的智慧物流数据挖掘方法,包括以下步骤:

步骤1.建立物流数据的混合云环境:搭建包含共有云与私有云的混合云调度环境,将物流任务调度分配过程分成两种情况:第一种情况,私有云计算资源能够满足用户的计算需求,此时不需要申请公有云中的计算资源;第二种情况,私有云计算资源不能满足用户需求,必须申请公有云资源来辅助完成计算任务,这时需要判断私有云计算资源能否满足需求,当私有云能满足需求时,直接利用计算机得出调度方案,并优化调度费用;而在私有云不能满足需求时需要考虑任务分配以及资源分配,不合理的任务分配将会增加不同云环境间的数据传输量,不但不能缩短工作流整体计算时间,反而可能增加;

步骤2.构建混合云环境的物流数据处理模型:混合云任务调度的场景是用户将包含敏感物流数据的应用提交给一个由公有云与私有云两部分组成的混合云平台,并给出用户能接受的最迟完成时间,即截止时间;在进行任务调度、分配计算资源时需要保证工作流能够在用户要求的截止时间之前完成,并且保证应用中的敏感数据不能离开私有云,以防数据泄露;此部分的内容包括混合云工作流调度的系统模型、安全模型与任务分配模型,具体如下:

①设计混合云工作流调度系统模型:云工作流系统是面向云工作流的处理系统,可以将复杂的应用和用户需求按照流程的方式有序地组织起来,并通过调度引擎,根据用户需求对流程中的任务指派计算资源,达到高效资源调度目的,最后将系统处理结果返回给用户;图1描述了混合云工作流系统的结构图,在混合云环境下,云平台由私有云和公有云两部分组成,调度引擎首先要决定任务所属的云环境,为优化调度成本,会优先为任务分配私有云中的计算资源;当私有云中的计算能力不足,不能在用户要求的截止时间之前完成工作流计算任务时,调度引擎根据需要将任务指派到公有云中,并按需申请公有云中的资源;

②架构混合云安全模型:公有云服务提供商一方面是诚实的,按照协议要求提供可靠的服务;但另一方面又是充满好奇心的,会根据某些目的收集用户数据;私有云一般由企业自身、合作方或者可信第三方提供,和公有云相比更加安全,可被信任;因此在工作流调度过程中,为了防止重要数据泄露,应该保证重要、敏感的数据不能离开私有云;需设置以下两种策略:一是不允许向上转型,即如果当前任务所有的输入数据都是非敏感的,则当前任务产生的数据也必须是非敏感的;二是允许向下转型,即任务的输入数据为敏感数据时输出数据可以为非敏感数据,根据以上策略,图2为基于混合云安全的工作流调度过程;

③搭建混合云环境的任务分配模型:把n个互不影响的子任务放到m个虚拟资源上运行(m<n),用t={t1,t2,…,tn}表示等待调度任务集,tj(j=1,2,…,n)表示第j个子任务,vm={vm1,vm2,…,vmm}表示虚拟资源节点集合,其中vmi表示第i个虚拟资源,虚拟资源用六元组表示{vmid,mips,ram,bw,pesnumber},其中vmid表示虚拟资源编号,mips表示虚拟资源指令执行速度,ram表示虚拟资源内存,bw表示虚拟资源带宽,pesnumber表示虚拟资源cpu个数,任务队列可以用四元组表示{id,length,filesize,outputsize},其中id表示任务编号,length表示任务长度,filesize表示任务输入长度,outputsize表示任务输出长度,每一个任务都可以用四元组表示{tid,tram,tbw,tpesnumber},其中tid表示任务编号,tsram表示本任务需要的内存,tbw表示任务需要带宽,tpesnumber表示任务需要的处理机个数;

步骤3.采用基于帕累托最优的任务分配策略实现:在混合云工作流调度中,工作流截止时间与数据安全性是调度策略在优化调度成本时必须满足的前提条件,数据安全性可在任务分配阶段就得到满足,使用或者产生了敏感性数据的任务都可被认为是敏感性任务,这些任务都必须留在私有云中;因此,在初始化所有分配策略之前就可以排除不满足数据安全性的分配方案;因此在判断任务是否为“帕雷托最优”状态时,只需要考虑该任务分配策略对应的截止时间以及调度费用;混合云工作流调度产生的调度费用可分为两部分,任务执行费用以及数据传输费用,数据传输费用可以通过任务在混合云上的分配情况计算数据传输总量,再根据网络数据传输收费标准计算获得,任务执行费用则可通过任务对应的指令数目以及计算资源收费标准计算获得,虽然在完成资源分配之前仍不知道任务与资源的关系,并且在异构环境下,不同的计算资源拥有不同的计算能力与收费标准,但仍能给出近似估计;然而,任务分配方案对应的截止时间在完成计算资源分配之前是无法得知且难以估计,但在云计算中,工作负载与计算时间存在着某种联系,因此可以利用分配方案对私有云产生的负载来代替计算时间,用以下公式计算私有云负载load与调度费用cost:

其中n为任务个数,α与β分别对应云资源单位时间的使用费用以及连接公有云与私有云网络传输单位数据的费用,θi∈(0,1)表示任务ui被分配到私有云或者公有云中,wi为任务i权重,di,j为任务i,j之间的重要度,δi为私有云使用成本;如果有两个方案中一个方案能够在不损害另一个方案的费用与负载的前提下优化其中任何一个指标,则可认为该方案是另一个方案的一个“帕雷托改善”,经过多次比较筛选后,最后剩余的分配方案都是不可被代替的,这些剩余方案都有可能是资源调度最优解对应的任务分配,是最优解的候选方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1