一种分布式计算系统的实现方法、装置及计算引擎与流程

文档序号:37336509发布日期:2024-03-18 18:01阅读:10来源:国知局

本发明涉及数据领域,提供了一种分布式计算系统的实现方法、装置及计算引擎。


背景技术:

1、近年来,大数据相关技术发展迅速,大数据技术越来越成熟,已经有越来越多的企业通过大数据技术来创造更多的价值的同时,也为企业带来了更高的性价比和更易于扩展的超大规模数据处理能力。随着利率市场化进程加快、互联网金融业态的发展,银行与实体经济的业务横向联系与深度融合进展迅速,业务数据的内容不断丰富,大数据计算的能力也需要不断提升。企业数据量和数据种类不断增加和丰富,因此急需建设一套统一的大数据数据分布式计算系统存储平台。

2、企业处于业务发展的初级阶段,唯有不断创新才能适应激烈的市场竞争环境,而新业务模式的创新离不开数据的支持,也对数据信息服务的总体能力提出了新的要求。基于大数据分布式计算技术,整合现有行内数据,接入行外数据,搭建统一数据计算平台,把先前分散的计算资源统一管理,抓住机遇为我行大数据分布式计算平台建设做好最基础、最扎实的工作。通过建设大数据分布式计算系统,能有效的解决我行不同数据的统一计算和管理使用,同时保障企业数据计算类业务的快速发展。

3、现有的分布式计算系统存在如下问题:

4、1、读写效率需要提高的问题

5、虽然设计合理的分布式计算系统能够解决计算资源所需扩大的问题,但由于计算机集群大多通过网络进行数据的读写工作,因此常常会出现读写效率低下的问题。

6、2、网络数据经常延时的问题

7、网络计算机集群虽然解决了计算资源管理的难题,但与此同时网络上经常出现的延迟问题,也同样会在分布式计算系统中出现。

8、3、数据计算统一管理的问题

9、由于性价比高的分布式计算系统中计算资源是储存在网络间的不同计算机上的,因此用户在访问计算资源时经常会因为计算模型的不统一而出现访问受限的问题。


技术实现思路

1、本发明的目的在于解决现有技术存在的计算效率需要提高、网络计算经常延时、计算资源统一管理的问题。

2、为了实现上述目的本发明采用以下技术手段:

3、本发明提供了一种分布式计算系统的实现方法,包括以下步骤:

4、集群接收用户提交的数据,按照预先设计好的计算模型准备计算资源后生成计算单元;

5、集群按照定义好的服务器均衡分配策略,将生成的各个计算单元按照最优化的分配原则逐一分发到集群中的服务器节点上,直至均衡分配完成;

6、启动一个定时任务,通过管理者节点定时扫描所有服务器的所有节点,获取整体计算资源负载分布情况;

7、将集群当前负载状态与预设的阈值进行对比,并根据对比的结果对各节点的负载情况进按照均衡规则行调整后完成负载均衡;

8、由管理者节点存储计算元数据,工作组节点准备计算资源并对外提供数据计算服务。

9、作为优选,计算模型基于计算资源均衡算法,具体包括:

10、写入阶段:将数据源输入到计算资源框架中;

11、分裂阶段:将大规模的数据源切片成许多小的数据集,然后对数据进行预处理,处理成适合扫描的任务输入的键值对形式;

12、扫描阶段:对输入的键值对键值对进行处理,然后产生一系列的中间结果。通常一个分裂分片对应一个扫描任务,有几个分片就有几个扫描任务;

13、归拢阶段:对扫描阶段产生的一系列键值对进行分区、排序、归并等操作,然后处理成适合还原任务输入的键值对形式;

14、还原阶段:提取所有相同的键值,并按用户的需求对属性进行操作,最后也是以键值对的形式输出结果;

15、输出阶段:进行一系列验证后,将还原阶段的输出结果上传到分布式文件系统中。

16、作为优选,服务器均衡分配策略具体包括:

17、静态负载均衡算法:以固定的概率分配任务,不考虑服务器的状态信息,如:轮询法、加权轮询法、随机法、加权随机法等,将客户端请求按顺序发送到不同的服务实例,服务通常需要是无状态的;是轮询算法的改进版本,如果alice的第一个请求发送到服务上,则以下请求也发送到该服务上;管理员可以为每个服务指定权重,权重更高的服务处理的请求更多;该算法对传入请求的ip或url应用哈希函数,根据哈希函数结果,将请求路由到相关实例;

18、动态负载均衡算法:以服务器的实时负载状态信息来决定任务的分配,如:最小连接法、加权最小连接数法等来实现。

19、作为优选,对外提供计算服务时,分布式计算系统在客户端访问计算资源时启动网络加速算法,加速算法会为根据计算单元在元数据中的存储位置来获取计算资源的实际状况,之后调动集群中所有的网络资源来对该计算资源做加速处理,再之后将处理的计算结果返回给客户端。

20、一种分布式计算系统的实现装置,包括以下模块:

21、计算单元模块:用户向集群提交计算模型,集群在接收到计算模型后,按照预告设定的参数准备计算所需的资源;

22、计算资源分配模块:按照定义好的服务器资源均衡分配策略,把刚准备好的各个计算资源随机的逐一分发到集群中的服务器节点上,

23、计算资源二次分配模块:按照均衡算法分配策略,均衡算法会将各计算单元的总资源均衡的分配到各个节点上,直至均衡分配完成,

24、定时任务模块:启动一个定时任务,通过管理者节点定时扫描所有节点,统计出整体计算资源负载分布情况;

25、负载调节模块:将集群当前负载状态与预设的阈值进行对比,并根据对比的结果对各节点的负载情况进按照均衡规则行调整,从而实现负载均衡;

26、对外计算模块:负载均衡完成后由管理者节点存储计算单元元数据,工作、组节点存储计算数据,最终稳定的对外提供数据计算服务。

27、作为优选,计算资源分配进行资源分配时,具体包括:

28、当客户端写数据完成后,若配置预审值余量小于预设值的一半时,本次预审资源添加到轮询资源中;

29、发送异步消息到元数据端后持续写入数据;

30、客户端收到计算相应后,解析出预审的配置属性值,并且更新到客户端配额预审请到的剩余资源中去;

31、数据写入成功后,从预申请资源中除去本次新增的资源值;

32、数据写入成功达到预设时间后,当没有数据再增加时,把剩余的预审资源值归还给集群的资源组。

33、作为优选,计算资源二次分配模块进行二次分配时,具体包括:

34、采用资源管理器的方式来二次分配资源,资源管理器负责整个系统的资源管理和分配,处理客户端请求,主要包括两个组件,即调度器和应用程序管理器;

35、任务调度与任务监控,为应用作业申请资源并分配给各个任务,实现资源的二次分配,与主节点保持通信进行对各个任务的监控,并在任务失败时恢复(即重新申请资源重启任务);

36、子节点是驻留在一个资源集群中的每个节点上的代理,监控每个容器的资源使用情况,向资源管理器汇报作业的资源使用情况和每个容器的运行状态,接收来自应用程序的各种请求;

37、调度器接收来自应用程序的资源请求,把集群中的资源以“容器”的形式分配给提出申请的应用程序,容器的选择通常会考虑应用程序所要处理的数据位置,进行就近选择从而实现“计算向数据靠拢”;

38、一个应用程序执行就会关联一个二次分配的资源,它会统一管理整个程序作业的资源调度执行,作业要执行就会被分成多个任务,每个任务都需要相关的容器资源,都需要申请一个容器去执行任务;

39、每个在容器运行的任务都要通过主节点将当前的工作状态与进度向二次申请的资源组汇报,如果任务失败主节点会重新申请让他恢复,整个应用程序或作业运行完成后应用程序管理器注销并关闭自己,释放二次分配的资源。

40、作为优选,在对外提供计算服务时,分布式计算系统在客户端访问计算模型时启动网络加速算法,加速算法会根据计算需求在元数据中的分配位置来获取计算资源的实际位置,之后调动集群中所有的网络资源来对该计算单元做计算模型的处理,再之后将计算结果返回给客户端。

41、一种计算介质,其特征在于,处理器执行计算介质中的程序,实现上述的一种分布式计算系统的实现方法。

42、因为本发明采用上述技术方案,因此具备以下有益效果:1、设计合理的分布计算系统开发商利用配置文件的方式,来对特定的计算需求提供针对性的策略,从而能够进一步提高计算运行时的效率。2、在客户端访问计算资源时启动网络加速算法,解决网络计算经常延时的问题。3、通过将计算单元复制为对应的计算需求,保证计算单元名称全局统一,让用户可以像使用本地计算服务一样来使用一个tb级的计算空间。分布式计算系统的统一管理,按照同一计算模型存储,同一树状结构目录存储,保证客户端的正常访问,避免了如访问连接,访问超时,访问权限等带来的问题;

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1