一种基于私有协议的数据处理集群组件方法及系统与流程

文档序号:24887351发布日期:2021-04-30 13:10阅读:98来源:国知局
一种基于私有协议的数据处理集群组件方法及系统与流程

本发明涉及计算机技术领域,更具体的说是涉及一种基于私有协议的数据处理集群组建方法及系统。



背景技术:

目前集群处理数据的方式主要是通过集群管理器进行资源调度、集群监控,为了实现分布式计算目的,采用多集群并行处理数据。大多数情况中,每个集群节点根据硬件配置不同,在读取数据,数据处理,数据存储等方面各有所长。

比如当前常用的hadoop、spark等数据集群方案,都是节点在注册中心注册,通过集群管理器进行资源调度、集群监控。但是,上述数据集群方案不能结合节点终端的优势发送数据处理。在处理完成后无法以同样的方式获取数据分析节点的信息,将数据发送到数据分析节点,再以同样的方式持久化数据。



技术实现要素:

针对以上问题,本发明的目的在于提供一种基于私有协议的数据处理集群组建方法及系统,能够实现数据的分布式处理。

本发明为实现上述目的,通过以下技术方案实现:一种基于私有协议的数据处理集群组建方法,包括:

发送端集群向接收端集群发送http请求,根据检索的集群信息建立与远程集群的连接;

连接完成后,根据流量控制机制进行数据传输;

发送端集群根据数据处理需求选择接收端集群进行多集群的数据分布处理。

进一步,所述检索的集群信息包括:接收端集群的连接地址、端口号、支持的数据传输协议和加密方式。

进一步,所述建立与远程集群的连接时,根据接收端集群支持的数据传输协议确定采用的数据传输协议。

进一步,若发送端集群无法与接收端集群建立连接,发送端集群先向接收端集群所述网络的代理服务器发送http请求,并建立连接;然后通过代理服务器向接收端集群进行数据传输。

进一步,所述流量控制机制包括:

在接收端集群设置消息中间件,数据传输时,发送端集群先将数据发送至消息中间件,消息中间件根据当前接收端集群的数据负载确定数据传输速度,并根据确定的传输速度将数据传输至接收端集群的数据处理服务器。

进一步,所述发送端集群根据数据处理需求选择接收端集群进行多集群的数据分布处理包括:

若当前的数据处理需求为数据读取,发送端集群选择具有固态硬盘的集群作为接收端集群并进行连接;

若当前的数据处理需求为机器学习、深度学习模型的训练,发送端集群选择具有gpu的集群作为接收端集群并进行连接;

若当前的数据处理需求为数据入库操作,发送端集群选择任意集群作为接收端集群并进行连接。

进一步,所述接收端集群支持的数据传输协议包括:socket协议、http协议、https协议、udp协议。

相应的,本发明还公开了一种基于私有协议的数据处理集群组建系统,包括:

选择单元,用于根据数据处理需求选择接收端集群进行多集群的数据分布处理;

连接单元,用于发送端集群向接收端集群发送http请求,根据检索的集群信息建立与远程集群的连接;

流量控制单元,用于执行流量控制机制进行数据传输。

对比现有技术,本发明有益效果在于:

1、本发明有效实现了分布式数据处理。

2、本发明支持多种通信协议,如socket、http、https、udp,同时支持配置使用代理服务器进行数据传输,适应复杂的网络环境。

3、本发明实现了自动控制流量,当接收端集群负载过大时,通过消息中间件实现负载削峰和流量控制。

4、本发明的数据传输更安全,发送端集群和接收端集群之间可以根据检索的集群信息选择使用证书来加密数据,并且提供身份验证和授权。集群的每个节点都可以配置成指定客户端访问。

5、本发明实现了数据的分步处理,充分发挥每个节点、集群的硬件优势。根据具体的数据处理需求选择接收端集群,做到物尽其用,各司其职。

由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

附图1是本发明的方法流程图。

附图2是本发明的集群数据处理示意图。

附图3是本发明的系统结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做出说明。

如图1所示的一种基于私有协议的数据处理集群组建方法,包括如下步骤:

s1:发送端集群根据数据处理需求选择接收端集群进行多集群的数据分布处理。

具体来说:

1、若当前的数据处理需求为数据读取,发送端集群选择具有固态硬盘(ssd)的集群作为接收端集群并进行连接。

2、若当前的数据处理需求为机器学习、深度学习模型的训练,发送端集群选择具有高性能显卡(gpu)的集群作为接收端集群并进行连接。

3、若当前的数据处理需求为数据入库操作,发送端集群选择任意集群作为接收端集群并进行连接。

本步骤实现了数据的分布处理,能够充分发挥每个集群的硬件优势,做到了物尽其用,各司其职。

s2:确定接收端集群后,发送端集群向接收端集群发送http请求,根据检索的集群信息建立与远程集群的连接。

其中,检索的集群信息包括:接收端集群的连接地址、端口号、支持的数据传输协议和加密方式。

建立与远程集群的连接时,根据接收端集群支持的数据传输协议确定采用的数据传输协议。因为数据传输协议是由发送端集群发送请求数据到接收端集群的某个节点中获取的,所以数据传输协议是由接收端集群决定的,接收端集群支持何种协议我们就用何种协议发数据送给它。在本实施例中,接收端集群支持的数据传输协议包括:socket协议、http协议、https协议、udp协议。

另外,若发送端集群无法与接收端集群建立连接,发送端集群先向接收端集群所述网络的代理服务器发送http请求,并建立连接;然后通过代理服务器向接收端集群进行数据传输。因此,本发明同时支持配置使用代理服务器进行数据传输,适应复杂的网络环境。

s3:连接完成后,根据流量控制机制进行数据传输。

其中,流量控制机制包括:

在接收端集群设置消息中间件,数据传输时,发送端集群先将数据发送至消息中间件,消息中间件根据当前接收端集群的数据负载确定数据传输速度,并根据确定的传输速度将数据传输至接收端集群的数据处理服务器。

通过流量控制机制,可以将传输的数据,先经过接收端集群的消息中间件,再传输到集群中的数据处理的服务器,消息中间件的作用就是实现负载削峰和流量控制。

由此,以上步骤完成了数据处理集群的组建和数据传输处理,集群数据处理的情况如图2所示。如果有后续操作,则会重复上述步骤。

相应的,如图3所示,本发明还公开了一种基于私有协议的数据处理集群组建系统,包括:

选择单元,用于根据数据处理需求选择接收端集群进行多集群的数据分布处理;

连接单元,用于发送端集群向接收端集群发送http请求,根据检索的集群信息建立与远程集群的连接;

流量控制单元,用于执行流量控制机制进行数据传输。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。

同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。

结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1