一种分布式数据挖掘系统及方法与流程

文档序号:12278255阅读:来源:国知局

技术特征:

1.一种分布式数据挖掘系统,其特征在于,包括:用户终端组、前置服务器组、第一控制服务器、第二控制服务器以及运算服务器组;所述用户终端组包括多个用户终端;所述前置服务器组包括多个前置服务器;所述运算服务器组包括多个运算服务器;所述用户终端组与所述前置服务器组通信连接;所述前置服务器组分别与所述第一控制服务器、第二控制服务器和所述运算服务器组通信连接;

所述用户终端,用于向所述前置服务器发送数据挖掘任务请求;

所述前置服务器,用于解析所述数据挖掘任务请求的域名信息,根据所述数据挖掘任务请求的域名信息将所述数据挖掘任务请求提交到作为工作节点的第一控制服务器;

所述第一控制服务器,用于将所述数据挖掘任务请求对应的数据挖掘任务进行分解,形成多个数据挖掘子任务;将所述多个数据挖掘子任务发送给所述前置服务器;

所述前置服务器,还用于将所述多个数据挖掘子任务分配到多个运算服务器处进行处理,并接收运算服务器的任务反馈信息,并将所述任务反馈信息发送给所述第一控制服务器;

所述第一控制服务器,还用于将所述任务反馈信息实时同步发送到第二控制服务器处;

所述第二控制服务器,用于实时监控所述第一控制服务器,在确认所述第一控制服务器发生故障时,向所述前置服务器发送工作节点更替请求;

所述前置服务器,还用于根据所述工作节点更替请求,更新记录所述第二控制服务器的网络地址,以使得所述第二控制服务器作为工作节点;

所述第二控制服务器,还用于向各运算服务器广播任务信息收集请求;

所述运算服务器,还用于在监听到所述广播任务信息收集请求时,向所述前置服务器反馈任务情况信息;

所述前置服务器,还用于将所述任务情况信息发送给所述第二控制服务器;

所述第二控制服务器,还用于对所述任务情况信息和所述任务反馈信息进行对比,确定所述任务情况信息和所述任务反馈信息的差异信息,并根据预先设置的处理策略,对所述差异信息进行处理。

2.根据权利要求1所述的分布式数据挖掘系统,其特征在于,所述前置服务器,还用于获取前置服务器组中的其他前置服务器的运行状态信息;在所述其他前置服务器的运行状态为故障状态时,接收与其他前置服务器连接的用户终端的连接请求,并建立通信连接。

3.根据权利要求2所述的分布式数据挖掘系统,其特征在于,所述前置服务器,还用于记录作为工作节点的第一控制服务器的网络地址或作为工作节点的第二控制服务器的网络地址。

4.根据权利要求3所述的分布式数据挖掘系统,其特征在于,所述前置服务器,具体用于接收运算服务器的心跳信息;所述运算服务器的心跳信息包括运算服务器处理数据挖掘子任务的任务反馈信息和运算服务器的CPU资源信息;将所述运算服务器的心跳信息发送给所述第一控制服务器。

5.根据权利要求4所述的分布式数据挖掘系统,其特征在于,所述第一控制服务器,具体用于在将多个数据挖掘子任务发送给所述前置服务器时,向第二控制服务器发送数据同步信息;所述数据同步信息包括数据挖掘子任务的任务编号和各数据挖掘子任务对应的运算服务器的IP地址;

在接收到运算服务器的心跳信息后,将运算服务器的心跳信息实时同步发送到第二控制服务器处。

6.根据权利要求5所述的分布式数据挖掘系统,其特征在于,所述第二控制服务器,具体用于以一预设时间间隔定时向所述第一控制服务器发送心跳请求;若连续n次向所述第一控制服务器发送心跳请求后,均没有收到第一控制服务器的心跳应答信息,则确定所述第一控制服务器发生故障,向所述前置服务器发送工作节点更替请求;其中n为预先设置的次数阈值。

7.根据权利要求6所述的分布式数据挖掘系统,其特征在于,所述第二控制服务器,具体用于:

根据所述任务情况信息和所述任务反馈信息,生成两份任务清单列表;所述任务清单列表包括运算服务器的IP地址和运算服务器的CPU资源信息;

根据所述两份任务清单列表,确定差异信息;

若所述差异信息为第一控制服务器已分配给运算服务器后由于第一控制服务器故障,未同步到第二控制服务器的任务,根据所述任务情况信息更新第二控制服务器的数据同步信息;

若所述差异信息为第一控制服务器已分配给运算服务器,且运算服务器处理任务失败后,由于第一控制服务器故障,未同步到第二控制服务器的任务,从所述任务情况信息中获取任务失败信息,并将所述任务失败信息对应的数据挖掘子任务重新分配;

若所述差异信息为第一控制服务器尚未分配的数据挖掘子任务,将尚未分配的数据挖掘子任务通过前置服务器分配给运算服务器处进行处理。

8.根据权利要求7所述的分布式数据挖掘系统,其特征在于,所述第一控制服务器,具体用于根据运算服务器的CPU资源信息,将一数据挖掘子任务分配给各运算服务器中CPU资源最大的运算服务器。

9.一种分布式数据挖掘方法,其特征在于,应用于权利要求1至8任一项所述的分布式数据挖掘系统,该系统包括:用户终端组、前置服务器组、第一控制服务器、第二控制服务器以及运算服务器组;所述用户终端组包括多个用户终端;所述前置服务器组包括多个前置服务器;所述运算服务器组包括多个运算服务器;所述用户终端组与所述前置服务器组通信连接;所述前置服务器组分别与所述第一控制服务器、第二控制服务器和所述运算服务器组通信连接;

所述方法包括:

用户终端向所述前置服务器发送数据挖掘任务请求;

前置服务器解析所述数据挖掘任务请求的域名信息,根据所述数据挖掘任务请求的域名信息将所述数据挖掘任务请求提交到作为工作节点的第一控制服务器;

第一控制服务器将所述数据挖掘任务请求对应的数据挖掘任务进行分解,形成多个数据挖掘子任务,并将所述多个数据挖掘子任务发送给所述前置服务器;

所述前置服务器将所述多个数据挖掘子任务分配到多个运算服务器处进行处理,并接收运算服务器的任务反馈信息,并将所述任务反馈信息发送给所述第一控制服务器;

所述第一控制服务器将所述任务反馈信息实时同步发送到第二控制服务器处;

所述第二控制服务器实时监控所述第一控制服务器,在确认所述第一控制服务器发生故障时,向所述前置服务器发送工作节点更替请求;

所述前置服务器根据所述工作节点更替请求,更新记录所述第二控制服务器的网络地址,以使得所述第二控制服务器作为工作节点;

所述第二控制服务器向各运算服务器广播任务信息收集请求;

所述运算服务器在监听到所述广播任务信息收集请求时,向所述前置服务器反馈任务情况信息;

所述前置服务器将所述任务情况信息发送给所述第二控制服务器;

所述第二控制服务器对所述任务情况信息和所述任务反馈信息进行对比,确定所述任务情况信息和所述任务反馈信息的差异信息,并根据预先设置的处理策略,对所述差异信息进行处理。

10.根据权利要求9所述的分布式数据挖掘方法,其特征在于,还包括:

所述前置服务器获取前置服务器组中的其他前置服务器的运行状态信息;在所述其他前置服务器的运行状态为故障状态时,接收与其他前置服务器连接的用户终端的连接请求,并建立通信连接。

11.根据权利要求10所述的分布式数据挖掘方法,其特征在于,还包括:

所述前置服务器记录作为工作节点的第一控制服务器的网络地址或作为工作节点的第二控制服务器的网络地址。

12.根据权利要求11所述的分布式数据挖掘方法,其特征在于,所述前置服务器将所述多个数据挖掘子任务分配到多个运算服务器处进行处理,并接收运算服务器的任务反馈信息,并将所述任务反馈信息发送给所述第一控制服务器,包括:

所述前置服务器接收运算服务器的心跳信息;所述运算服务器的心跳信息包括运算服务器处理数据挖掘子任务的任务反馈信息和运算服务器的CPU资源信息;

将所述运算服务器的心跳信息发送给所述第一控制服务器。

13.根据权利要求12所述的分布式数据挖掘方法,其特征在于,还包括:

所述第一控制服务器在将多个数据挖掘子任务发送给所述前置服务器时,向第二控制服务器发送数据同步信息;所述数据同步信息包括数据挖掘子任务的任务编号和各数据挖掘子任务对应的运算服务器的IP地址;

所述第一控制服务器将所述任务反馈信息实时同步发送到第二控制服务器处,包括:

所述第一控制服务器在接收到运算服务器的心跳信息后,将运算服务器的心跳信息实时同步发送到第二控制服务器处。

14.根据权利要求13所述的分布式数据挖掘方法,其特征在于,所述第二控制服务器实时监控所述第一控制服务器,在确认所述第一控制服务器发生故障时,向所述前置服务器发送工作节点更替请求,包括:

所述第二控制服务器以一预设时间间隔定时向所述第一控制服务器发送心跳请求;

若连续n次向所述第一控制服务器发送心跳请求后,均没有收到第一控制服务器的心跳应答信息,则确定所述第一控制服务器发生故障,向所述前置服务器发送工作节点更替请求;其中n为预先设置的次数阈值。

15.根据权利要求14所述的分布式数据挖掘方法,其特征在于,所述第二控制服务器对所述任务情况信息和所述任务反馈信息进行对比,确定所述任务情况信息和所述任务反馈信息的差异信息,并根据预先设置的处理策略,对所述差异信息进行处理,包括:

所述第二控制服务器根据所述任务情况信息和所述任务反馈信息,生成两份任务清单列表;所述任务清单列表包括运算服务器的IP地址和运算服务器的CPU资源信息;

所述第二控制服务器根据所述两份任务清单列表,确定差异信息;

若所述差异信息为第一控制服务器已分配给运算服务器后由于第一控制服务器故障,未同步到第二控制服务器的任务,根据所述任务情况信息更新第二控制服务器的数据同步信息;

若所述差异信息为第一控制服务器已分配给运算服务器,且运算服务器处理任务失败后,由于第一控制服务器故障,未同步到第二控制服务器的任务,从所述任务情况信息中获取任务失败信息,并将所述任务失败信息对应的数据挖掘子任务重新分配;

若所述差异信息为第一控制服务器尚未分配的数据挖掘子任务,将尚未分配的数据挖掘子任务通过前置服务器分配给运算服务器处进行处理。

16.根据权利要求15所述的分布式数据挖掘方法,其特征在于,还包括:

所述第一控制服务器根据运算服务器的CPU资源信息,将一数据挖掘子任务分配给各运算服务器中CPU资源最大的运算服务器。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1