分布式节点间的数据分配方法、装置、服务器及存储介质与流程

文档序号：19149769发布日期：2019-11-15 23:56阅读：289来源：国知局

本发明涉及计算机技术领域，尤其涉及一种分布式节点间的数据分配方法、装置、服务器及存储介质。

背景技术：

目前，随着互联网技术的蓬勃发展，社会生产活动中生成的数据量及存储需求越来越大，分布式文件系统被越来越广泛的使用。

实践中发现，当数据存储分布不平衡时，分布式计算任务可能会被分配给没有存储数据的数据节点，这需要通过网络读取其它数据节点存储的数据，从而导致网络带宽的消耗。此外，当一些数据节点的数据完全满载时，新的数据会被集中存放在有空余存储空间的数据节点上，由于新的数据会被经常访问，使得对该数据节点的访问过于频繁，降低了该节点读取数据的性能。

因此，如何减少网络带宽的消耗以及提高数据节点读取数据的性能是一个亟待解决的技术问题。

技术实现要素：

鉴于以上内容，有必要提供一种分布式节点间的数据分配方法、装置、服务器及存储介质，能够减少网络带宽的消耗以及提高数据节点读取数据的性能。

本发明的第一方面提供一种分布式节点间的数据分配方法，所述方法包括：

获取多个分布式节点的存储空间使用率；

使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；

判断所述正态分布的标准差是否大于预设标准差阈值；

若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；

根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。

在一种可能的实现方式中，所述根据所述正态分布的曲线，确定待调整节点包括：

根据预设百分比，从所述正态分布的曲线中，确定位于所述曲线的两端的第一存储空间使用率范围以及第二存储空间使用率范围；

将存储空间使用率属于所述第一存储空间使用率范围的数据节点确定为转入节点；

将存储空间使用率属于所述第二存储空间使用率范围的数据节点确定为转出节点；

将所述转入节点以及所述转出节点确定为待调整节点。

在一种可能的实现方式中，所述根据所述正态分布的均值，对所述待调整节点的数据进行重新分配包括：

针对每个所述转出节点，根据所述正态分布的均值、所述转出节点的存储空间使用率以及所述转出节点的存储空间大小，确定所述转出节点的可转出数据量；

针对每个所述转入节点，根据所述正态分布的均值、所述转入节点的存储空间使用率以及所述转入节点的存储空间大小，确定所述转入节点的可转入数据量；

根据所述可转出数据量和所述可转入数据量，对所述转出节点的数据进行调整，以及根据所述可转出数据量和所述可转入数据量，对所述转入节点的数据进行调整。

在一种可能的实现方式中，所述根据所述可转出数据量和所述可转入数据量，对所述转出节点的数据进行调整，以及根据所述可转出数据量和所述可转入数据量，对所述转入节点的数据进行调整包括：

按照多个所述转出节点的第一预设排列顺序以及多个所述转入节点的第二预设排列顺序，依次将所述转出节点的数据转入至所述转入节点；

统计所述转出节点的实时转出数据量，以及统计所述转入节点的实时转入数据量；

判断所述实时转出数据量是否等于所述转出节点的可转出数据量，以及判断所述实时转入数据量是否等于所述转入节点的可转入数据量；

若所述实时转出数据量等于所述转出节点的可转出数据量，停止将所述转出节点的数据转出；及/或

若所述实时转入数据量等于所述转入节点的可转入数据量，停止向所述转入节点转入数据。

在一种可能的实现方式中，所述方法还包括：

若所述正态分布的标准差大于预设标准差阈值，生成警告信息；

将所述警告信息发送给用户终端。

本发明的第二方面提供一种分布式节点间的数据分配装置，所述装置包括：

获取模块，用于获取多个分布式节点的存储空间使用率；

拟合模块，用于使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；

判断模块，用于判断所述正态分布的标准差是否大于预设标准差阈值；

确定模块，用于若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；

分配模块，用于根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。

本发明的第三方面提供一种服务器，所述服务器包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的分布式节点间的数据分配方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的分布式节点间的数据分配方法。

由以上技术方案，本发明中，可以获取多个分布式节点的存储空间使用率；使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；判断所述正态分布的标准差是否大于预设标准差阈值；若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。可见，正态分布的标准差可以反映数据集群中所有数据节点的数据存储的分布情况，当所述标准差大于预设标准差阈值时，表明整个数据集群中的数据节点的数据存储分布不均，存在数据节点的存储空间使用率很低甚至没有存储数据的情况，以及存在数据节点的存储空间使用率较高甚至满载的情况。可以将存储空间使用率低的数据节点以及存储空间使用率高的节点确定为待调整节点，对待调整节点的数据进行调整，使得整个数据集群中所有的数据节点的数据存储分布较为均匀，避免了分布式计算任务被分配给没有存储有数据的数据节点上，可以减少网络带宽的消耗，同时，由于数据分布较为均匀，使得访问不会集中在某个数据节点上，从而提高了数据节点的数据读取的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明公开的一种分布式节点间的数据分配方法的较佳实施例的流程图。

图2是本发明公开的一种分布式节点间的数据分配装置的较佳实施例的功能模块图。

图3是本发明实现分布式节点间的数据分配方法的较佳实施例的服务器的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的分布式节点间的数据分配方法应用在服务器中，也可以应用在服务器和通过网络与所述服务器进行连接的电子设备所构成的硬件环境中，由服务器和电子设备共同执行。网络包括但不限于：广域网、城域网或局域网。

其中，服务器可以是指能对网络中其它设备(如电子设备)提供服务的计算机系统。如果一个个人电脑能够对外提供文件传输协议(filetransferprotocol，简称ftp)服务，也可以叫服务器。从狭义范围上讲，服务器专指某些高性能计算机，能通过网络，对外提供服务，其相对于普通的个人电脑来说，稳定性、安全性、性能等方面都要求更高，因此在cpu、芯片组、内存、磁盘系统、网络等硬件和普通的个人电脑有所不同。

所述电子设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(asic)、可编程门阵列(fpga)、数字处理器(dsp)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。

请参见图1，图1是本发明公开的一种分布式节点间的数据分配方法的较佳实施例的流程图。其中，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

s11、服务器获取多个分布式节点的存储空间使用率。

其中，所述多个分布式节点可以是分布式文件系统的数据集群中所有的数据节点，所述分布式文件系统可以是hadoop分布式文件系统(hadoopdistributedfilesystem，hdfs)，hadoop分布式文件系统是被设计适合运行在通用硬件(commodityhardware)上的分布式文件系统，能提供高吞吐量的数据访问。其中，hadoop是一个的分布式系统基础架构。

其中，所述数据节点是指在hadoop分布式文件系统中保存数据(例如，文件)的节点机器，每个数据节点上都有一个datanode来管理数据节点的数据存储，其中，所述datanode是一个在hadoop分布式文件系统中的单独机器上运行的软件。

本发明实施例中，可以通过namenode节点(例如，中心服务器)的接口获取到各个数据节点的存储信息，可以获取到各个数据节点的存储空间使用率。

s12、服务器使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值。

其中，所述正态分布拟合算法可以对一组数据进行正态分布拟合，获得该组数据近似服从的正态分布，可以获得所述正态分布的均值、标准差以及曲线。

本发明实施例中，可以通过正态分布拟合算法，对所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率近似服从的正态分布。

s13、服务器判断所述正态分布的标准差是否大于预设标准差阈值，若是，执行步骤s14，若否，结束本流程。

其中，所述标准差能反映一个数据集的离散程度，一个较大的标准差，代表大部分数值和其均值之间差异较大；一个较小的标准差，代表这些数值较接近均值。

本发明实施例中，所述预设标准差阈值是指预先设置的一个标准差阈值，用户可以根据业务的实际情况，设置所述标准差阈值。若所述正态分布的标准差大于预设标准差阈值，表示数据集群中的数据节点的数据存储分布不均，且需要对数据节点存储的数据进行平衡调整。实现了对数据集群的数据节点存储分布情况的监控，并可以及时对数据节点存储的数据进行调整。

作为一种可选的实施方式，所述方法还包括：

若所述正态分布的标准差大于预设标准差阈值，生成警告信息；

将所述警告信息发送给用户终端。

在该可选的实施方式中，当所述正态分布的标准差大于预设标准差阈值时，表明系统要对数据集群中的数据节点的数据进行调整，可以生成警告信息，并将所述警告信息发送给用户的终端，发送的方式可以包括但不限于邮件以及短信等，本发明实施例对此不做具体的限定。其中，所述警告信息用于提醒用户当前数据集群中的数据节点处于存储分布不平衡的状态。

s14、服务器根据所述正态分布的曲线，确定待调整节点。

其中，所述正态分布的曲线是一条中间高，两端逐渐下降且对称的钟型曲线，可以反映各个所述数据节点的存储空间使用率的分布情况。

其中，所述待调整节点是指需要进行数据调整的数据节点。

本发明实施例中，可以根据正态分布曲线，确定待调整节点，即根据各个数据节点的存储空间使用率的分布情况确定要进行数据调整的数据节点。

具体的，所述根据所述正态分布的曲线，确定待调整节点包括：

根据预设百分比，从所述正态分布的曲线中，确定位于所述曲线的两端的第一存储空间使用率范围以及第二存储空间使用率范围；

将存储空间使用率属于所述第一存储空间使用率范围的数据节点确定为转入节点；

将存储空间使用率属于所述第二存储空间使用率范围的数据节点确定为转出节点；

将所述转入节点以及所述转出节点确定为待调整节点。

其中，所述第一存储空间使用率是指比较低的存储空间使用率，比所述正态分布的均值要小，位于所述正态分布曲线的左端；

其中，所述第二存储空间使用率是指比较高的存储空间使用率，比所述正态分布的均值要大，位于所述正态分布曲线的右端。

其中，所述待调整节点包括转出节点以及转入节点。

其中，所述转出节点是指因存储空间使用率过高而需要将部分数据转出至其他数据节点的数据节点。

其中，所述转入节点是指因存储空间使用率过低而需要向其转入数据的数据节点。

在该可选的实施方式中，可以预先设置一个百分比，比如10％，可以从所述正态分布的曲线的最左端开始，沿着横坐标的正方向取10％曲线，确定该10％曲线对应的横坐标范围，即所述第一存储空间使用率范围。可以从所述正态分布的曲线的最右端开始，沿着横坐标的负方向取10％曲线，确定该10％曲线对应的横坐标范围，即所述第二存储空间使用率范围。并将存储空间使用率属于所述第一存储空间使用率范围的所述数据节点确定为转入节点，以及将存储空间使用率属于所述第二存储空间使用率范围的数据节点确定为转出节点。

s15、服务器根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。

其中，所述正态分布的均值也叫数学期望，是正态分布的位置参数，描述正态分布的集中趋势位置，表示大多数据节点的存储空间使用率接近这个数值。

本发明实施例中，对所述待调整节点的数据进行重新分配的目标就是使得所述待调整节点的存储空间使用率接近于所述正态分布的均值，即接近所有数据节点的一个平均存储空间使用率，使得整个数据集群中数据存储分布较均匀。

具体的，所述根据所述正态分布的均值，对所述待调整节点的数据进行重新分配包括：

可选的，针对每个所述转出节点，可以先计算所述转出节点的存储空间使用率与所述均值的差，再将计算得出的差，乘以所述转出节点的存储空间大小，即可计算出所述转出节点可以转出的数据量。针对每个所述转入节点，可以先计算所述转入节点的存储空间使用率与所述均值的差，再将计算得出的差，乘以所述转入节点的存储空间大小，即可计算出所述转入节点可以转入的数据量。然后根据每个所述转出节点的可以转出的数据量以及每个所述转入节点可以转入的数据量，对所述转出节点的数据进行调整，以及根据每个所述转出节点的可以转出的数据量以及每个所述转入节点可以转入的数据量，对所述转入节点的数据进行调整。

具体的，所述根据所述可转出数据量和所述可转入数据量，对所述转出节点的数据进行调整，以及根据所述可转出数据量和所述可转入数据量，对所述转入节点的数据进行调整包括：

按照多个所述转出节点的第一预设排列顺序以及多个所述转入节点的第二预设排列顺序，依次将所述转出节点的数据转入至所述转入节点；

统计所述转出节点的实时转出数据量，以及统计所述转入节点的实时转入数据量；

判断所述实时转出数据量是否等于所述转出节点的可转出数据量，以及判断所述实时转入数据量是否等于所述转入节点的可转入数据量；

若所述实时转出数据量等于所述转出节点的可转出数据量，停止将所述转出节点的数据转出；及/或

若所述实时转入数据量等于所述转入节点的可转入数据量，停止向所述转入节点转入数据。

其中，所述第一预设排列顺序可以为按存储空间使用率从高到低的排列顺序、按存储空间使用率从低到高的排列顺序以及随机排列顺序等，本发明实施例对此不做具体的限定。

其中，所述第二预设排列顺序可以为按存储空间使用率从高到低的排列顺序、按存储空间使用率从低到高的排列顺序以及随机排列顺序等，本发明实施例对此不做具体的限定。

其中，所述第一排列顺序可以和所述第二排列顺序一致，也可以和所述第二排列顺序不一致。

可选的，根据多个所述转出节点的排列顺序以及多个所述转入节点的排列顺序，将第一个转出节点的数据转入至第一个转入节点中，并在数据调整的过程中，统计转出节点的实时转出数据量以及统计转入节点的实时转入数据量，若检测到第一个转出节点的实时转出数据量等于其可转出数据量，停止将该转出节点的数据转出，并按照多个转出节点的排列顺序，将第二个转出节点的数据转出，即先将一个转出节点的数据转出，当该转出节点转出的数据量达到了可以转出的数据量的上限时，停止将该转出节点的数据转出，并按照预设的排列顺序，将下一个转出节点的数据转出。若检测到第一个转入节点的实时转入数据量等于其可转入数据量，停止向该转入节点转入数据，并按照多个转入节点的排列顺序，开始向第二个转入节点转入数据，即先将数据转入至一个转入节点中，当向该转入节点转入的数据量达到了该转入节点可以转入的数据量的上限时，停止向该转入节点转入数据，并按照多个转入节点的排列顺序，开始向下一个转入节点转入数据。可以实现转出节点与转入的节点之间的数据平衡。

在图1所描述的方法流程中，可以获取多个分布式节点的存储空间使用率；使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；判断所述正态分布的标准差是否大于预设标准差阈值；若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。可见，正态分布的标准差可以反映数据集群中所有数据节点的数据存储的分布情况，当所述标准差大于预设标准差阈值时，表明整个数据集群中的数据节点的数据存储分布不均，存在数据节点的存储空间使用率很低甚至没有存储数据的情况，以及存在数据节点的存储空间使用率较高甚至满载的情况。可以将存储空间使用率低的数据节点以及存储空间使用率高的节点确定为待调整节点，对待调整节点的数据进行调整，使得整个数据集群中所有的数据节点的数据存储分布较为均匀，避免了分布式计算任务被分配给没有存储有数据的数据节点上，可以减少网络带宽的消耗，同时，由于数据分布较为均匀，使得访问不会集中在某个数据节点上，从而提高了数据节点的数据读取的性能。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

请参见图2，图2是本发明公开的一种分布式节点间的数据分配装置的较佳实施例的功能模块图。

在一些实施例中，所述分布式节点间的数据分配装置运行于服务器中。所述分布式节点间的数据分配装置可以包括多个由程序代码段所组成的功能模块。所述中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行图1所描述的方法中的部分或全部步骤。

本实施例中，所述分布式节点间的数据分配装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、拟合模块202、判断模块203、确定模块204及分配模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

获取模块201，用于获取多个分布式节点的存储空间使用率；

其中，所述分布式文件系统是指hadoop分布式文件系统(hadoopdistributedfilesystem，hdfs)，hadoop分布式文件系统是被设计适合运行在通用硬件(commodityhardware)上的分布式文件系统，适合部署在廉价的机器上，能提供高吞吐量的数据访问。其中，hadoop是一个的分布式系统基础架构。

其中，所述数据节点是指在hadoop分布式文件系统中保存数据(文件)的节点机器，每个数据节点上都有一个datanode来管理数据节点的数据存储，其中，所述datanode是一个在hadoop分布式文件系统中的单独机器上运行的软件。

本发明实施例中，可以通过namenode节点(中心服务器)的接口获取到各个数据节点的存储信息，可以获取到各个数据节点的存储空间使用率。

拟合模块202，用于使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；

本发明实施例中，可以通过正态分布拟合算法，对所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率近似服从的正态分布。

判断模块203，用于判断所述正态分布的标准差是否大于预设标准差阈值；

其中，所述标准差能反映一个数据集的离散程度，一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。

本发明实施例中，所述预设标准差阈值是指预先设置的一个标准差阈值，用户可以根据业务的实际情况，设置所述标准差阈值。若所述正态分布的标准差大于预设标准差阈值，表示数据集群中的数据节点的存储空间使用率分布不均，且需要对数据节点存储的数据进行平衡调整。实现了对数据集群的数据节点存储分布情况的监控，并可以及时对数据节点存储的数据进行调整。

确定模块204，用于若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；

其中，所述正态分布的曲线是一条中间高，两端逐渐下降且对称的钟型曲线，可以反映各个所述数据节点的存储空间使用率的分布情况。

其中，所述待调整节点是指需要进行数据调整的数据节点。

本发明实施例中，可以根据正态分布曲线，确定待调整节点，即根据各个数据节点的存储空间使用率的分布情况确定要进行数据调整的数据节点。

分配模块205，用于根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。

作为一种可选的实施方式，所述确定模块204根据所述正态分布的曲线，确定待调整节点的方式具体为：

根据预设百分比，从所述正态分布的曲线中，确定位于所述曲线的两端的第一存储空间使用率范围以及第二存储空间使用率范围；

将存储空间使用率属于所述第一存储空间使用率范围的数据节点确定为转入节点；

将存储空间使用率属于所述第二存储空间使用率范围的数据节点确定为转出节点；

将所述转入节点以及所述转出节点确定为待调整节点。

其中，所述第一存储空间使用率是指比较低的存储空间使用率，比所述正态分布的均值要小，位于所述正态分布曲线的左端；

其中，所述第二存储空间使用率是指比较高的存储空间使用率，比所述正态分布的均值要大，位于所述正态分布曲线的右端。

其中，所述待调整节点包括转出节点以及转入节点。

其中，所述转出节点是指因存储空间使用率过高而需要将部分数据转出至其他数据节点的数据节点。

其中，所述转入节点是指因存储空间使用率过低而需要向其转入数据的数据节点。

作为一种可选的实施方式，所述分配模块205根据所述正态分布的均值，对所述待调整节点的数据进行重新分配的方式具体为：

作为一种可选的实施方式，所述分配模块205根据所述可转出数据量和所述可转入数据量，对所述转出节点的数据进行调整，以及根据所述可转出数据量和所述可转入数据量，对所述转入节点的数据进行调整的方式具体为：

按照多个所述转出节点的第一预设排列顺序以及多个所述转入节点的第二预设排列顺序，依次将所述转出节点的数据转入至所述转入节点；

统计所述转出节点的实时转出数据量，以及统计所述转入节点的实时转入数据量；

判断所述实时转出数据量是否等于所述转出节点的可转出数据量，以及判断所述实时转入数据量是否等于所述转入节点的可转入数据量；

若所述实时转出数据量等于所述转出节点的可转出数据量，停止将所述转出节点的数据转出；及/或

若所述实时转入数据量等于所述转入节点的可转入数据量，停止向所述转入节点转入数据。

其中，所述第一排列顺序可以和所述第二排列顺序一致，也可以和所述第二排列顺序不一致。

作为一种可选的实施方式，所述分布式节点间的数据分配装置还可以包括：

生成模块，用于若所述正态分布的标准差大于预设标准差阈值，生成警告信息；

发送模块，用于将所述警告信息发送给用户终端。

在该可选的实施方式中，当所述正态分布的标准差大于预设标准差阈值时，表明系统要对数据集群中的数据节点的数据进行调整，可以生成警告信息，并将所述警告信息发送给用户的终端，发送的方式可以包括但不限于邮件以及短信等，本发明实施例对此不做限定。其中，所述警告信息用于提醒用户当前数据集群中的数据节点处于存储分布不平衡的状态。

在图2所描述的分布式节点间的数据分配装置中，可以获取多个分布式节点的存储空间使用率；使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；判断所述正态分布的标准差是否大于预设标准差阈值；若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。可见，正态分布的标准差可以反映数据集群中所有数据节点的数据存储的分布情况，当所述标准差大于预设标准差阈值时，表明整个数据集群中的数据节点的数据存储分布不均，存在数据节点的存储空间使用率很低甚至没有存储数据的情况，以及存在数据节点的存储空间使用率较高甚至满载的情况。可以将存储空间使用率低的数据节点以及存储空间使用率高的节点确定为待调整节点，对待调整节点的数据进行调整，使得整个数据集群中所有的数据节点的数据存储分布较为均匀，避免了分布式计算任务被分配给没有存储有数据的数据节点上，可以减少网络带宽的消耗，同时，由于数据分布较为均匀，使得访问不会集中在某个数据节点上，从而提高了数据节点的数据读取的性能。

如图3所示，图3是本发明实现分布式节点间的数据分配方法的较佳实施例的服务器的结构示意图。所述服务器3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。

本领域技术人员可以理解，图3所示的示意图仅仅是所述服务器3的示例，并不构成对所述服务器3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器3还可以包括输入输出设备、网络接入设备等。

所述至少一个处理器32可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等，所述处理器32是所述服务器3的控制中心，利用各种接口和线路连接整个服务器3的各个部分。

所述存储器31可用于存储所述计算机程序33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元，以及调用存储在存储器31内的数据，实现所述服务器3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器3的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

结合图1，所述服务器3中的所述存储器31存储多个指令以实现一种分布式节点间的数据分配方法，所述处理器32可执行所述多个指令从而实现：

获取多个分布式节点的存储空间使用率；

判断所述正态分布的标准差是否大于预设标准差阈值；

若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；

根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。

在一种可选的实施方式中，所述根据所述正态分布的曲线，确定待调整节点包括：

根据预设百分比，从所述正态分布的曲线中，确定位于所述曲线的两端的第一存储空间使用率范围以及第二存储空间使用率范围；

将存储空间使用率属于所述第一存储空间使用率范围的数据节点确定为转入节点；

将存储空间使用率属于所述第二存储空间使用率范围的数据节点确定为转出节点；

将所述转入节点以及所述转出节点确定为待调整节点。

在一种可选的实施方式中，所述根据所述正态分布的均值，对所述待调整节点的数据进行重新分配包括：

在一种可选的实施方式中，所述根据所述可转出数据量和所述可转入数据量，对所述转出节点的数据进行调整，以及根据所述可转出数据量和所述可转入数据量，对所述转入节点的数据进行调整包括：

按照多个所述转出节点的第一预设排列顺序以及多个所述转入节点的第二预设排列顺序，依次将所述转出节点的数据转入至所述转入节点；

统计所述转出节点的实时转出数据量，以及统计所述转入节点的实时转入数据量；

判断所述实时转出数据量是否等于所述转出节点的可转出数据量，以及判断所述实时转入数据量是否等于所述转入节点的可转入数据量；

若所述实时转出数据量等于所述转出节点的可转出数据量，停止将所述转出节点的数据转出；及/或

若所述实时转入数据量等于所述转入节点的可转入数据量，停止向所述转入节点转入数据。

在一种可选的实施方式中，所述处理器32可执行所述多个指令从而实现：

若所述正态分布的标准差大于预设标准差阈值，生成警告信息；

将所述警告信息发送给用户终端。

具体地，所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在图3所描述的服务器3中，可以获取多个分布式节点的存储空间使用率；使用正态分布拟合算法，对所述所有数据节点的存储空间使用率进行拟合，获得所述存储空间使用率的正态分布，并确定正态分布的标准差以及正态分布的均值；判断所述正态分布的标准差是否大于预设标准差阈值；若所述正态分布的标准差大于预设标准差阈值，根据所述正态分布的曲线，确定待调整节点；根据所述正态分布的均值，对所述待调整节点的数据进行重新分配。可见，正态分布的标准差可以反映数据集群中所有数据节点的数据存储的分布情况，当所述标准差大于预设标准差阈值时，表明整个数据集群中的数据节点的数据存储分布不均，存在数据节点的存储空间使用率很低甚至没有存储数据的情况，以及存在数据节点的存储空间使用率较高甚至满载的情况。可以将存储空间使用率低的数据节点以及存储空间使用率高的节点确定为待调整节点，对待调整节点的数据进行调整，使得整个数据集群中所有的数据节点的数据存储分布较为均匀，避免了分布式计算任务被分配给没有存储有数据的数据节点上，可以减少网络带宽的消耗，同时，由于数据分布较为均匀，使得访问不会集中在某个数据节点上，从而提高了数据节点的数据读取的性能。

所述服务器3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈应杨
技术所有人：深圳市网心科技有限公司
我是此专利的发明人

上一篇：一种蚕丝蛋白真空冷冻干燥设备的制作方法
上一篇：一种多官能团改性纳米纤维膜吸附材料的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。