一种应用于RCFile存储模型的预分配的自适应压缩方法与流程

文档序号:12600670阅读:来源:国知局

技术特征:

1.一种应用于RCFile存储模型的预分配的自适应压缩方法,其特征在于包括以下步骤:

S1:在客户端使用轻量级数据向量预分配算法,将相同或相似的数据向量分配到相应的服务器数据节点,增加同一个服务器数据节点的数据可压缩性;

S2:在服务器数据节点端,使用基于代价的压缩算法,对同一服务器节点数据进行自适应压缩。

2.根据权利要求1所述的应用于RCFile存储模型的预分配的自适应压缩方法,其特征在于,S1中所述在客户端使用轻量级预分配算法,对客户端数据进行分配的过程具体如下:

S11:根据服务器节点历史数据抽样,建立映射至二维第一象限的标准向量空间;

S12:获取任意一个客户端的数据向量,将该数据向量的特征向量与客户端定义的标准向量求得余弦相似值,根据相似值判断该客户端数据向量隶属于哪一个服务器数据节点,记录该服务器数据节点编号Nodenum,并向服务器控制节点发送该数据以及其请求的服务器数据节点编号;

S13:服务器控制节点接收到S12中数据向量和其请求编号Nodenum时,根据设定存储阀值以及实时状态判定其请求编号为Nodenum服务器节点是否可存储数据,如果可以,那么在服务器数据节点直接存储该客户端数据向量;如果不可以,那么根据预先定义的标准向量空间,将客户端数据存储到满足条件的邻近服务器数据节点,并且记录客户端数据实际存储的服务器数据节点编号Node'num

S14:将S13中服务器数据节点编号Node'num返回给控制节点,更新控制节点中该客户端数据向量存储服务器数据节点编号,再执行S12。

3.根据权利要求1所述的应用于RCFile存储模型的预分配的自适应压缩方法,其特征在于,S2中所述的使用基于代价的压缩算法CCA,对同一服务器节点数据进行自适应压缩具体包括:

S21:获取一个满足压缩条件的服务器数据节点,假设每个服务器数据节点包含m个行组,记录每个行组每行的元素个数为j;

S22:以行组第一行为例,从前m-1个行组第一行随机抽取k个元素(j/m=λk,λ=2,4,8,...,2n),从剩下的行组,也就是第m个行组第一行中选取r个元素(j mod m=λr,λ=2,4,8,...,2n);

S23:合并S22中抽取的数据,形成新的纪录,记NewRow;

S24:对NewRow进行压缩代价分析,对NewRow并发执行多种轻量级压缩算法,记录每一种压缩算法的压缩时间与压缩率,根据压缩时间与压缩率确定压缩代价;

S25:为行组每一行选择代价最小的压缩算法压缩服务器数据节点,再执行S21。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1