分布式流数据存储系统的存储资源规划方法

文档序号:8945823阅读:946来源:国知局
分布式流数据存储系统的存储资源规划方法
【技术领域】
[0001] 本发明涉及流数据存储技术领域,特别涉及一种分布式流数据存储系统的存储资 源规划方法。
【背景技术】
[0002] 分布式存储系统,是将数据分散存储在多台独立设备上的存储系统。传统的网络 存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可 靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展 的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,不但提高 了系统的可靠性、可用性和存取效率,还易于扩展。
[0003] 图1是典型的分布式视频流数据存储系统的结构示意图,所述分布式视频流数据 存储系统包括元服务器(MS,MetaServer) 11和若干台数据服务器(DS,DataServer) 12〇 所述元服务器11适于接收摄像机10的注册请求,调度所述数据服务器12存储视频流数 据,并接收所述数据服务器12汇报的自身硬件和负载状况。所述数据服务器12则在所述 元服务器11的调度下向摄像机10请求数据,对视频流数据进行存储。当多个进程同时访 问同一块磁盘时,可能会出现磁盘冲突。为了避免磁盘冲突,现有技术中采用条带化技术将 视频流数据存储到不同数据服务器中的不同磁盘上去。
[0004] 条带化技术能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突,而 且在需要对流数据进行顺序访问的时候可以获得最大程度上的I/O并行能力。然而,当前 这种将流数据的存储位置分散到不同数据服务器中的不同磁盘上的存储资源调度方法,会 导致大量的数据服务器和磁盘处在活跃状态。与处在静默状态的数据服务器和磁盘相比, 处在活跃状态的数据服务器和磁盘的功耗更高、设备损耗更大。并且,流数据存在存储生命 周期的需求,当前这种存储资源调度方法在过期流数据删除后会产生大量的碎片。其中,活 跃状态是指执行读任务或者写任务时的状态,静默状态是指未执行读任务或者写任务时的 状态。

【发明内容】

[0005] 本发明所要解决的是分布式流数据存储系统功耗高、设备损耗大、流数据删除后 产生大量碎片的问题。
[0006] 为解决上述问题,本发明提供一种分布式流数据存储系统的存储资源规划方法, 包括:
[0007] 获得满足最大存储需求所需数据服务器的最少数量;
[0008] 将数据服务器中的每块磁盘等分为
条条 带,其中,DSniax为满足最大存储需求所需数据服务器的最少数量,DvS磁盘的容量,Nb为数 据服务器的网络带宽,Dn为数据服务器中磁盘的数量,S_为存储系统所能承受的流任务的 最大数量,Sb为流任务的码率,T为流任务的存储周期,Db为磁盘的带宽;
[0009]根据实际存储需求设置
台数据服务器,其中,Sn为流任 务的实际数量,Dsn为每块磁盘中条带的数量;
[0010] 将同一台数据服务器中的每Nb/Db条条带集合成条带捆,所述条带捆中的任意两 条条带不在同一磁盘上;
[0011] 将所有条带捆集合成存储资源带,所述存储资源带中的任意
个相邻条带捆不在同一数据服务器中;
[0012] 将在同一条带中执行的写任务集合成任务集束,所有任务集束构成任务总窗口, 使所述任务总窗口在所述存储资源带中滚动。
[0013] 通过将同一台数据服务器中不同磁盘上的条带集合成条带捆,将所有条带捆集合 成存储资源带,在满足存储系统所有读写任务的网络带宽和磁盘带宽的要求下,尽可能地 将写任务集中到了同一台数据服务器中的同一块磁盘上,减少了过期流数据删除后产生的 碎片,在底层存储资源上形成连续可写入的磁盘空间,可最大化磁盘写入带宽。当所有写任 务集合成的任务总窗口在所述存储资源带中滚动时,只有任务总窗口中的数据服务器和磁 盘处于活跃状态,因而能够降低分布式流数据存储系统的功耗、减小设备损耗。
[0014] 进一步,本发明在进行条带划分时,将所有条带规划成两部分:一部分条带用作存 储流任务带来的数据总量,该部分条带的存储容量等于流任务带来的数据总大小;另一部 分条带为最大任务总窗口所需的多个连续条带。通过如此设置,在任务总窗口滚动到存储 资源带的末端时,存储资源带前端条带中存储的数据过期,可以重新写入数据,因而能够保 证在流数据的存储周期内有足够的可用磁盘。
[0015] 可选的,所述获得满足最大存储需求所需的数据服务器的最少数量包括:
[0016]
获得满足最大存储需求所需数据服务器的
初始数量,其中,DSniax'为所述初始数量;
[0017]步骤S12,判断所述初始数量DSniax'
[0018] 步骤S13,若所述初始数量DSniax'
则所述初始数量DSniax'即为满足 最大存储需求所需数据服务器的最少数量DSniax,否则将所述初始数量DSniax'作为变量不断
[0019] 可选的,所述存储资源带中的首尾条带相连。
[0020]可选的,使所述任务总窗口在所述存储资源带中滚动包括:在当前任务集束写满 一条条带后,将当前任务集束向前滚动到空白或者未写满数据的条带中;在有新的写任务 加入时,将新加入的写任务分配到前端任务集束中。
[0021] 可选的,使所述任务总窗口在所述存储资源带中滚动还包括:在当前任务集束的 条带被调度执行读任务时,将当前任务集束向前滚动到空白或者未写满数据的条带中。
[0022] 可选的,写满数据但数据已过期的条带可被任务集束重新写入数据。
[0023] 与现有技术相比,本发明具有以下优点:
[0024] 本发明提供的分布式流数据存储系统的存储资源规划方法,基于流数据的时间序 列特征和存储生命周期的需求,将同一台数据服务器中不同磁盘上的条带集合成条带捆避
个相邻条带捆设计成不在同一 数据服务器中以满足存储系统所有读写任务的网络带宽,尽可能将写任务集中到了同一台 数据服务器中的同一块磁盘上,而不是尽量将存储位置分散到不同数据服务器中的不同磁 盘上,从而减少了过期流数据删除后产生的碎片,并能够降低分布式流数据存储系统的功 耗高、减小设备损耗。
【附图说明】
[0025] 图1是典型的分布式视频流数据存储系统的结构示意图;
[0026] 图2是本发明实施例将所有磁盘条带化后的示意图;
[0027] 图3是本发明实施例将条带集合成条带捆、条带捆集合成存储资源带后的示意 图;
[0028] 图4是本发明实施例任务总窗口在存储资源带中滚动的示意图;
[0029] 图5是本发明实施例任务总窗口在首尾条带相连的存储资源带中滚动的示意图。
【具体实施方式】
[0030] 本发明实施例提供一种分布式流数据存储系统的存储资源规划方法,所述流数据 可以为传感器网络数据、航空航天监测数据、气象监控数据、金融服务数据或者图1所示的 视频流数据等,所述分布式流数据存储系统与图1所示的分布式视频流数据存储系统类 似,包括元服务器和若干台数据服务器,每台数据服务器包括若干块磁盘。作为数据服务器 的属性,数据服务器的网络带宽、数据服务器中的磁盘数量、磁盘的带宽以及磁盘的容量都 是确定的。而作为需要存储的流数据的属性,流任务的码率和流任务的存储周期也是确定 的,流任务是指将单路流数据存储进存储系统。本发明实施例提供的分布式流数据存储系 统的存储资源规划方法,正是基于数据服务器的属性和流数据的属性提出的。所述规划方 法包括:
[0031] 步骤Sl:获得满足最大存储需求所需数据服务器的最少数量;
[0032] 步骤S2 :将数据服务器中的每块磁盘等分为
其中,DSniax为满足最大存储需求所需数据服 务器的最少数量,队为磁盘的容量,Nb为数据服务器的网络带宽,D"为数据服务器中磁盘的 数量,Sniax为存储系统所能承受的流任务的最大数量,Sb为流任务的码率,T为流任务的存 储周期,Db为磁盘的带宽;
[0033]
台数据服务器,其中,Sn 为流任务的实际数量,Dsn为每块磁盘中条带的数量;
[0034] 步骤S4 :将同一台数据服务器中的每Nb/Db条条带集合成条带捆,所述条带捆中的 任意两条条带不在同一磁盘上;
[0035] 步骤S5:将所有条带捆集合成存储资源带,所述存储资源带中的任意
[0036] 步骤S6 :将在同一条带中执行的写任务集合成任务集束,所有任务集束构成任务 总窗口,使所述任务总窗口在所述存储资源带中滚动。
[0037] 本实施例提供的分布式流数据存储系统的存储资源规划方法,通过尽可能将写任 务集中到同一台数据服务器中的同一块磁盘上,减少过期流数据删除后产生的碎片,在底 层存储资源上形成连续可写入的磁盘空间,可最大化磁盘写入带宽。当所有写任务集合成 的任务总窗口在存储资源带中滚动时,只有任务总窗口中的数据服务器和磁盘处于活跃状 态,因而能够降低分布式流数据存储系统的功耗、减小设备损耗。
[0038] 下面结合实施例及附图,对本发明作进一步地的详细说明,但本发明的实施方式 不限于此。
[0039] 如步骤Sl所述,获得满足最大存储需求所需数据服务器的最少数量。分布式流数 据存储系统的构建一般是多期的,比如规划是存储来自1000路网络摄像头的视频流,但第 一期只上马600路网络摄像头,此时分布式流数据存储系统的构建依然按照满足存储来自 1000路网络摄像头的视频流来计算所需数据服务器的最少数量,以该最少数量来计算磁盘 应当等分的条带数,再以该等分的磁盘条带数计算存储来自600路网络摄像头的视频流所 需的数据服务器。获得满足最大存储需求所需数据服务器的最少数量具体包括:
[0040]
获得满足最大存储需求所需数据服务器的 初始数量,其中,DSniax'为所述初始数量。具体地,为了满足最大存储需求,构建的分布式 存储系统总存储容量首先必须大于最大数量的流任务带来的数据总量,即需要满足不等式 DS_XDnXDv>S_XSbXT,根据此不等式可以获得满足最大存储需求所需数据服务器的
初始数量DS_'。由于数据服务器的数量为整数:
[0041] 步骤S12,判断所述初始数量DSniax'
。满足最大存储需求所需数 据服务器的最少数量除了在容量上需要满足存储需求,还要
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1