基于时间序列的流式数据分布式元数据管理方法

文档序号:9380982阅读:956来源:国知局
基于时间序列的流式数据分布式元数据管理方法
【技术领域】
[0001]本发明涉及视频流数据存储技术,具体涉及基于时间序列的流式数据分布式元数据管理方法,属于计算机软件领域。
【背景技术】
[0002]存储系统的规模正不断增大,Petabyte级别甚至更大规模的海量存储系统不断出现。这样的系统,不仅存储空间巨大,还往往拥有1000数量级的客户节点,10G/s级别以上的数据传输速度,文件的数目也很多,可以达到千万甚至上亿个。
[0003]海量存储系统主要通过网络存储技术来实现。通过高速网络把各种存储设备和存储节点连接起来,对外提供更大、更快、更安全和更可靠的存储服务。所谓网络存储就是通过各种类型的网络存储设备,包括了硬盘、磁盘阵列或磁带库等存储介质、专用的数据交换设备以及专业的存储软件,利用一个高速的存储专用网络为用户提供统一的信息存取和数据共享服务。网络存储具有数据容量大、数据传输率高、用户权限控制、数据可靠性高、数据备份与安全性好、良好的可扩展性、数据统一管理和操作简单等特点。常见的网络存储技术有NAS、SAN、iSCSI和对象存储等。
[0004]在传统的文件系统中,元数据和数据本身由同一个文件系统进行管理,它们被存储在同一个存储设备上面,并且在物理分布上也采取就近原则,以便提高访问效率。用户存取一个文件,首先必须得到它的元数据,然后才能根据元数据中的信息得到文件的相关属性或者文件内容。这两个步骤是串行的,而且使用同一个数据传输通道。然而,一台文件服务器的处理能力和数据传输能力是有限的,在文件系统规模较大或者文件访问密度很高的情况下,这种传统的文件访问模式很容易造成数据传输通道的拥堵,形成I/O瓶颈,使得文件系统的整体性能大幅下降,也无法满足高聚合I/O带宽的需求。一些早期的分布式文件系统也采用了这种单一数据通道的处理模式,如NFs、sprite等。
[0005]现在的网络存储系统中,为了避免元数据访问成为文件系统访问的瓶颈,提高数据访问效率,大多采用了将文件的数据与其元数据分开存储的组织方式进行管理。文件的元数据存放在单独的计算机节点,称之为存储系统的元数据服务器(Metadata Server),简称为MS。MS负责管理网络存储文件系统的元数据,它包括文件的名字空间、访问权限、数据块的分布信息,用户的身法验证等。由于文件的数据和元数据分开存储,实现了文件数据传输通道和元数据传输通道的分离。
[0006]在大规模的网络存储系统中实现数据通道与元数据通道的分离是很有必要的。这有以下几个原因,首先,元数据访问量很大。根据研究统计,超过50%的文件系统存取访问中都是和元数据相关的,把这部分访问量从文件服务器分离出去可以显著降低原有文件服务器的访问负载。其次,有一部分文件操作只涉及到文件的元数据,而与文件数据本身无关。如关于文件属性或者目录信息相关的文件操作等,这部分文件操作任务可以单独分配给元数据服务器来完成,完全不需要文件数据服务器的参与。再次,元数据和文件数据具有不同的数据特征和访问特性,而且两者差别很大。元数据是用来描述文件的属性等相关信息,长度很小,通常以Byte或KB的数量级来计量,而文件的长度因文件类型和内容各异,变化很大,几个字节到几个GB大小的文件都有。另外,元数据是有数据结构的,这种数据结构较为固定且是已知的,而文件的数据就不一定有数据结构了。可以看出,元数据的数据特性是尺寸小,结构固定;文件的数据长度变化很大,大小和结构都具有很大的随机性。这种数据特性的差别也会对他们的处理方式产生不同的影响,需要使用不同的模式和算法。
[0007]流式数据信息资源与普通图书、期刊、学位论文等数据形式区别很大,要进行有效、准确、全面、深入的揭示,决不能照搬通用的元数据体系。MARC元数据体系繁复,仍无法对流式数据信息资源的内容进行精准描述,在流式数据信息资源数量相当庞大且急剧膨胀的今天,传统的描述方式已是回天乏术。都柏林核心元数据(Dublin Core,简称DC元数据),简单适用于数量庞大的一般信息资源的描述,但对于流式数据信息资源而言,某些元素或修饰词的设置就显得过于笼统。例如,流式数据信息资源的日期包括生产日期、主体事件的特定日期、版权生效日期、首次播放日期、末次播放日期、许可播放期限等在内的多种内涵,而DC元数据的日期元素无法全部揭示。这要求产生适用于流式数据信息资源的专门元数据集,即流式数据元数据集。
[0008]不同类型的流式数据信息资源在功能、用户群、使用方式等方面也各不相同;对于同一类型的流式数据信息资源,不同的用户也存在不同的检索和使用需求。例如,对比赛类的流式数据信息资源而言,一般观众通常从欣赏的需求出发,希望检索到某一场自己感兴趣的比赛;而专业人士则往往从研究的角度出发,希望检索到包含了某项比赛技巧应用的场景甚至是镜头。为满足不同用户的检索需求,要求视频元数据集能够从多角度、多层次对视频信息资源进行揭示。
[0009]就目前来说,基于流式视频监控数据应用需求的特点,用户群希望根据时间区间调阅读取以往流式视频监控数据。

【发明内容】

[0010]本发明的目的在于提供基于时间序列的流式数据分布式元数据管理方法,保证了后续的视频回放请求能够定位到所需读取的数据和故障后的正确恢复。
[0011]为了实现上述目的,本发明采用的技术方案如下:
基于时间序列的流式数据分布式元数据管理方法,包括如下步骤:
A、元数据服务器基于对象维度和时间维度,记录和管理元数据;
B、元数据服务器记录和管理视频流的元数据,包括每个视频流的摄像头位置信息、当前副本定位信息、基于时间序列记录的视频流历史数据的存储位置;同时,元数据服务器基于对象维度,记录所有数据存储节点的元数据,包括每台数据存储节点的位置信息、负载情况;
C、数据存储节点基于对象维度记录视频流数据在磁盘具体位置的元数据信息;同时记录该数据存储节点上所有磁盘的元数据信息,包括每块磁盘所存储数据的过期时间和每块磁盘正在写的具体位置信息;
D、数据存储节点中的所有元数据持久化并集中存储在某块磁盘的固定位置。
[0012]具体地,所述步骤A中,对象维度为不同的摄像头,时间维度为不同视频流对应的时间段,元数据服务器根据摄像头编号和时间段信息,定位所查询的视频流所在的数据存储节点位置,摄像头编号即视频流编号。
[0013]进一步地,所述步骤B中,元数据服务器分别记录管理视频流数据的元数据和数据存储节点的元数据。
[0014]更进一步地,所述步骤B中,元数据服务器以视频流编号为关键字构建一个树状结构,能快速定位到流的基本信息。该树状结构节点中记录视频流的主要信息包括当前存储该视频流数据的主数据存储节点、从数据存储节点,视频流的位置信息、当前状态,以及一张基于时间序列记录的视频流历史数据的存储位置的链表。
[0015]再进一步地,所述步骤B中,元数据服务器以数据存储节点编号为关键字构建一个树状结构,该树状结构节点记录的主要信息包括该数据存储节点当前负载情况,当前有哪些流使用该数据存储节点作为主数据存储节点和从数据存储节点,当前正在进行的预切换流。
[0016]具体地,所述步骤C中,数据存储节点中,对于每一个视频流的每一片数据使用结构体数据结构形式,记录如下元数据信息:
(1)磁盘ID:该片数据所在的磁盘号;
(2)块文件ID:该片数据所在的块文件号;
(3)数据片ID:该片数据在块文件内的数据片号。
[0017]进一步地,所述数据存储节点保存每一个视频流的所有数据片的元数据信息。
[0018]更进一步地,在数据存储节点中,对于每一个视频流只在尾部进行追加写操作,用数组保存所有数据片的元数据信息。
[0019]更进一步地,在数据存储节点中,每个数据存储节点以视频流编号为关键字将对应视频流的元数据使用查找树或哈希数据结构进行存储。
[0020]再进一步地,在数据存储节点中,数据存储节点记录其上每块磁盘所存储数据的过期时间和每块磁盘正在写的块文件ID和数据片ID。
[0021]与现有技术相比,本发明具有以下有益效果:
本发明的视频流和数据存储节点的元数据存储在元数据服务器中,同时,数据存储节点记录视频流数据在磁盘具体位置的元数据信息,因此保证了视频流回放请求能够快速定位到所需读取的数据和故障后的高效正确恢复。
【附图说明】
[0022]图1为本发明的元数据服务器保存的视频流元数据的组织形式图。
[0023]图2为本发明的元数据服务器保存的数据存储节点元数据的组织形式图。
[0024]图3为本发明的数据存储节点元数据的管理组织形式图。
【具体实施方式】
[0025]下面结合实施例和附图对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。
实施
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1