一种大数据归档存储系统的制作方法

文档序号:6539505阅读:222来源:国知局
一种大数据归档存储系统的制作方法
【专利摘要】本发明公开了一种大数据归档存储系统,由数据源、标准接口、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成,其特征在于标准接口与云数据库之间连有监听器模块。可伸缩管理架构与操作系统之间还连有访问分组模块。可伸缩管理架构还与RAID条带优化模块相连。本发明在一个基础的归档系统架构上架设新的模块,保证归档系统对云计算的支持,同时能够处理来自客户端的大量IO(input/output输入/输出)操作,保证低延时的数据访问,在错误检测方面针对HDD(Hard?Disk?Drive硬盘驱动器)的检错机制进行优化从而提高RAID系统的检错效率,通过以上三个层面提升归档系统的数据吞吐量,保证系统能应对大数据归档的挑战。
【专利说明】一种大数据归档存储系统
【技术领域】
[0001]本发明涉及数据存储领域,特别是一种大数据归档存储系统。
【背景技术】
[0002]大数据环境下云计算技术已趋于成熟,大型的IT企业正在推进云存储的部署,各种智能云存储系统应运而生,CSS(Cloud Storage System)云存储系统也面向可运营的云备份系统,备份与归档正朝着融合的方向迈进。传统的归档技术面临新的挑战,云计算环境下的数据库与池化的软硬资源需要归档系统为其扩展新的接口,不再是简单的数据摄取与接入。海量长期的数据归档需要考虑数据检索的效率,分级存储管理是较理想的归档模式。磁带的使用方式通常是用来对基本上很少使用的数据进行归档的介质(write-once, read-never or maybe, —旦写入,从不使用或者很少使用),磁盘则可以用来归档预期可能检索的数据,在扩展云计算环境的归档系统中下层需要部署用来进行分级的归档模块,需要具有数据检索的预测功能,同时对归档数据进行历史检索的分析,及时的采取分级存储,这类似于计算机存储系统,从底层的硬盘到CPU的高性能cache (缓存),容量在降低,存取速度却在升级。分级的管理同时涉及介质迁移,迁移需要同时考虑归档数据与介质的特性,保证数据迁移与介质迁移的数据持有性,介质稳定性。
[0003]应对信息化的公共管理与企事业电子化运作,高能效的归档系统势必成为支撑数据立体式增长的重要保障。在基于信息生命周期管理的思想上,归档一直是不被重视的一个环节,主要是基于磁带技术的归档模式正在被云时代、大数据冲击。过去,研究者们会把目光集中在数据存储上,这主要来自于传感器等资源的数据采集能力给存储系统带来的压力,经过长期的研究与实践,分布式的存储系统、云存储逐渐实现了大数据的有效存储,研究的热点将转移到新的计算环境下的归档系统。
[0004]全息存储介质、有机金属复合薄膜、突破性的DNA(Deoxyribonucleic acid脱氧核糖核酸,染色体的主要化学成分)与石英玻璃板有望突破磁带与光盘为主的长期归档介质,在工业标准的存储接口未出现前,归档仍主要依靠以硬盘为第一级存储介质的归档系统。国内外有很多归档系统的研究与设计,You等人提出了一个深度的归档存储系统,采用一个虚拟的content-addressable (内容寻址)存储框架与多方式的inter_file(中间文件)和intra-file (内部文件)压缩机制,有效地解决了数据依赖变化下数据压缩,测量内容和元数据存储的效率,展示需要变化级别的复制模型并提供了存储性能的初步结果,在其框架中,采用MD5 (Message Digest Algorithm MD5消息摘要算法第五版)或SHA-1 (Secure Hash Algorithm-1—种安全散列算法)为每个文件计算出虚拟目录地址的主要部分,在大数据环境下,为每个文件计算一个哈希值会为系统增加负荷。
[0005]传感技术使得流数据无处不在,产生源源不断的流数据,这考验着当下企业存储与归档的能力,Abe等人提出了操作合并的机制来归档流数据,大多数操作时访问或者修改操作,对访问者来说可能存在高度的延时,访问者不能访问到逻辑上已经写入的数据,需要控制合并操作的时间域。Wildani等人采用语义部署归档数据,根据访问的历史记录的语义,用索引器建立基于语义的访问目录,在重复访问与语义逻辑相悖时索引器面临巨大挑战。
[0006]目前现有技术中还没有将云存储的存储现状作为大数据归档的重难点,归档系统的设计缺乏与云数据库的无缝接合,数据的迁移往往直接从数据源摄取到了归档介质中,给后期的数据访问增加了压力,爆发式的访问会给系统带来超大负荷,应对这访问集中与多发的机制还是停留在依靠缓存的解决方法,而在归档磁盘的检错问题上,Klein虽然从RAID (Redundant Arrays of Independent Disks 磁盘阵列,RAID)的系统的角度提出了改进归档的方案,在检错顺序上提出采用最远距离单元块优先检错的机制,笼统的认为最远单元块的错误概率较大,缺乏理论依据,优化条带上没有具体的方法。

【发明内容】

[0007]为解决上述技术问题,本发明所采用的技术方案如下:
[0008]一种大数据归档存储系统,由数据源、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成,其特征在于数据源与云数据库之间连有监听器模块,监听器与云数据库相连,记录数据库的访问情况,根据访问情况制定不同的归档策略,将云数据库中的数据传输到下层的归档存储系统中;可伸缩管理架构与操作系统之间还连有访问分组模块,访问分组模块采用语义本体对SVM支持向量机训练,基于语义本体进行访问的分组,降低磁盘旋转的次数;可伸缩管理架构还与RAID条带优化模块相连,RAID条带优化模块采用更换条带区域的方法把条带上的错误块与访问量最低的其他条带上的块互换,以此提高磁盘数据的保护作用。
[0009]可伸缩管理架构用于协调各功能模块的并发操作。
[0010]管理模块包括索引和元数据查询、策略管理以及元数据生成。
[0011]存储介质为磁盘或磁带。
[0012]本发明在一个基础的归档系统架构上架设新的模块,保证归档系统对云计算的支持,同时能够处理来自客户端的大量10(input/output输入/输出)操作,保证低延时的数据访问,在错误检测方面针对HDD (Hard Disk Drive硬盘驱动器)的检错机制进行优化从而提高RAID系统的检错效率,通过以上三个层面提升归档系统的数据吞吐量,保证系统能应对大数据归档的挑战。
【专利附图】

【附图说明】
[0013]图1 一种大数据归档存储系统整体框架示意图。
[0014]图2云端数据库监听原理图。
[0015]图3基于本体的访问分组方法图。
[0016]图4RAID条带优化示意图。
【具体实施方式】
[0017]下面结合附图,对技术方案做进一步具体说明。
[0018]图1是一种大数据归档存储系统整体框架,由数据源、标准接口、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成;[0019]I)数据源,数据源主要是需要进行归档服务的存储系统和用户管理程序,由标准的接口将所有异构数据存储到云数据库中,并且可以实时访问云数据库中的数据。
[0020]2)标准接口:标准接口主要用于提取和访问归档数据,整合硬件技术和软件技术,用于归档系统与上层存储与用户进行交互。本系统支持多工业标准接口和应用程序接口(API),—种接口用于文档的摄取,一种用于文档的检索,例如Extensible AccessMethod (XAM)是支持复杂数据类型和语义的数据接口。
[0021]3)监听器模块:记录云端数据库的新进数据并且建立基于块的访问记录,数据的摄取和访问都会唤醒云数据外围的监听器,监听器模块记录下新数据的存储位置与访问数据的累计访问量,当数据访问量低于阈值并且满足数据归档策略时被迁移到下层的归档系统中
[0022]监听器模块的功能:1)读取云数据库的设置,在没有数据分类或数据分块的云数据库上有策略的划分虚拟块;2)根据公有云还是私有云进行划分,私有云可以直接与目标归档层交互,而公有云还需要建立与目标归档系统对接,实现企业数据的独立归档;3)监听数据库的访问情况,设定阈值,对规定时间段访问及修改值低于阈值的数据库自动将数据经重复删除后通过网络端口迁移到归档系统中。
[0023]图3是公有云下的代理归档方案,数据可能被随机的存到多个云数据库中,如图3中的云数据库I/云数据库/2云数据库3,图中的监听器通过网络与云数据库相连,通过记录数据块的访问情况与定义的归档策略,监听器将云数据库中的数据通过网络传输到下层的归档存储系统中。上图的归档系统用了云计算的思想,小型企业在存储资源有限的情况下,借助公有云,数据根据归档系统的索引器进行存储,缓存也能加快客户端的访问速度。
[0024]4)云数据库:云端被监听的数据库;
[0025]5)索引和元数据查询:用于为归档的数据建立索引并提供查询通道;
[0026]6)策略管理和审计:提供归档的策略和日志审计功能;
[0027]7)元数据的生成和发现服务:用于为归档数据生成相应的元数据,结合数据本身进行定位查找服务;
[0028]索引和元数据查询、策略管理以及元数据生成是并行的管理模块,索引和元数据查询用于建立归档数据集的索引,完成快速的查询服务,元数据生成模块生成数据的数据,配合索引与元数据查询模块实现归档数据的存储。策略管理模块用于归档系统管理者以特定要求的数据管理规约约束归档系统,管理员通过策略管理模块的标准入口进行策略的更新、删除与监控。模块之间都有通信,策略管理模块主要向索引和元数据查询模块与元数据生成模块发送策略包,接收到策略包后,索引和元数据查询与元数据生成模块会依照新的策略整理归档数据。
[0029]8)可伸缩的存储架构:具有核心的归档数据管理能力,用于协调各功能模块的并发操作,支持系统的扩展,访问分组和RAID条带优化模块可见附图3与附图4中,操作系统模块是硬件与软件的连接层,由各种硬件的操作系统组合完成的大规模基础的资源管理模块,管理者磁盘、光盘磁带等存储介质。
[0030]9)访问分组模块:采用语义本体对SVM(Support Vector Machine, SVM)支持向量机训练,基于语义本体进行访问的分组,降低磁盘旋转的次数;
[0031]在访问分组的模块上采用语义本体对SVM支持向量机训练,索引器需要有生成语义本体的能力,语义本体代表一类型的资源,该类资源的特征是存放的物理位置集中,具有语义相关性,访问群经过语义训练,就会被分类到访问组中,每个访问组对应一类的语义本体,如图3所示,在系统目录发生目标比例变化的时,需要生成新的语义本体来训练SVM。
[0032]具体的语义本体对SVM支持向量机训练的实现方法简述如下:(I)由图3中的索引服务模块中的目录生成若干本体库,如图3中的本体库I/本体库2/本体库3 ;(2)在每个本体库中随机选取等分的样本集训练SVM分类器,如图3中的SVM分类器;(3)进入索引服务的IO查询访问集的关键词或字进入分类器进行分类,得到图3中的访问组I/访问组2/访问组3 ; (3)在索引目录发生较大变化后,进行步骤(I)以获得新的本体和分类器。
[0033]语义本体常用作数据库的建模,数据成为本体的实例被吸附到相应的本体库中,采用语义本体的方法,配合文件索引服务器实现存取IO操作的分类、负载均衡,数据集的级数倍增长带来数据访问量的增加,在归档系统需要管理如此多数据的同时还要保证访问的快速响应,就必须优化数据在磁盘上的存储模式,使得磁盘在每次旋转时处理更多的访问。
[0034]归档数据只有小部分是活跃的,图3是基于索引器与存取的语义特征生成若干语义本体,实现的访问分组,采用SVM方法对指定时间间隔内的访问分类,可描述为3个阶段,索引器的目录生成语义本体库,经训练的SVM根据本体库对存取IO操作分类,本体库能够随着访问量与访问的语义复杂程度动态快速定位目标本体指向的磁盘,提高处理效率。
[0035]10) RAID条带优化模块:调整固定单元的检测顺序和调整多错误条带区域。
[0036]考虑系统扩展性,数据的长期存储需要没有与归档前大数据存储融合,比如HDFS(Hadooop Distributed File System一种分布式文件系统)的存储的解决方案,尽管IT巨头的存储解决方案能够帮助企业进行数据的备份与归档,包括分级的存储,介质的轮转、重复利用,面对大数据的归档,它的性能还是未知的。迫切需要系统对云数据库的支持,拓展介质的存储能力,在系统访问量增多与错误检测上也要有应对大数据的机制。
[0037]磁盘仍是归档系统的第一存储介质,位于介质分级的第一级,可以假定为归档系统的Cache,优化磁盘存储技术,及时的检测磁盘错误与修复对可以避免错误数据被轮转到其他存取能力差的介质中,进而降低系统负载。
[0038]优化的RIAD系统可以有效的降低磁盘出错,采用分层的监测模型监测整个RAID系统,定位故障,防止数据丢失,的各种性能指标。分层的模型旨在从RAID控制器的顶端开始,每一层代表的是实际的数据而不是不同的介质,因为RAID技术本身对磁带这样的介质是无效的,出现错误的和擦洗过正在进行冗余检查的需要单独存储起来,矫正错误的能力依赖于每个码的冗余信息,通过改变RAID的布局和条带长度扩大一倍的方法来纠正错误。
[0039]在错误检查方面,HDD的错误检测是将每个盘划分成固定长度的区域,再在该区域内划分更细小的单元,区域大小128M,单元大小为1M,检测过程中首先检测每个区域的固定单元,如此循环。在优化的RAID系统中对到达生命期边缘的磁盘进行连续的擦洗,对未到达生命期的磁盘在每次的循检测中,选择离上一轮检测中该区域内相距最远的作为有优先检测权的单元,因为在检测无误的单元附近的错误概率远低于离其较远的单元。在RAID条带上,当发现条带上有多个错误区域时,选取其它访问量较小的条带对应的区域更换。
[0040]图4显示的是一张条带检错得到的映射表,这是一张RAID条带上区域交换的重映射虚拟表,一共有磁盘O、磁盘I磁盘2三个磁盘,区域i j表示第i+Ι个条带上的第j+Ι个区域,例如区域11表示第2个(条带I)条带上的第二个区域,上斜线区域为故障区域,竖线区域为健康区域,当一个条带上多个区域具有关联的故障时,为防止交叉错误引起新的错误,对出现故障较多的条带调整,使条带上的错误区域降到最低数量,原方法没有设计区域交换的法则,无规律性的交换不一定能降低错误的发生,用aij来标记了各区域的时间段无故障检测参数,调整的方法采用标记区域无故障的检测次数为依据,定义如下:
[0041]定义1:a[ij]记录条带i上磁盘j区域的无故障访问数;
[0042]定义2:S[i] = max{a[ij]},得到条带i上的最大访问值;
[0043]定义3:T(ij) = min{S[0], ---St1-1], S[i+1], ---StnJI,计算出需要交换的区域region ij的目的条带,在优化结束后,a[ij]全部清零。
[0044]采用对比健康检测情况的方法上调整错误区域较多的条带可以避免未知的交叉错误,将错误区域迁移到访问量最小的条带上进一步降低未知错误的概率。
[0045]11)分级存储、介质管理与备份。
[0046]分级存储模块的主要功能是完成数据的存储分级、介质轮转,依据归档磁盘中数据的被访问情况和存储策略,采取不同的存储方式分别将数据存储到性能不同的存储设备上,实现数据在存储设备之间的自动迁移。介质管理主要用于管理介质持中的各种介质资源,完成介质的性能评估、动态增加、删除等管理目标。备份模块用于创建数据副本,以防系统的硬件或存储媒体发生故障。
【权利要求】
1.一种大数据归档存储系统,由数据源、云数据库、管理模块、可伸缩管理架构、操作系统、存储介质依次连接构成,其特征在于数据源与云数据库之间连有监听器模块,监听器与云数据库相连,记录数据库的访问情况,根据访问情况制定不同的归档策略,将云数据库中的数据传输到下层的归档存储系统中;可伸缩管理架构与操作系统之间还连有访问分组模块,访问分组模块采用语义本体对SVM支持向量机训练,基于语义本体进行访问的分组,降低磁盘旋转的次数;可伸缩管理架构还与RAID条带优化模块相连,RAID条带优化模块采用更换条带区域的方法把条带上的错误块与访问量最低的其他条带上的块互换,以此提高磁盘数据的保护作用。
2.根据权利要求1所说的一种大数据归档存储系统,其特征在于可伸缩管理架构用于协调各功能模块的并发操作。
3.根据权利要求1所说的一种大数据归档存储系统,其特征在于管理模块包括索引和元数据查询、策略管理以及元数据生成。
4.根据权利要求1所说的一种大数据归档存储系统,其特征在于存储介质为磁盘或磁带。
【文档编号】G06F3/06GK103916459SQ201410077302
【公开日】2014年7月9日 申请日期:2014年3月4日 优先权日:2014年3月4日
【发明者】孙知信, 胡燕平, 宫婧, 王攀 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1