分布式数据存储方法、装置及系统的制作方法

文档序号:10724925阅读:401来源:国知局
分布式数据存储方法、装置及系统的制作方法
【专利摘要】本发明公开了一种分布式数据存储方法、装置及系统。其中,该方法包括:对获取到的基础数据进行筛选,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;将基础数据按照类型存储至第一子存储集群和/或第二子存储集群。本发明解决了现有分布式数据存储系统的数据访问延迟高的技术问题。
【专利说明】
分布式数据存储方法、装置及系统
技术领域
[0001]本发明涉及互联网领域,具体而言,涉及一种分布式数据存储方法、装置及系统。
【背景技术】
[0002]Apache Nutch是Hadoop的源头,Hadoop技术已经在互联网领域得以广泛的应用,同时也得到研究界的普遍关注。如Yahool使用4000节点的机群运行Hadoop,支持广告系统和Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200TB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了 “大云”(BigCloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。
[0003]并且,国内的高校和科研院所也基于Hadoop在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性方面进行研究。
[0004]但是,现有的Hadoop技术中,存在如下问题:
[0005]1、数据访问延迟高,不适合低延迟的数据访问操作。
[0006]2、数据访问延迟高,导致无法高效存储大量的小文件。
[0007]3、不支持多用户管理,无法实现多用户写入和修改。
[0008]针对上述现有分布式数据存储系统的数据访问延迟高的问题,目前尚未提出有效的解决方案。

【发明内容】

[0009]本发明实施例提供了一种分布式数据存储方法、装置及系统,以至少解决现有分布式数据存储系统的数据访问延迟高的技术问题。
[0010]根据本发明实施例的一个方面,提供了一种分布式数据存储系统,包括:数据采集服务器,用于对基础数据进行采集;数据处理服务器,与数据采集服务器连接,用于对基础数据进行分类,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;分布式存储集群,与数据处理服务器连接,用于将结构化类型的基础数据存储至第一子存储集群,将非结构化类型的基础数据存储至第二子存储集群。
[0011 ]进一步地,上述分布式存储集群还包括:索引服务器,与第一子存储集群连接,用于根据结构化类型的基础数据生成数据索引信息。
[0012]进一步地,上述系统还包括:缓存存储服务器,与数据处理服务器连接,用于将数据采集服务器采集到的基础数据进行缓存。
[0013]进一步地,第二子存储集群采用HadoopHDFS分布式文件存储构架。
[0014]进一步地,上述系统还包括:应用服务器,与分布式存储集群连接,用于提供对分布式存储集群中存储的基础数据进行访问的数据接口。
[0015]根据本发明实施例的另一方面,还提供了一种分布式数据存储方法,包括:对获取到的基础数据进行筛选,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;将基础数据按照类型存储至第一子存储集群和/或第二子存储集群。
[0016]进一步地,在对获取到的基础数据进行筛选,确定基础数据的类型之后,方法还包括:根据非结构化类型的基础数据,生成与基础数据对应的元数据;将元数据作为结构化类型的基础数据存储至第一子存储集群。
[0017]进一步地,在将基础数据按照类型存储至第一子存储集群和/或第二子存储集群之后,方法还包括:根据基础数据生成数据索引信息,其中,数据索引信息至少包括:基础数据的描述信息和存储位置信息;将数据索引信息存储至索引服务器。
[0018]进一步地,将基础数据按照类型存储至第一子存储集群和/或第二子存储集群,包括:按照类型将基础数据存储至缓存服务器;根据预先设置的存储策略,将结构化类型的基础数据存储至第一子存储集群,将非结构化类型的基础数据存储值第二子存储集群。
[0019]根据本发明实施例的另一方面,还提供了一种分布式数据存储方法,包括:筛选模块,用于对获取到的基础数据进行筛选,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;第一存储模块,用于将基础数据按照类型存储至第一子存储集群和/或第二子存储集群。
[0020]进一步地,上述装置还包括:第一生成模块,用于根据非结构化类型的基础数据,生成与基础数据对应的元数据;第二存储模块,用于将元数据作为结构化类型的基础数据存储至第一子存储集群。
[0021 ]进一步地,上述装置还包括:第二生成模块,用于根据结构化类型的基础数据生成数据索引信息,其中,数据索引信息至少包括:基础数据的描述信息和存储位置信息;第三存储模块,用于将数据索引信息存储至索引服务器。
[0022]在本发明实施例中,采用对获取到的基础数据进行筛选,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;将基础数据按照类型存储至第一子存储集群和/或第二子存储集群的方式,从而达到提高分布式存储集群整体存储效率的目的,实现了降低分布式存储集群的延迟时间的技术效果,解决了现有分布式数据存储系统的数据访问延迟高的技术问题。
【附图说明】
[0023]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0024]图1是根据本发明实施例的分布式数据存储系统的系统框架图;
[0025]图2是根据本发明实施例的一种可选的分布式数据存储系统的系统框架图;
[0026]图3是根据本发明实施例的一种可选的分布式数据存储系统的系统框架图;
[0027]图4是根据本发明实施例的一种可选的分布式数据存储系统的系统框架图;
[0028]图5是根据本发明实施例的分布式数据存储方法的流程图;
[0029]图6是根据本发明实施例的一种可选的分布式数据存储装置的示意图;
[0030]图7是根据本发明实施例的一种可选的分布式数据存储装置的示意图;以及[0031 ]图8是根据本发明实施例的一种可选的分布式数据存储装置的示意图。
【具体实施方式】
[0032]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0033]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034]根据本发明实施例,提供了一种分布式数据存储系统的系统实施例,图1是根据本发明实施例的分布式数据存储系统的系统框架图,如图1所示,该系统包括:数据采集服务器21、数据处理服务器23和分布式存储集群25。
[0035]其中,数据采集服务器21,用于对基础数据进行采集;数据处理服务器23,与数据采集服务器21连接,用于对基础数据进行分类,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;分布式存储集群25,与数据处理服务器23连接,用于将结构化类型的基础数据存储至第一子存储集群251,将非结构化类型的基础数据存储至第二子存储集群253。
[0036]具体的,通过上述数据采集服务器21、数据处理服务器23和分布式存储集群25,在对基础数据进行分布式存储之前,通过数据处理服务器23对采集到的基础数据的类型进行分类处理,并根据基础数据的类型,将基础数据存入分布式存储集群中的不同子存储集群中。根据基础数据的类型,将不同类型的基础数据存储至采用与其适应的存储形式的子存储集群当中。
[0037]基础数据的类型至少可以被分为结构化类型和非结构化类型,其中,结构化类型的基础数据即为行数据,可以直接存储在数据库中,以二维表结构来逻辑表达实现的数据。非结构化类型的基础数据相对于结构化类型的基础数据而言,不便用数据库二维逻辑表来表现,其包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。
[0038]作为一种可选的实施方式,数据处理服务器23在对基础数据进行分类之后,还可以进一步的对类型为非结构化类型的基础数据进行进一步筛查,将用于记录文字信息的文件中的内容进行提取,以及对图片格式中的内容通过光学字符识别OCR技术进行识别,提取与其对应的元数据,将元数据作为结构化类型的数据存储至第一子存储集群当中。
[0039]通过上述数据采集服务器21、数据处理服务器23和分布式存储集群25,可以根据类型将基础数据,以与其适应的存储方式进行存储,从而达到提高分布式存储集群整体存储效率的目的,实现了降低分布式存储集群的延迟时间的技术效果,解决了现有分布式数据存储系统的数据访问延迟高的技术问题。
[0040]作为一种可选的实施方式,如图2所示,上述分布式存储集群25,还可以包括:索引服务器255。
[0041]其中,索引服务器255,与第一子存储集群251连接,用于根据结构化类型的基础数据生成数据索引信息。
[0042]其中,通过索引服务器255,可以根据结构化类型的基础数据的存储位置生成索引数据,还可以根据非结构化类型的基础数据的存储位置和与其对应的元数据的存储位置,生成索引数据。通过索引服务器255,在原有的精确索引查询、元数据查询、结构化数据查询的基础上,实现通过多种索引组合对非结构化数据进行高速检索的查询方式。
[0043]作为一种可选的实施方式,如图3所示,系统还包括:缓存存储服务器27。
[0044]其中,缓存存储服务器27,与数据处理服务器21连接,用于将数据采集服务器采集到的基础数据进行缓存。
[0045]具体的,通过缓存存储服务器27,可以将数据处理服务器21采集到的基础数据进行临时性的存储,并按照预先设置的存储策略,将基础数据集中上传至分布式存储集群25当中。
[0046]作为一种可选的实施方式,缓存存储服务器可以根据数据规模,进行分层设置。通过逐层获取基础数据,并按照预先设置的存储策略逐层汇总上传的形式,对基础数据进行采集和整理。
[0047]在实际应用当中,在缓存存储服务器27中至少可以设置:省前置缓存服务器(一级缓存服务器)、全国中心前置缓存服务器(二级缓存服务器)、以及与系统交互的后台处理服务器(三级缓存服务器)。
[0048]其中,可以通过插件将扫描、上传的非结构类型的基础数据,利用缓存存储服务器逐层上传至用于存储非结构类型的第二子存储集群。第二子存储集群中的非结构化数据管理平台以基本存储单位的结构将非结构化数据存储起来,并对相应的业务系统反馈关联信息。其中,在第二子存储集群中的基本存储单位可以根据业务系统的要求或者预先设置的存储策略对文件块大小切割。
[0049]在对基础数据进行调阅时,可以通过前端应用服务直接请求和发送调阅报文至第二子存储集群中的非结构化数据管理平台,非结构化数据管理平台解析请求报文,并利用调阅引擎分离出业务系统所需的非结构化数据,及时反馈给调阅前端服务器,在业务系统中集成显示出来。
[0050]作为一种可选的实施方式,第二子存储集群253采用HadoopHDFS分布式文件存储构架。
[0051 ]在实际应用当中,以Hadoop HDFS分布式文件存储构架的来替换现有的存储架构,主要考虑到Hadoop HDFS的特点,以便更好的对基础数据进行管理和对业务系统提供基础数据的支撑。
[0052]Hadoop HDFS可以支持线性扩展以及多副本备份,该优势可以充分满足非结构化数据管理平台对全国中心数据存储水平扩容、安全性以及节点数据的存储动态均衡的要求;Hadoop可以构建高可用的HA Namenode。业内对Hadoop HA的高可用性已有很多成熟且可靠的解决方案,为全国中心的Master HA部署模式提供了指导;利用Hadoop提供的丰富的功能,来存储及管理海量的非结构化数据、以及结构化数据,并且数据类型可以是多样的。该特点可以为非结构化数据管理平台实现非结构化数据分类存储提供了基础;利用Hadoop,可以使用map reduce灵活的实现云计算。以满足未来使用分布式存储基础上,提供云计算构建扩充基础;利用Hadoop,可以更容易集成第三方的工具或组件,比如hbase、hive、zookeeper等,从而实现更强大的统筹分析功能,自身管理能力,也为下一步提供大数据统计提供了一个环境条件。
[0053]作为一种可选的实施方式,第二子存储集群253可以进一步采用MasterHA存储构架。
[0054]在实际应用当中,用于管理非结构化类型的非结构化数据管理平台的分布式存储采用的可以是Master-Sal ve模式实现对存储节点做节点分析、数据管理等工作。从而使得Master服务成为平台的处理核心。进一步的,可以利用现有的Hadoop HA的成熟方案并结合应用实际进行部署,从而使Master的双机具有高可用性,且保证在意外情况下平台的健壮和稳定。
[0055]作为一种可选的实施方式,如图4所示,在上述分布式数据存储系统中,还可以包括:应用服务器29。
[0056]其中,应用服务器29,与分布式存储集群25连接,用于提供对分布式存储集群中存储的基础数据进行访问的数据接口。
[0057]在实际应用当中,为保证全面、高效的完成业务系统接入,通过规范接口服务和系统接入标准。统一接口服务通过应用服务器29提供给外系统多种协议访问支持,通过一系列接入实现对非结构化数据管理平台基础服务框架内各种服务元组的使用。根据不同系统的业务逻辑和需求定制化访问接口服务组合,实现快速简洁的系统接入模式,以达到节省时间、投资等成本。
[0058]由上可知,上述分布式数据存储系统较现有技术,具有如下特点:
[0059]采用开源的分布式系统创建统一的分布式数据存储系统,实现海量数据存储和管理。由于银行类企业的非结构化类型的基础数据量巨大,每天产生各类凭证和档案数据高达到2TB,存储和管理的数据量高达到PB级。在这种情况下,Hadoop作为Apache组织采纳Google存储和管理海量数据的思想推出的开源项目框架正适合于设计要求。分布式数据存储系统采用Hadoop框架搭建分布式环境,对海量小文件进行文件合并存储,使用ZooKeeper管理构建的集群。
[0060]采用大量廉价PCServer集群和低端阵列代替传统高端存储解决方案的系统硬件架构。基于hadoop开源技术的分布式数据存储系统采用开源的技术架构不仅满足了银行海量数据全国集中存储管理、为业务系统接入提供松耦合服务等自身特色的要求,也为未来进一步深度挖掘非结构化和半结构化基础数据使用价值打下架构基础,更是实现了采用大量廉价PC Server集群和低端阵列代替传统高端存储解决方案的系统硬件架构。这不但为企业节约大量资金投入、降低数据基础设施的成本,还丝毫不逊色于专业高端存储的访问效率,在海量非结构化数据存储的情况下甚至更高,更是提高了大数据环境下非结构化数据的价值。
[0061 ]基于hadoop开源技术的分布式数据存储系统具有非常好的扩展性和稳定性。分布式存储架构不仅解决了扩展带来的性能压力,还十分易于设备扩充以及调试和部署,能够为企业节省升级改造带来的大量人力、物力成本,降低系统升级带来的潜在风险、维持平台长期稳定生产运行。
[0062]基于hadoop开源技术的分布式数据存储系统以大数据管理为基础,可以在为银行类企业的海量非结构化数据存储与共享提供了解决方案的同时,还提供对于非结构化类型的基础数据完整生命周期的管理,拥有完善的安全认证机制,能够为银行类企业以内容为驱动的业务提供完整的流程实现。
[0063]分布式全文索引技术能够与关系型数据库查询互补,满足高效数据检索要求。基于关系数据库存储的元数据,面临存储数据量巨大,检索效率不高等问题。利用分布式全文索引解决关系型数据库无法模糊检索问题,而批量精确检索利用传统数据库优势实现。如此形成文件检索模式的互补,能够满足银行对于非结构化数据使用的要求。
[0064]基于hadoop开源技术的分布式数据存储系统实现了非结构化类型的基础数据的采集、管理及在各个业务系统中共享;实现业务流程的优化和再造,使档案等非结构化数据管理更加科学、合理。为银行类企业未来各类业务发展提供图像档案、数据文件集中控制和规范化管理的有力基础平台支撑。实现内控制度流程化,实现规章制度植入业务流程,最终实现业务流程优化和再造,为从传统的部门银行向流程银行迈进奠定良好的基础。
[0065]根据本发明实施例,提供了一种分布式数据存储方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0066]图5是根据本发明实施例的分布式数据存储方法的流程图,如图5所示,该方法包括如下步骤:
[0067]步骤S21,对获取到的基础数据进行筛选,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型。
[0068]步骤S23,将基础数据按照类型存储至第一子存储集群和/或第二子存储集群。
[0069]具体的,在上述步骤S21至步骤S23中,通过数据筛选确定获取到的基础数据的类型,并根据类型将基础数据以相应的存储形式存储至预定存储集群当中。从而达到提高分布式存储集群整体存储效率的目的,实现了降低分布式存储集群的延迟时间的技术效果,解决了现有分布式数据存储系统的数据访问延迟高的技术问题。
[0070]作为一种可选的实施方式,在步骤S21对获取到的基础数据进行筛选,确定基础数据的类型之后,该方法还包括:
[0071]步骤S221,根据非结构化类型的基础数据,生成与基础数据对应的元数据。
[0072]步骤S223,将元数据作为结构化类型的基础数据存储至第一子存储集群。
[0073]具体的,通过步骤S221至步骤S223,在对基础数据进行分类后,再对类型为非结构化类型的基础数据中的内容进行提取,获取到用于描述非结构化类型的基础数据的元数据。进一步,将元数据作为结构化类型的基础数据存储至第一子存储集群当中,以提高读写效率。
[0074]作为一种可选的实施方式,在步骤S23将基础数据按照类型存储至第一子存储集群和/或第二子存储集群之后,该方法还包括:
[0075]步骤S25,根据基础数据生成数据索引信息,其中,数据索引信息至少包括:基础数据的描述信息和存储位置信息。
[0076]步骤S27,将数据索引信息存储至索引服务器。
[0077]具体的,通过步骤S25至步骤S27,根据基础数据的内容描述信息、存储位置和/或关联关系生成数据索引信息,并将数据索引信息存储至索引服务器当中。从而降低分布式存储集群的负载,并提高整体分布式存储系统的系统效率。
[0078]作为一种可选的实施方式,在步骤S23将基础数据按照类型存储至第一子存储集群和/或第二子存储集群中,该步骤包括:
[0079]步骤S231,按照类型将基础数据存储至缓存服务器。
[0080]步骤S233,根据预先设置的存储策略,将结构化类型的基础数据存储至第一子存储集群,将非结构化类型的基础数据存储值第二子存储集群。
[0081]具体的,可以在分布式数据存储系统中设置缓存服务器,并且这些缓存服务器可以分级设置。缓存服务器可以用户临时存储数据采集服务器采集到的基础数据。按照预先设置的存储策略,将基础数据按照类型集逐层上传至第一子存储集群和第二子存储集群当中。
[0082]根据本发明实施例,还提供了一种分布式数据存储装置的装置实施例,如图6所示,上述分布式数据存储装置包括:筛选模块31和第一存储模块33。
[0083]其中,筛选模块31,用于对获取到的基础数据进行筛选,确定基础数据的类型,其中,类型至少包括:结构化类型和非结构化类型;第一存储模块33,用于将基础数据按照类型存储至第一子存储集群和/或第二子存储集群。
[0084]具体的,在上述筛选模块31和第一存储模块33中,通过数据筛选确定获取到的基础数据的类型,并根据类型将基础数据以相应的存储形式存储至预定存储集群当中。从而达到提高分布式存储集群整体存储效率的目的,实现了降低分布式存储集群的延迟时间的技术效果,解决了现有分布式数据存储系统的数据访问延迟高的技术问题。
[0085]作为一种可选的实施方式,如图7所示,上述装置还可以包括:第一生成模块321和第二存储模块323。
[0086]其中,第一生成模块321,用于根据非结构化类型的基础数据,生成与基础数据对应的元数据;第二存储模块323,用于将元数据作为结构化类型的基础数据存储至第一子存储集群。
[0087]具体的,通过上述第一生成模块321和第二存储模块323,在对基础数据进行分类后,再对类型为非结构化类型的基础数据中的内容进行提取,获取到用于描述非结构化类型的基础数据的元数据。进一步,将元数据作为结构化类型的基础数据存储至第一子存储集群当中,以提尚读与效率。
[0088]作为一种可选的实施方式,如图8所示,上述装置还可以包括:第二生成模块35和第三存储模块37。
[0089]第二生成模块35,用于根据结构化类型的基础数据生成数据索引信息,其中,数据索引信息至少包括:基础数据的描述信息和存储位置信息;第三存储模块37,用于将数据索引信息存储至索引服务器。
[0090]具体的,通过上述第二生成模块35和第三存储模块37,根据基础数据的内容描述信息、存储位置和/或关联关系生成数据索引信息,并将数据索引信息存储至索引服务器当中。从而降低分布式存储集群的负载,并提高整体分布式存储系统的系统效率。
[0091]进一步的,作为一种可选的实施方式,在上述第一存储模块33中,可以执行如下步骤:
[0092]按照类型将基础数据存储至缓存服务器。并根据预先设置的存储策略,将结构化类型的基础数据存储至第一子存储集群,将非结构化类型的基础数据存储值第二子存储集群。
[0093]具体的,可以在分布式数据存储系统中设置缓存服务器,并且这些缓存服务器可以分级设置。缓存服务器可以用户临时存储数据采集服务器采集到的基础数据。按照预先设置的存储策略,将基础数据按照类型集逐层上传至第一子存储集群和第二子存储集群当中。
[0094]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0095]在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0096]在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0097]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0098]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0099]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(R0M,Read-0nly Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0100]以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【主权项】
1.一种分布式数据存储系统,其特征在于,包括: 数据采集服务器,用于对基础数据进行采集; 数据处理服务器,与所述数据采集服务器连接,用于对所述基础数据进行分类,确定所述基础数据的类型,其中,所述类型至少包括:结构化类型和非结构化类型; 分布式存储集群,与所述数据处理服务器连接,用于将所述结构化类型的所述基础数据存储至第一子存储集群,将所述非结构化类型的所述基础数据存储至第二子存储集群。2.根据权利要求1所述的系统,其特征在于,所述分布式存储集群包括: 索引服务器,与所述第一子存储集群连接,用于根据所述结构化类型的所述基础数据生成数据索引信息。3.根据权利要求2所述的系统,其特征在于,所述系统还包括: 缓存存储服务器,与所述数据处理服务器连接,用于将所述数据采集服务器采集到的所述基础数据进行缓存。4.根据权利要求1所述的系统,其特征在于,所述第二子存储集群采用HadoopHDFS分布式文件存储构架。5.根据权利要求1至4中任意一项所述的系统,其特征在于,所述系统还包括: 应用服务器,与所述分布式存储集群连接,用于提供对所述分布式存储集群中存储的所述基础数据进行访问的数据接口。6.—种应用于权利要求1至5中任意一项所述的系统的分布式数据存储方法,其特征在于,包括: 对获取到的基础数据进行筛选,确定所述基础数据的类型,其中,所述类型至少包括:结构化类型和非结构化类型; 将所述基础数据按照所述类型存储至第一子存储集群和/或第二子存储集群。7.根据权利要求6所述的方法,其特征在于,在对获取到的基础数据进行筛选,确定所述基础数据的类型之后,所述方法还包括: 根据所述非结构化类型的所述基础数据,生成与所述基础数据对应的元数据; 将所述元数据作为所述结构化类型的所述基础数据存储至所述第一子存储集群。8.根据权利要求7所述的方法,其特征在于,在将所述基础数据按照所述类型存储至第一子存储集群和/或第二子存储集群之后,所述方法还包括: 根据所述基础数据生成数据索引信息,其中,所述数据索引信息至少包括:所述基础数据的描述信息和存储位置信息; 将所述数据索引信息存储至索引服务器。9.根据权利要求8所述的方法,其特征在于,将所述基础数据按照所述类型存储至所述第一子存储集群和/或所述第二子存储集群,包括: 按照所述类型将所述基础数据存储至缓存服务器; 根据预先设置的存储策略,将所述结构化类型的所述基础数据存储至第一子存储集群,将所述非结构化类型的所述基础数据存储值第二子存储集群。10.一种分布式数据存储装置,其特征在于,包括: 筛选模块,用于对获取到的基础数据进行筛选,确定所述基础数据的类型,其中,所述类型至少包括:结构化类型和非结构化类型; 第一存储模块,用于将所述基础数据按照所述类型存储至第一子存储集群和/或第二子存储集群。
【文档编号】G06F17/30GK106095796SQ201610371832
【公开日】2016年11月9日
【申请日】2016年5月30日
【发明人】吕家进, 徐朝辉, 胡军锋, 段永政, 张振山, 戚翯, 刘博闻, 崔金虎, 瞿红来, 钟亮
【申请人】中国邮政储蓄银行股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1