一种大数据分布式存储的方法和装置的制造方法

文档序号:8445635阅读:440来源:国知局
一种大数据分布式存储的方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据存储领域,具体涉及一种大数据分布式存储的方法和装置。
【背景技术】
[0002]随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。
[0003]数据按类型分为结构化数据、半结构化数据和非结构化数据,其中结构化数据是指能够以二维结构表示的一种数据类型,能通过关系型数据库存储;半结构化数据是指具有一定结构,但语义不够明确的一种数据类型,如邮件、HTML网页等,它们有些字段是确定的,也有些字段是不确定的;非结构化数据是指无法用二维结构表示的一种数据类型,主要包括办公文档、文本、图片、音视频文件等,无法采用关系型数据库进行处理。伴随社交网络的兴起和发展,产生了大量的UGC(User Generated Content,用户生成内容),包括音频、视频、文本和图片等非结构化数据。在所有数据中,结构化数据占数据总量的20%,半结构化数据和非结构化数据占数据总量的80 %,如何科学管理和合理应用这些数据显得日益重要。
[0004]传统的关系型数据库具有非常优异的性能,但由于强一致性与强事务性等规则约束,关系型数据不适宜于大规模的横向扩展,从而使得关系型数据库应用在半结构化或非结构化的数据存储时存在诸多问题。大数据给传统的数据分析处理技术(例如并行数据库、数据仓库)带来的技术挑战。传统数据分析处理技术无法处理大数据的高扩展性和海量需求。针对亿万的用户,数据呈现出多源化、异构化的趋势,不同的应用对数据的一致性、数据交互、传输延时等均有不同的需求。
[0005]现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台,其核心包括HDFS (Hadoop Distributed Files System, Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统。HBase (Hadoop DataBase,Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。
[0006]如何实现对不同数据结构的数据的有效存储,是大数据存储领域面临的一个问题。

【发明内容】

[0007]为解决现有技术中存在的上述技术问题,本发明提出一种大数据分布式存储的方法和装置。
[0008]本发明提出的一种大数据分布式存储的方法,包括:
[0009]步骤S100,对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;
[0010]步骤S200,接收对象数据,根据对象数据的属性信息确定对象数据的数据类型;
[0011]步骤S300,根据对象数据的数据类型将对象数据存储到不同的存储单元中。
[0012]其中,步骤SlOO中所述的对象数据的数据类型包括结构化数据、半结构化数据和非结构化数据;步骤S300中所述的不同的存储单元包括HDFS分布式文件系统单元、HBase数据库单元和关系数据库单元;其中,HDFS分布式文件系统单元用于存储非结构化数据,HBase数据库单元用于存储半结构化数据,关系数据库用于存储结构化数据。
[0013]其中,步骤SlOO中被封装的对象数据具有统一的数据操作接口,所述数据操作接口接收对对象数据的操作;
[0014]不同的存储单元分别具有各自的数据操作解析单元,用于接收对象数据的数据操作接口发送的数据操作,并对所述数据操作进行解析,将数据操作接口发送的数据操作转换为本存储单元可以执行的操作。
[0015]其中,采用树型结构保存对象数据之间的关联关系,一方面,树型结构的每个节点保存了指向一个对象数据的链接,即树型结构并没有存储实际的对象数据,树型结构的节点与对象数据是一一对应的关系,另一方面,树型结构父子节点之间的关系表示了对象数据之间的对应关系。
[0016]本发明提出的大数据分布式存储的方法,进一步包括:
[0017]步骤S400,对各存储单元中的对象数据进行同步,所述同步是指客户端的对象数据与服务器端的对象数据之间的同步。
[0018]本发明提出的大数据分布式存储的方法,进一步包括:
[0019]在对象数据的属性信息中包括实时同步标志,在客户端进行同步时,首先检测网络环境,如果数据传输速率大于第一阈值,则进行实时同步,如果数据传输速率不大于第一阈值,则检测对象数据的实时同步标志,如果实时同步标志为“是”,则进行实时同步,如果实时同步标志为“否”,则暂时不进行实时同步,等待数据传输速率大于指定阈值时再进行同步操作。
[0020]本发明提出的大数据分布式存储的方法,进一步包括:
[0021]对于非实时同步的情况,在进行同步时包括两种同步处理方式,一种是全部同步方式,即不用考虑单个对象数据是否需要同步,将全部对象数据进行同步,另一种是增量同步方式,即仅同步需要同步的对象数据,即有变化的对象数据;在同步操作时,通过同步方式判断来决定采用增量同步方式或者全部同步方式,所述同步方式判断包括:判断所有对象数据的最早同步时间,当最早同步时间与当前时间的差值大于第二阈值,则采用全部同步方式。
[0022]本发明还提出了一种大数据分布式存储的装置,包括:
[0023]预处理模块,用于对待存储数据进行预处理;将所述待存储数据封装成对象数据,所述对象数据中添加有对象数据的属性信息,所述属性信息包括对象数据的数据类型;
[0024]接收模块,接收对象数据,根据对象数据的属性信息确定对象数据的数据类型;
[0025]存储模块,根据对象数据的数据类型将对象数据存储到不同的存储单元中;
[0026]其中,预处理模块中所述的对象数据的数据类型包括结构化数据、半结构化数据和非结构化数据;存储模块中所述的不同的存储单元包括HDFS分布式文件系统单元、HBase数据库单元和关系数据库单元;其中,HDFS分布式文件系统单元用于存储非结构化数据,HBase数据库单元用于存储半结构化数据,关系数据库用于存储结构化数据。
[0027]本发明提出的一种大数据分布式存储的方法和装置,通过利用不同的存储单元分别存储不同数据类型的数据,从而可以发挥不同存储单元的存储优势。通过对象数据的方式将不同数据类型的数据进行封装,并提供统一的数据操作接口,可以实现对不同存储单元中的数据的统一操作。通过树型结构组织不同存储单元中的对象数据,可以方便操作离散的对象数据。
【附图说明】
[0028]图1为本发明数据存储方法的流程图;
[0029]图2为本发明数据存储装置的结构图。
【具体实施方式】
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1