多源异构数据高效汇聚存取架构系统的制作方法

文档序号:6523762阅读:387来源:国知局
多源异构数据高效汇聚存取架构系统的制作方法
【专利摘要】本发明提供一种多源异构数据高效汇聚存取架构系统,包括:多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统。多源异构数据协同管理子系统包括数据管理模块、资源监控与管理模块、检索索引模块,用于控制、协调整个存取架构系统。多源异构数据高速缓存子系统包括非结构化文件缓存模块、内存数据库模块、延迟写入模块,用于提供异构数据的高效快速读取。多源异构数据汇聚存储子系统包括非结构化数据处理模块、结构化数据处理模块、分布式文件系统,用于实现异构数据的高效汇聚存储。本发明可有效解决物联网海量数据环境下存储效率低,数据缺乏汇聚管理的问题。
【专利说明】多源异构数据高效汇聚存取架构系统
【技术领域】
[0001]本发明涉及一种系统架构,具体涉及一种物联网的多源异构数据高效汇聚存取的基本架构。属于物联网大数据存储的【技术领域】。
【背景技术】
[0002]目前随着物联网技术的高速发展,各种终端、基础采集设备的数量和种类不断增力口,每时每刻都会产生大量数据,这些数据种类繁多,分为结构化数据和非结构化数据。传统的分布式文件存储系统,在物联网海量数据环境下存储效率低,数据缺乏汇聚管理。迫切需要一种新的物联网多源异构数据存储的基本架构,实现海量异构数据的高效快速的汇聚与存取。

【发明内容】

[0003]本发明的目的在于针对当前多源异构数据存储的高效快速存储需求,提供一种多源异构数据高效汇聚存取架构系统。本发明采用的技术方案是:
一种多源异构数据高效汇聚存取架构系统,包括:
多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统;
多源异构数据协同管理子系统包括三个模块:数据管理模块、资源监控与管理模块、检索索引模块;
多源异构数据高速缓存子系统包括三个模块:非结构化文件缓存模块、内存数据库模块、延迟与入|旲块;
多源异构数据汇聚存储子系统包括非结构化数据处理模块、结构化数据处理模块、分布式文件系统;其中非结构化数据处理模块包括文件拆分子模块、文件组合子模块、文件验证子模块;结构化数据处理模块包括:文件生成子模块、文件管理子模块;
多源异构数据协同管理子系统用于控制、协调整个存取架构系统;其中的数据管理模块负责多源异构数据上传、数据下载、数据修改以及对应用层的API支持;资源监控与管理模块负责监控多源异构数据高速缓存子系统和多源异构数据汇聚存储子系统的资源使用情况,当这两个子系统中的物理缓存资源或物理存储资源出现异常或者紧缺时进行预警;检索索引模块用于提供多源异构数据高速缓存子系统与多源异构数据汇聚存储子系统内的数据存取索引;
多源异构数据高速缓存子系统用于提供异构数据的高效快速读取;其中的非结构化文件缓存模块利用高速缓存及最近最不常用算法来加速应用层对非结构化数据的读取过程;内存数据库模块利用高速缓存来使得结构化数据在内存中进行操作;延迟写入模块将高速缓存中已经修改的文件按照设定的规则延迟后写入分布式文件系统中;
多源异构数据汇聚存储子系统用于实现异构数据的高效汇聚存储;其中的非结构化数据处理模块通过文件拆分子模块来对大容量的单个非结构化文件进行拆分,并存入分布式文件系统中;通过文件组合子模块与文件验证子模块来对分布式文件系统中拆分后的数据块进行组合;结构化数据处理模块通过文件生成子模块与文件管理子模块,来对结构化的数据表按照设定的规则进行XML文件转换,并将转换后的XML文件存入分布式文件系统中。
[0004]进一步地,所述存取架构系统进行多源异构数据高效汇聚存取时:
多源异构数据从应用层通过多源异构数据协同管理子系统的数据管理模块进入系统后,根据不同的数据结构特征,即按照非结构化数据、结构化数据分别被多源异构数据汇聚子系统中的非结构化数据处理模块和结构化数据处理模块读取,并进行相应的数据处理后,送入分布式文件系统中;
当应用层需要数据时,发送指令给数据管理模块,该模块调用检索索引模块来根据文件标识号或关键字遍历多源异构数据高速缓存子系统中的非结构化文件缓存模块和内存数据库模块,当发现没有找到所需数据后,数据管理模块发送指令给分布式文件系统,从中寻找到所需的源数据,在经过数据组合或XML文件转换后,分别传输至多源异构数据高速缓存子系统中的非结构化文件缓存模块或内存数据库模块中,之后通过数据管理模块传输至应用层;
当应用层再次需要该数据时,数据管理模块从非结构化文件缓存模块和内存数据库模块中直接调取至应用层;
应用层需要对所取数据进行改写时,通过数据管理模块对非结构化文件缓存模块或内存数据库中的相应数据进行更改;如果是结构化数据的改写,将数据改写过程通过日志方式存放在延迟写入模块中;如果是非结构化数据的改写,将数据改写过程通过临时文件的方式存放在延迟写入模块中;应用层能够通过延迟写入模块对所需数据进行多次写入更新,通过非结构化文件缓存模块或内存数据库,能够将该数据的写入和读取速度加速;经过一个时间周期后,延迟写入模块将修改后的数据送入分布式文件系统中,进行最终的数据更新。
[0005]本发明的优点:本发明提供了一种科学合理的存取架构,实现了异构数据的高效汇聚存储。有效解决了物联网海量数据环境下存储效率低,数据缺乏汇聚管理的问题。
【专利附图】

【附图说明】
[0006]图1为本发明的结构框图。
【具体实施方式】
[0007]下面结合具体附图和实施例对本发明作进一步说明。
[0008]如图1所示,多源异构数据高效汇聚存取架构系统框架图包括三个子系统:多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统。多源异构数据协同管理子系统包括三个模块:数据管理模块、资源监控与管理模块、检索索引模块。多源异构数据高速缓存子系统包括三个模块:非结构化文件缓存模块、内存数据库模块、延迟写入模块。多源异构数据汇聚存储子系统包括非结构化数据处理模块、结构化数据处理模块、分布式文件系统,其中非结构化数据处理模块包括文件拆分子模块、文件组合子模块、文件验证子模块;结构化数据处理模块包括:文件生成子模块、文件管理子模块。
[0009]多源异构数据协同管理子系统的功能为控制、协调整个存取架构系统。其中的数据管理模块的主要功能是负责多源异构数据上传、数据下载、数据修改以及对应用层的API(Application Programming Interface,应用程序编程接口)支持,是一个总控模块。数据上传功能将应用层提交的数据上传到多源异构数据汇聚存储子系统内,并根据数据特结构征进行拆分或转换后,进入分布式文件系统中。数据下载功能将应用层请求下载的数据返回应用层。资源监控与管理模块的主要功能是负责监控多源异构数据高速缓存子系统和多源异构数据汇聚存储子系统的资源使用情况,当这两个子系统中的物理缓存资源或物理存储资源(如硬盘容量)出现异常或者紧缺时进行预警。检索索引模块主要功能是提供多源异构数据高速缓存子系统与多源异构数据汇聚存储子系统内的数据存取索引,以方便应用层进行数据操作。
[0010]多源异构数据高速缓存子系统的主要功能是提供异构数据的高效快速读取。其中非结构化文件缓存模块主要利用高速缓存(物理内存)及最近最不常用算法(LFU)来加速应用层对非结构化数据的读取过程;内存数据库模块主要利用高速缓存(物理内存)来使得结构化数据在内存中进行操作。延迟写入模块主要是为了解决数据多租户写入后的数据与多源异构数据汇聚存储子系统的同步问题,将高速缓存中已经修改的文件按照设定的规则延迟后写入分布式文件系统中。
[0011]多源异构数据汇聚存储子系统的主要功能是实现异构数据的高效汇聚存储。其中非结构化数据处理模块通过文件拆分子模块来对大容量的单个非结构化文件进行拆分,并存入分布式文件系统中;通过文件组合子模块与文件验证子模块来对分布式文件系统中拆分后的数据块进行组合;由于大多数非结构化文件的数据量很大,不利于高效存储访问,通过拆分与组合的操作,来实现对任意大小的非结构化数据的高效存取。另外结构化数据处理模块通过文件生成子模块与文件管理子模块,来对结构化的数据表按照设定的规则(t匕如时间段)进行XML文件转换,并将转换后的XML文件存入分布式文件系统中,最终实现异构数据的高效汇聚存储。
[0012]本系统的多源异构数据高效汇聚存取过程如下:多源异构数据从应用层通过多源异构数据协同管理子系统的数据管理模块第一次进入系统后,根据不同的数据结构特征,即按照非结构化数据、结构化数据分别被多源异构数据汇聚子系统中的非结构化数据处理模块和结构化数据处理模块读取,并进行相应的数据处理后,送入分布式文件系统中。分布式文件系统可以选用目前比较流行成熟的Swift来部署。
[0013]当应用层需要数据时,发送指令给数据管理模块,该模块调用检索索引模块来根据文件标识号或关键字遍历多源异构数据高速缓存子系统中的非结构化文件缓存模块和内存数据库模块,当发现没有找到所需数据后,数据管理模块发送指令给分布式文件系统,从中寻找到所需的源数据,在经过数据组合或XML文件转换后,分别传输至多源异构数据高速缓存子系统中的非结构化文件缓存模块或内存数据库模块中,之后通过数据管理模块传输至应用层。
[0014]当应用层再次需要该数据时,数据管理模块将从高速的非结构化文件缓存模块和内存数据库模块中直接调取至应用层。
[0015]应用层需要对所取数据进行改写时,通过数据管理模块对非结构化文件缓存模块或内存数据库中的相应数据进行更改;如果是结构化数据的改写,将数据改写过程通过日志方式存放在延迟写入模块中;如果是非结构化数据的改写,将数据改写过程通过临时文件的方式存放在延迟写入模块中;应用层能够通过延迟写入模块对所需数据进行多次写入更新,通过非结构化文件缓存模块或内存数据库,能够将该数据的写入和读取速度加速;经过一个时间周期后,延迟写入模块将修改后的数据送入分布式文件系统中,进行最终的数据更新。
【权利要求】
1.一种多源异构数据高效汇聚存取架构系统,其特征在于,包括: 多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统; 多源异构数据协同管理子系统包括三个模块:数据管理模块、资源监控与管理模块、检索索引模块; 多源异构数据高速缓存子系统包括三个模块:非结构化文件缓存模块、内存数据库模块、延迟与入|旲块; 多源异构数据汇聚存储子系统包括非结构化数据处理模块、结构化数据处理模块、分布式文件系统;其中非结构化数据处理模块包括文件拆分子模块、文件组合子模块、文件验证子模块;结构化数据处理模块包括:文件生成子模块、文件管理子模块; 多源异构数据协同管理子系统用于控制、协调整个存取架构系统;其中的数据管理模块负责多源异构数据上传、数据下载、数据修改以及对应用层的API支持;资源监控与管理模块负责监控多源异构数据高速缓存子系统和多源异构数据汇聚存储子系统的资源使用情况,当这两个子系统中的物理缓存资源或物理存储资源出现异常或者紧缺时进行预警;检索索引模块用于提供多源异构数据高速缓存子系统与多源异构数据汇聚存储子系统内的数据存取索引; 多源异构数据高速缓存子系统用于提供异构数据的高效快速读取;其中的非结构化文件缓存模块利用高速缓存及最近最不常用算法来加速应用层对非结构化数据的读取过程;内存数据库模块利用高速缓存来使得结构化数据在内存中进行操作;延迟写入模块将高速缓存中已经修改的文件按照设定的规则延迟后写入分布式文件系统中; 多源异构数据汇聚存储子系统用于实现异构数据的高效汇聚存储;其中的非结构化数据处理模块通过文件拆分子模块`来对大容量的单个非结构化文件进行拆分,并存入分布式文件系统中;通过文件组合子模块与文件验证子模块来对分布式文件系统中拆分后的数据块进行组合;结构化数据处理模块通过文件生成子模块与文件管理子模块,来对结构化的数据表按照设定的规则进行XML文件转换,并将转换后的XML文件存入分布式文件系统中。
2.如权利要求1所述的多源异构数据高效汇聚存取架构系统,其特征在于:所述存取架构系统进行多源异构数据高效汇聚存取时: 多源异构数据从应用层通过多源异构数据协同管理子系统的数据管理模块进入系统后,根据不同的数据结构特征,即按照非结构化数据、结构化数据分别被多源异构数据汇聚子系统中的非结构化数据处理模块和结构化数据处理模块读取,并进行相应的数据处理后,送入分布式文件系统中; 当应用层需要数据时,发送指令给数据管理模块,该模块调用检索索引模块来根据文件标识号或关键字遍历多源异构数据高速缓存子系统中的非结构化文件缓存模块和内存数据库模块,当发现没有找到所需数据后,数据管理模块发送指令给分布式文件系统,从中寻找到所需的源数据,在经过数据组合或XML文件转换后,分别传输至多源异构数据高速缓存子系统中的非结构化文件缓存模块或内存数据库模块中,之后通过数据管理模块传输至应用层; 当应用层再次需要该数据时,数据管理模块从非结构化文件缓存模块和内存数据库模块中直接调取至应用层;应用层需要对所取数据进行改写时,通过数据管理模块对非结构化文件缓存模块或内存数据库中的相应数据进行更改;如果是结构化数据的改写,将数据改写过程通过日志方式存放在延迟写入模块中;如果是非结构化数据的改写,将数据改写过程通过临时文件的方式存放在延迟写入模块中;应用层能够通过延迟写入模块对所需数据进行多次写入更新,通过非结构化文件缓存模块或内存数据库,能够将该数据的写入和读取速度加速;经过一个时 间周期后,延迟写入模块将修改后的数据送入分布式文件系统中,进行最终的数据更新。
【文档编号】G06F17/30GK103678603SQ201310687009
【公开日】2014年3月26日 申请日期:2013年12月13日 优先权日:2013年12月13日
【发明者】葛浩栋, 陈曙东, 刘文娣 申请人:江苏物联网研究发展中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1