一种数据仓与数据湖数据传输系统的制作方法

文档序号:36975128发布日期:2024-02-07 13:27阅读:17来源:国知局
一种数据仓与数据湖数据传输系统的制作方法

本发明涉及数据传输,具体为一种数据仓与数据湖数据传输系统。


背景技术:

1、数据湖是对各类未经处理的原始数据的存储,包括任意规模的结构化、半结构化和非结构化数据,需要支持对所有用户的便利访问。数据湖可以被用来当作数仓或其他大数据应用的数据来源,数据仓适用于作为一般分析的数据库选择,包括报表、数据大盘、交互式分析和其他高性能分析。数仓一般仅包含经过处理和精炼的数据。

2、随着信息化时代的发展,不少大数据单位同时使用了数据仓库和数据湖的技术,但是无法对数据集合进行数据清洗和融合,计算工作量大,数据传输效率不高,无法实现湖仓一体轻量级的数据仓库和数据湖数据分析处理,而且存在着大量的数据冗余,造成极大的存储成本浪费,不能满足人们的要求。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种数据仓与数据湖数据传输系统,主要为解决现有传输系统无法对数据集合进行数据清洗和融合,计算工作量大,数据传输效率不高,无法实现湖仓一体轻量级的数据仓库和数据湖数据分析处理,而且存在着大量的数据冗余,造成极大的存储成本浪费,不能满足人们的要求的问题。

3、(二)技术方案

4、为实现上述目的,本发明提供如下技术方案:

5、一种数据仓与数据湖数据传输系统,包括服务器模块、储存模块、传输模块和通信模块,所述服务器模块包括数据仓服务器和数据湖服务器,且服务器模块与储存模块相连接,所述储存模块采用列式存储以及行列混存对数据湖和数据仓库的数据进行存储,且储存模块包括分类整合模块,所述传输模块连接有数据分析模块和预处理模块,所述预处理模块对数据湖上的数据仓进行预加载处理,且预处理模块包括数据仓索引模块,数据仓索引模块从数据仓库预加载服务或数据仓库服务器中获取数据,以传送到数据湖服务器中,所述数据分析模块连接有数据查询模块,所述传输模块包括数据采集模块,且数据采集模块包括日志采集模块,日志采集模块通过采集工具获取日志数据,并将所述日志数据生成消息数据,并将所述消息数据传输至数据湖。

6、作为本发明再进一步的方案,所述分类整合模块对数据仓库和数据湖的存储层进行整合,并采用分区的方式独立区隔数据湖和数据仓储的存储区域。

7、进一步的,所述数据传输模块包括安全模块,安全模块包括加密芯片和解密芯片,且加密芯片和解密芯片通过spi接口与内通信模块和外通信模块相连接。

8、在前述方案的基础上,所述数据查询模块包括数据仓库索引模块,数据仓库索引服务中的每个索引均指向数据仓库预加载数据服务中的实际数据或数据仓库服务器中的实际数据。

9、本发明再进一步的方案,所述预处理模块将接收到的数据湖生成的第一数据集、数据仓库生成的第二数据集以及数据分析客户端的上传数据进行数据清洗操作以及数据融合操作,以生成目标数据集,对所述目标数据集进行数据分析并输出分析结果。

10、进一步的,所述预处理模块对数据湖上的数据仓进行预加载处理时采用自定义算法服务器定期计算预加载方式,并指导智能预加载引擎根据自定义算法服务器计算出的预加载方式将数据仓库服务器的数据预加载到数据仓库预加载数据服务中。

11、在前述方案的基础上,所述当调用方使用数据湖数据而需要用到数据仓库数据时,利用数据仓库索引服务查询所需要的数据索引,数据仓库索引服务优先查询及调取数据仓库预加载数据服务中的数据,如果该数据仓库预加载数据服务中没有数据,则通过智能预加载引擎向数据仓库服务器中查询及调取,从数据仓库服务器调取的数据会同时缓存在数据仓库预加载数据服务中。

12、(三)有益效果

13、与现有技术相比,本发明提供了一种数据仓与数据湖数据传输系统,具备以下有益效果:

14、1、本发明,不仅可以保证数据湖和数据仓的正常使用,还可以解决在两个产品之间存在的数据冗余问题,进一步的还能够减少并简化了技术栈,减少整体的管理和运维成本减少数据冗余和存储成本,使用更加方便。

15、2、本发明对数据集合进行数据清洗和数据融合,减少计算工作量,数据分析处理模块对处理后的数据进行分析,无需实现湖仓一体即可进行轻量级的数据仓库和数据湖数据分析处理,降低数据分析人员的专业门槛,提高数据分析效率。

16、2、本发明采用数据索引与索引关联的实际数据通过自定义算法及机器学习模型计算哪些数据大概率被预加载,从而提前预加载到数据湖缓存区,以实现快速传输的方式。



技术特征:

1.一种数据仓与数据湖数据传输系统,包括服务器模块、储存模块、传输模块和通信模块,其特征在于,所述服务器模块包括数据仓服务器和数据湖服务器,且服务器模块与储存模块相连接,所述储存模块采用列式存储以及行列混存对数据湖和数据仓库的数据进行存储,且储存模块包括分类整合模块,所述传输模块连接有数据分析模块和预处理模块,所述预处理模块对数据湖上的数据仓进行预加载处理,且预处理模块包括数据仓索引模块,数据仓索引模块从数据仓库预加载服务或数据仓库服务器中获取数据,以传送到数据湖服务器中,所述数据分析模块连接有数据查询模块,所述传输模块包括数据采集模块,且数据采集模块包括日志采集模块,日志采集模块通过采集工具获取日志数据,并将所述日志数据生成消息数据,并将所述消息数据传输至数据湖。

2.根据权利要求1所述的一种数据仓与数据湖数据传输系统,其特征在于,所述分类整合模块对数据仓库和数据湖的存储层进行整合,并采用分区的方式独立区隔数据湖和数据仓储的存储区域。

3.根据权利要求2所述的一种数据仓与数据湖数据传输系统,其特征在于,所述数据传输模块包括安全模块,安全模块包括加密芯片和解密芯片,且加密芯片和解密芯片通过spi接口与内通信模块和外通信模块相连接。

4.根据权利要求3所述的一种数据仓与数据湖数据传输系统,其特征在于,所述数据查询模块包括数据仓库索引模块,数据仓库索引服务中的每个索引均指向数据仓库预加载数据服务中的实际数据或数据仓库服务器中的实际数据。

5.根据权利要求1所述的一种数据仓与数据湖数据传输系统,其特征在于,所述预处理模块将接收到的数据湖生成的第一数据集、数据仓库生成的第二数据集以及数据分析客户端的上传数据进行数据清洗操作以及数据融合操作,以生成目标数据集,对所述目标数据集进行数据分析并输出分析结果。

6.根据权利要求1所述的一种数据仓与数据湖数据传输系统,其特征在于,所述预处理模块对数据湖上的数据仓进行预加载处理时采用自定义算法服务器定期计算预加载方式,并指导智能预加载引擎根据自定义算法服务器计算出的预加载方式将数据仓库服务器的数据预加载到数据仓库预加载数据服务中。

7.根据权利要求6所述的一种数据仓与数据湖数据传输系统,其特征在于,所述当调用方使用数据湖数据而需要用到数据仓库数据时,利用数据仓库索引服务查询所需要的数据索引,数据仓库索引服务优先查询及调取数据仓库预加载数据服务中的数据,如果该数据仓库预加载数据服务中没有数据,则通过智能预加载引擎向数据仓库服务器中查询及调取,从数据仓库服务器调取的数据会同时缓存在数据仓库预加载数据服务中。


技术总结
本发明涉及数据传输技术领域,且公开了一种数据仓与数据湖数据传输系统,包括服务器模块、储存模块、传输模块和通信模块,所述服务器模块包括数据仓服务器和数据湖服务器,且服务器模块与储存模块相连接,所述储存模块采用列式存储以及行列混存对数据湖和数据仓库的数据进行存储,且储存模块包括分类整合模块,所述传输模块连接有数据分析模块和预处理模块,所述预处理模块对数据湖上的数据仓进行预加载处理。本发明不仅可以保证数据湖和数据仓的正常使用,还可以解决在两个产品之间存在的数据冗余问题,进一步的还能够减少并简化了技术栈,减少整体的管理和运维成本减少数据冗余和存储成本,使用更加方便。

技术研发人员:刘健,王立才,范建国,吴绍辉,李春明,王辉,雷志银,王勇强,李志军,杨振华
受保护的技术使用者:山东能源集团有限公司
技术研发日:
技术公布日:2024/2/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1