一种实现数据仓库向数据湖传输数据的系统及方法与流程

文档序号:34664313发布日期:2023-07-05 12:42阅读:21来源:国知局
一种实现数据仓库向数据湖传输数据的系统及方法与流程

本发明涉及数据传输,具体涉及一种实现数据仓库向数据湖传输数据的系统及方法。


背景技术:

1、数据湖是对各类未经处理的原始数据的存储,包括任意规模的结构化、半结构化和非结构化数据,需要支持对所有用户的便利访问。数据仓库适用于作为一般分析的数据库选择,包括报表、数据大盘、交互式分析和其他高性能分析。

2、随着信息化时代的发展,不少大数据单位同时使用了数据仓库和数据湖的技术,但是有时候数据湖使用方希望使用数据仓库上的数据并进行同步,但往往数据仓库的数据数以千亿的数据不好所有都同步到数据湖中,并因历史原因,原本的数据仓库和数据湖使用分开建设的方式,并没用直接采用湖仓一体的方式。这时候同步数据时候传输过程就成了大数据的使用中的一个瓶颈点。


技术实现思路

1、针对现有技术存在的问题,本发明的目的在于提供一种实现数据仓库向数据湖传输数据的方法,其采用智能预加载的方式提前加载数据,以实现数据的快速传输。

2、为实现上述目的,本发明采用的技术方案是:

3、一种实现数据仓库向数据湖传输数据的系统,包括数据仓库和数据湖,所述数据仓库包括数据仓库服务器,所述数据湖暴扣哦数据湖服务器,所述数据仓库服务器和数据湖服务器均用于存储数据;

4、所述数据仓库还设有自定义算法服务器和智能预加载引擎,所述自定义算法服务器用于计算预加载方式;所述智能预加载引擎根据自定义算法服务器计算的预加载方式将数据仓库服务器中的数据预加载到数据湖中,并记录每次调用数据仓库的日志信息;

5、所述数据湖还设有上数据仓库预加载数据服务、数据仓库索引服务,所述数据仓库预加载数据服务用于存储从数据仓库服务器预加载到数据湖中的数据;所述数据仓库索引服务用于提供索引查询,并从数据仓库预加载服务或数据仓库服务器中获取数据,以传送到数据湖服务器中,数据仓库索引服务中的每个索引均指向数据仓库预加载数据服务中的实际数据或数据仓库服务器中的实际数据。

6、所述自定义算法服务器计算预加载方式如下:

7、获取智能预加载引擎记录的日志信息,并根据当前系统时间去查询日志中的对应时间段哪些索引调用比较频繁;然后抽取调用频繁的数据进行如下处理:

8、当所抽取的数据为第一次被预加载,或者所抽取的数据被调用次数不大于n次时,直接将所抽取的数据预加载到数据湖的数据仓库预加载服务中,然后进行数据清除处理;

9、当所抽取的数据并非第一次被预加载且该数据被调用大于n次时,根据其命中率大小调节该数据索引权重,并生成权重排行榜;然后判断此次抽取到的数据是否处于排行榜前x名,若在排行榜前x名,则将所抽取到的数据预加载到数据湖的数据仓库预加载服务中,然后进行数据清除处理;若在排行榜前x名之外,则直接进行数据清除处理;

10、数据清除处理:清除排行榜前x名之外的数据仓库预加载服务中的数据。

11、所述数据仓库还包括机器学习模型服务器,该机器学习模型服务器根据数据湖的数据仓库预加载数据服务中命中的数据结合时间段进行模型训练,并模拟计算成功率;当模型完善后,在后台模拟计算预测命中数据,当预测成功率达到m%以上后,智能预加载引擎根据机器学习模型服务器的预测结果将数据仓库服务器中的数据预加载到数据湖中。

12、一种实现数据仓库向数据湖传输数据的方法,所述方法采用上述系统实现,所述方法包括以下步骤:

13、步骤1、自定义算法服务器定期计算预加载方式,并指导智能预加载引擎根据自定义算法服务器计算出的预加载方式将数据仓库服务器的数据预加载到数据仓库预加载数据服务中;

14、步骤2、当调用方使用数据湖数据而需要用到数据仓库数据时,利用数据仓库索引服务查询所需要的数据索引,数据仓库索引服务优先查询及调取数据仓库预加载数据服务中的数据,如果该数据仓库预加载数据服务中没有数据,则通过智能预加载引擎向数据仓库服务器中查询及调取,从数据仓库服务器调取的数据会同时缓存在数据仓库预加载数据服务中。

15、所述自定义算法服务器计算预加载方式具体如下:

16、获取智能预加载引擎记录的日志信息,并根据当前系统时间去查询日志中的对应时间段哪些索引调用比较频繁;然后抽取调用频繁的数据进行如下处理:

17、当所抽取的数据为第一次被预加载,或者所抽取的数据被调用次数不大于n次时,直接将所抽取的数据预加载到数据湖的数据仓库预加载服务中,然后进行数据清除处理;

18、当所抽取的数据并非第一次被预加载且该数据被调用大于n次时,根据其命中率大小调节该数据索引权重,并生成权重排行榜;然后判断此次抽取到的数据是否处于排行榜前x名,若在排行榜前x名,则将所抽取到的数据预加载到数据湖的数据仓库预加载服务中,然后进行数据清除处理;若在排行榜前x名之外,则直接进行数据清除处理;

19、数据清除处理:清除排行榜前x名之外的数据仓库预加载服务中的数据。

20、所述数据仓库还设有机器学习模型服务器,所述步骤1和步骤2执行过程中,机器学习模型服务器根据数据湖的数据仓库预加载数据服务中命中的数据结合时间段进行模型训练,并模拟计算成功率;当模型完善后,在后台模拟计算预测命中数据,当预测成功率达到m%以上,智能预加载引擎根据机器学习模型服务器的预测结果将数据仓库服务器中的数据预加载到数据湖中。

21、采用上述方案后,本发明采用数据索引与索引关联的实际数据通过自定义算法计算哪些数据大概率被预加载,从而提前预加载到数据湖缓存区,以实现快速传输的方式。

22、此外,本发明还设置了机器学习模型服务器进行数据学习和数据被加载概率的预测,提升常用数据传输的权重,从而提前预加载到数据湖缓存区,以实现快速传输的方式。



技术特征:

1.一种实现数据仓库向数据湖传输数据的系统,包括数据仓库和数据湖,所述数据仓库包括数据仓库服务器,所述数据湖暴扣哦数据湖服务器,所述数据仓库服务器和数据湖服务器均用于存储数据;其特征在于:

2.根据权利要求1所述的一种实现数据仓库向数据湖传输数据的系统,其特征在于:所述自定义算法服务器计算预加载方式如下:

3.根据权利要求1所述的一种实现数据仓库向数据湖传输数据的系统,其特征在于:所述数据仓库还包括机器学习模型服务器,该机器学习模型服务器根据数据湖的数据仓库预加载数据服务中命中的数据结合时间段进行模型训练,并模拟计算成功率;当模型完善后,在后台模拟计算预测命中数据,当预测成功率达到m%以上后,智能预加载引擎根据机器学习模型服务器的预测结果将数据仓库服务器中的数据预加载到数据湖中。

4.一种实现数据仓库向数据湖传输数据的方法,其特征在于:所述方法采用上述系统实现,所述方法包括以下步骤:

5.根据权利要求4所述的一种实现数据仓库向数据湖传输数据的方法,其特征在于:所述自定义算法服务器计算预加载方式具体如下:

6.根据权利要求4所述的一种实现数据仓库向数据湖传输数据的方法,其特征在于:所述数据仓库还设有机器学习模型服务器,所述步骤1和步骤2执行过程中,机器学习模型服务器根据数据湖的数据仓库预加载数据服务中命中的数据结合时间段进行模型训练,并模拟计算成功率;当模型完善后,在后台模拟计算预测命中数据,当预测成功率达到m%以上,智能预加载引擎根据机器学习模型服务器的预测结果将数据仓库服务器中的数据预加载到数据湖中。


技术总结
本发明涉及一种实现数据仓库向数据湖传输数据的系统,包括数据仓库和数据湖,数据仓库设有自定义算法服务器和智能预加载引擎,所述自定义算法服务器用于计算预加载方式;所述智能预加载引擎根据自定义算法服务器计算的预加载方式将数据仓库服务器中的数据预加载到数据湖中,并记录每次调用数据仓库的日志信息;数据湖设有上数据仓库预加载数据服务、数据仓库索引服务,所述数据仓库预加载数据服务用于存储从数据仓库服务器预加载到数据湖中的数据;所述数据仓库索引服务用于提供索引查询,并从数据仓库预加载服务或数据仓库服务器中获取数据,以传送到数据湖服务器中。本发明采用智能预加载的方式提前加载数据,可以实现数据的快速传输。

技术研发人员:吴志雄,方彦栩,刘文浩
受保护的技术使用者:南威软件股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1