本发明涉及数据存储,尤其涉及一种基于数据网格的数据产品冷热分离方法及系统。
背景技术:
1、数据网格是一种新兴的数据架构理念,旨在解决传统集中式数据架构的一些问题,现有技术中,数据集中存储在单一的数据湖或数据仓库中,这导致数据所有权不清晰、耦合度高、扩展性差,而数据网格将数据划分归属为小的、自治的单元,每个单元被称为领域,并由独立的团队负责,以提高数据的所有权和可维护性,使数据更加分散、可扩展和容错。
2、数据产品是指通过加工和分析数据而产生的可用于支持业务决策或创造价值的产品,数据产品不仅包括数据分析报告和仪表板,还可以是机器学习模型、数据服务、api,数据产品化强调将数据视为一种产品,通过不断地加工、优化和创新,为组织提供更有价值的洞察和服务。
3、传统的集中式数据存储中的数据冷热分离技术仅关注数据层面,如数据被访问的时间和温度系数以及其关联数据的温度系数计算,而在数据网格中,数据与数据产品直接关联,对于数据产品本身的冷热分离是一个重点研究内容,其与包含的数据冷热分离具有密切的关系。
4、目前,针对数据网格的数据产品冷热分离技术,还存在以下问题:(1)数据产品层面如何定义冷与热以及具体的指标应该如何量化计算;(2)针对冷热数据产品如何进行动态资源分配才能使得系统资源效率最大化;(3)数据产品的冷热与其包含的数据冷热如何关联操作。
技术实现思路
1、本发明的目的旨在提供一种基于数据网格的数据产品冷热分离方法,实现数据网格中数据产品的冷热程度定义,并进行冷热量化指标的计算,针对量化指标实现基于数据网格的数据产品冷热分离系统,进行系统资源监控和动态数据产品资源调度,实现数据网格系统的资源效率最大化。
2、为实现上述目的,本发明提供如下技术方案:划分数据产品类别,并将服务级别指标作为所述数据产品冷热指数进行量化的判定标准;
3、根据所述服务级别指标与所述数据产品之间的关联度,进行数据产品冷热指数计算,得到优化后的数据产品冷热指标;
4、基于所述数据产品冷热指标动态进行数据产品的扩缩容服务,以自动扩展、缩减服务容量:
5、当优化后的数据产品冷热指标>系统设置hot阈值时,所述数据产品为热数据产品;
6、当优化后的数据产品冷热指标≤系统设置hot阈值时,所述数据产品为冷数据产品。
7、作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案,所述数据产品类别包括冷数据产品和热数据产品,其中:
8、所述热数据产品为实时数据产品;
9、所述冷数据产品为定时数据产品或需要手动触发的数据产品。
10、作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案,所述服务级别指标包括响应时间、可用性、吞吐量、错误率、数据更新频率和资源利用率。
11、作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案,所述关联度为不同数据产品之间的相互依赖和相互影响程度,其包括数据产品之间的数据交互、共享程度,以及一个数据产品的热度对其他数据产品的影响度。
12、作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案,所述关联度的定义如下:
13、
14、其中,upstreamphi表示上游数据产品的冷热指标,downstreamphi表示下游数据产品的冷热指标,为上下游权重配比,默认,范围为[0,1];
15、当前数据产品具有上游数据产品的输入时,α=1,否则α=0;
16、当前数据产品具有下游数据产品依赖时,β=1,否则β=0;
17、当具有多个上下游数据产品时,可以进行加权计算。
18、作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案,进行加权计算,得到优化后的数据产品冷热指标,其定义如下:
19、
20、其中,为综合冷热指数,为关联度指标的权重占比,可以由皮尔逊相关系数结果作为参考默认值,producthotnessindex的值域范围为[0, 2],如果没有上下游依赖,则值域范围在[0, 1]。
21、作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案,利用数据产品冷热分离系统设置hot阈值,所述hot阈值初始化为hot=0.5;
22、基于联邦计算治理的领域代表共同协商调节hot阈值更新;
23、当积累多个周期的hot阈值指标后,通过机器学习算法对每个周期阈值对应的系统各个服务级别指标的上下限进行自动hot阈值预测,实现自动动态阈值调节;
24、当producthotnessindex>hot阈值时,该数据产品判定为热数据产品;
25、当producthotnessindex≤hot阈值时,该数据产品判定为冷数据产品。
26、作为本发明所述的基于数据网格的数据产品冷热分离系统的一种优选方案,其中:
27、数据网格,用于整合分布在不同节点的数据产品;
28、数据产品服务层,用于接收和处理用户的数据访问请求,并根据用户需求调用所述数据网格中的相应数据产品,同时记录访问日志和统计信息;
29、冷热数据产品判定和迁移引擎,用于基于数据产品的访问频率、更新频率、历史性、上下游数据产品关联性的多维度信息,计算数据产品的冷热度指数;
30、动态资源分配和更新策略层,用于实时监测数据产品的访问情况和特征,并根据实时冷热度指数调整数据产品的资源分配和更新策略。
31、作为本发明所述的基于数据网格的数据产品冷热分离系统的一种优选方案,所述系统还包括一个或多个处理器;
32、存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括如前述基于数据网格的数据产品冷热分离方法的流程。
33、本发明的有益效果:
34、1、针对数据产品给出明确的冷热定义,基于数据产品的冷热定义,通过服务层级的服务级别指标实现冷热指标的量化计算,针对冷热数据产品包含的冷热数据的冷热计算具有正向借鉴作用;
35、2、深度考虑数据产品机制的关联性,引入数据产品的关联度计算作为数据产品冷热指标的附加项,使得整体计算指标更合理;
36、3、给出了一种基于数据网格的数据产品冷热分离系统的实现,通过动态的冷热指标计算与资源调度,实现了数据网格系统的资源效率最大化运行。
1.一种基于数据网格的数据产品冷热分离方法,其特征在于,包括:
2.根据权利要求1所述的基于数据网格的数据产品冷热分离方法,其特征在于,所述数据产品类别包括冷数据产品和热数据产品,其中:
3.根据权利要求1所述的基于数据网格的数据产品冷热分离方法,其特征在于,所述服务级别指标包括响应时间、可用性、吞吐量、错误率、数据更新频率和资源利用率。
4.根据权利要求1所述的基于数据网格的数据产品冷热分离方法,其特征在于,所述关联度为不同数据产品之间的相互依赖和相互影响程度,其包括数据产品之间的数据交互、共享程度,以及一个数据产品的热度对其他数据产品的影响度。
5.根据权利要求4所述的基于数据网格的数据产品冷热分离方法,其特征在于,所述关联度的定义如下:
6.根据权利要求5所述的基于数据网格的数据产品冷热分离方法,其特征在于,进行加权计算,得到优化后的数据产品冷热指标,其定义如下:
7.根据权利要求6所述的基于数据网格的数据产品冷热分离方法,其特征在于,利用数据产品冷热分离系统设置hot阈值,所述hot阈值初始化为hot=0.5;
8.一种基于数据网格的数据产品冷热分离系统,其特征在于,包括:
9.根据权利要求8所述的基于数据网格的数据产品冷热分离系统,其特征在于,所述系统还包括一个或多个处理器;