一种数据资产处理方法、装置及相关设备与流程

文档序号:36490616发布日期:2023-12-26 18:37阅读:50来源:国知局
一种数据资产处理方法与流程

本技术涉及数据处理,尤其涉及一种数据资产处理方法、装置及相关设备。


背景技术:

1、在当今大数据时代,数据成为一种资产已经成为各行各业的共识。海量且多样的数据对信息的有效存储、安全共享不断提出了新的挑战。对大数据的利用将成为企业提高竞争力、抢占市场先机的关键,同时在大数据时代,大数据带来的这一新的变革,渗透着大数据蕴含的巨大商业价值,也引发了对数据存储、处理、分析的巨大需求。目前,企业的核心数据资产往往设计的种类很多,也因此往往分散在多个业务系统中进行存储和管理,数据存储类型复杂多样,在面临企业业务深入过程中,业务方往往会临时提出对核心数据的获取需求,并希望尽快获得数据分析结果。因为这种大数据场景下的工作需求,越来越多的互联网企业开始应用clickhouse搭建业务,在数据的存储引擎设计上clickhouse采用了基于列式存储的存储结构,以在很多场景中降低数据分析过程中读取的数据量,并提高数据压缩空间。然而,对于状态更改操作(mutation操作,包括update/delete)这种用于修改表数据和用于删除表数据的中常用作都会直接改变当前表的数据,且在clickhouse中状态更改相关的操作是异步进行的,当用户提交delete或者update这类操作时直接返回执行成功,clickhouse会在后台异步执行状态更改操作,执行的数据保存在clickhouse的系统库下的状态更改的数据表中,这类操作在clickhouse中没有原子性,后期的查询出的数据可能来自于状态更改之前或之后,具有不确定性,使得系统难以支持数据更新后的实时数据分析工作和查询。为此,如何能使基于clickhouse搭建的业务系统数据具有较好的更新操作性,且能较好的支持数据更新后实时数据分析和数据查询能力,就成了行业内亟需解决的技术问题。


技术实现思路

1、有鉴于此,本技术实施例提供一种数据资产处理方法、装置及相关设备,以至少部分解决上述问题。

2、第一方面,本技术实施例提供一种数据资产处理方法,包括:

3、构建基于mpp架构的列式存储数据库clickhouse集群,对业务系统提交的数据资产进行分类存储和汇聚;

4、创建对应所述列式存储数据库clickhouse的clickhouse分布式表,以对所述列式存储数据库clickhouse集群的服务器节点上的物理表进行代理;

5、结合所述clickhouse分布式表,将所述列式存储数据库clickhouse集群中由列式存储数据库clickhouse原生提供的状态更改操作转化为对clickhouse物理表的插入操作;

6、基于转化后的列式存储数据库clickhouse的分布式表引擎对所述数据资产进行实时分析和查询。

7、可选地,在本技术的一种实施例中,所述结合所述clickhouse分布式表,将所述列式存储数据库clickhouse集群中由列式存储数据库clickhouse原生提供的状态更改操作转化为对clickhouse物理表的插入操作,包括:

8、在所述clickhouse分布式表中增设对应不同所述状态更改操作的操作类型控制字段和版本控制字段;

9、基于确定的针对目标数据的操作类型和版本控制信息,结合增设操作类型控制字段和版本控制字段的clickhouse分布式表,将所述列式存储数据库clickhouse原生提供的状态更改操作转化为对clickhouse物理表的插入操作。

10、可选地,在本技术的一种实施例中,所述创建列式存储数据库clickhouse集群,对业务系统中提交数据资产进行分类存储和汇聚,包括:

11、通过并行同步的方式,将交易型数据库的表中数据同步到所述创建的列式存储数据库clickhouse集群中,以对业务系统中提交数据资产进行分类存储和汇聚。

12、可选地,在本技术的一种实施例中,所述方法还包括:

13、基于replacingmergetree构建所述分布式表引擎,用于在系统后台清除重复的数据。

14、可选地,在本技术的一种实施例中,所述方法还包括:约定外部交易型数据库提交的数据资产至少包含三个方面的信息,所述三个信息分别为所述数据资产对应的操作类型控制字段信息、对应的资产事务的主键id且id永远递增、版本控制字段信息,以及针对业务系统变化后的整行数据。

15、可选地,在本技术的一种实施例中,所述通过转化后的列式存储数据库clickhouse的分布式表引擎支持对所述数据资产的实时分析和查询能力,包括:

16、创建所述转化后的列式存储数据库clickhouse的分布式表的查询视图;

17、基于所述查询视图,利用预设的查询逻辑支持所述查询能力;

18、其中,所述预设的查询逻辑包括:按照主键id对数据资产进行分组后,查询版本控制字段信息最大值的业务数据名称,获取查询结果,以通过转化后的列式存储数据库clickhouse的分布式表引擎支持对所述数据资产的查询能力。

19、可选地,在本技术的一种实施例中,所述方法还包括:

20、配置所述插入操作对应所述状态操作中包括的更新操作和数据删除操作在所述查询视图中的对应键值,用于对所述插入操作进行标记。

21、第二方面,基于本技术第一方面所述的数据资产处理方法,本技术还提供一种数据资产装置,包括:

22、存储模块,用于构建列式存储数据库clickhouse集群,对业务系统提交的数据资产进行分类存储和汇聚,

23、创建模块,用于创建对应所述列式存储数据库clickhouse的clickhouse分布式表,以对所述列式存储数据库clickhouse集群的服务器节点上的物理表进行代理;

24、转化模块,用于结合所述clickhouse分布式表,将所述列式存储数据库clickhouse集群中由列式存储数据库clickhouse原生提供的状态更改操作转化为对clickhouse物理表的插入操作;

25、支持模块,用于基于转化后的列式存储数据库clickhouse的分布式表引擎对所述数据资产进行实时分析和查询。

26、第三方面,本技术实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,所述计算机可执行指令被执行时执行如本技术第一方面任意一项所述的数据资产处理方法。

27、第四方面,本技术实施例还提供一种电子设备,包括:

28、一个或多个处理器;

29、存储器,用于存储一个或多个程序,

30、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本技术第一方面任意一项所述的数据资产处理方法。

31、本技术提供了一种数据资产处理方法、装置及相关设备,通过构建基于mpp架构的列式存储数据库clickhouse集群,对业务系统提交的数据资产进行分类存储和汇聚;创建对应所述列式存储数据库clickhouse的clickhouse分布式表,以对所述列式存储数据库clickhouse集群的服务器节点上的物理表进行代理;结合所述clickhouse分布式表,将所述列式存储数据库clickhouse集群中由列式存储数据库clickhouse原生提供的状态更改操作转化为对clickhouse物理表的插入操作;基于转化后的列式存储数据库clickhouse的分布式表引擎对所述数据资产进行实时分析和查询。克服了clickhouse不支持更新数据的实时数据分析、原生clickhouse直接使用mutation操作性能弱问题,使clickhouse具备高性能实时分析查询能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1