一种动态实时同步多源大表数据的增强实时计算方法与流程

文档序号:26703161发布日期:2021-09-18 03:07阅读:来源:国知局

技术特征:
1.一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,该方法包括以下步骤:s1、基于虚拟节点一致性哈希算法与结构化查询语言通过单节点存储引擎搭建分布式动态表管理组件;s2、通过结构化查询语言在分布式动态表管理组件中创建分布式动态表,并通过分布式动态表来标准化多源库表的数据结构;s3、通过实时同步技术管理分布式动态表元数据变更信息的同步更新;s4、初始化批量导入分布式动态表数据;s5、核对导入数据的完整性;s6、对分布式动态表中的数据进行实时更新;s7、对数据同步更新过程进行实时数据的同步监控;s8、将分布式动态表中的数据通过结构化查询语言转换成实时流数据的虚拟表;s9、将虚拟表中的数据与预先配置的流数据进行结合流计算;s10、输出流计算结果。2.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述基于虚拟节点一致性哈希算法与结构化查询语言通过单节点存储引擎搭建分布式动态表管理组件还包括以下步骤:s11、基于虚拟节点一致性哈希算法实现数据的均衡分布存储;s12、分析结构化查询语言并转换成可获取到库表信息代码,再通过分布算法与单节点存储引擎的应用程序接口实现数据的读写操作。3.根据权利要求2所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述基于虚拟节点一致性哈希算法实现数据的均衡分布存储还包括以下步骤:s111、将整个哈希空间抽象成为虚拟圆环;s112、对哈希函数的值进行存取路由时,首先路由到虚拟节点上,再由虚拟节点寻找到真实的节点;s113、在虚拟圆环上虚拟p个物理节点,将每个物理节点虚拟出n个虚拟节点,再将总的虚拟节点随机映射到虚拟圆环上;s114、数据存储与获取;其中,虚拟节点总数公式为:虚拟节点总数(m)=物理节点数(p)*虚拟节点数(n)。4.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述通过实时同步技术管理分布式动态表元数据变更信息的同步更新还包括以下步骤:s31、字段变更;s32、主键与索引字段的变更;其中,所述字段变更包括字段编码及字段数据类型变更。5.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述初始化批量导入分布式动态表数据还包括以下步骤:s41、根据获取的库表名称,从内存中获取库表的元数据信息;
s42、利用分布式动态表管理组件的入库语句将多个域值对应设置到哈希表中;s43、利用分区策略保存数据,并形成表数据存储格式。6.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述核对导入数据的完整性还包括以下步骤:s51、提供批量导入数据,记录成功的记录总数及失败记录总数;s52、获取读取源表的记录数,并与导入的数据记录进行对比。7.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述对分布式动态表中的数据进行实时更新还包括以下步骤:s61、连接数据库获取上一次解析成功的位置;s62、连接数据库建立连接,发送dump协议指令,模拟同步数据的模式;s63、离线数据开始推送新增数据、修改数据及删除数据的更新日志数据;s64、实数据解析器接收日志数据,根据日志类型调用相应的日志解析器进行协议解析并补充相关信息,解析完成后数据通过库表与主键的哈希值分发送到相应的实时数据接收器;s65、实时数据接收器接收数据并进行数据存储;s66、利用实时数据接收器的事务机制对该数据进行保障;s67、数据更新存储成功后,更新日志的位置数据。8.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述对数据同步更新过程进行实时数据的同步监控还包括以下步骤:s71、提供实时变动写入成功的记录总数、失败记录总数,并根据时间段获取记录总数;s72、记录实时变动的记录数,根据时间段获取记录总数;s73、提供补数据的能力,对失败写入重复消息,实现数据补全。9.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述将分布式动态表中的数据通过结构化查询语言转换成实时流数据的虚拟表还包括以下步骤:s81、编写读取分布式动态表的结构化查询语言;s82、通过解析器和验证器分析与校验结构化查询语言的合规性;s83、将结构化查询语言拆分成代码可编写的算子,识别包括分布式动态表及相关字段信息,分析出字段与值,并根据表数据存储格式进行模糊查询;s84、通过应用程序接口及事务机制,保障虚拟表名与分布式动态表名的一致性,实现分布式动态表的数据转换成流数据。10.根据权利要求1所述的一种动态实时同步多源大表数据的增强实时计算方法,其特征在于,所述将虚拟表中的数据与预先配置的流数据进行结合流计算还包括以下步骤:s91、利用实时计算引擎的结构化查询语言读取虚拟表与流表的数据;s92、按需加载虚拟表的数据,解析加载虚拟表的数据的条件,根据条件通过异步多线程方式从分布式动态表中加载数据到实时计算引擎的内存中;s93、虚拟表数据加载过程中,启用异步多并发方式传递数据,根据数据量大小来动态分配传递的并发数;s94、加载时根据表分组、数据的读取范围以及集群资源的空闲情况拆分成并发取数
端,并进行并发读取数据。

技术总结
本发明公开了一种动态实时同步多源大表数据的增强实时计算方法,该方法包括以下步骤:搭建分布式动态表管理组件;创建分布式动态表,并通过分布式动态表来标准化多源库表的数据结构;通过实时同步技术管理分布式动态表元数据变更信息的同步更新;初始化批量导入分布式动态表数据;核对导入数据的完整性;对分布式动态表中的数据进行实时更新;对数据同步更新过程进行实时数据的同步监控;将分布式动态表中的数据通过结构化查询语言转换成实时流数据的虚拟表;将虚拟表中的数据与预先配置的流数据进行结合流计算;输出流计算结果。有益效果:解决了实时计算结合外部数据源过亿大表下的复杂业务逻辑的实时计算要求。表下的复杂业务逻辑的实时计算要求。表下的复杂业务逻辑的实时计算要求。


技术研发人员:刘军华 吴名朝
受保护的技术使用者:浩鲸云计算科技股份有限公司
技术研发日:2021.08.18
技术公布日:2021/9/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1