一种大数据的同步复制的方法与流程

文档序号:12612281阅读:来源:国知局

技术特征:

1.一种大数据的同步复制的方法,基于Tungsten Repilicator的同步复制架构,其特征在于,包括:

步骤1:在MySQL中打开BinLog,开启行级变更日志;

步骤2:通过抽取变更信息,过滤原始数据,并存入THL中,并采集主键信息;

步骤3:读取THL信息,并将其写入到批量的character-separated格式文件中;

步骤4:对当前的数据及发生数据变更的信息进行合并归集,形成数据视图。

2.根据权利要求1所述的大数据的同步复制的方法,其特征在于,所述步骤1具体包括:

在MySQL中打开BinLog,开启行级变更日志,主要的作用是将MySQL中的数据变更记录保存在Binlog中。

3.根据权利要求1所述的大数据的同步复制的方法,其特征在于,所述步骤2具体包括:

通过Host1的Tungsten Replicator标准采集器抽取BinLog的变更信息,并通过Tungsten Replicator中的colname过滤器过滤原始数据,使得抽取的行级变更信息被打上唯一的标记,并存入THL中,通过Tungsten Replicator中的pk过滤器从采集到的原始表中采集主键信息。

4.根据权利要求1所述的大数据的同步复制的方法,其特征在于,所述步骤3具体包括:

从节点Host2d Tungsten Replicator远程读取THL信息,并将其写入到批量的character-separated格式文件中。写入的THL信息不仅包含了原始的数据信息,还记录了多源数据的操作记录信息,如Insert、update、delete等操作变更记录信息。

5.根据权利要求1所述的大数据的同步复制的方法,其特征在于,所述步骤4具体包括:

通过Tungsten Replicator在大数据平台存入基于行级的CSV文件信息后,可以通过调用大数据平台的CSV组件、MapReduce组件等模块对当前的CSV数据及发生数据变更的信息进行合并归集,形成数据视图,数据视图使用了自定义的特殊格式。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1