一种大数据的同步复制的方法与流程

文档序号：12612281阅读：来源：国知局

技术特征：

1.一种大数据的同步复制的方法，基于Tungsten Repilicator的同步复制架构，其特征在于，包括：

步骤1：在MySQL中打开BinLog，开启行级变更日志；

步骤2：通过抽取变更信息，过滤原始数据，并存入THL中，并采集主键信息；

步骤3：读取THL信息，并将其写入到批量的character-separated格式文件中；

步骤4：对当前的数据及发生数据变更的信息进行合并归集，形成数据视图。

2.根据权利要求1所述的大数据的同步复制的方法，其特征在于，所述步骤1具体包括：

在MySQL中打开BinLog，开启行级变更日志，主要的作用是将MySQL中的数据变更记录保存在Binlog中。

3.根据权利要求1所述的大数据的同步复制的方法，其特征在于，所述步骤2具体包括：

通过Host1的Tungsten Replicator标准采集器抽取BinLog的变更信息，并通过Tungsten Replicator中的colname过滤器过滤原始数据，使得抽取的行级变更信息被打上唯一的标记，并存入THL中，通过Tungsten Replicator中的pk过滤器从采集到的原始表中采集主键信息。

4.根据权利要求1所述的大数据的同步复制的方法，其特征在于，所述步骤3具体包括：

从节点Host2d Tungsten Replicator远程读取THL信息，并将其写入到批量的character-separated格式文件中。写入的THL信息不仅包含了原始的数据信息，还记录了多源数据的操作记录信息，如Insert、update、delete等操作变更记录信息。

5.根据权利要求1所述的大数据的同步复制的方法，其特征在于，所述步骤4具体包括：

通过Tungsten Replicator在大数据平台存入基于行级的CSV文件信息后，可以通过调用大数据平台的CSV组件、MapReduce组件等模块对当前的CSV数据及发生数据变更的信息进行合并归集，形成数据视图，数据视图使用了自定义的特殊格式。

完整全部详细技术资料下载

当前第2页1 2 3