一种基于disk-rsync的跨集群数据迁移方法与流程

文档序号:36864465发布日期:2024-02-02 20:46阅读:39来源:国知局
一种基于disk-rsync的跨集群数据迁移方法与流程

本发明涉及云计算数据迁移,具体而言,涉及一种基于disk-rsync的跨集群数据迁移方法。


背景技术:

1、随着云计算技术的迅速发展,数据迁移成为了在云环境中进行资源优化和高效管理的关键挑战之一。特别是在openstack这样的开源云计算平台中,实现跨集群的数据迁移方案,对于实现资源的灵活调度、性能优化以及容灾恢复等目标至关重要。

2、然而现有的云计算中的数据迁移技术实现中,常见以下三个缺点:

3、一、缺少数据一致性和完整性的校验机制:当前许多数据迁移方案在迁移过程中没有强制性的数据一致性和完整性校验机制,这导致在迁移后可能出现数据丢失、损坏或不一致的情况,从而对业务可靠性产生威胁。

4、二、仅支持全量同步,缺乏增量同步:针对大规模数据迁移,当前技术通常只支持全量数据同步,这意味着每次迁移都需要传输整个数据集。这不仅消耗大量带宽和时间,也增加了迁移过程中的风险。

5、三、无法保证当前服务可用性:在许多数据迁移方案中,为了执行数据传输,必须停止相关服务和应用程序。这会导致业务中断,影响用户体验和企业运营,尤其对于需要7*24可用性的场景而言。


技术实现思路

1、鉴于此,本发明的目的在于提出一种基于disk-rsync的跨集群数据迁移方案,结合云计算和数据迁移领域的最新技术以解决现有技术的上述问题和缺点,该方案借助disk-rsync工具,结合块级别的数据同步和哈希树的验证机制,实现高效、安全、可靠的数据迁移操作,满足资源的灵活调度、性能优化以及容灾恢复的应用需求。

2、本发明提供一种基于disk-rsync的跨集群数据迁移方法,通过disk-rsync数据同步工具,配合ssh文件传输协议,基于openstack云平台的主机快照、云硬盘快照、bfv(bootfrom volume)以及虚拟机初始化(metadata/config-drive/userdata/cloud-init)技术,实现自动化数据迁移操作;

3、所述实现自动化数据迁移操作的方法包括以下步骤:

4、s1、由源端平台给待迁移主机创建主机临时快照,如果是bfi采集的方式,则除了创建主机临时快照之外,还创建云硬盘临时快照;从每一个创建好的临时快照创建一个云硬盘卷,将所述云硬盘卷挂载到数据同步迁移网关虚拟机(agent)上;即左侧灰色部分,这些都属于临时快照和卷,数据迁移完毕之后,会被删除;

5、源端平台(source platform):即要将虚拟机、云硬盘等资源迁出的云平台。

6、待迁移主机(instance):表示要迁移的虚拟机,它记录了该虚拟机在源和目的平台之间的磁盘、网络等配置的映射关系。针对同一个虚拟机可以发起多次迁移任务。

7、s2、当数据同步网关虚拟机通过disk-rsync数据同步工具完成数据同步工作之后,将源端平台的数据同步迁移网关虚拟机agent上挂载的云硬盘卷卸载,删除源端平台创建的临时快照和云硬盘卷,同时在目标端平台为接收完数据的云硬盘卷创建快照;即右侧灰色部分,如果多次同步数据,则每次同步完成,均会创建新的快照出来;

8、数据同步迁移网关虚拟机(agent):在两个平台之间做数据同步的迁移代理,实际为平台上的一台虚拟机,里面部署了迁移用的agent代理,源端平台和目标端平台都需要建数据同步迁移网关虚拟机。

9、s3、在目标端平台启动主机实例时,从s2步骤中创建的云硬盘卷快照创建出对应的云硬盘卷,使用bfv的方式创建一个云主机,并且把云硬盘卷都挂载到该云主机上;

10、目标端平台(targetplatform):即要将虚拟机、云硬盘等资源接入的云平台。

11、主机实例(server):表示虚拟机的数据迁移到目标平台之后,使用该迁移数据,在目标平台创建的虚拟机。

12、s4、通过运行在所述数据同步迁移网关虚拟机中的agent程序,将需要同步的块设备基于ssh文件传输协议,以增量同步方式传输到目标端平台的云硬盘卷中。

13、为了agent有更好的可适配性和可移植性,agent使用ssh协议,将源端平台的块设备拷贝到远程的目标端平台的块设备上,主要具备以下几个功能:

14、(1)增量数据同步:agent通过在源端平台和目标端平台的块设备上构建默克尔哈希树结构,实现了增量数据同步的功能。仅传输发生变化的数据块,极大地减少了数据传输时间和带宽。

15、(2)压缩传输和数据加密:针对支持的文件系统如xfs、ext4,agent都支持压缩数据传输,减少了传输数据的大小。同时,通过利用ssh文件传输协议支持的加密算法,对传输中的数据进行加密,确保传输过程中的数据安全性。

16、(3)适应性存储抽象:agent设计使其适应不同底层存储技术,实现了屏蔽底层存储细节的目的。使用agent,用户不需要关心底层存储是如何进行的,从而简化了数据迁移过程。

17、(4)支持sparse写入:当源端块设备有空盘或未写满的盘时,agent能够支持sparse写入,确保同步到目标端平台的数据大小与源端平台一致,避免了磁盘空间的浪费。

18、在迁移过程中可以采取策略,确保服务的持续可用性。例如,在迁移时设置临时备份。

19、进一步地,所述s4步骤的通过agent程序以增量同步方式传输的方法包括:

20、所述数据同步迁移网关虚拟机agent在底层为每个块设备分别构建一棵默克尔哈希树,默克尔树是一种典型的二叉树结构,它的非叶子节点存储的是孩子节点的哈希值,它的特点是能够快速比较大量数据,以及快速定位差异。通过默克尔哈希树比较源端平台的磁盘和目标端平台的磁盘上数据的差异,只传输变化的部分,从而实现高效的增量备份。

21、agent是一个迁移代理服务,agent的设计主要是为了解决底层存储不一致的问题,使用agent迁移代理服务后,可以达到屏蔽底层存储的目的,从而不需要关心底层采用什么方式进行存储,在操作系统层面,通过远程复制块设备,进行数据迁移同步。

22、agent依赖该特性实现了下面两个功能:

23、1.快速比较大量数据;

24、对每组数据排序后构建默克尔树结构。当两个默克尔树根相同时,则意味着所代表的两组数据必然相同;否则,所代表的两组数据必然不同。由于哈希值hash计算的过程可以十分快速,所以预处理可以在短时间内完成。利用默克尔树结构能带来巨大的比较性能优势。

25、2.快速定位修改。

26、进一步地,所述增量同步方式在disk-rsync数据同步工具中的实现过程包括:

27、s41、初始备份:通过disk-rsync数据同步工具将源端平台的磁盘划分成固定大小的块,并计算每个块的哈希值;这些哈希值用于构建初始的默克尔树,整个树的根哈希值代表整个源端平台的磁盘的状态;

28、在初始备份阶段,所有数据都需要被传输,因为尚不存在目标端平台数据。

29、s42、增量备份:当源端平台的磁盘上的数据发生变化时,通过disk-rsync数据同步工具首先检测变化的块,然后根据这些块的哈希值在目标端平台的默克尔树中找到相应的块;

30、在完成初始备份之后,后续的备份就可以利用默克尔树实现增量备份。

31、disk-rsync数据同步工具能够在源端平台和目标端平台集群之间进行增量同步,只传输发生变化的数据块,从而减少了数据传输的量。

32、s43、差异计算:通过比较源端平台的磁盘和目标端平台的磁盘上的块的哈希值,通过disk-rsync数据同步工具确定哪些块已经改变,即差异块;将所述差异块以及它们的父节点和根节点一起传输到目标端平台;

33、s44、部分数据传输:所述目标端平台接收到差异块后,通过在默克尔树中重建这些块,重新构建数据;

34、这允许源端平台只传输差异块,而不是整个文件,从而减少了带宽的使用和传输时间;

35、s45、校验数据迁移完整性:在目标端平台重新构建数据后,目标端平台根据传输过来的差异块和已有数据重建默克尔树,通过比较目标端平台默克尔树的根哈希值与源端平台默克尔树的根哈希值,校验数据完整性。

36、基于默克尔merkle树的哈希校验机制,保证了disk-rsync数据同步工具数据的完整性。在迁移后,可以通过比较源端平台和目标端平台集群上的默克尔merkle树,验证数据是否正确传输。

37、进一步地,所述s45步骤的校验数据完整性的规则包括:

38、如果目标端的根哈希值与发送端提供的根哈希值匹配,则确认数据具有完整性;

39、如果目标端的根哈希值与发送端提供的根哈希值不匹配,意味着数据在传输过程中发生了错误或损坏或者存在恶意篡改,则通知发送端要求采取适当的措施,重新传输增量数据。

40、进一步地,所述自动化数据迁移操作利用linux文件操作系统完成数据读取和数据写入。

41、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述的基于disk-rsync的跨集群数据迁移方法的步骤。

42、本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于disk-rsync的跨集群数据迁移方法的步骤。

43、与现有技术相比,本发明的有益效果在于:

44、本发明基于disk-rsync的跨集群数据迁移方法,通过数据同步迁移网关虚拟机默克尔树的应用和在disk-rsync数据同步工具中进行增量数据同步,能够实现高效的增量备份,避免了重复传输已经存在的数据,只需传输源磁盘上发生变化的部分,从而减少了传输所需的时间和带宽,该方法在长时间备份中非常有用,可大大减少备份所需的资源;本发明为云计算环境中的数据管理带来新契机,该方法具有数据完整性、增量同步和服务可用性等优势,能够实现更高效、更可靠的数据迁移。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1