一种数据库迁移的方法、装置及电子设备与流程

文档序号:26787975发布日期:2021-09-28 22:12阅读:55来源:国知局
一种数据库迁移的方法、装置及电子设备与流程

1.本公开的实施例涉及云计算技术领域,尤其涉及一种数据库迁移的方法及装置。


背景技术:

2.数据库是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年,随着信息技术和市场的发展,特别是二十世纪九十年代后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。但随着数据规模爆炸式的增长,使用单个数据库进行数据的存储管理,会出现容量瓶颈和性能瓶颈等问题,影响到应用系统处理能力的提升,从而影响业务更加快速的发展,为了解决这一问题,可采用数据库迁移的方法,即将海量数据由一个数据库存储管理拆分成多个数据库存储管理,将不同的数据库分布在不同的机器,形成分布式关系型数据库,以减少tps(transaction processing systems,事务处理系统)、i/o(input/output,输入/输出)和存储的单机压力,一般情况下,当企业面临数据库分库的需求时,已经是处理系统演化阶段,大多积累了大量的sql(结构化的查询语句)使用日志,海量的sql日志中蕴含着业务系统成千万张表之间的逻辑关系,在数据库分布式划分中可以起到重要的指导意义。
3.目前对数据库的分布式划分方案主要依赖于人工手动执行,具体来说,在对sql(结构化的查询语句)使用日志依据的详细解读下,根据人工自己的经验和对业务的理解形成具有主观意识的迁移方案,通过对业务逻辑进行分析,以及对数据库表之间的关联关系进行分析,根据分析结果,将数据库表中关联关系较为密切的数据库表划分到一个分布式环境节点中。
4.上述方法完全依赖于人工的主观意识,缺乏数据支持,且数据库表之间的关联关系较为复杂,在进行人工手动迁移时,很难准确的分析出大量数据库表之间的关联关系,更无法准确的确定出关联关系的紧密程度,从而导致了得到的迁移方案不准确,达不到减少跨分布式环境节点查询数据表操作、平衡分布式环境各节点负载以及平衡分布式环境各节点存储压力的效果,并且对于复杂庞大的系统进行手工迁移会消耗大量的人力和财力。


技术实现要素:

5.本公开的目的在于提供一种数据库迁移方法、装置、电子设备及计算机可读存储介质,以解决大规模数据场景下集中式数据库所面临的只能通过主观意识进行数据库迁移,缺乏数据支持,对于复杂庞大的数据进行人工手动数据库迁移会消耗大量的人力和财力的问题。
6.根据本公开的第一方面,提供了一种数据库迁移的方法,包括:
7.获取所述数据库的使用数据;
8.根据所述数据库的使用数据对所述数据库中同时查询的数据表进行标记;
9.将有相同标记的所述数据表组合生成具有关联查询关系的组合表;
10.将所述组合表按照预定的分配策略迁移到分布式环境各节点。
11.根据本公开的第二方面,提供了一种数据库迁移的装置,包括:
12.获取模块,用于获取所述数据库的使用数据;
13.标记模块,用于根据所述获取模块获取的所述数据库的使用数据对所述数据库中同时查询的数据表进行标记;
14.生成模块,用于将所述标记模块标记的有相同标记的所述数据表组合生成具有关联查询关系的组合表;
15.迁移模块,用于将所述生成模块生成的所述组合表按照预定的分配策略迁移到分布式环境各节点。
16.根据本公开的第三方面,提供了一种电子设备,此电子设备包括:
17.根据本公开第二方面所述的数据库迁移装置;或者,
18.处理器和存储器,存储器用于存储可执行的指令,所述指令用于控制处理器执行根据本公开第一方面所述的数据库迁移方法。
19.根据本公开实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面所述的数据库迁移方法。
20.根据本公开实施例,提供了一种数据库迁移的方法,通过获取数据库在内的使用数据对数据库中同时查询的数据表进行标记,标记的目的是将有相同标记的数据表组合生成具有关联查询关系的组合表,最后将组合表按照预定的分配策略迁移到分布式环境各节点,整个数据库的迁移不需要依赖人工,解决了大规模数据场景下集中式数据库所面临的只能通过主观意识进行迁移,缺乏数据支持,对于复杂庞大的数据进行人工手动迁移会消耗大量的人力和财力的问题。且通过设置组合表实现在同一节点对具有关联关系的数据表的查询减少跨节点查询数据表的操作,同时根据组合表的查询次数、数据容量或者规模将组合表分配分布式环境各节点,可以达到平衡各节点负载以及缓解分布式环境各节点存储压力的效果。
21.通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
22.被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的实施例的原理。
23.图1为可用于实现本公开实施例的电子设备的硬件配置结构方框图。
24.图2为本公开实施例的数据库迁移方法步骤流程图。
25.图3为本公开实施例的数据库迁移装置的结构方框图。
26.图4为本公开实施例的一种组合表分配策略的示意图。
具体实施方式
27.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的实施例的范围。
28.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开的实施例及其应用或使用的任何限制。
29.对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
30.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
31.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
32.<硬件配置>
33.图1是示出可以实现本公开的实施例的实施例的电子设备1000的硬件配置的结构方框图。
34.在一个例子中,电子设备1000可以是一台计算机。
35.在另一个例子中,电子设备1000也可以是服务器等。服务器可以是刀片服务器、机架式服务器等形式,也可以是部署在云端的服务器集群。在一些实施例中,每个服务器可以包括硬件,软件,或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。
36.如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器cpu、微处理器mcu等。存储器1200例如包括rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括usb接口、耳机接口等。通信装置1400例如能够进行有现或无现通信,具体地可以包括wifi通信、蓝牙通信、2g/3g/4g/5g通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
37.图1所示的电子设备仅仅是说明性的并且决不意味着对本公开的实施例、其应用或使用的任何限制。应用于本公开的实施例的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本公开实施例提供的任意一种数据库迁移方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本公开实施例可以仅涉及其中的部分装置,例如电子设备1000可以只涉及处理器1100和存储装置1200。技术人员可以根据本公开的实施例所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
38.<方法实施例>
39.随着数据库中数据规模的爆炸式增长,给分布式环境中单个节点带来了数据存储的压力,且存在越来越多的跨节点查询操作,使得分布式环境各节点的负载出现不均衡的现象,为了解决数据库产生的这些问题就产生了对数据库进行迁移的需求。
40.针对上述问题,现有技术中对数据库迁移主要依赖于工程师根据自己的经验和对业务的理解形成具有主观意识的数据库迁移方案,缺乏数据支持,并且对于复杂庞大的系统进行人工手工分库也会消耗大量的人力和财力。本公开实施例中提供的数据库迁移方法,通过获取数据库的使用数据,将数据库中的数据表分成具有关联查询关系的组合表,然
后建立组合表与分布式环境各节点的映射关系将对应的数据表迁移到对应的分布式环境节点,整个数据库的迁移不需要依赖人工。且通过设置组合表实现在同一节点对具有关联关系的数据表的查询减少跨节点查询数据表的操作,同时根据组合表的查询次数、数据容量或者规模建立组合表与分布式环境各节点的映射关系将对应的数据表迁移到对应的分布式环境节点,可以达到平衡各节点负载以及缓解分布式环境各节点存储压力的效果。具体的实现方法如下:
41.请参考图2,该图为本公开实施例的数据库迁移方法步骤流程图,数据库迁移方法可以是由电子设备实施,该电子设备例如可以是如图1所示的电子设备1000。
42.如图2所示,本公开实施例的数据库迁移方法包括以下步骤:
43.在步骤201中,获取所述数据库的使用数据。具体来说,对数据库进行迁移需要依赖数据库的历史使用数据,该历史使用数据从数据库的日志中获取。数据库的日志中记录了数据库在使用过程中的各种类的数据,选择获取在进行数据库迁移时需要的数据,为数据库迁移提供数据支持。需要说明的是,数据库的历史使用数据可以是预设时间段内的数据也可以是数据库全部的历史使用数据,该预设时间段可以是一个星期、一个月或者一个季度。
44.可选的,所述使用数据为数据库日志,所述日志记录所述数据库中数据表的查询数据,在获取所述数据库的使用数据之后,所述方法还可以包括:
45.对所述数据库日志进行预处理从而滤除掉所述日志中除所述数据表的查询数据之外的数据。
46.具体来说,对数据库中数据表进行迁移需要依赖数据库使用数据中数据表的查询数据,使用数据为数据库日志,日志用来记录所述数据库中数据表的查询数据,根据查询数据获取数据表之间的关联关系,依据该关联关系对数据表进行划分。所以日志中与数据表的查询数据无关的数据就可以滤除掉,以便更快的获取查询数据。与查询数据无关的日志例如是:数据库更新的数据、数据库调试的数据、数据库在使用过程中报错的数据等。
47.在步骤202中,根据所述数据库的使用数据对所述数据库中同时查询的数据表进行标记。具体来说,标记的步骤包括:
48.从所述数据库的使用数据中提取查询语句以得到同一时间段内查询的数据表的表名;
49.对同一时间段内同时查询的数据表的表名标记相同的标识。
50.查询语句是用来记录在某一时刻查询请求的具体内容,其中包括数据表的表名以及与所述数据表对应的数据库的名字,通过分时刻获取查询语句的方法,可以筛选出数据库中同时刻被查询的数据表的表名以及与数据表对应的数据库名,将在同一时刻同时被查询的数据表的表名标记相同的符号,用来进行数据表的分类,便于后续为数据库按照数据表的分类进行迁移提供数据支持。
51.举例来说,在一个有两个名称分别为h1、h2的数据库中,其中h1中有三张数据表,数据表的名称分别为:表1、表2、表3;h2中有三张数据表,数据表的名称分别为:表4、表5、表6。当h1中表1与h2中的表5在某一时刻被一起查询时,对h1中表1和h2中的表5标记相同的符号。
52.在步骤203中,将有相同标记的所述数据表组合生成具有关联查询关系的组合表。
具体来说,在步骤204中获取了每一张数据表与其它数据表的查询关系。该查询关系通过是否具有相同符号的标记来判断。当一数据表与其它数据表具有相同符号的标记时,就说明该数据表与其它数据表在查询时是被同时查询的,即该数据表与其它数据表具有关联查询关系。该数据表与其它数据表来自不同的数据库,为了后续当在查询该数据表时能够快速的获取与其关联的其它数据表,同时这种操作不需要跨节点操作,将该数据表与和该数据表有关联查询关系的数据表组合在一起,即将具有相同符号标记的数据表组合在一起,生成组合表。最后将该组合表存储在一个分布式节点上,就可以实现数据表的快速关联查询,提升了用户的体验。
53.例如,在名称分别为h1、h2、h3、h4的四个数据库中,其中h1中有三张表,数据表的名称分别为:表1、表2、表3;h2中有三张表,数据表的名称分别为:表4、表5、表6;h3中有三张表,数据表的名称分别为:表7、表8、表9;h4中有三张表,数据表的名称分别为:表10、表11、表12。当h1中表1与h2中的表5在某一时刻被一起查询时,对将h1中表1和h2中的表5标记相同的符号;当h1中表2、h3中的表9以及h4中的表10在某一时刻被一起查询时,对将h1中表2、h3中的表9以及h4中的表10标记相同的符号;然后将h1中表1和h2中的表5放在一起生成一个新的组合表a,将h1中表2、h3中的表9以及h4中的表10放在一起生成一个新的组合表b。
54.需要说明的是,若第一时刻同时出现了h1中表1与h2中的表5,第二时刻同时出现了h1中表1、h2中的表5以及h3中的表9,第三时刻同时出现了h1中表1、h2中的表5以及h3中的表10,可以按照最大集合原则来组合即将表1、表5、表9、表10组合成一个组合表。
55.在步骤204中,将所述组合表按照预定的分配策略迁移到分布式环境各节点。具体来说,按照步骤206的方法生成了多个组合表,组合表是逻辑上的划分,组合表中包含的数据表可以是存储在不同的数据库中数据表,也可以是存储在相同数据库不同存储地址中的数据表相同数据库的不同存储地址上,为了完成物理意义上的数据库迁移,需要将组合表中的数据表从原来的数据库中迁移到分布式环境的一个节点中,使具有关联关系的数据表具有相同的存储地址,从而减少跨节点查询数据表的操作。同时为了解决分布式环境节点的存储压力以及平衡各节点的负载,建立了如下分配策略:
56.根据所述数据库的使用数据统计得到所述组合表的查询次数;
57.根据所述组合表的查询次数建立所述组合表与所述分布式环境节点的映射关系以使大于等于预定查询次数的组合表不分配在同一分布式环境节点;
58.根据所述映射关系将所述数据库中的数据表迁移到对应的所述分布式环境节点。
59.具体来说,这一分配策略是根据组合表在预定时间段内被查询的次数建立与分布式环境节点的映射关系来制定的。组合表的查询次数多说明存储该组合表的节点负载大,为了平衡各节点的负载,就要将查询次数均比较多的组合表不分配在同一分布式环境节点中。然后按照这种分配策略迁移数据库中的数据表到分布式环境各节点上。
60.举例来说,在一个有4个组合表和2个分布式节点的实施例中。其中,4个组合表记为表a、表b、表c、表d;2个分布式节点记为:节点1、节点2。根据所述数据库的使用数据统计得到所述组合表的查询次数表a的查询次数为12次、表b的查询次数为11次、表c的查询次数为10次、表d的查询次数为9次,为了使大于等于预定查询次数为11次的组合表分配在不同的节点以平衡各节点的负载,可以建立如下组合表与分布式环境节点的映射关系:将表a、表c迁移到节点1,将表b、表d迁移到节点2;或者,将表a、表c迁移到节点2,将表b、表d迁移到
节点1;或者,将表a、表d迁移到节点1,将表b、表c迁移到节点2;或者,将表a、表d迁移到节点2,将表b、表c迁移到节点1。根据以上4个组合表与2个分布式节点的映射关系,根据从数据库的使用数据中提取的数据表的表名以及与数据表对应的数据库名,从对应的数据库中查找对应的数据表进行迁移。
61.可选的,所述将所述组合表按照预定的分配策略迁移到分布式环境各节点的步骤包括:
62.根据所述组合表的数据容量建立所述组合表与所述分布式环境节点的映射关系以使大于等于预定数据容量的组合表不分配在同一分布式环境节点;
63.根据所述映射关系将所述数据库中的数据表迁移到对应的所述分布式环境节点。
64.具体来说,按照组合表数据容量与分布式环境各节点的存储容量关系建立映射关系以制定分配策略,实现将占用大的存储容量的组合表不分配在同一分布式环境的节点,以此来缓解分布式环境各节点的存储压力。
65.举例来说,有4个组合表,2个分布式节点。其中,4个组合表记为表a、表b、表c、表d;2个分布式节点记为:节点1、节点2。表a、表b、表c、表d的数据容量分别为12g、10g、9g、6.5g;节点1、节点2的存储容量分别为80g、50g。为了使大于等于预定数据容量为10g的组合表分配在不同的节点以缓解分布式环境各节点的存储压力,建立了如下组合表与分布式环境节点的映射关系:将表a、表c迁移到节点1,将表b、表d迁移到节点2;或者,将表a、表c迁移到节点2,将表b、表d迁移到节点1;或者,将表a、表d迁移到节点1,将表b、表c迁移到节点2;或者,将表a、表d迁移到节点2,将表b、表c迁移到节点1。根据以上4个组合表与2个分布式节点的映射关系,根据从数据库的使用数据中提取的数据表的表名以及与数据表对应的数据库名,从对应的数据库中查找对应的数据表进行迁移。
66.可选的,所述将所述组合表按照预定的分配策略迁移到分布式环境各节点的步骤包括:
67.根据所述组合表的规模建立所述组合表与所述分布式环境节点的映射关系;
68.根据所述映射关系将所述数据库中的数据表迁移到对应的所述分布式环境节点。
69.具体来说,按照组合表的规模即组合表的数量与分布式环境各节点的数量关系来建立映射关系以制定分配策略,实现组合表的平均分配。在实际应用中组合表的数据容量相差不大,且分布式环境节点的存储容量比较大,按照数量关系分配组合表也可以达到缓解分布式环境各节点存储压力的效果。
70.举例来说,有4个组合表,2个分布式节点。其中,4个组合表记为表a、表b、表c、表d;2个分布式节点记为:节点1、节点2。为了达到缓解分布式环境各节点存储压力的效果,建立了如下组合表与分布式环境节点的映射关系:将表a、表b迁移到节点1,将表c、表d迁移到节点2;或者,将表a、表c迁移到节点1,将表b、表d迁移到节点2;或者,将表a、表d迁移到节点1,将表b、表c迁移到节点2;将表a、表b迁移到节点2,将表c、表d迁移到节点1;或者,将表a、表c迁移到节点2,将表b、表d迁移到节点1;或者,将表a、表d迁移到节点2,将表b、表c迁移到节点1。根据以上4个组合表与2个分布式节点的映射关系,根据从数据库的使用数据中提取的数据表的表名以及与数据表对应的数据库名,从对应的数据库中查找对应的数据表进行迁移。
71.可选的,所述组合表为m个,所述分布式环境节点为n个,m和n为大于等于1的正整
数,所述将所述组合表按照预定的分配策略迁移到分布式环境各节点包括:
72.根据所述数据库的使用数据统计得到所述组合表的查询次数;
73.将m个所述组合表按照查询次数排序以得到所述组合表的序号,所述组合表的序号为0、1、2、3
……
m-1;
74.将所述组合表的序号在[2n*n,(2n+1)*n-1]范围内的所述组合表依次分配到序号为m%n的分布式节点中,所述分布式节点的序号为0、1、2、3
……
n-1;
[0075]
将所述组合表的序号在[(2n+1)*n,(2n+2)*n-1]范围内的所述组合表依次分配到序号为n-1-m%n的分布式节点中,其中,n为非负整数,%为求余符号,m为组合表序号;
[0076]
将所述数据库中的数据表迁移到对应的所述分布式环境节点;
[0077]
或者,
[0078]
将m个所述组合表按照数据容量排序以得到所述组合表的序号,所述组合表的序号为0、1、2、3
……
m-1;
[0079]
将所述组合表的序号在[2n*n,(2n+1)*n-1]范围内的所述组合表依次分配到序号为m%n的分布式节点中,所述分布式节点的序号为0、1、2、3
……
n-1;
[0080]
将所述组合表的序号在[(2n+1)*n,(2n+2)*n-1]范围内的所述组合表依次分配到序号为n-1-m%n的分布式节点中,其中,n为非负整数,%为求余符号,m为组合表序号;
[0081]
将所述数据库中的数据表迁移到对应的所述分布式环境节点;
[0082]
或者,
[0083]
将m个所述组合表按照规模排序以得到所述组合表的序号,所述组合表的序号为0、1、2、3
……
m-1;
[0084]
将所述组合表的序号在[2n*n,(2n+1)*n-1]范围内的所述组合表依次分配到序号为m%n的分布式节点中,所述分布式节点的序号为0、1、2、3
……
n-1;
[0085]
将所述组合表的序号在[(2n+1)*n,(2n+2)*n-1]范围内的所述组合表依次分配到序号为n-1-m%n的分布式节点中,其中,n为非负整数,%为求余符号,m为组合表序号;
[0086]
将所述数据库中的数据表迁移到对应的所述分布式环境节点。
[0087]
具体来说,对组合表进行迁移之前,先要建立组合表与分布式环境各节点的映射关系,映射关系的建立目的是为了平衡各分布式环境节点的负载或者存储压力。例如,当组合表为m个,分布式环境节点为n个时,首先,按照查询次数、数据容量或者规模对所有组合表排序得到组合表的序号,然后以n个分布式环境节点为一个轮次,例如,以第一个分布式环境节点、第二个分布式环境节点、
……
、第n个分布式环境节点为一个轮次,例如,以第n个分布式环境节点、第二个分布式环境节点、
……
、第一个分布式环境节点为一个轮次:第一轮按照节点编号升序依次将组合表分配到对应的分布式环境节点上,第二轮按照节点编号降序依次将剩余的组合表分配到对应的分布式环境节点上,第三轮再按照节点编号升序依次将剩余的组合表分配到对应的分布式环境节点上
……
进行交替分配,直到将m个组合表分配完成。按照上述分配方式分配m个组合表到n个分布式环境节点上,可以将组合表均匀分配到分布式环境各节点,保证了分布式环境各节点的存储的数据容量不会有很大的差距,实现不仅可以平衡各节点的负载还可以平衡各节点的数据存储压力的效果,同时提高了数据库迁移的效率。
[0088]
举例来说,如图4所示,有12个组合表,4个分布式节点。按照查询次数、数据容量或
者规模给组合表排序得到12个组合表的的序号分别为0、1、2、3、4、5、6、7、8、9、10、11;分布式节点的序号为0、1、2、3;根据当组合表的序号在[2n*n,(2n+1)*n-1]范围内时,将组合表依次分配到序号为m%n的分布式节点中的分配策略,建立如下映射关系:将序号为0、8的组合表迁移到序号为0的节点上,将序号为1、9的组合表迁移到序号为1的节点上,将序号为2、10的组合表迁移到序号为2的节点上,将序号为3、11的组合表迁移到序号为3的节点上。根据当组合表的序号在[(2n+1)*n,(2n+2)*n-1]范围内时,将组合表依次分配到序号为n-1-m%n的分布式节点中的分配策略,建立如下映射关系:将序号为4的组合表迁移到序号为3的节点上,将序号为5的组合表迁移到序号为2的节点上将序号为6的组合表迁移到序号为1的节点上,将序号为7的组合表迁移到序号为0的节点上。根据以上12个组合表与4个分布式节点的映射关系,通过从数据库的使用数据中提取的数据表的表名以及与数据表对应的数据库名,从对应的数据库中查找对应的数据表进行迁移。
[0089]
按照可以达到缓解存储压力、平衡各节点负载的原则除上述列举的还可以有其它分配策略,在此不做限定。
[0090]
可选的,所述数据库中还包括孤立表,所述孤立表为单独查询的数据表;
[0091]
所述方法还包括:将所述孤立表按照预定的分配策略迁移到分布式环境各节点。
[0092]
具体来说,在根据数据表之间的关联关系对数据库中的数据表进行分类时,还存在不具有关联查询关系的一类表,即这一类表在请求查询时单独出现,不与其它数据表同时出现,在本公开实施例中将这类表称为孤立表。在通过上述方法将多个数据库中的多张数据表进行了组合之后生成了多个组合表以及多张孤立表,孤立表也是需要按照预定的分配策略进行迁移,用来更近一步的平衡分布式各节点负载以及存储压力。其中,预定的分配策略包括如下几种:
[0093]
根据所述孤立表的查询次数建立所述孤立表与所述分布式环境节点的映射关系以使大于等于预定查询次数的孤立表分配在不同的分布式环境节点;
[0094]
根据所述映射关系将所述数据库中的数据表迁移到对应的所述分布式环境节点。
[0095]
具体来说,按照查询次数建立孤立表与分布式环境节点的映射关系是指将孤立表按照查询语句中提取的查询次数排序,将查询次数大于等于预定次数的孤立表不分配在同一分布式环境节点,以此来平衡分布式各节点的负载。例如,现有8张孤立表:表a、表b、表c、表d、表e、表f、表g、表h;4个分布式环境节点:节点1、节点2、节点3、节点4。在内,表a的查询次数为100次、表b的查询次数为80次、表c的查询次数为70次、表d的查询次数为50次、表e的查询次数为20次、表f的查询次数为10次、表g的查询次数为5次、表h的查询次数为3次;则根据将查询次大于等于50次的不分配在同一分布式环境节点的分配策略建立孤立表与分布式各节点的映射关系为:将表a和表e分配到节点1上,将表b和表f分配到节点2上,将表c和表g分配到节点3上,将表d和表h分配到节点4上;或者,将表a和表h分配到节点1上,将表b和表g分配到节点2上,将表c和表f分配到节点3上,将表d和表e分配到节点4上;只要满足查询次数大于等于50次的不分配在同一分布式节点的分配策略,孤立表的组合方式不限制。根据以上8张孤立表与4个分布式节点的映射关系,通过从数据库的使用数据中提取的数据表的表名以及与数据表对应的数据库名,从对应的数据库中查找对应的数据表进行迁移。
[0096]
可选的,所述将所述孤立表按照预定的分配策略迁移到分布式环境各节点的步骤包括:
[0097]
根据所述孤立表的数据容量建立所述孤立表与所述分布式环境节点的映射关系以使大于等于预定数据容量的孤立表分配在不同的分布式环境节点;
[0098]
根据所述映射关系将所述数据库中的数据表迁移到对应的所述分布式环境节点。
[0099]
具体来说,按照孤立表的数据大小与分布式各节点的存储容量的关系来迁移数据库,目的是为了平衡各节点的存储压力。具体分配策略与上述组合表按照存储容量的分配策略相同,在此不做赘述。
[0100]
可选的,所述将所述孤立表按照预定的分配策略迁移到分布式环境各节点的步骤包括:
[0101]
根据所述孤立表的规模建立所述孤立表与所述分布式环境节点的映射关系;
[0102]
根据所述映射关系将所述数据库中的数据表迁移到对应的所述分布式环境节点。
[0103]
具体来说,按照孤立表的规模即孤立表的数量与分布式节点的数量关系来迁移数据库,同样可以达到平衡各节点的存储压力。具体分配策略与上述组合表按照规模的分配策略相同,在此不做赘述。
[0104]
<装置实施例>
[0105]
在本公开的实施例另一个实施例中,还提供了一种数据库迁移装置300,数据库迁移装置300包括:
[0106]
获取模块301、标记模块302、生成模块303以及迁移模块304。
[0107]
该获取模块301用于获取所述数据库的使用数据;
[0108]
该标记模块302用于根据所述获取模块301获取的所述数据库的使用数据对所述数据库中同时查询的数据表进行标记;
[0109]
该生成模块303用于将所述标记模块302标记的有相同标记的所述数据表组合生成具有关联查询关系的组合表;
[0110]
该迁移模块304用于将所述生成模块303生成的所述组合表按照预定的分配策略迁移到分布式环境各节点。
[0111]
所述装置还包括预处理模块305,所述预处理模块305用于对所述数据库的使用数据进行预处理,所述预处理包括:滤除掉除所述数据库中数据表的查询数据之外的数据。
[0112]
<计算机可读存储介质>
[0113]
最后,根据本公开的实施例的又一个实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现根据本公开的实施例任意实施例所述的数据库迁移方法。
[0114]
本公开的实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的实施例的各个方面的计算机可读程序指令。
[0115]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上
存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0116]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0117]
用于执行本公开的实施例操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的实施例的各个方面。
[0118]
这里参照根据本公开的实施例实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0119]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0120]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0121]
附图中的流程图和框图显示了根据本公开的实施例的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个
或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0122]
以上已经描述了本公开的实施例的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本公开的实施例的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1