用于移动数据的方法和设备与流程

文档序号:14071105阅读:167来源:国知局
本公开的实施例总体涉及数据存储领域,具体涉及一种用于移动数据的方法和设备。
背景技术
:多级存储(tiering)系统通常包括主存储系统和次存储系统。主存储系统通常包括访问性能较高、价格昂贵但存储空间有限的存储设备。而次存储系统通常包括与主存储系统相比而言访问性能较低、价格便宜但存储空间更大的存储设备。在主存储系统和次存储系统之间进行数据移动是多级存储系统中的常见操作。数据移动通常包括迁移和召回。迁移操作一般地包括将冷数据从主存储系统迁移到次存储系统,以增大主存储系统的存储空间并实现成本有效性。召回操作一般地包括在相反方向上的数据传送,即响应于针对次存储系统中存储的数据的请求,而将数据从次存储系统传送回主存储系统。因此,如何在数据迁移和召回操作期间实现更加快速的性能,成为一个研究热点。技术实现要素:本公开的实施例提供了一种移动数据的方法和设备。在本公开的第一方面,提供了一种用于移动数据的方法。该方法包括识别主存储系统中的冷数据。该方法还包括响应于确定冷数据处于非压缩状态,经由第一接口从主存储系统获取冷数据,第一接口被配置为供用户访问主存储系统。该方法还包括响应于确定冷数据处于压缩状态,经由与第一接口不同的第二接口从主存储系统获取压缩状态下的冷数据。该方法还包括将所获取的冷数据从主存储系统迁移到次存储系统。在一些实施例中,该方法进一步包括:向与获取的压缩状态下的冷数据相关联的元数据中添加标签,标签指示冷数据的压缩状态。在一些实施例中,该方法进一步包括:将与压缩状态下的冷数据对应的未压缩数据划分成多个逻辑段;以及创建多个逻辑段的索引与多个逻辑段在压缩状态下的冷数据中的偏移之间的映射。在一些实施例中,该方法进一步包括:响应于从用户接收到针对未压缩数据的一部分的访问请求,确定未压缩数据的状态;响应于确定未压缩数据处于迁移状态,基于访问请求确定多个逻辑段中与未压缩数据的一部分对应的至少一个逻辑段;以及基于映射从次存储系统召回与确定的至少一个逻辑段相关联的压缩数据。在一些实施例中,冷数据被组织为文件、数据块或者数据对象。在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器和至少一个存储器。至少一个存储器被耦合到至少一个处理器并且存储用于由至少一个处理器执行的指令。指令当由至少一个处理器执行时,使得设备:识别主存储系统中的冷数据;响应于确定冷数据处于非压缩状态,经由第一接口从主存储系统获取冷数据,第一接口被配置为供用户访问主存储系统;响应于确定冷数据处于压缩状态,经由与第一接口不同的第二接口从主存储系统获取压缩状态下的冷数据;以及将所获取的冷数据从主存储系统迁移到次存储系统。在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使得机器执行根据本公开的第一方面所描述的方法的任意步骤。提供
发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。附图说明通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。图1示出了能够在其中实施本公开实施例的环境的框图;图2示出了根据本公开的一个实施例的用于移动数据的方法的流程图;图3示出了根据本公开的一个实施例的用于移动数据的装置的框图;以及图4示出了可以用来实施本公开的实施例的示例设备的示意性框图。具体实施方式下面将参照附图更详细地描述本公开的示例实施例。虽然附图中显示了本公开的示例实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。图1示出了能够在其中实施本公开实施例的环境100的框图。如图1所示,环境100包括主服务器110、主存储系统120以及次存储系统130。主服务器110被配置为管理或以其他方式控制主存储系统120的操作。主服务器110可以通过诸如因特网的计算机网络与次存储系统130通信。主服务器110可以提供第一接口140,以供用户访问主存储系统120。作为一种非限制性的实现方式,第一接口140可以为应用程序编程接口(api)。作为一个示例,主服务器110可以响应于经由第一接口140从用户接收到向主存储系统120写入数据的请求,而将数据写入主存储系统120中。为了改善主存储系统120的存储效率,主服务器110可以在将数据写入主存储系统120之前或之后对数据进行压缩,进而将压缩数据150存储在主存储系统120中。作为另一个示例,主服务器110可以响应于经由第一接口140从用户接收到从主存储系统120读取数据的请求,而从主存储系统120中读取数据。在所读取的数据为压缩数据的情况下,主服务器110对压缩数据150进行解压缩,进而经由第一接口140将解压缩的数据提供给用户。主存储系统120通常包括访问性能较高、价格昂贵但存储空间有限的存储设备。主存储系统120的示例可以包括但不限于企业级存储系统。次存储系统130通常包括与主存储系统120相比而言访问性能较低、价格便宜但存储空间更大的存储设备。次存储系统130的示例可以包括但不限于云存储系统。为了节省主存储系统120的存储空间以实现成本有效性,主服务器110通常将冷数据从主存储系统120经由网络迁移到次存储系统130,在主存储系统120中保留与该冷数据相关联的元数据,并且回收主存储系统120中用于存储该冷数据的存储空间。目前,在将冷数据从主存储系统120迁移到次存储系统130时,采用如上所述的第一接口140来从主存储系统120获取冷数据。与对用户访问主存储系统120的响应类似,在从主存储系统120读取的冷数据为压缩数据的情况下,经由第一接口140所获取的冷数据为解压缩的冷数据。因此,解压缩的冷数据被迁移到次存储系统130。可以理解,数据迁移操作所关注的是回收主存储系统120中用于存储冷数据的存储空间,而并不关注冷数据的内容。就此而言,对从主存储系统120读取的压缩的冷数据进行解压缩是不必要的。在一些实施例中,环境100可以可选地包括次服务器160,以用于在将数据存储到次存储系统130之前对数据进行预处理。次服务器160所执行的预处理可以包括但是不限于:数据缓存、重复数据删除、数据压缩、以及数据加密。例如,在确定从主服务器110接收的数据为未压缩数据的情况下,次服务器160可以对接收的数据进行压缩,进而将压缩数据存储到次存储系统130中,以节省次存储系统130的存储空间。可见,在主服务器110对从主存储系统120读取的压缩的冷数据进行解压缩的情况下,次服务器160可能对从主服务器110接收的解压缩的数据再次执行压缩,从而增加了次服务器160的处理。此外,执行解压缩操作需要占用主服务器110的计算资源(例如中央处理器(cpu))。再者,相比于传送压缩数据,向次存储系统130传送解压缩的数据需要占用更多的网络资源。为了至少部分地解决现有方案中的上述以及其他潜在的缺陷和问题,本公开的实施例提供与现有的第一接口140不同的第二接口170以用于压缩的冷数据的迁移,避免将压缩的冷数据解压缩之后再进行迁移,从而实现了更加快速的数据迁移。以下将参考图2来进一步详细描述本公开的实施例。图2示出了根据本公开的一个实施例的用于移动数据的方法200的流程图。例如,方法200可以由如图1所示的主服务器110来实施。应当理解的是,方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。根据方法200,在210,主服务器110识别主存储系统120中的冷数据。在一些实施例中,冷数据在主存储系统120中被组织为文件、数据块或者数据对象。在一些实施例中,主服务器110可以基于预定义的策略来识别主存储系统120中的冷数据。预定义的策略可以指示冷数据的识别方式(即,哪些数据可被识别为冷数据)和识别时间(即,何时进行冷数据的识别)。以下表1示出了预定义的策略的示例。应当理解,表1所示出的策略仅是示例。取决于具体的需求和环境,任何其他适当的策略也是可能的。表1在220,主服务器110确定冷数据处于非压缩状态还是压缩状态。如果确定冷数据处于非压缩状态,则方法200进行到230,在此经由第一接口140从主存储系统120获取冷数据。第一接口140被配置为供用户访问主存储系统120。另一方面,如果在220处确定冷数据处于压缩状态,则方法200进行到240,在此经由与第一接口140不同的第二接口170从主存储系统120获取压缩状态下的冷数据(以下简称“压缩的冷数据”)。作为一种非限制性的实现方式,第二接口170可以为api。在250,主服务器110将所获取的冷数据从主存储系统120迁移到次存储系统130。根据本公开的实施例,在确定冷数据处于压缩状态的情况下,主服务器110经由与供用户访问主存储系统120的第一接口140不同的第二接口170,从主存储系统120获取压缩的冷数据,在不对该冷数据进行解压缩的情况下将压缩的冷数据迁移到次存储系统130。由此,减少了主服务器110的不必要的处理(即,解压缩),节省了执行不必要的处理所需的计算资源,减少了数据传送量,从而实现了更加快速的数据迁移。此外,压缩的冷数据可以被直接存储到次存储系统130中,从而节省了次存储系统130的存储空间。此外,在主服务器110与次存储系统130之间部署有次服务器160的实施例中,可以向与获取的压缩的冷数据相关联的元数据中添加标签,以向次服务器160指明该冷数据已被压缩,从而减少次服务器160的处理。在将冷数据迁移到次存储系统130后,主服务器110从主存储系统120中删除该冷数据以回收用于存储该冷数据的存储空间。此外,主服务器110更新主存储系统120中所存储的与该冷数据相关联的元数据的内容。例如,在该元数据包含与压缩的冷数据对应的未压缩数据的状态指示的情况下,主服务器110可以将该状态指示更新为“迁移”。此外,主服务器110将与该冷数据在次存储系统130中的存储位置有关的信息(例如具有通用唯一标识符(uuid)的统一资源定位器(url))存储在与该冷数据相关联的元数据中。此外,在传统方案中,当从用户接收到针对与压缩的冷数据对应的未压缩数据的一部分的访问请求时,如果该未压缩数据在不经压缩的情况下被存储到次存储系统130中,则主服务器110将从次存储系统130召回未压缩数据的全部。另外,如果该未压缩数据经压缩后被存储到次存储系统130中,则主服务器110将从次存储系统130召回与该未压缩数据对应的压缩数据的全部。可见,现有方案所采用的是全部召回方式,即使用户只希望访问未压缩数据的一部分。这种全部召回方式不仅占用了过多的网络资源而且延长了用户的等待时间,导致较差的用户体验。区别于上述传统方案,在本公开的实施例中,由于压缩的冷数据被迁移到次存储系统130,因此当用户想要访问与该冷数据对应的未压缩数据时,可以从次存储系统130直接召回压缩数据。由此,实现了更加快速的数据召回,缩短了用户的等待时间。进一步,取代现有方案中的全部召回方式,本公开的实施例还支持压缩数据的部分召回。为了实现压缩数据的部分召回,在一些实施例中,主服务器110将与压缩的冷数据对应的未压缩数据划分成多个逻辑段,并且创建多个逻辑段的索引与多个逻辑段在压缩的冷数据中的偏移之间的映射。在一些实施例中,多个逻辑段可以具有固定长度。在另一些实施例中,多个逻辑段可以具有可变长度。在一些实施例中,该映射可以被实现为映射关系表,如以下表2所示。应当注意,表2所给出的示例仅用于使得本领域技术人员对本公开具有更直观的认识,并不旨在限制本公开的范围。索引01234偏移偏移1偏移2偏移3偏移4偏移5表2在以上表2所示的示例中,与压缩的冷数据对应的未压缩数据被划分成5个逻辑段。例如,假定该未压缩数据的大小为100m字节(b),在所划分的每个逻辑段具有固定长度的情况下,每个逻辑段的大小为20m。又例如,假定索引为0的逻辑段(简称为逻辑段0)被压缩后的大小为10m,索引为1的逻辑段(简称为逻辑段1)被压缩后的大小为5m,索引为2的逻辑段(简称为逻辑段1)被压缩后的大小为8m。那么,逻辑段0的偏移1为0,逻辑段1的偏移2为10,逻辑段2的偏移3为15,逻辑段3的偏移4为23。备选地或者附加地,在其他实施例中,还可以使用矩阵、向量的形式来实现上述映射。本公开的范围在此方面不受限制。应当理解,将未压缩数据划分成逻辑段以及创建映射的操作可以在识别出冷数据(210)之后并且在从主存储系统120中删除该冷数据之前的任何时间进行,本公开的范围在此方面不受限制。根据本公开的实施例,当从用户接收到针对与压缩的冷数据对应的未压缩数据的一部分的访问请求时,主服务器110确定该未压缩数据的状态。如上所述,与压缩的冷数据相关联的元数据可以包含与该冷数据对应的未压缩数据的状态指示。压缩的冷数据被迁移到次存储系统130之后,主服务器110可以将该状态指示更新为“迁移”。因此,在一些实施例中,主服务器110可以查看该元数据中的状态指示以确定该未压缩数据的状态。从用户接收的访问请求可以指示待访问的未压缩数据的一部分在该未压缩数据中的起始位置以及该部分的大小。由此,响应于确定未压缩数据处于迁移状态,主服务器110可以基于该访问请求来确定多个逻辑段中与未压缩数据的一部分对应的至少一个逻辑段。仍然参考以上表2所示的具体示例。在该示例中,假定该未压缩数据的大小为100mb,所划分的每个逻辑段具有固定长度并且大小为20m。从用户接收的访问请求指示待访问的未压缩数据的一部分在该未压缩数据中的起始位置为42mb并且该部分的大小为15m。因此,基于该访问请求可以确定多个逻辑段中与该部分对应的逻辑段为逻辑段2。随后,主服务器110可以基于所创建的映射而从次存储系统130召回与所确定的逻辑段相关联的压缩数据。例如,在以上表2所示的具体示例中,主服务器110可以基于表2确定逻辑段2的偏移为15,进而从次存储系统130召回压缩的冷数据中偏移在15到23的范围内的压缩数据。在本公开的实施例中,当用户想要访问与压缩的冷数据对应的未压缩数据的一部分时,仅召回与该部分对应的压缩数据,从而缩短了用户访问主存储系统的等待时间,改善了用户体验。本公开的实施例还提供了一种用于移动数据的装置。图3示出了根据本公开的实施例的用于移动数据的装置300的框图。例如,装置300可以实施为图1所示的主服务器110。如图3所示,装置300可以包括识别模块310,被配置为识别主存储系统中的冷数据。装置300还可以包括第一获取模块320,被配置为响应于确定冷数据处于非压缩状态,经由第一接口从主存储系统获取冷数据。该第一接口被配置为供用户访问主存储系统。装置300还可以包括第二获取模块330,被配置为响应于确定冷数据处于压缩状态,经由与第一接口不同的第二接口从主存储系统获取压缩状态下的冷数据。装置300还可以包括迁移模块340,被配置为将所获取的冷数据从主存储系统迁移到次存储系统。在一些实施例中,装置300还可以包括添加模块,被配置为向与获取的压缩状态下的冷数据相关联的元数据中添加标签。标签指示冷数据的压缩状态。在一些实施例中,装置300还可以包括划分模块和创建模块。划分模块被配置为将与压缩状态下的冷数据对应的未压缩数据划分成多个逻辑段。创建模块被配置为创建多个逻辑段的索引与多个逻辑段在压缩状态下的冷数据中的偏移之间的映射。在一些实施例中,装置300还可以包括状态确定模块、逻辑段确定模块和召回模块。状态确定模块被配置为响应于从用户接收到针对未压缩数据的一部分的访问请求,确定未压缩数据的状态。逻辑段确定模块被配置为响应于确定未压缩数据处于迁移状态,基于访问请求确定多个逻辑段中与未压缩数据的一部分对应的至少一个逻辑段。召回模块被配置为基于映射从次存储系统召回与确定的至少一个逻辑段相关联的压缩数据。在一些实施例中,冷数据被组织为文件、数据块或者数据对象。出于清楚的目的,在图3中没有示出装置300的某些可选模块。然而,应当理解,上文参考图1和图2所描述的各个特征同样适用于装置300。而且,装置300的各个模块可以是硬件模块,也可以是软件模块。例如,在某些实施例中,装置300可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,装置300可以部分或者全部基于硬件来实现,例如被实现为集成电路(ic)、专用集成电路(asic)、片上系统(soc)、现场可编程门阵列(fpga)等。本公开的范围在此方面不受限制。图4示出了可以用来实施本公开内容的实施例的示例设备400的示意性框图。如图所示,设备400包括中央处理单元(cpu)401,其可以根据存储在只读存储器(rom)402中的计算机程序指令或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序指令,来执行各种适当的动作和处理。在ram403中,还可存储设备400操作所需的各种程序和数据。cpu401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。设备400中的多个部件连接至i/o接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。上文所描述的各个过程和处理,例如方法200,可由处理单元401执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由rom402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序被加载到ram403并由cpu401执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,cpu401也可以以其他任何适当的方式被配置以实现上述方法200。本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本
技术领域
的其它普通技术人员能理解本文披露的各实施例。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1