基于数据价值的多副本异构存储方法及架构与流程

文档序号：13421216阅读：400来源：国知局

本发明涉及一种数据的异构存储方法，具体地涉及一种基于数据价值的多副本异构存储方法及架构。

背景技术：

在分布式存储系统中，为了保证数据的可靠性，采用了数据冗余方法，即一个数据存储多个副本的方法，默认情况下的副本数是3，但对于副本的存储位置，是选择ssd或是磁盘进行存储，系统是随机选择的，从而并没有充分考虑到不同存储介质的特性，不能发挥出异构存储的优点，因此对系统的存储性能造成了极大的影响。虽然ssd的性能在很大程度上优于磁盘，但并不意味着ssd可以替代磁盘，因为ssd具有写前擦除的特性，即写入到ssd的数据并不能像磁盘那样可以直接覆盖，必须先擦除再重复写，从而不但降低了ssd的性能而且影响了ssd的寿命。

虽然在其他研究中也涉及数据价值的评定，但是只考虑了动态价值，动态价值指的是数据访问频度的高低，访问频度会随着时间的改变而改变，其数据价值也会随之改变，因此称为动态价值。访问频度越高则表示数据的使用度越高，即动态价值越高；访问频度越低，则数据使用度低，即动态价值低。一般而言，新写入的数据访问频度肯定很高，因此可以根据一天、一个星期或一个月内的访问频度分别给出其价值量。但是如果仅仅考虑数据的动态价值这一因素得到的数据价值往往是不准确的，

技术实现要素：

针对上述存在的技术问题，本发明目的是：提供了基于数据价值的多副本异构存储方法及架构，从数据价值的角度，提供一个多副本的异构存储架构，根据数据价值的不同选择合适的存储策略，将副本存储在不同的存储介质上，从而达到对系统性能和成本的优化，数据价值的评定中既考虑了动态价值，又考虑静态价值和主观价值，使得计算的数据价值更加准确。

本发明的技术方案是：

一种基于数据价值的多副本异构存储方法，包括以下步骤：

s01：根据数据访问频度得到数据的动态价值vd，根据数据类型划定数据的静态价值vs，根据用户需求定义数据的主观价值vu；

s02：计算数据的总价值v＝wd*vd+ws*vs+wu*vu，其中wd是动态价值的权重，ws是静态价值的权重，wu是主观价值的权重，wd+ws+wu＝1；

s03：将数据的总价值与预设的第一阈值和第二阈值比较，将数据划分为高价值数据、中价值数值和低价值数据；

s04：将低价值数据的所有副本存储在磁盘上，将高价值数据的所有副本存储在固态硬盘上，将中价值数据的一个副本存储在固态硬盘上，其余副本存储在磁盘上。

优选的，实时计算数据的总价值并与预设的第一阈值和第二阈值比较，判断数据的价值类型与该数据的所有副本存储位置是否相符，若不相符，触发迁移模块更改该数据副本的存储位置。

本发明还公开了一种基于数据价值的多副本异构存储架构，包括：

一数据访存记录模块，记录系统内所有数据的访存信息；

一数据价值计算模块，根据数据访问频度得到数据的动态价值vd，根据数据类型划定数据的静态价值vs，根据用户需求定义数据的主观价值vu；计算数据的总价值v＝wd*vd+ws*vs+wu*vu，其中wd是动态价值的权重，ws是静态价值的权重，wu是主观价值的权重，wd+ws+wu＝1；

一监测与映射模块，实时监测系统，寻找数据的所有副本，判断数据的价值类型与该数据的所有副本存储位置是否相符，若不相符，更改数据价值与副本存储策略的映射关系；

一迁移模块，当监测与映射模块更改了数据的存储策略后触发迁移模块，迁移模块根据迁移更改的副本存储策略迁移数据。

与现有技术相比，本发明的优点是：

从数据价值的角度，提供一个多副本的异构存储架构，根据数据价值的不同选择合适的存储策略，将副本存储在不同的存储介质上，充分发挥不同存储介质的优势，利用不同存储介质的优点，避开不同存储介质的缺点，从而达到对系统性能和成本的优化。数据价值的评定中既考虑了动态价值，又考虑静态价值和主观价值，使得计算的数据价值更加准确，能够完整体现数据对系统、对用户的重要性。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为基于数据价值的多副本异构存储架构的结构示意图；

图2为基于数据价值的多副本异构存储架构的流程图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

实施例：

如图1所示，架构主要包括四个模块：数据访存记录模块、数据价值计算模块、监测与映射模块和迁移模块，其中前三个模块是在分布式文件系统的名字服务器内，构成了一个异构存储控制器，最后一个模块是在数据服务器里，是一个执行者。

数据访存记录模块主要负责记录系统内所有数据的访存信息。该模块是异构存储的入口模块，记录所有数据的访问类型、访问次数以及每次访问的时间。通过数据访存记录模块可以得到数据访问频度，从而该模块需要将收集的相关信息发送给数据价值计算模块，该模块提供的信息用于计算数据的动态价值vd。

数据价值计算模块的主要任务是计算出所有数据的总价值。通过数据访存模块记录的信息得出动态价值vd；根据数据类型划定数据的静态价值vs，根据用户需求定义数据的主观价值vu。

静态价值指的是数据本身的静态特点决定的价值，如不同的文件类型、大小等。一般由系统管理员对不同类型数据分别给出一个价值量。

主观价值是用户根据自身需要定义的，可以由用户给出。

通过公式v＝wd*vd+ws*vs+wu*vu(1)

计算出数据的总价值。不同的数据具有不同的价值，价值的高低决定了它们的存储策略。

监测与映射模块，需要实时监测整个系统，寻找数据的所有副本，判断数据的价值类型与该数据的所有副本存储位置是否相符，若不相符，更改数据价值与副本存储策略的映射关系。数据的总价值会随着时间的变化而发生变化，监测到数据价值与副本存储策略不匹配时，就需要更改该数据的副本存储策略，并匹配与之数据价值对应的副本存储策略。

迁移模块的功能是迁移数据到与之匹配的存储策略对应的存储介质上。当监测与映射模块更改了数据的存储策略以后，就会触发迁移模块，迁移模块就会立即迁移更改了副本存储策略的数据。

根据需要存储数据特点的不同，即数据价值的不同分别选择不同的副本存储策略，数据价值低的数据选择hdd策略，数据价值高的数据选择ssd策略，数据价值中等的数据选择ssd+hdd策略。以下是对三种策略的描述：

hdd策略：将需要存储文件的所有副本都存储在磁盘上。

ssd策略：将需要存储文件的所有副本都存储在固态硬盘上。

ssd+hdd策略：将需要存储文件的一个存储到固态硬盘上，其余副本存储到磁盘上。此策略是hdd策略和ssd策略的一个结合，可以充分利用hdd和ssd的优点，主要适用于需要存储的文件既有需要重复读也有需要重复写的数据。

基于数据价值的自适应多副本异构存储的整体工作流程由四大部分组成，与图1中所述的模块设计一一对应，它们分别是：数据访存记录信息、数据价值的计算，系统监测与映射机制以及数据的迁移。为了更详细地阐述整个系统的工作机制，它的工作流程如图2所示

系统运行以后的步骤如下：

第一步：收集数据的访存信息。其中包括访问时间，访问类型和访问次数，从而可以得到数据在不同时间段内的访问信息，比如一小时，一天，一个星期。

第二步：计算数据价值。根据收集到的访存信息计算数据价值，不同的数据价值的数据将采用不同的副本存储类型上。

第三步：判断数据价值是否发生变化。随着时间的改变，数据价值可能会发生改变，不同数据价值的映射关系不同。若数据价值发生了变化，则会进行第四步，若没有则转到第二步，继续计算数据价值。

第四步：更改数据的映射关系。数据价值发生了变化，则对应的映射关系将不再适合，从而需要更改映射关系，因此数据的副本存储策略发生了改变。

第五步：迁移数据。数据的副本存储策略改变以后，数据当前的存储类型已不适合数据的存放，此时就需要对数据进行迁移，将副本迁移到对应的存储策略的存储类型上。

至此，基于数据价值的多副本异构存储方案的工作流程结束。

本发明所提出的基于数据价值的多副本异构存储架构，根据数据价值的不同，尽可能将副本存储在最适合的存储介质上。它的主要目标是充分发挥不同存储介质的优势，利用不同存储介质的优点，避开不同存储介质的缺点，提供给用户一个较高性价比的存储设备。这样既可以控制存储设备的成本，同样也使得每个存储介质发挥自己的长处，保证存储系统容量的同时尽可能提高性价比。

上述实例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晖;李惠娟;温兆聪;吴俊敏
技术所有人：广东电网有限责任公司东莞供电局
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。