一种数据价值定量评价方法

文档序号:6573030阅读:297来源:国知局
专利名称:一种数据价值定量评价方法
技术领域
本发明属于计算机领域的信息存储技术,具体涉及一种数据价值定量评价方法。
背景技术
数据的访问呈现出这样一种规律,即数据的使用或者访问频率并不是一成不变的。有些数据在创建之初,访问频率比较高,但是随着时间的推移,访问频率逐渐变为零;有些数据则在整个存在的阶段持续存在一定的访问频率。有统计表明,大型数据中心中90%以上的数据在创建60天以后,就不再被访问了。如果大量不被访问的数据存在于高端的存储设备之上,必然造成存储资源的浪费。基于这种规律,有必要对存储系统中的每个数据进行量化分析,这种量化的结果能够反映系统中数据的重要性程度,从而能够为数据调度与数据管理提供策略支持。这种根据数据重要性在指定时间对数据进行量化分析的结果,就是数据在指定时间的数据价值。
目前,针对数据价值的评价,没有一个公认的评价模型。现有的数据价值评价体系主要分为两种,一种是以澳大利亚墨尔本大学Daniel Moody等人提出的定性的数据价值评价方式为代表(参见Daniel Moody,Petal,Walsh.Measuring the Value of Informationan Assert Valuation Approach.The seventhEuropean Conference on Information System(ECIS`99),Copenhagen BusinessSchool,Frederiksberg,Denmark,23-25 June,1999),这种方式分析了数据价值与数据的共享程度、数据的使用频率、数据与其他数据关联程度等因素的关系;这种方式能够在一定程度上对数据价值进行比较,但是由于没有量化结果,因此该方法只能对同质的属性进行比较,而不能对任意两个数据直接进行比较。另一种是以IBM公司阿尔马登研究中心的Yin Chen等人提出的定量的数据价值评价方法(参见Ying Chen.Information Value for Infor-mation Lifecycle Management.Proceedings of the 2ndInternational Confer-enceon Autonomic Computing,2005),该方法基于数据的历史使用状况的数据价值评价方式,但是这种方式仅仅考虑数据的历史使用情况,对影响数据价值其他方面的因素则没有考虑,因此这种评价方式的结果带有一定的片面性。

发明内容
本发明的目的是提供一种数据价值定量评价方法,该方法能够定量的衡量数据重要程度,从而为数据调度与数据管理提供依据。
本发明提供的数据价值定量评价方法,包括以下步骤(1)计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd(1.1)按照下式计算数据本身属性量化值SelfAttd,d表示所考察的数据SelfAttd=Nd2*(1+M cosθd),其中,Nd为在(Tn-t,Tn)时间段内指定数据的用户访问数目,Ascd为数据关联度,Tn为计算数据价值的时间点,t为计算周期;每个数据每隔t/n时间内被访问的次数组成了一个向量,即Ai(ai1,ai2,…ain),i=1,2…p,其中n为将时间周期t等分的数目,aij表示数据I在时间段(Tn-n-jnt,]]>Tn-n-j+1nt)]]>中数据d被访问的次数,j=0,1,…n-1,而p为系统中数据的总数目;;cosθdj=Ad·Aj|Ad||Aj|,]]>d≠j,为数据d与数据j的数据关联度,其中Ad·Aj=Σk=1nadkajk,|Ai|=Σk=1naik2;]]>从而可以得到向量Cd=(cosθd,1,cosθd,2,...,cosθd,d-1,cosθd,d+1,...,cosθd,p),向量Cd中的每个元素分别表示数据d与系统中其它数据的数据关联度;定义数据d的数据关联度Ascd是数据d与存储系统中其它数据的数据关联度的综合量化值,采用下面的方法来计算Ascd=(1+Mcosθd),其中M为向量Cd中cosθdj大于设定的阈值ε的元素的个数,而cosθd=Σipcosθdjp-1,i≠d;]]>(1.2)计算数据供给能力量化值PdPd=Sized/Bd,其中Sized表示数据d的大小,Bd表示存放数据d的存储设备所能提供的带宽,它包含了数据d所有副本所能提供的带宽,即若数据d有r个副本,系统能为每个副本所提供的带宽为bl,则系统能够提供数据d的带宽Bd=Σl=1rbl;]]>(1.3)计算数据需求状况量化值AcqdAcqd=1(ΔTd)2,]]>其中ΔTd表示数据d上次被访问和现在相距的时间间隔;(2)根据步骤(1)得到的三个量化值,通过下面的公式得到数据d在时间Tn时的数据价值V(d)Tn大小V(d)Tn=SelfAttd*Pd*Acqd=[Nd2*(1+M cosθd)]*f(t)d*(sized/B);(3)间隔计算周期t,再重复上述的步骤(1)~(2),如此循环,得到数据在指定时间段的数据价值序列。
针对以上数据价值评价方法中存在的问题,本发明提出了一种新型的数据价值评价方法。这种评价方法认为影响数据价值的因素包含三个方面,即数据的供给能力,数据的需求状况,以及数据本身的属性,其中数据的供给能力是指存储系统对提供数据的能力,具体包含存储系统所能提供的带宽及数据大小等因素;数据的需求状况则是指用户对该数据的访问状况,用数据访问频率来描述;而数据本身的属性则是指数据能给用户带来多少信息,可以通过数据的访问用户数、数据间的关联程度等因素来表示。同时该评价方式认为数据价值主要由数据本身的属性决定,同时在数据供给能力和数据需求状况的对比关系下进行变化,也即数据价值随数据供给能力增大而减小,随数据需求增大而增大。通过对上述三个方面进行的量化分析,得到指定数据在指定时间的数据价值。根据该评价方法所得出的结果可以用来比较数据的重要性,从而为数据调度与管理提供策略依据。进一步的,根据本发明所阐述内容,可以根据数据价值的特性,调整数据的供给能力,使得数据的供给能力和需求状况达到平衡,从而提高存储资源的利用效率。


图1是数据价值序列构建图;图2是数据关联度量化值构建图。
具体实施例方式
下面结合附图和具体的实施方式对本发明做进一步说明。
本发明的技术思路是寻求一种工程实践性强的数据价值的定量评价方法。该技术通过量化数据属性、数据供给能力和数据需求状况来确定数据在任意时间的数据价值。通过本发明得出的数据价值结果,可用于数据重要性排序,并为数据调度提供依据。
数据价值由数据本身所包含的内容决定的,同时其变化是由数据的供求关系所决定的数据价值随数据供给能力增大而减小,随数据需求增大而增大。本发明通过对上述三个方面的因素进行量化分析得到数据价值的结果,该结果能够反应数据价值的变化规律。如图1所示,本发明方法包括以下几个步骤(1)计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd(1.1)计算数据本身属性量化值SelfAttd数据本身属性对数据价值的影响由两方面因素决定某一时间段内指定数据d的用户访问数目Nd和数据关联度Ascd;计算时,数据的各项属性值取自时间段(Tn-t,Tn),其中Tn为计算数据价值的时间点,t为计算周期,其值为1天,而Tn-t则表示上次计算数据价值的时间点;通过存储系统的日志,可以得到在这段时间访问指定数据的用户数目Nd;访问用户数目对数据本身属性量化值的影响用公式Ud=Nd2计算;数据关联度描述的是数据与存储系统中其它所有数据的关联程度;如果一个数据在被访问后的一个充分小的时间内另一个数据也被访问,而且每次如此,则称这两个数据是关联的。数据关联度的计算步骤如图2所示。在计算上,这个充分小的时间选取为t/n,n为将时间周期t等分的数目,根据实际测试,推荐取10,也即这个充分小的时间为1/10天。在时间段(Tn-t,Tn)内,每个数据每隔t/n时间内被访问的次数组成了一个向量,即Ai(ai1,ai2…ain),i=1,2…p,其中aij表示数据i在时间段(Tn-n-jnt,]]>Tn-n-j+1nt)]]>中数据d被访问的次数,j=0,1,…n-1,而p为系统中数据的总数目。称cosθdj=Ad·Aj|Ad||Aj|,]]>d≠j为数据d与数据j的数据关联度,其中Ad·Aj=Σk=1nadkajk,]]>|Ai|=Σk=1naik2;]]>从而可以得到向量Cd=(cosθd,1,cosθd,2,...,cosθd,d-1,cosθd,d+1,...cosθd,p),其中向量Cd中的每个元素分别表示数据d与系统中其它数据的数据关联度(不包括数据d本身)。定义数据d的数据关联度Ascd是数据d与存储系统中其它数据的数据关联度的综合量化值,采用下面的方法来计算Ascd=(1+M cosθd)M为向量Cd中cosθdj大于某一阈值ε的元素的个数,而cosθd=Σipcosθdjp-1,]]>i≠d;根据实际测试,我们推荐ε=0.37;通过对上述两种因素的量化,得到数据本身属性量化值SelfAttd=Ud*Ascd=Nd2*(1+M cosθd);(1.2)计算数据供给能力量化值Pd影响数据供给能力的因素主要包含数据的大小以及系统对该数据所能提供的带宽数据供给能力增大,数据价值减小;反之,数据供给能力减小,数据价值减小;本发明通过对这两方面因素的综合考量,得出数据供给能力量化值;数据供给能力量化值用公式Pd=Sized/Bd来计算,其中Sized表示数据d的大小,单位为字节;Bd表示存放数据d的存储设备所能提供的带宽,单位为字节/秒它包含了数据d所有副本所能提供的带宽,即若数据d有r个副本,系统能为每个副本所提供的带宽为bi,则系统能够提供数据d的带宽Bd=Σi=1rbi;]]>(1.3)计算数据需求状况量化值Acqd影响数据需求状况的因素是用户对该数据的访问特征对数据访问频率增大,也即数据需求状况增大,则数据价值增大;反之,对数据访问频率减小,也即数据需求状况减小,则数据价值减小;通过考察数据访问的时间间隔,并以此来决定数据需求状况量化值;数据需求状况量化值用公式Acqd=1(ΔTd)2]]>来计算,其中ΔTd表示数据d上次被访问和现在相距的时间间隔;(2)根据步骤(1)得到的三个量化值,得出数据在某个时刻的数据价值V(d)Tn通过步骤(1)中得到的三个量化值,由下面的公式计算得到数据d在时间Tn时的数据价值V(d)Tn大小V(d)Tn=SelgAttd*Pd*Acqd=[Nd2*(1+M cosθ)]*f(t)d*(sized/B);(3)间隔计算周期t,再重复上述的步骤(1)~(2),如此循环,得到数据在指定时间段的数据价值序列。
通过进一步的研究可以得到一个使得数据供需达到平衡的数据价值范围如果数据在某一时刻的数据价值超过了该指定的范围,则其供给能力超过需求状况;反之,若低于该范围,其供给能力则不能满足当前的数据需求状况。根据本发明所阐述的数据价值定量评价方法,可以通过改变数据的供给能力而改变数据价值的大小,使得数据价值能够始终保持在该指定的范围内。这种方法在客观上保证了数据的供给能力和数据的需求状况保持平衡。
应当理解的是,对本发明技术所在领域的普通技术人员来说,可以根据本发明的技术方案及其构思进行相应的等同改变或替换,而所有这些改变或替换,都应属于本发明所附权利要求的保护范围。
实例
表1给出了数据D1在2006年11月1日和2006年11月2日中的各项属性,包括数据大小,系统为该数据所提供的带宽,据上次数据访问的时间间隔以及在当天数据访问的用户数目。而表2和表3分别提供了系统中所有数据在这两天内各时间段的访问次数。系统中一共有5个数据,分别为D1,D2,D3,D4以及D5。将一天的时间等分为10段,每段的时间为144分钟(0.1天=2.4小时=144分钟),表2和表3中0~9分别表示一天中的这10个时间段。例如第4个时间段表示从该天的第576分钟到第720分钟这段时间,也即从当天9时36分至12时整这段时间。
表1 数据D1的各项属性

表2 2006年11月1日系统中所有数据在各时间段的访问次数

表3 2006年11月2日系统中所有数据在各时间段的访问次数

下面计算Tn=2006年11月2日零时零分数据D1的数据价值V(D1)Tn(1)计算数据本身属性量化值、数据供给能力量化值、数据需求状况量化值(1.1)计算数据D1本身属性量化值SelfAttD1访问用户数目对数据价值量化值为UD1=ND12=12=1;计算数据D1的数据关联度AscD1数据D1的访问次数向量A4D1=(0,0,1,2,0,0,0,1,0,0);数据D2的访问次数向量AD2=(1,0,1,2,0,0,0,1,0,1);数据D1与数据D2的关联度为cosθD1,D2=]]>(0*1+0*0+1*1+2*2+0*0+0*0+0*0+1*1+0*0+0*1)02+02+12+22+02+02+02+12+02+02*12+02+12+22+02+02+02+12+02+12]]>=0.866]]>类似的可以计算出数据D1与D3、D4、D5的关联度分别为cosθD1,D3=0.274,cosθD1,D4=0,cosθD1,D5=0;从而得到向量CD1=(0.866,0.274,0,0);由此得到CD1中cosθD1,Di大于等于ε=0.37的个数M=1;而cosθD1=Σipcosθdjp-1=cosθD1,D2+cosθD1,D3+cosθD1,D4+cosθD1,D54]]>=0.866+0.274+0+04=0.285;]]>从而得到数据D1的数据关联度AscD1=1+McosθD1=1+1*0.285=1.285;综上,得到数据D1本身属性量化值SelfAttD1SelfAttD1=Nd2*(1+M cosθd)=1*1.285=1.285;(1.2)计算数据D1供给能力量化值PD1=SizeD1/BD1=10/1=1;(1.3)计算数据D1需求状况量化值Acqd=f(t)d=1(ΔTd)2=1/(0.3)2=11.1;]]>
(2)计算数据D1在Tn=2006年11月2日零时零分数据价值V(Dl)TnV(D1)Tn=SelfAttd*Pd*Acqd=1.285*11.1*1=14.26.
休眠t=1天后,通过上述的方法可以得到数据D1在Tn+t=2006年11月3日零时零分的数据价值V(D1)Tn+1=679.6。
权利要求
1.一种数据价值定量评价方法,包括以下步骤(1)计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd(1.1)按照下式计算数据本身属性量化值SelfAttd,d表示所考察的数据SelfAttd=Nd2*(1+Mcosθd),其中,Nd为在(Tn-t,Tn)时间段内指定数据的用户访问数目,Ascd为数据关联度,Tn为计算数据价值的时间点,t为计算周期;每个数据每隔t/n时间内被访问的次数组成了一个向量,即Ai(αi1,αi2,…αin),i=1,2…p,其中n为将时间周期t等分的数目,αij表示数据I在时间段 中数据d被访问的次数,j=0.1,…n-1,而p为系统中数据的总数目;;cosθdj=Ad·Aj|Ad||Aj|,d≠j,]]>为数据d与数据j的数据关联度,其中Ad·Aj=Σk=1nadkajk,]]>|Ai|=Σk=1naik2;]]>从而可以得到向量Cd=(cosθd,1,cosθd,2,…,cosθd,d-1,cosθd,d+1…,cosθd,p),向量Cd中的每个元素分别表示数据d与系统中其它数据的数据关联度;定义数据d的数据关联度Ascd是数据d与存储系统中其它数据的数据关联度的综合量化值,采用下面的方法来计算Ascd=(1+Mcosθd),其中M为向量Cd中cosθdj大于设定的阈值ε的元素的个数,而cosθd=Σipcosθdjp-1,i≠d;]]>(1.2)计算数据供给能力量化值PdPd=Sized/Bd,其中Sized表示数据d的大小,Bd表示存放数据d的存储设备所能提供的带宽,它包含了数据d所有副本所能提供的带宽,即若数据d有r个副本,系统能为每个副本所提供的带宽为bi,则系统能够提供数据d的带宽Bd=Σi=1rbi;]]>(1.3)计算数据需求状况量化值AcqdAcqd=1(ΔTd)2,]]>其中ΔTd表示数据d上次被访问和现在相距的时间间隔;(2)根据步骤(1)得到的三个量化值,通过下面的公式得到数据d在时间Tn时的数据价值V(d)Tn大小V(d)Tn=SelfAttd*Pd*Acqd=[Nd2*(1+Mcosθd)]*f(t)d*(sized/B);(3)间隔计算周期t,再重复上述的步骤(1)~(2),如此循环,得到数据在指定时间段的数据价值序列。
全文摘要
本发明公开了一种数据价值定量评价方法,其步骤为①计算数据本身属性量化值SelfAtt
文档编号G06F17/30GK101021869SQ20071005168
公开日2007年8月22日 申请日期2007年3月15日 优先权日2007年3月15日
发明者金海 , 熊慕舟, 吴松 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1