基于访问流行度和相关性的空间数据副本控制方法及系统的制作方法

文档序号:10725125阅读:154来源:国知局
基于访问流行度和相关性的空间数据副本控制方法及系统的制作方法
【专利摘要】本发明提供一种基于访问流行度和相关性的空间数据副本控制方法及系统,系统包括空间数据访问流行度统计计算单元、空间数据访问相关性计算单元、空间数据副本选择单元和空间数据副本置换单元吗,根据空间数据的历史访问记录统计计算空间数据流行度,根据空间数据的历史访问记录挖掘计算空间数据相互关系,根据空间数据访问流行度和访问相关性选择空间数据副本,根据空间数据访问流行度和访问相关性删除空间数据副本。本发明不但大大减少了空间数据副本选择范围,降低了计算开销;同时利用访问相关性进行副本选择和副本置换,可在有限的高速缓存空间条件下,实现有效地副本选择,且准确性高,可应用于地理信息服务技术领域。
【专利说明】
基于访问流行度和相关性的空间数据副本控制方法及系统
技术领域
[0001] 本发明属于空间数据访问服务技术领域,特别是涉及一种新的同时利用空间数据 的访问流行度和空间数据相互之间的访问相关性进行数据副本控制的技术方案。
【背景技术】
[0002] 地理信息系统在面对用户大规模密集访问时,实现对海量空间数据的快速访问服 务一直是地理空间信息系统试图解决的重要问题。由于磁盘读取速度的限制,将用户未来 需要访问的空间数据提前复制到高速缓存区中是提高地理信息系统访问服务质量的一个 重要手段。但由于缓存区空间有限且空间数据数量较多,如何从海量的空间数据集合中选 择合适的空间数据作为副本存储到高速缓冲区中是解决问题的关键。
[0003] 目前针对数据副本的控制方法主要是基于数据流行度的方法,如:一种基于负载 均衡的数据副本选择和放置策略,该算法提出了一套最优负载均衡的理论方法,但其在副 本选择时仅仅选择少数流行度高的数据进行副本复制,副本数量的选择并不依据实际高速 缓存空间,因而与地理信息系统的实际应用需求并不相符(参考文献Serpanos D.N., Georgiadis L.,Bouloutas T.MMPacking:A load and storage balancing algorithm for distributed multimedia servers . In: Computer Design: VLSI in Computers and Processors, IEEE International Conference on ICCD'96,1996,pp. 170-174.);以及一 种改进的动态重组技术(参考文献Dukes J.,Jones J.Dynamic RePacking:A content replication policy for clustered multimedia servers. In: Proceedings of the Microsoft Research Summer Workshop,2002),该方法通过预测数据访问概率并根据预测 结果选择数据副本对象并更新副本,但论文中没有给出如何进行预测的具体方法。DCST算 法(参考文南犬Rui Li ,X Wang,X Shi . A replacement strategy for a distributed caching system based on the spatiotemporal access pattern of geospatial data [J].ISPRS-International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences ,2014,xl_4:133-137)同样是通过计算所有空间数据的流 行度并简单的选择流行度高的数据实现副本选择。显然,由于用户对地理空间数据的访问 既存在长期稳定性,又存在短期的突发性(参考文献王浩,潘少明,彭敏,等.数字地球中影 像数据的Zipf-like访问分布及应用分析.武汉大学学报(信息科学版),2010,35(3) :356-359),因此简单通过流行度的方法无法实现对未来用户需要访问空间数据的准确预测以完 成数据副本控制。
[0004] 总之,现有的方法主要采用按照空间数据的流行度高低的方法,选择流行度高的 空间数据作为副本放入高速缓冲区中,这种模式在高速缓存区空间大小有限、流行度高的 空间数据较多且用户的访问行为发生变化时,算法则难以适应,如NLT LANDSAT 7数据,其 数据总量为4,364,800个,即使按照Zipf规律,80 %的用户都只访问20 %的数据,针对该空 间数据的高流行度数据也包含了 872,960个数据,按照其每块数据大小为128KB计算,其总 数据量也达到了 1〇9,120ΜΒ,在有限的高速缓存空间条件下,无法准确的做出副本选择。

【发明内容】

[0005] 考虑到空间数据由于用户访问行为的不均衡性,存在流行度高的数据(如城市热 点),针对所有空间数据进行副本选择,不但副本数量巨大,计算效率低且复杂,同时由于高 速缓冲区空间有限,缓存所有高流行度空间数据的副本选择机制难以满足实际系统的应用 需求,本发明提供一种结合访问流行度和相关性的空间数据副本控制技术方案。
[0006] 本发明提供一种基于访问流行度和相关性的空间数据副本控制方法,包括以下步 骤,
[0007] 步骤1,空间数据访问流行度统计计算,包括根据空间数据的历史访问记录统计计 算空间数据访问流行度,实现方式包括以下子步骤,
[0008] 步骤1.1,根据空间数据的Zipf访问规律,获取空间数据访问规律参数α;
[0009] 步骤1.2,计算得到空间高流行度数据数量Ν如下,
[0010] N=LXhVl-α
[0011] 其中,L为总的空间数据数量,h是地理信息系统的稳定缓存命中率;
[0012]步骤1.3,统计空间数据访问流行度,实现方式如下,
[0013] 对于任意空间数据cU,从空间数据历史访问记录中统计得到访问次数h,空间数据 di的访问流行度通过Fi/M计算得到;
[0014] 其中,Μ为所有空间数据的总访问次数;
[0015] 步骤1.4,获取空间高流行度数据集合,包括对所有空间数据按照其流行度从高到 低排列,选择流行度高的前Ν个空间数据d^cb,···,d N作为空间高流行度数据集合D;
[0016] 步骤2,空间数据访问相关性计算,包括根据空间数据的历史访问记录挖掘计算空 间数据相互关系,实现方式包括以下子步骤,
[0017] 步骤2.1,获取空间数据访问关系大小,实现方式如下,
[0018]根据步骤1所得空间高流行度数据集合0={(11,(12,-_,如}和高流行度数据数量1 若任意空间数据cU和空间数据山被同时访问,且访问间隔为X,则定义空间数据cU到山产生 了 一次访问关系,这次访问关系的大小为rx;
[0019]设最大访问间隔大于η时,对应的访问关系的大小为0,对任意空间数据cU,从空间 数据历史访问记录中得到所有以cU开始,长度为n+1的空间数据历史访问记录子序列,1表 示得到的子序列个数,任意空间数据cU到山的总关系W洳下,
[0021]其中,Vkx(i,j)表示在访问子序列Ak中,空间数据cU到山是否产生了一次访问间隔 为X的关系,为1表示产生了关系,否则表示没有产生关系;
[0022]步骤2.2,计算空间数据访问关系距离,实现方式如下,
[0023]定义任意空间数据cU和空间数据山被同时访问,若其访问的间隔为X,则定义空间 数据cU到山产生的访问关系距离为X;设最大访问间隔为η时的访问关系距离向量F=(P〇, Pi,P2,…,Pn),其中px = px-1+1,意空间数据di到dj的总距离Φ ij如下,
[0025] 步骤2.3,计算空间数据访问关系次数,实现方式如下,
[0026] 定义向量Vk( i,j) = (0,vki(i,j),Vk2(i,j),…,vkn( i,j)),则di到dj产生的总关系 次数~表示为,
[0028]步骤2.4,计算空间数据访问相关性凡,,实现方式如下,
[0030]步骤3,空间数据副本选择,包括根据空间数据访问流行度和访问相关性选择空间 数据副本,实现方式包括以下子步骤,
[0031 ]步骤3.1,输入每次选择进入高速缓冲区的空间数据副本数量W1;
[0032]步骤3.2,计算高流行度空间数据和当前正在被访问空间数据之间的相关性大小, 实现方式如下,
[0033]设当前正在被访问的空间数据为cU,空间高流行度数据集合DiicU,^,···,(!〃}* 没有存储到高速缓冲区的数据子集合为A = ,作为副本已经存储到高速缓 冲区的数据子集合为A = …义、其中沁和吣分别表示没有存储到高速缓冲区的 高流行度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量;
[0034] 若用9?表示空间数据cU与空间数据'之间的相关性,得到cU与所有没有存储到 高速缓冲区的高流行度空间数据Di之间的相关性为% =( ···,《、);
[0035] 步骤3.3,选择空间数据副本,实现方式如下,
[0036] 根据空间数据副本数量抑,对%内的元素进行从高到低排序,并选择前W1个数值 高的元素,然后从〇:中查找到对应的空间数据作为副本存储到高速缓冲区中;
[0037] 步骤4,空间数据副本置换,包括根据空间数据访问流行度和访问相关性删除空间 数据副本,实现方式包括以下子步骤,
[0038] 步骤4.1,输入每次需要从高速缓冲区删除的空间数据副本置换数量w2;
[0039] 步骤4.2,计算高速缓冲区内所有副本空间数据和当前正在被访问空间数据之间 的相关性大小,实现方式如下,
[0040] 若用兜21表示空间数据cU与空间数据4之间的相关性,则得到cU与所有存储在高 速缓冲区内的副本空间数据D 2之间的相关性
[0041 ]步骤4.3,删除空间数据副本,实现方式如下,
[0042] 根据空间数据副本数量《2对识【内的元素进行从低到高排序,并选择前《2个数值低 的元素,然后从出中查找到其对应的空间数据并将其从高速缓冲区中删除。
[0043] 而且,步骤1.1中获取空间数据访问规律参数α的实现方式如下,
[0044] 根据空间数据的Zipf访问规律,若对空间数据集中的所有L个空间数据按照其访 问概率由高到低进行排列后,排在第i位的空间数据cU与其访问概率 Pl满足关*Pl = C/ia, 其中^ = 为归一化常数;
[0045] 其中,任意空间数据di的访问概率pi通过空间数据di的访问次数除以所有空间数 据的总访问次数计算得到。
[0046] 本发明提供一种基于访问流行度和相关性的空间数据副本控制系统,包括以下模 块,
[0047] 空间数据访问流行度统计计算单元,用于根据空间数据的历史访问记录统计计算 空间数据访问流行度,包括以下模块,
[0048]空间数据访问规律参数获取模块,用于根据空间数据的Zipf访问规律,获取空间 数据访问规律参数α ;
[0049] 空间高流行度数据数量计算模块,用于计算得到空间高流行度数据数量Ν如下,
[0050] N=LXhVl-α
[0051] 其中,L为总的空间数据数量,h是地理信息系统的稳定缓存命中率;
[0052] 空间数据流行度计算模块,用于统计空间数据访问流行度,实现方式如下,
[0053]对于任意空间数据cU,从空间数据历史访问记录中统计得到访问次数h,空间数据 di的访问流行度通过Fi/M计算得到;
[0054] 其中,Μ为所有空间数据的总访问次数;
[0055] 空间高流行度数据集获取模块,用于获取空间高流行度数据集合,包括对所有空 间数据按照其流行度从高到低排列,选择流行度高的前Ν个空间数据c^cb,···,^作为空间 高流行度数据集合D;
[0056] 空间数据访问相关性计算单元,用于根据空间数据的历史访问记录挖掘计算空间 数据相互关系,包括以下模块,
[0057]空间数据访问关系大小计算模块,用于获取空间数据访问关系大小,实现方式如 下,
[0058] 根据空间高流行度数据集合D= {di,d2,…,dN}和高流行度数据数量N,若任意空间 数据cU和空间数据山被同时访问,且访问间隔为X,则定义空间数据cU到山产生了一次访问 关系,这次访问关系的大小为r x;
[0059] 设最大访问间隔大于η时,对应的访问关系的大小为0,对任意空间数据di,从空间 数据历史访问记录中得到所有以cU开始,长度为n+1的空间数据历史访问记录子序列,1表 示得到的子序列个数,任意空间数据cU到山的总关系W洳下,
[0061]其中,Vkx(i,j)表示在访问子序列Ak中,空间数据cU到山是否产生了一次访问间隔 为X的关系,为1表示产生了关系,否则表示没有产生关系;
[0062]空间数据访问关系距离计算模块,用于计算空间数据访问关系距离,实现方式如 下,
[0063]定义任意空间数据cU和空间数据山被同时访问,若其访问的间隔为X,则定义空间 数据cU到山产生的访问关系距离为X;设最大访问间隔为η时的访问关系距离向量F=(P〇, Pi,P2,…,Pn),其中px = px-1+1,意空间数据di到dj的总距离Φ ij如下,
[0065] 空间数据关系次数计算模块,用于计算空间数据访问关系次数,实现方式如下,
[0066] 定义向量Vk( i,j) = (0,vki(i,j),Vk2(i,j),…,vkn( i,j)),则di到dj产生的总关系 次数&表示为,
[0068]空间数据相关性计算模块,用于计算空间数据访问相关性%,实现方式如下,
[0070] 空间数据副本选择单元,用于根据空间数据访问流行度和访问相关性选择空间数 据副本,包括以下t吴块,
[0071] 副本选择参数输入模块,用于输入每次选择进入高速缓冲区的空间数据副本数量 wi;
[0072] 高流行度空间数据访问相关性计算模块,用于计算高流行度空间数据和当前正在 被访问空间数据之间的相关性大小,实现方式如下,
[0073]设当前正在被访问的空间数据为cU,空间高流行度数据集合DiicU,^,···,(!〃}* 没有存储到高速缓冲区的数据子集合为A = ,作为副本已经存储到高速缓 冲区的数据子集合为與=?4,4,···,4Λα,其中沁和吣分别表示没有存储到高速缓冲区的 高流行度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量;
[0074] 若用< 表示空间数据cU与空间数据4之间的相关性,得到cU与所有没有存储到 高速缓冲区的高流行度空间数据D&间的相关性为% ,…,);
[0075] 空间数据副本选择模块,用于选择空间数据副本,实现方式如下,
[0076] 根据空间数据副本数量抑,对货丨内的元素进行从高到低排序,并选择前W1个数值 高的元素,然后从〇:中查找到对应的空间数据作为副本存储到高速缓冲区中;
[0077] 空间数据副本置换单元,用于根据空间数据访问流行度和访问相关性删除空间数 据副本,包括以下t吴块,
[0078] 副本置换参数输入模块,用于输入每次需要从高速缓冲区删除的空间数据副本置 换数量W2 ;
[0079] 副本空间数据访问相关性计算模块,用于计算高速缓冲区内所有副本空间数据和 当前正在被访问空间数据之间的相关性大小,实现方式如下,
[0080] 若用W21表示空间数据cU与空间数据4之间的相关性,则得到cU与所有存储在高 速缓冲区内的副本空间数据D2之间的相关性%: = ( 一…,);
[0081] 空间数据副本置换模块,用于删除空间数据副本,实现方式如下,
[0082] 根据空间数据副本数量《2对啤内的元素进行从低到高排序,并选择前《2个数值低 的元素,然后从出中查找到其对应的空间数据并将其从高速缓冲区中删除。
[0083] 而且,空间数据访问规律参数获取模块中,获取空间数据访问规律参数α的实现方 式如下,
[0084] 根据空间数据的Zipf访问规律,若对空间数据集中的所有L个空间数据按照其访 问概率由高到低进行排列后,排在第i位的空间数据cU与其访问概率 Pl满足关*Pl = C/ia, 其中Γ = (Σ二丨/广)1为归一化常数;
[0085] 其中,任意空间数据cU的访问概率Pl通过空间数据cU的访问次数除以所有空间数 据的总访问次数计算得到。
[0086] 本发明针对用户访问空间数据的不均衡性,设计一种新的结合访问流行度和相关 性的空间数据副本控制方法,通过将高流行度空间数据数量以及空间数据流行度统计选择 高流行度空间数据集合,并在高流行度空间数据集合基础上计算其相互之间的访问相关 性,最后按照相关性的高低从高流行度空间数据集中选择部分空间数据作为副本存储到高 速缓冲区中,同时从高速缓冲区中删除部分相关性低的高流行度副本空间数据以避免缓冲 区空间溢出。所提技术方案大大减少计算复杂度,且算法能根据当前访问数据选择合适的 部分数据作为副本,可满足高速缓冲空间有限条件下的副本控制,具有较好的工程实践性。 本发明可应用于大规模分布式环境下地理信息系统技术领域。
【附图说明】
[0087] 图1是本发明实施例所提供系统的结构示意图。
[0088] 图2是本发明实施例所提供系统中空间数据访问流行度统计计算单元100功能模 块图。
[0089] 图3是本发明实施例所提供系统中空间数据访问相关性计算单元200功能模块图。
[0090] 图4是本发明实施例所提供系统中空间数据副本选择单元300功能模块图。
[0091 ]图5是本发明实施例所提供系统中空间数据副本置换单元400功能模块图。
[0092] 图6是本发明实施例所提供方法的系统流程图。
【具体实施方式】
[0093] 地理信息系统在面对大规模用户的密集访问时,由于磁盘的读取速度较慢,需要 将用户即将访问的空间数据提前作为副本存储到高速缓冲区中,以减少服务延时,提高访 问性能。目前采用的依据空间数据流行度的方法由于空间数据量巨大,在高速缓冲空间有 限的限制条件下,准确性不高,且难以适应用户访问行为的变化,与实际地理信息系统的应 用需求不符。考虑到地理信息系统中的所有空间数据,选择部分高流行度空间数据作为副 本存储到高速缓冲区中是满足大规模用户密集访问的有效途径。本发明提出了新的技术方 案,能在空间数据中,利用流行度区分副本选择集合,仅从高流行度的空间数据中选择副 本,以减少了计算开销;同时,通过计算高流行度空间数据之间的相关性,并和正在被访问 的空间数据进行比较,从高流行度空间数据中选择部分相关性最高的空间数据作为副本存 储到高速缓冲区中,以在有限的高速缓冲空间中,提前准备最可能被立即访问的空间数据, 提高访问效率;最后通过计算高速缓冲区内副本空间数据和正在被访问空间数据的相关 性,删除部分相关性最低的空间数据副本以避免高速缓冲区溢出,保证系统的持续稳定运 行。
[0094]以下结合附图和实施例对本发明技术方案的具体实施提供详细建议说明。
[0095]如图6所示,本发明实施例提供一种基于访问流行度和相关性的空间数据副本控 制方法,包括以下步骤,
[0096]步骤1,空间数据访问流行度统计计算,包括根据空间数据的历史访问记录统计计 算空间数据访问流行度,实现方式包括以下子步骤,
[0097]步骤1.1,根据空间数据的Zipf访问规律,获取空间数据访问规律参数α;
[0098] 步骤1.2,计算得到空间高流行度数据数量Ν如下,
[0099] N=LXhVl-α
[0100] 其中,L为总的空间数据数量,h是地理信息系统的稳定缓存命中率;
[0101 ]步骤1.3,统计空间数据访问流行度,实现方式如下,
[0102] 对于任意空间数据CU,从空间数据历史访问记录中统计得到访问次数Fi,空间数据 di的访问流行度通过Fi/M计算得到;
[0103] 其中,Μ为所有空间数据的总访问次数;
[0104] 步骤1.4,获取空间高流行度数据集合,包括对所有空间数据按照其流行度从高到 低排列,选择流行度高的前Ν个空间数据d^cb,···,d N作为空间高流行度数据集合D;
[0105] 步骤2,空间数据访问相关性计算,包括根据空间数据的历史访问记录挖掘计算空 间数据相互关系,实现方式包括以下子步骤,
[0106] 步骤2.1,获取空间数据访问关系大小,实现方式如下,
[0107] 根据步骤1所得空间高流行度数据集合0={(11,(12,一,如}和高流行度数据数量1 若任意空间数据cU和空间数据山被同时访问,且访问间隔为X,则定义空间数据cU到山产生 了 一次访问关系,这次访问关系的大小为rx;
[0108] 设最大访问间隔大于η时,对应的访问关系的大小为0,对任意空间数据cU,从空间 数据历史访问记录中得到所有以cU开始,长度为n+1的空间数据历史访问记录子序列,1表 示得到的子序列个数,任意空间数据cU到山的总关系W洳下,
[0110]其中,vkx(i,j)表示在访问子序列Ak中,空间数据cU到山是否产生了一次访问间隔 为X的关系,为1表示产生了关系,否则表示没有产生关系;
[0111] 步骤2.2,计算空间数据访问关系距离,实现方式如下,
[0112] 定义任意空间数据cU和空间数据山被同时访问,若其访问的间隔为X,则定义空间 数据cU到山产生的访问关系距离为X;设最大访问间隔为η时的访问关系距离向量F=(P 〇, Pi,P2,…,Pn),其中px = px-1+1,意空间数据di到dj的总距离Φ ij如下,
[0114] 步骤2.3,计算空间数据访问关系次数,实现方式如下,
[0115] 定义向量Vk( i,j) = (0,Vki(i,j),Vk2(i,j),…,Vkn( i,j)),则di到dj产生的总关系 次数%表示为,
[0117]步骤2.4,计算空间数据访问相关性%,实现方式如下,
[0119] 步骤3,空间数据副本选择,包括根据空间数据访问流行度和访问相关性选择空间 数据副本,实现方式包括以下子步骤,
[0120] 步骤3.1,输入每次选择进入高速缓冲区的空间数据副本数量W1;
[0121] 步骤3.2,计算高流行度空间数据和当前正在被访问空间数据之间的相关性大小, 实现方式如下,
[0122] 设当前正在被访问的空间数据为cU,空间高流行度数据集合DiicU,^,···,(!〃}* 没有存储到高速缓冲区的数据子集合为A = ,作为副本已经存储到高速缓 冲区的数据子集合为尽,其中沁和吣分别表示没有存储到高速缓冲区的 高流行度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量;
[0123] 若用表示空间数据山与空间数据尤之间的相关性,得到山与所有没有存储到高 速缓冲区的高流行度空间数据D&间的相关性为咒Η?ΚΚ,…,):
[0124] 步骤3.3,选择空间数据副本,实现方式如下,
[0125] 根据空间数据副本数量抑,对9?【内的元素进行从高到低排序,并选择前W1个数值 高的元素,然后从〇:中查找到对应的空间数据作为副本存储到高速缓冲区中;
[0126] 步骤4,空间数据副本置换,包括根据空间数据访问流行度和访问相关性删除空间 数据副本,实现方式包括以下子步骤,
[0127] 步骤4.1,输入每次需要从高速缓冲区删除的空间数据副本置换数量w2;
[0128] 步骤4.2,计算高速缓冲区内所有副本空间数据和当前正在被访问空间数据之间 的相关性大小,实现方式如下,
[0129] 若用%表示空间数据cU与空间数据右之间的相关性,则得到cU与所有存储在高 速缓冲区内的副本空间数据D2之间的相关性$ =(吨);
[0130] 步骤4.3,删除空间数据副本,实现方式如下,
[0131] 根据空间数据副本数量《2对狀2内的元素进行从低到高排序,并选择前《2个数值低 的元素,然后从出中查找到其对应的空间数据并将其从高速缓冲区中删除。
[0132] 根据空间数据访问规律参数和高流行度空间数据数量选择高流行度空间数据集 合以减少空间数据副本选择范围,降低计算开销;利用空间数据历史访问记录计算所有高 流行度空间数据相互之间的访问相关性,以和正在被访问的空间数据比较,按照从高到低 的原则从高流行度空间数据集中选择1个或多个空间数据作为副本存储到高速缓冲区中; 同时,按照从低到高的原则从高速缓冲区中删除同样数量的空间数据副本以避免缓冲溢 出。
[0133] 具体实施时,本发明所提供方法可基于软件技术实现自动运行流程,也可采用模 块化方式实现相应系统。
[0134] 本发明实施例相应提供一种基于访问流行度和相关性的空间数据副本控制系统, 包括以下模块,
[0135] 空间数据访问流行度统计计算单元,用于根据空间数据的历史访问记录统计计算 空间数据访问流行度,包括以下模块,
[0136] 空间数据访问规律参数获取模块,用于根据空间数据的Zipf访问规律,获取空间 数据访问规律参数α ;
[0137] 空间高流行度数据数量计算模块,用于计算得到空间高流行度数据数量Ν如下,
[0138] N=LXhVl-α
[0139] 其中,L为总的空间数据数量,h是地理信息系统的稳定缓存命中率;
[0140] 空间数据流行度计算模块,用于统计空间数据访问流行度,实现方式如下,
[0141] 对于任意空间数据cU,从空间数据历史访问记录中统计得到访问次数h,空间数据 di的访问流行度通过Fi/M计算得到;
[0142 ]其中,Μ为所有空间数据的总访问次数;
[0143] 空间高流行度数据集获取模块,用于获取空间高流行度数据集合,包括对所有空 间数据按照其流行度从高到低排列,选择流行度高的前Ν个空间数据c^cb,···,^作为空间 高流行度数据集合D;
[0144] 空间数据访问相关性计算单元,用于根据空间数据的历史访问记录挖掘计算空间 数据相互关系,包括以下模块,
[0145] 空间数据访问关系大小计算模块,用于获取空间数据访问关系大小,实现方式如 下,
[0146] 根据空间高流行度数据集合D = {di,d2,…,dN}和高流行度数据数量N,若任意空间 数据cU和空间数据山被同时访问,且访问间隔为X,则定义空间数据cU到山产生了一次访问 关系,这次访问关系的大小为r x;
[0147] 设最大访问间隔大于η时,对应的访问关系的大小为0,对任意空间数据cU,从空间 数据历史访问记录中得到所有以cU开始,长度为n+1的空间数据历史访问记录子序列,1表 示得到的子序列个数,任意空间数据cU到山的总关系W洳下,
[0149]其中,Vkx(i,j)表示在访问子序列Ak中,空间数据cU到山是否产生了一次访问间隔 为X的关系,为1表示产生了关系,否则表示没有产生关系;
[0150]空间数据访问关系距离计算模块,用于计算空间数据访问关系距离,实现方式如 下,
[0151]定义任意空间数据cU和空间数据山被同时访问,若其访问的间隔为X,则定义空间 数据cU到山产生的访问关系距离为X;设最大访问间隔为η时的访问关系距离向量F=(P〇, Pi,P2,…,Pn),其中px = px-1+1,意空间数据di到dj的总距离Φ ij如下,
[0153] 空间数据关系次数计算模块,用于计算空间数据访问关系次数,实现方式如下,
[0154] 定义向量Vk( i,j) = (0,Vki(i,j),Vk2(i,j),…,Vkn( i,j)),则di到dj产生的总关系 次数~表示为,
[0156]空间数据相关性计算模块,用于计算空间数据访问相关性9?,实现方式如下,
[0158] 空间数据副本选择单元,用于根据空间数据访问流行度和访问相关性选择空间数 据副本,包括以下t吴块,
[0159] 副本选择参数输入模块,用于输入每次选择进入高速缓冲区的空间数据副本数量 wi;
[0160] 高流行度空间数据访问相关性计算模块,用于计算高流行度空间数据和当前正在 被访问空间数据之间的相关性大小,实现方式如下,
[0161]设当前正在被访问的空间数据为cU,空间高流行度数据集合DiicU,^,···,(!〃}* 没有存储到高速缓冲区的数据子集合为A = ,作为副本已经存储到高速缓 冲区的数据子集合为A = ,其中沁和吣分别表示没有存储到高速缓冲区的 高流行度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量;
[0162] 若用9^表示空间数据cU与空间数据4之间的相关性,得到ck与所有没有存储到 高速缓冲区的高流行度空间数据Di之间的相关性为叫
[0163] 空间数据副本选择模块,用于选择空间数据副本,实现方式如下,
[0164] 根据空间数据副本数量抑,对%内的元素进行从高到低排序,并选择前W1个数值 高的元素,然后从〇:中查找到对应的空间数据作为副本存储到高速缓冲区中;
[0165] 空间数据副本置换单元,用于根据空间数据访问流行度和访问相关性删除空间数 据副本,包括以下t吴块,
[0166] 副本置换参数输入模块,用于输入每次需要从高速缓冲区删除的空间数据副本置 换数量w2;副本空间数据访问相关性计算模块,用于计算高速缓冲区内所有副本空间数据 和当前正在被访问空间数据之间的相关性大小,实现方式如下,
[0167] 若用94表示空间数据cU与空间数据4之间的相关性,则得到cU与所有存储在高 速缓冲区内的副本空间数据D2之间的相关性
[0168] 空间数据副本置换模块,用于删除空间数据副本,实现方式如下,
[0169] 根据空间数据副本数量《2对%内的元素进行从低到高排序,并选择前《2个数值低 的元素,然后从出中查找到其对应的空间数据并将其从高速缓冲区中删除。
[0170] 如图1所示,实施例提供一种结合访问流行度和相关性的空间数据副本控制系统 包括空间数据访问流行度统计计算单元(100 )、空间数据访问相关性计算单元(200 )、空间 数据副本选择单元(300)以及空间数据副本置换单元(400)。所述空间数据访问流行度统计 计算单元(1〇〇)用于根据空间数据的历史访问记录统计计算空间数据流行度;所述空间数 据访问相关性计算单元(200)用于根据空间数据的历史访问记录挖掘计算空间数据相互关 系;所述空间数据副本选择单元(300)用于根据空间数据访问流行度和访问相关性选择空 间数据副本;所述空间数据副本置换单元(400)用于根据空间数据访问流行度和访问相关 性删除空间数据副本。
[0171] 如图2至图5所示,所述空间数据访问流行度统计计算单元(100)包括用于获取空 间数据访问规律参数的空间数据访问规律参数获取模块(101)、用户获取高流行度空间数 据数量的空间高流行度数据数量计算模块(102)、用于统计空间数据访问流行度的空间数 据流行度计算模块(103)以及用于获取空间高流行度数据集合的空间高流行度数据集获取 模块(104);所述空间数据访问相关性计算单元(200)包括用于获取空间数据访问关系大小 的空间数据访问关系大小计算模块(201)、用于获取空间数据访问关系距离的空间数据访 问关系距离计算模块(202)、用于获取空间数据访问关系次数的空间数据关系次数计算模 块(203)、用于计算空间数据访问相关性的空间数据相关性计算模块(204);所述空间数据 副本选择单元(300)包括用于控制副本选择数量的副本选择参数输入模块(301)、用于计算 所有高流行度空间数据和当前正在被访问空间数据之间的相关性大小的高流行度空间数 据访问相关性计算模块(302)以及用于选择空间数据副本的空间数据副本选择模块(303); 所述述空间数据副本置换单元(400)包括用于控制副本置换数量的副本置换参数输入模块 (401)、用于计算高速缓冲区内所有副本空间数据和当前正在被访问空间数据之间的相关 性大小的副本空间数据访问相关性计算模块(402)以及用于删除空间数据副本的空间数据 副本置换模块(403)。
[0172] 所述空间数据历史访问记录,一般包含对应的空间数据的坐标及访问时间;所述 空间数据历史访问记录包括但不限于以日志格式文件、数据库的形式提供。
[0173] 基于本发明实施例所提供一种结合访问流行度和相关性的空间数据副本控制系 统,工作方式与方法流程相应,为便于实施参考起见,以下具体说明各步骤的实现方式:
[0174] (1)空间数据访问流行度统计计算:通过所述的空间数据访问流行度统计计算单 元(1〇〇),根据空间数据的历史访问记录统计计算空间数据访问流行度;在这一过程,包括 以下方面。
[0175] ①利用所述的空间数据访问规律参数获取模块(101)获取空间数据访问规律参 数。
[0176] 根据空间数据的Zipf访问规律,若对空间数据集中的所有L个空间数据按照其访 问概率由高到低进行排列后,排在第i位的空间数据cU与其访问概率 ?1满足关系:Pl = C/ia, 其中c = 为归一化常数,a为空间数据访问规律参数。
[0177] 任意空间数据cU的访问概率Pl可以通过空间数据cU的访问次数除以所有空间数据 的总访问次数计算得到。
[0178] 任意空间数据ck的访问次数和所有空间数据的总访问次数可以从空间数据历史 访问记录中统计得到。
[0179] 总的空间数据数量L通过参数输入获得,所述参数输入方式包括但不限于文件、用 户输入等。
[0180] 最后,根据空间数据的Zipf访问规律可以计算得到空间数据访问规律参数a,例如 根据空间数据历史访问记录利用分段线性拟合得到。
[0181] ②利用所述的空间高流行度数据数量计算模块(102)计算得到高流行度空间数据 数量。
[0182] 地理信息系统中,空间高流行度数据数量与总的空间数据数量L之间满足关系:N iLXhVK,其中N为空间高流行度数据数量,h是地理信息系统的稳定缓存命中率,基于该 关系可计算得到空间高流行度数据数量N。
[0183] 所述的参数L和α通过前面步骤计算得到后,通过函数参数的形式输入。
[0184] 所述的参数h是通过参数输入获得,可以预先设定。所述参数输入方式包括但不限 于文件、用户输入等。
[0185] ③利用所述的空间数据流行度计算模块(103)统计空间数据访问流行度。
[0186] 任意空间数据cU的访问次数FjP所有空间数据的总访问次数Μ可以从空间数据历 史访问记录中统计得到。
[0187] 任意空间数据cU的访问流行度可以通过巧/M计算得到。
[0188] ④利用所述的空间高流行度数据集获取模块(104)获取空间高流行度数据集合。
[0189] 对所有空间数据按照其流行度从高到低排列。选择流行度高的前N个空间数据cU, d2,…,dN作为空间高流行度数据集合D。
[0190] (2)空间数据访问相关性计算:通过所述的空间数据访问相关性计算单元(200), 根据空间数据的历史访问记录挖掘计算空间数据相互关系;在这一过程,包括以下方面。 [0191]①利用所述的空间数据访问关系大小计算模块(201)获取空间数据访问关系大 小。
[0192] 定义D = {cU,d2,…,dN}为空间高流行度数据集合,其中N为高流行度数据数量。N和 D可通过前面步骤(1)计算得到。
[0193] 若任意空间数据cU和空间数据山被同时访问,且其访问的间隔为X,则定义空间数 据cU到山产生了一次访问关系,这次访问关系的大小为r x。
[0194] 若设最大访问间隔大于η时,对应的访问关系的大小为0(即忽略访问间隔大于η的 空间数据之间的相关性影响),则可得到一个访问间隔η内的访问关系大小向量R=(r Q,ri, r2,···,rn),其中rx-i>rx,xe [1,n],r〇=l〇
[0195] 对任意空间数据di,可以从空间数据历史访问记录A = (ai,a2,···,aM)中得到所有 以6(对应的序号为i)开始,长度为n+1的空间数据历史访问记录子序列Ak(i) = (i,akl, ak2,'",akn)(aj,akxe[l,N],ke[l,Ki],xe[l,n],je[l,M]),其中 Μ 为空间数据的总访问次 数,1表示从空间数据历史访问记录Α中统计得到的基于空间数据cU的子序列个数,ajPakx 分别表示在空间数据历史访问记录A中记录的第j次访问的空间数据的序号和空间数据历 史访问记录子序列Ak(i)中记录的第X次访问的空间数据的序号,即若A中记录的第j次访问 的空间数据为cU,则a」= i。根据前面的定义,所有子序列内的空间数据都和空间数据cU产生 了关系,子序列外的空间数据与空间数据cU之间的关系为0(可以忽略)。则任意空间数据cU 到dj的总关系Ψ ij大小为:
[0199] Vkx(i,j)表示在访问子序列Ak中,地理空间数据cU到山是否产生了一次访问间隔为 X的关系,为1表示产生了关系,否则表示没有产生关系(即空间数据山是否在基于空间数据 cU的子序列中出现)。
[0200] 所述的参数η是通过参数输入获得,可以预先设定。所述参数输入方式包括但不限 于文件、用户输入等。
[0201] 具体实施时,所述的访问关系大小向量R可通过如下方式计算:
[0202] 定义R服从一个均值为μ = 0,标准差为〇的高斯分布。为保证在最大访问间隔大于η 时,访问相关性大小可以忽略,选择σ = 3.9(η/2.58),则可计算得到访问关系大小向量R(根 据高斯分布定义,区间[μ_2.58σμ+2.58σ]之间面积不小于总面积的99.73 %,ΒΡη>μ+2.58〇 时的影响只占总影响的1. 〇%以内,因而其产生的关系影响基本可以忽略)。
[0203]②利用所述的空间数据访问关系距离计算模块(202)计算空间数据访问关系距 离。
[0204]定义任意空间数据cU和空间数据山被同时访问,若其访问的间隔为X,则定义空间 数据cU到山产生的访问关系距离为X。
[0205]类似的,可得到最大访问间隔为η时的访问关系距离向量- 其中px=px-i+l(xe [1,η],ρ〇 = 0)。则可以计算得到任意空间数据di到dj的总距离C>ij大小 为:
[0207] 所述的参数Vkx(i,j)可通过前面步骤①计算得到。
[0208] ③利用所述的空间数据关系次数计算模块(203)计算空间数据访问关系次数。
[0209] 定义向量Vk(i,j) = (0,vki(i,j),vk2(i,j), ···,¥!〇!(:[,」)),则di到dj产生的总关系 次数~可表示为:
[0211] ④利用所述的空间数据相关性计算模块(204)计算空间数据访问相关性。
[0212] 可以分析,任意两个地理空间数据相关性有如下特征:1)被同时访问的次数越多, 则相关性越强;2)被同时访问时的访问间隔越小,则相关性越高;3)访问距离越短,则相关 性越高.为此,,山e D,其访问相关性可表示为:
[0214] 从式(5)可以看出,地理空间数据6到山产生的关系次数~越多、访问间隔越小 (Ψ ^越大)、访问距离越短(Φ U越小),则得到的访问相关性9^·越大,说明其相关性越高,因 此9?能准确的定义任意空间数据相互之间的访问紧密程度。
[0215] (3)空间数据副本选择:通过所述的空间数据副本选择单元(300),根据空间数据 访问流行度和访问相关性选择空间数据副本;在这一过程,包括以下方面。
[0216] ①利用所述的副本选择参数输入模块(301)获取用于控制副本选择数量参数。
[0217] 所述的每次选择进入高速缓冲区的空间数据副本数量W1通过参数输入获得,可以 预先设定。所述参数输入方式包括但不限于文件、用户输入等。
[0218] 所述的访问相关性9?参数通过前面步骤(2)计算得到后,通过函数参数的形式输 入。
[0219] ②利用所述的高流行度空间数据访问相关性计算模块(302)计算高流行度空间数 据和当前正在被访问空间数据之间的相关性大小。
[0220] 本发明进一步提出,通过将空间高流行度数据集合D分成子集01和02,副本选择只 需要针对其中的一个子集进行计算即可,而不涉及所有高流行度空间数据,避免多余计算, 可以减少计算开销。
[0221]若设当前正在被访问的空间数据为cU,空间高流行度数据集合为DiicU,^,···, dN}。其中没有存储到高速缓冲区的数据子集合为:A =丨《4,4,…Λ\},作为副本已经存储 至搞速缓冲区的数据子集合为:A ,其中沁和吣分别表示没有存储到高 速缓冲区的高流行度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量。 显然有:D = Di U D2,N=Ni+N2,且0! n D2为空。
[0222] 若用%,表示空间数据cU与空间数据4之间的相关性,则依此类推可得到cU与所有 没有存储到高速缓冲区的高流行度空间数据Di之间的相关性为:
[0223] ) (6)
[0224] 所述的9?可根据空间数据士和空间数据4的序号,从⑵所得访问相关性%选 择得到。
[0225] ③利用所述的空间数据副本选择模块(303)选择空间数据副本。
[0226] 根据空间数据副本数量抑,对邱内的元素进行从高到低排序,并选择前W1个数值 高的元素,然后从〇:中查找到其对应的空间数据作为副本存储到高速缓冲区中。
[0227] (4)空间数据副本置换:通过所述的空间数据副本置换单元(400),根据空间数据 访问流行度和访问相关性删除空间数据副本以避免高速缓冲溢出;在这一过程,包括以下 方面。
[0228] ①利用所述的副本置换参数输入模块(401)获取用于控制副本置换数量参数。
[0229] 所述的每次需要从高速缓冲区删除的空间数据副本置换数量《2通过参数输入获 得,可以预先设定。所述参数输入方式包括但不限于文件、用户输入等。
[0230] 所述的空间数据副本数量W1和空间数据副本置换数量W2可以相同。
[0231] 所述的访问相关性参数通过前面步骤(3)计算得到后,通过函数参数的形式输 入。
[0232] ②利用所述的副本空间数据访问相关性计算模块(402)用于计算高速缓冲区内所 有副本空间数据和当前正在被访问空间数据之间的相关性大小。
[0233] 若用%,表示空间数据cU与空间数据4之间的相关性,则依此类推可得到cU与所 有存储在高速缓冲区内的副本空间数据D2之间的相关性为:
[0234] #=(#,,#?,,,%、:) (7)
[0235] 所述的敗21可根据空间数据cU和空间数据4的序号,从⑵所得访问相关性凡,选 择得到。
[0236] ③利用所述的空间数据副本置换模块(403)用于删除空间数据副本。
[0237] 根据空间数据副本数量《2,对辦内的元素进行从低到高排序,并选择前w2个数值 低的元素,然后从出中查找到其对应的空间数据并将其从高速缓冲区中删除。
[0238] D2是已经存储到高速缓冲区中的数据,副本置换只需要从出中选择部分数据删除。 由于〇:中的数据还没有存储到高速缓存区中,故不需要作为选择对象进行计算和选择,减 少计算量。
[0239]本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术 领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式 替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
【主权项】
1. 一种基于访问流行度和相关性的空间数据副本控制方法,其特征在于:包括W下步 骤, 步骤1,空间数据访问流行度统计计算,包括根据空间数据的历史访问记录统计计算空 间数据访问流行度,实现方式包括W下子步骤, 步骤1.1,根据空间数据的Zi时访问规律,获取空间数据访问规律参数α; 步骤1.2,计算得到空间高流行度数据数量Ν如下, N=LXhi/i-a 其中,L为总的空间数据数量,h是地理信息系统的稳定缓存命中率; 步骤1.3,统计空间数据访问流行度,实现方式如下, 对于任意空间数据di,从空间数据历史访问记录中统计得到访问次数Fi,空间数据di的 访问流行度通过Fi/M计算得到; 其中,Μ为所有空间数据的总访问次数; 步骤1.4,获取空间高流行度数据集合,包括对所有空间数据按照其流行度从高到低排 列,选择流行度高的前Ν个空间数据山,(12,一,(^作为空间高流行度数据集合0; 步骤2,空间数据访问相关性计算,包括根据空间数据的历史访问记录挖掘计算空间数 据相互关系,实现方式包括W下子步骤, 步骤2.1,获取空间数据访问关系大小,实现方式如下, 根据步骤1所得空间高流行度数据集合D={dl,d2,…,dN巧日高流行度数据数量N,若任 意空间数据di和空间数据山被同时访问,且访问间隔为X,则定义空间数据di到山产生了一 次访问关系,运次访问关系的大小为。; 设最大访问间隔大于η时,对应的访问关系的大小为0,对任意空间数据di,从空间数据 历史访问记录中得到所有Wdi开始,长度为n+1的空间数据历史访问记录子序列,Κι表示得 到的子序列个数,任意空间数据di到山的总关系Ψι姻下,其中,Vkx(i,j)表示在访问子序列Ak中,空间数据di到d堤否产生了一次访问间隔为X的 关系,为1表示产生了关系,否则表示没有产生关系; 步骤2.2,计算空间数据访问关系距离,实现方式如下, 定义任意空间数据di和空间数据山被同时访问,若其访问的间隔为X,则定义空间数据 di到山产生的访问关系距离为X;设最大访问间隔为η时的访问关系距离向量P=(P〇,Pi, 化,…,Pn),其中化=Px-1+1,意空间数据di到dj的总距离Φ ij如下,步骤2.3,计算空间数据访问关系次数,实现方式如下, 定义向量Vk( i,j) = (0,vki(i,j),vk2(i,j),···,vkn( i,j)),则di到dj产生的总关系次数 ^表示为,步骤2.4,计算空间数据访问相关性,实现方式如下,步骤3,空间数据副本选择,包括根据空间数据访问流行度和访问相关性选择空间数据 副本,实现方式包括W下子步骤, 步骤3.1,输入每次选择进入高速缓冲区的空间数据副本数量W1; 步骤3.2,计算高流行度空间数据和当前正在被访问空间数据之间的相关性大小,实现 方式如下, 设当前正在被访问的空间数据为di,空间高流行度数据集合0={山,(12,一,(^}中没有存 储到高速缓冲区的数据子集合为公,=站,,也,...,4'w,},作为副本已经存储到高速缓冲区的 数据子集合为公:=!y;i,4·.,'··,止;,其中化和化分别表示没有存储到高速缓冲区的高流行 度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量; 若用讯'1,表示空间数据di与空间数据cT η之间的相关性,得到di与所有没有存储到高速 缓冲区的高流行度空间数据Di之间的相关性为瑪=(雌1部2,···,雌W,); 步骤3.3,选择空间数据副本,实现方式如下, 根据空间数据副本数量W1,对那内的元素进行从高到低排序,并选择前W1个数值高的元 素,然后从化中查找到对应的空间数据作为副本存储到高速缓冲区中; 步骤4,空间数据副本置换,包括根据空间数据访问流行度和访问相关性删除空间数据 副本,实现方式包括W下子步骤, 步骤4.1,输入每次需要从高速缓冲区删除的空间数据副本置换数量W2; 步骤4.2,计算高速缓冲区内所有副本空间数据和当前正在被访问空间数据之间的相 关性大小,实现方式如下, 若用雌康示空间数据di与空间数据d'21之间的相关性,则得到di与所有存储在高速缓 冲区内的副本空间数据化之间的相关性'·Η':=(化1,《'。.,···,《':、.=); 步骤4.3,删除空间数据副本,实现方式如下, 根据空间数据副本数量W2对货;内的元素进行从低到高排序,并选择前W2个数值低的元 素,然后从化中查找到其对应的空间数据并将其从高速缓冲区中删除。2. 根据权利要求1所述基于访问流行度和相关性的空间数据副本控制方法,其特征在 于:步骤1.1中获取空间数据访问规律参数α的实现方式如下, 根据空间数据的Zipf访问规律,若对空间数据集中的所有L个空间数据按照其访问概 率由高到低进行排列后,排在第i位的空间数据di与其访问概率Pi满足关系pi = C/ia,其中 [ = (Σ??ι?/产)-1为归一化常数; 其中,任意空间数据di的访问概率Pi通过空间数据di的访问次数除W所有空间数据的 总访问次数计算得到。3. -种基于访问流行度和相关性的空间数据副本控制系统,其特征在于:包括W下模 块, 空间数据访问流行度统计计算单元,用于根据空间数据的历史访问记录统计计算空间 数据访问流行度,包括W下模块, 空间数据访问规律参数获取模块,用于根据空间数据的Zipf访问规律,获取空间数据 访问规律参数α; 空间高流行度数据数量计算模块,用于计算得到空间高流行度数据数量Ν如下, N=LXhi/i-a 其中,L为总的空间数据数量,h是地理信息系统的稳定缓存命中率; 空间数据流行度计算模块,用于统计空间数据访问流行度,实现方式如下, 对于任意空间数据di,从空间数据历史访问记录中统计得到访问次数Fi,空间数据di的 访问流行度通过Fi/M计算得到; 其中,Μ为所有空间数据的总访问次数; 空间高流行度数据集获取模块,用于获取空间高流行度数据集合,包括对所有空间数 据按照其流行度从高到低排列,选择流行度高的前Ν个空间数据dl,d2,-,,dN作为空间高流 行度数据集合D; 空间数据访问相关性计算单元,用于根据空间数据的历史访问记录挖掘计算空间数据 相互关系,包括W下模块, 空间数据访问关系大小计算模块,用于获取空间数据访问关系大小,实现方式如下, 根据空间高流行度数据集合D={dl,d2,…,dN}和高流行度数据数量N,若任意空间数据 di和空间数据山被同时访问,且访问间隔为X,则定义空间数据di到山产生了一次访问关系, 运次访问关系的大小为 设最大访问间隔大于η时,对应的访问关系的大小为0,对任意空间数据di,从空间数据 历史访问记录中得到所有Wdi开始,长度为n+1的空间数据历史访问记录子序列,Κι表示得 到的子序列个数,任意空间数据di到dj的总关系Ψι姻下,其中,Vkx(i,j)表示在访问子序列Ak中,空间数据di到d堤否产生了一次访问间隔为X的 关系,为1表示产生了关系,否则表示没有产生关系; 空间数据访问关系距离计算模块,用于计算空间数据访问关系距离,实现方式如下, 定义任意空间数据di和空间数据山被同时访问,若其访问的间隔为X,则定义空间数据 di到山产生的访问关系距离为X;设最大访问间隔为η时的访问关系距离向量P=(P〇,Pi, P2,…,化),其中化=PX-1+1,意空间数据di到dj的总距离Φ i姻下,空间数据关系次数计算模块,用于计算空间数据访问关系次数,实现方式如下, 定义向量Vk( i,j) = (0,vki(i,j),vk2(i,j),···,vkn( i,j)),则di到dj产生的总关系次数 A#表示为,空间数据相关性计算模块,用于计算空间数据访问相关性Wg,实现方式如下,空间数据副本选择单元,用于根据空间数据访问流行度和访问相关性选择空间数据副 本,包括W下模块, 副本选择参数输入模块,用于输入每次选择进入高速缓冲区的空间数据副本数量W1; 高流行度空间数据访问相关性计算模块,用于计算高流行度空间数据和当前正在被访 问空间数据之间的相关性大小,实现方式如下, 设当前正在被访问的空间数据为di,空间高流行度数据集合0={山,(12,一,(^}中没有存 储到高速缓冲区的数据子集合为A = {也,屯,…,斯V,},作为副本已经存储到高速缓冲区的 数据子集合为马=Wil,山,庚中化和化分别表示没有存储到高速缓冲区的高流行 度空间数据数量和存储到高速缓冲区中的高流行度副本空间数据数量; 若用娜康示空间数据di与空间数据d'η之间的相关性,得到di与所有没有存储到高速 缓冲区的高流行度空间数据化之间的相关性为W'ι=(W'||,W;;,…,W'|、|); 空间数据副本选择模块,用于选择空间数据副本,实现方式如下, 根据空间数据副本数量W1,对Μ?内的元素进行从高到低排序,并选择前W1个数值高的元 素,然后从化中查找到对应的空间数据作为副本存储到高速缓冲区中; 空间数据副本置换单元,用于根据空间数据访问流行度和访问相关性删除空间数据副 本,包括W下模块, 副本置换参数输入模块,用于输入每次需要从高速缓冲区删除的空间数据副本置换数 量W2;副本空间数据访问相关性计算模块,用于计算高速缓冲区内所有副本空间数据和当 前正在被访问空间数据之间的相关性大小,实现方式如下, 若用沢表示空间数据di与空间数据d'21之间的相关性,则得到di与所有存储在高速缓 冲区内的副本空间数据化之间的相关性化;=(化I,化 空间数据副本置换模块,用于删除空间数据副本,实现方式如下, 根据空间数据副本数量W2对9?内的元素进行从低到高排序,并选择前W2个数值低的元 素,然后从化中查找到其对应的空间数据并将其从高速缓冲区中删除。4.根据权利要求3所述基于访问流行度和相关性的空间数据副本控制系统,其特征在 于:空间数据访问规律参数获取模块中,获取空间数据访问规律参数α的实现方式如下, 根据空间数据的Zipf访问规律,若对空间数据集中的所有L个空间数据按照其访问概 率由高到低进行排列后,排在第i位的空间数据di与其访问概率Pi满足关系Pi = C/ia,其中圳3-化常数; 其中,任意空间数据di的访问概率Pi通过空间数据di的访问次数除W所有空间数据的 总访问次数计算得到。
【文档编号】G06F17/30GK106096002SQ201610460157
【公开日】2016年11月9日
【申请日】2016年6月22日
【发明人】潘少明, 种衍文, 徐正全, 张航, 李红, 汤戈
【申请人】武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1