热点数据识别方法和装置的制造方法

文档序号:9687523阅读:185来源:国知局
热点数据识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及云计算领域,特别涉及一种热点数据识别方法和装置。
【背景技术】
[0002] 在云存储系统中,热点数据多依据数据的访问频度、数据访问时间等信息来确定。 用户通常可W将热点数据从云端迁移至本地,从而提高访问效率。
[0003] 但是,按照目前的热点数据识别方法,识别的各个热点数据之间很可能毫无关系, 受限于存储资源、网络资源等因素,用户通常很难将全部热点数据从云端迁移至本地,即便 可W将全部热点数据从云端迁移至本地,其中大部分热点数据很可能不是用户需要的,从 而造成宝贵的存储资源和网络资源的浪费。
[0004] 因此,有必要改进热点数据的识别方案,提高用户所需要的热点数据的命中率。

【发明内容】

[0005] 本发明实施例的一个目的是;提出一种新的热点数据识别方案,W提高用户所需 要的热点数据的命中率。
[0006] 根据本发明实施例的一个方面,提出一种热点数据识别方法,包括;根据文件名、 文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;确 定被访问热点文件与其关联文件之间的文件关联度;根据被访问热点文件与其关联文件之 间的文件关联度W及关联文件的访问热度信息确定关联文件的热度权重;根据关联文件的 热度权重从关联文件中识别出热点文件。
[0007] 在一个实施例中,根据文件名、文件内容、文件访问顺序、文件位置中的至少一项 信息确定被访问热点文件的关联文件包括:计算被访问热点文件与其他文件之间的文件名 关联系数,选取文件名关联系数最大的预设数量的文件作为第一关联集合;计算被访问热 点文件与其他文件之间的文件内容关联系数,选取文件内容关联系数最大的预设数量的文 件作为第二关联集合;获取在被访问热点文件之前最近被访问的预设数量的文件作为第Η 关联集合;获取与被访问热点文件在同一目录下的文件作为第四关联集合;将第一关联集 合、第二关联集合、第Η关联集合和第四关联集合中至少一个集合中的文件作为被访问热 点文件的关联文件。
[0008] 在一个实施例中,通过Apriori算法计算被访问热点文件与其他文件之间的文件 名关联系数和文件内容关联系数。
[0009] 在一个实施例中,确定被访问热点文件与其关联文件之间的文件关联度包括;计 算被访问热点文件与其关联文件之间的文件名关联系数;计算被访问热点文件与其关联文 件之间的文件内容关联系数;根据各个关联文件的访问顺序计算每个关联文件的文件访问 顺序系数;根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系 数;根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、W及 关联文件的文件访问顺序系数和文件位置系数,使用欧几里德距离算法确定被访问热点文 件与其关联文件之间的文件关联度。
[0010] 在一个实施例中,根据被访问热点文件与其关联文件之间的文件关联度W及关联 文件的访问热度信息确定关联文件的热度权重包括:设置文件关联度和访问热度信息在热 度权重中所占的热度系数;根据被访问热点文件与其关联文件之间的文件关联度及其热度 系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权重;其 中,访问热度信息包括访问时间和/或访问频率。
[0011] 在一个实施例中,识别出热点文件之后,还包括;如果本地缓存中没有识别出的热 点文件,从云端下载该热点文件;和/或,如果本地缓存中存留有非热点文件,从本地缓存 中删除该非热点文件。
[0012] 根据本发明实施例的再一个方面,提出一种热点数据识别装置,包括:关联文件确 定单元,用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访 问热点文件的关联文件;文件关联度确定单元,用于确定被访问热点文件与其关联文件之 间的文件关联度;热度权重确定单元,用于根据被访问热点文件与其关联文件之间的文件 关联度W及关联文件的访问热度信息确定关联文件的热度权重;热点文件识别单元,用于 根据关联文件的热度权重从关联文件中识别出热点文件。
[0013] 在一个实施例中,关联文件确定单元,具体用于根据文件名、文件内容、文件访问 顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件;计算被访问热点文件 与其他文件之间的文件名关联系数,选取文件名关联系数最大的预设数量的文件作为第一 关联集合;计算被访问热点文件与其他文件之间的文件内容关联系数,选取文件内容关联 系数最大的预设数量的文件作为第二关联集合;获取在被访问热点文件之前最近被访问的 预设数量的文件作为第Η关联集合;获取与被访问热点文件在同一目录下的文件作为第四 关联集合;将第一关联集合、第二关联集合、第Η关联集合和第四关联集合中至少一个集合 中的文件作为被访问热点文件的关联文件。
[0014] 在一个实施例中,通过Apriori算法计算被访问热点文件与其他文件之间的文件 名关联系数和文件内容关联系数。
[0015] 在一个实施例中,文件关联度确定单元,具体用于;计算被访问热点文件与其关联 文件之间的文件名关联系数;计算被访问热点文件与其关联文件之间的文件内容关联系 数;根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数;根据被访问热 点文件与关联文件是否在同一目录下确定关联文件的文件位置系数;根据被访问热点文件 与其关联文件之间的文件名关联系数和文件内容关联系数、W及关联文件的文件访问顺序 系数和文件位置系数,使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文 件关联度。
[0016] 在一个实施例中,热度权重确定单元,具体用于;设置文件关联度和访问热度信息 在热度权重中所占的热度系数;根据被访问热点文件与其关联文件之间的文件关联度及其 热度系数,并且结合关联文件的访问热度信息及其热度系数,综合确定关联文件的热度权 重;其中,访问热度信息包括访问时间和/或访问频率。
[0017] 在一个实施例中,热点数据识别装置还包括:热点文件处理单元,用于在识别出热 点文件之后,如果本地缓存中没有识别出的热点文件,从云端下载该热点文件;和/或,女口 果本地缓存中存留有非热点文件,从本地缓存中删除该非热点文件。
[0018] 本发明实施例在确定文件热度时增加对文件相关性的参考,从而提升热点文件的 预判能力,提高用户所需要的热点数据的命中率。并且,将识别出的热点文件下载到本地缓 存,可W提高用户对本地文件的访问速度。
[0019] 通过W下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其 优点将会变得清楚。
【附图说明】
[0020] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 W根据送些附图获得其他的附图。
[0021] 图1是本发明热点数据识别方法一个实施例的流程示意图。
[0022] 图2是本发明热点数据识别装置一个实施例的结构示意图。
【具体实施方式】
[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。W下 对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使 用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 为了提高用户所需要的热点数据的命中率,本发明提出一种新的热点数据识别方 案,包括热点数据识别方法和热点数据识别装置。本发明提出的热点数据识别方案可W应 用于云存储领域,例如公有云和私有云结合的混合云存储,还可W应用于分层分级存储。下 面分别具体说明热点数据识别方案。
[0025] 图1是本发明热点数据识别方法一个实施例的流程示意图。如图1所示,本实施 例的热点数据识别方法包括W下步骤:
[0026] 步骤S102,根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确 定被访问热点文件的关联文件。
[0027] 步骤S104,确定被访问热点文件与其关联文件之间的文件关联度。
[0028] 步骤S106,根据被访问热点文件与其关联文件之间的文件关联度W及关联文件的 访问热度信息确定关联文件的热度权重。其中,访问热度信息例如包括访问时间和/或访 问频率等信息。
[0029] 步骤S108,根据关联文件的热度权重从关联文件中识别出热点文件。
[0030] 本实施例在确定文件热度时增加对文件相关性的参考,从而提升热点文件的预判 能力,提高用户所需要的热点数据的命中率。
[0
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1