热点数据识别方法和装置的制造方法

文档序号：9687523阅读：185来源：国知局

热点数据识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及云计算领域，特别涉及一种热点数据识别方法和装置。
【背景技术】
[0002] 在云存储系统中，热点数据多依据数据的访问频度、数据访问时间等信息来确定。用户通常可W将热点数据从云端迁移至本地，从而提高访问效率。
[0003] 但是，按照目前的热点数据识别方法，识别的各个热点数据之间很可能毫无关系，受限于存储资源、网络资源等因素，用户通常很难将全部热点数据从云端迁移至本地，即便可W将全部热点数据从云端迁移至本地，其中大部分热点数据很可能不是用户需要的，从而造成宝贵的存储资源和网络资源的浪费。
[0004] 因此，有必要改进热点数据的识别方案，提高用户所需要的热点数据的命中率。

【发明内容】

[0005] 本发明实施例的一个目的是；提出一种新的热点数据识别方案，W提高用户所需要的热点数据的命中率。
[0006] 根据本发明实施例的一个方面，提出一种热点数据识别方法，包括；根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；确定被访问热点文件与其关联文件之间的文件关联度；根据被访问热点文件与其关联文件之间的文件关联度W及关联文件的访问热度信息确定关联文件的热度权重；根据关联文件的热度权重从关联文件中识别出热点文件。
[0007] 在一个实施例中，根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件包括：计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合；计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合；获取在被访问热点文件之前最近被访问的预设数量的文件作为第Η 关联集合；获取与被访问热点文件在同一目录下的文件作为第四关联集合；将第一关联集合、第二关联集合、第Η关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
[0008] 在一个实施例中，通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
[0009] 在一个实施例中，确定被访问热点文件与其关联文件之间的文件关联度包括；计算被访问热点文件与其关联文件之间的文件名关联系数；计算被访问热点文件与其关联文件之间的文件内容关联系数；根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数；根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数；根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、W及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
[0010] 在一个实施例中，根据被访问热点文件与其关联文件之间的文件关联度W及关联文件的访问热度信息确定关联文件的热度权重包括：设置文件关联度和访问热度信息在热度权重中所占的热度系数；根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重；其中，访问热度信息包括访问时间和/或访问频率。
[0011] 在一个实施例中，识别出热点文件之后，还包括；如果本地缓存中没有识别出的热点文件，从云端下载该热点文件；和/或，如果本地缓存中存留有非热点文件，从本地缓存中删除该非热点文件。
[0012] 根据本发明实施例的再一个方面，提出一种热点数据识别装置，包括：关联文件确定单元，用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；文件关联度确定单元，用于确定被访问热点文件与其关联文件之间的文件关联度；热度权重确定单元，用于根据被访问热点文件与其关联文件之间的文件关联度W及关联文件的访问热度信息确定关联文件的热度权重；热点文件识别单元，用于根据关联文件的热度权重从关联文件中识别出热点文件。
[0013] 在一个实施例中，关联文件确定单元，具体用于根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件；计算被访问热点文件与其他文件之间的文件名关联系数，选取文件名关联系数最大的预设数量的文件作为第一关联集合；计算被访问热点文件与其他文件之间的文件内容关联系数，选取文件内容关联系数最大的预设数量的文件作为第二关联集合；获取在被访问热点文件之前最近被访问的预设数量的文件作为第Η关联集合；获取与被访问热点文件在同一目录下的文件作为第四关联集合；将第一关联集合、第二关联集合、第Η关联集合和第四关联集合中至少一个集合中的文件作为被访问热点文件的关联文件。
[0014] 在一个实施例中，通过Apriori算法计算被访问热点文件与其他文件之间的文件名关联系数和文件内容关联系数。
[0015] 在一个实施例中，文件关联度确定单元，具体用于；计算被访问热点文件与其关联文件之间的文件名关联系数；计算被访问热点文件与其关联文件之间的文件内容关联系数；根据各个关联文件的访问顺序计算每个关联文件的文件访问顺序系数；根据被访问热点文件与关联文件是否在同一目录下确定关联文件的文件位置系数；根据被访问热点文件与其关联文件之间的文件名关联系数和文件内容关联系数、W及关联文件的文件访问顺序系数和文件位置系数，使用欧几里德距离算法确定被访问热点文件与其关联文件之间的文件关联度。
[0016] 在一个实施例中，热度权重确定单元，具体用于；设置文件关联度和访问热度信息在热度权重中所占的热度系数；根据被访问热点文件与其关联文件之间的文件关联度及其热度系数，并且结合关联文件的访问热度信息及其热度系数，综合确定关联文件的热度权重；其中，访问热度信息包括访问时间和/或访问频率。
[0017] 在一个实施例中，热点数据识别装置还包括：热点文件处理单元，用于在识别出热点文件之后，如果本地缓存中没有识别出的热点文件，从云端下载该热点文件；和/或，女口果本地缓存中存留有非热点文件，从本地缓存中删除该非热点文件。
[0018] 本发明实施例在确定文件热度时增加对文件相关性的参考，从而提升热点文件的预判能力，提高用户所需要的热点数据的命中率。并且，将识别出的热点文件下载到本地缓存，可W提高用户对本地文件的访问速度。
[0019] 通过W下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。
【附图说明】
[0020] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可 W根据送些附图获得其他的附图。
[0021] 图1是本发明热点数据识别方法一个实施例的流程示意图。
[0022] 图2是本发明热点数据识别装置一个实施例的结构示意图。
【具体实施方式】
[0023] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。W下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0024] 为了提高用户所需要的热点数据的命中率，本发明提出一种新的热点数据识别方案，包括热点数据识别方法和热点数据识别装置。本发明提出的热点数据识别方案可W应用于云存储领域，例如公有云和私有云结合的混合云存储，还可W应用于分层分级存储。下面分别具体说明热点数据识别方案。
[0025] 图1是本发明热点数据识别方法一个实施例的流程示意图。如图1所示，本实施例的热点数据识别方法包括W下步骤：
[0026] 步骤S102,根据文件名、文件内容、文件访问顺序、文件位置中的至少一项信息确定被访问热点文件的关联文件。
[0027] 步骤S104,确定被访问热点文件与其关联文件之间的文件关联度。
[0028] 步骤S106,根据被访问热点文件与其关联文件之间的文件关联度W及关联文件的访问热度信息确定关联文件的热度权重。其中，访问热度信息例如包括访问时间和/或访问频率等信息。
[0029] 步骤S108,根据关联文件的热度权重从关联文件中识别出热点文件。
[0030] 本实施例在确定文件热度时增加对文件相关性的参考，从而提升热点文件的预判能力，提高用户所需要的热点数据的命中率。
[0

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚靖;冯明;秦达;雷俊智;段勇;
技术所有人：中国电信股份有限公司;
我是此专利的发明人

上一篇：一种数据库科目的检索方法及其检索装置的制造方法
上一篇：下载完成后自动重命名文件的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。