一种云存储日志数据分析方法

文档序号:6543520阅读:242来源:国知局
一种云存储日志数据分析方法
【专利摘要】本发明涉及一种云存储日志数据分析方法,步骤1、对云存储日志的数据进行预分析;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则.本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,发明通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。
【专利说明】一种云存储日志数据分析方法
【技术领域】
[0001]本发明属于数据分析【技术领域】,特别涉及一种云存储日志数据分析方法,可用于云存储系统日志的数据分析。
【背景技术】
[0002]云存储系统在运行的过程中,会产生大量的日志文件。这些日志文件记录了系统管理员对系统的操作情况,用户对系统的访问情况以及系统服务器接收、分析请求、运行时错误等各种原始信息。对系统管理员操作日志进行数据分析,可以规范管理员的操作;对用户访问情况日志进行数据分析,可以发现用户的行为习惯,有利于查询、分析各用户操作,提升用户满意度;对云存储服务器日志进行数据分析,可以检测系统状态,排除网络故障,实现入侵检测,还能够发现云存储系统自身的设计缺陷、性能瓶颈以及需要优化配置的模块。
[0003]由于云存储系统所产生的日志数据量非常庞大,因而如何从大量的数据中,快速并有效地提取出有价值的信息,发现这些信息之间的相互关系,成为云存储日志数据分析中首要解决的问题。目前针对云存储系统日志的数据分析的研究较少。关联准则是数据分析过程的重要组成部分,通过关联准则可以发现大量数据之间的内在关系和有价值的联系。对云存储日志进行数据分析,生成关联准则,就可以有效利用云存储日志文件。
[0004]目前,现有的云存储日志的数据分析的流程参见附图1所示,其主要包括:对云存储日志文件预处理,准则生成和对生成的准则输出进行分析利用这几个步骤。其中准则生成这一步,主要涉及寻找频繁项集和生成关联准则两个方面。其中寻找频繁项集的方法主要有Apriori算法和基于矩阵的Apriori算法。Apriori算法是一种经典的寻找频繁项集算法,该算法使用逐层搜索的迭代方法,利用前一项的计算结果得到后一项。Apriori算法被广泛的研究和改进,其中一种改进是基于矩阵的Apriori算法。这个改进是将矩阵的思想应用到该算法中,把被分析的数据库表示成矩阵的形式。通过这种方法可以将数据库的扫描次数减少为两次,缩短数据分析时间,提高算法性能。
[0005]然而,现有基于矩阵的Apriori算法存在以下问题:首先该算法的计算量比较大,当被分析的数据库中包含的数据项目较多时,该算法耗费的时间会呈指数增长,所以在对大量数据进行分析时,会耗费更多的时间;其次,该算法在进行迭代的过程中会产生过多的候选项集,存储这些候选项集会占用内存空间,并且在进行后续的迭代计算时增加计算量。这些缺点不利于从云存储日志中快速的提取关联准则,导致整个云存储日志的数据分析过程需要很长的时间,效率不高,不能及时反映云存储系统的运行状态情况,不利于对系统进行优化和性能提升。

【发明内容】

[0006]本发明所要解决的技术问题是针对上述现有技术提供一种云存储日志数据分析方法,该方法能减少计算量和迭代过程中生成的候选项集数据,能大大提高数据分析的效果O
[0007]本发明解决上述技术问题所采用的技术方案为:一种云存储日志数据分析方法,其包括如下步骤:
[0008]步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
[0009]步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;
[0010]步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;
[0011]步骤4、输出步骤3得到的关联规则;
[0012]其特征在于:所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:
[0013]步骤2a、利用预分析后的云存储日志数据生成候选I项集矩阵C1:
[0014]候选I项集矩阵
【权利要求】
1.一种云存储日志数据分析方法,其包括如下步骤: 步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据; 步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集; 步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则; 步骤4、输出步骤3得到的关联规则; 其特征在于:所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集: 步骤2a、利用预分析后的云存储日志数据生成候选I项集矩阵C1:

候选I项集矩阵
2.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2b对频繁I项集矩阵L1化简,得到化简后的频繁I项集矩阵L/,其具体通过如下步骤实现: 步骤2b-l、计算候选I项集矩阵C1各列的列和,依次将每个列和与最小支持度S。比较,若列和小于最小支持度S。,则删除该列,反之则保留该列,得到第一中间矩阵; 步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除行,否则保留该行,得到第二中间矩阵; 步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度S。比较,若列和小于最小支持度S。,则删除该列,反之则保留该列,生成新的频繁I项集矩阵L/。
3.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2c中候选k项集矩阵Ck由下述方式计算得到:
4.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2d中对频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk’,包括如下步骤: 步骤2d-l、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度S。比较,若列小于最小支持度S。,则删除该列,反之则保留该列,得到第三中间矩阵; 步骤2d-2、根据迭代计算次数k的值求出k+Ι的值,计算第三中间矩阵每一行的行和,若行和小于k+Ι,则将对应的行删除行,否则保留该行,得到第四中间矩阵; 步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度S。比较,若列和小于最小支持度S。,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk,。
5.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤3通过如下步骤得到关联准则: 步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为O~I ; 步骤3b、对于化简后的频繁k项集矩阵Lk’,将Lk’的每一列组成一个单列矩阵1,I e L;,产生单列矩阵I的所有非空子集r ; 步骤3c、对于每个非空子集r,如果,其中Sr是非空子集r的计数,S1是单列矩阵I的列和,则得到关联准则“n(/-0”。
【文档编号】G06F17/30GK103995828SQ201410145688
【公开日】2014年8月20日 申请日期:2014年4月11日 优先权日:2014年4月11日
【发明者】樊凯, 李晖, 郝延静 申请人:西安电子科技大学宁波信息技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1