一种基于事件关系网络的事件摘要方法

文档序号：6632919阅读：322来源：国知局

一种基于事件关系网络的事件摘要方法
【专利摘要】本发明提供一种基于事件关系网络的事件摘要方法，包括以下步骤：步骤1，选取有序事件序列中任意两个事件类型作为关注事件类型，根据关注事件类型构造一个子事件序列，并构造该子事件序列的到达间隔直方图；步骤2，基于最短描述长度原则编码子事件序列中的片段；步骤3，基于启发式算法对子事件序列中的片段进行划分，计算子事件序列的最短编码长度；步骤4，构造事件关系网络刻画事件模式。本发明提供的方法依据最短描述长度原则对事件到达间隔直方图及其近似直方图进行编码，表达方式直观、易于理解，克服了需要事先确定组数和频数的不足，并能识别不相交的直方图集合。
【专利说明】一种基于事件关系网络的事件摘要方法

【技术领域】
[0001] 本发明属于数据挖掘领域，特别是一种基于事件关系网络图的事件摘要方法。

【背景技术】
[0002] 事件摘要是数据挖掘领域事件挖掘方向相对新的研究热点之一，可以被视为是频繁项集挖掘和频繁场景挖掘的扩展。频繁模式挖掘技术通过识别离散时间之间的相关性，能揭示一些令人感兴趣的模式，往往可以作为事件摘要的构造块。
[0003] 许多系统和应用程序会产生大量的时序事件，即关联着时间戳的事件序列，例如：系统日志、HTTP请求序列、数据库请求序列和网络流量数据序列等。这些事件捕获了随着时间变化而不断改变的系统状态和行为，对于历史事件数据的挖掘是理解和优化系统行为的有效方式之一。通过审核挖掘得到的事件模式，系统管理员可以建立事件或事故管理规则以消除或者缓解系统失效风险。目前，这种方式已经成为大规模分布式系统管理的标准方法，被IBM和HP这样的IT公司应用于IT基础设施管理。
[0004] 现有的大部分事件挖掘研究工作都致力于场景挖掘或频繁模式发现（R. Agrawal and R. Srikant.Mining sequential patterns. In ICDEj 1995 ；S.Laxman and K. P. Unnikrishnan P. S. Sastryand. Discovering frequent episodes and learning hidden markov models:A formal connection. IEEE Transactions on Knowledge and Data Engineering, 17:1505-1517, 2005 ；T. Li, F. Liang, S. Maj and W. Peng. An integrated framework on mining logs files for computing system management. In KDD，2005.) 〇这些方法简单地产生相互独立的大量模式，而不能提供一种简要的和综合性的事件摘要以揭示数据集所蕴含的系统视图，且这些模式对于系统管理员而言难于获得将它们应用于降低系统运行风险的方法。
[0005] 最新的事件挖掘研究工作不在聚焦于频繁模式发现，转而关注事件摘要。通常的方法是将事件序列划分为不相交的事件片段，而后为每一个事件片段产生一个事件模式用于描述片段中的事件。Peng提出了一种事件摘要方法，该方法从通过分析事件日志进而度量事件达到获取模式（W. Peng, C. Perng, T. Li, and H. Wang. Event summarization for system management. In KDD, 2008.) ;Kiernan将事件摘要建模成优化问题，主要目的是平衡摘要的准确性和局部模型的缺陷，为此提出了一种基于分片的事件摘要方法，该方法将事件序列按照事件出现的频率变化划分为若干个事件片段（J. Kiernan and E. Terzi. Constructing comprehensive summaries of large event sequences. ACM Transactions on Knowledge Discovery from Data, 3:1 - 31，2009)。基于上述工作，Peng 进一步地提出了采用隐马尔科夫模型来刻画事件序列片段之间的状态迁移过程，改进基于分片的事件摘要方法（W. Peng, H. Wang, M. Liu, and W. Wang. An algorithmic approach to event summarization. In SIGM0D, 2010.)。然而，这些方法获得的事件摘要对于数据挖掘领域的外行而言难于理解，无法为系统管理员提供足够的帮助。
[0006] 本发明中采用直方图的方式描述事件模式，并采用信息论中的位串方式对直方图进行编码。Marsland提出了一种直方图的编码方法（S. Marsland, C. J. Twining, and C. J. Taylor. A minimum description length objective function for group-wise non-rigid image registration. In Image and Vision Computing, 2008),但该方法仅适用于有固定的组数和固定的频数的直方图，而本发明中用于事件摘要的直方图不能满足上述要求，所以不能应用于本发明。

【发明内容】

[0007] 为克服现有技术的不足，本发明中依据最短描述长度原则对事件到达间隔直方图及其近似直方图进行编码，克服了需要事先确定组数和频数的不足，并能识别不相交的直方图集合。进一步地，采用事件网络关系模型这一直观和易于理解的表达方式表示事件模式，能帮助系统管理员掌握系统运行状态及其变化过程。
[0008] -种基于事件关系网络的事件摘要方法，包括以下步骤：
[0009] 步骤1，构造事件到达间隔直方图，过程如下：
[0010] 给定一个事件序列D，令S是D中最多包含两种不同事件类型ex和ey的子序列，且子序列S可以划分为k个不相交的片段，即S = (S1, S2,. . .，Sp，. . .，Sk)，1彡P彡k ;对于任意的片段Sp，根据片段Sp中事件类型为ex和ey的事件到达时间间隔分布情况，构造事件到达间隔直方图，记为hxy(Sp);
[0011] 步骤2,基于最短描述长度原则编码事件片段，过程如下：
[0012] 给定仅包含事件类型ex和ey的子序列S，对于任意的子序列S中事件片段Sp，先编码近似直方图l(sph编码长度,再编码L(Sp)与h xy (Sp) 的距离，编码长度，最后计算事件到达间隔直方图编码长度， Khxr (S1,)) = L(hx,(S")) + L(/,t>.(SF) I A,,(S/())；
[0013] 步骤3,基于启发式算法的最佳事件片段划分，过程如下：
[0014] 给定事件序列D中仅包含事件类型ex和ey的子序列S，构造子序列S对应的直方图图采用最短路径算法Dijkastra查找直方图图巧的最短路径，路径上的k个不相交片段即为子序列S1 -个最佳划分^ 5；)，使得子序列S1的编码长度最短，然后按照步骤2计算S的每个划分对应的近似直方图h表示事件片段<蕴含的事件模式，并将该事件模式添加到事件模式集R ;
[0015] 步骤4,构造事件关系网络刻画事件模式，过程如下：
[0016] 定义事件关系网络ERN = (V'，E'），其中顶点集V'表示事件模式集R中涉及到的所有事件类型集^ = ，E'表示事件类型之间的关系；遍历事件模式集R，将每一个事件模式表示成ERN的一条边，并将事件模式的参数作为边的权重；遍历完成后产生完整的事件关系网络。
[0017] 本发明与现有技术相比具有显著优点：（1)可以捕获同类型事件和两种不同类型事件之间的时序关系；（2)采用最短描述长度原则平衡摘要的准确性和简洁性；（3)以事件关系网络刻画事件序列蕴含的事件模式，使得系统管理员易于理解；
[0018] 下面结合附图对本发明作进一步详细描述。

【专利附图】

【附图说明】
[0019] 图1基于事件关系网络的事件摘要方法；
[0020] 图2事件到达间隔直方图示例；
[0021] 图3事件片段的编码过程；
[0022] 图4基于启发式算法的最佳事件片段划分过程。

【具体实施方式】
[0023] 结合图1，阐述一种基于事件关系网络的事件摘要方法，包括以下步骤：
[0024] 步骤1，选取有序事件序列中任意两个事件类型作为关注事件类型，根据关注事件类型构造一个子事件序列，并构造该子事件序列的到达间隔直方图，过程如下：
[0025] 步骤1. 1，给定一个由n个有序事件构成的事件序列D= (<1^，ei>，. . .，<ti, ej > ,..,< tn, em > )，其中，< h，e」> ,1彡i彡n, 1彡j彡m表示第i个事件，&表示第 i个事件发生的时间戳，4 G e = {ei，e2, . . .，eJ表示事件类型，e表示事件类型的集合。
[0026] 步骤1. 2,获取事件序列D中仅包含事件类型edP ey的子事件序列S，1彡x，y彡m。
[0027] 步骤1. 3,将子事件序列S划分为k个不相交的片段S = (S1, S2, . . .，Sp，. . .，Sk)。
[0028] 步骤1. 4,记录下列参数：序列S每一个片段Sp中类型为ex的事件到达的时间戳，序列S每一个片段Sp中类型为ex的事件到达后首次出现类型为ey的事件的时间戳、到达间隔值bp、非空组Mnp的个数C1和非空组binp频数nunip，如图2所示。
[0029] 步骤1. 5,利用公式①构造片段Sp的事件到达间隔直方图hxy (Sp)
[0030] Ief =e,，nexf(fve-J-\ ①
[0031] 步骤2,基于最短描述长度原则编码子事件序列中的片段，给定仅包含事件类型ex和ey的子序列S，事件摘要问题本质就是查找该事件序列的k个不相交片段的一个最佳划分S = (S1, S2,. . .，Sp，. . .，Sk)，并为任意的事件片段Sp构造一个最佳的近似直方图作为Sp的事件到达间隔直方图的近似，从而使得子序列S的编码长度最短，结合图3,具体过程如下：
[0032] 步骤2. 1，编码到达间隔直方图hxy(Sp)的近似直方图L(Sp) 4合定Sp及其对应的事件到达间隔直方图hxy (Sp)，采用Iwsi,)表示对hxy (Sp)的近似，两者具有相同的事件到达频数，但非空组数不同，且Ijs,,)的非空组数一般取值为1或2,小于hxy(Sp)的非空组数；编码任意的事件片段Sp对应的近似直方图IJ需要对描述直方图的三个要素分别进行编码，这三个要素分别是：事件类型，事件片段的边界和非空的组：
[0033] 步骤2. 1. 1，对事件片段Sp的事件类型集进行编码，长度为如O = Iogf ;
[0034] 步骤2. 1.2,对事件片段Sp边界进行编码，长度为/4B,J = l〇g;V，Bp表示事件片段Sp的边界；
[0035] 步骤2. I. 3,对事件片段Sp所有非空组进行编码，长度为/4/，/，》) = log'; +丨〇g;?l〇g， S表示事件片段Sp中最大的到达间隔；
[0036] 步骤2. 1. 4,利用公式②，编码到达间隔直方图hxy(Sp)的近似直方图t(S,,)
[0037] L(Jx,y(Sr)) = Hs) + L(Bp) + L(bim) 〇 ②
[0038] 步骤2. 2,编码I(Sp)与hxy(Sp)的距离,表示两直方图间的距离定义为需要移动的频数之和：
[0039] 步骤2.2. 1，获取hxy (Sp)的非空组数<"，设的非空组数为/1:;
[0040] 步骤2. 2. 2,遍历L(Sp)，记录非空组bin' p，若If(Sjj)中不存在到达间隔值bp的组，则/4/?"4)|。5^) = ￡(/!".(5<,)|1,.(\?備1?1/,;若1办,,）中存在到达间隔值、的组，则 UKiSr) I (5；)) = L(hniSp) I In,{Sp)) + \lh\Sp)|hp J^ Jin-(Sp )i b(! \\ 〇
[0041] 步骤2.3，计算事件到达间隔直方图hxy(Sp)的编码长度， i(MSP ))=呵 minL,, .V.. ,5p ( S;J) + Ml A )丨 t 直方图hxy(Sp)的所有可能的近似直方图的全集，需要从TL*沖查找最小的一个LR)作为hxy (Sp)的近似，计算方法如下：
[0042] 步骤2. 3. 1，按照非空组binp的频数nump大小，以降序方式对hxy (Sp)中的所有非空组进行排序；
[0043] 步骤 2. 3. 2,初始化 topn = 1 ;
[0044] 步骤2. 3. 2,取hxy (Sp)的前topn个非空组binp，采用步骤2. 1的方法构

【权利要求】
1. 一种基于事件关系网络的事件摘要方法，其特征在于，包括以下步骤：步骤1，选取有序事件序列中任意两个事件类型作为关注事件类型，根据关注事件类型构造一个子事件序列，并构造该子事件序列的到达间隔直方图；步骤2,基于最短描述长度原则编码子事件序列中的片段；步骤3,基于启发式算法对子事件序列中的片段进行划分，计算子事件序列的最短编码长度；步骤4,构造事件关系网络刻画事件模式。
2. 根据权利要求1所述的基于事件关系网络的事件摘要方法，其特征在于，步骤1的直方图具体构造过程如下：步骤1. 1，给定一个由n个有序事件构成的事件序列D=(<tpei>，...，<心，ej>，..，<tn,em > )，其中，< 心，e」>，1彡i彡n, 1彡j彡m表示第i个事件，h表示第i 个事件发生的时间戳，4Ge = {ei，e2, . . .，eJ表示事件类型，e表示事件类型的集合；步骤1. 2,获取事件序列D中仅包含事件类型ex和ey的子事件序列S，1 <x，y<m; 步骤1. 3,将子事件序列S划分为k个不相交的片段S=(SpS2,. . .，Sp，. . .，Sk); 步骤1. 4,记录下列参数：序列S每一个片段Sp中类型为ex的事件到达的时间戳^，序列S每一个片段Sp中类型为ex的事件到达后首次出现类型为ey的事件的时间戳到达间隔值bp、非空组binp的个数和非空组binp频数nunip; 步骤1. 5,利用公式①构造片段Sp的事件到达间隔直方图hxy(Sp)
3. 根据权利要求1所述的基于事件关系网络的事件摘要方法，其特征在于，步骤2的具体过程为：步骤2. 1，编码到达间隔直方图hxy(Sp)的近似直方图步骤 2. 2，编码心-(S#)与hxy (Sp)的距离 (.S;J|L.(.V〇; 步骤2. 3,计算事件到达间隔直方图hxy(Sp)的编码长度。
4. 根据权利要求3所述的基于事件关系网络的事件摘要方法，其特征在于，步骤2. 1的具体方法为：步骤2. 1. 1，对事件片段Sp的事件类型集进行编码，长度为i(4 =l〇gh 步骤2. 1. 2,对事件片段Sp边界进行编码，长度为i(B") =togp，Bp表示事件片段Sp的边界；步骤2. 1. 3,对事件片段Sp所有非空组进行编码，长度为
5表示事件片段Sp中最大的到达间隔；步骤2. 1. 4,利用公式②，编码到达间隔直方图hxy(Sp)的近似直方图k(S")
5. 根据权利要求4所述的基于事件关系网络的事件摘要方法，其特征在于，步骤2. 2的具体方法为：步骤2. 2. 1，获取hxy(Sp)的非空组数C，设iv(S")的非空组数为; 步骤2. 2. 2,遍历Epg)，记录非空组bin'p，若中不存在到达间隔值bp的组，则
若t(S,,)中存在到达间隔值bp的组，则
6. 根据权利要求5所述的基于事件关系网络的事件摘要方法，其特征在于，步骤2. 3的具体方法为：步骤2. 3. 1，按照非空组binp的频数nump大小，以降序方式对hxy(Sp)中的所有非空组进行排序；步骤2. 3. 2,初始化topn=1 ; 步骤2. 3. 3,取hxy(Sp)的前topn个非空组binp，采用步骤2. 1的方法构造hxy(Sp)的前topn个非空组binp的近似直方图
，计算
步骤2. 3. 4,取前topn+1个非空组构造近似直方图，采用与步骤2. 3. 3相同的方式计算出新的Ln? (hxy (Sp))，
，若Ln? (hxy (Sp))大于 L(hxy(Sp))，贝ljLn?(hxy(Sp))为事件到达间隔直方图hxy(Sp)的编码长度，计算结束；否贝IJ，topn=topn+1，跳转到步骤 2. 3. 2,直到ftp? =Cj。
7. 根据权利要求1所述的基于事件关系网络的事件摘要方法，其特征在于，步骤3的具体步骤为：步骤3. 1，获取事件序列D中仅包含一种事件类型的m个子序列，其中m为事件类型的总个数；获取事件序列D中包含两种事件类型的m2-m个子序列，将m2个子序列构成集合SubD;对于任意一个子序列S\lG[l，m2]中的事件片段式，S1GSubD,采用五元组 (446,刻画事件片段驽中蕴含的事件模式，其中t和 < 分别表示该模式所刻画的事件序列的开始时间戳和结束时间戳，wp表示事件类型为ex和ey的事件到达间隔长度；步骤3. 2,初始化事件序列D蕴含的事件模式集i? = 0 ; 步骤3. 3,构造子序列S1对应的有向直方图图MK#)，其中V1是顶点集，E1是边集；顶点集的大小f1=4,其中必是子序列^中事件类型ex和ey的事件之间的到达间隔的总个数；对于任意的两个顶点和蛤，，以顶点必:为起点，以顶点为终点构成事件片段按照公式②计算事件片段笔的事件到达间隔直方图的编码长度丨作为这条边的权值，添加一条边、到边集E1 ; 步骤3. 4,采用最短路径算法Dijkastra查找直方图图上从第一顶点到第顶点弋的所有路径中的最短路径^^1^)，/^/< <^卜(￥2，-*，4，.*#，\)，则子序列《的最佳事件片段划分为S1 = {<V"v2 >，<v2,v3 >，--?，<vw，v(w+1) >，--,<vz,Cxy > }; 步骤3. 5,按照步骤2. 3计算任意的子序列S1的每个划分对应的近似直方图，表示事件片段< 蕴含的事件模式，并将该事件模式添加到事件模式集R; 步骤3. 6，SubD=SubD-tS1}，若转到步骤3. 3,对任意的新子序列进行步骤 3. 3至步骤3. 5的计算过程；否则结束步骤3。
8.根据权利要求1所述的基于事件关系网络的事件摘要方法，其特征在于，步骤4的具体步骤为：步骤4.1，定义事件关系网络可为ERN= (V'，E'），其中顶点集V'表示事件模式集R中涉及到的所有事件类型集=fehE'表示事件类型之间的关系，对于任意的两个顶点 ex'GV'和ey'GV'，边其中w表示边的权值；步骤4. 2,识别事件模式集R中涉及到的所有事件类型集e'，使得V' =e' ；步骤4. 3,遍历事件模式集R，对于任意的事件模式epGR，若ep仅包含事件类型exGV'，则印是周期性模式，添加边〃,一到边集E'，其中印?wp表示事件模式印中事件重复出现的周期值；若ep包含事件类型ex，eyeV'，且ex尹ey，则印是相关性模式，添加边'g,..........輕.......到边集E'，其中印?wp表示事件模式ep中事件类型为ex的事件出现后事件类型为ey的事件的到达间隔；步骤4. 4R=R- {印}，若i? = 0，则结束，否则跳转到步骤4. 3。
【文档编号】G06F19/00GK104408294SQ201410607163
【公开日】2015年3月11日申请日期:2014年10月31日优先权日:2014年10月31日
【发明者】徐建, 李涛, 许福, 张琨, 张宏, 李千目, 陈龙, 范志凯, 吴旺文, 费薇申请人:南京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐建;李涛;许福;张琨;张宏;李千目;陈龙;范志凯;吴旺文;费薇;
技术所有人：南京理工大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。