一种挖掘时序相关事件之间的距离的方法

文档序号:9524215阅读:296来源:国知局
一种挖掘时序相关事件之间的距离的方法
【技术领域】
[0001] 本发明涉及一种数据挖掘领域中挖掘时序相关事件之间的距离的算法,特别是针 对距离大小不确定的情况下可采用的挖掘方法。
【背景技术】
[0002] 时序数据普遍出现在商业、系统管理、医疗保健和许多科学领域。时间数据挖掘中 的一个根本的问题是在顺序数据中发现隐藏的时序相关事件。在时间数据挖掘中,输入的 数据通常是一个序列的带有时间戳的离散对象。时序相关事件通常被用于预测,相关的时 间间隔表明了时序依赖的原因。
[0003] 现有技术方法,并未考虑交叉相关性。传统的时序挖掘方法使用一个预定义的时 间窗口分析对象序列,或采用统计技术从对象中简单地推导出时序相关事件。送种模式不 能有效地处理有着特殊属性的不同数据。
[0004] 因此,如何在两个相关类型的对象中找到合理的时间间隔非常重要,相关算法的 研究和性能分析具有重要意义。

【发明内容】

[0005] 本发明的目的在于针对现有方法的不足,提供一种挖掘时序相关事件之间的距离 的方法,该算法能够高效地发现时序相关事件之间的距离,提供一个解决问题的广义框架。
[0006] 本发明的技术方案是;一种挖掘时序相关事件之间的距离的方法,其特征在于步 骤如下: 1) 构造一个排序表作为基础,此排序表是包含一系列有序整数数组的有序链表; 2) 把一个时间间隔 (61?? 一轉知:!存储到排序表的一个结点中,其中輪二涕,聲;二潜,i和J是1到N之 间的一个整数; 3) 在结点-成切上连接两个数组,两个数组分别是是i和J的集合,即A和B的指数; 4) 记羁;为链表的第i个结点,在羁;中存储时间间隔记为#賴註; 5) 在链表上选取子段表示时序相关事件之间的距离,任何合理的距离都可W表示为一 个链表的子段。
[0007] 进一步地,步骤5中所述的子段,记为时间间隔
,时间间隔的长度是

是不依赖于N的,其中W是数据序列中对象的个数。
[000引进一步地,通过合并A的所有时间间隔来进行创建一个排序表的链表,其中和 彎代表着第i个A和第J个B,i談奋;:主混,",聲链的第J个结点存储着寬|璋| -史||||。
[0009] 本发明的有益效果在于: 本发明提出的两种算法顏藻燃施和魏簽色摄澈可W在两个相关类型的对象中找到合理 的时间间隔,可W有效地处理有着特殊属性的不同数据,且具有有效性和高效率。
【附图说明】
[0010] 图1是本发明所使用的分类表。
[0011] 图2是本发明的胃帛缉游薦:法的伪代码。
[0012] 图3是增量排序表。
[0013] 图4是嵌入的时序相关事件列表。
[0014] 图5是构造数据上的运行时间。
[0015] 图6是发现的带有时间间隔的时序相关事件。
[0016] 图7是数据集Account2上的实验结果图。
[0017] 图8是数据集Account2上算法的时间复杂度。
【具体实施方式】
[0018] 下面将结合实施例对本发明作进一步地描述。 实施例
[001引使用如图1分类表的时间间隔发现算法一ST说算法,ffffp算法的伪代码 如图2所示,记虹w算法的伪代码描述了如何寻找所有合格的时间间隔。醇gig表示的是 有序表ST中链表的结点数量。算法顺序扫描所有字段義;.礙但只扫 描长度画換,闺線轉的子段。
[0020] 錢;Ip自常法的时间复杂度为稱;11:?,其中yV是数据序列中对象的个数。对于 每个链表上的对象。,使用哈希表把編与緩^+;和并到獻,和攘,惭时间成本分别是 |Mw|和I.巧巧I。记为从穩开始扫描的子段的最大长度记:为!S,?;: 一I: 觸錄鲁: 的最大长值,总的时间成本为:

是所有整数数组中正整数的个数。对于 一个给定的有Ν个对象的序列S,其分类表的空间复杂度是,则
记累括;義妈巧:: 为一个合理的时间间隔的子段,> 0j=扫,...,Κ时间间隔的长度是
并且^^^是不依赖于N的。 假设^店
的平均值,我们得到一个 的严格约束,也就是,
因此,总的时间复杂度是
[0021] 一个完整的分类表的空间开销是0(如^)。算法象东顯凌捷从:?到變顺序 扫描子段,所W它不需要每次都访问每一个项目。基于送一观察,在類驟賴I旅算法的基础 上,为了降低其空间复杂度,利用增量分类表和序列压缩进一步提出了一种改进的算法 STScGjf 如图3所示,一个排序表的链表可W通过合并A的所有时间间隔来进行创建,其中誘i和霉代表着第i个A和第j个B,蛛詳謡識辦的第j个结点存储着讀嚇一;嚷|| 。因为我们只需要知道||||和||^|,所WA的所有时间间隔列表并不需要被创建在内存 中。送可W通过分别使用A和B的指数阵列来完成。利用多路归并算法,链表的每一个结 点都可W被顺序创建。在合并过程中,A和B的指数同样会被记录在结点中。一个合格的 时间间隔的长度多为,因此,我们只需注意接近^群辕的结点。错点的存储空间 复杂度多为琢媒胃:減绿錢强。合并过程中使用的堆的空间复杂度为礙I赞。增量排 序表的总空间复杂度为爲。把録^胃3个元素合并到孩PI个链表的总时间复杂度仍为 採if凌礙蘇::幾I:。
[0022] 在许多实际应用中,有些对象可能共享相同的时间戳,因为他们是在同一个采样 周期内采样的。为了降低时间复杂度,我们将序列S压缩成的一个紧凑的序列的S'。对于 序列S中的每一个时间戳t,如果有k个I型对象,就在序列S'中添加一个S元组級;&聚), 其中k是Η元组的基数。为了处理S',本发明的算法只需要分别针对|爲;^:和F%.把和 |:至%1设为Η元组的基数。易知,s'比S更紧凑。s'有遂个Η元组,其中η是序列S中 不同时间戳的数量,揉滤藏。创造的S'的时间复杂度为録ΡΙ,通过使用的S',潑送綺線Κ 的时间复杂度为餐I浓争嫉城賓巍:|,增量排序表的空间复杂度为鶴誘>
[0023] 合成数据包含7个数据序列,每个数据序列是先是一个包含8种对象类型的随机 生成的项目序列,简记为/.1,、、., ./g,对象的平均样本期为100。如图4所示,Η个预定义的时 序相关事件被随机嵌入到每个随机序列中。对于每一个时序相关事件暫,我们首 先随机选择一个对象滚^和一个整数|;复i輸違I],然后让菜&二:義,记为在笨藻去:悉上的 对象。我们重复送一过程直到和支持度大于指定的阔值,其中,送些时间间隔大于对 象的平均采样周期,所W送Η个时序相关事件很可能有交叉相关性。
[0024] 1.有效性 通过对比发现结果和嵌入式时间间隔的结果,验证了该算法的有效性。不需要要求精 度,因为只要算法正确,每个算法都可W达到100%的精度。取秦f桌速猿窃柔,送代表着99. 9 %的置信水平,繊嫌城P知获柔。瑟鱗鷄說算法和玄驟撫张算法都能找到所有嵌入的时间 间隔。因此,本发明算法的发现率为1.0。
[00巧]2.效率 如图5所示,使用CPU运行时间评估效率,在如图6所示的两个数据集上进行试验,图 7为实验结果的直观表示图。作为对比的銳籍耗鑽舞織I算法是一种线性算法,所W它比其 他算法快得多;记-./'or。?算法的运行时间增大得非常快,它只能处理很小的数据集; 通过加入关于駭繼I;剪枝策略,擬病敏算法比燃1播範.f蜘蜘.算法快一点,但它仍 然只能处理小数据集。凝纖!综紙算法在发现时间间隔前压缩序列,因此,凝纖!综紙算法比 塞1?蟲款算法效率更高一点。
[0026] 57'5'郎;巧算法未能在更大的数据集上成功测试,因为它导致了内存溢出。图8 列出了在化va堆内存分配对象的近似的峰值(不包括数据序列)。送证实了分类表需要 好(兴2 )的空间复杂度。它也表明,袭聚霸挺紙、孩織総-齊綠接.、換識龙套窃線挨*的空间复杂 度都为辕β:。假设每个·?3ν3对象只占一个整数(8字节),然潔自每鼓将为:S戳滅逢獲3个对象 花费超过10G字节内存。因此,它在数据增多时造成了内存溢出。然而,通过使用增量分类 表,对相同的数据集,鐵難每漱仅需要10Μ的空间。
【主权项】
1. 一种挖掘时序相关事件之间的距离的方法,其特征在于步骤如下: 1) 构造一个排序表作为基础,此排序表是包含一系列有序整数数组的有序链表; 2) 把一个时间间隔::存储到排序表的一个结点中,其中i和J是1到N之 间的一个整数; 3) 在结点上连接两个数组,两个数组分别是是i和J的集合,即A和B 的指数; 4) 记_为链表的第i个结点,在_中存储时间间隔记为; 5) 在链表上选取子段表示时序相关事件之间的距离,任何合理的距离都可以表示为一 个链表的子段。2. 根据权利要求1所述的一种挖掘时序相关事件之间的距离的方法,其特征在于:步 骤5中所述的子段,记为,时间间隔,时间间隔的长度 是:是不依赖于Ν的, 其中#是数据序列中对象的个数。3. 根据权利要求1所述的一种挖掘时序相关事件之间的距离的方法,其特征在于:通 过合并Α的所有时间间隔来进行创建一个排序表的链表,其中_丨和参|代表着第i个Α和第链的第J个结点存储着
【专利摘要】本发明公开了一种挖掘时序相关事件之间的距离的方法,其包括步骤如下:1)构造一个排序表作为基础,此排序表是包含一系列有序整数数组的有序链表;2)把一个时间间隔存储到排序表的一个结点中,其中,,<i>i</i>和<i>j</i>是1到N之间的一个整数;3)在结点上连接两个数组,两个数组分别是是<i>i</i>和<i>j</i>的集合,即A和B的指数;4)记为链表的第<i>i</i>个结点,在中存储时间间隔记为;5)在链表上选取子段表示时序相关事件之间的距离,任何合理的距离都可以表示为一个链表的子段。本发明提出的两种算法和可以在两个相关类型的对象中找到合理的时间间隔,可以有效地处理有着特殊属性的不同数据,且具有有效性和高效率。
【IPC分类】G06F17/30
【公开号】CN105279179
【申请号】CN201410317992
【发明人】李涛, 李千目, 朱凌峰, 徐建, 侯君, 倪震, 刘晓迁
【申请人】南京理工大学常熟研究院有限公司
【公开日】2016年1月27日
【申请日】2014年7月7日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1