基于夹角dtw距离的卫星遥测数据自适应层次聚类方法

文档序号:9327377阅读:517来源:国知局
基于夹角dtw距离的卫星遥测数据自适应层次聚类方法
【技术领域】
[0001] 本发明涉及一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法。
【背景技术】
[0002] 聚类功能是数据挖掘领域中一项重要的基本功能,在聚类的基础之上可以完成多 种数据挖掘任务,比如异常检测、模式挖掘等等。同时,由于卫星遥测数据有其自身特点,比 如:参数多、维度高、存在漂移等,这些特点致使在针对卫星遥测数据的数据挖掘工作中需 要应用更为合理的时间序列相似性度量方法。针对一些复杂或者特点不尽相同的卫星遥测 数据,选取适当的时间序列相似性度量方法,可以确保相应的模式挖掘取得更为良好的效 果。
[0003] 卫星遥测数据分段后的序列是典型的时间序列具有动态变化、存在微小偏差的特 点,而传统的欧式距离是以点距离为基础的,而点距离只能度量时间序列的静态特性,无法 有效体现时间序列的动态特性,同时,针对存在偏差的时间序列需要采用能够实现异步度 量的度量方法,欧式距离同样无法实现,故传统的欧式距离不适用于卫星遥测数据分段后 的时间序列的相似性度量。
[0004] 另一方面,传统的层次聚类方法存在需要人工设定聚类数目的缺陷,若聚类数目 设定不当将会使得聚类结果不够理想。

【发明内容】

[0005] 本发明的目的是为了解决传统的欧式距离存在不适用于卫星遥测数据分段后的 时间序列的相似性度量和传统的层次聚类方法存在需要人工设定聚类数目的问题,而提出 一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法。
[0006] 一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,所述聚类方法通过 以下步骤实现:
[0007] 步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类 别标签的原始时间序列X。= {X(]1,,…,X1J ;其中,η为大于0的正整数,表示时间序列数 目;
[0008] 步骤二、依据原始时间序列的特征,引入时间变量,对无类别标签的原始时间序列 重新进行表示,得到基于数值与时间表示的时间序列集合X= (X1,X2,…,XJ ;其中,
[0009] Xi= {(X L),(xi2, ti2),…,(xim, tim)},表示用数值与时间表示的时间序列集合 X中的第i个序列,i = 1,2,···,η,πι表示时间序列长度;
[0010] 步骤三、在数值与时间表示的时间序列集合X基础上,用相邻线段间的夹角构成 的角度序列近似表示得到角度表示的序列集合t ={Χ/,Χ2',···,Χη' };其中,
[0011] X/ = {aj,αι2',···,Cii0ii2/ },表示角度表示的序列集合X'中的第i个 序列;
[0012] 步骤四、将角度表示的序列集合t中的序列成员t p 作为计算序列成 员之间夹角DTW距离的输入,得到序列成员之间夹角DTW距离Cllj= DTWla(X' u ρ, 遍历所有成员,从而得到由所有的序列成员之间的夹角DTW距离构成的nXn距离矩阵
[0013] 步骤五、将每个无类别标签的角度表示的序列集合X'的成员归为一个类,共得到 η个类,每个类仅包含一个对象,类与类之间的距离就是序列成员之间的夹角DTW距离,并 令R j (n) = 0以保证不会将类别数为η的情况视为最佳聚类数目,Rj为类间类内距离比值 序列,用于评估聚类质量,R 1序列长度为n,R : (η)表示R1中的第η个元素;
[0014] 步骤六、将夹角DTW距离最小的两个类作为最接近的两个类进行合并,形成一个 新类,则类的总数减少一个,此时类别数目为j',计算加权类间夹角DTW距离与加权类内夹 角DTW距离之间的比值,即类间类内距离比R 1 (j');
[0015] 步骤七、将步骤六中未合并的类作为旧类,重新计算新类与所有旧类之间的夹角 DTW距离,更新距离矩阵;
[0016] 步骤八、重复步骤六和步骤七的过程,对所有可能的类别都遍历一遍直到合并成 一个类别为止,并令R1(I) = 〇以避免将类别数为1的情况视为最佳聚类数目;
[0017] 步骤九、获取&序列中前半段序列
的最大值I^(C);其 中,最大值R1 (C)对应的c即为最佳的聚类数目,并获得对应c类的角度表示的序列集合X' 聚类后类别标签L = ΙΛ,I2,…,IJ,完成自适应层次聚类过程。
[0018] 本发明的有益效果为:
[0019] 本文根据卫星遥测数据的周期特性对卫星遥测数据进行分段,分段后得到的子 序列具有存在微小偏差的特点;再采用能够实现异步度量的动态时间规整(Dynamic Time Warping,DTW)距离对卫星遥测数据时间序列转换后得到的夹角序列进行度量,结合自适应 层次聚类算法对卫星遥测数据历史数据进行聚类,得到卫星正常运行模式。各部分的具体 发明效果如下:
[0020] 首先,采用夹角DTW距离对卫星遥测数据分段后的时间序列之间的距离进行度 量,能有效体现时间序列的动态特性同时实现异步度量,解决了由于时间序列存在微小偏 移而使度量结果不够确的问题。
[0021] 其次,针对层次聚类需要人工设定聚类数目的问题,提出了一种以类间类内距离 比值为评价标准的自适应层次聚类方法,使层次聚类算法能够自动确定最优类别数目,避 免了由于人工设定聚类数目不当的情况导致的聚类结果以及异常检测结果不够理想的问 题。
【附图说明】
[0022] 图1为本发明基于夹角DTW距离的卫星遥测数据自适应层次聚类方法的流程框 图;
[0023] 图2为选择FaceUCR数据集对公开数据集进行验证的结果;
[0024] 图3为选择SonyAlBORobotSurface数据集对公开数据集进行验证的结果;
[0025] 图4为选择fish数据集对公开数据集进行验证的结果;
[0026] 图5为选择TwoLeadECG数据集对公开数据集进行验证的结果;
[0027] 图6为进行自适应层次聚类方法的有效性验证仿真数据;
[0028] 图7为对仿真数据采用自适应层次聚类的处理结果的聚类质量曲线;
[0029] 图8为仿真数据进行聚类的聚类结果;
[0030] 图9为针对卫星遥测数据开展基于夹角DTW距离的自适应层次聚类方法应用实验 数据示例;
[0031] 图10为采用基于夹角DTW距离的自适应层次聚类方法将飞轮转速D测试参量的 20个时间序列识别为两类的示意。
【具体实施方式】
【具体实施方式】 [0032] 一:
[0033] 本实施方式的一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,如图 1所示的流程图,所述聚类方法通过以下步骤实现:
[0034] 步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类 别标签的原始时间序列X。= {X(]1,,…,X1J ;其中,η为大于0的正整数,表示时间序列数 目;
[0035] 步骤二、依据原始时间序列的特征,引入时间变量,对无类别标签的原始时间序列 重新进行表示,得到基于数值与时间表示的时间序列集合X= (X1, X2,…,XJ ;其中,
[0036] Xi= {(X L),(xi2, ti2),…,(xim, tim)},表示用数值与时间表示的时间序列集合 X中的第i个序列,i = 1,2,···,η,πι表示时间序列长度;
[0037] 步骤三、在数值与时间表示的时间序列集合X基础上,用相邻线段间的夹角构成 的角度序列近似表示得到角度表示的序列集合t ={Χ/,Χ2',···,Χη' };其中,
[0038] X/ = {aj,αι2',···,Cil0ii2/ },表示角度表示的序列集合X'中的第i个 序列;
[0039] 步骤四、将角度表示的序列集合t中的序列成员t p ^乍为计算序列成 员之间夹角DTW距离的输入,得到序列成员之间夹角DTW距离Cllj= DTWla(X' u j), 遍历所有成员,从而得到由所有的序列成员之间的夹角DTW距离构成的nXn距离矩阵
[0040] 步骤五、将每个无类别标签的角度表示的序列集合t的成员归为一个类,共得到 η个类,每个类仅包含一个对象,类与类之间的距离就是序列成员之间的夹角DTW距离,并 令R j (n) = 0以保证不会将类别数为η的情况视为最佳聚类数目,Rj为类间类内距离比值 序列,用于评估聚类质量,R 1序列长度为n,R : (η)表示R1中的第η个元素;
[0041] 步骤六、将夹角DTW距离最小的两个类作为最接近的两个类进行合并,形成一个 新类,则类的总数减少一个,此时类别数目为j',计算加权类间夹角DTW距离与加权类内夹 角DTW距离之间的比值,即类间类内距离比R 1 (j');
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1