一种多度量时间序列相似分析方法

文档序号:6516557阅读:238来源:国知局
一种多度量时间序列相似分析方法
【专利摘要】本发明公开一种多度量时间序列相似分析方法,适用于时间序列的k-近邻查询。根据分析需求选择多个单一相似度量方法,分别利用各单一相似度量分析查询序列的m-近邻序列或子序列;对各相似度量下的m-近邻序列或子序列进行修剪,得到候选相似序列或子序列;利用带优势权重的多分类器组合法对候选相似序列或子序列进行组合得到查询序列的k-近邻序列。相对于单一相似度量,多度量组合的相似分析能够得到更加全面的分析结果。带优势权重的多分类器组合法在借鉴BORDA计数法的同时,利用相邻候选相似序列或子序列与查询序列的相似距离的差异对排序得分进行调整,以反映候选相似序列或子序列相似的具体差异。
【专利说明】一种多度量时间序列相似分析方法
【技术领域】
[0001]本发明涉及一种多度量时间序列相似分析方法,尤其是能够进行多度量组合的k-近邻相似时间序列分析的方法,属于数据挖掘【技术领域】。
【背景技术】
[0002]时间序列相似性查找就是在时间序列数据库中查找和发现与给定模式相似的时间序列,查找相似子序列的过程在实际问题中经常遇到,例如,在人类的基因组计划中,从DNA基因序列中查找出与给定的基因片段相似的子片段,根据遗传的相似性进行研究;根据各种商品的销售记录,找出具有相似的商品销售模式,根据相似产品的销售模式来制定相似的销售策略等;找出自然灾害发生的相同前兆,从而对预报自然灾害进行决策研究;在水文领域,找出与当前洪水过程相似的历史洪水过程,回答防汛指挥中经常会想到的“当前水文过程与历史上哪一时期的水文过程类似”等问题。
[0003]相似性搜索在1993年由R.Agrawal首次提出,他是时间序列预测、分类、聚类以及序列模式挖掘等等的重要基础。时间序列相似性查找与传统的精确查询不同,由于时间序列在数值上具有连续性以及有不同的噪声影响,因此,大部分情况下不需要时间序列很精确匹配。另一方面是时间序列相似性查询不是针对时间序列中的某个具体的数值,而根据给定的查询序列来找查找是在一段时间内具有相似形态特征和变化趋势的时间序列。在时间序列相似性搜索中,需解决的问题包括时间序列特征提取、时间序列索引以及相似度量等。针对相似度量,研究人员提出了各种度量方法,如欧氏距离及其基于Lp准则的变种、动态时间弯曲距离(Dynamic Time Warping, DTW)、编辑距离(Edit Distance, ED)、模式距离(Pattern Distance, PD)、以及最长公共子串(Longest Common Subsequence, LCSS)等。
[0004]目前时间序列相似性搜索大多采用单一相似度量来评价序列之间的相似性,每个相似度量只从某个角度评价序列之间的相似程度,如,模式距离、斜率距离等从序列形态角度考虑相似,欧式距离则从序列取值的实际大小考虑相似,动态时间弯曲DTW可以忽略序列在时间上的扭曲。在实际使用时发现,往往运用单一的相似度量模型,不能同时从多个角度对时间序列相似性进行多角度评价,反馈的结果往往不准确,不能满足用户对时间序列相似性的综合评价。模式识别与机器学习研究领域,有一个很重要的问题就是多分类器的组合问题,目前众多的研究表明,多分类器组合能获得比单个基分类器更好的效果,多个分类器组合在一起的决策结果,往往比单个分类器给出决策结果更有说服力,它可以集中各个基分类器的优点,从而更好的引导我们的进行决策。在时间序列相似性分析研究领域,多度量组合进行相似性分析目前文献较少。Fabris F提出一种基于权重的多度量时间序列相似性分析[Fabris F,Drago I, Varejao F M.A mult1-measure nearest neighboralgorithm for time series classification.Advances in Artificial Intelligence -1BERAMIA2008.Springer Berlin Heidelberg, 2008:153-162.],采用启发式搜索确定各度量的权重,相似距离为各度量距离的加权和,该方法需要花费大量时间寻求最优的权重向量,同时需要预先确定训练集。本发明借鉴BORDA计数法并对其进行改进,提出带优势权重的多分类器组合法,然后对多相似度量产生的候选相似序列(子序列)进行组合排序,以获取最终的相似序列(子序列)。

【发明内容】

[0005]发明目的:本发明提供一种多度量时间序列相似性分析方法,提高时间序列相似性分析的效率。
[0006]为了实现上述目的,本发明借鉴BORDA计数法并对其进行改进,提出带优势权重的多分类器组合法以适应对各单一相似度量的相似序列(子序列)进行组合排序的需求,并在此基础上提供了一种多度量时间序列k-近邻分析方法。时间序列相似性分析从被查询的对象来分可以包括全序列查询(Whole Match)和子序列查询(Subsequence Match)。全序列查询,即待查时间序列中包括多个等长或不等长的时间序列,指定查询序列,从待查序列中查找与查询序列相似的序列。子序列查询,即从一个长的待查时间序列中查找与指定查询序列相似的子序列,结果包括各相似子序列在待查序列中的偏移位置。本发明的多度量时间序列相似性分析方法适用于全序列和子序列的k-近邻查询。
[0007]技术方案:一种多度量时间序列相似分析方法,包括以下步骤:
[0008]借鉴并改进BORDA计数法,提出带优势权重的多分类器组合法,在对多个单一相似度量产生的候选相似序列(子序列)进行组合时,采用各候选相似序列(子序列)之间的定量差距对其排序得分进行加权,从而在排序得分中体现不同候选相似序列(子序列)的具体差距,候选相似序列(子序列)排序得分的累计称为该候选相似序列(子序列)的相似得分,对候选相似序列(子序列)按照相似得分从高到低排序,得到候选相似序列(子序列)的最终排序;根据具体相似性分析需求(如,形态相似、时间方向可扭曲等)从已有的时间序列相似性度量中选择多种单一相似度量作为基分类器;利用选择的相似度量方法对待查时间序列进行相似性分析,得到m-近邻序列(子序列),m的取值要略大于最终的k ;由于各单一相似度量产生的相似序列(子序列)一般不具有相同起始时间,因此对相似序列(子序列)进行修剪,将各单一相似度量产生的相似序列(子序列)中在时间上重叠超过序列长度一半的序列进行对齐,删除出现次数少于相似度量数一半的时间段内的相似序列(子序列),得到候选相似序列(子序列),包括序列分组预处理、对齐重叠序列、删除孤立序列以序列重新排序;利用带优势权重的多分类器组合法对候选相似序列(子序列)进行组合排序,按照候选相似序列(子序列)的相似得分从高到低排序,取排名前k个序列,得到最终的k-近邻序列(子序列)。
[0009]有益效果:与传统的单一相似度量相比,本发明可以同时考虑多方面的相似性因素,使得相似结果能够反映用户对结果的综合评价;本发明与Fabris.F的方法相比,能够在没有训练数据集的情况下对多度量结果进行组合;本发明与传统BORDA计数法相比,传统BORDA计数法对候选人的排序得分为第一名得η分,第二名得η_1分,依次降低,最后一名得I分。排序得分没有反映排名前后的候选相似序列(子序列)之间的具体差距大小,造成某些情况下不能很好的对候选相似序列(子序列)进行排序。带优势权重的多分类器组合法根据各单一相似度量产生的候选相似序列(子序列)与查询序列之间的相似距离对候选序列(子序列)的排序得分进行加权,使得排名先后的序列之间的排序得分能够更加具体的反映其与查询序列之间的相似差距,得到的相似序列(子序列)的最终更加精确。【专利附图】

【附图说明】
[0010]图1为本发明实施例的多度量时间序列相似性分析方法模型图;
[0011]图2为本发明实施例的多度量时间序列相似性分析方法相似查询的流程图;
[0012]图3为本发明实施例的多度量时间序列相似性分析方法的用于k_近邻子序列查询的相似子序列修剪示意图;
[0013]图4为本发明实施例的多度量时间序列相似性分析方法的用于k_近邻全序列查询的相似序列修剪示意图;
[0014]图5为实验的单洪峰洪水过程相似查询结果图,其中(a)欧式距离相似子序列和查询序列的比较,(b) DTff距离相似子序列和查询序列的比较,(c)斜率距离相似子序列和查询序列的比较,Cd)带优势权重的多分类器组合法的多度量相似子序列和查询序列的比较,(e) BORDA计数法的多度量相似子序列和查询序列的比较;
[0015]图6为实验的双洪峰洪水过程相似查询结果图,其中(a)欧式距离相似子序列和查询序列的比较,(b) DTff距离相似子序列和查询序列的比较,(c)斜率距离相似子序列和查询序列的比较,Cd)带优势权重的多分类器组合法的多度量相似子序列和查询序列的比较,(e) BORDA计数法的多度量相似子序列和查询序列的比较。
【具体实施方式】
[0016]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0017]本发明针对k_近邻搜索问题,即查询与指定序列最相似的前k个序列(子序列)。从分类角度来看,k-近邻相似搜索可以视为采用相似度量将时间序列划分为第I相似序列
(子序列)、第2相似序列(子序列).....第k相似序列(子序列)以及不相似序列(子序列)。
采用多个单一相似度量进行相似搜索相当于采用多个分类器对时间序列进行分类。目前众多的研究表明,多分类器组合能获得比单个基分类器更好的效果,多个分类器组合在一起的决策结果,往往比单个分类器给出决策结果更有说服力,它可以集中各个基分类器的优点。
[0018]如图1所不的多度量时间序列分析方法模型图中,利用多个相似度量分别对时间序列进行相似查询,然后采用带优势权重的多分类器组合法对各相似度量的查询结果进行组合得到最终的相似时间序列。模型共包含三个部分,第一个部分是待查时间序列和查询时间序列的输入,以及选择参与组合的多个单一相似度量;第二个部分是分别采用不同的单一相似度量算法(相当于基分类器)对输入时间序列进行相似性分析,获得查询序列的m-近邻相似序列(子序列);第三部分对第二部分输出的相似序列(子序列)进行修剪,产生候选相似序列(子序列),运用带优势权重的多分类器组合方法对候选相似序列(子序列)进行组合排序,选择排序前k的序列(子序列),得到最终的k-近邻序列(子序列)。
[0019]作为基分类器的各单一相似度量是根据分析的需求(如,形态相似、时间方向可扭曲等)从已有的相似度量中由用户选择。采用单一相似度量进行时间序列相似性分析的步骤为:根据相似度量的要求,提取时间序列特征,建立时间序列索引,结合相似度量,分析查询序列的m-近邻序列(子序列),m取值要大于k,以保证在对m-近邻时间序列进行修剪时,能够得到大于k个的候选相似序列(子序列)。
[0020]由于各单一相似度量产生的相似序列(子序列)一般不具有相同起始时间,因此要对单一相似度量产生的相似序列(子序列)进行修剪。将各单一相似度量的m-近邻序列(子序列)中时间上重叠超过序列长度一半的相似序列(子序列)进行对齐,删除出现次数少于相似度量数一半的时间段内的相似序列(子序列),以得到候选相似序列(子序列),具体步骤包括:序列分组预处理、对齐重叠序列、删除孤立序列以序列重新排序,假设参与组合的单一相似度量个数为d,相似序列(子序列)的长度为I。①序列分组预处理:对所有相似序列(子序列)进行分组,满足一组序列中,对于任意一个序列(子序列),都能够在组内找到至少一个和它时间上重叠超过序列长度一半的序列(子序列),而在其他组中找不到与其时间上重叠超过序列长度一半的序列(子序列)。若某相似序列(子序列)不和其他任何序列(子序列)存在时间上重叠超过序列长度一半的情况,则将该相似序列单独作为一组对待。②对齐重叠序列,对①中产生的序列组,若组中序列个数超过相似度量个数d的一半(即有超过一半的单一相似度量认为该段序列与查询序列相似),则对该组序列进行对齐。在子序列查询和全序列查询中,对齐操作有所不同,在子序列查询中,对齐方法为:计算该组所有序列起始时间的平均时间t,在待查时间序列以t作为起始时间,截取长度为I的子序列,得到候选相似子序列。在全序列相似分析中,各单一相似度量产生的相似序列之间重叠的情况只有完全重叠和不重叠两种。从各单一相似度量角度看,设定候选相似序列(子序列)与被对齐的相似序列(子序列)具有和查询序列相同的相似距离。在对齐重叠相似序列(子序列)时,若一组重叠的相似子序列个数多于相似度量个数一半,但是少于相似度量个数,则对齐得到的候选相似序列(子序列)也增加为剩余单一相似度量的相似序列(子序列),并利用单一相似度量计算其与查询序列的相似距离。③删除孤立序列:对①中产生的序列组,若组中序列个数少于相似度量个数一半,则删除该组内所有相似序列(子序列),在后继的排序中不再考虑。④序列重新排序:针对各单一相似度量,由于存在新增相似子序列以及删除了孤立的相似子序列,因此,对每个单一相似度量,对候选相似序列(子序列)重新排序。
[0021]带优势权重的多分类器组合法借鉴传统的投票表决法BORDA计数法,同时针对BORDA计数法存在的问题,对其进行改进,计算简单,更重要的优点是不需要训练集合。根据传统BORDA计数法,假设k为最终的相似序列(子序列)数,m为候选相似序列(子序列),η个相似度量都通过相似程度由高到低的顺序对全体候选相似序列(子序列)进行排序来表示他的偏好。针对每个相似度量的排序,给每个候选相似序列(子序列)设定一个排序得分,规定排在最后的候选相似序列(子序列)的排序得分为I分,倒数第2位的候选相似序列(子序列)为2分,依次类推,排在第I位为m分,候选相似序列(子序列)的排序得分的累积称为相似得分,相似得分进入前k名的候选相似序列(子序列)为k-近邻序列。但是传统的排序得分设置只是考虑所有候选相似序列(子序列)的排序信息,没有考虑候选相似序列(子序列)之间的具体相似程度的差异,这样,在各单一相似度量对候选相似序列(子序列)的排序差异较大时,可能造成不能准确的反映候选相似序列(子序列)之间的相似程度差异。因此需要考虑候选相似序列(子序列)排序的完备信息,即对候选相似子序列的排序包括:前后顺序以及前后候选相似子序列与查询序列之间相似程度的差异大小。
[0022]本发明中的带优势权重的多分类器组合法通过在组合过程中给每个单一相似度量(基分类器)的查询结果赋给相应的权重,称为优势权重,记作ω,来调节其排序得分,以反映排序前后的候选相似序列(子序列)相似程度的差异。
[0023]优势权重反映的是在基分类器中相邻的两个候选相似序列(子序列)在相似度排序时的差距。假设已知一个查询序列Q,运用某种相似度量(例如欧氏距离度量、DTW、斜率距离等)得到前m个相似的时间序列,编号为Si(i=l,2,...,m),每个相似序列与查询序列的相似距离记作为(IiQ=I, 2,...,m),即,当i>j (i=l, 2,..., m)时,满足(IiMj,也即是(IiQ=I, 2,...,η)具有单调性,记Λ φ=φ+1-φ>0(?=1, 2,...,m-1),当Λ (Ii 越大时,反映的物理意义就是相似序列(子序列)Si+1和Si相对于同一个查询序列Q,相似性差别越大,反之差别越小。优势权重,记作为ω,其通过公式(2)计算。

[0024]<af =AdiI^Adl(2)


i=l
[0025]其中< 表示第k个相似度量中相似序列(子序列)Si相对于Si+1的相似优势权重。
第k个相似度量查询结果中,第i个相似序列(子序列)Si带优势权重的排序得分由公式(3)表不:
? =?ι-1(3)
[0026]\ '
(麗一I = 1s2**-5w-1
[0027]候选相似序列(子序列)的相似得分为该候选相似序列(子序列)在所有相似度量中的排序得分总和。即,假设某时间序列出现在m个相似度量的候选相似序列(子序列)中,且在每个相似度量中的排序得分分别为r2,…,rm,那么该相似序列(子序列)的相似得分
m
为Σο。根据相似得分排名,最终相似得分最高的那个时间序列(子序列)即为与查询序列
/-1
最相似的序列。
[0028]特别的,在第k个相似度量的候选相似时间序列中,当Λ Cl1= Δ d2=...= Λ CU时,即CO1=CO2=GV1=IAm-1)时,此时排序第i个候选相似序列(子序列)排序得分为:
[0029]rf = if, — (In — I )ω, =//,-1(4)
[0030]即是传统的BORDA计数法,由此可以看出传统的BORDA记分法是带优势权重的多分类器组合法当优势权重取值Oi = I/(m-1) (i = I, 2...,m-1)时的特殊情况。
[0031]如图2所示,为本发明的多度量时间序列相似性分析方法的流程图。各步骤处理如下:
[0032]步骤101:待查时间序列为被查询的时间序列,子序列查询中的待查时间序列一般是具有较长持续时间的序列。
[0033]步骤102:从已有相似度量中选择多个单一相似度量。在选择单一相似度量时,需要考虑从多个角度评价序列的相似,如形态相似,时间轴可偏移等。
[0034]步骤103:查询时间序列可以是从待查时间序列中提取,也可以是新的时间序列。
[0035]步骤104:根据选择的各单一相似度量的分析要求,对待查时间序列和查询时间序列提取时间序列的特征,建立索引。
[0036]步骤105:利用选择的各单一相似度量进行相似性分析,产生各单一相似度量的m-近邻序列;
[0037]步骤106:判断是否还有相似度量没有进行相似性分析,如果“是”,则继续步骤105利用下一个相似度量进行相似性分析,否则,进入步骤107。
[0038]步骤107:根据各单一相似度量的m-近邻序列之间时间上的重叠情况对相似序列(子序列)进行修剪,具体包括序列分组预处理、对齐重叠序列、删除孤立序列和排序候选相似序列。本例以子序列查询介绍修剪过程,全序列查询的修建过程后面介绍。例中每个单一相似度量的分别进行3-近邻的查找,结果如图3所示,第I个相似度量的相似子序列分别为S11 Ct11至tn+l之间的子序列)、S12 Ct12至t12+l之间的子序列)和S13 Ct13至t13+l之间的子序列),注意,这里只是按照各单一相似度量的相似子序列时间上的顺序标出,并不表示它们与查询序列相似程度顺序,同理,第2个相似度量的相似子序列分别为S21 Ct21至t21+l之间的子序列)、S22 Ct22至t22+l之间的子序列)和S23 Ct23至t23+l之间的子序列),第3个相似度量的相似子序列分别为S31 Ct31至t31+l之间的子序列)、S32 Ct32至t32+l之间的子序列)和s33 Ct33至t33+l之间的子序列)。
[0039]( I)序列分组预处理
[0040]对所有的相似子序列进行分组,满足,组内任意一个序列都可以在本组中找到至少一个序列与之时间重叠超过序列长度一半。针对图3中相似序列,预处理后,分5组,结果如下:①S11, S21, S31O S11和S21重叠超过一半,S21和S31重叠超过一半,②S32,③S12, S22,
④ S13,S33,⑤ S23。
[0041](2)对齐重叠序列
[0042]①、③、④三组内的序列个数都超过相似度量个数3的一半,因此需要分别进行对齐。针对组①的对齐,取tn,t21,t31三个时间的平均时间U,待查序列中起始时间U,长度为I的子序列为候选相似子序列Sca (开始时间为td,长度I)。针对各单一相似度量,Scl与查询序列的距离采用对应相似度量中被对齐序列与查询序列的距离。即,从第I个相似度量角度来看,Scl与查询序列的距离采用S11与查询序列的距离,从第2个相似度量角度来看,Sel与查询序列的距离采用S21与查询序列的距离,从第3个相似度量角度来看,Sel与查询序列的距离采用S31与查询序列的距离。针对组③的对齐,计算t12,t222个时间的平均时间亿2,待查时间序列中起始时间te2,长度为I的子序列为候选相似子序列8。2(开始时间为tcl,长度I)。但是没有出现在第3个相似度量的相似子序列中,因此,需要重新采用第3个相似度量函数重新计算8。2与查询序列的距离,并参与后面的排序。针对组④的对齐与组③过程类似。
[0043](3)删除孤立序列
[0044]②、⑤2组内的序列个数都少于单一相似度量个数3的一半,因此删除不考虑。
[0045](4)排序候选相似序列
[0046]针对各单一相似度量,重新对候选相似序列进行排序。例中经过以上3个步骤的处理,得到起始时间分别为tel,tc2, tc3长度为I的三个候选相似子序列Sel、Sc2和se3,但是sc2, Sc3作为某些单一相似度量的新相似序列出现,因此,需要重新计算它们与查询序列的相似距离,然后站在各单一相似度量的角度,对各候选相似序列分别排序。
[0047]步骤108:利用带优势权重的多分类器组合法对候选相似子序列进行组合排序,计算最终相似得分。[0048]步骤109:按照最终相似得分高低对所有最终候选相似子序列排序。[0049]步骤110:取排名前k个候选相似子序列为查询序列的k_近邻相似序列。[0050]本发明针对全序列查询的处理流程和子序列查询的处理流程相同,但是部分处理细节与子序列查询不同,区别在步骤107 “相似序列(子序列)修剪”,全序列相似性查找的“相似序列(子序列)修剪”具体如下:[0051]在全序列相似性查找时,所有单一相似度量的相似序列在时间上的重叠关系包括完全重叠和不重叠两种,因此重叠序列的对齐相对容易处理。图4为某查询序列经过各单一相似度量进行相似查询得到的结果,包括3个单一相似度量,每个单一相似度量分析查询得到5-近邻序列。各单一相似度量的相似序列出现在待查序列^ t1;…,t6中(本文以序列的起时时间标识该序列)。即第I个相似度量下,查询序列的5-近邻包括V t1; t3, t4, t5,第2相似度量下,查询序列的5-近邻包括^ t2, t4, t5, t6。第3个相似度量下,查询序列的5-近邻包括U t2, t3, t4, t5。图中给出的顺序不代表各单一相似度量5个相似序列的相似程度顺序。如,有可能第I个相似度量的前5个相似序列按照与查询序列的相似程度排名为 ti,?4,^3) ^5°[0052](1)序列分组预处理[0053]对所有的相似序列进行分组,所有相似序列在时间上的重叠关系只有完全重叠和不重叠两种,因此最终分为V t1;…,t6组。[0054](2)对齐重叠序列[0055]全序列查询中,同一组的所有时间序列具有相同的起始时,因此不需要对齐处理,但是h需要新增加为第2个相似度量的相似序列,h新增加为第3个相似度量的相似序列,t2新增加为第I个相似度量的相似序列,t3增加为第2个相似度量的相似序列。[0056](3)删除孤立序列[0057]t6只在一个相似度量的相似序列中,少于相似度量数的一半,因此t6将被删除。[0058](4)排序候选相似序列[0059]经过(1)、(2)、(3)步骤处理得到候选相似序列td, t1; t2, t3, t4, t5,针对各单一相似度量,重新计算新加入的相似序列与查询序列的相似距离,并对该相似度量的候选相似序列排序。[0060]下面基于实验说明本发明的多度量时间序列相似性分析方法的效果。取某大型水闸的1998年6月I日到2009年7月12日期间每年6月I日到9月30日记录的流量数据,每天有2:00、8:00、14:00、20:004个监测时间点,选择欧式距离、斜率距离以及DTW距离作为参与组合的相似度量,基于特征点提取洪水时间序列的特征,分别选取“单洪峰倒V型”和“双洪峰M型”两种形态的洪水过程作为查询序列,查询序列为待查序列的子序列,采用滑动窗口子序列匹配方法进行相似查询,利用传统BORDA计数法和带优势权重的多分类器组合法分别进行多度量组合。[0061] (1) “单洪峰倒V型”洪水过程相似性分析[0062]选取2000.7.312:00-2000.8.2920:00期间的“单洪峰倒V型”洪水过程时间序列作为查询序列进行相似性分析,各相似度量以及多度量组合的结果见表1,图4给出了相似子序列和查询序列的比较。[0063]表1单洪峰洪水过程相似性子序列
【权利要求】
1.一种多度量时间序列相似性分析方法,适用于时间序列的k-近邻查询,其特征在于,所述方法包括以下步骤: 根据分析需求选择多种单一相似度量作为基分类器; 对待查询时间序列按照所选择的单一相似度量的需要提取特征,建立索引; 利用各单一相似度量对待查序列进行相似性分析,得到查询序列的m-近邻时间序列; 对各单一相似度量下的m-近邻时间序列进行修剪,得到候选相似序列或子序列; 利用带优势权重的多分类器组合法对候选相似序列或子序列进行组合得到最终的k-近邻时间序列。
2.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,作为基分类器的各单一相似度量是根据分析的需求从已有的相似度量中由用户选择;各单一相似度量都将待查序列分为第I相似序列、第2相似序列、…、第m相似序列以及不相似序列这样的m+1 类。
3.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,每个单一相似度量的分析步骤具体为:提取时间序列特征,建立时间序列索引,运用时间序列相似性搜索方法,结合相似度量,检索m-近邻时间序列,m取值略大于k。
4.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,对各单一相似度量下的m-近邻序列进行修剪的步骤具体为:将各单一相似度量的m-近邻序列按照时间顺序排列,对各单一相似度量的相似序列之间交叉超过序列长度一半的序列进行修剪,修剪方法为,选择新的时间序列代替交叉的序列,新序列的起点为交叉序列的起点时间的均值;若某单一相似度量的m-近邻序列中未出现该新序列,则增加该序列作为相似序列,并利用相似度量重新计算与查询序列之间的相似距离;删除在所有的单一相似度量的m-近邻序列中出现次数少于度量数一半的相似序列。
5.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,利用带优势权重的多分类器组合法对候选相似序列或子序列进行组合的具体步骤为:首先针对各单一相似度量,利用带优势权重的组合法计算其产生的相似序列或子序列中各序列的排序得分,累计每个候选相似序列或子序列的排序得分,得到各候选相似序列或子序列的相似得分,对所有候选相似序列或子序列按照相似得分从高到底进行排序,排名前k的候选相似序列或子序列为查询序列的k-近邻序列。
6.根据权利要求1所述的多度量时间序列相似性分析方法,其特征在于,带优势权重的多分类器组合法借鉴BORDA计数法并对其进行了改进,具体改进为:根据候选相似序列或子序列与查询序列的相似距离对相似序列或子序列的排序得分进行加权,使得排序前后的相似序列或子序列之间的排序得分能够反映其与查询序列之间的相似性差距程度,累计候选相似序列或子序列的排序得分,得到该序列的相似得分。
7.根据权利要求6所述的带优势权重的多分类器组合法,其特征在于:针对各单一相似度量,首先将该相似度量的候选相似序列或子序列按照相似距离从低到高排列(即相似程度高低排序),排在第一位的排序得分为m分,排在最后一位的排序得分为I分;排在第i位的排序得分为
【文档编号】G06F17/30GK103577562SQ201310508432
【公开日】2014年2月12日 申请日期:2013年10月24日 优先权日:2013年10月24日
【发明者】王继民, 朱跃龙, 李士进, 万定生, 冯钧 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1