基于加权borda计数法的多元时间序列相似分析方法

文档序号:6514671阅读:355来源:国知局
基于加权borda计数法的多元时间序列相似分析方法
【专利摘要】本发明公开一种基于加权BORDA计数法的多元时间序列相似分析方法,将多元待查序列和查询序列经过PCA(Principal?Component?Analysis)处理,保留特征值贡献率达到一定阀值(如80%,95%)的前p个维的主成分序列,构成p维主成分序列;根据具体分析需求(如序列形态相似,时间轴可扭曲等)从已有时间序列相似性分析方法中选择一元时间序列相似性分析方法;利用选择的时间序列相似性分析方法对p维主成分序列的各维序列分别进行一元时间序列相似性分析,得到各维的一元相似(序列)子序列;对一元相似(序列)子序列进行修剪,产生多元候选相似(序列)子序列;利用加权BORDA计数法对候选相似(序列)子序列进行投票排序得到最终的相似(序列)子序列。本发明适用于全序列和子序列的k-近邻相似性查询。
【专利说明】 基于加权BORDA计数法的多元时间序列相似分析方法
【技术领域】
[0001]本发明涉及一种能够进行多元时间序列相似性分析的方法,具体是一种基于加权BORDA计数法的多元时间序列k-近邻分析方法,属于数据挖掘【技术领域】。
【背景技术】
[0002]随着信息获取、传输和存储技术的发展,产生了大量的时间序列数据,如水文信息,包含水位、流量、蒸发量等,金融领域的股票信息,包含开盘价、收盘价、均价等,医学领域用来进行诊断的脑电波数据(EEG)包含利用多个传感器信息等,这些数据包含了几个甚至几十、几百个变量,蕴涵着丰富的领域知识和规律。利用人工智能和数据挖掘技术从这些大量数据中发现时间序列中的知识已经成为一个重要研究领域。时间序列数据挖掘研究主要包括时间序列特征提取、相似性搜索、预测、分类、聚类以及序列模式挖掘等。其中,相似性搜索是其他挖掘的重要基础,相似性搜索由R.Agrawal于1993年首次提出。
[0003]目前,多元时间序列相似性分析包含两种主要方法:整体法和维组合法。维组合法对多元时间序列的各维序列分别进行相似性分析,最后将各维分析结果进行组合,得到最终的多元相似时间序列。另一种维组合法的思路是,将各维时间序列互相首尾相接组成一个更长的一元时间序列,然后采用已有一元时间序列相似性分析方法进行相似性检索。整体法认为多元时间序列的各维之间存在千丝万缕的联系,因此从整体上提取多元时间序列的特征,利用特征描述原始多元时间序列并进行相似性检索,如,对多元时间序列采用PCA(Principal Component Analysis)进行变换,然后利用特征值和特征向量描述多元时间序列,并建立基于特征值和特征向量的相似度量,如,Eros (Extended Frobenius norm), Spca(PCA Similarity Factor)等。基于点分布特征 F1D (Point Distribution)的多兀时间序列相似度量则提取多元时间序列的局部特征,然后采用分位点来描述多元时间序列局部重要点集P的分布特征,最后基于分位点向量之间的距离度量多元时间序列之间的相似程度。相对于整体法,维组合法可以利用已有的一元时间序列相似分析方法,其要解决的问题是各维之间的独立性以及各维一元相似子序列的组合。BORDA计数法是一种经典的投票表决法,可用于进行多元时间序列相似性分析中相似子序列的组合排序。李士进等提出基于BORDA计数法的多元时间序列序列相似性分析[李士进,朱跃龙,张晓花等.基于BORDA计数法的多元水文时间序列相似性分析[J].水利学报,2009,40 (3): 378-384.],但是其在利用BORDA计数法对多元候选相似子序列进行组合排序时,采用传统的BORDA计数法对序列计算BORDA投票分数,排序相邻的两个子序列之间投票分数差距固定设置为I分,该分数并不能充分体现前后相似(序列)子序列和查询序列的相似差距,因而可能造成相似序列排序不准确,影响相似分析结果。本发明对BORDA计数法进行改进,提出加权BORDA计数法,在投票时,采用各一元相似(序列)子序列与查询序列之间的相似距离对其投票分数进行加权,从而在投票分数中体现不同相似(序列)子序列与查询序列之间的具体相似差距,然后基于加权BORDA计数法对多元候选相似(序列)子序列,以获取最终的多元相似(序列)子序列。
【发明内容】

[0004]发明目的:本发明提供一种多元时间序列相似性分析方法,提高时间序列相似性分析的效率。
[0005]为了实现上述目的,本发明针对BORDA计数法存在的缺点,对其进行改进,以适应对多元相似(序列)子序列投票排序的需求,并在此基础上提供了一种多元时间序列k-近邻分析方法。多元时间序列相似性分析从被查询的对象来分可以包括全序列查询(WholeMatch)和子序列查询(Subsequence Match)。全序列查询,即待查时间序列中包括多个等长或不等长的多元时间序列,指定查询序列,从数据序列中查找与查询序列相似的序列。子序列查询,即从一个长的多元待查时间序列中查找与指定查询序列相似的子序列,结果包括各相似子序列在待查序列中的偏移位置。本发明的基于加权BORDA计数法的多元时间序列相似性分析方法适用于全序列和子序列的k-近邻查询。
[0006]技术方案:一种基于加权BORDA计数法的多元时间序列相似分析方法,包括以下步骤:
[0007]改进BORDA计数法,在投票时,采用各候选人之间的定量差距对其投票分数进行加权,从而在投票分数中体现不同候选人的具体差距,候选人加权投票分数的累计称为该候选人的加权BORDA得分,对候选人按照加权BORDA得分从高到低排序,得到候选人的最终排序;对原始多元时间序列进行PCA变换,保留特征值贡献率达到一定值(如,80%,95%等)的前P个维,利用各维独立的P维主成分序列描述原始多元时间序列;根据多元时间序列的具体分析需求(如形态相似、时间轴可扭曲等),从已有一元时间序列相似性分析方法中选择一元时间序列k-近邻相似性分析方法,一元时间序列相似性分析方法的选择中包括一元时间序列特征提取方法、索引方法、相似度量以及相似查找方法等的选择;利用选择的一元时间序列相似性分析方法对查询时间序列和待查时间序列的对应各维一元时间序列进行相似性分析,得到一元m-近邻(序列)子序列,m的取值要略大于最终的k ;由于各维一元相似(序列)子序列一般不具有相同起始时间,因此对一元相似(序列)子序列进行修剪,将各维中在时间上重叠超过序列长度一半的一元时间序列进行对齐,删除出现次数少于维数一半的时间段内的一元相似(序列)子序列,以得到多元候选相似(序列)子序列,包括序列分组预处理、对齐重叠序列、删除孤立序列以序列重新排序;利用加权BORDA计数法对多元候选相似(序列)子序列进行投票排序,按照多元候选相似(序列)子序列的加权BORDA得分从高到低排序,取排名前k个序列,得到最终的多元k-近邻(序列)子序列。在BORDA计数法对多元候选相似序列进行投票时,利用一元相似(序列)子序列与查询序列的相似距离对一元相似(序列)子序列的BORDA投票分数进行加权(加权后的BORDA投票分数称为加权BORDA投票分数),使得排序前后的一元相似(序列)子序列之间的加权BORDA投票分数能够反映其与查询序列之间的相似性差距程度,多元候选相似(序列)子序列中各一元(序列)子序列的加权BORDA投票分数累计值作为该多元候选相似(序列)子序列的加权BORDA得分。
[0008]有益效果:本发明与传统方法相比,传统BORDA计数法对候选人的排序得分为第一名得η分,第二名得η-1分,依次降低,最后一名得I分。排序得分没有反映排名前后的候选人之间的具体差距大小,造成某些情况下不能很好的对候选人进行排序,因此,根据各维一元相似(序列)子序列与查询序列之间的相似距离对候选相似子序列的BORDA投票分数进行加权,使得排名先后的序列之间的BORDA投票分数能够更加具体的反映其与查询序列之间的相似差距。
【专利附图】

【附图说明】
[0009]图1为本发明实施例的基于加权BORDA计数法的多元时间序列相似分析方法模型图;
[0010]图2为本发明实施例的基于加权BORDA计数法的多元时间序列相似分析方法的查询流程图;
[0011]图3为本发明实施例的基于加权BORDA计数法的多元时间序列相似分析方法的用于k-近邻子序列查询的相似子序列修剪示意图;
[0012]图4为本发明实施例的基于加权BORDA计数法的多元时间序列相似分析方法的用于k-近邻全序列查询的相似序列修剪示意图。
【具体实施方式】
[0013]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0014]如图1所示,为本发明的多元时间序列相似性分析方法模型图。多元时间序列经过PCA处理后,保留P维主成分序列,并利用选择的一元时间序列相似性分析方法对各维一元时间序列分别进行相似性分析,然后对各维一元时间序列进行修剪,产生多元候选相似(序列)子序列,利用加权BORDA计数法对多元候选相似(序列)子序列进行投票排序得到最终的多元相似(序列)子序列。
[0015]本发明要求多元时间序列各维之间相互独立,但实际生产和生活领域采集的多元时间序列各维之间或多或少存在一些相关性,因此,对原始多元待查时间序列进行PCA变换,保留特征值贡献率达到一定值(如,80%,95%等)的前P个主成分序列,利用各维独立的P维待查主成分序列描述原始多元待查时间序列。对查询序列PCA处理时,若查询序列为原始多元待查时间序列的子序列,则直接按照偏移位置从待查主成分序列中提取子序列作为PCA处理后的查询主成分序列。若查询序列为新序列,则对查询序列进行PCA处理,并保留和待查主成分序列相同维数的主成分序列作为查询主成分序列。对多元时间序列进行PCA处理不仅使各维时间序列之间互相独立,同时,通过只保留前P个维度的主成分序列使数据的维度降低,减少了后续相似性分析的工作量。
[0016]目前,针对一元时间序列相似性分析已经产生了很多方法,一元时间序列相似性分析通常包括特征提取、索引、查询方法以及相似度量等,常见的特征提取包括:基于极值点的特征、小波变换、傅里叶变换、SVD(奇异值分解)、PAA (分段聚集)、PLR(分段线性表示)以及SAX (符号集近似)等;常用的索引方法包括:R树、k-d树、四叉树以及网格文件(GridFile)等;常见相似搜索方法包括FRM (快速子序列匹配)和Dual Match ;常用的相似度量包括Miknowski距离及其Lp形式、DTW距离、模式距离、LCSS (最长公共子串)以及编辑距离等。从已有一元时间序列相似性分析方法选择用于各维的一元时间序列相似性分析方法,需要考虑实际的分析需求,如序列形态相似、时间轴可扭曲等,这个需要用户根据实际的需求进行选择。选择的一元时间序列相似性分析方法包括序列特征提取方法、索引方法、相似度量以及相似查找方法等方面。
[0017]进行一元时间序列相似性分析的具体步骤为:首先根据选择的一元时间序列相似性分析方法,对主成分时间序列中的各维一元时间序列进行特征提取,并建立索引结构等。若选择的一元时间序列相似性分析方法不需要提取特征,建立索引结构,则本子步骤可以忽略;其次,针对查询序列每维序列进行一元时间序列相似性分析,检索各维的m-近邻相似(序列)子序列。m的选择一般比最终的k略大,以保证后期对一元相似(序列)子序列修剪后能够得到至少k个多元候选相似(序列)子序列。
[0018]由于各维一元相似(序列)子序列一般不具有相同起始时间,而同在一个多元相似(序列)子序列中的各一元序列都具有相同的起始时间,因此对一元相似(序列)子序列进行修剪,将各维中时间上重叠超过序列长度一半的一元相似(序列)子序列进行对齐,删除出现次数少于维数一半的时间段内的一元相似(序列)子序列,以得到多元候选相似(序列)子序列,具体步骤包括:序列分组预处理、对齐重叠序列、删除孤立序列以序列重新排序,假设主成分序列的维数为d,相似子序列的长度为I。①序列分组预处理:对所有一元相似序列进行分组,满足一组一元序列中,对于任意一个序列,都能够在组内找到至少一个和它时间上重叠超过序列长度一半的序列,而在其他组中找不到与其时间上重叠超过序列长度一半的序列。若某一元相似序列不和其他任何序列存在时间上重叠超过序列长度一半的情况,则将该相似序列单独作为一组对待。②对齐重叠序列:对①中产生的序列组,若组中序列个数超过维数d的一半,则对该组一元相似子序列进行对齐,对齐方法为:计算该组所有序列起始时间的平均时间t,在主成分序列以t作为起始时间,截取长度为I的子序列,得到多元(d维)候选相似子序列。设定多元候选相似子序列中各维子序列与被对齐的各维对应一元相似子序列具有和查询序列相同的相似距离。在对齐重叠一元相似(序列)子序列时,若一组重叠的相似子序列个数多于维数一半,但是少于维数,则对未出现重叠相似子序列的维增加一元相似子序列,具体方法为,将该维中起始时间t,长度为I的子序列增加为该维的一元相似子序列,计算其与查询序列之间的相似距离。③删除孤立序列:对①中产生的序列组,若组中序列个数少于维数一半,则删除该组内所有相似子序列,在后继的投票排序中不再考虑。④序列重新排序:由于存在新增一元相似序列以及删除了孤立的相似(序列)子序列,因此,针对每个维,对各多元候选相似子序列中的一元相似子序列重新进行排序。在全序列相似分析中,各维一元相似序列之间重叠的情况只有完全重叠和不重叠两种。
[0019]采用加权BORDA计数法对多元候选相似(序列)子序列进行投票排序时,对多元候选相似(序列)子序列中的各一元相似(序列)子序列按照其在对应维度中的排名计算其加权BORDA投票分数,累计多元候选相似(序列)子序列中各一元相似子序列的加权BORDA投票,得到该多元候选相似(序列)子序列的加权BORDA得分。对所有多元候选相似(序列)子序列按照加权BORDA得分从高到底进行排序,排名前k个候选多元相似(序列)子序列为最终的多元k-近邻序列。下面详细介绍对BORDA计数法的改进。
[0020]由于传统BORDA计数法在投票时,只考虑候选人的前后排名,但是没有考虑前后候选人之间的实际差距,因此,有时并不能很好的对候选人进行排序。如,假设有A、B、C、D四匹马进行四场比赛,四场比赛名次排序分别为:A、B、C、D,B、A、D、C,D、C、A、B和C、D、B、A。按照传统BORDA计数法进行投票排序得到四匹赛马BORDA得分都为10,出现了四匹赛马并列第一名的情况,因为BORDA计数法仅考虑四匹马的名次排序,而没有考虑各匹马在比赛时成绩的具体差异。
[0021]针对传统BORDA计数法存在的问题,本发明对其进行改进:利用排名前后候选人之间的定量差距对每轮投票的投票分数进行加权,从而使候选人的投票分数够反映他们之间的具体差异大小。多元时间序列相似分析中,多元候选相似(序列)子序列为投票候选人,投票人数为主成分序列的维数。投票人对所有候选人的一次投票相当于在某个维上对多元候选相似(序列)子序列按照该维的一元相似(序列)子序列与查询序列之间的相似距离进行一次排序。设所有多元候选相似(序列)子序列mth维一元相似(序列)子序列按照与查询序列的相似程度的排名先后为s0,S1, s2,…,sp,其中,S0是查询主成分序列自身mth维序列,即将查询序列视为和其自身最相似的序列参与投票排序,相邻一元相似(序列)子序列与查询序列之间的相似差距采用其与查询序列之间的相似距离差表示,记作为屯,d2, -,(Ii,…,dp,其中,Cli表示之间的差距。规定,排在第一位的Stl的加权投票分数为p+1分,排在最后一位的Sp的加权投票分数为I分,排在第i位的一元相似(序列)子序列的加权投票分数采用公式(I)计算。
[0022]SSi=SSi^pxdzfdiIj Q=1-,P-D(I)


/-5
[0023]对多元候选相似(序列)子序列各维的加权投票分数进行累加得到其加权BORDA得分,对所有多元候选相似(序列)子序列按照加权BORDA得分从高到低进行排序(注意,查询序列不参与排序),得到最终的排名,排名前k位的多元候选相似(序列)子序列即为多元查询序列的k-近邻。在对各维一元相似(序列)子序列进行BORDA投票时,将查询序列作为第一相似序列,是为了对实际的第一相似(序列)子序列S1的BORDA投票分数进行加权,避免传统BORDA计数法中 ,排名第一的相似(序列)子序列投票分数固定为P分,但实际上其与查询序列相似程度可能较差的弊端。加权BORDA计数法适合于前后候选人之间的差距可以进行定量描述的情况下使用。
[0024]如图2所示,为本发明的多元时间序列相似性分析方法的流程图。下面结合某多元时间序列X的子序列查询过程介绍本发明的多元时间序列相似性分析流程。假设X为列向量,要查询某长度为I的查询序列的1-近邻,即k=l,在各维的一元相似性分析中设置m=3,即进行3-近邻查找。
[0025]步骤101:多元待查时间序列为被查询的时间序列,子序列查询中,待查时间序列一般是具有较长持续时间的序列。
[0026]步骤102:从已有一元时间序列相似分析方法中选择满足相似性分析要求的一元时间序列相似性分析方法,考虑特征提取、索引、相似序列查找方法以及相似度量等。
[0027]步骤103:多元查询时间序列可以是多元待查时间序列的子序列,也可以是新的多元时间序列。
[0028]步骤104:对多元时间序列进行PCA分析,将特征值按照从大到小排序,计算特征值逐步累加所占比率,保留特征值总和占95%的前P个主成分序列。如对多元待查时间序列(假设包含9个维)基于协方差矩阵进行PCA处理,得到特征值向量为〈293.13,238.31,160.23,11.79,9.81,7.16,4.23,1.95,0.84>,前 3 个维度特征值所占比重为 95.1%,得到特征向量为V (假设V为行向量,即每行表示一个新的坐标轴),则原始多元时间序列在特征向量V构成的新空间中的投影坐标为Y=X.V。保留Y前3个维度的序列,即为X的3维主成分序列,后面的多元时间序列相似查询过程中,采用该3维主成分序列表示原始的多元待查时间序列。
[0029]对多元查询时间序列进行PCA分析,若查询时间序列为多元待查时间序列的子序列,则直接从3维待查主成分序列中按照相同的偏移位置提取子序列作为多元查询主成分序列。若查询时间序列为新序列,则对多元查询序列进行PCA分析,保留前3维序列,作为3维查询主成分序列。
[0030]步骤105:根据选择的一元时间序列相似性分析方法中的特征提取方法、索引等,对待查主成分序列和查询主成分序列提取时间序列的特征,保留主要特征,降低维度,同时对待查主成分序列提取的特征建立索引。
[0031]步骤106:对查询主成分序列的各维时间序列,在待查主成分序列的对应维的一元时间序列中,采用选择的相似性分析方法进行一元时间序列相似性分析,本例中需要针对3个维的一元时间序列分别进行相似分析;
[0032]步骤107:判断是否还有维度没有进行相似性分析,如果“是”,则继续步骤104进行下一个维度时间序列的相似性分析,否则,进入步骤106。
[0033]步骤108:根据各维一元相似子序列时间上的重叠情况对相似(序列)子序列进行修剪,具体包括序列分组预处理、对齐重叠序列、删除孤立序列和排序候选相似序列。本例中每个维的一元时间序列相似性分析首先进行3-近邻的查找,结果如图3所示,第一维的一元相似子序列分别为sn Ct11至tn+l之间的子序列)、s12 Ct12至t12+l之间的子序列)和S13Ct13至t13+l之间的子序列),注意,这里只是按照各一元相似子序列时间上的顺序标出,并不表示它们与查询序列相似程度顺序,同理,第二维的一元相似子序列分别为S21 Ct21至t21+l之间的子序列)、S22 Ct22至t22+l之间的子序列)和S23 Ct23至t23+l之间的子序列),第三维的一元相似子序列分别为S31 Ct31至t31+l之间的子序列)、S32 Ct32至t32+l之间的子序列)和S33 Ct33至t33+l之间的子序列)。
[0034]( I)序列分组预处理
[0035]对所有的相似子序列进行分组,满足,组内任意一个序列都可以在本组中找到至少一个序列与之时间重叠超过序列长度一半。针对图3中相似序列,预处理后,分5组,结果如下:①S11, S21, S31O S11和S21重叠超过一半,S21和S31重叠超过一半,②S32,③S12, S22,
④ S13,S33,⑤ S23。
[0036](2)对齐重叠序列
[0037]①、③、④三组内的序列个数都超过维数3的一半,因此需要分别进行对齐。针对组①的对齐,取tn,t21, t31三个时间的平均时间t。” 3维主成分序列中起始时间U,长度为I的子序列为候选多元相似子序列Sca (开始时间为U,长度I)。Sca中各维的一元序列与查询序列的距离采用对应维中被对齐序列与查询序列的距离,即,Scl中第I维序列与查询序列的距离采用S11与查询序列的距离,Sca中第2维序列与查询序列的距离采用S21与查询序列的距离,Sel中第3维序列与查询序列的距离采用S31与查询序列的距离。针对组③的对齐,计算t12,t222个时间的平均时间&2,3维主成分序列中起始时间亿2,长度为I的子序列为候选多元相似子序列8。2 (开始时间为tel,长度1),其中,Se2的第3维序列(即第3维中,开始时间为长度I的子序列),没有出现在一元相似子序列中,因此,需要重新采用相似度量函数重新计算其与查询序列的距离,并参与后面的排序。针对组④的对齐与组③过程类似。
[0038](3)删除孤立序列
[0039]②、⑤2组内的序列个数都少于维数3的一半,因此删除不考虑。
[0040](4)排序候选相似序列
[0041]对经过(I)、(2)、(3)步骤处理得到候选多元相似序列中新增加的一元相似子序列,重新计算其与查询序列相应维的一元时间序列的相似距离,重新对候选多元相似序列的每维的相似子序列进行排序。例中经过以上3个步骤的处理,得到起始时间分别为tcl, tc2, tc3长度为I的三个候选多元相似时间序列和8。3,但是在8。2,Sc3中都有新增的一元相似序列,因此,需要重新计算它们与查询序列相应维一元序列的相似距离,然后对各维序列分别排序。
[0042]步骤108:采用加权BORDA计数法对多元候选相似子序列进行投票排序,多元候选相似子序列相当于候选人,投票人的个数和维数相同。假设维数为d,则相当于d个投票人对多元候选相似子序列进行投票,每个投票人从一个维度的角度进行投票以反映多元候选相似子序列与查询序列之间的相似,该投票结果可以通过所有多元候选相似子序列当前维的子序列与查询序列当前维子序列之间的相似距离排序得到,采用公式(I)计算所有多元候选相似子序列的当前维的加权BORDA投票分数。针对每个多元候选相似子序列,累加其每个维的BORDA排序得分,得到多元候选相似子序列的BORDA得分。图3中,需要对Scl, sc2, Sc3三个多元候选相似子序列进行3次进行投票。
[0043]步骤109:对所有多元候选相似子序列按照加权BORDA得分进行排序。
[0044]步骤110:取排 名前k个多元候选序列为查询主成分时间序列的k_近邻相似序列。例中,取排名第一的多元相似子序列作为查询序列的1-近邻。
[0045]步骤111:根据步骤110的k个相似序列在多元待查主成分时间序列中的偏移位置,到多元待查时间序列中提取相同偏移位置,相同长度的子序列,生成多元查询序列k-近邻相似序列。
[0046]本发明针对全序列查询的处理流程和子序列查询的处理流程相同,但是部分处理细节与子序列查询不同,区别在步骤104 “PCA处理,保留主成分”以及步骤108 “相似(序列)子序列修剪”,具体如下:
[0047]步骤101:全序列查询中的多元待查时间序列是多个等长或不等长的多元时间序列。
[0048]步骤104:对多元待查时间序列中的所有多元时间序列进行PCA处理,并保留d维主成分序列,保证所有多元时间序列的d维特征值的贡献率都达到一定比率(如80%,95%)。
[0049]步骤108:在全序列相似性查找时,所有一元相似序列在时间上的重叠关系包括完全重叠和不重叠两种,因此重叠序列的对齐相对容易处理。假设某多元待查时间序列经过PCA处理后,前3个维的特征值贡献率达到95%,故保留前3个维的主成分序列,图4为查询序列经过各维一元相似查询得到的结果,每维一元时间序列相似分析查询得到5-近邻序列。各维的一元相似序列出现在多元主成分时间序列Ut1,…,t6中。即第I维的前5个一元相似序列包括^ t1; t3, t4, t5中的第I维的序列,第2维的前5个一元相似序列包括t” t2, t4, t5, t6中的第2维序列。第3维的前5个一元相似序列包括V t2, t3, t4, t5中的第3维序列。图中给出的顺序不代表各维5个一元相似序列的相似程度顺序。如,有可能第I维的前5个一元相似序列按照与查询序列的相似程度排名为t0, t4, t3, t5内的第I维序列。
[0050]( I)序列分组预处理[0051]对所有的相似子序列进行分组,所有一元相似序列在时间上的重叠关系只有完全重叠和不重叠两种,因此同一个多元主成分序列中的一元相似序列都具有相同的起始时,并且完全重叠,都归为一组,即最终分为V t1;…,t6组。
[0052](2)对齐重叠序列
[0053]全序列查询中,同一组的所有一元时间序列具有相同的起始时,因此不需要对齐处理,但是h的第2维,的第3维,t2的第I维,t3的第2维序列都需要增加为新的一元相似序列。
[0054](3)删除孤立序列
[0055]t6中一元相似序列只出现一次,少于维数的一半,因此t6将被删除。
[0056](4)排序候选相似序列
[0057]经过(1)、(2)、(3)步骤处理得到多元候选相似序列td, t1; t2, t3, t4, t5,重新计算新加入的一元相似序列与查询主成分序列相应维一元时间序列的相似距离,重新对多元候选相似序列的每维的一元相似序列进行排序。
[0058]为了验证基于加权BORDA计数法的多元时间序列相似性分析方法的效率,我们基于6个来自于UCI机器学习资料库的数据集进行了实验。这6个数据集为 Electro Encephalogram(EEG), Australian Sign Language (AUSLAN), JapaneseVowel (JV) and Robot Excecution Failure (REF),其中,REF 数据集包含 5 个子数据集,LPl, LP2, LP3, LP4, LP5,本实验选择LP1,LP4, LP5这3个子数据集。这些数据都是带有分类标签的数据集,详细信息如表1所示。
[0059]表1.实验数据集
[0060]
【权利要求】
1.一种基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,所述方法包括以下步骤: 根据多元时间序列的分析需求从已有的时间序列相似性分析方法中选择一种一元时间序列k-近邻相似性分析方法; 对多元待查序列和查询序列进行PCA处理,保留特征值贡献率达到一定值的前P个主成分序列,得到各维独立的P维主成分序列; 利用选择的一元时间序列相似性分析方法对主成分序列进行相似性分析,获得各维的m-近邻序列或子序列,m的取值要略大于最终的k ; 对各维的m-近邻序列或子序列进行修剪,包括序列分组预处理、对齐重叠序列、删除孤立序列和排序候选相似序列,产生多元候选相似序列或子序列; 利用加权BORDA计数法对多元候选相似序列或子序列进行投票,按照加权BORDA得分对候选相似序列或子序列进行排序,排名前k个多元候选相似序列或子序列即为最终k-近邻相似序列或子序列。
2.根据权利要求1所述的基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,多元时间序列的各维序列被视为相互独立的一元时间序列,并分别进行一元时间序列相似性分析,多元时间序列的相似分析结果由各维一元时间序列的相似性分析结果组合得到。
3.根据权利要求1所述的基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,多元时间序列经过PCA处理,并只保留特征值贡献率达到一定值的前P个主成分序列,产生各维独立的P元主成分序列,用来描述原始多元时间序列,P元主成分序列的各维都被作为独立的一元时间序列单独进行相似性分析。
4.根据权利要求1所述的基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,进行各维一元时间序列相似性分析的方法是根据分析的需求从已有的一元时间序列相似性分析方法中由用户选择。
5.根据权利要求1所述的基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,对各维一元相似序列或子序列进行修剪,以产生候选相似序列或子序列,具体包括对序列分组预处理、对齐重叠序列,删除孤立序列以及一元序列或子序列重排序。
6.根据权利要求1所述的基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,对多元候选相似序列或子序列进行投票排序的步骤具体为:采用加权BORDA计数法对多元候选相似序列或子序列中各维一元相似序列或子序列按照其在对应维度中的排名计算其加权BORDA投票分数,累计每个多元候选相似序列或子序列中各一元相似序列或子序列的加权BORDA投票分数,得到各多元候选相似序列或子序列的加权BORDA得分,对所有多元候选相似序列或子序列按照加权BORDA得分从高到底进行排序,排名前k的候选多元相似序列或子序列为查询序列的多元k-近邻序列。
7.根据权利要求6所述的基于加权BORDA计数法的多元时间序列相似分析方法,其特征在于,对BORDA计数法进行了改进,以提高多元时间序列k近邻分析时相似序列或子序列排序的准确性,具体改进为:根据一元相似序列或子序列与查询序列的相似距离对一元相似序列或子序列的BORDA投票分数进行加权,加权后的BORDA投票分数称为加权BORDA投票分数,使得排序前后的一元相似序列或子序列之间的加权BORDA投票分数能够反映其与查询序列之间的相似性差距程度,改进后的BORDA计数法称为加权BORDA计数法。
【文档编号】G06F17/30GK103488790SQ201310465475
【公开日】2014年1月1日 申请日期:2013年10月8日 优先权日:2013年10月8日
【发明者】王继民, 朱跃龙, 李士进, 万定生, 冯钧 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1