一种早期分类不平衡多变量时间序列数据的方法

文档序号:8487891阅读:386来源:国知局
一种早期分类不平衡多变量时间序列数据的方法【
技术领域
】[0001]本发明属于时间序列的数据挖掘
技术领域
,具体涉及一种早期分类不平衡多变量时间序列数据的方法。【
背景技术
】[0002]近年来,在时间序列挖掘领域中,多变量时间序列数据分类问题已经成为一大热点,广泛应用于多媒体、医学、制造工业、金融应用等领域。由于时间序列本身是时间敏感的,使得提前预测时间序列数据的类别尤为重要,应用于医学、工业、商业和军事等领域,有着非常重要的作用。如医学上对于某些疾病的分析,若在监测心电图、脑电图等时间序列数据的过程中尽早判断其异常情况,能实现对相关疾病的尽早诊断和有效治疗。[0003]针对于单变量时间序列的早期分类问题,ZhengzhengXing等在【文献1】中深入研宄了最近邻个体间关联的稳定性,提出了一种基于1-NN的早期分类方法。为了深入研宄分类过程的可解释性,他们提出了提取早期特征用于构建分类器的方法。[0004]针对于多变量时间序列的早期分类问题,MohamedFGhalwash在【文献2】中提出了多变量特征的概念(Multivariateshapelet),它由所有变量时间序列中相同时间段的子序列构成;以加权信息增益作为特征性能的评价标准,提出了基于提取多变量特征进行早期分类的方法技术。在此基础上,提出了基于各变量分别提取特征,挖掘时间相关可解释的模式用于提前分类。[0005]GuoliangHe等在【文献3】中提出了核特征的概念,即以多变量时间序列各个变量的特征作为核特征,扩展F_measure的概念,以Precision、Recall、Earliness作为特征性能的评价标准,提取并选择核特征,以核特征进行分类器的构建用于提前预测多变量时间序列。[0006]上述文献中的方法,并没有在不平衡时间序列数据中进行探讨,其原因在于上述方法中假设训练数据集是平衡的,从而导致不平衡数据的分类研宄没有得到足够的重视。而且,时序数据的高维度特性,使得对不平衡时序数据的研宄难度更大。然而,现实中存在大量不平衡时序数据集。比如医学中,病变导致的人体特征时序数据量相对于正常人的人体特征时序数据量而言,其不平衡性显而易见。幸运的是,已有部分学者对不平衡时间序列分类进行了相关研宄。[0007]SuzanK6knar-Tezek等人在【文献4】中提出了一种新的方法,通过在距离空间中对小类数据进行合成插入,使得数据达到平衡。HongCao等提出一种新的方法SP0,即基于协方差结构的保持,结合支持向量机的方式,对小类数据集进行过采样。在此基础上,HongCao等人继续提出了一种加强的结构保持过采样方法ESP0,与基于插入的过采样相结合,用于处理不平衡时序分类。[0008]为了对比分析过采样、欠采样技术对于处理不平衡时序分类的效果,GuohuaLiang等人在【文献5】中采样不同的有监督学习方法的情形下,针对过采样、欠采样作了详细的对比研宄,并提出了一种混合采样的方法用于处理不平衡数据。[0009]然而,在已有的研宄中并未对不平衡时序数据分类的提前预测进行探宄。[0010]【文献1】:ZhengzhengXing,JianPei,PhilipSYu.Earlypredictionontimeseries:anearestneighborapproach,IJCAI2009;ZhengzhengXing,JianPei,PhilipS.Yu,KeWang.Extractinginterpretablefeaturesforearlyclassificationontimeseries,SDM2011。[0011]【文献2】:MohamedFGhalwash,ZoranObradovic.Earlyclassificationofmultivariatetemporalobservationsbyextractionofinterpretableshapelets,BMCBioinformatics2012;MohamedFGhalwash,VladanRadosavljevic,ZoranObradovic.ExtractionofInterpretableMultivariatePatternsforEarlyDiagnostics,ICDM2013.[0012]【文献3】:GuoliangHe,YongDuan,GuofuZhou,LinglingWang.EarlyClassificationonMultivariateTimeSerieswithCoreFeatures,DEXA2014;GuoliangHe,YongDuan,RongPeng,XiaoyuanJing,TieyunQian,LinglingWang.Earlyclassificationonmultivariatetimeseries,Neurocomputing149(2015)777-787.[0013]【文献4】:SuzanKoknar-Tczck,LonginJanLatecki.ImprovingSVMclassificationonimbalancedtimeseriesdatasetswithghostpoints,Knowledgeinformationsystem,2011;HongCao,XiaoLi1i,YewKwongWoon,SeeKiongNg.SP0:Structurepreservingoversamplingforimbalancedtimeseriesclassification,ICDM2011;HongCao,Xiao_LiLi,Yew-KwongW00N,See-KiongNG.Integratedoversamplingforimbalancedtimeseriesclassification,IEEETransactionsonknowledgeanddataengineering,2013〇[0014]【文献5】:GuohuaLiang,ChengqiZhang.Acomparativestudyofsamplingmethodsandalgorithmsforimbalancedtimeseriesclassification,AI,LNCS,2012;GuohuaLiang.Aneffectivemethodforimbalancedtimeseriesclassification:hybridsampling,AI,Lecturenotesincomputerscience,2013〇【
发明内容】[0015]为了克服上述现有技术的不足,本发明提供了一种早期分类不平衡多变量时间序列数据的方法。[0016]本发明所采用的技术方案是:一种早期分类不平衡多变量时间序列数据的方法,其特征在于,包括以下步骤:[0017]步骤1:根据大类数据与小类数据在训练数据集中数据规模的不平衡比例K,对训练数据集进行子训练集的划分,其中大类、小类分别指训练数据集中数据规模大、小的类另IJ;以不平衡比例K作为参数将训练数据集中大类数据欠采样划分为K个子集,分别与小类数据组合构成相应的子训练集,得K个子训练集Sp..SK;[0018]步骤2:对子训练集Sp..SK,分别构建基于规则的子分类器..CK;[0019]步骤3:计算子分类器Ci在训练数据集中的准确率Ai(l<i<k),依据此计算子分类器集成过程中的权重:【主权项】1.一种早期分类不平衡多变量时间序列数据的方法,其特征在于,包括以下步骤:步骤1:根据大类数据与小类数据在训练数据集中数据规模的不平衡比例K,对训练数据集进行子训练集的划分,其中大类、小类分别指训练数据集中数据规模大、小的类别;以不平衡比例K作为参数将训练数据集中大类数据欠采样划分为K个子集,分别与小类数据组合构成相应的子训练集,得K个子训练集Sp..SK;步骤2:对子训练集Sp..SK,分别构建基于规则的子分类器..CK;步骤3:计算子分类器Q在训练数据集中的准确率Ai(1<i<k),依据此计算子分类器集成过程中的权重,然后,以权重集成子分类器,对多变量时间序列数据X进行类别预泖2.根据权利要求1所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2中对子训练集Sp构建基于规则的子分类器,其具体实现过程包括以下子步骤:步骤2.1:对训练数据集中多变量时间序列数据,由于不同子训练集中的小类数据一样,容易导致各子分类器中小类数据的规则类似,为了保证子分类器的差异性,随机选择多于一半变量数目的变量,得变量子空间集合V,同时降低变量维度以减少计算时间复杂度;步骤2.2:对多变量时间序列在变量集合V中的变量I,提取对应时间序列的子序列作为特征,获得候选特征集Fj;步骤2.3:对于各变量',对其候选特征集匕聚类,并选择各簇中的核特征形成变量V」的核特征集FS」,它能有效避免类内某些稀有子概念特征在特征选择过程中出现遗漏的现象;其中,类内子概念是指同一类别数据中存在多种不同的子模式;步骤2.4:计算多变量时间序列的核特征集FS;其中:|V|表示V中的变量数目;步骤2.4:根据FS构建子分类器Q。3.根据权利要求1或2所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2中所述的构建子分类器,具体实现过程为:基于变量子空间V中变量的核特征集和指定的约束条件,产生规则集,规则是由一个或者多个特征构成,其中每个特征属于不同变量;基于规则集,预测多变量时间序列的类别。4.根据权利要求2所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2.2中所述的获得候选特征集!V其具体实现过程为:对多变量时间序列在变量集合V中的变量',在变量'所对应的时间序列中,提取其子序列作为候选特征,计算候选特征与训练集中时间序列数据样本之间的相似性距离,并基于其核密度分布确定候选特征的阈值。为确保特征能表示相应变量时间序列的本质特性,从候选特征中选择精准度(Precision)达到预定值的候选特征,构成变量Vj的候选特征集Fj。5.根据权利要求4所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:所述的基于候选特征与各样本的相似性距离,基于其核密度分布获取候选特征的阈值,其候选特征f的阈值S求取方法为:首先,采用欧氏距离法求候选特征f?与训练数据集中时间序列数据样本的相似性距离;为解决两者不等长的问题,采用滑动窗口法,即以特征的长度为窗口,从时间序列起点开始滑动取得所有长度为窗口的子序列,依次度量所有子序列和该候选特征的相似性,取最优值作为该候选特征与对应变量时间序列的相似性距离;其次,对候选特征f与所有样本对应变量时间序列的相似性距离列表进行排序,按序取相邻值的中点得到若干候选阈值,并基于相似性距离,以核密度分布选取满足密度估计概率要求的最大候选阈值作为候选特征f的阈值S。6.根据权利要求2所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2.4中所述的计算多变量时间核特征集FS,其具体实现过程为:将变量I的候选特征集h按类别分别聚类得到若干个簇,从簇中选取性能最佳的特征为核特征,构成变量V」的核特征集;将变量子空间V中变量的核特征集的并集,作为多变量时间序列的核特征集FS。【专利摘要】本发明公开了一种早期分类不平衡多变量时间序列数据的方法。首先,针对类间数据规模不平衡问题,根据不平衡性比例,将大类类别数据集欠采样划分为多个子集,分别与小类类别数据组合构成多个子训练集。其次,对各子训练集进行核特征的提取与选择,并以核特征构建基于规则的子分类器。其中,为了解决类内子概念的数据规模不平衡问题,特征选择过程采用聚类实现,以保证核特征的多样性。最后,基于各子分类器,以子分类器对训练集中数据的分类效果求取权重,构建集成分类器。本发明的该分类器能够针对不平衡数据集的多变量时间序列分类问题,达到较高的准确率与较好的早期度。【IPC分类】G06F17-30【公开号】CN104809226【申请号】CN201510229367【发明人】何国良,段勇,李元香,周国富【申请人】武汉大学【公开日】2015年7月29日【申请日】2015年5月7日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1