一种基于支持向量机的microRNA靶位点预测的方法

文档序号:6579122阅读:179来源:国知局

专利名称::一种基于支持向量机的microRNA靶位点预测的方法
技术领域
:本发明涉及一种基于支持向量机的microRNA耙位点预测的方法。
背景技术
:microRNA(miRNA)是一种长度约为22nt的单链非编码RNA。由于MicroRNA在基因表达的转录后调控中起着非常重要的作用,从miRNA被发现以来,一直受到广泛的关注。研究表明,miRNA对生物体的生长发育有着非常重要的影响。现在普遍认为,miRNA通过与其耙基因的mRNA互补结合,降低mRNA的稳定性或抑制mRNA的翻译,从而实现其负调控功能。由于miRNA在生物体的许多生命过程中起着举足轻重的作用,miRNA功能研究越来越得到重视。至今为止,已经有超过8000种miRNA被发现、并记录于miRNA数据库miRBase[l-3]中,且这一数量还在继续增加。通过miRNA芯片、荧光蛋白标记、耙位点突变、锁核苷酸(LNA)沉默miRNA等实验手段[4_8],相当数量的miRNA与靶基因的关系也得到了验证,部分数据也被收录于数据库miRecords[9]中。然而,仅仅通过实验我们依然很难快速得到miRNA与靶基因的关系;特别是在我们对可能发生的调控关系没有丝毫认识的情况下,要想用大海捞针的方式发现miRNA的调控功能几乎不可能。因此,在计算机得到广泛应用的今天,开发出有效的生物信息学手段的可能的miRNA-靶基因调控关系进行预测,成为了进行miRNA相关研究的重要环节。由于植物miRNA与耙位点的配对比较完全,其预测难度相对较小;迄今也已有多个基于序列相似性的miRNA靶位点预测软件得到广泛使用[10]。而对于动物miRNA,由于其与耙位点的非完全匹配中存在着大量的错配、空位等,因此植物miRNA耙位点预测算法并不适用于动物;尽管如此,mRNA靶位点及miRNA序列的强保守性、以及miRNA种子区域与耙位点的较完全匹配情况,使多个针对动物miRNA耙基因预测的算法得以出现。自从2003年第一个针对大范围miRNA耙位点预测的方法被提出以来,已经有不少的miRNA靶位点预测软件被开发出来[11]。这些软件所使用的预测手段各有不同,但一般考虑的因素不外乎miRNA与靶位点的互补配对关系、所形成的异源双链结构的热力学稳定性、miRNA与靶位点在不同物种中的保守性等。这些方法大概可以分为基于核苷酸互补情况的方法、基于热力学分析的方法、基于模式发现的方法、基于支持向量机的方法等[11]。最早出现、而今运用最广泛的方法是基于核苷酸序列比对的方法。这一类方法的第一步基本上都是在耙基因mRNA的3'UTR区上搜索与miRNA的种子区或整个miRNA序列比较互补的区域,并以之作为miRNA的可能靶位点。随后,这些潜在靶位点还会经过热力学分析、序列在物种间保守性分析等步骤的多层过滤。一般而言,基于核苷酸互补情况的预测方法最终会给每一个潜在miRNA靶位点打出一个分数,而这一分数即可表示出在该次预测中,此潜在靶位点为真实的miRNA靶位点的可能性。miRanda[12]、TargetScan[13-14]、PicTar[15]等都是这一类方法的代表。在大部分已有的miRNA靶位点预测方法中,保守性分析扮演了非常重要的角色,在过往的大量靶位点预测方法中,有许多特征和机理并没有被考虑到。近年来,随着对动物miRNA研究的不断深入后发现,除了与miRNA直接作用的耙位点区域外,耙位点的侧翼序列、耙位点在3'UTR上的位置等特征也与miRNA与耙位点的结合密切相关[20-21],而这些都是过往的预测方法所没有考虑的。参考文献[l]Griffiths-JonesS,SainiHK,vanDongenS,EnrightAJ.miRBase:toolsformicroRNAgenomics.NucleAcidRes,2008,36(Databaseissue):D154_D158.[2]Griffiths-JonesS,GrocockRJ,vanDongenS,BatemanA,EnrightAJ.miRBase:microRNAsequences,targetsandgenenomenclature.NucleAcidRes,2006,34:D140-D144.[3]Griffiths-JonesS.ThemicroRNARegistry.NucleAcidRes,2004,32(Databaseissue):D109_D111[4]MaL,Teruya-FeldsteinJ,WeinbergRA.TumourinvasionandmetastasisinitiatedbymicroRNA_10binbreastcancer.Nature,2007,449:682—8.[5]MusiyenkoA,BitkoV,BarikS.EctopicexpressionofmiR_126*,anintronicproductofthevascularendothelialEGF—like7gene,regulatesprosteintranslationandinvasivenessofprostatecancerLNCaPcells.JMolMed,2008,86:313-22.[6]LeeDY,DengZ,WangCH,YangBB.MicroRNA-378promotescellsurvival,tumorgrowth,andangiogenesisbytargetingSuFuandFus—lexpression.ProcNatlAcadSciUSASci,2007,104:20350-20355.[7]Friggi-GrelinF,Lavenant-StacciniL,TherondP.ControlofantagonisticcomponentsofthehedgehogsignalingpathwaybymicroRNAsinDrosophila.Genetics.2008,179:429-39.[8]LiY,WangF,LeeJA,GaoFB.MicroRNA_9aensurestheprecisespecificationofsensoryorganprecursorsinDrosophila.GenesDev.2006,20:2793-805.[9]XiaoF,ZuoZ,CaiG,KangS,GaoX,LiT.miRecords:anintegratedresourceformicroRNA-targetinteractions.NucleAcidRes,2009,37(Databaseissue):D105-10.[10]YoonS,DeMicheliG.ComputationalidentificationofmicroRNAsandtheirtargets.BirthDefectsResCEmbryoToday,2006,78(2):118-28.[ll]MaziereP,EnrightAJ.PredictionofmicroRNAtargets.DrugDiscovToday,2007,12(11-12):452-8.[12]EnrightAJ,JohnB,GaulU,TuschlT,SanderC,MarksDS.MicroRNAtargetsinDrosophila.GenomeBiol,2003,5:Rl.[13]LewisBP,BurgeCB,BartelDP.Conservedseedpairing,oftenflankedbyadenosines,indicatesthatthousandsofhumangenesaremicroRNAtargets.Cell,2005,120:15-20.[14]LewisBP,ShihIH,Jones-Rhoades丽,BartelDP,BurgeCB.PredictionofmammalianmicroRNAtargets.Cell,2003,11:787-798.[15]KrekA,GriinD,PoyMN,WolfR,RosenbergL,EpsteinEJ,MacMenaminP,daPiedadeI,GunsalusKC,StoffelM,RajewskyN.CombinatorialmicroRNAtargetpredictions.NatGenet,2005,3:495-500.[16]KiriakidouM,NelsonPT,KouranovA,FitzievP,BouyioukosC,MourelatosZ,HatzigeorgiouA.Acombinedcomputational—experimentalapproachpredictshumanmicroRNAtargets.GenesDev,2004,18:1165—1178.[17]RehmsmeierM,SteffenP,Hochsma皿M,GiegerichR.FastandeffectivepredictionofmicroRNA/targetduplexes.RNA,2004,10:1507-1517.[18]MirandaKC,HuynhT,TayY,AngYS,TamWL,ThomsonAM,LimB,RigoutsosI.Apattern—basedmethodfortheidentificationofMicroRNAbindingsitesandtheircorrespondingheteroduplexes.Cell,2006,126(6):1203-17.[19]KimSK,NamJW,RheeJK,LeeWJ,ZhangBT.miTarget:microRNAtargetgenepredictionusingasupportvectormachine.BMCBioinformatics,2006,7:411.[20]GrimsonA,FarhKK,JohnstonWK,Garrett-EngeleP,LimLP,BartelDP.MicroRNAtargetingspecificityinmammals:determinantsbeyondseedpairing.MolCell,2007,27(1):91—105.[21]DidianoD,Hobert0.MoleculararchitectureofamiRNA-regulated3'UTR,RNA,2008,14(7):1297-317.[22]BoserBE,GuyonIM,VapnikV.Atrainingalgorithmforoptimalmarginclassifiers.Proceedingsofthefiftha皿imlworkshoponComputationallearningtheory,Pittsburgh,Pennsylvania,UnitedStates,1992.[23]VladimirN.StatisticalLearningTheory.Wiley,1998.[24]ChangCC,LinCJ丄IBSVM:alibraryforsupportvectormachines,2001.[25]DoenchJG,SharpPA.SpecificityofmicroRNAtargetselectionintranslationalrepression.GenesDev,2004,18:504—511.[26]BrenneckeJ,StarkA,RussellRB,CohenSM.PrinciplesofmicroRNA—targetrecognition.PLoSBiol.,2005,3:e85.[27]YangY,WangYP,LiKB.MiRTif:asupportvectormachine-basedmicroRNAtargetinteractionfilter.BMCBioinformatics,2008,9Suppl12:S4.[28]HofackerlLHowmicroRNAschoosetheirtargets.Nat.Genet.,2007,39(10):1191-2.[29]HofackerIL,FontanaW,StadlerPF,BonhoefferS,TackerM,SchusterP.FastFoldingandComparisonofRNASecondaryStructures.Monatsheffef.Chemie,1994,125:167-188.[30]BernhartSH,FlammC,StadlerPF,HofackerILPartitionFunctionandBasePairingProbabilitiesofRNAHeterodimersAlgorithms.Mol.Biol.,2006,1:3.[31]WittenIH,FrankE.DataMining-Practicalmachinelearningtoolsandtechniques,2ndEdition,MorganKaufma皿,SanFrancisco,2005.[32]SalzbergSLC4.5-ProgramsforMachineLearning.MachineLearning,2005,16:235-240.[33]BartelDP.MicroRNAs:targetrecognitionandregulatoryfunctions.Cell,2009,136(2):215-33.
发明内容本发明的目的是克服现有技术的不足,提供一种基于支持向量机的microRNA靶位点预测的方法。基于支持向量机的microRNA耙位点预测的方法包括如下步骤1)训练数据集的建立训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;2)特征集的构建每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集。3)简化特征集选取使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、0neR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;4)结果评价对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。所述的简化特征集选取使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、0neR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。本发明通过引入近年被发现与miRNA耙位点结合相关的特征来构建miRNA耙位点预测器,其中所选取的后三种特征(共六个特征)是根据已有的生物学研究,首次被运用于使用机器学习方法预测miRNA靶位点这一领域。在此基础上,运用特征选取的手段对该预测器进行优化开发出一套新的miRNA靶位点预测器。检验和比较的结果表明,所选用的新特征对miRNA耙位点预测确有帮助,其中10倍交叉检验中取得了85.81%的预测精度。图1是6类输入特征示意图;图2是使用特征集进行十倍交叉检验以对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图3是以人的数据集作为训练集、果蝇的数据集作为测试集,对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图;图4是以果蝇的数据集作为训练集、人的数据集作为测试集,对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图。具体实施例方式基于支持向量机的microRNA耙位点预测的方法包括如下步骤1)训练数据集的建立训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;2)特征集的构建每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集。3)简化特征集选取使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、0neR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;4)结果评价对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价;所述的简化特征集选取使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、0neR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。实施例基于支持向量机的microRNA耙位点预测的方法,包括如下步骤1.训练数据集的建立由于训练集数据对于机器学习方法而言非常重要,因此选取出恰当的正负样本集是本研究的重点和难点之一。使用了miRecords数据库,miRecordsversion1[9]共有1979条数据,其中果蝇的有121条记录,人的有1311条记录;仅仅取了这两种动物的数据作为数据集。除去重复的记录以及信息不全(主要为未给出结合位点位置)的记录后,共获得278个miRNA-耙位点相互作用对,其中果蝇的数据有83个,人的数据有195个,这些样本作为正样本使用。对于分类器的特异性而言,负样本经常比正样本更为重要。以往对于信噪比的实验研究表明,随机生成的负样本经常会与miRNAs发生相互作用[19],为了取得足够的负样本,查阅了miRecords中人与果蝇的文献,其中大部分使用定点突变等实验方法进行耙位点敲除以验证靶位点的真实性;此外,还有部分文献提及了一些在微阵列实验中被证明不具有调控关系的miRNA-mRNA对。对于这些样本,mRNA的3'UTR中与miRNA的种子区域比较匹配的区域将被视为负样本。最终取得了194个负样本,其中果蝇的样本有30个,人的样本有164个。由于大部分与miRNA发生直接相互作用的靶位点长度均小于30nt,选定了以与miRNA直接作用的序列的3'端最后一个核苷酸开始向5'端延伸的30nt的固定长度的核苷酸序列作为靶位点;除了这30nt序列外,还分别往5'端和3'端延伸100nt作为侧翼序列。这样,最终获得了一个含有472个样本的数据集;其中278个为正样本,即miRNA能结合到相应的位点上起调控作用;另外的194个为负样本,即miRNA不能通过结合到相应的位点上以调控基因表达;每一个样本包含了一个miRNA以及会与其发生潜在相互作用的长为230nt的mRNA3'UTR区域核苷酸片段。2.特征集的构建每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-耙位点调控对的各方面信息,特征向量包括128个特征128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分(见图1)。其中,前三种特征即为miTarget[19]所使用的特征,后三种特征则是根据已有的生物学研究、首次被运用于使用机器学习方法预测miRNA靶位点这一领域。所有样本的特征向量构成了特征集。2.1基于结构特征结构特征描述的是miRNA与耙位点各个部分的匹配情况。如图1所示,一共分为三大部分miRNA与靶位点的互补配对、miRNA与5'端侧翼序列的互补配对、miRNA与3'端侧翼序列的互补配对情况;而对于miRNA与靶位点的互补配对,又分为三个部分5'端区域(种子区域部分)、3'端区域,以及全部区域。对于每一个部分,统计了其匹配个数、错配个数、G:C匹配个数、A:U匹配个数、G:U匹配个数及其他错配数占核苷酸总数的比例作为其结构特征,因此共有6*5=30个特征。2.2基于热力学特征与结构特征类似,热力学特征同样描述了miRNA与耙位点各部分的匹配情况;不同的是,热力学特征所描述的是RNA异源双链复合体的热力学稳定性。热力学特征同样考察了miRNA与耙位点的互补配对、miRNA与5'端侧翼序列的互补配对、miRNA与3'端侧翼序列的互补配对三大部分;对于miRNA与耙位点的互补配对,也分为三个部分5'端区域(种子区域部分)、3'端区域以及全部区域。对于每一个部分,以其mRNA:miRNA二级结构的预测自由能作为热力学特征,因此共有5个特征。2.3基于位置特征基于位置特征是由miTarget首先使用的特征类型。Doench等人[25]和Bre皿ecke等人[26]的研究发现特定位点上的点突变可以抑制miRNA的功能,即使具有相同的热力学性质,特定位点上不同的碱基互补情况也会对miRNA与靶位点的结合产生影响。由于不同的miRNA具有不同的长度,为了特征数量的统一,这里仅考虑miRNA前20位的碱基互补情况[19]。每一个位置的匹配情况都将用一个三维的O,l向量表示,分别表示该位置为G:C匹配、A:U匹配或G:U匹配;若为其他错配,则三个值均为0。因此共有3*20=60个特征。以上三类特征都需要建立在miRNA:mRNA异源双链复合体的结构已知的情况下。为了得到miRNA与相关位点的结合情况,在研究中运用了ViennaRNAPackage中的RNAduplex对miRNA与对应位点进行二级结构预测;上面三类特征都将建立在这一预测结果基础之上。2.4基于核苷酸组成特征上面的三类特征在miTarget[19]中已经得到了运用。除此以外,还加入了另外的三类特征。核苷酸组成特征在大量核酸相关的研究中都已经得到广泛应用[27];而近年的多个研究结果也表明,结合位点及其侧翼序列的某些碱基含量具有一定的特征,如AU含量较高等[20,21];因此,加入核苷酸组成特征是有必要的。与结构特征和热力学特征一样,这里一共考虑了五个区域的核苷酸组成情况,即A、U、C、G在各个区域分别的含量。因此共有4*5=20个特征。2.5基于二级结构特征—般认为,miRNA要结合到靶位点,就必须使结合后所形成的二级结构变得更为稳定、结合自由能更低[28];根据这一原则,已经有数种miRNA靶位点预测算法得到开发,如前所述[16,17]。这一特征又可以分为两部分其一为miRNA结合以前、耙位点及其两端侧翼序列所形成的二级结构的结构特征,即匹配个数、错配个数、G:C匹配个数、A:U匹配个数、G:U匹配个数及其他错配数占核苷酸总数的比例,共6个特征;其二为miRNA结合前后靶位点及其两端侧翼序列所形成的二级结构的结合自由能、以及结合前后自由能的变化,共3个特征。因此,此类特征共有9个。然后使用ViennaRNAPackage中的RNAcofold[29,30]对miRNA结合前后的靶位点二级结构进行预测,并根据预测结果取得所需要的特征参数。2.6基于模式特征Miranda等人在2006年提出了一种基于模式(pattern)的miRNA靶位点预测方法rna22[18]。这种方法首先在大量miRNA序列中寻找其共有模式,尔后使用这些模式的反向互补模式再潜在靶基因序列中进行搜索,并将模式出现频率高的地方视为潜在靶位点,在通过热力学分析、碱基互补配对分析等对潜在靶位点进行进一步筛选,这一方法取得了不错的预测结果,说明模式搜索可以切实提高miRNA靶位点的预测精度,借鉴这一思路引入了基于模式特征。Teiresias算法被用作发现大量miRNA中的不定长基序(motif,即模式pattern)。这些基序要求其长度至少包含L二4个核苷酸,其位点至少有30X是特异的(即W二12),且在所有miRNA中至少出现K二2次[18]。使用了实现该算法的网页服务(http:〃cbcsrv.watson.ibm.com/Tspd.html)进行模式的提取。3.简化特征集选取简化特征选取是在原来的特征集中选取一个子集,其中包含了最适合用于决策的属性特征,在有监督机器学习方法中,提高预测精度、减少运算时间、以及加深对问题本身的解释。使用了Weka3[31]中的特征选取算法,基于特征集分别进行了特征选取;这些特征选取算法包括卡方属性评价(Chi-SquareAttributeEvaluation)、过滤属性评价(FilteredAttributeEvaluation)、增力口比率属性评价(GainRatioAttributeEvaluation)、信息增益属性评价(InformationGainAttributeEvaluation)、0neR属性评价(OneRAttributeEvaluation)、RelieF属性评价(RelieFAttributeEvaluation)、支持向量机属性评价(SVMAttributeEvaluation)、对称原理不对称属性评价SymmetricalUncertainty(SU)AttributeEvaluation。每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集(见表1)。表1.被选入简化特征集的64个特征。<table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table>4.结果评价为了评价分类器的分类能力,使用了三种比较方式。第一种是受试者作业特征(ROC)分析[19],其结果曲线中的每个点表示了不同测试阈值下真阳性与假阳性的比值,可以展示所有可能的敏感性与特异性的平衡情况;通过比较R0C曲线下面积(AUC)即可实现不同分类器性能的比较AUC越大,说明分类性能越高。第二种评价方式是综合成功率,即正确的分类数与样本总数的比值。第三种是二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率.针对基于不同特征集构建的分类器,实现具体测试过程则设计了三种测试方法。第一种测试是对特征集进行十倍交叉检验,其结果可以通过ROC分析以及综合成功率进行比较。第二种测试是使用人的数据集作为训练集,以果蝇的数据集作为测试集进行测试;由于每一个测试集的样本都有一个固定的预测结果,因此除ROC分析和综合成功率以外,还可以使用二维混淆矩阵及真阳性率等比率进行结果的比较。第三种测试是使用果蝇的数据集作为训练集,对人的数据集进行测试;这种测试与第二种测试类似,只是将建立模型所使用的训练集和测试模型所使用的测试集调换,评价及结果的比较方法与第二种测试相同。4.1特征集进行十倍交叉检验使用特征集的十倍交叉检验对基于特征集的分类器的检验结果进行R0C分析(见图2),可以得到其AUC为0.9277(曲线2);相比之下,基于miTarget特征集的分类器的ROC分析所得到的AUC为0.9161(曲线3),略低于特征集的结果。可以看到基于特征集的分类器在高特异性区域的敏感性要略高于基于miTarget特征集的分类器,说明新特征对提高分类特异性应有一定作用。基于特征集的分类器在十倍交叉检验中获得了85.59%的综合成功率,而基于miTarget特征集的分类器则获得84.32%的综合成功率。这表明引入的新特征对于miRNA靶位点的预测确实有一定的正面作用。4.2以人的数据集作为训练集,果蝇的数据集作为测试集使用人的数据集作为训练集进行建模,再使用独立的果蝇数据集进行测试,是第二种检验分类器表现的方法。与基于特征集分类器的检验类似,本检验同样采用了R0C分析对分类器的表现进行评价(见图3)。对基于特征集的分类器(曲线2),其AUC为0.6386;相比之下,基于miTarget特征集的分类器的R0C分析(曲线3)所得AUC为O.6610,较前者的结果为佳。在这一组结果中,基于miTarget特征集的分类器在高特异性区域的敏感度更佳,而这与1.1中的结果并不一致;此外,可以发现两者AUC都远较1.1中的结果为差;这说明人的样本与果蝇的样本的各项特征有着相当大的物种差异。基于特征集的分类器与基于miTarget特征集的分类器在对测试集的预测中同样取得了69.02%的综合成功率。为了进一步区分两者的预测情况,根据其结果分别作出了其二维混淆矩阵(表2)并计算得到了其真阳性率、假阳性率、真阴性率、假阴性率(表3)。表2.以果蝇的数据集作为测试集,基于特征集(左表)和基于miTarget特征集(右表)的分类器的二维混淆矩阵。<table>tableseeoriginaldocumentpage14</column></row><table>表3.以果蝇的数据集作为测试集,基于特征集和基于miTarget特征集的分类器的真阳性率、假阳性率、真阴性率、假阴性率。<table>tableseeoriginaldocumentpage14</column></row><table>由表看出,两种分类器之间的差别并不明显。由于基因组的庞大规模,控制miRNA靶位点预测的假阳性尤为重要。可以看出基于特征集的结果假阳性率略低,但还是超过60%。这是因为人的样本与果蝇的样本的各项特征有着相当大的物种差异,导致仅仅使用人的数据进行建模不能充分代表果蝇样本的情况。4.3以果蝇的数据集作为训练集,人的数据集作为测试集使用果蝇的数据集作为训练集进行建模,再使用独立的人的数据集进行测试,是第三种检验分类器表现的方法。对基于特征集的分类器,R0C分析(曲线2)所得AUC为0.6489;相比之下,基于miTarget特征集的分类器的ROC分析(曲线3)所得AUC为O.6904,与第二种检验方式一样较前者的结果为佳(如图4)。综合成功率方面,基于特征集的分类器为55.43%,基于miTarget特征集的分类器则为56.82%。通过其二维混淆矩阵(见表4)计算得到真阳性率、假阳性率、真阴性率、假阴性率(见表5),可以进一步比较两种特征集对预测结果的影响。表4.以人数据集作为测试集,基于特征集(左表)和基于miTarget特征集(右表)的分类器的二维混淆矩阵。<table>tableseeoriginaldocumentpage14</column></row><table>表5.以人数据集作为测试集,基于特征集和基于miTarget特征集的分类器的真<table>tableseeoriginaldocumentpage15</column></row><table>由此可以发现基于miTarget特征集的分类器在跨物种预测中的表现相对稳定;这表明特征集相对于miTarget特征集的新增部分中至少有一部分特征的数值在不同样本中可能有较大的差异。4.4基于简化特征集的分类器的测试结果对于含有64个特征的基于简化特征集的分类器,本研究使用了与基于前两种特征集相同的方法进行了检验测试。首先使用了特征集的十倍交叉检验,得到了85.80%的综合成功率,较基于特征集的分类器以及基于miTarget特征集的分类器的综合成功率都为高;对其进行ROC分析取曲线(见图2曲线1)的AUC为0.9257,仅略低于基于特征集分类器表现、但依然高于基于miTarget特征集分类器的表现。这说明仅此一半特征已经包含了全部特征中的几乎全部信息,证明特征选取的结果是有效的。若使用人的数据集作为训练集进行建模、再使用独立的果蝇数据集进行测试,基于简化特征集的分类器可以获得74.34%的在综合成功率,优于基于另外两种特征集的分类器的结果。而其ROC曲线分析(见图3曲线1)的AUC为0.7410,同样优于另外两种分类器;在高特异性区域,其敏感度的优势非常明显。其二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率见表6、表7。其特异度与基于miTarget特征集分类器持平而略低于基于特征集分类器,但敏感度较两者为高,这些都表明了特征选取的有效性。表6.以果蝇的数据集作为测试集,基于简化特征集分类器的二维混淆矩阵。<table>tableseeoriginaldocumentpage15</column></row><table>表7.以果蝇的数据集作为测试集,基于简化特征集分类器的真阳性率、假阳性率、真阴性率、假阴性率。<table>tableseeoriginaldocumentpage15</column></row><table>使用果蝇数据集作为训练集进行建模、再使用独立的人的样本进行测试,基于简化特征集的分类器取得了59.33%的综合成功率,同样较另外两种分类器要高。其R0C曲线(见图4)的AUC为0.7302,较基于特征集以及miTarget特征集的分类器性能有明显提升。其二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率(见表8、表9)也表明较基于另外两种特征集的分类器而言都有所改进。数值上还是低于20%,说明作为训练集的果蝇数据集的缺陷,是造成预测精度、特别是特异性低下的主要原因。表8.以人数据集作为测试集,基于简化特征集分类器的二维混淆矩阵。<table>tableseeoriginaldocumentpage16</column></row><table>表9.以人数据集作为测试集,基于简化特征集分类器的真阳性率、假阳性率、真<table>tableseeoriginaldocumentpage16</column></row><table>基于简化特征集分类器的性能在各种测试中均要优于基于特征集分类器以及基于miTarget特征集分类器;这说明了特征选取是有效的。同时,与另外两种分类器一样,以某一物种的样本作为训练集对另一物种的样本进行测试所得到的结果,远较使用完全数据集进行交叉检验的结果要差;这也说明不同物种之间,其miRNA与靶位点相互作用的特征数值可能会有较大差异。4.5与其他miRNA耙位点预测方法的比较迄今为止,已有多种miRNA靶位点预测的软件被开发出来,其中具有重要影响力的如TargetScan[13,14]等。为了进一步评价本研究所得到的分类器的表现,在除去部分由靶位点定点突变产生的样本、部分跨物种样本以及在TargetScan中无记录的样本后,分别使用了TargetScanHuman和TargetScanFly对剩余的所有样本(共计402个样本,其中负样本130个,正样本272个)进行了测试。结果表明(见表10),使用TargetScan预测的综合成功率为64.93%,低于本研究所实现的分类器在十倍交叉检验中所达到的基于特征集(85.59%)、基于miTarget特征集(84.32%)和基于简化特征集(85.80%)。表10.使用TargetScan对特征集进行检验的二维混淆矩阵。<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>权利要求一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,包括如下步骤1)训练数据集的建立训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;2)特征集的构建每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集;3)简化特征集选取使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;4)结果评价对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。2.如权利要求1所述的一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,所述的简化特征集选取使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、0neR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。全文摘要本发明公开了一种基于支持向量机的microRNA靶位点预测的方法。步骤包括1)训练数据集的建立,包括278个正样本和194个负样本;2)特征集的构建,每个训练数据集的样本都被一个特征向量所表示,特征向量涵括miRNA-靶位点调控对的各方面信息,分为六部分共128个特征;3)简化特征集选取,使用Weka3中的一系列特征选取算法,筛选出64个特征;4)结果评价,对基于特征集、简化特征集和miTarget特征集的分类器的分类能力进行比较;5)miRNA靶基因的功能注释。本发明的意义在于构建了一个引入近年被发现与miRNA靶位点结合相关的特征,开发出一套新的miRNA靶位点预测方法,并运用特征选取的手段对该预测器进行优化,最后比较检验的结果表明,所选用的新特征对miRNA靶位点预测确有帮助。文档编号G06F19/00GK101710362SQ20091015529公开日2010年5月19日申请日期2009年12月10日优先权日2009年12月10日发明者何志嵩,王匡宇,白琳,陈铭申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1