一种多功能抗微生物肽的最优多标记集成预测方法

文档序号:10655808阅读:402来源:国知局
一种多功能抗微生物肽的最优多标记集成预测方法
【专利摘要】本发明属于生物信息学领域,涉及一种多功能抗微生物肽的最优多标记集成预测方法。其步骤如下:基于抗微生物肽的氨基酸序列信息,采用伪氨基酸组成向量化方法,抽取抗微生物肽的多种不同维度的伪氨基酸组成特征向量;应用多标记分类算法在生成的所有不同维度的伪氨基酸组成特征向量上,训练出多个不同的多标记分类器;从所得的多标记分类器中,分别为抗微生物肽的每种功能类型筛选出最优多标记分类器子集;把待预测肽序列输入分类器子集中,执行加权多数投票融合策略,获得该肽序列的N种功能类型的归属。本发明不需要事先确定最优的特征参数组合,避免建模时通过大量遍历实验选取最优特征参数组合,既增加预测方法的实用性,又提高建模的效率。
【专利说明】
-种多功能抗微生物化的最优多标巧集成预测方法
技术领域
[0001] 本发明属于生物信息学领域,设及抗微生物肤功能预测领域,尤其设及一种多功 能抗微生物肤的最优多标记集成预测方法。
【背景技术】
[0002] 抗微生物肤,也叫做宿主防御肤,是生物体先天免疫系统的一类重要生物大分子。 它们存在于几乎所有生物体中,保护生物体自身免受致病菌的感染。抗微生物肤具有天然 免疫特性,是传统抗生素药物的绝佳替代品,可W解决抗生素的耐药性问题。
[0003] 随着后基因组时代大量蛋白质序列的产生,已知是抗微生物肤的序列和未知的蛋 白质序列之间的差距越来越大。实验确认哪些蛋白质序列是抗微生物肤W及搞清楚它们的 功能类型变得越来越不可行,迫切的需要开发基于序列的计算预测工具W便快速而准确地 识别抗微生物肤和它们的功能类型。目前为止,已经有一些计算预测工具出现。该领域的第 一个工作出现在2007年,通过利用隐马尔科夫模型化歷S) ,Fjell等人(Fjell,C.D., Hancock,R.E.,Cherkasov,A.AMPer:a database and an automated discovery tool for antimicrobial P邱tides. Bioinformatics, 2007,23:1148-1155)开发了AMPer方法识别抗 微生物肤。同年,Lata等人开发了一个AntiBP预测器化ata,S. ,Sha;rma,B.K. ,Raghava, G.Analysis and prediction of antibacterial peptides.BMC Bioinformatics,2007, 8:263),仅用于识别抗菌肤。该方法主要分析了抗菌肤和非抗菌肤的氨基酸组成,并且利用 N端,C端和全长序列的氨基酸组成作为输入特征,取得了很好的性能。他们于2010年又改进 了AntiBP预测器,开发了更新版本的AntiBP2预测器化ata , S . ,Mishra ,N. ,Raghava, G.AntiBP2:improved version of antibacterial peptide prediction . BMC Bioinformatics,2010,11 :S19),该预测器还增加了对抗菌肤种属类别的预测。Wang等人 (Wang,P.,Hu,L.,Liu,G.,et al.Prediction of antimicrobial peptides based on sequence alignment and feature selection methods,PLoS 0NE,2011,6:el8476)通过 结合序列比对和特征选择方法,开发了一个新的抗微生物肤预测方法。趾osravian等人 (Khosravian,!.,Faramarzi,F.K.,Beigi,M.M.,et al.Predicting antibacterial peptides by the concept of Chou's pseudo-amino acid composition and machine learning methods.Protein and Peptide Letters,2013,20(2) :180-186)提出使用伪氨 基酸组成和机器学习方法预测抗微生物肤的方法,也取得了令人满意的性能。除了开发计 算预测工具之外,研究人员也提出了一些抗微生物肤数据库。Wang等人于2004年构建了一 个抗微生物肤数据库APD(Wang,Z.,Wang,G.APD:the antimicrobial peptide database .Nucleic Acids Research,2004,32:D590-D592),并于2009年发布该数据库的第 二片反APD2(Wang,G.,Li,X.,Wang,Z.APD2:the updated antimicrobial peptide database and its application in peptide design.Nucleic Acids Research,2009,37:D933- D937),并且提供抗微生物肤的预测接口。Thomas等人(Thomas,S.,Karnik,S. ,Barai,R.S., et al.CAMP:a useful resource for research on antimicrobial peptides,Nucleic Acids Research,2010,38:0774-80)也建立了一个有用的数据库资源CAMP(Collection of Anti-Microbial Peptides)帮助研究人员更好的研究分析抗微生物肤。基于CAMP中的实验 验证的肤数据,他们也利用=种机器学习算法(支持向量机,判别分析和随机森林)开发了 计算预测工具。
[0004] 上面提到的运些预测工具和数据库推动了该领域的快速发展。但是,它们都只关 注于预测一个氨基酸序列是否是抗微生物肤。随着研究的逐步深入,需要往更加深入的层 次探索抗微生物肤。不仅要能够识别抗微生物肤,而且还要能够识别出它们的功能类型。实 际上,许多抗微生物肤不止有一个功能,而是执行多种生物功能(Lai,Y. ,Gallo,R丄.AMPed up immunity:how antimicrobial peptides have multiple roles in immune defense . Trends in Immunology ,2009,30(3):131-141)。例如,大樸铃赡(Bombina maxima)的算瓜巧毒蛋白(maximins)具有抗细菌,抗真菌和抗HIV病毒的功能(Thomas,S., Karnik,S. ,Barai,R.S. ,et al. CAMP:a useful resource for research on antimicrobial peptides,Nucleic Acids Research,2010,38:0774-80)。然而,上面所述 的预测方法都无法同时预测出抗微生物肤的多种功能。特别地,深入分析运些多功能抗微 生物肤对抗生素替代药物的研制具有极其重要的意义。到目前为止,仅有一个预测器可W 同时识别抗微生物肤的多种功能。该预测器iAMP-2L(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP-2L:A two-level multi-label classifier for identifying antimicrobial peptides and their functional types.Analytical Biochemistry,2013,436:168-177) 是由Xiao等人最近开发,采用伪氨基酸组成方法抽取特征向量,然后利用一个多标记最近 邻算法来预测抗微生物肤的多种功能。然而,该预测器在进行预测建模时,仅采用了单个多 标记预测算法,致使预测性能较差,并且通过枚举遍历方法确定抽取特征时的最佳参数,导 致建模效率低下。

【发明内容】

[0005] 本发明的目的在于提供一种多功能抗微生物肤的最优多标记集成预测方法,旨在 解决现有预测方法对多功能类型的抗微生物肤预测效果不佳,W及建模效率低下的问题。
[0006] 为实现上述目的,本发明采用W下技术方案:
[0007] -种多功能抗微生物肤的最优多标记集成预测方法,其步骤如下:
[0008] (1)基于抗微生物肤的氨基酸序列信息,采用伪氨基酸组成向量化方法,依据不同 的参数组合,抽取出抗微生物肤的多种不同维度的伪氨基酸组成特征向量;
[0009] (2)应用多标记分类算法在步骤(1)生成的所有不同维度的伪氨基酸组成特征向 量上,训练出多个不同的多标记分类器;
[0010] (3)从步骤(2)中所得的所有多标记分类器中,利用遗传算法,分别为抗微生物肤 的每种功能类型筛选出N组最优多标记分类器子集;
[0011] (4)把待预测肤序列输入到步骤(3)筛选出的N组最优多标记分类器子集中,分别 执行加权多数投票融合策略,获得该肤序列的N种功能类型的归属。
[0012] 所述步骤(1)中,伪氨基酸组成向量化方法如下:
[0013] 生物肤的序列是由20种基础氨基酸随机排列组合组成,运20种基础氨基酸分别由 英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示;
[0014]伪氨基酸组成法是一种有效地向量化抗微生物肤序列的方法,其公式如下:
[001 引 P = [Pl , P2 , ? ? ? , P20 , P20+1, ? ? ? , 920+? ? A]T
[0016] 其中,P表示抗微生物肤序列,前20维Pi,P2,…,P20表示20种基础氨基酸在肤序列 中的比例,后C ? A维表示肤序列中氨基酸之间的顺序信息;
[0017] Pi(i = l,2,…,20+C ? A)的计算公式如下:
[001 引
[0019] 其中,fi(i = l,…,20)分另懐示这20种基础氨基酸在肤序列中的比例,W表示肤序 列中氨基酸之间的顺序信息的权重,? A)表示肤序列的顺序相关因子,肤序列 中氨基酸之间的顺序信息近似地通过一系列序列顺序相关因子来表示,屯? A)的 计算公式如下:
[0020]
[0021]其中C为选用的氨基酸属性的数量,A为肤序列中的最大相关层数,L为肤序列的长 度,也就是组成肤序列的氨基酸数量,R康示肤序列中的第i个氨基酸,= …,O为基 于第j个氨基酸属性的相关性函数,相关性函数为肤序列中两个氨基酸的属性值的乘积。
[0022] 所述步骤(I)中,采用伪氨基酸组成向量化方法,依据不同的参数组合,抽取抗微 生物肤的多种不同维度的伪氨基酸组成特征向量的方法如下:限定从W下6种氨基酸属性 中选取,分别为① hy化ophobicity、②hy化ophilicity、③mass、④pK(alpha-COOH)、⑤地 (NH3)和⑥pl(at 25°C),然后设定A的最大取值为4,由此可W得到,参数巧化的所有可能组 合的个数为
\;依据252种不同的参数组合,为抗微生 物肤抽取252种不同的伪氨基酸组成特征向量。
[0023] 所述步骤(2)中,多标记分类算法采用多标记最近邻算法MLK順。
[0024] 所述步骤(2)中,使用多标记最近邻算法MLK順对252种特征向量集进行训练,训练 出252个不同的多标记MLKr^N分类器,其中,每一个MLKr^N分类器对应一种伪氨基酸参数组合 抽取的特征向量集,公式如下:
[0025] {M化順(1),M化順(2),…,M化順(252)}。
[0026] 所述步骤(3)中,使用遗传算法分别为抗微生物肤的每种功能类型筛选最优的多 标记分类器子集,其中,遗传算法需要确定个体的表示形式和适应度函数:
[0027] a.种群中的个体采用n维布尔向量的形式表示,n = 252XN,该n维布尔向量被分成 N组,每组对应一种功能类型,每组由252维组成,每维对应1个多标记分类器,对于给定的个 体11,11^)(1《^《11)为1表示选择第^个多标记分类器,反之,11^)(1《^《11)为0表示去除第 X个多标记分类器;
[0028] b.给定个体h,适应度函数的适应度采用如下方式进行计算:首先,基于个体h提供 的多标记分类器指示信息,挑选出与每种功能类型相关的多标记分类器,然后,使用10倍交 叉验证法确定个体的适应度值,适应度采用多标记绝对精度来衡量,返回适应度值最大的 个体对应的腺且分类器子集;
[0029] C.通过遗传算法进行多标记分类器选择后,获得N组最优分类器子集,每组对应一 种功能类型:
[0030]
[0031] 其中,Qi是第1种功能类型的最优分类器子集,包含Mi个多标记分类器,Q 2是第2 种功能类型的最优分类器子集,包含M2个多标记分类器,W此类推。
[0032] 所述步骤(4)中,把待预测肤序列输入到步骤(3)筛选出的N组最优分类器子集中, 分别执行加权多数投票融合策略,获得该肤序列的N种功能类型的归属,操作方法如下:基 于步骤(3)选取的最优分类器子集所对应的伪氨基酸参数组合,抽取待预测肤序列的特征 向量,把待预测肤序列的特征向量分别输入到对应地MLKrw分类器中,获得相应的预测结 果,对每组最优分类器子集在每种功能类型上的预测结果,进行加权多数投票融合,预测出 该肤序列所属的功能类型。
[0033] 本发明的有益效果在于:
[0034] (1)提出多标记最优集成算法,分别为每个功能类型筛选最优多标记分类器子集, 通过该算法构建的预测器预测性能比现有采用单一多标记分类器的方法提高7% W上,具 有较强的推广和应用价值;
[0035] (2)本发明方法不需要事先确定最优的特征参数组合,避免建模时通过大量遍历 实验选取最优特征参数组合,既增加预测方法的实用性,又提高建模的效率。
【附图说明】:
[0036] 图1是本发明多功能抗微生物肤的最优多标记集成预测方法的步骤流程图。
【具体实施方式】
[0037] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0038] -种多功能抗微生物肤的最优多标记集成预测方法,如图1所示,包括W下步骤:
[0039] 步骤SOI、基于抗微生物肤的氨基酸序列信息,采用伪氨基酸组成(PseAAC)向量化 方法,依据不同的参数组合,抽取出抗微生物肤的多种不同维度的伪氨基酸组成(PseAAC) 特征向量;
[0040] 步骤S02、应用多标记分类算法在步骤(1)生成的所有不同维度的伪氨基酸组成 (PseAAC)特征向量上,构建出多个不同的多标记分类器;
[0041] 步骤S03、利用遗传算法分别为抗微生物肤的每种功能类型,从步骤(2)中所得的 所有多标记分类器中筛选出最优的多标记分类器子集,通过遗传算法进行多标记分类器选 择后,将得到N组最优多标记分类器子集,每组对应一个功能类型;
[0042] 步骤S04、把待预测肤序列输入到步骤(3)筛选出的N组最优分类器子集中,分别执 行加权多数投票融合策略,即可获得该肤序列所属的功能类型。
[0043] 在本发明实施例中,在步骤SOl中,伪氨基酸组成(PseAAC)向量化方法如下:
[0044] 抗微生物肤的序列是由20种基础氨基酸随机排列组合组成,运20种基础氨基酸分 别由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示。
[0045] 伪氨基酸组成(PseAAC)法是一种有效地向量化抗微生物肤序列的方法,其公式如 下:
[0046] P = [Pl , P2 , ? ? , P20 , P20+1, ? ? , P20+^ ? A(1)
[0047] 其中,P表示抗微生物肤序列,前20维Pi,p2,…,P20表示20种基础氨基酸在肤序列 中的比例,后C ? A维表示肤序列中氨基酸之间的顺序信息,因为前20维特征将肤序列的顺 序关系全部丢失,所W采用后C -A维描述序列中氨基酸的前后顺序关系。Pia = I,2,…,20 +C-A)的计算公式如下:
[004引
(2)
[0049]其中,fia = l,…,20)分别表示运20种基础氨基酸在肤序列中的比例,W表示肤序 列中氨基酸之间的顺序信息的权重,? A)表示肤序列的顺序相关因子,肤序列 中氨基酸之间的顺序信息近似地通过一系列序列顺序相关因子来表示,屯? A)的 计算公式如下:
[(K)加 ]
(:3)
[0051] 其中C为选用的氨基酸属性的数量,A为肤序列中的最大相关层数,L为肤序列的长 度,也就是组成肤序列的氨基酸数量,R康示肤序列中的第i个氨基酸,= …,O为基 于第j个氨基酸属性的相关性函数,运里的相关性函数为肤序列中两个氨基酸的属性值的 乘积。
[0052] 在本发明实施例中,在步骤SOl中,采用伪氨基酸组成(PseAAC)向量化方法,依据 不同的参数组合,抽取抗微生物肤的多种不同维度的伪氨基酸组成特征向量,具体方法如 下:
[005引首先限定从W下6种氨基酸属性中选取,分别为① hydrophobicity,② hyhwhilicity,③mass,④地(alpha-COOH),⑤地(NH3),⑥pi (at 25°C ),然后设定A的最 大取值为4,因为所用训练集中最短肤序列长度为5,由此可W得到,参数C和A的所有可能组 合的个数为
K依据运252种不同的参数组合,为抗微 生物肤抽取252种不同的伪氨基酸组成特征向量。
[0化4] 在本发明实施例中,在步骤S02中,多标记分类算法优选多标记最近邻算法MLK順。 [0化5] 在本发明实施例中,在步骤S02中,使用多标记最近邻算法MLK順对252种特征向量 集进行训练,训练出252个不同的多标记MLK順分类器,其中,每一个MLK順分类器对应一种 伪氨基酸组成参数组合抽取的特征向量集,如下所示:
[0056] {]?化順(1),]\1化順(2),...,]\1化順(252)} (4)
[0057] -种简单的构造多标记集成分类器的方法是把它们的结果按照加权多数投票的 方式融合起来,可W得到W下的多标记集成分类器:
[0化引
(5)
[0059] 其中,货表示集成符号,(C。"表示由M化順(1 ),M化順(2 ),…,M化順(252)通过加权 多数投票构成的多标记集成分类器。
[0060] 给定待预测肤序列P,通过多标记集成分类器预测其所属的功能类型集合的方法 有别于传统的多类集成分类器,需要针对每种功能类型分别进行加权多数投票融合。假设 yp是待预测肤序列P的功能类型向量,当预测得到yp(t) = l时表明该肤序列P属于功能类型 t,否则该肤序列P不属于功能类型t。设多标记集成分类器(CaB中各个体分类器对功能类型t 的预测结果分别为卑為,…,瑪。*即:
[006。
(6)
[00创其中,谭=1隶示个体分类器M化順(i)预测该肤序列P属于功能类型t,巧=0表示 个体分类器MLkNN(i)预测该肤序列P不属于功能类型U该肤序列P属于功能类型t的得分 为:
[0063]
口')
[0064] 其中,wei曲ti为权重系数,为简单起见,运里设所有权重都为1/252,即集成中的 所有个体分类器同等重要,简化为多数投票法。在该实施例中,抗微生物肤共有5种可能的 功能类型。基于式(7),得分(Score)大于0.5的功能类型即为该肤序列P的功能类型。
[0065] 然而,针对每个功能类型分别进行加权多数投票融合时,所需要的最优分类器组 合是不同的,而像上面那样,对每个功能类型不加选择的使用所有分类器进行融合,势必会 损害预测准确度。
[0066] 故而,在本发明实施例中,在步骤S03中,使用遗传算法分别为抗微生物肤的每种 功能类型筛选最优的多标记分类器子集,其中,遗传算法需要确定个体的表示形式和适应 度函数:
[0067] 种群中的个体采用n维布尔向量的形式表示,n = 252X5。具体来说,该n维布尔向 量被分成5组,每组对应一种功能类型,每组由252维组成,每维对应1个多标记分类器,对于 给定的个体11,11^)(1《^《11)为1表示选择第^个多标记分类器,反之,11^)(1《^《11)为0表 示去除第X个多标记分类器。
[0068] 适应度函数(fitness化nction),给定个体h,其适应度采用如下方式进行计算。 首先,基于个体h提供的分类器指示信息,挑选出与每种功能类型相关的分类器,然后,使用 10倍交叉验证法确定个体的适应度值,适应度采用多标记绝对精度来衡量,返回适应度值 最大的个体对应的5组分类器子集。
[0069] 通过遗传算法进行分类器选择后,获得5组最优分类器子集,每组对应一种功能类 型,即
[0070] (8)
[0071] 其中,Q I是第I种功能类型的最优分类器子集,包含Ml个分类器,Q 2是第巧巾功能 类型的最优分类器子集,包含M2个分类器,W此类推。
[0072] 在本发明实施例中,在步骤S04中,把待预测肤序列输入到步骤S03筛选出的N组最 优分类器子集中,分别执行加权多数投票融合策略,即可获得该肤序列的功能类型,具体如 下:
[0073] 首先,基于步骤S03选取的最优分类器子集所对应的伪氨基酸参数组合,抽取待预 测肤序列的特征向量,把待预测肤序列的特征向量分别输入到对应地MLKNN分类器中,获得 相应的预测结果,然后,分别对每种功能类型,即对每组最优分类器子集在该种功能类型上 的预测结果,进行加权多数投票融合,即可预测出该肤序列所属的功能类型。
[0074] 实验结果和分析
[00巧]在本发明实施例中,采用文献(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP-化:A two-level multi-label classifier for identifying antimicrobial peptides and their 化nctional types.Analytical Biochemistir,2013,436:168-177)所构建的数据 集,该数据集中包含了抗微生物肤和非抗微生物肤,由于本发明只关注识别抗微生物肤的 多功能类型,因而本发明只使用抗微生物肤数据子集,符号表示为S_AMP,S_AMP共包含878 个抗微生物肤,其中,454个属于1个功能类型,296个属于2个功能类型,85个属于3个功能类 型,30个属于4个功能类型,13个属于5个功能类型。对于每个功能类型拥有的肤数量,如下 表1所示:
[0076] 表1数据集S_AMP的统计信息
[0077]
[007引 表2列出了本发明方法与iAMP-化方法(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP- 2L:A two-level multi-label classifier for identifying antimicrobial peptides and their functional types .Analytical Biochemistry,2013,436:168-177)在上述数 据集上的抗微生物肤的多功能类型预测性能的比较。评价指标采用多标记预测领域常用的 1111八0:、1111口1?6、11111?6(:、111巧1和40:。从表2可^看出,本发明方法在所有多标记性能评价指标 上都超过了目前最好方法iAMP-2L,尤其是,本发明方法的绝对精度ACC达到了50% W上,超 过了iAMP-化方法7%左右。由于绝对精度ACC要求非常严格,必须完全正确地预测出测试肤 序列的所有功能类型才算是预测正确,任何过预测或欠预测都被认为预测错误,因而可见, 本发明方法能极大地改进多功能抗微生物肤的识别率,而且成功地避免了繁琐的氨基酸组 成的参数寻优过程。
[0079] 表2本发明方法和i AMP-化的性能比较
[0080]
[0081] W上所述仅为本发明的较佳实施例而已,并不用W限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种多功能抗微生物肽的最优多标记集成预测方法,其特征在于:其步骤如下: (1) 基于抗微生物肽的氨基酸序列信息,采用伪氨基酸组成向量化方法,依据不同的参 数组合,抽取出抗微生物肽的多种不同维度的伪氨基酸组成特征向量; (2) 应用多标记分类算法在步骤(1)生成的所有不同维度的伪氨基酸组成特征向量上, 训练出多个不同的多标记分类器; (3) 从步骤(2)中所得的所有多标记分类器中,利用遗传算法,分别为抗微生物肽的每 种功能类型筛选出N组最优多标记分类器子集; (4) 把待预测肽序列输入到步骤(3)筛选出的N组最优多标记分类器子集中,分别执行 加权多数投票融合策略,获得该肽序列的N种功能类型的归属。2. 如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所 述步骤(1)中,伪氨基酸组成向量化方法如下: 生物肽的序列是由20种基础氨基酸随机排列组合组成,这20种基础氨基酸分别由英文 字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示; 伪氨基酸组成法是一种有效地向量化抗微生物肽序列的方法,其公式如下: P = [pi,P2, ·' ,P20,P20+1, ··· ,Ρ20+ξ·λ]Τ 其中,P表示抗微生物肽序列,前20维P1,ρ2,…,p2Q表示20种基础氨基酸在肽序列中的比 例,后ξ · λ维表示肽序列中氨基酸之间的顺序信息; Pi(i = l,2,…,20+ξ · λ)的计算公式如下:其中,AG = I,…,20)分别表示这20种基础氨基酸在肽序列中的比例,w表示肽序列中 氨基酸之间的顺序信息的权重,· λ)表示肽序列的顺序相关因子,肽序列中氨 基酸之间的顺序信息近似地通过一系列序列顺序相关因子来表示,· λ)的计算 公式如下:其中ξ为选用的氨基酸属性的数量,λ为肽序列中的最大相关层数,L为肽序列的长度, 也就是组成肽序列的氨基酸数量,R1表示肽序列中的第i个氨基酸,Ψ』?_ = 1,···,ξ)为基于 第j个氨基酸属性的相关性函数,相关性函数为肽序列中两个氨基酸的属性值的乘积。3. 如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所 述步骤(1)中,采用伪氨基酸组成向量化方法,依据不同的参数组合,抽取抗微生物肽的多 种不同维度的伪氨基酸组成特征向量的方法如下:限定从以下6种氨基酸属性中选取,分别 为① hydrophobicity、②hydrophilicity、③mass、④pK(alpha-COOH)、⑤pK(NH3)和⑥pi (at 25°C),然后设定λ的最大取值为4,由此可以得到,参数ξ和λ的所有可能组合的个数为 (戌+ g + C + 0 0 + C66) X 4 = 2:52个;依据252种不同的参数组合,为抗微生物肽抽取252 种不同的伪氨基酸组成特征向量。4. 如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所 述步骤(2)中,多标记分类算法采用多标记最近邻算法MLKNN。5. 如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所 述步骤(2)中,使用多标记最近邻算法MLKNN对252种特征向量集进行训练,训练出252个不 同的多标记MLKNN分类器,其中,每一个MLKNN分类器对应一种伪氨基酸参数组合抽取的特 征向量集,公式如下: {MLkNN(I),MLkNN(2),…,MLkNN(2 5 2)}。6. 如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所 述步骤(3)中,使用遗传算法分别为抗微生物肽的每种功能类型筛选最优的多标记分类器 子集,其中,遗传算法需要确定个体的表示形式和适应度函数: a. 种群中的个体采用η维布尔向量的形式表示,n = 252 X N,该η维布尔向量被分成N组, 每组对应一种功能类型,每组由252维组成,每维对应1个多标记分类器,对于给定的个体h, h(x) (KxSn)为1表示选择第X个多标记分类器,反之,h(X) (KxSn)为O表示去除第X个 多标记分类器; b. 给定个体h,适应度函数的适应度采用如下方式进行计算:首先,基于个体h提供的多 标记分类器指示信息,挑选出与每种功能类型相关的多标记分类器,然后,使用10倍交叉验 证法确定个体的适应度值,适应度采用多标记绝对精度来衡量,返回适应度值最大的个体 对应的N组分类器子集; c. 通过遗传算法进行多标记分类器选择后,获得N组最优分类器子集,每组对应一种功 能类型:其中,Ω :是第1种功能类型的最优分类器子集,包含M1个多标记分类器,Ω 2是第2种功 能类型的最优分类器子集,包含此个多标记分类器,以此类推。7. 如权利要求1所述的多功能抗微生物肽的最优多标记集成预测方法,其特征在于:所 述步骤(4)中,把待预测肽序列输入到步骤(3)筛选出的N组最优分类器子集中,分别执行加 权多数投票融合策略,获得该肽序列的N种功能类型的归属,操作方法如下:基于步骤(3)选 取的最优分类器子集所对应的伪氨基酸参数组合,抽取待预测肽序列的特征向量,把待预 测肽序列的特征向量分别输入到对应地MLKNN分类器中,获得相应的预测结果,对每组最优 分类器子集在每种功能类型上的预测结果,进行加权多数投票融合,预测出该肽序列所属 的功能类型。
【文档编号】G06F19/24GK106021999SQ201610327347
【公开日】2016年10月12日
【申请日】2016年5月17日
【发明人】王晓, 刘嘉, 张秋闻, 王榕, 郭瑞
【申请人】郑州轻工业学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1