用于识别细胞外基质蛋白的集成学习方法

文档序号:6632002阅读:314来源:国知局
用于识别细胞外基质蛋白的集成学习方法
【专利摘要】本发明公开了用于识别细胞外基质蛋白的集成学习方法,数据集建立:建立细胞外基质ECM蛋白序列的训练样本集和独立测试样本集;将训练样本集中的蛋白质序列映射成数值特征向量;采用信息增益率—增量特征选择方法挑选出相对有效的特征子集,采用集成学习的方法建立集成分类器模型,以解决数据集不平衡的问题;将独立测试样本集映射成数值特征向量,基于集成分类器模型的预测结果,采用多数表决方法得到测试样本的类别,最终利用所有测试样本的预测结果评价预测系统的性能;本发明开发了用于细胞外基质蛋白识别的网络服务器系统。用户无需理解细胞外基质蛋白识别的具体执行过程,只需输入待预测的蛋白质序列,即可得到预测结果。
【专利说明】用于识别细胞外基质蛋白的集成学习方法

【技术领域】
[0001] 本发明涉及蛋白质功能属性识别领域,具体为一种用于识别细胞外基质蛋白的集 成学习方法。

【背景技术】
[0002] 细胞外基质(Extracellular Matrix,ECM)是细胞和组织赖以生存的微环境,在细 胞行为和组织特性的调控中发挥重要作用。ECM强大的生物学功能归因于ECM蛋白的多样 性。ECM蛋白的组成和动态变化对细胞的增殖、分化、迁移,组织的形态发生、分化等生命现 象具有全方位的影响。同时,ECM蛋白的功能紊乱可导致众多疾病。蛋白聚糖和胶原是ECM 蛋白的主要组成成分。其中,蛋白聚糖调控组织修复、肿瘤生长、细胞粘附、增殖和迁移等生 理活动;胶原蛋白广泛应用于骨组织工程,并调节细胞粘附、迁移,指导组织发育。ECM蛋白 质的准确识别将有助于理解上述生物过程的潜在机制,并为基于ECM蛋白的生物材料设计 和药物开发提供重要的线索。
[0003] 近二十多年来,生命科学快速发展的最重要特征是生物学数据量的剧增。如何 处理、分析和解释这些生物学数据成为众多学者关注的问题。其中,生物大分子序列的功 能属性识别问题已成为生物信息学领域的重要研究课题,由于实验测定方法昂贵而且周期 长,模式识别方法已成为主流方法。近年来,研究人员尝试应用机器学习方法识别细胞外 基质蛋白。2010年,Juan J等建立了 ECM蛋白的预测系统ECMPP,此方法引入了 5种新特 征,包括分子量、序列长度、重复残基、重复结构域、重复三联体glycine-x_y(Jung J,Ryu T,Hwang Y, Lee E,Lee D. (2010)Prediction of extracellular matrix proteins based on distinctive sequence and domain characteristics. Journal of computational Biology 17:97-105)。2013年,Kandaswamy KK等开发了预测ECM蛋白的网络服务 器ECMPRED,该方法所提取的特征来自于蛋白质序列中官能团的频率和氨基酸的物理化 学性质(Kandaswamy KK,Pugalenthi G,Kalies KU, Hartmann E, Martinetz T. (2013) EcmPred:prediction of extracellular matrix proteins based on random forest with maximum relevance minimum redundancy feature selection. Journal of Theoretical Biology317:377-383)。然而,对蛋白质功能属性预测非常重要的序列顺序信息和结构信 息,上述两种方法均未考虑。而且,现有方法也没有解决数据集不平衡的问题(ECM蛋白的 样本个数远远小于非ECM蛋白的样本个数),导致绝大多数样本被预测为非ECM蛋白,极大 地限制了分类器的性能。


【发明内容】

[0004] 为解决现有技术存在的不足,本发明公开了用于识别细胞外基质蛋白的集成学习 方法,目的在于解决数据集的不平衡问题,同时综合多种序列特征信息,以平衡和提高细胞 外基质蛋白正负样本的预测精度。
[0005] 为实现上述目的,本发明的具体方案如下:
[0006] 用于识别细胞外基质蛋白的集成学习方法,包括以下步骤:
[0007] 步骤一:数据集建立:建立细胞外基质ECM蛋白序列的训练样本集和独立测试样 本集;
[0008] 步骤二:基于序列组成、物理化学属性、进化信息及结构信息,将训练样本集中的 蛋白质序列映射成数值特征向量;
[0009] 步骤三:为降低计算复杂度和减少特征的冗余性,采用信息增益率一增量特征选 择方法挑选出相对有效的特征子集,以提高评估训练样本集的预测性能;
[0010] 步骤四:采用集成学习的方法建立集成分类器模型,以解决数据集不平衡的问 题;
[0011] 步骤五:将独立测试样本集按步骤二的方法映射成数值特征向量,基于集成分类 器模型的预测结果,采用多数表决方法得到测试样本的类别,最终利用所有独立测试样本 的预测结果评价预测系统的性能;
[0012] 步骤六:利用用于细胞外基质蛋白识别的网络服务器系统,进行在线识别细胞外 基质蛋白。
[0013] 所述步骤一中训练样本集含有410个后生动物ECM蛋白和4464个后生动物非ECM 蛋白;独立测试样本集则包括85个人类ECM蛋白和130个人类非ECM蛋白。
[0014] 所述步骤二中,所述蛋白质序列映射成数值特征向量的方法为:基于序列组成官 能团的频率的特征建立策略;基于序列组成信息熵的特征建立策略;基于序列组成氨基酸 分布的特征建立策略;基于序列组成氨基酸转换的特征建立策略;基于物理化学属性伪氨 基酸组成的特征建立策略;基于物理化学属性离散小波变换的特征建立策略;基于进化信 息的特征建立策略;基于进化信息非稳定构象的特征建立策略;基于进化信息二级结构信 息的特征建立策略;基于进化信息功能域信息的特征建立策略。
[0015] 所述步骤三中,采用信息增益率一增量特征选择方法挑选出相对有效的特征子 集,具体为:利用增量特征选择方法获取最优特征子集,增量特征选择方法从空特征集合开 始,按特征的排序从高到低逐一加入到特征集合;每一次加入一个特征,都会产生一个新 的特征子集,具有高均衡准确率和低维数的特征子集将被作为预测系统的最终输入特征向 量。
[0016] 所述步骤四中的分类器模型为随机森林,随机森林通过重采样技术,随机生成训 练样本用于训练多个决策树,基于多数表决的方法,独立测试样本的最终预测结果由决策 树输出类别的众数而定。
[0017] 所述步骤五中评价预测系统的性能指标分别为敏感性sensitivity、特异性 specificity、准确率accuracy、均衡准确率balanced accuracy ;上述评价指标定义分别如 下:

【权利要求】
1. 用于识别细胞外基质蛋白的集成学习方法,其特征是,包括以下步骤: 步骤一:数据集建立:建立细胞外基质ECM蛋白序列的训练样本集和独立测试样本 集; 步骤二:基于序列组成、物理化学属性、进化信息及结构信息,将训练样本集中的蛋白 质序列映射成数值特征向量; 步骤三:为降低计算复杂度和减少特征的冗余性,采用信息增益率一增量特征选择方 法挑选出相对有效的特征子集,以提高评估训练样本集的预测性能; 步骤四:采用集成学习的方法建立集成分类器模型,以解决数据集不平衡的问题; 步骤五:将独立测试样本集按步骤二的方法映射成数值特征向量,基于集成分类器模 型的预测结果,采用多数表决方法得到测试样本的类别,最终利用所有测试样本的预测结 果评价预测系统的性能; 步骤六:利用用于细胞外基质蛋白识别的网络服务器系统,进行在线识别细胞外基质 蛋白。
2. 如权利要求1所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,所述步 骤一中训练样本集含有410个后生动物ECM蛋白和4464个后生动物非ECM蛋白;独立测试 样本集则包括85个人类ECM蛋白和130个人类非ECM蛋白。
3. 如权利要求1所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,所述步 骤二中,所述蛋白质序列映射成数值特征向量的方法为:基于序列组成官能团的频率的特 征建立策略;基于序列组成信息熵的特征建立策略;基于序列组成氨基酸分布的特征建立 策略;基于序列组成氨基酸转换的特征建立策略;基于物理化学属性伪氨基酸组成的特征 建立策略;基于物理化学属性离散小波变换的特征建立策略;基于进化信息的特征建立策 略;基于进化信息非稳定构象的特征建立策略;基于进化信息二级结构信息的特征建立策 略;基于进化信息功能域信息的特征建立策略。
4. 如权利要求1所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,所述步 骤三中,采用信息增益率一增量特征选择方法挑选出相对有效的特征子集,具体为:利用增 量特征选择方法获取最优特征子集,增量特征选择方法从空特征集合开始,按特征的排序 从高到低逐一加入到特征集合;每一次加入一个特征,都会产生一个新的特征子集,具有高 均衡准确率和低维数的特征子集将被作为预测系统的最终输入特征向量。
5. 如权利要求1所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,所述步 骤四中的分类器模型为随机森林,随机森林通过重采样技术,随机生成训练样本用于训练 多个决策树,基于多数表决的方法,独立测试样本的最终预测结果由决策树输出类别的众 数而定。
6. 如权利要求1所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,所述步 骤五中评价预测系统的性能指标分别为敏感性sensitivity、特异性specificity、准确率 accuracy、均衡准确率balanced accuracy;上述评价指标定义分别如下:

其中,TP、FN、TN和FP分别为真阳性True Positive、假阴性False Negative、真阴性 True Negative 和假阳性 False Positive。
7. 如权利要求I所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,评估训 练样本集的预测性能的方法为10-交叉验证方法,练练样本集的正负样本集分别随机地分 为样本数量相同的10组数据子集,在这生成的20组数据子集中,正负样本集的各一组数据 子集用于训练,剩余的数据子集用于测试,每次用于训练的数据子集保证不同,上述过程循 环重复10次。
8. 如权利要求7所述的用于识别细胞外基质蛋白的集成学习方法,其特征是,对于每 一次循环过程,其执行流程包括如下步骤: 51 :训练样本集中负样本的个数大约为正样本的11倍,负样本训练集通过欠采样方法 分为样本数量几乎相同的11组数据子集。每一组数据子集与正样本训练集构成训练子集, 通过上述欠采样过程,可得到11个训练子集; 52 :分别用Sl得到的11个训练子集训练随机森林分类器,所获取的11个随机森林分 类器组成集成分类器,测试样本集用于评估集成分类器的性能,基于集成分类器,测试样本 的最终预测类别通过多数表决的方法获得。
【文档编号】G06F19/24GK104331642SQ201410588610
【公开日】2015年2月4日 申请日期:2014年10月28日 优先权日:2014年10月28日
【发明者】张承进, 杨润涛, 高瑞, 张丽娜 申请人:山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1