基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法

文档序号:8299337阅读:830来源:国知局
基于稀疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法
【技术领域】
[0001] 本发明涉及的是一种膜蛋白结构预测及计算智能领域的技术,具体是一种基于稀 疏编码及链学习预测膜蛋白beta-barrel跨膜区域的方法。
【背景技术】
[0002] 目前,随着蛋白质组数据库的快速发展,已知结构的蛋白质数量不断增长,这对研 宄蛋白质的功能起到重要的推动作用。膜蛋白镶嵌在生物膜中贯穿于磷脂双分子层,具有 较强的疏水性及不宜结晶的特点,实验的方法解决蛋白质结构不仅成本昂贵而且耗费时 间,因此,利用计算的方法预测蛋白质结构是一种行之有效的途径,预测精度也在不断提 升,但传统机器学习方法在研宄蛋白质预测领域还存在一些亟待解决的问题,比如特征选 择和提取,降维去噪等方面。
[0003] 在(proteindatabank,蛋白质数据库)中,跨膜蛋白中的Beta-barrel( 0 -筒狀蛋白)作为两种膜蛋白之一,由若干条beta-Strand(f3折叠股)按照反相平行的方 式围成中空的桶状结构,具有鲜明的结构特点。beta-barrel占膜蛋白总数的30%,在生 物膜运输通道、分子交换、免疫保护等功能中起着至关重要的作用。当前近70%的药物靶 点作用在膜蛋白上,因此解决跨膜蛋白Beta-barrel的结构对研宄蛋白质功能提供重要信 息,因为结构相似的蛋白质往往功能也相似。
[0004] 由于膜蛋白Beta-barrel结构复杂,有较强的疏水性,难以结晶,由生物实验获 取蛋白质已知结构的Beta-barrel数据样本较少。随着机器学习算法的日渐成熟,利用 计算的方法获取蛋白质结构迅速发展,而且有着速度快,效率高,成本低的优势。目前,获 取蛋白质结构的方法有基于统计信息和基于膜蛋白物理化学特性的方法Freeman,T.and ffimley,ff. (2010)Ahighlyaccuratestatisticalapproachforthepredictionof transmembranebeta-barrels.Bioinformatics,此类基于统计信息和基于膜蛋白物理 化学特性的方法,仅局限适用于少量结构简单的蛋白质类型,如beta-strand数目较少 的膜蛋白结构,随着机器学习的方法迅速发展,如基于隐马尔可夫模型的方法Singh,N.et al. (2011)Tmbhmm:afrequencyprofilebasedHMMforpredictingthetopologyof transmembranebetabarrelproteinsandtheexposurestatusoftransmembrane residues.Biochim.Biophys.ActaBBAProteinsProteomics,1814,664 - 670,预测精度有 所提高,但是对于特殊长度如较短的strands片段,存在假阳性率过高的现象,而且在提取 特征过程中包含系统噪声的影响以及诸多降低预测精度的因素有待解决。

【发明内容】

[0005] 本发明针对现有技术存在的上述不足,提出一种基于稀疏编码及链学习预测膜蛋 白beta-barrel跨膜区域的方法,实现稀疏编码技术和链学习方法在蛋白质结构预测中的 应用。这种运用机器学习的方法实现蛋白质结构预测只需在计算机上运行,具有时间短,成 本低,精度高,可靠性强等优点,与此同时,相对于实验解决蛋白质结构的方法,如X射线, 核磁共振等方法,这种计算的方法操作更加方便,数据提取更加便捷,可以提供可视化预测 结果,同时对分析蛋白质功能提供重要数据信息。此外,本方法还可以随着蛋白质数据库的 发展不断进行软件升级,扩大数据集,增加预测蛋白质超家族覆盖范围,使之具备更强的预 测鲁棒性和稳定性。
[0006] 本发明是通过以下技术方案实现的:
[0007] 本发明从已知结构的膜蛋白Beta-barrel组织数据集中选择出包含进化信息的 位置特异性打分矩阵以及代表氨基酸距离信息的Z坐标值作为特征,以归一化处理和滑动 窗口的方式从中提取出特征向量并转换为数字图像,经特征空间维数降低和噪声干扰去除 后用于机器学习方法训练模型,最后将训练好的预测模型采用链学习的方式对目标蛋白质 中的每个氨基酸位置进行预测,得到此序列中每个氨基酸相对与膜的位置。
[0008] 所述的已知结构的膜蛋白Beta-barrel组织数据集来自最新版本蛋白质数据库 (ProteinDataBank,PDB),为去除同源性氨基酸序列的影响,将蛋白质去冗余至30%,得 到最终用来训练模型的去除冗余性的数据集。
[0009] 所述的位置特异性打分矩阵由PSI-BLAST多序列比对工具获得,该矩阵是一个N 行20列的矩阵,其中:每个位置表示第i个氨基酸在进化过程中被20种氨基酸中的第j个 代替的分数值,N表示蛋白质序列长度。
[0010] 所述的z坐标值是指:通过Z-pred氨基酸位置计算软件获得的每个氨基酸碳原 子距离膜中心位置的欧式距离。
[0011] 所述的数字图像中:每个特征值的大小表示图像的像素值。
[0012] 所述的特征空间维数降低和噪声干扰去除是指:运用稀疏编码算法计算稀疏系数 和基向量表示原数值,以降低特征空间维数和去除噪声干扰。 技术效果
[0013] 与现有技术相比,本发明的技术效果包括:
[0014] 1、对于蛋白质组中疏水性较强的膜蛋白Beta-barrl,本方法可以进一步提高预 测跨膜区域的精度,可以最终达到92. 5%的精确度,较之其他方法有更高的预测能力。
[0015] 2、特征选取上,分别用多序列比对工具PSI-BLAST和氨基酸距离计算软件Z-pred获取进化信息和距离信息,这两种特征适用于所研宄对象,能够有效提高预测效果,而 且提取方式耗时短,效率高,使得在蛋白质特征提取上更具普遍适用性的特点。
[0016] 3、对所研宄问题创新性的将稀疏编码技术用在特征降维和去噪上,取得显著效 果,相比其他方法,本发明的应用更加适用于数据的特征空间解决特定问题,更具针对性。
[0017] 4、基于机器学习的链学习方法,将邻域信息加入训练模型,不仅
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1