一种基于序列使用代价敏感集成和聚类预测表位的方法

文档序号:10512559阅读:230来源:国知局
一种基于序列使用代价敏感集成和聚类预测表位的方法
【专利摘要】本发明属于计算生物信息技术,具体涉及一种基于序列使用代价敏感集成和聚类预测表位的方法。主要步骤包括:(1)构建抗原蛋白残基的描述性特征,这些特征包括进化保守性特征、二级结构特征、无序区域特征、二肽构成特征、理化属性;(2)使用Fisher?Markov和增量迭代特征选择方法选择最优特征子集;(3)使用代价敏感性集成学习处理不平衡数据集;(4)使用空间聚类算法从抗原决定残基中预测潜在的表位残基。本发明适用于已知和未知结构信息的抗原蛋白表位预测,也适合大规模推广应用。
【专利说明】
一种基于序列使用代价敏感集成和聚类预测表位的方法
[0001]
技术领域
[0002] 本发明属于计算生物信息技术,具体涉及一种基于序列使用代价敏感集成和聚类 预测表位的方法。
[0003]
【背景技术】
[0004] 随着经济的发展和生活水平的提高,对衣食住行的需求已经不像短缺经济时代那 样无法满足。人们将注意力转移到健康,相应的产业都迎来高速发展。随着中国逐步进入老 龄化社会,国家和个人在医药上的投入逐年增加。生物制药和疫苗生产领域面临巨大的机 遇。据统计,一个人60岁以后的医疗支出平均占据其一生医疗费用支出的50%以上。2010年, 全球医药疫苗市场接近250亿美元,2014年达到了 500亿美元,短短4年时间市场规模翻了一 倍。据估计,这一市场到2025年将上升到2000亿美金。
[0005] 制药疫苗市场是医药市场中最前沿,科技含量最高的领域之一。一款新型高效药 物的研发往往多大数年甚至数十年,这一方面需要大量科研人才的长期专注研究,另一方 面也需要大量科研资金和先进设备的支撑。新型药物的研制成功,不仅能够给千百万疾病 患者带来福音,同时也意味着巨大的财富效应和社会效益。追求制药和疫苗市场的制高点, 已经成为欧美发达国家生命科学发展的重中之重。中国政府对于制药疫苗领域也越来越重 视。近些年,医药学科蓬勃发展,医疗设备不断研制更新,医学知识在普通民众中得到深入 普及。针对制药、疫苗以及相关领域,最近十几年里,国家在科技、资金、政策人才等各个方 面都投入巨大。
[0006] 从理论上说,制药和疫苗的关键点在于准确定位抗原表位,并在此基础上设计出 相对应的免疫干预抗体或者人工疫苗。目前,定位抗原表位最可靠的方法是通过抗原-抗体 复合体晶体衍射以及核磁共振的方法获得复合体的空间结构;然后针对复合体的空间结 构,探究其表面潜在的表位。然而这种实验方法需要很高的技术要求以及大量的人力和资 金支持。如果获得的结构分辨率较低或者制成品失败,需要一切重新开始。
[0007] 采用计算方法精确的预测B细胞表位可以有助于人们更好的了解抗原-抗体的分 子相互作用机制,也可以一些疾病的预防、治疗和诊断带来希望,因此这方面的研究兼具理 论价值与积极的现实意义。2003年SARS疫情发展的关键时期,华大基因、北京大学、复旦大 学等科研机构通过计算SARS病毒表位,在短短几个月内制作出第一批疫苗。这一成果振奋 人心,并极大地促进了表位预测领域的发展。虽然目前构象抗原表位预测方面的研究还不 成熟,但已有越来越多的研究人员认识到此项研究的重要性,并开始专注于这方面的工作。
[0008]

【发明内容】

[0009]本发明主要针对当前抗原表位预测技术中的缺点,提供一种基于序列使用代价敏 感集成和聚类预测表位的方法。该方法集中了能够准确描述抗原决定残基和非抗原决定残 基的特征,同时结合高效的特征选择方法,从抗原蛋白一级序列中识别出潜在的抗原决定 残基,然后使用空间聚类算法将聚集的抗原决定残基筛选出来作为表位,设计巧妙,准确率 大幅较高,同时也适于大规模推广应用。
[0010] 为了实现上述目的,本发明的基于序列使用代价敏感集成和聚类预测表位的方 法,其特点是,包括以下步骤: (1)特征构建:根据对抗原表面残基特性的分析,计算抗原决定残基和非抗原决定残基 的描述性特征。
[0011] (2)特征选择:对于构造的全特征矩阵,选择区分度较高,描述性较为准确的特征, 并在此基础上构建最优特征子集。
[0012] (3)集成学习:为了解决数据样本不平衡问题和提高预测性能,使用集成学习策略 构建一组分类器。
[0013] (4)表位预测:通过样本表位预测分析,计算表位分布空间阈值。对于在阈值内聚 集的超过3个的预测的抗原决定残基,认定其能潜在构成表位。
[0014] 本发明的有益效果具体在于: 1.本发明基于抗原蛋白的一级序列,可以针对未知结构的新型蛋白质进行分析探测, 应用面较广;结合抗原蛋白各种描述性特征和巧妙的Fisher-Markov特征选择和增量特征 选择策略,用以区分抗原决定残基和非抗原决定残基。
[0015] 2.本发明相对于传统的预测表位的方法(即只预测残基,不考虑残基的聚集倾向 性),增加了对于预测结果的进一步分析,这种分析基于对于现实中表位的聚集倾向性。此 方法更加准确的反映了蛋白质抗原表位空间的特点,使得预测结果更加真实可靠。
[0016]
【附图说明】
[0017] 图1为本发明基于序列使用代价敏感集成和聚类预测表位的方法的流程图。
[0018] 图2为本发明实验中蛋白质1PK0的抗原决定残基预测及聚类分析。图中标识了两 个表位集团(1和2),灰色部分为正常蛋白质残基,黑色部分为抗原决定残基。左侧圈中的黑 色部分与右侧圈中的黑色部分的抗原决定残基根据设定阈值,分别隶属于两个表位集团。
[0019]
【具体实施方式】
[0020] 为了更加细致清楚地理解本发明的技术内容,结合图1、图2对本发明进行详细的 描述。特别地,实施案例仅用于说明本发明,而非对本发明的限制。
[0021] 本发明的基于序列使用代价敏感集成和聚类预测表位的方法,包括以下步骤: (1)特征构建:根据对抗原表面残基特性的分析,计算抗原决定残基和非抗原决定残基 的描述性特征。
[0022] (2)特征选择:对于构造的全特征矩阵,选择区分度较高,描述性较为准确的特征, 并在此基础上构建最优特征子集。
[0023] (3)集成学习:为了解决数据样本不平衡问题和提高预测性能,使用集成学习策略 构建一组分类器。
[0024] (4)表位预测:通过样本表位预测分析,计算表位分布空间阈值。对于在阈值内聚 集的超过3个的预测的抗原决定残基,认定其能潜在构成表位。
[0025]所述步骤(1)具体包括以下步骤: (1.1) 使用PSIBLAST计算抗原蛋白质序列的位置特异性打分(PSSM)矩阵,对于序列中 某一位置残基替换成其他残基的得分,使用logistics函数进行归一化处理: 其中X为PSSM矩阵中某一位置残基替换成其他残基的得分,某一残基的进化保守性特 征为该残基序列位置前5位以及后5位窗口长度内所有的进化保守性得分。
[0026] (1.2)使用PSIPRED计算抗原蛋白质上每一个残基形成二级结构(螺旋、卷曲或折 叠)的概率矩阵。某一残基的二级结构特征为该残基序列位置前5位以及后5位窗口长度内 所有的二级结构概率矩阵。
[0027] (1.3)使用DISORDER计算抗原蛋白质上每一个残基落在蛋白质无序区域上的概 率,考虑到周围残基会对中心残基广生影响,因此中心残基的无序区域特征为该残基序列 位置前5位以及后5位窗口长度内所有的无序区域概率矩阵。
[0028] (1.4)残基对,即两两作用的残基组合,在形成蛋白质功能集团中发挥重要的作 用,并且广泛用于分析和预测蛋白质结构和功能位点。自然状态下的氨基酸一共有20种,因 此,相对应的氨基酸对为20 X 20=400种,ΒΓΑΑ,AC,…,VV"。
[0029] (1.5)物理化学属性与蛋白质残基的功能密切相关,这里选择6种理化属性:亲水 性,柔性,可及性,极性,暴露表面,转角。
[0030] 所述步骤(2)具体包括以下步骤: (2.1) 使用Fisher-Markov计算所述步骤(1)中每一个特征与类别标签的相关性得分, 将相关性得分从大到小依次排列,得分越高表明该特征与类别标签的相关性更强,反之则 表明相关性较弱。
[0031] (2.2)对于所述步骤(2.1)计算获得的相关性得分列表,使用增量迭代策略选择最 优特征子集。首先,从上述排列好的特征中,从相关性高到低依次添加特征到特征池中并构 建相应的分类器进行建模和预测,将预测性能记录并绘制图表,选择图表中的峰值对应的 特征数目以及相应的特征子集为最优特征子集。
[0032]所述步骤(3)具体包括以下步骤: (3.1) 传统机器学习是建立在平衡数据集的基础上的,在模型构建的过程中,对于正负 样本的错误罚分是一样的。传统机器学习算法通过寻优获得最小的罚分获得最佳的预测性 能。可是对于不平衡数据集(正负样本比例严重失衡),传统机器学习算法的这种寻找最小 罚分往往倾向于将小比例类别当做噪声数据过滤掉,从而使得小比例类别得不到学习。考 虑到这种情况,我们引入代价敏感策略,对于正负样本的错误识别给予不同的罚分,即小比 例类别的错误识别罚分高,大比例类别的错误识别罚分低。
[0033] (3.2)虽然单个弱分类器的识别效能较弱,但是多个弱分类器的有机组合能够使 得识别效能超过各个子分类器中识别效能最好的那个。
[0034] 所述步骤(4)具体包括以下步骤: (4.1) 首先获取样本数据中所有已知表位的抗原蛋白质的三维结构数据,并且获得所 有的表位相对应的三维坐标。
[0035] (4.2)对于每一个表位,统计其与其他残基的距离。根据最大富集密度和最少聚类 集团的原则,确定平均聚类空间球体的半径。
[0036] (4.3)根据(4.2)步骤统计所得的半径,将所有预测的抗原决定残基进行区域划 分,对于聚集在一起的预测数据,认定为潜在可以构成表位的残基;对于一个或两个远离聚 集区域的预测抗原决定残基,认定为假阳数据。
[0037] 1.数据集包括两个部分:RubinStein的绑定数据集(有抗原抗体复合体结构), Liang的非绑定数据集(有抗原无抗体的单一结构)。此数据集为构象表位预测的基准数据 集。
[0038] 2.抗原蛋白质残基的特征描述:具体内容见表1. 表1.抗原蛋白质残基的特征描述
在创建的特征空间中进行Fisher-Markov和增量特征迭代获取最优特征子集之后,在 绑定和非绑定数据集上分别使用传统方法和集成学习方法,并比较其与代价敏感集成策略 的预测效果。表2和表3给出了不同集成学习方法在绑定和非绑定数据集上的预测结果。 [0039]表2不同集成学习方法在绑定数据集上的结果比较
从表2和表3中可以看出,传统机器学习方法在不平衡数据集上几乎没有预测能力,虽 然其准确率均超过90%,但是这是建立在它几乎把所有的样本毫无差别的作为负样本对待 导致的结果,因此特异性非常高(达到99.9%)而敏感性特别低,大约只有1%。
[0040] 相比于不对样本进行任何处理的传统方法,简单集成在对于少数类的识别上有了 较大的提高,在绑定数据集上,从0.8%提高到19.6%;在非绑定数据集上,从1.1%提高到了 25.6%。简单集成策略是对整体样本中进行多轮随机采样,每一组采样均生成独立的分类模 型。简单集成策略是最简单的集成分类策略,它的优点是实现简单,速度较快,缺点是性能 有限。
[0041] 平衡级联集成策略在简单集成的基础上做了改进。在平衡级联的采样中,多数类 已经采样过的数据不再参与之后的采样,这样能够保证样本能够较大范围的覆盖尽可能多 的数据。相对于简单集成策略,平衡级联的预测效果有一定的进步。
[0042] 代价敏感性集成策略对于正负样本赋予不同的代价值,通过寻找最佳的分类预测 结果代价期望值,使得分类器自动寻求最小的预测错误惩罚值。这种方法,能够使得每一个 子分类器都将注意力集中到少数类的样本中,从而大大提高了对于少数类样本的识别率。 代价敏感性策略在绑定和非绑定数据集上分别达到了64.8%和70.4%的识别率,证明了该方 法的有效性。
[0043]相比于传统的制药疫苗方法,使用计算的方法预测抗原蛋白质表位能够高效快速 的提供潜在的候选表位,这能够为生物学家提供现实帮助,降低医药研发中的巨额资金投 入带来的风险。相对于以前的研究方法,本发明有两大创新点:1.首次使用代价敏感性集成 策略,将预测的重点从泛化的准确率转移到对于少数类(正样本)数据的预测,显著地提高 了预测效果;2.使用空间聚类算法对于预测的结果进一步分析,将零散分布的残基去除掉, 同时认定聚集在一起的预测抗原决定残基能够构成潜在的表位。这种方法能够进一步提高 预测精度,具有较高的现实意义。
【主权项】
1. 一种基于序列使用代价敏感集成和聚类预测表位的方法,其特征在于包括以下步 骤: (1) 特征构建:对于样本数据,计算抗原蛋白描述性特征,得到样本数据的特征空间; (2) 特征选择:使用Fisher-Markov和增量迭代特征选择方法选择最优特征子集; (3) 代价敏感性集成学习:使用代价敏感集成策略,对于严重不平衡的样本分别赋以不 同的错误分类惩罚参数,显著提高对于少数正样本的识别率; (4) 空间聚类:对于预测的抗原决定残基,使用空间聚类算法,对于在设定阈值内的抗 原决定残基,认定其为表位。2. 根据权利要求1所述的基于序列使用代价敏感集成和聚类预测表位的方法,其特征 在于所述步骤(1)具体包括以下步骤: (1.1) 进化保守性特征:使用PSIBLAST计算抗原序列的位置特异性打分矩阵;在所获得 的打分矩阵上,对于每一个氨基酸替代值,使用logistic函数进行归一化,得到此位置的进 化保守性得分;某一残基的进化保守性特征为该残基序列位置前5位以及后5位窗口长度内 所有的进化保守性得分; (1.2) 二级结构特征:使用PSIPRED计算抗原蛋白质上每一个残基形成二级结构即螺 旋、卷曲或折叠的概率矩阵;某一残基的二级结构特征为该残基序列位置前5位以及后5位 窗口长度内所有的二级结构概率矩阵; (1.3) 无序区域特征:使用DISORDER计算抗原蛋白质上每一个残基所属区域是有序区 域还是无序区域的概率矩阵;某一残基的无序区域特征为该残基序列位置前5位以及后5位 窗口长度内所有的无序区域概率矩阵; (1.4) 二妝构成特征:残基在蛋白质中往往两两结合形成稳定的功能残基对,这种残基 对对于分析和预测蛋白质结构和功能具有很重要的意义;根据20种氨基酸不同的组合方 式,统计某一个蛋白质上400种不同的二肽构成; (1.5) 理化属性:选择6种已证明与抗原蛋白残基功能密切相关的物理化学属性,即亲 水性,柔性,可及性,极性,暴露表面,转角6种属性; 所述步骤(2 )具体包括以下步骤; (2.1) 使用Fi sher-Markov方法将特征进行排序:使用Fi sher-Markov选择器计算所述 步骤(1)中每一个特征与类别标签的相关性,并根据相关性的数值从大到小排列; (2.2) 使用增量特征策略选择最优特征子集:使用增量特征策略,从上述排列好的特征 中,从相关性高到低依次添加特征到特征池中并构建分类器进行建模学习和预测,并根据 预测性能选择最佳的特征数目,所对应的特征子集即为最优特征子集; 所述步骤(3 )具体包括以下步骤: (3.1) 使用代价敏感性集成思想处理正负样本数据严重不平衡问题:传统机器学习方 法在正负样本不平衡分类问题上效果较差,这是由于其先天缺陷即倾向于忽略少数类以追 求较高的准确率所造成的;引入代价敏感性集成思想来处理正负样本不平衡的问题,首先 对于正负样本分别赋予不同的代价,错误识别正负样本对预测效果的惩罚不同,分类器为 了追求较好的效果,会重视对于少数类的识别; (3.2) 使用支持向量机构建子分类器:使用LibSVM作为基础机器学习工具构建基础分 类器,使用81^(18631'〇11;1;'(^5\^[.1]1寻找最优参数〇和值 ;通过多个子分类器,构成集成分类 器,提高模型识别准确率; 所述步骤(4)中,根据表位一般具有富集在同一区域的现象,将预测的抗原决定残基进 行空间聚类,并指出聚类密度较大的区域是潜在构成表位可能性较高的区域,具体包括以 下步骤: (4.1) 统计样本数据中已知表位的抗原蛋白质表面的抗原决定残基的空间分布坐标; 根据最大富集密度和最少聚类集团的原则,将所有抗原决定残基进行聚类,获得其平均聚 类空间球体的半径; (4.2) 根据计算得到的聚类空间球体的半径,将前期预测的抗原决定残基进行聚类划 分,抗原决定残基富集的区域内所有的残基被认定为表位;仅有一个或者两个预测的抗原 决定残基的区域被认为是假阳数据,即非表位。
【文档编号】G06F19/18GK105868583SQ201610207437
【公开日】2016年8月17日
【申请日】2016年4月6日
【发明人】马志强, 张健, 柴海挺, 高博
【申请人】东北师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1