基于采样学习的蛋白质-配体绑定位点预测方法_2

文档序号：9274825阅读：来源：国知局

也使得预测得到的结果更具有公平性与合理性，提升了模型的可解释性。
【附图说明】
[0016] 图1为结合随机下采样、KNN动态采样学习与基于阈值的集成技术的蛋白质-配体绑定位点预测方法的示意图。
【具体实施方式】
[0017] 为了更了解本发明的技术内容，下面结合附图对本发明作进一步的说明。
[0018] 图1给出了本发明的预测方法系统结构示意图。结合图1所示，根据本发明的实施例，一种基于采样学习的蛋白质-配体绑定位点预测方法，包括了以下步骤：
[0019] 首先，使用PSI-BLAST和PSIPRED程序分别获取训练蛋白质的进化信息矩阵 (PositionSpecificScoringMatrix，PSSM)和二级结构预测概率矩阵（Predicted SecondaryStructure,PSS);其次，使用滑动窗口技术，从PSSM矩阵与二级结构预测概率矩阵构建每一个氨基酸残基的特征向量，再将前述两种信息的特征向量串行组合得到最终用于预测的特征向量；再次，使用随机下采样技术，对非绑定位点残基进行下采样，将得到的非绑定位点样本子集与绑定位点样本构成一个训练集，在该训练集上训练一个SVM;然后，使用KNN动态采样学习技术，分别对绑定位点残基与非绑定残基进行下采样，将得到的绑定位点样本子集与非绑定位点样本子集构成一个训练集，在该训练集上训练一个SVM; 最后，使用基于阈值的集成策略对上述得到的两个SVM进行集成。
[0020] 下面将结合附图所示，更加具体地描述前述过程。
[0021] 步骤1:特征提取
[0022] 对于一个由n个氨基酸残基组成的蛋白质，通过PSI-BLAST程序可得到位置特异性得分矩阵PSSM，大小为nX20 (n行20列），将蛋白质序列信息转化成矩阵形式，如下：
[0023]
[0024] 对PSSM中的每个值进行归一化：
[0025]
[0026] 使用大小为winsize的滑动窗口，来提取每个氨基酸残基的PSSM特征矩阵：
[0027]
[0028] 然后，将该氨基酸残基的特征矩阵拉成维数为20Xwinsize的特征向量：
[0029]
[0030] 对于一个由n个氨基酸残基组成的蛋白质序列，通过PSIPRED程序可得到其二级结构预测概率矩阵（PSS)，大小为nX3 (n行3列）：
[0031]
[0032] 使用上述同样大小的滑动窗口技术，可以得到每个氨基酸残基的PSS特征矩阵：
[0033]
[0034] 然后，将该氨基酸残基的PSS特征矩阵拉成维数为3Xwinsize的特征向量：
[0035]
[0036] 最后，将式（4)和式（7)串行组合起来，得到用于预测的待预测样本的特征向量。
[0037] 步骤2 :使用随机下采样技术，对非绑定位点的样本进行下采样，将采样得到的非绑定位点子集与绑定位点样本构成一个训练集，在该训练集合上训练一个SVM。
[0038] 通过这种方法构建的训练集中，能够保持正负样本的均衡性。然而，也会导致计算模型对不同待预测样本之间的差异性不敏感。为此，将在下一步中利用KNN动态采样学习技术来进行补偿。
[0039] 步骤3 :使用KNN动态采样学习技术分别对绑定位点样本与非绑定位点样本进行下采样，将采样后的绑定位点样本子集与非绑定位点样本子集构成一个训练集合，再在该训练集合上训练一个SVM。
[0040]设矿=是原始的氨基酸残基训练集合，其中<表示第i个样本的特征向量，，表示第i个样本是否是绑定位点（-1表示非绑定位点，1表示是绑定位点为编号为j的待预测氨基酸残基。
[0041] 为了使得KNN动态采样学习技术可以分别对绑定位点样本与非绑定位点样本进行采样，我们首先需要使用式（8)根据是否是绑定位点的状态将绑定位点样本与非绑定位点样本从Stl:中分开。
[0042]
[0043] 其中为绑定位点样本集合、为非绑定位点样本集合。
[0044] 然后，分别在与欠集合中，根据待预测样本信息< 使用KNN算法搜索待预测样本在绑定位点样本集合中的近邻与非绑定位点样本集合中的近邻：
[0045]
[0046]
[0047] 再将两个近邻集合合并起来构成一个专门用来预测的训练集
[0048]
[0049] 训练一个专门用来预测该待预测样本的SVM。
[0050] 步骤4 :使用基于阈值的集成技术，将步骤2与步骤3中的SVM集成。
[0051] 设pro_rand与pro_dynamic分别是步骤2与步骤3中的SVM对同一个待预测样本 < 的预测概率，我们使用基于阈值的集成技术如下：
[0052]
[0053] 其中cthres是可以调节的阈值参数，其调节范围为0到1。
[0054] 最后在使用阈值分割的方法，确定每个残基是否属于绑定位点：
[0055]
[0056] 其中，T为设定的阈值，该阈值取值范围为0~1，需要满足以下条件：使得预测结果的马氏相关系数最大化。
[0057] 综上所述，本发明与现有的预测方法相比，其显著优点在于：本方法拥有解决蛋白质-配体绑定位点不平衡数据学习的能力，具有深度挖掘每个待预测样本之间差异性的能力，这不仅可以使得最大限度的区分不同配体之间的差异，同时使得预测模型不仅可解释性增强，而且提高了模型的预测精度。
[0058] 虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。
【主权项】
1. 一种基于采样学习的蛋白质-配体绑定位点预测方法，其特征在于，包括以下步骤：步骤1 :特征提取，使用PSI-BLAST与PSIPRED程序提取待预测蛋白质的进化信息和二级结构信息，并在此基础上，使用滑动窗口技术，将蛋白质序列中的氨基酸残基转换为特征向量形式表示，再将两种信息的特征向量串行组合得到最终用于预测的特征向量；步骤2 :使用随机下采样技术，对非绑定位点的样本进行随机下采样；将得到的非绑定位点样本子集与绑定位点样本集构成一个训练集，在构建的训练集上训练一个SVM ; 步骤3 :对于每个待预测样本，首先使用步骤1的方式进行特征抽取，然后使用KNN动态采样学习技术分别对绑定位点样本与非绑定位点样本进行采样，最后，将采样后的绑定位点样本子集与非绑定位点样本子集合并后训练一个专门用来预测该待预测样本的SVM ; 以及步骤4 :使用基于阈值的集成技术对步骤2与步骤3中得到的两个SVM进行集成。2. 根据权利要求1所述的基于采样学习的蛋白质-配体绑定位点预测方法，其特征在于：在上述的步骤1中，对于一个由n个氨基酸组成的蛋白质序列，通过使用PSI-BLAST程序提取得到该蛋白质的位置特异性得分矩阵PSSM，该矩阵的大小为nX20 ;再对所述位置特异性得分矩阵PSSM进行逐行标准化，然后使用长度为winsize的滑动窗口得到每个氨基酸残基的进化特征矩阵，将进化特征矩阵拉成长度为20Xwinsize的特征向量。3. 根据权利要求2所述的基于采样学习的蛋白质-配体绑定位点预测方法，其特征在于：在上述的步骤1中，将一个由n个氨基酸组成的蛋白质序列输入到PSIPRED程序，得到蛋白质序列的二级结构预测概率矩阵PSS，矩阵大小为nX3;再使用与前述同样大小的滑动窗口，得到每个氨基酸残基的二级结构信息矩阵；最后将二级结构信息矩阵拉成长度为 3Xwinsize的特征向量。4. 根据权利要求1所述的基于采样学习的蛋白质-配体绑定位点预测方法，其特征在于：在上述步骤3中，使用的KNN动态采样学习技术分别对绑定位点样本集与非绑定位点样本集进行采样。5. 根据权利要求1所述的基于采样学习的蛋白质-配体绑定位点预测方法，其特征在于：在上述步骤4中，所述的集成SVM，使用阈值分割的方法，确定每一个氨基酸残基是否属于绑定位点。6. 根据权利要求5所述的基于采样学习的蛋白质-配体绑定位点预测方法，其特征在于：使用阈值分割的方法确定每一个氨基酸残基是否属于绑定位点时，所选取该阈值取值范围为0~1，且满足以下条件：使得预测结果的马氏相关系数最大化。
【专利摘要】本发明提供了一种基于采样学习的蛋白质-配体绑定位点预测方法。首先利用PSI-BLAST与PSIPRED程序获取蛋白质的进化信息和二级结构信息，并使用滑动窗口技术抽取每个氨基酸残基(样本)的特征；其次，利用随机下采样技术，对非绑定位点的样本进行随机下采样，将得到的非绑定位点样本子集与绑定位点样本集训练一个SVM，用于预测所有待预测样本；再次，根据每一个待预测样本的特征信息，利用KNN动态采样学习技术，分别对绑定位点样本与非绑定位点样本进行采样学习，将采样后的绑定位点样本子集与非绑定位点样本子集合并训练一个特定的SVM，用于预测该待预测样本；最后，使用基于阈值的集成技术对训练好的两个SVM进行集成。该方法的优点在于：一是使用随机下采样与KNN动态采样学习技术，可以有效的降低训练集的规模，加快了模型的训练速度；二是使用KNN动态采样学习技术，能针对不同的待预测样本训练不同的SVM模型，有效的融入了待预测样本之间的差异性；三是使用SVM集成技术，有效的降低了采样学习导致的信息丢失，提高模型预测精度。
【IPC分类】G06F19/24, G06F19/18
【公开号】CN104992079
【申请号】CN201510368016
【发明人】胡俊, 何雪, 李阳, 於东军, 沈红斌, 杨静宇
【申请人】南京理工大学
【公开日】2015年10月21日
【申请日】2015年6月29日

完整全部详细技术资料下载

当前第2页1 2