MHC-I类分子与多肽结合预测方法与流程

文档序号:37170345发布日期:2024-03-01 12:15阅读:18来源:国知局
MHC-I类分子与多肽结合预测方法与流程

本发明涉及的是一种人工智能和生物医药交叉领域的技术,具体是一种基于多模态卷积神经网络和半监督学习的主要组织相容性复合体mhc-i类与多肽结合预测方法,可以应用于其他领域,如药物设计、分子诊断和生物医学研究等领域。


背景技术:

1、传统的mhc-i和肽段结合需要一系列生化实验来验证的,主要通过竞争结合实验的生化实验来测量的。实验中,已知量的mhc-i与标记化的肽段竞争结合,以测量未结合的mhc-i浓度。通过改变肽段的浓度,可以确定其与mhc-i结合浓度,从而计算出ic50值。这些实验需专用试剂、仪器和专业技能,因此在实际应用中存在一定的局限性。


技术实现思路

1、本发明针对现有预测方法仅依靠结合亲和力数据进行训练,忽略整个抗原呈递途径的生物学特征,提出通过预训练模型对数据集进行优化,采用多模态卷积神经网络模型对数据进行学习,能够有效提高肽段和等位基因结合预测的准确性;本发明只需利用肽段和mhc-i类分子序列的信息,而不需要额外的特征提取或编码,在大大提高数据的利用率的同时适用于多种mhc-i类分子等位基因。

2、本发明是通过以下技术方案实现的:

3、本发明涉及一种mhc-i类分子与多肽结合预测方法,通过采用竞争结合实验得到肽段和指定等位基因结合(ba)数据利用多模态卷积循环神经网络模型进行预训练,提高质谱洗脱配体后肽同时与多个等位基因结合(ms els-ma)数据和负样本可靠性;将所有处理后数据整合得到最终数据集,实现mhc-i类分子与多肽结合预测。

4、所述的多模态卷积循环神经网络:1d-cnn-lstm和2d-cnn,1d-cnn-lstm通过卷积和长短时记忆网络来捕捉序列中的模式;2d-cnn处理图像或二维结构化数据以有效地提取空间特征。

5、所述的预测方法,具体包括:

6、步骤1)数据收集:收集ms els-sa、ms els-ma和ba数据。

7、步骤2)结合力大小模型预训练:利用ba数据使用多模态特征神经网络算法进行训练,得到一个能够预测mhc-i类分子与多肽结合力大小的模型。

8、步骤3)半监督学习去噪优化数据集:利用结合力大小预训练模型对ms els-ma数据集正样本打伪标签将其转换成ms els-sa数据集以及去除模型预测的结合分较高的负样本,得到高质量负样本。

9、步骤4)结合概率神经网络训练:利用多模态特征的神经网络模型,使用优化后得到的最终数据集对模型进行训练,以预测mhc-i类分子与多肽结合的概率。

10、步骤5)模型验证:使用五折交叉验证的方法对结合概率神经网络模型进行训练和验证,确保其在不同数据集上都具有稳定的预测性能。

11、技术效果

12、本发明以多模态为特点,同时利用一维和二维信息,以提取序列特征,通过半监督学习方式得到高质量且数据量庞大的数据集,使得模型高准确率的预测出肽段和mhc-i类分子结合概率。



技术特征:

1.一种mhc-i类分子与多肽结合预测方法,其特征在于,通过采用竞争结合实验得到肽段和指定等位基因结合(ba)数据对构建得到的多模态卷积循环神经网络进行预训练以提高质谱洗脱配体后肽同时与多个等位基因结合(ms els-ma)数据和负样本可靠性;再将所有处理后数据整合得到最终数据集,实现mhc-i类分子与多肽结合预测;

2.根据权利要求1所述的mhc-i类分子与多肽结合预测方法,其特征是,具体包括:

3.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的1d-cnn-lstm中的1d卷积表示为:其中:yi是输出的第i个元素,σ是激活函数,wj是第j个卷积核的权重,xi+j是输入序列的第i+j个元素,b是偏置;长短期记忆网络表示为:ft=σ(wf·[ht-1,xt]+bf),it=σ(wi·[ht-1,xt]+bi),ot=σ(wo·[ht-1,xt]+bo),ht=ot·tanh(ct),其中:ft是遗忘门,it是输入门,ot是输出门,是候选单元状态,ct是单元状态,ht是输出。

4.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的2d-cnn中的2d卷积神经网络表示为:其中:yi,j是输出的第i,j个元素,σ是激活函数,wk,l是第k,l个卷积核的权重,xi+k,j+l是输入矩阵的第i+k,j+l个元素,k和l是卷积核的大小,b是偏置。

5.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的降维,通过多层感知机进行降维处理,具体为:给定输入特征向量x=(x1,x2,.......,x3)和对应的权重向量w=(w1,w2,......,wn),以及一个阈值b,感知机通过以下方式进行降维:其中,f是激活函数,该模型使用relu激活函数,通过使用多层得方式将y的维度降低,实现降维处理。

6.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的优化器使用adam优化器,该优化器中设置betas为(0.9,0.98),权重衰减为0.001。

7.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的余弦退火算法,将最高温度设定为第10轮学习时,此操作将会逐渐增加学习率,直到第10轮时达到最高值,然后学习率将会逐渐降低回初始值。

8.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的交叉熵损失函数用以计算模型输出和真实标签之间的损失。

9.根据权利要求2所述的mhc-i类分子与多肽结合预测方法,其特征是,所述的反向传播算法在正向传播计算模型输出与标签损失后,根据损失计算神经网络结构的梯度,确定每个模型参数的更新方向,从而更新模型参数。


技术总结
一种MHC‑I类分子与多肽结合预测方法,通过采用竞争结合实验得到肽段和指定等位基因结合(BA)数据对构建得到的多模态卷积循环神经网络进行预训练以提高质谱洗脱配体后肽同时与多个等位基因结合(MS ELs‑MA)数据和负样本可靠性;再将所有高质量数据整合得到最终数据集,实现MHC‑I类分子与多肽结合预测。本发明能够有效提高肽段和等位基因结合预测的准确性;本发明只需利用肽段和MHC‑I类分子序列的信息,而不需要额外的特征提取或编码,在大大提高数据的利用率的同时适用于多种MHC‑I类分子等位基因,能够更全面地捕捉肽与MHC‑I结合的生物学特征,从而显著提高预测性能。

技术研发人员:袁野
受保护的技术使用者:上海数因信科智能科技有限公司
技术研发日:
技术公布日:2024/2/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1