本发明涉及生物医药,具体涉及一种mhc分子和抗原表位亲和力确定方法、模型训练方法及装置。
背景技术:
1、主要组织相容性复合体(major histocompatibility complex,mhc)是一组和免疫应答密切相关、决定移植组织是否相容、紧密连锁的基因群。人的mhc 称为人类白细胞抗原(human leukocyte antigen,hla)基因复合体。mhc类分子与抗原表位亲和力可以影响t细胞免疫应答的效果和强度。
2、如果能准确预测mhc类分子与抗原表位亲和力,则可加速疫苗设计、肿瘤免疫治疗研究、自身免疫性基本研究等。
技术实现思路
1、有鉴于此,本发明提供了一种mhc分子和抗原表位亲和力确定方法、模型训练方法及装置,以解决如何准确预测mhc类分子与抗原表位亲和力的问题。
2、第一方面,本发明提供了一种mhc分子和抗原表位亲和力确定方法,方法包括:
3、获取待确定亲和力的mhc分子序列和抗原表位序列;
4、根据mhc分子序列和抗原表位序列,获取序列对相关信息;
5、基于mhc分子序列和抗原表位序列,获取描述符对相关信息;
6、利用预先训练的亲和力预测模型,基于序列对相关信息、和描述符对相关信息,进行mhc分子和抗原表位亲和力预测,输出预测结果。
7、在一种可选的实施方式中,亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块;
8、利用预先训练的亲和力预测模型,基于序列对相关信息、和描述符对相关信息,进行mhc分子和抗原表位亲和力预测,输出预测结果,包括:
9、第一特征提取模块对序列对相关信息进行特征提取,得到序列对特征;
10、第二特征提取模块对描述符对相关信息进行特征提取,得到描述符对特征;
11、预测模块基于序列对特征和描述符对特征,得到mhc分子和抗原表位亲和力的预测结果。
12、在一种可选的实施方式中,第一特征提取模块为star-transformer模型;和/或,
13、第二特征提取模块为vision transformer模型;和/或,
14、预测模块包括多个全连接网络。
15、在一种可选的实施方式中,根据mhc分子序列和抗原表位序列,获取序列对相关信息,包括:
16、分别将mhc分子序列和抗原表位序列进行词元切分,得到对应的mhc分子词元序列、抗原表位词元序列;
17、将mhc分子词元序列与抗原表位词元序列进行拼接,得到拼接词元序列;
18、将拼接词元序列中的每个词元进行嵌入特征表示,得到序列对相关信息。
19、在一种可选的实施方式中,将拼接词元序列中的每个词元进行嵌入特征表示,包括:
20、统计拼接词元序列中出现的词元;
21、获取拼接词元序列中出现的词元对应的词元嵌入特征;
22、按照拼接词元序列中各词元对应的词元嵌入特征,进行嵌入特征表示。
23、在一种可选的实施方式中,基于mhc分子序列和抗原表位序列,获取描述符对相关信息,包括:
24、基于mhc分子序列,计算预先确定的至少一个多肽描述符,得到mhc分子多肽描述符信息;
25、基于抗原表位序列,计算至少一个多肽描述符,得到抗原表位多肽描述符信息;
26、对mhc分子多肽描述符信息和抗原表位多肽描述符信息进行拼接,得到描述符对相关信息。
27、在一种可选的实施方式中,至少一个多肽描述符包括以下至少之一项:氨基酸组成、二肽组成、k-间隔氨基酸基团对的组成、伪氨基酸组成和理化性质。
28、第二方面,本发明提供了一种mhc分子和抗原表位亲和力预测模型的训练方法,包括:
29、获取多对样本mhc分子序列和样本抗原表位序列;
30、对于每一对样本mhc分子序列和样本抗原表位序列,根据样本mhc分子序列和样本抗原表位序列,获取样本序列对相关信息;
31、对于每一对样本mhc分子序列和样本抗原表位序列,基于样本mhc分子序列和样本抗原表位序列,获取样本描述符对相关信息;
32、获取每一对样本mhc分子序列和样本抗原表位序列所对应的亲和力标签;
33、建立初始亲和力预测模型;
34、利用多对样本mhc分子序列和样本抗原表位序列,所对应的样本序列对相关信息、样本描述符对相关信息和亲和力标签,对初始亲和力预测模型进行训练。
35、第三方面,本发明提供了一种mhc分子和抗原表位亲和力确定装置,该装置包括:
36、获取模块,用于获取待确定亲和力的mhc分子序列和抗原表位序列;
37、第一信息获取模块,用于根据mhc分子序列和抗原表位序列,获取序列对相关信息;
38、第二信息获取模块,用于基于mhc分子序列和抗原表位序列,获取描述符对相关信息;
39、预测模块,用于利用预先训练的亲和力预测模型,基于序列对相关信息、和描述符对相关信息,进行mhc分子和抗原表位亲和力预测,输出预测结果。
40、第四方面,本发明提供了一种mhc分子和抗原表位亲和力预测模型的训练装置,该装置包括:
41、样本获取模块,用于获取多对样本mhc分子序列和样本抗原表位序列;
42、第一样本信息获取模块,用于对于每一对样本mhc分子序列和样本抗原表位序列,根据样本mhc分子序列和样本抗原表位序列,获取样本序列对相关信息;
43、第二样本信息获取模块,用于对于每一对样本mhc分子序列和样本抗原表位序列,基于样本mhc分子序列和样本抗原表位序列,获取样本描述符对相关信息;
44、标签获取模块,用于获取每一对样本mhc分子序列和样本抗原表位序列所对应的亲和力标签;
45、模型建立模块,用于建立初始亲和力预测模型;
46、模型训练模块,用于利用多对样本mhc分子序列和样本抗原表位序列,所对应的样本序列对相关信息、样本描述符对相关信息和亲和力标签,对初始亲和力预测模型进行训练。
47、第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的mhc分子和抗原表位亲和力确定方法或者执行上述第二方面或其对应的任意实施方式的mhc分子和抗原表位亲和力预测模型的训练方法。
48、第六方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的mhc分子和抗原表位亲和力确定方法或者执行上述第二方面或其对应的任意实施方式的mhc分子和抗原表位亲和力预测模型的训练方法。
49、本发明具有以下技术效果:
50、本发明实施例提供的mhc分子和抗原表位亲和力确定方法、模型训练方法、装置、计算机设备及计算机可读存储介质,并非基于单一的序列对相关信息预测mhc分子和抗原表位亲和力,而是依据序列对相关信息、和基于mhc分子序列和抗原表位序列得到的描述符对相关信息,预测mhc分子和抗原表位亲和力,预测准确度得到了很大地提升。