本技术实施例涉及计算机,特别涉及一种亲和力预测方法、装置、计算机设备及存储介质。
背景技术:
1、抗原序列是免疫系统需要清除的物质,抗原序列能诱导机体发生免疫应答,并与免疫应答产生的抗体序列进行结合,发生免疫防御,对维护人体健康发挥重要作用。研究抗体序列对特定抗原序列的亲和力的大小,对于理解免疫系统至关重要,并进一步可以促进免疫治疗和疫苗的设计和研发。基于此,亟需一种预测抗原序列对特定抗原序列的亲和力的方法。
技术实现思路
1、本技术实施例提供了一种亲和力预测方法、装置、计算机设备及存储介质,能够提高预测亲和力的准确性。所述技术方案如下:
2、一方面,提供了一种亲和力预测方法,所述方法包括:
3、获取抗原序列信息和抗体序列信息,所述抗体序列信息包括抗体序列的轻链序列信息和重链序列信息,所述抗原序列信息表示抗原序列中的氨基酸,所述轻链序列信息表示所述抗体序列的轻链中的氨基酸,所述重链序列信息表示所述抗体序列的重链中的氨基酸;
4、分别对所述抗原序列信息、所述轻链序列信息和所述重链序列信息进行特征提取,得到抗原序列特征、轻链序列特征和重链序列特征;
5、对所述抗原序列特征、所述轻链序列特征和所述重链序列特征进行融合,得到融合序列特征;
6、对所述融合序列特征进行全连接,得到亲和力检测结果,所述亲和力检测结果表示所述抗体序列对所述抗原序列的亲和力。
7、可选地,所述抗原编码网络为训练后的网络,所述抗原编码网络的训练过程,包括:
8、获取第一抗原序列信息,将所述第一抗原序列信息中部分位置上的氨基酸信息进行掩码,得到第二抗原序列信息;
9、通过所述抗原编码网络,对所述第二抗原序列信息中被掩码的位置上的氨基酸信息进行预测,得到第一预测概率,所述第一预测概率表示预测得到的所述第一抗原序列信息中被掩码的位置上的氨基酸属于每种氨基酸的概率;
10、基于所述第一预测概率与第一真实概率,训练所述抗原编码网络,所述第一真实概率表示所述第一抗原序列信息中被掩码的位置上的氨基酸属于每种氨基酸的真实概率。
11、另一方面,提供了一种亲和力预测装置,所述装置包括:
12、信息获取模块,用于获取抗原序列信息和抗体序列信息,所述抗体序列信息包括抗体序列的轻链序列信息和重链序列信息,所述抗原序列信息表示抗原序列中的氨基酸,所述轻链序列信息表示所述抗体序列的轻链中的氨基酸,所述重链序列信息表示所述抗体序列的重链中的氨基酸;
13、特征提取模块,用于分别对所述抗原序列信息、所述轻链序列信息和所述重链序列信息进行特征提取,得到抗原序列特征、轻链序列特征和重链序列特征;
14、特征融合模块,用于对所述抗原序列特征、所述轻链序列特征和所述重链序列特征进行融合,得到融合序列特征;
15、全连接模块,用于对所述融合序列特征进行全连接,得到亲和力检测结果,所述亲和力检测结果表示所述抗体序列对所述抗原序列的亲和力。
16、可选地,所述亲和力检测结果是通过亲和力预测模型得到的,所述亲和力预测模型包括抗原编码网络、轻链编码网络和重链编码网络;所述特征提取模块,用于:
17、通过所述抗原编码网络,对所述抗原序列信息进行特征提取,得到所述抗原序列特征;
18、通过所述轻链编码网络,对所述轻链序列信息进行特征提取,得到所述轻链序列特征;
19、通过所述重链编码网络,对所述重链序列信息进行特征提取,得到所述重链序列特征。
20、可选地,所述特征提取模块,用于:
21、通过所述抗原编码网络,确定所述抗原序列信息的第一语义特征和第一空间特征,所述第一语义特征表示所述抗原序列信息中多个氨基酸的特征,所述第一空间特征表示所述抗原序列信息中多个氨基酸的位置的特征;对所述第一语义特征和所述第一空间特征进行特征提取,得到所述抗原序列特征。
22、可选地,所述特征提取模块,用于:
23、对所述第一语义特征和所述第一空间特征进行特征提取,得到第一键特征、第一值特征和第一查询特征;
24、对所述第一键特征、所述第一值特征和所述第一查询特征进行融合,得到候选抗原序列特征;
25、对所述候选抗原序列特征进行多次转换,得到所述抗原序列特征。
26、可选地,所述特征提取模块,用于:
27、通过所述轻链编码网络,确定所述轻链序列信息的第二语义特征和第二空间特征,所述第二语义特征表示所述轻链序列信息中多个氨基酸的特征,所述第二空间特征表示所述轻链序列信息中多个氨基酸的位置的特征;对所述第二语义特征和所述第二空间特征进行特征提取,得到所述轻链序列特征。
28、可选地,所述特征提取模块,用于:
29、对所述第二语义特征和所述第二空间特征进行特征提取,得到第二键特征、第二值特征和第二查询特征;
30、对所述第二键特征、所述第二值特征和所述第二查询特征进行融合,得到候选轻链序列特征;
31、对所述候选轻链序列特征进行多次转换,得到所述轻链序列特征。
32、可选地,所述特征提取模块,用于:
33、通过所述重链编码网络,确定所述重链序列信息的第三语义特征和第三空间特征,所述第三语义特征表示所述重链序列信息中多个氨基酸的特征,所述第三空间特征表示所述重链序列信息中多个氨基酸的位置的特征;对所述第三语义特征和所述第三空间特征进行特征提取,得到所述重链序列特征。
34、可选地,所述特征提取模块,用于:
35、对所述第三语义特征和所述第三空间特征进行特征提取,得到第三键特征、第三值特征和第三查询特征;
36、对所述第三键特征、所述第三值特征和所述第三查询特征进行融合,得到候选重链序列特征;
37、对所述候选重链序列特征进行多次转换,得到所述重链序列特征。
38、可选地,所述装置还包括第一训练模块,用于:
39、获取样本抗原序列信息、样本抗体序列信息和真实亲和力检测结果,所述样本抗体序列信息包括样本轻链序列信息和样本重链序列信息,所述真实亲和力检测结果表示所述样本抗体序列对所述样本抗原序列的真实的亲和力;
40、通过所述亲和力预测模型,分别对所述样本抗原序列信息、所述样本轻链序列信息和所述样本重链序列信息进行特征提取,得到样本抗原序列特征、样本轻链序列特征和样本重链序列特征;对所述样本抗原序列特征、所述样本轻链序列特征和所述样本重链序列特征进行融合,得到样本融合序列特征;对所述样本融合序列特征进行全连接,得到样本亲和力检测结果;
41、基于所述样本亲和力检测结果与所述真实亲和力检测结果,训练所述亲和力预测模型。
42、可选地,所述抗原编码网络为训练后的网络,所述装置还包括第二训练模块,用于:
43、获取第一抗原序列信息,将所述第一抗原序列信息中部分位置上的氨基酸信息进行掩码,得到第二抗原序列信息;
44、通过所述抗原编码网络,对所述第二抗原序列信息中被掩码的位置上的氨基酸信息进行预测,得到第一预测概率,所述第一预测概率表示预测得到的所述第一抗原序列信息中被掩码的位置上的氨基酸属于每种氨基酸的概率;
45、基于所述第一预测概率与第一真实概率,训练所述抗原编码网络,所述第一真实概率表示所述第一抗原序列信息中被掩码的位置上的氨基酸属于每种氨基酸的真实概率。
46、可选地,所述轻链编码网络为训练后的网络,所述装置还包括第三训练模块,用于:
47、获取第一轻链序列信息,将所述第一轻链序列信息中部分位置上的氨基酸信息进行掩码,得到第二轻链序列信息;
48、通过所述轻链编码网络,对所述第二轻链序列信息中被掩码的位置上的氨基酸信息进行预测,得到第二预测概率,所述第二预测概率表示预测得到的所述第一轻链序列信息中被掩码的位置上的氨基酸属于每种氨基酸的概率;
49、基于所述第二预测概率与第二真实概率,训练所述轻链编码网络,所述第二真实概率表示所述第一轻链序列信息中被掩码的位置上的氨基酸属于每种氨基酸的真实概率。
50、可选地,所述重链编码网络为训练后的网络,所述装置还包括第四训练模块,用于:
51、获取第一重链序列信息,将所述第一重链序列信息中部分位置上的氨基酸信息进行掩码,得到第二重链序列信息;
52、通过所述重链编码网络,对所述第二重链序列信息中被掩码的位置上的氨基酸信息进行预测,得到第三预测概率,所述第三预测概率表示预测得到的所述第一重链序列信息中被掩码的位置上的氨基酸属于每种氨基酸的概率;
53、基于所述第三预测概率与第三真实概率,训练所述重链编码网络,所述第三真实概率表示所述第一重链序列信息中被掩码的位置上的氨基酸属于每种氨基酸的真实概率。
54、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如上述方面所述的亲和力预测方法所执行的操作。
55、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如上述方面所述的亲和力预测方法所执行的操作。
56、另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序由处理器加载并执行,以实现如上述方面所述的亲和力预测方法所执行的操作。
57、本技术实施例提供的方案,在预测抗体序列与抗原序列之间的亲和力时,综合考虑了抗原序列中氨基酸的特征、抗体序列的轻链中氨基酸的特征和抗体序列的重链中氨基酸的特征,从重链与轻链两个方面,考虑抗原序列中氨基酸的特征与轻链中氨基酸的特征、重链中氨基酸的特征之间潜在的联系,从而预测抗体序列与抗原序列之间的亲和力,不仅考虑的因素较为全面,而且还划分了重链与轻链两个粒度,有利于提高预测亲和力的准确性。