本申请涉及生物信息学,尤其涉及一种用于确定抗体序列结构的技术。
背景技术:
1、抗体是一种重要的蛋白质,广泛应用于医药、生物学等领域。抗体结构可以提供对抗体的分子结构、构象和特定功能位点的信息,有助于理解抗体的特定结构与其功能之间的关系。通过对抗体结构进行预测和分析,可以为药物设计提供有价值的信息,通过计算模拟和分析,以改进抗体的特性,例如增强结合亲和力、减少免疫原性、提高稳定性等。目前,主流的抗体结构获取方法是通过x射线晶体学、核磁共振等技术来获取抗体结构,但是这些实验在时间和金钱上都耗费巨大。虽然现在已经出现利用深度神经网络、大规模结构采样等计算方法来预测抗体结构的方法,但是由于抗体互补决定区(complementaritydetermining region,cdr)极其多样化、目前已知结构的抗体样本相对较少,限制了上述计算方法预测抗体结构的准确性与普适性。
技术实现思路
1、本申请的一个目的是提供一种用于确定抗体序列结构的方法与设备。
2、根据本申请的一个方面,提供了一种用于确定抗体序列结构的方法,该方法包括:
3、基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;
4、基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;
5、基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;
6、基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。
7、根据本申请的一个方面,提供了一种用于确定抗体序列结构的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如上所述任一方法的步骤。
8、根据本申请的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
9、根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
10、根据本申请的一个方面,提供了一种用于确定抗体序列结构的设备,该设备包括:
11、一一模块,用于基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;
12、一二模块,用于基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;
13、一三模块,用于基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;
14、一四模块,用于基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。
15、与现有技术相比,本申请通过基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。本申请利用蛋白质语言模型,先训练通用的蛋白质结构预测模型再结合抗体结构对该模型进行调整,确定相应的抗体结构预测模型来进行抗体结构的预测,从而减少对抗体样本的数量需求、提升抗体结构预测模型的泛化性、提高结构预测准确性和效率。
1.一种用于确定抗体序列结构的方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,所述基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型还包括:
3.根据权利要求2所述的方法,其中,所述预处理操作包括以下至少任一项:
4.根据权利要求3所述的方法,其中,所述预处理操作包括对所述第三蛋白质序列进行过滤,所述对所述第三蛋白质序列执行预处理操作,得到所述第一蛋白质序列包括:
5.根据权利要求1所述的方法,其中,所述基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型包括:
6.根据权利要求1所述的方法,其中,所述基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型包括:
7.根据权利要求6所述的方法,其中,所述基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,训练获得所述蛋白质结构预测模型包括:
8.根据权利要求1所述的方法,其中,所述基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型包括:
9.根据权利要求1所述的方法,其中,所述基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息包括:
10.根据权利要求1所述的方法,其中,所述方法还包括:
11.根据权利要求10所述的方法,其中,所述对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息包括:
12.一种用于确定抗体序列结构的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至11中任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至11中任一项所述方法的步骤。