本发明涉及抗体亲和性检测,特别是涉及一种hiv抗体亲和性预测方法、系统、计算机设备及存储介质。
背景技术:
1、hiv抗体是一种疾病抗体,可以有效抵抗hiv病毒。hiv病毒包膜蛋白是决定hiv病毒与广谱中和抗体(bnabs)相互作用的主要分子基础,其抗原多样性严重阻碍了有效抗病毒治疗药物或疫苗的研发。对靶向包膜蛋白gp160的广谱中和抗体相关研究指出,通过诱导免疫反应是一种极具前景的新型药物或疫苗开发途径。使用人工智能方法研究hiv病毒包膜蛋白是可行的。一些学者通常将hiv病毒按照其病毒包膜蛋白与抗体的亲和性分为敏感性和抗性两种类别,以二分类的形式进行非定量的分类研究。
2、然而,现有实验方法测定hiv抗体亲和性非常费时费力。已有一些计算方法用于预测hiv抗体亲和性,但存在抗体覆盖不足、精确度不高、不具备分子机制指征的问题。
技术实现思路
1、基于此,为了解决上述技术问题,提供一种hiv抗体亲和性预测方法、系统、计算机设备及存储介质,可以提高hiv抗体亲和性的预测性能。
2、一种hiv抗体亲和性预测方法,所述方法包括:
3、在数据库中检索hiv病毒蛋白与抗体的亲和性数据、抗体对应hiv病毒蛋白序列数据,并将ic50作为衡量亲和性的标准生成数据集;
4、对所述数据集进行数据预处理,得到输入数据集;
5、构建基准机器学习模型,将所述输入数据集分为第一训练集和第一测试集;使用所述第一训练集训练所述基准机器学习模型,并调整所述基准机器学习模型参数,输出第一亲和性预测数据,根据所述第一测试集得到第一训练结果;
6、构建循环神经网络模型,将所述输入数据集分为第二训练集、验证集、第二测试集,使用所述第二训练集训练所述循环神经网络模型,输出第二亲和性预测数据,根据所述第二测试集得到第二训练结果;
7、根据所述第一训练结果、所述第二训练结果确定亲和性预测结果。
8、在其中一个实施例中,所述在数据库中检索hiv病毒蛋白与抗体的亲和性数据、抗体对应hiv病毒蛋白序列数据,并将ic50作为衡量亲和性的标准生成数据集,包括:
9、在公用的catnap数据库中检索hiv病毒蛋白与实验测定的中和抗体亲和性数据;
10、将ic50作为定量的实验测定的抗体亲和性数据;
11、以中和抗体-hiv病毒蛋白-ic50的形式整理生成数据集。
12、在其中一个实施例中,所述公用的catnap数据库中存储有hiv病毒蛋白序列、抗体蛋白序列;在公用的catnap数据库中检索hiv病毒蛋白与实验测定的中和抗体亲和性数据,包括:
13、通过检索框采集检索指令;
14、根据所述检索指令,删除所述公用的catnap数据库中未记录序列的hiv病毒数据,筛选出hiv病毒蛋白与实验测定的中和抗体亲和性数据。
15、在其中一个实施例中,所述对所述数据集进行数据预处理,得到输入数据集,包括:
16、将所述数据集进行编码处理,将所述数据集中数据的特征编码为数值形式;
17、对数值形式的数据特征进行归一化处理,得到输入数据集;
18、数据的特征表示为氨基酸数字编码、独热编码、氨基酸物理化学性质编码。
19、在其中一个实施例中,所述基准机器学习模型包括决策树和随机森林;将所述输入数据集分为第一训练集和第一测试集;使用所述第一训练集训练所述基准机器学习模型,并调整所述基准机器学习模型参数,包括:
20、将所述输入数据集按照8:2的比例划分为第一训练集和第一测试集;
21、将所述第一训练集训练所述基准机器学习模型,并通过所述第一测试集对训练结果进行测试,得到测试结果;
22、根据所述测试结果调整所述基准机器学习模型参数。
23、在其中一个实施例中,所述循环神经网络模型中包括双向门控神经单元和双向长短期记忆网络;将所述输入数据集分为第二训练集、验证集、第二测试集,使用所述第二训练集训练所述循环神经网络模型,包括:
24、将所述输入数据集按8:1:1的比例划分为第二训练集、验证集、第二测试集;
25、将所述第二训练集训练所述循环神经网络模型,且将所述循环神经网络模型中的循环神经网络单元设置为gru或lstm,所述循环神经网络单元的输出作为全连接层的输入,在所述全连接层进行维度变换以及亲和性值的计算,得到所述循环神经网络模型的训练参数;
26、根据所述训练参数输出第二亲和性预测数据,根据所述验证集、所述第二测试集得到第二训练结果。
27、在其中一个实施例中,在所述全连接层进行维度变换以及亲和性值的计算,包括:
28、通过所述循环神经网络模型将所述输入数据集输入到双向循环神经单元、线性层中提取数据特征,输出抗体特征向量和病毒蛋白特征向量;
29、将所述抗体特征向量和病毒蛋白特征向量合并为一条特征向量输入到所述全连接层中,通过所述全连接层进行维度变换以及亲和性值的计算。
30、一种hiv抗体亲和性预测系统,所述系统包括:
31、数据集生成模块,用于在数据库中检索hiv病毒蛋白与抗体的亲和性数据、抗体对应hiv病毒蛋白序列数据,并将ic50作为衡量亲和性的标准生成数据集;
32、预处理模块,用于对所述数据集进行数据预处理,得到输入数据集;
33、基准机器学习模型训练模块,用于构建基准机器学习模型,将所述输入数据集分为第一训练集和第一测试集;使用所述第一训练集训练所述基准机器学习模型,并调整所述基准机器学习模型参数,输出第一亲和性预测数据,根据所述第一测试集得到第一训练结果;
34、循环神经网络模型训练模块,用于构建循环神经网络模型,将所述输入数据集分为第二训练集、验证集、第二测试集,使用所述第二训练集训练所述循环神经网络模型,输出第二亲和性预测数据,根据所述第二测试集得到第二训练结果;
35、亲和性预测模块,用于根据所述第一训练结果、所述第二训练结果确定亲和性预测结果。
36、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
37、在数据库中检索hiv病毒蛋白与抗体的亲和性数据、抗体对应hiv病毒蛋白序列数据,并将ic50作为衡量亲和性的标准生成数据集;
38、对所述数据集进行数据预处理,得到输入数据集;
39、构建基准机器学习模型,将所述输入数据集分为第一训练集和第一测试集;使用所述第一训练集训练所述基准机器学习模型,并调整所述基准机器学习模型参数,输出第一亲和性预测数据,根据所述第一测试集得到第一训练结果;
40、构建循环神经网络模型,将所述输入数据集分为第二训练集、验证集、第二测试集,使用所述第二训练集训练所述循环神经网络模型,输出第二亲和性预测数据,根据所述第二测试集得到第二训练结果;
41、根据所述第一训练结果、所述第二训练结果确定亲和性预测结果。
42、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
43、在数据库中检索hiv病毒蛋白与抗体的亲和性数据、抗体对应hiv病毒蛋白序列数据,并将ic50作为衡量亲和性的标准生成数据集;
44、对所述数据集进行数据预处理,得到输入数据集;
45、构建基准机器学习模型,将所述输入数据集分为第一训练集和第一测试集;使用所述第一训练集训练所述基准机器学习模型,并调整所述基准机器学习模型参数,输出第一亲和性预测数据,根据所述第一测试集得到第一训练结果;
46、构建循环神经网络模型,将所述输入数据集分为第二训练集、验证集、第二测试集,使用所述第二训练集训练所述循环神经网络模型,输出第二亲和性预测数据,根据所述第二测试集得到第二训练结果;
47、根据所述第一训练结果、所述第二训练结果确定亲和性预测结果。
48、上述hiv抗体亲和性预测方法、系统、计算机设备及存储介质,通过构建中和抗体-hiv病毒蛋白-ic50输入数据集,搭建基准机器学习模型、循环神经网络模型进行训练测试,比较两个模型亲和性定量预测性能,从而将性能更高的预测结果作为最终的亲和性预测结果,提高了hiv抗体亲和性的预测性能。