1.一种基于对比学习的生物合成表征方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于对比学习的生物合成表征方法,其特征在于,酶和酶的ec编号来自于uniprot数据库中提供的蛋白质生物功能信息。
3.根据权利要求1所述的基于对比学习的生物合成表征方法,其特征在于,所述生物合成反应数据来自于ecreact数据集提供的酶促反应数据,其中包含酶和酶催化的化学反应数据,所述酶催化的化学反应数据中包含化学反应的底物、产物和非产物,且底物、产物和非产物均为小分子。
4.根据权利要求3所述的基于对比学习的生物合成表征方法,其特征在于,所述生物合成表征模型包含酶的表征模型和小分子表征模型:
5.根据权利要求4所述的基于对比学习的生物合成表征方法,其特征在于,酶和ec编号间的损失函数最小化的过程,包括:
6.根据权利要求4所述的基于对比学习的生物合成表征方法,其特征在于,小分子表征模型中的图神经网络为预训练的图神经网络,预训练的过程,包括:
7.根据权利要求6所述的基于对比学习的生物合成表征方法,其特征在于,化学反应底物和产物间的损失函数最小化的过程,包括:
8.根据权利要求4所述的基于对比学习的生物合成表征方法,其特征在于,小分子和酶相互作用的损失函数最小化的过程,包括:
9.根据权利要求5所述的基于对比学习的生物合成表征方法,其特征在于,正样本选取训练样本集中与用于训练酶的表征模型的酶的ec编号相同的氨基酸序列,依次输入esm-1b模型和第一多层感知机中,得到正样本的表征;负样本选取训练样本集中与用于训练酶的表征模型的酶的ec编号不同的氨基酸序列,输入到esm-1b模型中,得到负样本的表征。
10.一种基于对比学习的生物合成表征模型,其特征在于,采用权利要求1-9任一项所述的基于对比学习的生物合成表征方法,包括训练样本集构建单元、表征模型训练单元、表征模型应用单元;