基于迁移学习的生物大分子体系数据库构建方法及系统与流程

文档序号:31786261发布日期:2022-10-12 13:35阅读:49来源:国知局
基于迁移学习的生物大分子体系数据库构建方法及系统与流程

1.本发明涉及数据库构建领域,特别是涉及一种基于迁移学习的生物大分子体系数据库构建方法及系统。


背景技术:

2.生物大分子是指生物体细胞内存在的蛋白质、dna、rna、多肽、多糖等大分子。生物大分子是生物体的重要组成成分,其复杂结构决定了它们的特殊性质,它们在体内的运动和变化体现着重要的生命功能。如进行新陈代谢供给维持生命需要的能量与物质、传递遗传信息、控制胚胎分化、促进生长发育、产生免疫功能等。因此,生物大分子结构和功能的研究一直以来都是一个非常重要且具有挑战性的研究课题。当前,基于经验、半经验、力场和量子力学计算方法以及实验测量技术在生物大分子体系中的应用场景可以分为三大类:
3.(1)独立生物大分子体系的研究(如蛋白质、dna、rna、多肽、多糖的稳定性、活性的评估、结构预测等);
4.(2)生物大分子和小分子/离子体系相互作用的研究(如蛋白质与药物小分子之间的相互作用、酶和金属化合物之间的相互作用等);
5.(3)生物大分子之间相互作用的研究(如蛋白质与蛋白质之间的相互作用、酶与肽链之间的相互作用、蛋白质与多肽类药物之间的相互作用等)。
6.在过去的几十年里,经验和半经验等计算方法已被广泛用于生物大分子研究,在原子水平上的生物大分子结构预测取得了革命性进展,但是,这些方法的计算精度限制于原子和分子水平,无法在电子结构水平上对生物大分子结构稳定性以及相互作用进行精确地计算和解释,更无法满足对生物大分子体系进行从头算动力学模拟的需求。量子力学方法能够准确描述原子体系的电子结构,而不依赖与任何经验参数,从而被认为是物理学、化学和生物学中最可靠的计算方法。然而,量子力学方法的时间复杂度非常高,导致计算的成本很大,极大地阻碍了全体系量子力学计算在生物大分子中的应用。此外,基于实验测量手段的生物大分子体系研究也需要耗费巨大的资源和成本。这些挑战进一步造成了当前具有高保真度的生物大分子体系数据库难以建立,阻碍了生物信息学和生命科学的快速发展。
7.机器学习的应用与发展为生物大分子体系的研究开辟了新的途径。机器学习旨在通过大数据挖掘和模式识别,从海量的生物大分子体系数据中挖掘潜在的物理化学机制,并建立高精度、高效率的构效关系,来预测生物大分子的性质以及设计理想的生物大分子。一旦机器学习模型建立完成,利用模型完成预测的时间和成本可忽略不计。但是,机器学习在生物大分子建模与数据库开发中仍然存在重大的挑战:
8.(1)利用高精度量子力学或实验测量方法获得的高保真度数据集所需要的成本过高。如使用经验力场计算生物大分子力场,所需要的计算成本低,但模型的精度也低;如使用ωb97xd/6-31g*泛函计算生物大分子的力场,计算成本和模型的精度都升高;而使用双杂化泛函dsd-blyp/def2-tzvpp计算生物大分子的力场,计算成本和模型的精度都非常高。因此,使用机器学习建模为了达到较高的预测精度,往往需要足够多的、使用高精度泛函计
算或实验测量的高保真数据来捕捉结构和生物大分子势能面之间的相关性,这不可避免地在数据标注上消耗大量的时间成本。
9.(2)生物大分子体系之间的连通性低,导致机器学习方法的适用性、可扩展性低。对于生物大分子和小分子/离子体系相互作用的研究(如蛋白质与药物小分子之间的相互作用、酶和金属化合物之间的相互作用等),传统迁移学习方法采用的策略是在某种或某几种特定的蛋白质与不同的药物小分子/离子之间建立模型,以预测这种或这几种蛋白质与其他不同药物小分子/离子之间的相互作用。这种方法无法扩展至其他不同的蛋白质体系中,或在其他蛋白质体系中所需要的数据标注成本过高。生物大分子之间相互作用的研究(如蛋白质与蛋白质之间的相互作用、酶与肽链之间的相互作用、蛋白质与多肽类药物之间的相互作用等)也存在着相同的问题。
10.针对生物大分子体系的三大应用场景,如何利用较低的成本建立一个高精度的、适用性强的构效关系,并开发具有高保真度的数据库,在生命、化学科学中是一个尚待解决的难题。


技术实现要素:

11.本发明的目的是提供一种基于迁移学习的生物大分子体系数据库构建方法及系统,以解决采用高保真度数据集建模成本过高、通用性差的问题。
12.为实现上述目的,本发明提供了如下方案:
13.一种基于迁移学习的生物大分子体系数据库构建方法,包括:
14.获取生物大分子数据建模的原任务和目标任务;所述原任务包括原输入数据以及原输出数据;所述目标任务包括目标输入数据以及目标输出数据;所述原输入数据以及所述目标输入数据均为独立的生物大分子结构,生物大分子和小分子/离子的复合结构,或,生物大分子和生物大分子的复合结构;所述原输出数据为所述原输入数据对应的生物大分子性质,所述目标输出数据为所述目标输入数据的对应的生物大分子性质;两个所述生物大分子性质均为稳定性、活性、结合能、能量、原子受力或空间结构;
15.根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度,确定迁移类型;所述迁移类型包括纵向迁移、横向迁移以及交叉迁移;
16.基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型;
17.基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型;
18.根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库;所述生物大分子体系数据库为独立生物大分子体系的结构-属性数据库,生物大分子和小分子/离子体系的复合结构-属性数据库,或,生物大分子与生物大分子的复合结构-属性数据库;所述生物大分子体系数据库用于研究独立的生物大分子体系,研究生物大分子和小分子/离子体系的相互作用,或,研究生物大分子之间的相互作用。
19.可选的,所述纵向迁移为所述原输入数据与所述目标输入数据相同,所述原输出数据的保真度与所述目标输出数据的保真度不同;
20.所述横向迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保
真度与所述目标输出数据的保真度相同;
21.所述交叉迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保真度与所述目标输出数据的保真度不同。
22.可选的,所述基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型,具体包括:
23.基于所述迁移类型,以所述原输入数据的特征为输入,以所述原输出数据为输出,利用机器学习算法,随机初始化所述机器学习算法所建立的机器学习模型的参数,建立原任务模型;所述特征包括组成特征以及结构特征;所述组分特征包括电负性、电离能、原子序数、价电子数、共价半径以及极化率;所述结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图;所述机器学习模型根据所述原输出数据的格式建立。
24.可选的,所述基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型,具体包括:
25.基于所述迁移类型,以所述目标输入数据的特征为输入,以所述目标输出数据为输出,将所述机器学习模型的参数为所述目标任务中机器学习模型的初始点,对所述目标任务中机器学习模型进行调整,构建目标任务模型。
26.一种基于迁移学习的生物大分子体系数据库构建系统,包括:
27.原任务和目标任务获取模块,用于获取生物大分子数据建模的原任务和目标任务;所述原任务包括原输入数据以及原输出数据;所述目标任务包括目标输入数据以及目标输出数据;所述原输入数据以及所述目标输入数据均为独立的生物大分子结构,生物大分子和小分子/离子的复合结构,或,生物大分子和生物大分子的复合结构;所述原输出数据为所述原输入数据对应的生物大分子性质,所述目标输出数据为所述目标输入数据的对应的生物大分子性质;两个所述生物大分子性质均为稳定性、活性、结合能、能量、原子受力或空间结构;
28.迁移类型确定模块,用于根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度,确定迁移类型;所述迁移类型包括纵向迁移、横向迁移以及交叉迁移;
29.原任务模型建立模块,用于基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型;
30.目标任务模型建立模块,用于基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型;
31.生物大分子体系数据库建立模块,用于根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库;所述生物大分子体系数据库为独立生物大分子体系的结构-属性数据库,生物大分子和小分子/离子体系的复合结构-属性数据库,或,生物大分子与生物大分子的复合结构-属性数据库;所述生物大分子体系数据库用于研究独立的生物大分子体系,研究生物大分子和小分子/离子体系的相互作用,或,研究生物大分子之间的相互作用。
32.可选的,所述纵向迁移为所述原输入数据与所述目标输入数据相同,所述原输出数据的保真度与所述目标输出数据的保真度不同;
33.所述横向迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保
真度与所述目标输出数据的保真度相同;
34.所述交叉迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保真度与所述目标输出数据的保真度不同。
35.可选的,所述原任务模型建立模块,具体包括:
36.原任务模型建立单元,用于基于所述迁移类型,以所述原输入数据的特征为输入,以所述原输出数据为输出,利用机器学习算法,随机初始化所述机器学习算法所建立的机器学习模型的参数,建立原任务模型;所述特征包括组成特征以及结构特征;所述组分特征包括电负性、电离能、原子序数、价电子数、共价半径以及极化率;所述结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图;所述机器学习模型根据所述原输出数据的格式建立。
37.可选的,所述目标任务模型建立模块,具体包括:
38.目标任务模型建立单元,用于基于所述迁移类型,以所述目标输入数据的特征为输入,以所述目标输出数据为输出,将所述机器学习模型的参数为所述目标任务中机器学习模型的初始点,对所述目标任务中机器学习模型进行调整,构建目标任务模型。
39.根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于迁移学习的生物大分子体系数据库构建方法及系统,基于迁移类型建立原任务模型以及目标任务模型,与传统建模方法相比,所用到的输入数据以及输出数据大幅度降低,在保证高保真度的同时降低了建模成本;同时,所构建的生物大分子体系数据库可以为独立生物大分子体系的结构-属性数据库,生物大分子和小分子/离子体系的复合结构-属性数据库,或,生物大分子与生物大分子的复合结构-属性数据库,能够扩展到其他生物大分子体系中,用于独立的生物大分子体系的研究,生物大分子和小分子/离子体系相互作用的研究,或,生物大分子之间相互作用的研究,大大提高本发明的通用性。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1为本发明所提供的基于迁移学习的生物大分子体系数据库构建方法流程图;
42.图2为本发明所提供的基于迁移学习的生物大分子体系数据库开发架构图;
43.图3为本发明所提供的基于迁移学习的生物大分子体系数据库构建系统结构图;
44.图4为本发明实施例1所提供的迁移学习蛋白质的能量预测图;
45.图5为本发明实施例1所提供的迁移学习对蛋白质的原子受力预测图;
46.图6为本发明实施例2所提供的迁移学习对dna的能量预测图;
47.图7为本发明实施例2所提供的迁移学习对dna的原子受力预测图;
48.图8为本发明实施例3所提供的迁移学习对rna的能量预测图;
49.图9为本发明实施例3所提供的迁移学习对rna的原子受力预测图;
50.图10为本发明实施例4所提供的迁移学习对s蛋白质对药物小分子的结合能预测图;
51.图11为本发明实施例4所提供的迁移学习对nmda蛋白质与药物小分子的结合能预测图;
52.图12为本发明实施例5所提供的基于迁移学习的rna能量预测图。
具体实施方式
53.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.本发明的目的是提供一种基于迁移学习的生物大分子体系数据库构建方法及系统,能够降低成本,提高生物大分子体系数据库的通用性。
55.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
56.本发明首先定义生物大分子数据建模的原任务和目标任务,原任务和目标任务的输入数据、输出数据,以及定义迁移学习方法的类型。所针对的生物大分子体系可以是蛋白质、dna、rna、多糖等任意生物大分子体系。所针对的建模任务可以是独立生物大分子体系的研究(如蛋白质、dna、rna、多肽、多糖的稳定性、活性的评估、结构预测等);也可以是生物大分子和小分子/离子体系相互作用的研究(如蛋白质与药物小分子之间的相互作用、酶和金属化合物之间的相互作用等);还可以是生物大分子之间相互作用的研究(如蛋白质与蛋白质之间的相互作用、酶与肽链之间的相互作用、蛋白质与多肽类药物之间的相互作用等)。
57.然后,以原任务的输入数据和输出数据作为数据集,建立合适的特征工程,选择合适的机器学习算法,并进行随机的参数初始化,建立构效关系模型,且满足高精度和高效率。接着,以目标任务的输入数据和输出数据作为数据集,建立合适的特征工程,将得到的原任务的机器学习模型为模型的初始点,对目标任务的机器学习模型进行微调,再次建立构效关系模型,实现模型的迁移,且满足高精度和高效率。最终根据两次建立的构效关系模型,构建目标研究体系的生物大分子体系数据库。基于迁移学习构建的生物大分子体系数据库大幅降低计算和实验上的成本,使得小数据建模成为可能,迁移学习有望成为生物大分子体系数据库建设的新范式。
58.图1为本发明所提供的基于迁移学习的生物大分子体系数据库构建方法流程图,如图1所示,一种基于迁移学习的生物大分子体系数据库构建方法,包括:
59.步骤101:获取生物大分子数据建模的原任务和目标任务;所述原任务包括原输入数据以及原输出数据;所述目标任务包括目标输入数据以及目标输出数据;所述原输入数据以及所述目标输入数据均为独立的生物大分子结构,生物大分子和小分子/离子的复合结构,或,生物大分子和生物大分子的复合结构;所述原输出数据为所述原输入数据对应的生物大分子性质,所述目标输出数据为所述目标输入数据的对应的生物大分子性质;两个所述生物大分子性质均为稳定性、活性、结合能、能量、原子受力或空间结构。
60.步骤102:根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度,确定迁移类型;所述迁移类型包括纵向迁移、横向迁移以及
交叉迁移。
61.所述纵向迁移为所述原输入数据与所述目标输入数据相同,所述原输出数据的保真度与所述目标输出数据的保真度不同;所述横向迁移为所述原输入数据与所述原输入数据不同,所述原输出数据的保真度与所述目标输出数据的保真度相同;所述交叉迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保真度与所述目标输出数据的保真度不同。
62.步骤103:基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型。
63.所述基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型,具体包括:基于所述迁移类型,以所述原输入数据的特征为输入,以所述原输出数据为输出,利用机器学习算法,随机初始化所述机器学习算法所建立的机器学习模型的参数,建立原任务模型;所述特征包括组成特征以及结构特征;所述组分特征包括电负性、电离能、原子序数、价电子数、共价半径以及极化率;所述结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图;所述机器学习模型根据所述原输出数据的格式建立。
64.步骤104:基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型。
65.所述基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型,具体包括:基于所述迁移类型,以所述目标输入数据的特征为输入,以所述目标输出数据为输出,将所述机器学习模型的参数为所述目标任务中机器学习模型的初始点,对所述目标任务中机器学习模型进行调整,构建目标任务模型。
66.步骤105:根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库;所述生物大分子体系数据库为独立生物大分子体系的结构-属性数据库,生物大分子和小分子/离子体系的复合结构-属性数据库,或,生物大分子与生物大分子的复合结构-属性数据库;所述生物大分子体系数据库用于研究独立的生物大分子体系,研究生物大分子和小分子/离子体系的相互作用,或,研究生物大分子之间的相互作用。
67.图2为本发明所提供的基于迁移学习的生物大分子体系数据库开发架构图,如图2所示,步骤如下:
68.a、定义生物大分子数据建模的原任务和目标任务,原任务和目标任务的输入数据、输出数据;定义迁移学习方法的类型。
69.所述步骤a中原任务和目标任务分别代表具有大样本和小样本的生物大分子数据的建模任务。
70.所述步骤a中原任务和目标任务可以是独立生物大分子体系的研究(如蛋白质、dna、rna、多肽、多糖的稳定性、活性的评估、结构预测等);可以是生物大分子和小分子/离子体系相互作用的研究(如蛋白质与药物小分子之间的相互作用、酶和金属化合物之间的相互作用等);也可以是生物大分子之间相互作用的研究(如蛋白质与蛋白质之间的相互作用、酶与肽链之间的相互作用、蛋白质与多肽类药物之间的相互作用等)。
71.所述步骤a中原任务的输入数据可以是独立的生物大分子结构、生物大分子和小分子/离子的复合结构、以及生物大分子和生物大分子的复合结构。
72.输出数据是和输入数据对应的生物大分子性质(即目标性质),如稳定性、活性、结合能、能量、原子受力以及空间结构等。其输出数据可以通过较低的成本获得,数据保真度较低。
73.所述步骤a中目标任务的输入数据可以是独立的生物大分子结构、生物大分子和小分子/离子的复合结构、以及生物大分子和生物大分子的复合结构。输出数据是和输入数据对应的生物大分子性质,如稳定性、活性、结合能、能量、原子受力以及空间结构等。其输出数据可以通过较高的成本获得,数据保真度较高。
74.所述步骤a中,若原任务和目标任务的输入数据相同(或同分布),输出数据的保真度不同,则定义为“纵向迁移”。
75.如,原任务的输入数据是ala多肽的结构,输出数据是在ωb97xd/6-31g*泛函计算精度下(低保真度)的ala多肽的力场;目标任务的输入数据是ala多肽的结构,输出数据是在dsd-blyp/def2-tzvpp泛函计算精度下(高保真度)的ala多肽的力场。
76.再如,原任务的输入数据是病毒s蛋白(以新冠病毒s蛋白为例)和不同药物小分子的复合结构,输出数据是力场计算精度下(低保真度)的结合能;目标任务的输入数据是新冠病毒s蛋白和不同药物小分子的复合结构,输出数据是量子力学/实验测量下(高保真度)的结合能。
77.所述步骤a中,若原任务和目标任务的输入数据不同,输出数据的保真度相同,则定义为“横向迁移”。
78.如,原任务的输入数据是ala多肽的结构,输出数据是dsd-blyp/def2-tzvpp泛函计算精度下(高保真度)的ala多肽的力场;目标任务的输入数据是gly多肽的结构,输出数据是dsd-blyp/def2-tzvpp泛函计算精度下(高保真度)的gly多肽的力场。
79.再如,原任务的输入数据是新冠病毒s蛋白和不同药物小分子的复合结构,输出数据是量子力学/实验测量下(高保真度)的结合能;目标任务的输入数据是nmda受体和不同药物小分子的复合结构,输出数据是量子力学/实验测量下(高保真度)的结合能。
80.所述步骤a中,若原任务和目标任务的输入数据不同,输出数据的保真度也不同,则定义为“交叉迁移”。
81.如,原任务的输入数据是ala多肽的结构,输出数据是ωb97xd/6-31g*泛函计算精度下(低保真度)的ala多肽的力场;目标任务的输入数据是gly多肽的结构,输出数据是dsd-blyp/def2-tzvpp泛函计算精度下(高保真度)的gly多肽的力场。
82.再如,原任务的输入数据是新冠病毒s蛋白和不同药物小分子的复合结构,输出数据是力场计算精度下(低保真度)的结合能;目标任务的输入数据是抗抑郁的nmda受体和不同药物小分子的复合结构,输出数据是量子力学/实验测量下(高保真度)的结合能。
83.b、在原任务上建立原任务模型:以步骤a中原任务的原输入数据和目标输出数据作为数据集,建立合适的特征工程,选择合适的机器学习算法,并进行随机的参数初始化,建立构效关系模型(原任务模型),且满足高精度和高效率。
84.所述步骤b中特征工程根据原任务中的输入数据的格式来建立。由于输入数据包含原子坐标信息的生物大分子结构,则建立与结构相关的特征,如局部化学环境描述符、径向分布函数rdf、内坐标,以及通过分子图建立的图特征向量等。在实际应用中,特征工程包括组分特征以及结构特征,组分特征包括电负性、电离能、原子序数、价电子数、共价半径以
及极化率等,结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图等。
85.所述步骤b中机器学习算法根据原任务中的输出数据的格式来建立。若输出的是离散数值,如稳定/不稳定,能量的高/低,则机器学习算法应选择分类算法;若输出的是连续数值,如能量,原子受力,结合能,活性大小等,则机器学习算法应选择回归算法。机器学习算法还有支持向量机、决策树、随机森林、朴素贝叶斯以及深度神经网络等。
86.所述步骤b中的机器学习模型的参数初始化可采用random等函数。
87.所述步骤b中所建立的高精度、高效率的原任务模型,相对误差不超过10%(或达到实际应用需求),在预测速度上比传统的实验方法和计算方法快至少5个数量级。
88.c、在目标任务上建立目标任务模型:以步骤a中目标任务的输入数据和输出数据作为数据集,建立合适的特征工程,将步骤b中得到的原任务的机器学习模型为目标任务中机器学习模型的初始点,对该模型进行微调,再次建立构效关系模型(目标任务模型),且满足高精度和高效率。
89.所述步骤c中特征工程与步骤a中的特征工程一致。
90.所述步骤c中采用的机器学习模型与步骤b中的机器学习模型相同。
91.所述步骤c中模型的初始点表示以步骤b中得到的机器学习模型的参数作为初始化参数,而不采用随机初始化的方式。
92.所述步骤c中对模型进行微调的方式有两种:1)将所有的参数进行微调;2)固定部分参数,只微调剩下的参数。
93.所述步骤c中所建立的高精度、高效率的目标任务模型,与步骤b中得到的原任务模型在一个水平。相对误差(或误判率)不超过15%(或达到实际应用需求),在预测速度上比传统的实验方法和计算方法快至少5个数量级。
94.d、结合步骤b和步骤c中得到的构效关系模型,完成生物大分子体系的数据库建设。
95.所述步骤d中,数据库的建设与原任务和目标任务相对应。生物大分子体系数据库可以是独立生物大分子体系的结构-属性数据库(如蛋白质、dna、rna、多肽、多糖的稳定性、活性数据库等);可以是生物大分子和小分子/离子体系的复合结构-属性数据库(如蛋白质与药物小分子的结合能数据库、酶和金属化合物的结合能数据库);也可以是生物大分子与生物大分子的复合结构-属性数据库(如蛋白质与蛋白质的结合能数据库、酶与肽链的结合能数据库、蛋白质与多肽类药物的结合能数据库)。
96.所述步骤d中数据库的保真度与目标任务的输出数据保真度相对应。数据的保真度可以是在经验、半经验、力场、量子力学方法或实验测量的水平。
97.图3为本发明所提供的基于迁移学习的生物大分子体系数据库构建系统结构图,如图3所示,本发明还提供了一种基于迁移学习的生物大分子体系数据库构建系统,包括:
98.原任务和目标任务获取模块301,用于获取生物大分子数据建模的原任务和目标任务;所述原任务包括原输入数据以及原输出数据;所述目标任务包括目标输入数据以及目标输出数据;所述原输入数据以及所述目标输入数据均为独立的生物大分子结构,生物大分子和小分子/离子的复合结构,或,生物大分子和生物大分子的复合结构;所述原输出数据为所述原输入数据对应的生物大分子性质,所述目标输出数据为所述目标输入数据的
对应的生物大分子性质;两个所述生物大分子性质均为稳定性、活性、结合能、能量、原子受力或空间结构。
99.迁移类型确定模块302,用于根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度,确定迁移类型;所述迁移类型包括纵向迁移、横向迁移以及交叉迁移。
100.所述纵向迁移为所述原输入数据与所述目标输入数据相同,所述原输出数据的保真度与所述目标输出数据的保真度不同;
101.所述横向迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保真度与所述目标输出数据的保真度相同;
102.所述交叉迁移为所述原输入数据与所述目标输入数据不同,所述原输出数据的保真度与所述目标输出数据的保真度不同。
103.原任务模型建立模块303,用于基于所述迁移类型,根据所述原输入数据以及所述原输出数据建立原任务模型。
104.所述原任务模型建立模块303,具体包括:原任务模型建立单元,用于基于所述迁移类型,以所述原输入数据的特征为输入,以所述原输出数据为输出,利用机器学习算法,随机初始化所述机器学习算法所建立的机器学习模型的参数,建立原任务模型;所述特征包括组成特征以及结构特征;所述组分特征包括电负性、电离能、原子序数、价电子数、共价半径以及极化率;所述结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图;所述机器学习模型根据所述原输出数据的格式建立。
105.目标任务模型建立模块304,用于基于所述迁移类型,根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整,建立目标任务模型。
106.所述目标任务模型建立模块304,具体包括:目标任务模型建立单元,用于基于所述迁移类型,以所述目标输入数据的特征为输入,以所述目标输出数据为输出,将所述机器学习模型的参数为所述目标任务中机器学习模型的初始点,对所述目标任务中机器学习模型进行调整,构建目标任务模型。
107.生物大分子体系数据库建立模块305,用于根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库;所述生物大分子体系数据库为独立生物大分子体系的结构-属性数据库,生物大分子和小分子/离子体系的复合结构-属性数据库,或,生物大分子与生物大分子的复合结构-属性数据库;所述生物大分子体系数据库用于研究独立的生物大分子体系,研究生物大分子和小分子/离子体系的相互作用,或,研究生物大分子之间的相互作用。
108.下面以不同的迁移类型的具体实施例阐述本发明的技术方案。
109.实施例1
110.对于独立生物大分子体系的研究,实现蛋白质力场构建从低保真度(力场计算)到高保真度(ωb97xd/6-31g*)的“纵向迁移”。
111.首先定义原任务和目标任务,以及对应的输入和输出数据集。原任务是蛋白质的低精度泛函水平的势能面构建,其输入数据是蛋白质的不同坐标结构,输出数据是每个结构坐标数据对应的能量和原子受力,其通过力场计算获得。原任务的数据量为2000。目标任务是蛋白质的高精度泛函水平的势能面构建,其输入数据是蛋白质的不同坐标结构,输出
数据是每个结构坐标数据对应的能量和原子受力,其通过ωb97xd/6-31g*计算获得。原任务的数据量为200,为原任务的1/10。
112.如图4-图5所示,以原任务的输入数据和输出数据作为数据集,建立蛋白质的低精度泛函水平的势能面模型。由于输入数据是结构坐标数据,因此建立结构描述符作为特征。从每个原子的局部化学环境出发,以为阈值寻找每一个原子的邻居原子,再依次用三个原子构建笛卡尔坐标系(xyz三个轴),再计算径向和角度的分布,从而得到结构描述符矩阵。机器学习模型采用深度神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型,原子受力通过能量对坐标的一阶导数获得。模型开始训练时,神经网络中的参数进行随机初始化,并初始学习率设置为0.005,且随着模型的迭代逐步降低。最终得到高精度、高效率的原任务模型,能量预测的均方根误差小于1.0kcal/mol,原子受力的均方根误差小于
113.以目标任务的输入数据和输出数据作为数据集,建立蛋白质的高精度泛函水平的势能面模型。同样地,由于输入数据是结构坐标数据,因此建立与原任务相同的结构描述符作为特征。机器学习模型同样采用神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型。模型开始训练时,将原任务中最终得到的神经网络参数作为本次神经网络初始点,实现模型的迁移,并设置初始学习率为0.001,且随着模型的迭代逐步降低。最终得到高精度、高效率的目标任务模型,能量预测的均方根误差小于2.0kcal/mol,原子受力的均方根误差小于预测速度比量子力学方法计算快6个数量级。
114.将目标任务模型与量子分块算法结合,即可构建整个蛋白质的在ωb97xd/6-31g*泛函水平的势能面。其中,原任务分别使用了2000个数据,是为了保证模型的可靠性和精度。而目标任务只分别使用了200个数据,大幅降低了数据成本。该迁移学习方法可以被进一步扩展至其他泛函水平的蛋白质力场构建,对于按需设计相应精度水平的力场具有直接的指导意义。基于该迁移学习模型,通过分子动力学的长程模拟,提取出10万个不同的结构,可构建蛋白质结构在ωb97xd/6-31g*泛函水平的力场数据库。
115.实施例2
116.对于独立生物大分子体系的研究,实现dna力场构建从低保真度(力场计算)到高保真度(ωb97xd/6-31g*)的“纵向迁移”。
117.首先定义原任务和目标任务,以及对应的输入和输出数据集。原任务是dna的低精度泛函水平的势能面构建,其输入数据是dna的不同坐标结构,输出数据是每个结构坐标数据对应的能量和原子受力,其通过力场计算获得。原任务的数据量为3000。目标任务是dna的高精度泛函水平的势能面构建,其输入数据是dna的不同坐标结构,输出数据是每个结构坐标数据对应的能量和原子受力,其通过ωb97xd/6-31g*计算获得。原任务的数据量为300,为原任务的1/10。
118.如图6-图7所示,以原任务的输入数据和输出数据作为数据集,建立dna的低精度泛函水平的势能面模型。由于输入数据是结构坐标数据,因此建立结构描述符作为特征。从每个原子的局部化学环境出发,以为阈值寻找每一个原子的邻居原子,再依次用三个
原子构建笛卡尔坐标系(xyz三个轴),再计算径向和角度的分布,从而得到结构描述符矩阵。机器学习模型采用深度神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型,原子力通过能量对坐标的一阶导数获得。模型开始训练时,神经网络中的参数进行随机初始化,并初始学习率设置为0.005,且随着模型的迭代逐步降低。最终得到高精度、高效率的原任务模型,能量预测的均方根误差小于1.0kcal/mol,原子受力的均方根误差小于
119.以目标任务的输入数据和输出数据作为数据集,建立dna的高精度泛函水平的势能面模型。同样地,由于输入数据是结构坐标数据,因此建立与原任务相同的结构描述符作为特征。机器学习模型同样采用神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型。模型开始训练时,将原任务中最终得到的神经网络参数作为本次神经网络初始点,实现模型的迁移,并设置初始学习率为0.001,且随着模型的迭代逐步降低。最终得到高精度、高效率的目标任务模型,能量预测的均方根误差小于2.0kcal/mol,原子受力的均方根误差小于预测速度比量子力学方法计算快6个数量级。
120.利用目标任务模型即可构建整个dna的在ωb97xd/6-31g*泛函水平的势能面。其中,原任务分别使用了3000个数据,是为了保证模型的可靠性和精度。而目标任务只分别使用了300个数据,大幅降低了数据成本。该迁移学习方法可以被进一步扩展至其他泛函水平的dna力场构建,对于按需设计相应精度水平的力场具有直接的指导意义。基于该迁移学习模型,通过分子动力学的长程模拟,提取出10万个不同的结构,可构建dna结构在ωb97xd/6-31g*泛函水平的力场数据库。
121.实施例3
122.对于独立生物大分子体系的研究,实现rna力场构建从低保真度(力场计算)到高保真度(ωb97xd/6-31g*)的“纵向迁移”。
123.首先定义原任务和目标任务,以及对应的输入和输出数据集。原任务是rna的低精度泛函水平的势能面构建,其输入数据是rna的不同坐标结构,输出数据是每个结构坐标数据对应的能量和原子受力,其通过力场计算获得。原任务的数据量为5000。目标任务是rna的高精度泛函水平的势能面构建,其输入数据是rna的不同坐标结构,输出数据是每个结构坐标数据对应的能量和原子受力,其通过ωb97xd/6-31g*计算获得。原任务的数据量为500,为原任务的1/10。
124.如图8-图9所示,以原任务的输入数据和输出数据作为数据集,建立rna的低精度泛函水平的势能面模型。由于输入数据是结构坐标数据,因此建立结构描述符作为特征。从每个原子的局部化学环境出发,以为阈值寻找每一个原子的邻居原子,再依次用三个原子构建笛卡尔坐标系(xyz三个轴),再计算径向和角度的分布,从而得到结构描述符矩阵。机器学习模型采用深度神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型,原子力通过能量对坐标的一阶导数获得。模型开始训练时,神经网络中的参数进行随机初始化,并初始学习率设置为0.005,且随着模型的迭代逐步降低。最终得到高精度、高效率的原任务模型,能量预测的均方根误差小于1.0kcal/mol,原子受力的均方根误差小于
125.以目标任务的输入数据和输出数据作为数据集,建立rna的高精度泛函水平的势能面模型。同样地,由于输入数据是结构坐标数据,因此建立与原任务相同的结构描述符作为特征。机器学习模型同样采用神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型。模型开始训练时,将原任务中最终得到的神经网络参数作为本次神经网络初始点,实现模型的迁移,并设置初始学习率为0.001,且随着模型的迭代逐步降低。最终得到高精度、高效率的目标任务模型,能量预测的均方根误差小于2.0kcal/mol,原子受力的均方根误差小于预测速度比量子力学方法计算快6个数量级。
126.利用目标任务模型即可构建整个rna的在ωb97xd/6-31g*泛函水平的势能面。其中,原任务分别使用了5000个数据,是为了保证模型的可靠性和精度。而目标任务只分别使用了500个数据,大幅降低了数据成本。该迁移学习方法可以被进一步扩展至其他泛函水平的rna力场构建,对于按需设计相应精度水平的力场具有直接的指导意义。基于该迁移学习模型,通过分子动力学的长程模拟,提取出10万个不同的结构,可构建rna结构在ωb97xd/6-31g*泛函水平的力场数据库。
127.实施例4
128.对于生物大分子与小分子/离子体系的研究,实现的新冠病毒s蛋白质与药物小分子结合能到抗抑郁nmda蛋白质与小分子结合能的“横向迁移”。
129.首先定义原任务和目标任务,以及对应的输入和输出数据集。原任务是新冠病毒s蛋白质与药物小分子的结合能预测模型构建,其输入数据是s蛋白质与不同药物小分子坐标结构,输出数据是每组数据的结合能,其通过ωb97xd/6-31g*和力场计算获得。原任务的数据量为2000(即2000个不同小分子)。目标任务是抗抑郁nmda蛋白质与小分子结合能预测模型,其输入数据是nmda蛋白质与小分子的坐标结构,输出数据是每组数据的结合能,其通过ωb97xd/6-31g*和力场计算获得。原任务的数据量为400(即400个不同小分子),为原任务的1/5。
130.如图10-图11所示,以原任务的输入数据和输出数据作为数据集,建立新冠病毒s蛋白质与药物小分子的结合能预测模型。由于输入数据是结构坐标数据,因此建立结构描述符作为特征。从每个原子的局部化学环境出发,以为阈值寻找每一个原子的邻居原子,再依次用三个原子构建笛卡尔坐标系(xyz三个轴),再计算径向和角度的分布,从而得到结构描述符矩阵。机器学习模型采用深度神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的结合能作为神经网络的输出,训练模型。模型开始训练时,神经网络中的参数进行随机初始化,并初始学习率设置为0.005,且随着模型的迭代逐步降低。最终得到高精度、高效率的原任务模型,能量预测的均方根误差小于2.0kcal/mol,预测速度比ωb97xd/6-31g*和力场计算快6个数量级。
131.以目标任务的输入数据和输出数据作为数据集,建立抗抑郁nmda蛋白质与药物小分子的结合能预测模型。同样地,由于输入数据是结构坐标数据,因此建立与原任务相同的结构描述符作为特征。机器学习模型同样采用神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型。模型开始训练时,将原任务中最终得到的神经网络参数作为本次神经网络
初始点,实现模型的迁移,并设置初始学习率为0.001,且随着模型的迭代逐步降低。最终得到高精度、高效率的目标任务模型,能量预测的均方根误差小于2.0kcal/mol,预测速度比ωb97xd/6-31g*和力场计算快6个数量级。
132.利用目标任务模型即可预测抗抑郁nmda蛋白质对2000个(甚至更多)不同药物小分子的结合能。其中原任务使用了2000个数据,是为了保证模型的可靠性和精度。而目标任务只分别使用了400个数据,大幅降低了数据成本。该迁移学习方法可以被进一步扩展至其他泛函水平、其他蛋白质与小分子体系的结合能预测模型构建。通过该迁移学习模型,建立了抗抑郁nmda蛋白质对2000个药物小分子的结合能数据库,其精度在量子力学水平,并可进一步扩充。
133.实施例5
134.对于独立生物大分子体系的研究,实现从低保真度(力场计算)蛋白质势能到高保真度(ωb97xd/6-31g*)rna势能的“交叉迁移”。
135.首先定义原任务和目标任务,以及对应的输入和输出数据集。原任务是蛋白质的低精度泛函水平的势能面构建,其输入数据是蛋白质的不同坐标结构,输出数据是每个结构坐标数据对应的势能,其通过力场计算获得。原任务的数据量为2000。目标任务是rna的高精度泛函水平的势能面构建,其输入数据是蛋白质的不同坐标结构,输出数据是每个结构坐标数据对应的势能,其通过ωb97xd/6-31g*计算获得。原任务的数据量为200,为原任务的1/10。
136.如图12所示,以原任务的输入数据和输出数据作为数据集,建立蛋白质的低精度泛函水平的势能面模型。由于输入数据是结构坐标数据,因此建立结构描述符作为特征。从每个原子的局部化学环境出发,以为阈值寻找每一个原子的邻居原子,再依次用三个原子构建笛卡尔坐标系(xyz三个轴),再计算径向和角度的分布,从而得到结构描述符矩阵。机器学习模型采用深度神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型,原子受力通过能量对坐标的一阶导数获得。模型开始训练时,神经网络中的参数进行随机初始化,并初始学习率设置为0.005,且随着模型的迭代逐步降低。最终得到高精度、高效率的原任务模型,势能预测的均方根误差小于1.0kcal/mol。
137.以目标任务的输入数据和输出数据作为数据集,建立rna的高精度泛函水平的势能面模型。同样地,由于输入数据是结构坐标数据,因此建立与原任务相同的结构描述符作为特征。机器学习模型同样采用神经网络模型,神经网络由3层隐藏层组成,每一层包含24个神经元。将结构描述符作为神经网络的输入,对应的能量作为神经网络的输出,训练模型。模型开始训练时,将原任务中最终得到的神经网络参数作为本次神经网络初始点,实现模型的迁移,并设置初始学习率为0.001,且随着模型的迭代逐步降低。最终得到高精度、高效率的目标任务模型,势能预测的均方根误差小于2.0kcal/mol,预测速度比量子力学方法计算快6个数量级。
138.将目标任务模型与量子分块算法结合,即可构建rna在ωb97xd/6-31g*泛函水平的势能面。其中,原任务分别使用了2000个数据,是为了保证模型的可靠性和精度。而目标任务只分别使用了200个数据,大幅降低了数据成本。该迁移学习方法可以被进一步扩展至其他泛函水平的生物大分子体系的势能构建,对于按需设计相应精度水平的力场具有直接
的指导意义。基于该迁移学习模型,通过分子动力学的长程模拟,提取出10万个不同的结构,可构建rna结构在ωb97xd/6-31g*泛函水平的势能数据库。
139.本发明所建立的生物大分子体系数据库具有通用性、灵活性、低成本以及实用性的优点。
140.通用性:所针对的生物大分子体系可以是蛋白质、dna、rna、多糖等任意的生物大分子体系;所针对的应用场景可以是独立生物大分子体系的研究、生物大分子和小分子/离子体系相互作用的研究、生物大分子与生物大分子相互作用的研究。
141.灵活性:所针对的数据精度可以是基于经验、半经验、力场、量子力学和实验测量等各种数据保真度的水平。
142.低成本:使用纵向迁移、横向迁移和交叉迁移所需要的数据建模成本是传统方法的1/5,甚至更少。
143.实用性:使用迁移学习得到的预测模型,可用于协同构建更大的、高保真度的生物大分子体系数据库,促进数据库和模型得到广泛应用。
144.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
145.本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1