本说明书涉及生物信息学领域,尤其涉及一种预测蛋白质距离图的方法、存储介质及电子设备。
背景技术:
1、近年来,随着生物信息学的发展,人工合成蛋白质的技术也取得了快速发展。蛋白质是生命活动的主要承担者,行使着催化调节、免疫应答和细胞信号传导等众多重要生物学功能。由于蛋白质的生物学功能由特定的三维空间结构所决定,因此准确掌握蛋白质结构对了解蛋白质功能具有重要意义。如对于药物研发,疫苗治疗和研究生物功能等都有重要作用。
2、在现有技术中,蛋白质三维结构一般通过先对蛋白质序列残基间的距离预测,进而得到蛋白质结构。但通过这种预测方式预测的蛋白质结构存在不满足蛋白质结构固有特点,从而导致预测蛋白质无法合成的情况。如单纯得到多组残基间的距离,而距离不满足多残基间距离中必须存在满足的三角形不等式的一组残基。
3、可见,现有预测蛋白质结构的方法,忽略了蛋白质本身的结构特点,不能对蛋白质结构进行准确预测。而蛋白质残基的距离图(distance map)在展示了满足三角不等式的蛋白质各残基的基础上,还呈现了二维的蛋白质局部结构,可通过观察得到更为准确且直观的蛋白质三维结构。为此,本说明书提供了一种预测蛋白质距离图的方法。
技术实现思路
1、本说明书提供一种预测蛋白质距离图的方法及、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、一种预测蛋白质距离图的方法,包括:
4、确定目标蛋白质的残基序列;
5、将所述残基序列输入训练完成的距离图预测模型,通过所述距离图预测模型的注意力子网络,对所述残基序列进行注意力加权,确定所述残基序列对应的第一注意力图;
6、对所述第一注意力图进行第一预处理,将第一预处理结果输入所述距离图预测模型的三角注意力模块,预测各残基之间的距离,确定残基之间距离符合三角距离约束关系的各残基,并根据确定出的满足所述三角距离约束关系的残基进行注意力加权,得到所述第一注意力图对应的第二注意力图;
7、对所述第二注意力图进行第二预处理,将第二预处理结果输入所述距离图预测模型的残差混合模块,通过所述残差混合模块滤波,根据所述第二注意力图对滤波结果进行尺寸调整,对调整后的滤波结果中具有指定结构关系的残基进行局部特征加权,得到所述第二注意力图对应的第三注意力图;
8、将所述第一注意力图以及所述第三注意力图输入所述距离图预测模型的残差卷积模块,通过所述残差卷积模块对所述第三注意力图转置卷积,并根据所述第一注意力图对滤波结果进行尺寸调整,并将调整结果与所述第一注意力图叠加,得到所述第三注意力图对应的第四注意力图;
9、将所述第四注意力图输入所述距离图预测模型的回归预测模块,通过所述回归预测模块,对所述第四注意力图归一化,得到所述第四注意力图对应的蛋白质距离图。
10、可选地,对所述第一注意力图进行第一预处理,具体包括:
11、将所述第一注意力图输入所述距离图预测模型的前馈卷积模块,通过所述前馈卷积模块的池化层,缩小所述第一注意力图的尺寸;
12、通过所述前馈卷积模块的卷积层,根据所述距离图预测模型的三角注意力模块输入注意力图的维数,调整缩小结果的维数,确定调整结果为第一预处理结果。
13、可选地,对所述第二注意力图进行第二预处理,具体包括:
14、将所述第三注意力图输入所述距离图预测模型的前馈混合模块,通过所述前馈混合模块的轻量化层,对所述第三注意力图进行压缩,以便于所述距离图预测模型的残差混合模块进行局部特征加权;
15、通过所述前馈混合模块的池化层,缩小压缩后的所述第三注意力图的尺寸;
16、通过所述前馈卷积模块的卷积层,根据所述距离图预测模型的残差混合模块输入注意力图的维数,调整缩小结果的维数,确定调整结果为预处理结果。
17、可选地,通过所述残差混合模块滤波,根据所述第二注意力图对滤波结果进行尺寸调整,具体包括:
18、通过所述残差混合模块的转置层,降低所述第二预处理结果的维数,并增加所述第二预处理结果的大小;
19、通过所述残差混合模块的填充层,根据所述转置层处理结果与所述第二注意力图差异,调整转置层处理结果尺寸直到与所述第二注意力图尺寸相同;
20、通过所述残差混合模块的叠加层,将调整结果与所述第三注意力图叠加,作为调整后的滤波结果。
21、可选地,将所述第一注意力图以及所述第三注意力图输入所述距离图预测模型的残差卷积模块,通过所述残差卷积模块对所述第三注意力图转置卷积,并根据所述第一注意力图对滤波结果进行尺寸调整,并将调整结果与所述第一注意力图叠加,得到第四注意力图,具体包括:
22、将所述第三注意力图输入所述距离图预测模型的残差卷积模块,通过所述残差卷积模块的转置层,根据所述第一注意力图的维数,调整所述第三注意力图的维数;
23、通过所述残差卷积模块的填充层,根据维数调整结果与所述第一注意力图尺寸差异,根据所述第一注意力图的尺寸,调整维数调整结果;
24、通过所述残差卷积模块的叠加层,将尺寸调整结果与所述第一注意力图叠加;
25、通过所述残差卷积模块的卷积层,对叠加结果卷积,确定卷积结果为所述第三注意力图对应的第四注意力图。
26、可选地,在对所述第一注意力图进行第一预处理之前,所述方法还包括:
27、将所述第一注意力图输入所述距离图预测模型的组池化模块,通过所述组池化模块,根据预设数量划分所述第一注意力图为预设数量的子注意力图;
28、并将各子注意力图中最大值提取,确定每个子注意力图对应的子特征图;
29、将各子特征图拼接,得到预设数量维数的第一注意力图。
30、可选地,得到所述第四注意力图对应的蛋白质距离图,所述方法还包括:
31、将所述回归预测模块结果输入所述距离图预测模型的尺寸调整模块,通过尺寸调整模块,将所述回归预测模块结果的注意力图数值进行整体缩放,得到便于观测的蛋白质残基距离图。
32、本说明书提供了一种预测蛋白质距离图的模型训练方法,包括:
33、确定目标蛋白质的残基序列;
34、将所述残基序列输入训练完成的距离图预测模型,通过所述距离图预测模型的注意力子网络,对所述残基序列进行注意力加权,确定所述残基序列对应的第一注意力图;
35、对所述第一注意力图进行第一预处理,将第一预处理结果输入所述距离图预测模型的三角注意力模块,预测各残基之间的距离,确定残基之间距离符合三角距离约束关系的各残基,并根据确定出的满足所述三角距离约束关系的残基进行注意力加权,得到所述第一注意力图对应的第二注意力图;
36、对所述第二注意力图进行第二预处理,将第二预处理结果输入所述距离图预测模型的残差混合模块,通过所述残差混合模块滤波,根据所述第二注意力图对滤波结果进行尺寸调整,对调整后的滤波结果中具有指定结构关系的残基进行局部特征加权,得到所述第二注意力图对应的第三注意力图;
37、将所述第一注意力图以及所述第三注意力图输入所述距离图预测模型的残差卷积模块,通过所述残差卷积模块对所述第三注意力图转置卷积,并根据所述第一注意力图对滤波结果进行尺寸调整,并将调整结果与所述第一注意力图叠加,得到所述第三注意力图对应的第四注意力图;
38、将所述第四注意力图输入所述距离图预测模型的回归预测模块,通过所述回归预测模块,对所述第四注意力图归一化,得到所述第四注意力图对应的蛋白质距离图;
39、利用蛋白质距离图训练集的标签对所述距离图预测模型的回归预测模块进行监督学习,根据计算损失值,采用预设优化算法更新模型参数;
40、将上述训练方法进行迭代并确定当前迭代次数;若所述当前迭代次数到达预设次数,停止迭代,得到目标模型。
41、可选地,对所述第一注意力图进行第一预处理之前,所述训练方法还包括:
42、将所述第一注意力图输入所述距离图预测模型的组池化模块,通过所述组池化模块,根据预设数量划分所述第一注意力图为预设数量的子注意力图;
43、并将各子注意力图中最大值提取,确定每个子注意力图对应的子特征图;
44、将各子特征图拼接,得到预设数量维数的第一注意力图。
45、本说明书提供了一种预测蛋白质距离图的装置,包括:
46、序列获取模块,确定目标蛋白质的残基序列;
47、序列确认模块,将所述残基序列输入训练完成的距离图预测模型,通过所述距离图预测模型的注意力子网络,对所述残基序列进行注意力加权,确定所述残基序列对应的第一注意力图;
48、三角形注意力模块,对所述第一注意力图进行第一预处理,将第一预处理结果输入所述距离图预测模型的三角注意力模块,预测各残基之间的距离,确定残基之间距离符合三角距离约束关系的各残基,并根据确定出的满足所述三角距离约束关系的残基进行注意力加权,得到所述第一注意力图对应的第二注意力图;
49、局部结构注意力模块,对所述第二注意力图进行第二预处理,将第二预处理结果输入所述距离图预测模型的残差混合模块,通过所述残差混合模块滤波,根据所述第二注意力图对滤波结果进行尺寸调整,对调整后的滤波结果中具有指定结构关系的残基进行局部特征加权,得到所述第二注意力图对应的第三注意力图;
50、注意力图还原模块,将所述第一注意力图以及所述第三注意力图输入所述距离图预测模型的残差卷积模块,通过所述残差卷积模块对所述第三注意力图转置卷积,并根据所述第一注意力图对滤波结果进行尺寸调整,并将调整结果与所述第一注意力图叠加,得到所述第三注意力图对应的第四注意力图;
51、距离图输出模块,将所述第四注意力图输入所述距离图预测模型的回归预测模块,通过所述回归预测模块,对所述第四注意力图归一化,得到所述第四注意力图对应的蛋白质距离图。
52、本说明书提供了一种预测蛋白质距离图训练模块的装置,包括:
53、序列获取训练模块,确定目标蛋白质的残基序列;
54、序列确认训练模块,将所述残基序列输入训练完成的距离图预测模型,通过所述距离图预测模型的注意力子网络,对所述残基序列进行注意力加权,确定所述残基序列对应的第一注意力图;
55、三角注意力训练模块,对所述第一注意力图进行第一预处理,将第一预处理结果输入所述距离图预测模型的三角注意力模块,预测各残基之间的距离,确定残基之间距离符合三角距离约束关系的各残基,并根据确定出的满足所述三角距离约束关系的残基进行注意力加权,得到所述第一注意力图对应的第二注意力图;
56、局部结构注意力训练模块,对所述第二注意力图进行第二预处理,将第二预处理结果输入所述距离图预测模型的残差混合模块,通过所述残差混合模块滤波,根据所述第二注意力图对滤波结果进行尺寸调整,对调整后的滤波结果中具有指定结构关系的残基进行局部特征加权,得到所述第二注意力图对应的第三注意力图;
57、注意力图还原训练模块,将所述第一注意力图以及所述第三注意力图输入所述距离图预测模型的残差卷积模块,通过所述残差卷积模块对所述第三注意力图转置卷积,并根据所述第一注意力图对滤波结果进行尺寸调整,并将调整结果与所述第一注意力图叠加,得到所述第三注意力图对应的第四注意力图;
58、距离图输出训练模块,将所述第四注意力图输入所述距离图预测模型的回归预测模块,通过所述回归预测模块,对所述第四注意力图归一化,得到所述第四注意力图对应的蛋白质距离图;
59、参数更新训练模块,利用蛋白质距离图训练集的标签对所述距离图预测模型的回归预测模块进行监督学习,根据计算损失值,采用预设优化算法更新模型参数;
60、迭代训练模块,将上述训练方法进行迭代并确定当前迭代次数;若所述当前迭代次数到达预设次数,停止迭代,得到目标模型。
61、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现的方法。
62、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现预测蛋白质距离图的方法。
63、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
64、在本说明书提供的一种预测蛋白质距离图的方法中,确认蛋白质残基序列,生成第一注意力图。通过三角注意力模块,对满足三角形不等式的残基进行加权,确定第二注意力图。以及通过残基混合模块,对具有指定结构关系的残基进行局部特征加权。最后使用还原模块,将残基混合模块输出与第一注意力图叠加突出对比效果,通过回归预测图的尺寸变换输出距离图。
65、从上述方法可以看出,强调蛋白质距离图中满足三角形不等式的残基,以帮助相关专业人员判断预测蛋白质是否可以合成。强调蛋白质距离图中满足指定结构的残基,从蛋白质二维结构帮助相关专业人员了解蛋白质的螺旋结构并从超二维结构帮助相关专业人员推断蛋白质的具体功能实现。解决了单独对蛋白质残基距离预测存在预测结果失效的问题,从而提高蛋白质合成的效率。