一种预测代谢网络中的缺失反应的方法

文档序号:35283459发布日期:2023-09-01 03:57阅读:70来源:国知局
一种预测代谢网络中的缺失反应的方法

本发明涉及生物信息,具体为一种预测代谢网络中的缺失反应的方法。


背景技术:

1、为了深入理解生物系统层面的知识,从而推动生物工程、药物靶向和医学疗法的发展,科学家们利用代谢网络和基因组注释来全面了解细胞功能。然而,我们对细胞代谢能力的认识仍存在一定的缺口。基因组规模的代谢模型(gems)已成为系统分析细胞代谢功能的有力工具。这些模型通常通过诸如通量平衡分析(fba)等技术进行评估。近年来,全基因组测序数据的可用性为构建野生型gems提供了新途径。然而,由于代谢过程知识的不完整,野生型模型往往存在缺失反应和未注释基因产物等问题。因此,gems重构的关键在于填补这些知识空白。已有的填补方法包括基于约束的建模、growmatch以及比较基因组学方法等,但这些方法往往依赖实验技术,耗时且消耗资源。因此,拓扑基础的超图方法在生物信息学领域越来越受欢迎。神经超链接预测器(nhp)和协调矩阵最小化(cmm)是两种基于超图的方法,可以高效地填补gems中的空白,然而,这些方法仅限于已知的注释蛋白质和生物化学空间,为了拓展我们对代谢网络的理解,需要在已知生物化学范围之外进行探索,目前,机器学习方法在准确预测代谢反应方面存在局限。

2、现有的代谢网络补全方法可以分为几大类。首先,基于实验数据的方法主要依赖于实验技术来识别模型与数据之间的不一致。尽管这些方法在寻找并解决死胡同代谢物或模型预测与实验数据不一致方面取得了一定进展,但受限于实验数据的可用性,特别是对于非模型生物。其次,基于拓扑结构的方法不需要先验数据集,主要关注网络连接和通量一致性。典型的例子包括基于通量一致性的gapfind/gapfill和fastgapfill方法。这些方法通过分析代谢网络的结构特征来恢复网络连接,从而解决代谢网络中的空白问题。最后,基于机器学习的方法利用先进的机器学习技术来预测缺失的反应。例如,神经超链接预测器(nhp)和基于clique closure的协调矩阵最小化(c3mm)方法,这些方法将缺失反应预测作为监督学习任务,在超图上进行超链接预测,已知代谢反应用于预测gem中代谢网络的拓扑特征,从而推测潜在的缺失反应,尽管这些方法在输入数据类型、目标和算法上存在差异,但它们通常遵循寻找并解决死胡同代谢物或模型预测与实验数据不一致的步骤,尽管现有的机器学习方法在预测缺失反应方面取得了一定进展,但它们仅限于已知生物化学反应空间,难以发掘新的生物化学过程。


技术实现思路

1、针对现有技术的不足,本发明提供了一种预测代谢网络中的缺失反应的方法,解决了现有的机器学习方法仅限于已知生物化学反应空间且难以发掘新的生物化学过程的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:一种预测代谢网络中的缺失反应的方法,包括以下步骤,

3、s1、负采样;

4、s2、特征初始化;

5、s3、特征细化;

6、s4、假设反应排名;

7、s5、代谢网络补全流程。

8、优选的,所述s1还包括以下步骤,使用负采样策略平衡模型的特异性和敏感性,为每个正向超链接生成相应的负向超链接,采用一半来自正向超链接节点,另一半来自处理过的chebi数据。

9、优选的,所述s2还包括以下步骤,采用tanimoto系数、高斯和余弦相似性等指纹相似性度量方法,将代谢物的化学结构表示为标准的smiles格式,构建tanimoto相似性矩阵,采用超图表示法描述代谢网络中的复杂关系,初始化超节点特征和超边特征,输入到超图卷积网络中。

10、优选的,所述s4还包括以下步骤,利用超图卷积和超图注意力机制处理每个反应作为一个完全连接的子图,并应用多通道超图卷积网络和多头注意力模块学习高阶图结构化数据上的深层嵌入。

11、优选的,所述s5还包括以下步骤,将预测代谢网络中缺失反映的问题形式化为二分类任务,将输出特征向量与关联矩阵相乘,使用softmax函数预测两个类别的概率分布。

12、优选的,所述s6步骤中分为三个阶段,第一阶段使用生物化学公共数据库将代谢物映射到smiles,第二阶段使用软件对反应进行排序并将前n个反应添加到野生型gems中,以创建填充缺口的gems,第三阶段应用通量模拟来预测代谢表型,软件通过添加反应,试图使野生型模型的预测与观察到的表型相匹配,如果填充缺口的gems与野生型gems之间存在差异,则表明存在未探索的通路,在流程中,通过使用线性混合整数规划(lmilp)来推断导致缺口的反应。

13、优选的,所述s6中的软件为closegaps。

14、本发明提供了一种预测代谢网络中的缺失反应的方法。具备以下有益效果:

15、本发明模型以代谢网络的拓扑结构为基础,旨在更精确地预测缺失的代谢反应,从而更好地反映代谢网络中的实际情况,此外,它还扩展了已知生物化学反应空间,通过探索超出已知生物化学反应空间的方法,揭示新的生物化学过程,从而促进对代谢网络功能的深入理解和应用,本发明的模型具有较高的准确率,它能利用公开数据库中的代谢反应信息和生物网络数据来预测代谢网络中缺失的反应,从而避免了大量时间成本和实验成本的投入,这一创新性方法为预测和补全代谢网络中的缺失反应提供了一种更通用、准确且具有拓展性的解决方案,通过深度学习技术,本发明成功地捕捉了代谢网络中的复杂关系,使预测结果更为精确和可靠。



技术特征:

1.一种预测代谢网络中的缺失反应的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的一种预测代谢网络中的缺失反应的方法,其特征在于,所述s1还包括以下步骤,使用负采样策略平衡模型的特异性和敏感性,为每个正向超链接生成相应的负向超链接,采用一半来自正向超链接节点,另一半来自处理过的chebi数据。

3.根据权利要求1所述的一种预测代谢网络中的缺失反应的方法,其特征在于,所述s2还包括以下步骤,采用tanimoto系数、高斯和余弦相似性等指纹相似性度量方法,将代谢物的化学结构表示为标准的smiles格式,构建tanimoto相似性矩阵,采用超图表示法描述代谢网络中的复杂关系,初始化超节点特征和超边特征,输入到超图卷积网络中。

4.根据权利要求1所述的一种预测代谢网络中的缺失反应的方法,其特征在于,所述s4还包括以下步骤,利用超图卷积和超图注意力机制处理每个反应作为一个完全连接的子图,并应用多通道超图卷积网络和多头注意力模块学习高阶图结构化数据上的深层嵌入。

5.根据权利要求1所述的一种预测代谢网络中的缺失反应的方法,其特征在于,所述s5还包括以下步骤,将预测代谢网络中缺失反映的问题形式化为二分类任务,将输出特征向量与关联矩阵相乘,使用softmax函数预测两个类别的概率分布。

6.根据权利要求1所述的一种预测代谢网络中的缺失反应的方法,其特征在于,所述s6步骤中分为三个阶段,第一阶段使用生物化学公共数据库将代谢物映射到smiles,第二阶段使用软件对反应进行排序并将前n个反应添加到野生型gems中,以创建填充缺口的gems,第三阶段应用通量模拟来预测代谢表型,软件通过添加反应,试图使野生型模型的预测与观察到的表型相匹配,如果填充缺口的gems与野生型gems之间存在差异,则表明存在未探索的通路,在流程中,通过使用线性混合整数规划(milp)来推断导致缺口的反应。

7.根据权利要求7所述的一种预测代谢网络中的缺失反应的方法,其特征在于,所述s6中的软件为closegaps。


技术总结
本申请涉及生物信息领域,公开了一种预测代谢网络中的缺失反应的方法,包括以下步骤,S1、负采样;S2、特征初始化;S3、特征细化;S4、假设反应排名;S5、代谢网络补全流程。所述S1还包括以下步骤,使用负采样策略平衡模型的特异性和敏感性,为每个正向超链接生成相应的负向超链接,采用一半来自正向超链接节点,另一半来自处理过的ChEBII数据。通过利用公开数据库中的代谢反应信息和生物网络数据来预测代谢网络中缺失的反应,从而避免了大量时间成本和实验成本的投入。这一创新性方法为预测和补全代谢网络中的缺失反应提供了一种更通用、准确且具有拓展性的解决方案。

技术研发人员:郭菲,刘晓依,杨洪鹏,艾成伟,唐继军
受保护的技术使用者:中南大学
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1