一种基于可视化网络的二阶代谢质谱化合物检测方法与流程

文档序号:12121412阅读:372来源:国知局
一种基于可视化网络的二阶代谢质谱化合物检测方法与流程

本发明涉及质谱检测技术领域,尤其涉及的是一种基于可视化网络的二阶代谢质谱化合物检测方法。



背景技术:

代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究,可有效揭示生理现象背后的真实机理,并更为全面地展示生命体的动态状态。因此获得了越来越多的重视,被广泛应用于诸多科研与实用领域中。

质谱分析(Mass Spectrometry,MS)是代谢组学最为重要的研究工具之一,现有的代谢化合物匹配方法大多基于一阶代谢质谱数据,其流程包含三个主要步骤:1).峰值检测,将原始质谱经预处理消除噪声干扰,获取有效峰值。常用的预处理算法包括正规化(Standardization)、PCA白化、ZCA白化等;2).峰值注释(Annotation),判定目标峰值(群)所对应的具体代谢物质种类,这一过程往往由实验人员人工完成;3).化合物判定,以代谢化合物质谱数据库为基础,通过比较每个谱的M/Z值和相对浓度来进行化合物的鉴点,常用的代谢化合物质谱数据库包括小分子代谢途径数据库(SMPDB)、人类代谢物数据库(HMDB)等。

然而这种传统的基于一阶代谢质谱数据的匹配算法往往难以应对代谢组学特征高维度、小样本、高噪声的数据特点,其缺点在于:

第一,现有的质谱值匹配方法在进行化合物匹配的开始阶段,需要搜索所有可能匹配这一质谱的分子式,而同一质谱数据可能对应多个化合物分子式。研究表明只进行一阶峰值匹配,同一个质谱对应的化合物分子式可能多达100多个,而进行二阶质谱匹配,其对应的分子式会下降到5个以内;

第二,现有化合物检测方法依赖于极为精确的M/Z值,而峰值的注释需要专业人员的深度参与,所需时间及成本都较高。同时通过单一的M/Z值进行二阶质谱化合物匹配,如果化合物结构较为复杂,其检测结果精度很难满足实验要求;

第三,现有的代网络构建算法大多是基于结构匹配算法,需要考虑每个化合物的结构特征,这一过程较为复杂,需大量人工干预,但人为设定的切分阈值缺乏理论依据,导致最终结果难以令人满意,其计算所需时间及成本都较高。

因此,现有技术还有待于改进和发展。



技术实现要素:

鉴于上述现有技术的不足,本发明的目的在于提供一种基于可视化网络的二阶代谢质谱化合物检测方法,旨在解决现有的基于一阶代谢质谱数据的代谢化合物检测方法人工干预较多、检测结果精度较差以及计算所需时间及成本都较高的问题。

本发明的技术方案如下:

一种基于可视化网络的二阶代谢质谱化合物检测方法,其中,包括步骤:

A、查询并整合二阶代谢质谱数据库,获得训练样本数据集S;

B、对所述训练样本数据集S中的每个样本的质谱强度进行归一化处理,获得新的样本数据集T;

C、对所述新的样本数据集T中的每个样本进行可视化操作,构建可视化网络,得到可视化网络数据集G;

D、从所述可视化网络数据集G中的每一可视化网络中提取网络全局特征,获得可视化网络数据集G的特征向量集F;

E、将所述特征向量集F作为SVM的输入,对应的化合物名称作为SVM的输出,对所述新的样本数据集T进行训练,获得检测模型P,用于对二阶代谢质谱化合物进行检测。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,在步骤A中,所述训练样本数据集S={S1,S2,…,SN},其中任一样本SN=[(m1,i1),(m2,i2),…(md,id)],所述md和id分别为第d条谱线的质核比数值与强度数值。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,所述步骤B具体包括:

B1、对所述训练样本数据集S中的每个样本的质谱强度进行归一化处理,使每个样本的质谱强度归一化到0~1000;

B2、对每个样本的所有谱线进行检测,当检测到谱线的强度低于50时,则删除所述谱线,从而获得新的样本数据集T={T1,T2,…,TN}。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,所述步骤C具体包括:

C1、将新的样本数据集T中的每个样本中的每条谱线视为可视化网络中的节点;

C2、创建一个n*n的空矩阵H[]用于记录每个节点的连接情况,若两个节点相连接则记为1,若未连接则记为0;

C3、连接全部相邻节点,同时对于所有非相邻的两个节点i(mi,ii)与j(mj,ij),当处于所述两个节点间的节点k(mk,ik),其中i<k<j,满足:

则连接所述两个非相邻节点i(mi,ii)与j(mj,ij);

C4、根据所述节点连接关系构建可视化网络,获得可视化网络数据集G={G1,G2,......GN}。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,在步骤D中,所述网络全局特征具体包括:

节点个数、网络平均度、网络的聚类系数、网络的直径、网络的平均最短路径以及网络的密度。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,在步骤D中,所述特征向量集F={F1,F2,.......FN},其中任一可视化网络的特征向量FN={N,DE,C,DIA,MP,DEN},其中所述N为节点个数、DE为网络平均度、C为网络的聚类系数、DIA为网络的直径、MP为网络的最短路径、DEN为网络的密度。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,所述步骤A之后还包括:

A1、构建与训练样本数据集S相对应的Decoy数据集SD

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,所述步骤E之后还包括:

F、将所述Decoy数据集SD作为测试集,对所述检测模型P进行交叉验证。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,所述步骤E之后还包括:

G、将SVM核函数作为化合物相似度评价函数,并将评价结果归一化到0~1。

较佳地,所述的基于可视化网络的二阶代谢质谱化合物检测方法,其中,所述步骤G具体包括:

G1、依次采用线性核函数、径向基核,以及Sigmoid核函数对化合物进行相似度预测;

G2、选取预测结果最准确的函数作为化合物相似度评价函数,并将评价结果归一化到0~1。

有益效果:本发明以现有的二阶代谢质谱数据库为基础,通过对每个化合物二阶质谱数据进行构建可视化网络操作,将其网络全局特征提取为其各自的化合物的输入特征,并通过SVM对其进行训练,获得化合物检测模型,并且通过构建Decoy测试集对检测模型进行交叉验证,保证检测模型的可靠性与准确性,使其可用于实际二阶代谢质谱化合物的检测。本发明提供的二阶代谢质谱化合物检测方法实现简单、并且显著提高了化合物的检测速度与精度。

附图说明

图1为本发明一种基于可视化网络的二阶代谢质谱化合物检测方法较佳实施例的流程图。

图2为代谢物质谱的第一种数据形式示意图。

图3为代谢物质谱的第二种数据形式示意图。

具体实施方式

本发明提供一种基于可视化网络的二阶代谢质谱化合物检测方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参阅图1,图1为本发明一种基于可视化网络的二阶代谢质谱化合物检测方法较佳实施例的流程图,如图所示,其包括步骤:

S100、查询并整合二阶代谢质谱数据库,获得训练样本数据集S;

具体地,质谱分析(Mass Spectrometry,MS)是代谢组学最为重要的研究工具之一,其中的二阶质谱可有效鉴别不同的代谢物质,并准确衡量其相对溶度。本发明提供的基于可视化网络的二阶代谢质谱化合物检测方法,首先通过查询现有的二阶代谢质谱数据库,如MassBank、HMBD等,然后整合所述二阶代谢质谱数据获得训练样本数据集S。

进一步,所述训练样本数据集S={S1,S2,…,SN},其中任一样本SN=[(m1,i1),(m2,i2),…(md,id)],所述md和id分别为第d条谱线的质核比数值与强度数值。较佳地,如图2及图3所示,图2和图3分别为代谢物质谱的两种不同数据形式。

更进一步,所述步骤S100之后还包括:

S101、构建与训练样本数据集S相对应的Decoy数据集SD

具体来说,本发明可通过Passatutto软件构建与训练样本数据集S相对应的Decoy数据集SD

进一步,所述步骤S200、对所述训练样本数据集S中的每个样本的质谱强度进行归一化处理,获得新的样本数据集T,具体包括:

S210、对所述训练样本数据集S中的每个样本的质谱强度进行归一化处理,使每个样本的质谱强度归一化到0~1000;

S220、对每个样本的所有谱线进行检测,当检测到谱线的强度低于50时,则删除所述谱线,从而获得新的样本数据集T={T1,T2,…,TN}。

具体来说,通过上述步骤对训练样本数据集S中的每个代谢质谱样本SN进行了预处理,删除了SN强度低于50的谱线,得到新的样本数据集T={T1,T2,…,TN}。通过对每个代谢质谱样本SN进行预处理,能够构建更加准确的检测模型,从而有效提高化合物的检测精度。

进一步,在本发明中,所述步骤S300、对所述新的样本数据集T中的每个样本进行可视化操作,构建可视化网络,得到可视化网络数据集G,具体包括:

S310、将新的样本数据集T中的每个样本中的每条谱线视为可视化网络中的节点;

具体来说,对新的样本数据集T中的每一个样本TN,=[(m1,i1),(m2,i2),…(mn,in)],进行可视化操作,构建可视化网络,其中每一条谱线视为可视化网络中的节点;

S320、创建一个n*n的空矩阵H[]用于记录每个节点的连接情况,若两个节点相连接则记为1,若未连接则记为0;例如,H[1,2]=0,这表示节点1和节点2没有连接。

S330、连接全部相邻节点,即H[n,n+1]=1;同时对于所有非相邻的两个节点i(mi,ii)与j(mj,ij),当处于所述两个节点间的节点k(mk,ik),其中i<k<j,满足:

时,说明节点i可以看到节点j,则连接所述两个非相邻节点i(mi,ii)与j(mj,ij);

C4、根据所述节点连接关系构建可视化网络,获得可视化网络数据集G={G1,G2,......GN};

具体来说,利用NetworkX软件构建网络,获得可视化网络GN:G.add_edges_from(H}

nx.draw(G)

由所述可视化网络GN构成可视化网络数据集G={G1,G2,......GN}。

S400、从所述可视化网络数据集G中的每一可视化网络中提取网络全局特征,获得可视化网络数据集G的特征向量集F;

具体地,所述网络全局特征具体包括:节点个数、网络平均度、网络的聚类系数、网络的直径、网络的平均最短路径以及网络的密度。

更进一步,所述特征向量集F={F1,F2,.......FN},其中任一可视化网络的特征向量FN={N,DE,C,DIA,MP,DEN},其中所述N为节点个数;DE为网络平均度;C=nx.average_clustering(G),为网络的聚类系数;DIA=nx.diameter(G),为网络的直径;MP=nx.average_shortest_path_length(G),为网络的最短路径;DEN=nx.density(G),为网络的密度。

S500、将所述特征向量集F作为SVM的输入,对应的化合物名称作为SVM的输出,对所述新的样本数据集T进行训练,获得检测模型P,用于对二阶代谢质谱化合物进行检测。

具体地,将特征向量集F={F1,F2,.......FN}作为SVM的输入,对应的化合物名称作为输出,对测试集数据进行训练,获得预测模型P:

clf=svm.()

clf.fit(FN,NAME)。

进一步,在本发明中,所述步骤S500之后还包括:

S600、将所述Decoy数据集SD作为测试集,对所述检测模型P进行交叉验证。

较佳地,本发明通过Decoy数据库进行交叉验证有效保证了本发明检测方法的可靠性与稳定性。

更进一步,在本发明中,所述步骤S500之后还包括:

S700、将SVM核函数作为化合物相似度评价函数,并将评价结果归一化到0~1。

具体地,依次采用线性核函数、径向基核,以及Sigmoid核函数对化合物进行相似度预测;选取预测结果最准确的函数作为化合物相似度评价函数,并将评价结果归一化到0~1。

综上所述,本发明以现有的二阶代谢质谱数据库为基础,通过对每个化合物二阶质谱数据进行构建可视化网络操作,将其网络全局特征提取为其各自的化合物的输入特征,并通过SVM对其进行训练,获得化合物检测模型,并且通过构建Decoy测试集对检测模型进行交叉验证,保证检测模型的可靠性与准确性,使其可用于实际二阶代谢质谱化合物的检测。与现有技术相比,本发明提供的基于可视化网络的二阶代谢质谱化合物检测方法具有以下优点:

第一、输入数据使用更为先进的二级质谱,可有效提高化合物的预测精度,在数据量增大的同时,本发明无需复杂的质谱预处理与峰值检测,可视化网络的构建仅依赖谱线的基础信息质核比与强度,实现简单,有效拓展了本方法的应用范围,降低了处理难度与成本,显著提升了检测速度与精度;

第二、本发明选取可视化网络的全局特征作为输入,通过SVM进行检测模型的优化,有效解决了其他网络匹配算法需要大量人工干预的缺点,同时通过Decoy数据库进行交叉验证保证了算法的可靠性与稳定性;

第三、本发明可根据不同的数据训练出各自的最佳预测模型,并给出两化合物之间的相似度,反映了不同化合物间的关联程度,可用于研究其潜在的生化机理。此外,本方法也可用于基因组学、蛋白质组学等数据的分析中。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,例如,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1