1.一种代谢混合物MS/MS质谱的仿真生成方法,其特征在于,包括步骤:
A、设所需仿真的混合物质内包含N种代谢物所述N种代谢物的真实MS/MS质谱对应为S={S1,S2,…Sn…,SN},其中任意Sn=[(m1,i1),(m2,i2),…(md,id),…],md、id分别为第d条谱线的质核比与强度值;
B、根据每个代谢物的真实MS/MS质谱,统计每个代谢物的噪声概率模型;
C、根据每一代谢物的噪声概率模型生成Φ中相应代谢物的仿真质谱组;
D、根据所有代谢物的仿真质谱组,依次产生代谢混合物MS/MS仿真质谱;
E、设置最大生成仿真数量为L,将每次产生的代谢混合物MS/MS仿真质谱组成S*={S*1,S*2,…,S*L},并作为生成结果输出。
2.根据权利要求1所述的代谢混合物MS/MS质谱的仿真生成方法,其特征在于,所述步骤B具体包括:
B1、设当前输入为第n个代谢物的真实MS/MS质谱Sn,Sn=[(m1,i1),(m2,i2),…(md,id),…],提取其质核比矢量为M=[m1,m2,…],强度矢量为I=[i1,i2,…];
B2、对于M中的每个质核比数值,取其小数部分,形成质核偏移矢量T=[t1,t2,…];
B3、计算T的均值为μT,方差为σT,从而构造质核比概率模型为正态分布N(μT,σT);
B4、计算I的均值为μI,方差为σI,构造强度概率模型为正态分布N(μI,σI);
B5、从而得到第n个代谢物的噪声概率模型为Pn=[N(μT,σT),N(μI,σI)]。
3.根据权利要求1所述的代谢混合物MS/MS质谱的仿真生成方法,其特征在于,所述步骤C具体包括:
C1、设当前输入为第n个代谢物的真实MS/MS质谱Sn及噪声概率模型Pn,初始化计数器k=1;
C2、计算Sn中质核比矢量的取值范围为R=[min(M),max(M)],取C为R内所有整数值所形成的矢量;
C3、对于每个c∈C,若Rc=[c-0.5,c+0.5]范围内不包含谱线,则转至步骤C5,若Rc=[c-0.5,c+0.5]范围内包含谱线,则进入步骤C4;
C4、对Rc内的每个谱线(md,id)增加仿真噪声得到(m*d,i*d)并替换原有的(md,id),然后转至步骤C6;
C5、产生[0,1]范围内均匀分布的随机值r,若有r<pins,则在Rc内添加一根谱线(md,id),其中md=c+t,t为服从N(μT,σT)∈Pn分布的随机偏移;id为服从N(μI,σI)∈Pn分布的随机值,pins为谱线增加概率;
C6、将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S*n,k,更新计数器k=k+1,若k<K则转至步骤C2,K为最大生成质谱数量;
C7、输出第n个代谢物的仿真质谱组为S*n={S*n,1,S*n,2,…,S*n,K}。
4.根据权利要求3所述的代谢混合物MS/MS质谱的仿真生成方法,其特征在于,所述步骤C4具体包括:
产生[0,1]范围内均匀分布的随机值r,若有r<pdel,则将对应谱线删除。
产生[0,1]范围内均匀分布的随机值r,若有r<pmz,则使md产生一个服从N(μT,σT)∈Pn分布的随机偏移t,有m*d=md+t;
产生[0,1]范围内均匀分布的随机值r,若有r<pint,则使id变为一个服从N(μI,σI)∈Pn分布的新随机值i*d;
其中,pdel为谱线删除概率,pmz为质核比偏移概率,pint为强度偏移概\t率。
5.根据权利要求1所述的代谢混合物MS/MS质谱的仿真生成方法,其特征在于,所述步骤D具体包括:
D1、从每个代谢物的仿真质谱组S*n,n=1,2,…,N中,各随机选择一个质谱S*n,K,k∈K,共计N个;将其中所有谱线混合,组成新的质谱矢量Sl=[(m1,i1),(m2,i2),…];
D2、提取Sl的质核比矢量为Ml,计算其质核比概率模型为Nl(μT,σT);
D3、使用回归算法对Sl进行建模形成非线性模型Rl;
D4、对于Ml中的每个md,使其产生一个服从Nl(μT,σT)分布的随机偏移值t:m*d=md+t,并使用Rl计算对应的强度值为i*d,构成新的仿真谱线(m*d,i*d),将所有仿真谱线组成代谢混合物MS/MS仿真质谱S*l=[(m*1,i*1),(m*2,i*2),…],作为当前输出;
D5、更新计数器l=l+1,若l<L则转至步骤D1。
6.一种代谢混合物MS/MS质谱的仿真生成系统,其特征在于,包括:
设置模块,用于设所需仿真的混合物质内包含N种代谢物所述N种代谢物的真实MS/MS质谱对应为S={S1,S2,…Sn…,SN},其中任意Sn=[(m1,i1),(m2,i2),…(md,id),…],md、id分别为第d条谱线的质核比与强度值;
噪声概率模型统计模块,用于根据每个代谢物的真实MS/MS质谱,统计每个代谢物的噪声概率模型;
仿真质谱组生成模块,用于根据每一代谢物的噪声概率模型生成Φ中相应代谢物的仿真质谱组;
仿真质谱产生模块,用于根据所有代谢物的仿真质谱组,依次产生代谢混合物MS/MS仿真质谱;
结果输出模块,用于设置最大生成数量为L,将每次产生的代谢混合物MS/MS仿真质谱组成S*={S*1,S*2,…,S*L},并作为生成结果输出。
7.根据权利要求6所述的代谢混合物MS/MS质谱的仿真生成系统,其特征在于,所述噪声概率模型统计模块具体包括:
提取单元,用于设当前输入为第n个代谢物的真实MS/MS质谱Sn,Sn=[(m1,i1),(m2,i2),…(md,id),…],提取其质核比矢量为M=[m1,m2,…],强度矢量为I=[i1,i2,…];
质核偏移矢量形成单元,用于对于M中的每个质核比数值,取其小数部分,形成质核偏移矢量T=[t1,t2,…];
第一构造单元,用于计算T的均值为μT,方差为σT,从而构造质核比概率模型为正态分布N(μT,σT);
第二构造单元,用于计算I的均值为μI,方差为σI,构造强度概率模型为正态分布N(μI,σI);
噪声概率模块生成单元,用于从而得到第n个代谢物的噪声概率模型为Pn=[N(μT,σT),N(μI,σI)]。
8.根据权利要求6所述的代谢混合物MS/MS质谱的仿真生成系统,其特征在于,所述仿真质谱组生成模块具体包括:
初始化单元,用于设当前输入为第n个代谢物的真实MS/MS质谱Sn及噪声概率模型Pn,初始化计数器k=1;
取整单元,用于计算Sn中质核比矢量的取值范围为R=[min(M),max(M)],取C为R内所有整数值所形成的矢量;
判断单元,用于对于每个c∈C,若Rc=[c-0.5,c+0.5]范围内不包含谱线,则转至增加单元,若Rc=[c-0.5,c+0.5]范围内包含谱线,则进入替换单元;
替换单元,用于对Rc内的每个谱线(md,id)增加仿真噪声得到(m*d,i*d)并替换原有的(md,id),然后转至存储单元;
增加单元,用于产生[0,1]范围内均匀分布的随机值r,若有r<pins,则在Rc内添加一根谱线(md,id),其中md=c+t,t为服从N(μT,σT)∈Pn分布的随机偏移;id为服从N(μI,σI)∈Pn分布的随机值,pins为谱线增加概率;
存储单元,用于将修改后的谱线数据存储为第n个代谢物的第k个仿真质谱S*n,k,更新计数器k=k+1,若k<K则转至取整单元,K为最大生成质谱数量;
输出单元,用于输出第n个代谢物的仿真质谱组为S*n={S*n,1,S*n,2,…,S*n,K}。
9.根据权利要求8所述的代谢混合物MS/MS质谱的仿真生成系统,其特征在于,所述替换单元具体包括:
删除子单元,用于产生[0,1]范围内均匀分布的随机值r,若有r<pdel,则将对应谱线删除。
质核比偏移子单元,用于产生[0,1]范围内均匀分布的随机值r,若有r<pmz,则使md产生一个服从N(μT,σT)∈Pn分布的随机偏移t,有m*d=md+t;
强度偏移子单元,用于产生[0,1]范围内均匀分布的随机值r,若有r<pint,则使id变为一个服从N(μI,σI)∈Pn分布的新随机值i*d;
其中,pdel为谱线删除概率,pmz为质核比偏移概率,pint为强度偏移概率。
10.根据权利要求6所述的代谢混合物MS/MS质谱的仿真生成系统,其特征在于,所述仿真质谱产生模块具体包括:
混合单元,用于从每个代谢物的仿真质谱组S*n,n=1,2,…,N中,各随机选择一个质谱S*n,K,k∈K,共计N个;将其中所有谱线混合,组成新的质谱矢量Sl=[(m1,i1),(m2,i2),…];
计算单元,用于提取Sl的质核比矢量为Ml,计算其质核比概率模型为Nl(μT,σT);
建模单元,用于使用回归算法对Sl进行建模形成非线性模型Rl;
随机偏移单元,用于对于Ml中的每个md,使其产生一个服从Nl(μT,σT)分布的随机偏移值t:m*d=md+t,并使用Rl计算对应的强度值为i*d,构\t成新的仿真谱线(m*d,i*d),将所有仿真谱线组成代谢混合物MS/MS仿真质谱S*l=[(m*1,i*1),(m*2,i*2),…],作为当前输出;
更新单元,用于更新计数器l=l+1,若l<L则转至混合单元。