本发明涉及生物检测领域,具体而言,涉及一种色谱下机数据的处理方法及其相关应用。
背景技术:
1、通过液相色谱联用质谱(lc-ms或lc-ms/ms)或气相色谱联用质谱(gc-ms或gc-ms/ms)进行代谢组学分析时,会产生大量的检测数据。为了进行后续的统计分析,首先,需要对这些数据进行清洗、对齐、合并等操作将数据转换为二维数据矩阵,再进行后续的组学分析。在实际检测过程中,使用不同厂家的仪器、不同操作人员、不同时间、不同批次的样本等均会使同一化合物在相同检测条件下的保留时间产生漂移,这样在合并处理这些数据时,一个化合物会存在多个保留时间。
2、此外,通过现有的质谱数据库对检测结果进行定性分析时,将数据库中的质谱图与检测的质谱图进行匹配,从而确定检测的化合物名称、结构等信息,例如通过nist数据库匹配gc-ms检测的质谱图。然而,质谱数据库和实际检测是存在差异的,匹配的结果不一定正确,有时匹配后会发现,同一针样品检测结果中的一个化合物名称会出现在两个甚至多个位置,即一个检测结果中一个化合物存在多个保留时间,一个保留时间也可能对应多个化合物,这时需要从多个保留时间中确定一个最准确的保留时间和化合物名称。
3、鉴于此,特提出本发明。
技术实现思路
1、本发明的目的在于提供一种色谱下机数据的处理方法及其相关应用。
2、本发明是这样实现的:
3、第一方面,本发明实施例提供了一种色谱下机数据的处理方法,其包括:
4、s1:获取待处理样本的色谱下机的初始数据;所述初始数据包括:化合物名称和/或化合物cas号、化合物匹配的色谱保留时间和样本信息;
5、s2:分别对同一名称和/或同一cas号的化合物对应的色谱保留时间进行统计分析,获取该化合物色谱保留时间的离散程度;其中,所述离散程度包括第一离散程度和第二离散程度,所述第一离散程度包括该化合物的所有rt的离散程度或组间离散程度,所述第二离散程度包括:该化合物每组rt的组内离散程度和/或全部组别rt的组内离散程度;
6、s3:对化合物的离散程度进行判断:
7、若所述第一离散程度≤其对应的设定阈值且至少一组rt的组内离散程度≤其对应的设定阈值,则保留该化合物,并保留该化合物组内离散程度≤其对应的设定阈值的数据,剔除或保留该化合物组内离散程度>其对应的设定阈值的组别数据;
8、若所述第一离散程度>其对应的设定阈值和/或所述全部组别rt的组内离散程度>其对应的设定阈值,则剔除该化合物及其对应数据;
9、s4:对保留的化合物的组别的组内数据进行筛选,去除rt值在对应的设定阈值范围外的数据;
10、s5:对同一名称和/或同一cas号的化合物剩余的所有rt值进行分析,获得该化合物的参考保留时间。
11、第二方面,本发明实施例提供了如前述实施例所述的处理方法在化合物定性和/或注释中的应用。
12、本发明具有以下有益效果:
13、本发明基于特定方法对色谱下机数据进行处理,剔除了异常数据,矫正了化合物的保留时间,克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题,将矫正后的保留时间应用于缺失峰面积数据的填充,提高了合并后二维数据矩阵的可靠性;相对于现有方法而言,本发明提供的处理方法确定的参考保留时间更接近实际值,且获得二维数据矩阵的准确性更高,应用于化合物定性和注释,能够避免或减少假阳性定性结果。
1.一种色谱下机数据的处理方法,其特征在于,其包括:
2.根据权利要求1所述的处理方法,其特征在于,在步骤s3后、s4前,所述处理方法还包括:
3.根据权利要求1所述的处理方法,其特征在于,所述离散程度由相对标准偏差、方差、极差和四分位差中的任意一种或多种表示;
4.根据权利要求1所述的处理方法,其特征在于,在步骤s4中,rt值在其对应的设定阈值范围外的判断标准包括:
5.根据权利要求1所述的处理方法,其特征在于,在步骤s5中,所述处理方法还包括:对化合物保留的数据进行合并,以获得该化合物的二维数据矩阵;
6.根据权利要求1~5任一项所述的处理方法,其特征在于,所述初始数据还包括:色谱峰面积、色谱峰面积比例、相似度、色谱峰信噪比和定量离子信噪比中的任意一种或多种。
7.根据权利要求1~5任一项所述的处理方法,其特征在于,所述色谱下机数据包括:液相色谱、气相色谱和离子色谱中的任意一种与质谱检测获得的下机数据。
8.根据权利要求1~5任一项所述的处理方法,其特征在于,所述化合物包括:经色谱分离检测的物质;
9.根据权利要求1~5任一项所述的处理方法,其特征在于,所述待测样本包括1组和/或多组;
10.如权利要求1~9任一项所述的处理方法在化合物定性和/或注释中的应用。