本发明涉及解决质谱仪、光谱仪、气相色谱仪或液相色谱仪等分析仪器对生物液体活检样本中的蛋白组学、多肽组学和代谢组学等检测结果的数据处理的方法。
背景技术:
1、在体外诊断领域,疾病的发展过程总是体现出蛋白、多肽以及代谢产物的异常。例如,在癌症患者血清中,有些多肽持续保持很低水平(如各种癌症患者中所有的fpa片段和乳腺癌患者中3c3f片段),有的则呈高水平(如膀胱癌和前列腺癌中的几种c3f片段和乳腺癌中的一种fpa片段)。从数据分析的角度,我们需要获取这些检测对象的各种属性,然后归一化为等长的特征向量,最后再采用各种计算手段进行分析,以便识别出肿瘤、冠心病等疾病的标志物,进而对疾病进行诊断。在这个过程中,标志物的提取尤其重要,直接影响到诊断结果的准确性。
2、实验数据处理是一种广泛应用于生产和科学研究过程中的普遍使用的科学计算方法,是产品设计质量管理和科学研究的重要工具。通过特殊的计算手段,对光谱、色谱以及质谱等检测方法得到的数据进行分析,可快速判断出肿瘤、冠心病、高血压及糖尿病等慢性疾病的标志物。
技术实现思路
1、为了通过严密而准确的数据处理,对所得的实验数据进行分析,寻找出事物的内在规律,为慢性疾病的诊断提供依据,本发明提供了一种解决质谱仪、光谱仪、气相色谱仪或液相等分析仪器对生物液体活检样本中的蛋白组学、多肽组学和代谢组学等检测结果的数据处理的方法。
2、具体而言,本发明包含以下实施方式。
3、1.一种数据库系统的建立的方法,其包括以下步骤:
4、步骤一、使用分析仪器对生物液体活检样本进行检测,获取实验室生成的fid原始数据文件;
5、步骤二、使用compassxport软件将fid数据文件转化为可以处理的数据文件;
6、步骤三、使用数据转换方法对上述可处理的数据进行处理,以获得各组分准确的相对丰度;
7、步骤四、根据样本特征数据情况分析判断本次实验进行qc,判断是否满足数据要求,如不满足,分析原因,重新实验;
8、步骤五、如满足数据要求,则对样本特征数据进行数据清洗;
9、步骤六、使用算法对处理过的特征数据进行数据建模预测,并筛选出关键的峰以及其丰度数据;
10、步骤七、事先使用带有准确人工标注的数据,用于机器学习模型的训练;
11、步骤八、将筛选所得的数据输入预训练好的机器学习模型,并给出相应的预测结果以辅助临床诊断。
12、2.根据权利要求1所述数据库系统的建立的方法,其中,
13、在步骤一中,所述分析仪器为质谱仪、光谱仪、气相色谱仪或液相色谱仪。
14、3.根据权利要求1所述数据库系统的建立的方法,其中,
15、步骤一中,所述生物液体活检样本选自血清、尿液、组织液、唾液、血浆和关节液中的任一种。
16、4.根据权利要求1所述数据库系统的建立的方法,其中,在步骤二中,为了提高数据转化的效率,采用多进程处理的方法。
17、5.根据权利要求1所述数据库系统的建立的方法,其中,在步骤二中,可以处理的数据文件为mzml、txt、csv格式的数据文件。
18、6.根据权利要求1所述数据库系统的建立的方法,
19、其中,步骤三中数据转换方法包括以下几个步骤:
20、s1、使用平方根的方法对数据进行处理;
21、s2、使用savitzkygolay方法平滑数据;
22、s3、使用snip方法矫正数据;
23、s4、计算峰强度。
24、7.根据权利要求1所述数据库系统的建立的方法,其中,步骤五中数据清洗选自删除异常数据、数据填补和特征筛选中的一种以上。
25、8.根据权利要求1所述数据库系统的建立的方法,其中,步骤六中的算法为随机森林、svm、神经网络或者贝叶斯网络。
26、本发明还包含以下实施方式:
27、9.一种建立数据库的系统,其包括以下模块:
28、采集模块,使用分析仪器对生物液体活检样本进行检测,获取实验室生成的fid原始数据文件;
29、数据转换模块,使用compassxport软件将fid数据文件转化为可以处理的数据文件;
30、数据处理模块,使用数据转换方法对上述可处理的数据进行处理,以获得各组分准确的相对丰度;
31、数据分析模块,根据样本特征数据情况分析判断本次实验进行qc,判断是否满足数据要求,如不满足,分析原因,重新实验;如满足数据要求,则对样本特征数据进行数据清洗;
32、数据建模预测模块,使用算法对处理过的特征数据进行数据建模预测,并筛选出关键的峰以及其丰度数据;
33、计算机训练模块,事先使用带有准确人工标注的数据,用于机器学习模型的训练;
34、数据库辅助治疗构建模块,将筛选所得的数据输入预训练好的机器学习模型,并给出相应的预测结果以辅助临床诊断。
35、10.根据权利要求9所述建立数据库的系统,其中,
36、在采集模块中,所述分析仪器为质谱仪、光谱仪、气相色谱仪或液相色谱仪。
37、11.根据权利要求9所述建立数据库的系统,其中,
38、在采集模块中,所述生物液体活检样本选自血清、尿液、组织液、唾液、血浆和关节液中的任一种。
39、12.根据权利要求9所述建立数据库的系统,其中,
40、在数据转换模块中,为了提高数据转化的效率,采用多进程处理的方法。
41、13.根据权利要求9所述数据库系统的建立的方法,其中,在数据转换模块中,可以处理的数据文件为mzm1、txt、csv格式的数据文件。
42、14.根据权利要求9所述建立数据库的系统,
43、其中,数据处理模块中数据转换方法包括以下几个步骤:
44、s1、使用平方根的方法对数据进行处理;
45、s2、使用savitzkygolay方法平滑数据;
46、s3、使用snip方法矫正数据;
47、s4、计算峰强度。
48、15.根据权利要求9所述数据库系统的建立的方法,其中,在数据分析模块中,数据清洗选自删除异常数据、数据填补和特征筛选中的一种以上。
49、16.根据权利要求9所述数据库系统的建立的方法,其中,在数据建模预测模块中,算法为随机森林、svm、神经网络或者贝叶斯网络。
1.一种数据库系统的建立的方法,其包括以下步骤:
2.根据权利要求1所述数据库系统的建立的方法,其中,
3.根据权利要求1所述数据库系统的建立的方法,其中,
4.根据权利要求1所述数据库系统的建立的方法,其中,在步骤二中,为了提高数据转化的效率,采用多进程处理的方法。
5.根据权利要求1所述数据库系统的建立的方法,其中,在步骤二中,可以处理的数据文件为mzml、txt、csv格式的数据文件。
6.根据权利要求1所述数据库系统的建立的方法,
7.根据权利要求1所述数据库系统的建立的方法,其中,步骤五中数据清洗选自删除异常数据、数据填补和特征筛选中的一种以上。
8.根据权利要求1所述数据库系统的建立的方法,其中,步骤六中的算法为随机森林、svm、神经网络或者贝叶斯网络。
9.一种建立数据库的系统,其包括以下模块:
10.根据权利要求9所述建立数据库的系统,其中,
11.根据权利要求9所述建立数据库的系统,其中,
12.根据权利要求9所述建立数据库的系统,其中,
13.根据权利要求9所述数据库系统的建立的方法,其中,在数据转换模块中,可以处理的数据文件为mzml、txt、csv格式的数据文件。
14.根据权利要求9所述建立数据库的系统,
15.根据权利要求9所述数据库系统的建立的方法,其中,在数据分析模块中,数据清洗选自删除异常数据、数据填补和特征筛选中的一种以上。
16.根据权利要求9所述数据库系统的建立的方法,其中,在数据建模预测模块中,算法为随机森林、svm、神经网络或者贝叶斯网络。