一种适合于食管鳞状细胞癌早期诊断的诊断标记物的制作方法_5

文档序号:9325361阅读:来源:国知局
练样本 中基于随机森林(random Forest)构建食管癌早期诊断模型。随机森林使用R语言中 randomForest软件包实现,建模参数ntree = 5000 (等同于下述b)。 随机森林建模步骤如下: (1) 原始训练集的样本含量为N,应用bootstrap法有放回地随机抽取b个新的自助 样本集,并由此构建b棵分类树,每次未被抽到的样本组成了 b个袋外数据(out-of-bag, 00B); (2) 设有mall个变量,则在每一棵树的每个节点处随机抽取m txy个变量(m &y< < m all), 然后在mtlT中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确 定; (3) 随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从 根节点开始依次对训练集进行划分。每棵树最大限度地生长,不做任何修剪。 (4) 将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分 类,分类结果按树分类器的投票多少而定。 (5) 然后以该投票得分和实际分类情况行ROC曲线分析可获得诊断的诊断界值 (Threshold)。此模型的诊断界值(Threshold)为 0.3552。 上述构建的随机森林模型即可以作为食管癌诊断模型,当采用构建的随机森林模型进 行诊断时,将待测血清中的25个血清代谢标记物的数据信息导入随机森林模型中,如果模 型分类器的投票结果大于或等于诊断界值,则判定为诊断阳性(患食管鳞状细胞癌),如果 低于诊断界值,则判定为诊断阴性(未患食管鳞状细胞癌)。 将外部测试样本的25个血清代谢标记物的二维矩阵数据代入上述建立的随机森林模 型中,得到测试样本的食管癌患病概率预测值,并同实际病理结果(食管癌或健康)相比做 ROC曲线分析(见图5),获得随机森林模型的灵敏度、特异度和ROC曲线下面积AUC值,结果 见表4。从图5和表4可以看出,本发明上述构建的食管癌诊断模型效果良好,其用于食管 癌诊断的ROC曲线下面积AUC为0. 895 (0. 784~1),灵敏度为85. 00%,特异度为90. 48%。 进一步的,将测试样本的不同分期的食管癌患病概率预测值与实际病理结果(食管癌 或健康)相比分别做ROC曲线分析,用于评价该诊断模型对不同分期食管癌的诊断效果。随 机森林模型对于不同分期的食管癌的灵敏度、特异度和ROC曲线下面积AUC值见下表4,从 表中可以看出:随着食管癌的进一步恶化,AUC值和特异度有增高趋势,灵敏度在原位癌和 晚期癌期间较好,在早期癌中有所下降,总体来说该模型对于晚期食管癌的诊断效果较好, 但是原位癌和早期食管癌的诊断效果(AUC)也能够达到可以接受的0.85以上,也具有早期 诊断的价值,同时也说明本发明筛选得到的血清代谢标记物在早期食管癌甚至原位癌阶段 就有了代谢变化。
[0029] 原位癌是比早期(I和II期)食管癌还要早的阶段,食管癌的诊断早期更难,晚期 相对容易一些。由表中的数据看,本发明的诊断模型能够很好的诊断出是否患有食管癌, 并且不仅对晚期食管癌的诊断效果好,对于早期食管癌和原位癌的准确度、灵敏度和特异 度也较好,能够有效地诊断出症状不明显的原位癌和早期食管癌,降低了癌症漏诊率,非常 有利于食管癌的早发现、早治疗,对于改善食管癌的预后、降低食管癌的死亡率有很好的帮 助,具有良好的临床使用和推广价值。 表4.食管癌诊断模型的外部推广的ROC分析结果
8. 2以7个血清代谢标记物的组合作为诊断标记物进行建模,并用于诊断食管癌,具体 如下:
[0030] 将得到的二维矩阵数据随机分配成4/5作为训练样本training data,另外1/5 作为外部测试样本test data (见表1)。仅采用溶血磷脂酸LPA (18:1 (9Z)/0:0)、溶血卵磷 脂 LysoPC (14:0/0:0)、溶血卵磷脂 LysoPC (18:2 (9Z,12Z))、溶血卵磷脂 LysoPC (24:0)、磷 脂 PC (14:1 (9Z) /P-18:1 (11Z))、磷脂 PC (16:0/18:2 (9Z, 12Z))和磷脂 PC (24:1 (15Z) /22:6 (4Z,7Z,10Z,13Z,16Z,19Z)) 7种代谢标记物作为诊断标记物,在训练样本中基于随机森林 (random Forest)构建食管癌早期诊断模型。随机森林使用R语言中randomForest软件包 实现,建模参数ntree = 5000,随机森林建模步骤同上。 采用构建的随机模型进行诊断时,将待测血清中的7个血清代谢标记物的数据信息导 入随机森林模型中,如果模型分类器的投票结果大于或等于诊断界值,则判定为诊断阳性 (患食管鳞状细胞癌),如果低于诊断界值,则判定为诊断阴性(未患食管鳞状细胞癌)。此 模型的诊断界值(Threshold)为0.7431。 将外部测试样本的7个血清代谢标记物的二维矩阵数据代入上述建立的随机森林模 型中,得到测试样本的食管癌患病概率预测值,并同实际病理结果(食管癌或健康)相比做 ROC曲线分析(见图6),获得随机森林模型的灵敏度、特异度和ROC曲线下面积AUC值,结 果见表5。从图6和表5可以看出,本发明上述构建的食管癌诊断模型效果良好,其用于食 管癌诊断的AUC为0. 876 (0. 752~1),灵敏度为90%,特异度为85. 71 %。
[0031] 进一步的,将测试样本的不同分期的食管癌患病概率预测值与实际病理结果(食 管癌或健康)相比分别做ROC曲线分析,用于评价该诊断模型对不同分期食管癌的诊断效 果。随机森林模型对于不同分期的食管癌的灵敏度、特异度和ROC曲线下面积AUC值见下 表5,从表中可以看出:随着食管癌的进一步恶化,AUC值和灵敏度有增高趋势,特异度在原 位癌和晚期癌期间较好,在早期癌中有所下降,总体来说该模型对于晚期食管癌的诊断效 果较好,但是原位癌和早期食管癌的诊断效果(AUC)也能够达到可以接受的0.83以上,也 具有早期诊断的价值,同时也说明本发明筛选得到的血清代谢标记物在早期食管癌甚至原 位癌阶段就有了代谢变化。 由表中的数据可以看出,本发明7个血清代谢标记物信息构建的诊断模型相比于采用 25个血清代谢标记物信息构建的诊断模型效果差一些,但该诊断模型也能够很好的诊断出 是否患有食管癌,并且不仅对晚期食管癌的诊断效果好,对于早期食管癌和原位癌的准确 度、灵敏度和特异度也较好,能够有效地诊断出症状不明显的原位癌和早期食管癌,降低了 癌症漏诊率,非常有利于食管癌的早发现、早治疗,对于改善食管癌的预后、降低食管癌的 死亡率有很好的帮助,具有良好的临床使用和推广价值。 表5食管癌诊断模型的外部推广的ROC分析结果
[0032] 8. 3、以5个血清代谢标记物的组合作为诊断标记物进行建模,并用于诊断食管 癌,具体如下: 将得到的二维矩阵数据随机分配成4/5作为训练样本training data,另外1/5作为外 部测试样本test data (见表1)。采用L-酪氨酸(L-Tyrosine)、L-色氨酸(L-Tryptophan)、 甘氨胆酸(GlycocholicAcid)、牛横胆酸盐(Taurocholate)和皮质醇(Cortisol) 5种血清 代谢标记物作为诊断标记物,在训练样本中基于随机森林(random Forest)构建食管癌早 期诊断模型。随机森林使用R语言中randomForest软件包实现,建模参数ntree = 5000, 随机森林建模步骤同上。 采用构建的随机模型进行诊断时,将待测血清中的5个血清代谢标记物的数据信息导 入随机森林模型中,如果模型分类器的投票结果大于或等于诊断界值,则判定为诊断阳性 (患食管鳞状细胞癌),如果低于诊断界值,则判定为诊断阴性(未患食管鳞状细胞癌)。此 模型的诊断界值(Threshold)为0.4943。 将外部测试样本的5个血清代谢标记物的二维矩阵数据代入上述建立的随机森林模 型中,得到测试样本的食管癌患病概率预测值,并同实际病理结果(食管癌或健康)相比做 ROC曲线分析(见图7),获得随机森林模型的灵敏度、特异度和ROC曲线下面积AUC值,结 果见表6。从图7和表6可以看出,本发明上述构建的食管癌诊断模型效果良好,其用于食 管癌诊断的AUC为0. 84 (0. 703~0. 978),灵敏度为95 %,特异度为76. 19 %。 进一步的,将测试样本的不同分期的食管癌患病概率预测值与实际病理结果(食管癌 或健康)相比分别做ROC曲线分析,用于评价该诊断模型对不同分期食管癌的诊断效果。随 机森林模型对于不同分期的食管癌的灵敏度、特异度和ROC曲线下面积AUC值见下表6,从 表中可以看出:这5种血清代谢标记物对于原位癌、早期癌和晚期癌表现出不同的趋势。 由表中的数据可以看出,本发明5个血清代谢标记物信息构建的诊断模型相比于采用 25个和7个血清代谢标记物信息构建的诊断模型效果差一些,但该诊断模型也能够很好的 诊断出是否患有食管癌,并且不仅对晚期食管癌的诊断效果好,对于早期食管癌和原位癌 的准确度、灵敏度和特异度也较好,能够有效地诊断出症状不明显的原位癌和早期食管癌, 降低了癌症漏诊率,非常有利于食管癌的早发现、早治疗,对于改善食管癌的预后、降低食 管癌的死亡率有很好的帮助,具有良好的临床使用和推广价值。 表6食管癌早期诊断模型的外部推广的ROC分析结果
9、结论
[0033] 9. 1本发明所得25个血清代谢标记物中的任意一个作为诊断食管癌的诊断标记 物都具有较好的诊断效果,但是将多个血清代谢标记物组合应用的效果更好。 9. 2本发明优选的3种诊断标记物(诊断标记物A、B、C)以及构建的诊断模型对于食 管癌具有很好的诊断效果,具有临床应用价值。 经过验证,本发明所得诊断标记物和诊断模型具有很好的应用价值,可以在临床上采 用本发明的诊断标记物和诊断模型进行食管癌的诊断,步骤如下: (1) 采集待检血清,离心后采用上述2. 2中的步骤(1)-(4)对血清进行预处理,以备进 样检测; (2) 将预处理后的待检血清样本按照上述2. 3的步骤进行LC-MS检测,得原始代谢指纹 图谱; (3) 将原始代谢指纹图谱按照上述步骤3的方法进行图谱预处理,并进行代谢物峰标 识,得到该待检血清的二维矩阵; (4) 根据质荷比和保留时间从二维矩阵中筛选出相应的诊断标记物(诊断标记物A、B 或C)信息,得到诊断标记物二维矩阵; (5) 将诊断标记物二维矩阵带入相应的诊断模型中,根据模型给出的数值和模型的诊 断界值(Threshold),判断是否为食管鳞状细胞癌。当模型给出的数值大于等于诊断界值 时,判定为诊断阳性(患食管鳞状细胞癌),如果低于诊断界值,则判定为诊断阴性(未患食 管鳞状细胞癌)。
[0034] 除此之外,为了加快效率,可以同时采集多人的血清样本,并进行编号,将多个样 本一次性进行LC-MS检测、图谱预处理、代谢峰标识、诊断标记物二维矩阵筛选和数据导 入。 在实际应用中,可以按照本发明建模方法选取更多的样本进行建模,增加模型的准确 度。 以上为对本发明专利的描述而非限定,基于本发明专利思想的其他实施方式,均在本 发明保护范围之中。
【主权项】
1. 一种适合于食管鳞状细胞癌早期诊断的诊断标记物,其特征是:为下述5种 血清代谢标记物中的两种或两种以上的组合:L-酪氨酸(L-Tyrosine)、L-色氨酸 (L-Tryptophan)、甘氨胆酸(Glycocholic Acid)、牛横胆酸盐(Taurocholate)和皮质醇 (Cortisol)〇2. 根据权利要求1所述的诊断标记物,其特征是:为下述5种血清代谢标记物的组合: L-酪氨酸(L-Tyrosine)、L_ 色氨酸(L-Tryptophan)、甘氨胆酸(Glycocholic Acid)、牛磺 胆酸盐(Taurocholate)和皮质醇(Cortisol)03. 根据权利要求1所述的途断标记物,其特征是:L-酪氨酸(L-Tyrosine)和L-色氨 酸(L-Tryptophan)与苯基丙氨酸/酪氨酸和色氨酸代谢(Phenylalanine,tyrosine and tryptophan biosynthesis)代谢通路密切相关;甘氨胆酸(Glycocholic Acid)和牛横胆 酸盐(Taurocholate)与初级胆汁酸合成(Primary bile acid biosynthesis)代谢通路 密切相关;皮质醇(Cortisol)与癌症通路和胆汁分泌(Pathways in cancer,and Bile secretion)代谢通路密切相关D
【专利摘要】本发明公开了一种适合于食管癌早期诊断的诊断标记物,为下述5种血清代谢标记物中的两种或两种以上的组合:L-酪氨酸(L-Tyrosine)、L-色氨酸(L-Tryptophan)、甘氨胆酸(Glycocholic?Acid)、牛磺胆酸盐(Taurocholate)和皮质醇(Cortisol)。采用本发明诊断标记物可以构建诊断模型,该模型效果良好,灵敏度高,特异性好,适合早期和晚期食管癌的诊断,具有良好的临床使用和推广价值。
【IPC分类】G01N30/02
【公开号】CN105044240
【申请号】CN201510498042
【发明人】王家林, 张涛, 朱正江, 薛付忠, 赵德利, 盛修贵
【申请人】山东省肿瘤防治研究院
【公开日】2015年11月11日
【申请日】2015年8月14日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1