小细胞肺癌数据信息检测中小细胞肺癌诊断模型构建方法

文档序号:30990980发布日期:2022-08-03 02:19阅读:99来源:国知局
小细胞肺癌数据信息检测中小细胞肺癌诊断模型构建方法

1.本发明属于医药学技术领域,尤其涉及一种小细胞肺癌数据信息检测中基于代谢物的小细胞肺癌诊断模型构建方法、终端、介质及应用。


背景技术:

2.目前,小细胞肺癌(sclc)是一种侵袭性高级别的神经内分泌恶性肿瘤,约占所有肺癌的15%,其特点是倍增时间快、早期易广泛转移、生存率极低。大多数患者在最初诊断时发生远处转移,这使患者的中位生存期不到1年。如果不进行治疗,中位生存期只有3-4个月。因此,早期有效地发现小细胞肺癌,及时给予治疗,对预后有重要的积极影响。
3.神经元特异性烯醇化酶(nse)和胃泌素前体释放肽(progrp)是目前常规用于小细胞肺癌诊断的肿瘤标志物。然而,nse和progrp预测小细胞肺癌的敏感性和特异性较差。近年来,越来越多的研究表明,血液肿瘤成分如循环肿瘤dna(ctdna)、循环肿瘤细胞(ctcs)、外泌体和细胞外囊泡(evs)具有作为小细胞肺癌诊断标志物的潜能。然而,大多数肿瘤标志物单独应用时不适合用于筛查和组织学诊断,每种标志物都有其自身的局限性。
4.代谢增强是包括小细胞肺癌在内的癌症的重要表型之一。代谢组学是能够为样本基因组和蛋白质组图谱提供补充信息的组学技术。更重要的是,代谢产物在体液中是稳定和可定量的,这为建立一种非侵入性的疾病诊断方法提供了机会。
5.许多研究表明,代谢物作为生物标志物在癌症诊断中表现出良好的诊断性能。然而,研究尚未系统地探讨血清代谢物在诊断小细胞肺癌患者中的潜在作用。
6.通过上述分析,现有技术存在的问题及缺陷为:现有技术没有基于代谢物的小细胞肺癌诊断模型的构建方法或技术。
7.解决以上问题及缺陷的难度为:小细胞肺癌恶性程度高,目前缺乏敏感性和特异性理想的生物标志物用于小细胞肺癌的诊断及协助临床决策。
8.解决以上问题及缺陷的意义为:基于代谢物的小细胞肺诊断模型可以提高小细胞肺癌的诊断能力,具有重要的临床意义。


技术实现要素:

9.针对现有技术存在的问题,本发明提供了一种基于代谢物的小细胞肺癌诊断模型构建方法、终端、介质及应用。
10.本发明是这样实现的,一种小细胞肺癌数据信息检测中基于代谢物的小细胞肺癌诊断模型构建方法,包括:
11.将代谢物提取样本利用超高效液相色谱hilic柱分离,并分析进样数据;
12.通过统计检验对进样分析数据进行预筛选,采用集成学习方法计算每种代谢物提取样本的权重值,根据权重值选择候选生物标志物,权重值越大表明该代谢物对模型的贡献越大;并利用roc分析评价各代谢物对模型的auc值的影响强度,auc值越高,表明模型的分类效果越好;从而有效的筛选出候选标志物;
13.对筛选得到的候选标志物进行验证,并结合代谢物表达水平分析结果,确定诊断生物标志物;得到基于代谢物的小细胞肺癌诊断模型。
14.进一步,所述分析进样数据包括:将样品以4℃/min的速度放置在自动取样器中采用随机序列对样品进行连续分析;
15.还包括:
16.将质控样本插入样本队列,利用质谱仪采集样品的一次和二次光谱;利用proteowizard将wiff格式的原始数据转换为mzxml格式,并利用xcms软件进行峰对齐、保留时间校正和峰面积提取;
17.对xcms提取的数据进行代谢物结构鉴定和数据预处理,并对实验数据进行质量评价以及分析数据。
18.进一步,所述选择候选生物标志物包括:
19.采用roc分析评价各物质对模型auc值的影响程度进行候选生物标志物的筛选。
20.进一步,所述对筛选得到的候选标志物进行验证包括:
21.使用logistic回归、随机森林和支持向量机三种机器学习方法对候选生物标志物进行验证。
22.进一步,利用随机森林算法构建的分类模型,计算候选生物标记物的重要系数,比较各生物标记物对模型的贡献;
23.利用逻辑回归算法构建生物标志物诊断的面板模型,计算每个候选标志物的逻辑回归系数和截距;
24.生物标志物逻辑回归模型公式为:
25.其中,z=intercept+coefficient(b1)+coefficient(b2)+coefficient(b3)+
···
+coefficient(bn);通过z得分换算,将生物标志物的表达水平纳入面板模型公式的计算中;
26.所述生物标志物诊断的面板模型利用约登指数确定最佳分界值。
27.进一步,所述小细胞肺癌数据信息检测中基于代谢物的小细胞肺癌诊断模型构建方法进一步包括:
28.获取小细胞肺癌患者的血液样本,并对所述血液样本进行离心处理,得到血清样品,并于-80℃下进行保存;
29.将血清样品于4℃下缓慢解冻,并对解冻后的血清样品进行代谢物提取。
30.进一步,所述血清样本离心处理包括:3000xg离心10min;
31.所述对解冻后的血清样品进行代谢物提取包括:将解冻后的血清样本添加至预冷过混合溶液中,旋涡混合,过滤,收集上清液;将所述上清液于-20℃下放置10min,于4℃下14000xg离心20min;过滤,取上清液;并将所述上清液在真空中干燥;用100μl由乙腈与水按照1:1的比例配制得到的乙腈溶液将干燥后的上清液溶解15min,取上清于4℃下14000xg离心15min;
32.所述混合溶液由甲醇、乙腈、水按照2:2:1组成。
33.本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使
得所述处理器执行所述小细胞肺癌数据信息检测中基于代谢物的小细胞肺癌诊断模型构建方法,包括:将代谢物提取样本利用超高效液相色谱hilic柱分离,并分析进样数据;
34.通过统计检验对进样分析数据进行预筛选,采用集成学习方法计算每种代谢物提取样本的权重值,并根据权重值选择候选生物标志物;
35.对筛选得到的候选标志物进行验证,并结合代谢物表达水平分析结果,确定诊断生物标志物;得到基于代谢物的小细胞肺癌诊断模型。
36.本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
37.将代谢物提取样本利用超高效液相色谱hilic柱分离,并分析进样数据;
38.通过统计检验对进样分析数据进行预筛选,采用集成学习方法计算每种代谢物提取样本的权重值,并根据权重值选择候选生物标志物;
39.对筛选得到的候选标志物进行验证,并结合代谢物表达水平分析结果,确定诊断生物标志物;得到基于代谢物的小细胞肺癌诊断模型
40.本发明的另一目的在于提供一种所述构建方法在筛选用于小细胞肺癌诊断、检测的肺癌药物中的应用。
41.结合上述的所有技术方案,本发明所具备的优点及积极效果为:
42.本发明采用液相色谱-串联质谱法(lc-ms/ms)对416例小细胞肺癌(sclc)、非小细胞肺癌(nsclc)和健康体检者的血清标本进行代谢组学分析,构建了基于代谢物的小细胞肺癌检测模型,能够提高对小细胞肺癌的诊断能力。
附图说明
43.图1是本发明实施例提供的小细胞肺癌数据信息检测中基于代谢物的小细胞肺癌诊断模型构建方法流程图。
44.图2是本发明实施例提供的小细胞肺癌患者的代谢物与对照组的差异示意图。
45.图3是本发明实施例提供的机器学习方法筛选代谢相关生物标志物示意图。
46.图4是本发明实施例提供的筛选出的代谢标志物构建的小细胞肺癌诊断模型示意图。
47.图5是本发明实施例提供的构建的代谢相关的诊断模型在不同分期中的诊断效能示意图。
具体实施方式
48.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
49.针对现有技术存在的问题,本发明提供了一种基于代谢物的小细胞肺癌诊断模型构建方法,下面结合附图对本发明作详细的描述。
50.如图1所示,本发明实施例提供的小细胞肺癌数据信息检测中基于代谢物的小细胞肺癌诊断模型构建方法包括:
51.s101,获取小细胞肺癌患者的血液样本,并对所述血清样本3000xg离心10min,得
到血清样品,并于-80℃下进行保存;
52.s102,将血清样品于4℃下缓慢解冻,并对解冻后的血清样品进行代谢物提取;同时将代谢物提取样本利用超高效液相色谱hilic柱分离,并进行进样分析;
53.s103,通过统计检验对分析数据进行预筛选,采用集成学习方法计算每种代谢物的权重值,并根据权重值选择候选生物标志物,包括水杨酸、3-磷酸丝氨酸、dl-乳酸、三聚氰胺、硫酸胆固醇和亮氨酸-苯丙氨酸;
54.s104,对筛选得到的标志物进行验证,并结合代谢物表达水平分析结果,确定诊断生物标志物;得到基于代谢物的小细胞肺癌诊断模型。
55.本发明实施例提供的对解冻后的血清样品进行代谢物提取包括:将解冻后的血清样本添加至预冷过混合溶液中,旋涡混合,过滤,收集上清液;将所述上清液于-20℃下放置10min,于4℃下14000xg离心20min;过滤,取上清液;并将所述上清液在真空中干燥;用100μl由乙腈与水按照1:1的比例配制得到的乙腈溶液将干燥后的上清液溶解15min,取上清于4℃下14000xg离心15min。
56.本发明实施例提供的混合溶液由甲醇、乙腈、水按照2:2:1组成。
57.本发明实施例提供的进样分析包括:
58.将样品以4℃/min的速度放置在自动取样器中采用随机序列对样品进行连续分析;
59.具体包括以下步骤:
60.将质控样本插入样本队列,利用质谱仪采集样品的一次和二次光谱;利用proteowizard将wiff格式的原始数据转换为mzxml格式,并利用xcms软件进行峰对齐、保留时间校正和峰面积提取;
61.对xcms提取的数据进行代谢物结构鉴定和数据预处理,并对实验数据进行质量评价以及分析数据。
62.本发明实施例提供的对筛选得到的标志物进行验证包括:
63.采用roc分析评价各物质对模型auc值的影响程度进行候选生物标志物的筛选;使用logistic回归、随机森林和支持向量机三种机器学习方法对候选生物标志物进行验证。
64.本发明实施例提供的使用logistic回归、随机森林和支持向量机三种机器学习方法对候选生物标志物进行验证包括:
65.利用随机森林算法构建的分类模型,计算候选生物标记物的重要系数,比较各生物标记物对模型的贡献;
66.利用逻辑回归算法构建生物标志物诊断的面板模型,计算每个候选标志物的逻辑回归系数和截距;
67.生物标志物逻辑回归模型公式为:
68.其中,z=intercept+coefficient(b1)+coefficient(b2)+coefficient(b3)+
···
+coefficient(bn);通过z得分换算,将生物标志物的表达水平纳入面板模型公式的计算中。
69.本发明实施例提供的基于代谢物的小细胞肺癌诊断模型构建方法还包括:利用约登指数确定诊断决策的最佳分界值。
70.下面结合具体实施例对本发明的技术方案做进一步说明。
71.实施例1:
72.样本收集。
73.于2020年3月至11月在山东省肿瘤医院采集血液标本501例。排除用药信息不明确、血清质量不达标的样本,共461例,包括小细胞肺癌191例、非小细胞肺癌173例和97例健康对照。所有癌症患者均需经组织病理学证实,并在血液标本收集前未接受任何抗肿瘤治疗。所有血样在6h内以3000xg离心10min获得血清样品,血清样品在-80℃下保存至使用。所有患者在采集血样前都签署了知情同意书。本发明由山东省肿瘤医院伦理委员会批准。
74.代谢物的提取。
75.样品在4℃下缓慢解冻后,加入适量样品于预冷的甲醇/乙腈/水(2:2:1)溶液中,与旋涡混合,上清液在-20℃下放置10min,在4℃下放置14000
×
g,20min。上清液在真空中干燥,再用100μl乙腈溶液(乙腈:水=1:1)溶解15min。取上清经14000
×
g、4℃离心15min后进行进样分析。
76.质谱分析。
77.样品经agilent 1290infinity lc超高效液相色谱(uhplc)hilic柱分离。在整个分析过程中,样品以4℃/min的速度放置在自动取样器中。为避免仪器检测信号波动带来的影响,采用随机序列对样品进行连续分析。将质控样本插入样本队列,对系统的稳定性和实验数据的可靠性进行监测和评估。用ab triple tof6600质谱仪采集样品的一次和二次光谱。利用proteowizard将wiff格式的原始数据转换为mzxml格式,然后利用xcms软件进行峰对齐、保留时间校正和峰面积提取。首先对xcms提取的数据进行代谢物结构鉴定和数据预处理,然后对实验数据进行质量评价,最后对数据进行分析。
78.诊断模型的构建。
79.所有的血清样本都被用来提取代谢物。经质谱分析后,对数据质量进行评价。通过统计检验对所有数据进行预筛选,采用集成学习方法计算每种物质的权重值,并根据权重值选择候选生物标志物。此外,为了有效地筛选候选生物标志物,采用roc分析评价了各物质对模型auc值的影响程度。使用logistic回归、随机森林和支持向量机三种机器学习方法对候选生物标志物进行验证。通过roc曲线分析确定不同群体候选标记。利用随机森林算法构建的分类模型,计算候选生物标记物的重要系数,比较各生物标记物对模型的贡献。利用逻辑回归算法构建了生物标志物诊断的面板模型。计算每个候选标记的逻辑回归系数和截距。生物标志物逻辑回归模型公式为:z=intercept+coefficient(b1)+coefficient(b2)+coefficient(b3)+
···
+coefficient(bn)。通过z得分换算,将生物标志物的表达水平纳入上述面板模型公式的计算中。本发明利用约登指数来定义诊断决策的最佳分界值。用约登指数确定诊断决策的最佳分界值。样本随机抽取为训练队列(2/3)和测试队列(1/3)。基于候选生物标志物的表达,对构建的诊断模型进行roc分析。如果计算出的诊断模型得分超过分界值,则判断为诊断阳性。
80.统计分析。
81.所有的统计分析都是双面的,p值小于0.05被认为具有统计学意义。对处理后的数据进行r软件包分析,并进行多元数据分析。
82.结果
83.代谢物的差异分析。
84.三维pca得分图显示,小细胞肺癌患者的代谢物与对照组(非小细胞肺癌+健康人)相比有很大的差异(图2中的a)。其次,使用p值《0.05和fc》1.5或《0.67对代谢物火山图可视化差异分析,可见小细胞肺癌患者与对照组相比具有明显的代谢物差异(图2中的b)。
85.用机器学习方法筛选代谢相关生物标志物。
86.为有效筛选候选生物标志物,采用roc分析评价各物质对模型auc值的影响程度。结果表明,排在前六位的物质可以提高样品的分类能力,包括水杨酸、3-磷酸丝氨酸、dl-乳酸、三聚氰胺、硫酸胆固醇和亮氨酸-苯丙氨酸(图3中的a)。随后,使用logistic回归、随机森林和支持向量机三种机器学习方法对筛选结果进行了验证,并利用roc曲线分析了6种候选代谢物在小细胞肺癌组和对照组样本分类中的性能(图3中的b)。结果表明,logistic回归和支持向量机的auc为0.92,随机森林的auc为0.91(图3中的c)。此外,利用logistic回归算法构建的分类模型计算了6种代谢物的重要系数,比较了各代谢物对模型的贡献。
87.结果表明,亮氨酸-苯丙氨酸对模型的贡献最大,而硫酸胆固醇对模型的贡献最小(图3中的d)。并对小细胞肺癌组和对照组6种代谢物的表达水平进行了分析。结果表明,3-磷酸丝氨酸(p《0.0001)、三聚氰胺(p《0.0001)、硫酸胆固醇(p=0.0002)、dl-乳酸(p《0.0001)、亮氨酸-苯丙氨酸(p《0.0001)和水杨酸(p《0.0001)在两组间差异显著(图3中的e)。
88.诊断模型的构建。
89.本发明随机选取2/3的样本作为训练队列,另外1/3的样本作为测试队列,对构建的诊断模型进行roc分析。结果表明,模型在训练队列中的auc值为0.932(图4中的a)。对训练队列中六种代谢物的聚类分析表明,在热图上两组之间有明显的分离(图4中的b)。同样,测试队列中模型的auc值为0.924(图4中的c)。对测试队列中的六种代谢物的聚类分析显示,两组之间有明显的分离(图4中的d)。
90.诊断模型可以提高小细胞肺癌的诊断性能。
91.本发明发现,与非小细胞肺癌(p《0.0001)和健康对照组(p《0.0001)相比,小细胞肺癌表现出较高的诊断模型评分(图5中的a)。此外,本发明还分析了nse和progrp在本发明中的诊断效果。结果表明,nse和progrp检测小细胞肺癌的auc值分别为0.873和0.894,低于本发明的代谢物诊断模型auc值(图5中的b)。此外,本发明还证实了诊断模型在不同分期的小细胞肺癌中的诊断性能。局限期和广泛期癌症患者的auc分别为0.925和0.933(图5中的c和图5中的d)。综述结果表明,本发明构建的基于代谢物的诊断模型具有较强的对小细胞肺癌的诊断能力。
92.应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编
程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
93.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1