一种新型多发性骨髓瘤诺模图构建方法与流程

文档序号:18603097发布日期:2019-09-03 22:57阅读:670来源:国知局
一种新型多发性骨髓瘤诺模图构建方法与流程

本发明涉及一种基于十基因特征、血清β2-微球蛋白和ldh的多发性骨髓瘤诺模图构建方法。



背景技术:

多发性骨髓瘤(mm)是一种恶性浆细胞病,其肿瘤细胞起源于骨髓中的浆细胞,而浆细胞是b淋巴细胞发育到最终功能阶段的细胞。目前,多发性骨髓瘤的异质性日益受到重视,然而,世界上还没有建立有效、简便的mm预后模型。



技术实现要素:

本发明提供了一种基于十基因特征、血清β2-微球蛋白和ldh的多发性骨髓瘤诺模图构建方法,可以有效解决上述问题。

本发明是这样实现的:

一种基于十基因特征、血清β2-微球蛋白和ldh的多发性骨髓瘤诺模图构建方法,包括以下步骤:

s1,从geo数据库中获取mm患者的基因表达谱gse24080,并对所述基因表达谱gse24080中的基因进行预处理,获得表达值方差最大的前25%的5413个基因;

s2,对所述5413个基因进行wgcna基因共表达网络分析,以识别共表达的功能模块;

s3,通过pearson相关检验将所述功能模块与临床信息之间的相关性进行评估,以确定最显著的模块;

s4,使用cox比例危险度模型对最显著的模块中的基因进行单变量生存分析,并通过lasso回归筛选出由10个最佳基因组成的评分模型如下:风险评分=0.239*znrf3的表达水平+0.219*ube2t的表达水平+0.164*ccsap的表达水平+0.161*cenpe的表达水平+0.152*pms2p5的表达水平+0.147*tmem97的表达水平+0.131*cdkn2a的表达水平+0.123*slc39a10的表达水平+0.107*kif21b的表达水平+0.002*fabp5的表达水平;

s5,建立基于所述评分模型、血清β2m和高ldh的新型诺模图来预测新诊断mm患者的3年os和5年os。

本发明的有益效果是:本发明建立一个十基因风险评分、血清β2m和ldh来构建诺模图。该诺模图能较好地预测个体患者的预后。该模型的c指数(0.729)优于iss模型(0.613)。该诺模图可能比r-iss更有助于定量预测患者的生存率。

附图说明

为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1a为样品聚类树和临床特征热图。

图1b为分析不同软阈值加权系数的网络拓扑结构图。

图1c为将基于拓扑重叠的不同的基因树状图与分配的模块颜色进行聚类图。

图1d为模块-样本特征关联性热图。

图2为lasso回归法绘制回归系数图。

图3a为gse24080训练集多发性骨髓瘤患者的kaplan-meier曲线图。

图3b为gse24080训练集多发性骨髓瘤患者的受试者工作特征曲线(roc)图。

图3c为gse24080训练集多发性骨髓瘤患者的10个预后相关基因的表达谱。

图3d为gse24080测试集多发性骨髓瘤患者的kaplan-meier曲线图。

图3e为gse24080测试集多发性骨髓瘤患者的受试者工作特征曲线(roc)图。

图3f为gse24080测试集多发性骨髓瘤患者的10个预后相关基因的表达谱。

图3g为gse24080全集多发性骨髓瘤患者的kaplan-meier曲线图。

图3h为gse24080全集多发性骨髓瘤患者的受试者工作特征曲线(roc)图。

图3i为gse24080全集多发性骨髓瘤患者的10个预后相关基因的表达谱。

图3j为gse57317数据集多发性骨髓瘤患者的kaplan-meier曲线图。

图3k为gse57317数据集多发性骨髓瘤患者的受试者工作特征曲线(roc)图。

图3l为gse57317数据多发性骨髓瘤患者的10个预后相关基因的表达谱。

图4a为通过综合风险评分系统(irss)获得的本发明训练集中多发性骨髓瘤患者的kaplan-meier曲线图。

图4b为通过国际分期系统(iss)获得的训练集中多发性骨髓瘤患者的kaplan-meier曲线图。

图4c为通过综合风险评分系统(irss)获得的本发明测试集中多发性骨髓瘤患者的kaplan-meier曲线图。

图4d为通过国际分期系统(iss)获得的测试集中多发性骨髓瘤患者的kaplan-meier曲线图。

图4e为通过综合风险评分系统(irss)获得的本发明全集中多发性骨髓瘤患者的kaplan-meier曲线图。

图4f为通过国际分期系统(iss)获得的全集中多发性骨髓瘤患者的kaplan-meier曲线图。

图5a为本发明提供的多发性骨髓瘤mm预后诺模图。

图5b为本发明用于预测gse24080全集患者3年os的校准曲线。

图5c为本发明用于预测gse24080全集患者5年os的校准曲线。

图5d为本发明用于预测gse24080验证集患者3年os的校准曲线。

图5e为本发明用于预测gse24080测试集患者3年os的校准曲线。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

本发明实施例提供一种基于十基因特征、血清β2-微球蛋白(β2m)和乳酸脱氢酶(ldh)的多发性骨髓瘤诺模图构建方法,其包括以下步骤:

s1,从geo数据库中获取mm患者的基因表达谱gse24080,并对所述基因表达谱gse24080中的基因进行预处理,获得表达值方差最大的前25%的5413个基因;

s2,对所述5413个基因进行wgcna基因共表达网络分析,以识别共表达的功能模块;

s3,通过pearson相关检验将所述功能模块与临床信息之间的相关性进行评估,以确定最显著的模块;

s4,使用cox比例危险度模型对最显著的模块中的基因进行单变量生存分析,并通过lasso回归筛选出由10个最佳基因组成的十基因评分模型:风险评分=0.239*znrf3的表达水平+0.219*ube2t的表达水平+0.164*ccsap的表达水平+0.161*cenpe的表达水平+0.152*pms2p5的表达水平+0.147*tmem97的表达水平+0.131*cdkn2a的表达水平+0.123*slc39a10的表达水平+0.107*kif21b的表达水平+0.002*fabp5的表达水平;

s5,将所述十基因评分模型或血清β2m或ldh高于截止值时各因子得分为1分,否则为0分为规则建立了综合风险评分系统。

在步骤s1中,在gse24080数据集中,总共包括了549个来自新诊断mm患者的样本。本发明中以340份纳入整体治疗2(tt2)试验中的样本作为训练集;其余219份样本中包括纳入整体治疗3(tt3)试验的214份样本和纳入微阵列质量控制的5份样本为测试集。训练集人群的病人特征(包括年龄、性别、iga、β2m、c反应蛋白、肌酐、ldh、血红蛋白、骨髓浆细胞和细胞抗体)与测试集人群相似。

为了wgcna基因共表达网络分析,对来自gse24080的原始数据进行相同的预处理,以便进行背景校正和归一化,从gse24080的原始数据共鉴定出21653个基因。进一步的,对所述基因表达谱gse24080中的21653个基因进行预处理,获得表达值方差最大的前25%的5413个基因,并以5413个基因为输入进行聚类分析,如图1a所示。图1a中,颜色强度与年龄、高β2微球蛋白(β2m)、c反应蛋白(crp)、肌酐(creat)、乳酸脱氢酶(ldh)、血红蛋白(hgb)、骨髓浆细胞(bmpc)及较长生存月成正比。白色代表女性、iga类型和没有细胞遗传学异常样本。在生存状态下,白色意味着病人活着,红色意味着病人死亡。

在步骤s2中,所述对所述5413个基因进行wgcna基因共表达网络分析,以识别共表达的功能模块的步骤包括:

s21,选择无尺度拓扑指数达到0.85的最低加权系数8来生成分层聚类树,如图1b所示。图1b左侧图显示软阈值加权系数(x轴)对无尺度拟合指数(y轴)的影响。图1b右侧图显示了软阈值加权系数(x轴)对平均连通度(度,y轴)的影响。

s22,结合拓扑重叠矩阵,采用层次平均连锁聚类方法检测每个基因网络的基因模块。

s23,使用dynamictreecut(deepsp.=2)识别20个共表达的功能模块,如图1c所示。其中,图1c每个着色分支指示高度连接基因的模块。

在步骤s3中,所述临床信息包括年龄、性别、免疫球蛋白iga类型、血清β2-微球蛋白、c反应蛋白、肌酐、乳酸脱氢酶、血红蛋白、骨髓浆细胞、细胞遗传学异常、无事件生存时间和状态、生存期时间和状态。另外,请参照图1d,每行对应一个模块特征基因,每列对应一个临床特征。每个单元格包含第一行中的对应相关性和第二行中的p值。所述最显著的模块的包括:聚集于黑色模块中的240个基因,其分别与efs时间和os时间性状的相关性最强。根据相关系数,我们发现,聚集于黑色模块中的基因(240个基因)与efs时间和os时间性状的相关性最强(pearson的r2=-0.25,p-value=4e-6和pearson的r2=-0.25,p-value=3e-6;)。根据显著性检验的p值,黑色模块与mm生存率、hgb呈负相关,与mm相关预后指标β2m、crp、creat、ldh及cytoabn呈正相关。因此,黑色模块被认为是一个有代表性的生存相关模块。

在步骤s4中,请参照图2及表1,对182个与mm患者os不良显著相关的基因进行lasso回归分析

表1.lasso回归分析与训练集340名患者总体生存有关的基因

计算训练集各样本的风险评分,以中位数(9.426)为阈值。340例患者分为高危(n=170)和低危(n=170)。kaplan-meier生存分析显示高危和低危患者的生存率有显著性差异(hr=3.068,95%ci为2.089-4.505,log-rank检验p<0.001,图3a所示)。图3d及3g分别表示测试集以及全集。高危患者中位os为69.0个月,低危患者未达到中位os。此外,根据时间相关roc分析得出的预后模型3年生存率预测的auc为0.749,明显高于已发表的基因模型emc92(auc=0.71)、uams-70(auc=0.737)和uams-17(auc=0.717),表明该预测模型可很好预测mm患者os的能力(图3b所示,以及图3e及3h)。图3c显示了训练集中10个预后基因的表达谱,结果表明高危组中10个基因的表达水平高于低危组。图3f及3i显示了测试集以及全集10个预后基因的表达谱,结果表明高危组中10个基因的表达水平高于低危组。

在gse57317外部验证数据集中,十基因模型可将患者分为os明显不同的高危组(n=34)的和低危组(n=21)。高危组的os显著短于低危组(hr=8.445,95%ci1.088-65.581,p=0.041,图3j)。roc曲线预测3年os的auc达到0.859(图3k),与emc92、uams-70(auc=0.737)和uams-17相比也具有可比性。图3l显示了gse57317数据集十个预后基因的表达谱。

在步骤s5中,通过单因素cox回归分析,十基因评分模型和年龄、β2m、肌酐、ldh、hgb、bmpc和cytoabn的临床协变量对预后有一定的预测价值(如表2所示)。我们发现,由十基因评分模型计算的hr高于任何一个临床协变量,表明其较高的预测效率。将年龄、β2m、肌酐、ldh、hgb、bmpc、cytoabn与十基因评分模型进行多元cox回归分析,结果表明十基因评分模型、β2m和cytoabn是os的独立预后因子(如表2所示)。

表2.每个数据集多发性骨髓瘤患者总体生存率的单因素和多因素分析

在新的综合风险评分系统(irss)中,十基因评分模型或β2m或ldh高于截止值得分为1分,否则为0。患者被分成三组:低危,评分为0(无因素);中危,评分为1-2(三分之一或两个因素);高危,评分为3(所有三个因素)。在训练集中分出以下三组(n=340):101例(30%)患者为低危组;190例(56%)患者为中危组;49例(14%)患者为高危组。如图4a所示,5年期os分别为85.73%、64.42%和34.0%。低危组和中危组未达到中位os,而高危组中位os为43个月。中危组与低危组相比,死亡的风险更高(hr=2.852,95%ci为1.683-4.833,p<0.001),高危组与中危组相比死亡风险也更高(hr=2.349,95%ci为1.562-3.531,p<0.001)。如图4b所示,issⅰ、ⅱ和ⅲ期患者的5年os率分别为76.04%、59.87%和47.36%。issⅰ期和issⅱ期未达到中位os,issⅲ期中位os为43.5个月。因此,与iss相比,这种新的irss可以更清楚地将患者分为三个不同的风险组。

然后将这种新的irss应用于gse24080的测试集和全集。测试集或全集的患者被分为三个危险组,也可以观察到类似的模式(图4c-4f)。正如所预期的,对于中危组与低危组相比以及高危组与中危组相比,其死亡的风险均增加。然而,测试集的结果表明,issii期与issi期相比,死亡的风险没有显著增加(hr=1.449,95%ci为0.664-3.163,p=0.352)。显然,irss提供了比iss分类更高的预测精度。

在步骤s4之后,可以进一步包括:

s6,建立基于所述十基因评分模型、血清β2m和高ldh的诺模图来预测新诊断mm患者的3年os和5年os。

图5a显示了诺模图中mm的3年和5年os的预测。结合β2m和ldh的十基因评分模型的c指数(0.729;95%ci0.649~0.809;p<0.001)优于iss模型(0.613;95%ci0.537~0.701;p<0.01),也优于emc92模型(0.653;95%ci,0.557to0.749;p<0.01),uams-70模型(0.665;95%ci,0.573to0.757;p<0.01)和uams-17模型(0.666;95%ci,0.576to0.756;p<0.01)。请参照图5b-e,与训练集一致,测试集和整个集合的诺模图的c指数分别为0.72和0.754。3或5年生存率的校准图与实际观测值也有较好的相关性。

本发明实施例进一步提供一种用于检测多发性骨髓瘤的基因探针组合物,包括znrf3基因探针、ube2t基因探针、ccsap基因探针、cenpe基因探针、pms2p5、tmem97基因探针、cdkn2a基因探针、slc39a10基因探针、kif21b基因探针、以及fabp5基因探针。

本发明另一实施例进一步提供一种用于检测多发性骨髓瘤的基因探针组合物,由znrf3基因探针、ube2t基因探针、ccsap基因探针、cenpe基因探针、pms2p5、tmem97基因探针、cdkn2a基因探针、slc39a10基因探针、kif21b基因探针、以及fabp5基因探针组成。

本发明实施例还进一步提供一种用于检测多发性骨髓瘤的试剂盒,含有上述的基因探针组合物。

以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1