一种用于辅助癌症诊断的甲基化标志物及试剂盒的制作方法

文档序号:30088622发布日期:2022-05-18 07:24阅读:129来源:国知局
一种用于辅助癌症诊断的甲基化标志物及试剂盒的制作方法

1.本发明涉及医学领域,具体涉及一种用于辅助癌症诊断的甲基化标志物及试剂盒。


背景技术:

2.肺癌为一种发生于支气管粘膜上皮的恶性肿瘤。最近几年尽管在诊断方法、手术技术及化疗药物等方面均有新进展,但肺癌患者总体5年生存率仅为16%,主要是由于大部分肺癌患者就诊时己发生转移从而失去了手术根治的机会。研究表明,肺癌的预后和分期直接相关,i期肺癌的5年生存率为83%,ii期为53%,iii期为26%,iv期为6%。因此,降低肺癌患者死亡率的关键在于早诊断早治疗。目前肺癌诊断的主要方法有如下几种:1、影像学方法:例如,胸部x射线和低剂量螺旋ct。但胸部x射线很难发现早期肺癌。低剂量螺旋ct虽然可以发现肺内小结节,但是假阳性率高达96.4%,给被检查者带来不必要的心理负担。同时,胸部x射线和低剂量螺旋ct由于辐射原因不宜频繁使用。另外,影像学方法也常常受设备和医生看片经验,以及有效读片时间的影响。2、细胞学方法:例如,痰液细胞学检查、支气管镜下刷片或取活检、支气管肺泡灌洗液细胞学检查等。痰液细胞学检查和支气管镜下刷片或取活检对于周围性肺癌灵敏度较低。同时支气管镜下刷片或取活检、支气管肺泡灌洗液细胞学检查操作比较繁琐,且体检者舒适度不佳。3、常用的血清肿瘤标志物:癌胚抗原(cea)、糖类抗原(ca125/153/199)、细胞角蛋白19片段抗原(cyfra21-1)和神经元特异性烯醇化酶(nse)等。这些血清肿瘤标志物对肺癌灵敏度有限,一般为30%-40%,对于i期肿瘤甚至更低。且肿瘤特异性也比较有限,受许多良性病变如良性肿瘤、炎症、退行性疾病等影响。目前,肿瘤标志物主要用于恶性肿瘤的筛查和肿瘤治疗效果复查。因此,需要进一步开发高效特异肺癌早期诊断技术。
3.胰腺癌为一种常见的消化道恶性肿瘤,其中约90%为胰腺导管腺癌,是目前世界上第四大致死性恶性肿瘤。由于发病隐匿、临床症状特异性差和早期浸润性特点,大部分胰腺癌患者发现时已处于晚期,失去了手术治疗机会,导致5年生存率只有7%。如果病人可以在早期(i期)发现,胰腺癌患者5年生存率可达60%。目前临床上关于胰腺癌的常用诊断方法有:1、超声、增强ct和核磁共振(mri)等影像学方法,超声波诊断的准确性受医生看片经验、病人肥大的体形和胃肠道气体的限制;通常,超声诊断胰腺癌的方法可作为ct的补充检查来运用,但增强ct对人体辐射较大,不易频繁使用;mri没有辐射的影响,但它对于一些人并不适用(体内有金属物品及心脏起搏器等),检查所需时间较长,由于设备比较昂贵,一些中小医院尚未普及。2、临床上会结合一些血清肿瘤标志物如ca19-9、ca242、ca50等进一步检测,以上肿瘤标志物敏感度较高,但特异性较低,容易受肝功能及胆汁郁积的影响。3、病理学检查:经皮穿刺活检、超声胃镜引导下的活检、腹水脱落细胞学检查及腹腔镜或开腹手术下探查活检,但该方法为创伤性检查,并不适用于早期患者。因此,更为敏感、特异的早期胰腺癌分子标记亟待发掘。
4.食管癌是一种起源于食管黏膜上皮的恶性肿瘤,约80%为鳞状细胞癌,是临床常
见的恶性肿瘤之一。在全球范围内,食管癌发病率在恶性肿瘤中居第8位,死亡率居第6位。目前,90%以上的食管癌患者确诊时已进展至中晚期,总体5年生存率不足20%。目前临床上食管癌检测方法主要有以下几种:1、内镜超声检查:因高频探头穿透力低,仅2~5cm,甚至更短,所见范围非常有限,此外有20%~60%患者因食管过度狭窄而不能使用该方法。食管镜检查:食管镜可详细观察病灶的位置、大小及形态,也可以直接钳取病理组织或用毛刷刷取标本作细胞学检查,但会引起患者不适。2、x线钡餐造影:患者在x线检查时吞食钡粥,观察钡粥通过食管时的显影,达到定性和定位的诊断,受医生操作及看片经验的影响,且该方法不适用极早期食管癌患者。3、ct扫描:能够显示出病患食管和邻近器官之间的关系,但是其弊端在于对于早期患者灵敏度很低。4、常用的肿瘤标志物,如ca72-4、ca19-9、cea、cyfra21-1和鳞状细胞癌相关抗原(scc)等可用于食管癌的诊断,但其灵敏度不足40%,且特异性较低,尤其对于早期患者诊断价值较低。因此,需要进一步开发高效特异的食管癌早期诊断技术。


技术实现要素:

5.本发明的目的是提供一种用于辅助癌症诊断的甲基化标志物及试剂盒。
6.第一方面,本发明要求保护甲基化dhodh基因作为标志物在制备产品中的应用。所述产品的用途可为如下中的至少一种:
7.(1)辅助诊断癌症或预测癌症患病风险;
8.(2)辅助区分良性结节和癌症;
9.(3)辅助区分癌症不同亚型;
10.(4)辅助区分癌症不同分期;
11.(5)辅助诊断肺癌或预测肺癌患病风险;
12.(6)辅助区分肺部良性结节和肺癌;
13.(7)辅助区分肺癌不同亚型;
14.(8)辅助区分肺癌不同分期;
15.(9)辅助诊断胰腺癌或预测胰腺癌患病风险;
16.(10)辅助诊断食管癌或预测食管癌患病风险;
17.(11)辅助区分肺癌和胰腺癌;
18.(12)辅助区分肺癌和食管癌;
19.(13)辅助区分胰腺癌和食管癌;
20.(14)确定待测物对癌症的发生是否存在阻碍或促进作用。
21.进一步地,(1)中所述辅助诊断癌症具体可体现为如下中的至少一种:辅助区分癌症患者和无癌对照(可理解为现在及曾经均没有患过癌症且没有报告肺部良性结节且血常规指标都在参考范围内);辅助区分不同癌症。
22.进一步地,(2)中所述良性结节为(2)中所述癌症对应的良性结节,如肺部良性结节和肺癌。
23.进一步地,(3)中所述癌症不同亚型可为病理分型,如组织学分型。
24.进一步地,(4)中所述癌症不同分期可为临床分期或tnm分期。
25.在本发明的具体实施方式中,(5)中所述辅助诊断肺癌具体体现为如下中的至少
一种:可辅助区分肺癌患者和无癌对照、可辅助区分肺腺癌患者和无癌对照、可辅助区分肺鳞癌患者和无癌对照、可辅助区分小细胞肺癌患者和无癌对照、可辅助区分i期肺癌患者和无癌对照、可辅助区分ii-iii期肺癌患者和无癌对照、可辅助区分无淋巴结浸润的肺癌患者和无癌对照、可辅助区分有淋巴结浸润的肺癌患者和无癌对照。其中,所述无癌对照可理解为现在及曾经均没有患过癌症且没有报告肺部良性结节且血常规指标都在参考范围内。
26.在本发明的具体实施方式中,(6)中所述辅助区分肺部良性结节和肺癌具体体现为如下中的至少一种:可辅助区分肺癌和肺部良性结节、可辅助区分肺腺癌和肺部良性结节、可辅助区分肺鳞癌和肺部良性结节、可辅助区分小细胞肺癌和肺部良性结节、可辅助区分i期肺癌和肺部良性结节、可辅助区分ii-iii期肺癌和肺部良性结节、可辅助区分无淋巴结浸润的肺癌和肺部良性结节、可辅助区分有淋巴结浸润的肺癌和肺部良性结节。
27.在本发明的具体实施方式中,(7)中所述辅助区分肺癌不同亚型具体体现为:可辅助区分肺腺癌、肺鳞癌和小细胞肺癌中的任意两种。
28.在本发明的具体实施方式中,(8)中所述辅助区分肺癌不同分期具体体现为如下中的至少一种:可辅助区分t1期肺癌、t2期肺癌和t3肺癌中的任意两种;可辅助区分无淋巴结浸润的肺癌和有淋巴结浸润的肺癌;可辅助区分临床i期肺癌、临床ii期肺癌和临床iii期肺癌中的任意两种。
29.在本发明的具体实施方式中,(9)中所述辅助诊断胰腺癌具体体现为如下中的至少一种:可辅助区分胰腺癌患者和无癌对照、可辅助区分胰腺导管癌和无癌对照。其中,所述无癌对照可理解为现在及曾经均没有患过癌症且没有报告肺部良性结节且血常规指标都在参考范围内。
30.在本发明的具体实施方式中,(10)中所述辅助诊断食管癌具体体现为如下中的至少一种:可辅助区分食管癌患者和无癌对照、可辅助区分食管鳞状细胞癌和无癌对照。其中,所述无癌对照可理解为现在及曾经均没有患过癌症且没有报告肺部良性结节且血常规指标都在参考范围内。
31.在上述(1)-(14)中,所述癌症可为能够引起机体内dhodh基因甲基化水平降低的癌症,如肺癌、胰腺癌、食管癌等。
32.第二方面,本发明要求保护用于检测dhodh基因甲基化水平的物质在制备产品中的应用。所述产品的用途可为前文(1)-(14)中的至少一种。
33.第三方面,本发明要求保护用于检测dhodh基因甲基化水平的物质和储存有数学模型建立方法和/或使用方法的介质在制备产品中的应用。所述产品的用途可为前文(1)-(14)中的至少一种。
34.所述数学模型可按照包括如下步骤的方法获得:
35.(a1)分别检测n1个a类型样本和n2个b类型样本的dhodh基因甲基化水平(训练集);
36.(a2)取步骤(a1)获得的所有样本的dhodh基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
37.其中,(a1)中的n1和n2均为50以上的正整数。
38.所述数学模型的使用方法包括如下步骤:
39.(b1)检测待测样本的dhodh基因甲基化水平;
40.(b2)将步骤(b1)获得的所述待测样本的dhodh基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是a类型还是b类型。
41.在本发明的具体实施方式种,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
42.在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
43.所述a类型样本和所述b类型样本可为如下中的任一种:
44.(c1)肺癌样本和无癌对照;
45.(c2)肺癌样本和肺良性结节样本;
46.(c3)肺癌不同亚型样本;
47.(c4)肺癌不同分期样本;
48.(c5)肺癌样本和食管癌样本;
49.(c6)肺癌样本和胰腺癌样本;
50.(c7)胰腺癌样本和食管癌样本;
51.(c8)胰腺癌样本和无癌对照;
52.(c9)食管癌样本和无癌对照。
53.第四方面,本发明要求保护前文第三方面中所述的“储存有数学模型建立方法和/或使用方法的介质”在制备产品中的应用。所述产品的用途可为前文(1)-(14)中的至少一种。
54.第五方面,本发明要求保护一种试剂盒。
55.本发明所要求保护的试剂盒包括用于检测dhodh基因甲基化水平的物质。所述试剂盒的用途可为前文(1)-(14)中的至少一种。
56.进一步地,所述试剂盒中还可含有前文第三方面或第四方面中所述的“储存有数学模型建立方法和/或使用方法的介质”。
57.第六方面,本发明要求保护一种系统。
58.本发明所要求保护的系统,包括:
59.(d1)用于检测dhodh基因甲基化水平的试剂和/或仪器;
60.(d2)装置,所述装置包括单元m和单元n;
61.所述单元m用于建立数学模型,包括数据采集模块、数据分析处理模块和模型输出模块;
62.所述数据采集模块被配置为采集(d1)检测得到的n1个a类型样本和n2个b类型样本的dhodh基因甲基化水平数据;
63.所述数据分析处理模块被配置为接收由所述数据采集模块发送的n1个a类型样本和n2个b类型样本的dhodh基因甲基化水平数据,并基于所述数据采集模块采集的n1个a类型样本和n2个b类型样本的dhodh基因甲基化水平数据,按照a类型和b类型的分类方式,通
过二分类逻辑回归法建立数学模型,确定分类判定的阈值;
64.所述模型输出模块被配置为输出所述数据分析处理模块建立的数学模型;
65.所述单元n用于确定待测样本类型,包括数据输入模块、数据运算模块、数据比较模块和结论输出模块;
66.所述数据输入模块被配置为输入(d1)检测得到的待测者的dhodh基因甲基化水平数据;
67.所述数据运算模块被配置为接收由所述数据输入模块发送的所述待测者的dhodh基因甲基化水平数据,并将所述待测者的dhodh基因甲基化水平数据代入所述数学模型,计算得到检测指数;
68.所述数据比较模块被配置为接收由所述数据运算模块发送的所述检测指数,并将所述检测指数与所述阈值进行比较;
69.所述结论输出模块被配置为根据所述数据比较模块的比较结果输出所述待测样本的类型是a类型还是b类型的结论;
70.所述a类型样本和所述b类型样本可为如下中的任一种:
71.(c1)肺癌样本和无癌对照;
72.(c2)肺癌样本和肺良性结节样本;
73.(c3)肺癌不同亚型样本;
74.(c4)肺癌不同分期样本;
75.(c5)肺癌样本和食管癌样本;
76.(c6)肺癌样本和胰腺癌样本;
77.(c7)胰腺癌样本和食管癌样本;
78.(c8)胰腺癌样本和无癌对照;
79.(c9)食管癌样本和无癌对照。
80.其中,n1和n2均可为50以上正整数。
81.在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
82.在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
83.在前文各方面中,所述“dhodh基因甲基化水平”可为dhodh基因中如下(e1)-(e3)所示片段中全部或部分cpg位点的甲基化水平。所述甲基化dhodh基因可为dhodh基因中如下(e1)-(e3)所示片段中全部或部分cpg位点甲基化。
84.(e1)seq id no.1所示的dna片段或与其具有80%以上同一性的dna片段;
85.(e2)seq id no.2所示的dna片段或与其具有80%以上同一性的dna片段;
86.(e3)seq id no.3所示的dna片段或与其具有80%以上同一性的dna片段。
87.进一步地,所述“全部或部分cpg位点”可为dhodh基因中seq id no.1至seq id no.3所示3个dna片段中的任意一个或多个cpg位点。此处所述“多个cpg位点”的上限为
dhodh基因中seq id no.1至seq id no.3所示3个dna片段中所有cpg位点。
88.或,所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点(见表1)和seq id no.2所示的dna片段中所有cpg位点(见表2)。
89.或,所述“全部或部分cpg位点”为seq id no.2所示的dna片段中所有cpg位点(见表2)和seq id no.3所示的dna片段中所有cpg位点(见表3)。
90.或,所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点(见表1)和seq id no.3所示的dna片段中所有cpg位点(见表3)。
91.或,所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点(见表1)和seq id no.2所示的dna片段中所有cpg位点(见表2)和seq id no.3所示的dna片段中所有cpg位点(见表3)。
92.或,所述“全部或部分cpg位点”可为dhodh基因中所述seq id no.2所示的dna片段中所有cpg位点中的全部或任意22个或任意21个或任意20个或任意19个或任意18个或任意16个或任意15个或任意14个或任意13个或任意12个或任意11个或任意10个或任意9个或任意8个或任意7个或任意6个或任意5个或任意4个或任意3个或任意2个或任意1个。
93.或,所述“全部或部分cpg位点”为seq id no.2所示的dna片段中如下17项所示cpg位点的全部或任意16项或任意15项或任意14项或任意13项或任意12项或任意11项或任意10项或任意9项或任意8项或任意7项或任意6项或任意5项或任意4项或任意3项或任意2项或任意1项:
94.(f1)seq id no.2所示的dna片段自5’端第102-103位所示cpg位点(dhodh_b_3);
95.(f2)seq id no.2所示的dna片段自5’端第181-182位所示cpg位点(dhodh_b_4);
96.(f3)seq id no.2所示的dna片段自5’端第220-221位所示cpg位点(dhodh_b_5);
97.(f4)seq id no.2所示的dna片段自5’端第230-231位所示cpg位点(dhodh_b_6);
98.(f5)seq id no.2所示的dna片段自5’端第267-268位所示cpg位点(dhodh_b_7);
99.(f6)seq id no.2所示的dna片段自5’端第280-281位所示cpg位点(dhodh_b_8);
100.(f7)seq id no.2所示的dna片段自5’端第302-303位所示cpg位点(dhodh_b_9);
101.(f8)seq id no.2所示的dna片段自5’端第313-314位所示cpg位点(dhodh_b_10);
102.(f9)seq id no.2所示的dna片段自5’端第339-340位所示cpg位点(dhodh_b_11);
103.(f10)seq id no.2所示的dna片段自5’端第351-352位和第355-356位所示cpg位点(dhodh_b_12.13);
104.(f11)seq id no.2所示的dna片段自5’端第375-376位所示cpg位点(dhodh_b_14);
105.(f12)seq id no.2所示的dna片段自5’端第386-387位所示cpg位点(dhodh_b_15);
106.(f13)seq id no.2所示的dna片段自5’端第399-400位所示cpg位点(dhodh_b_16);
107.(f14)seq id no.2所示的dna片段自5’端第407-408位所示cpg位点(dhodh_b_17);
108.(f15)seq id no.2所示的dna片段自5’端第414-415位所示cpg位点(dhodh_b_18);
109.(f16)seq id no.2所示的dna片段自5’端第431-432位所示cpg位点(dhodh_b_19);
110.(f17)seq id no.2所示的dna片段自5’端第437-438位和第439-440位所示cpg位点(dhodh_b_20.21)。
111.在本发明的具体实施方式中,有些相邻的甲基化位点在利用飞行时间质谱进行dna甲基化分析时由于几个cpg位点位于一个甲基化片段上,峰图无法区分(无法区分的位点在表5中有记载),因而在进行甲基化水平分析、以及构建和使用相关数学模型时将其按照一个甲基化位点进行处理。前文所述的(f10)和(f17)便是这种情况。
112.在上述各方面中,所述用于检测dhodh基因甲基化水平的物质可包含(或为)用于扩增dhodh基因全长或部分片段的引物组合。所述用于检测dhodh基因甲基化水平的试剂可包含(或为)用于扩增dhodh基因全长或部分片段的引物组合;所述用于检测dhodh基因甲基化水平的仪器可为飞行时间质谱检测仪。当然所述用于检测dhodh基因甲基化水平的试剂中还可包含进行飞行时间质谱所用的其他常规试剂。
113.进一步地,所述部分片段可为如下中至少一个片段:
114.(g1)seq id no.1所示的dna片段或其包含的dna片段;
115.(g2)seq id no.2所示的dna片段或其包含的dna片段;
116.(g3)seq id no.3所示的dna片段或其包含的dna片段;
117.(g4)与seq id no.1所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;
118.(g5)与seq id no.2所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;
119.(g6)与seq id no.3所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段。
120.在本发明中,所述引物组合具体可为引物对a和/或引物对b和/或引物对c;
121.所述引物对a为引物a1和引物a2组成的引物对;所述引物a1具体可为seq id no.4或seq id no.4的第11-35位核苷酸所示的单链dna;所述引物a2具体可为seq id no.5或seq id no.5的第32-56位核苷酸所示的单链dna;
122.所述引物对b为引物b1和引物b2组成的引物对;所述引物b1具体可为seq id no.6或seq id no.6的第11-35位核苷酸所示的单链dna;所述引物b2具体可为seq id no.7或seq id no.7的第32-56位核苷酸所示的单链dna;
123.所述引物对c为引物c1和引物c2组成的引物对;所述引物c1具体可为seq id no.8或seq id no.8的第11-35位核苷酸所示的单链dna;所述引物c2具体可为seq id no.9或seq id no.9的第32-56位核苷酸所示的单链dna。
124.另外,本发明还要求保护一种区分待测样本为a类型样本还是b类型样本的方法。该方法可包括如下步骤:
125.(a)可按照包括如下步骤的方法建立数学模型:
126.(a1)分别检测n1个a类型样本和n2个b类型样本的dhodh基因甲基化水平(训练集);
127.(a2)取步骤(a1)获得的所有样本的dhodh基因甲基化水平数据,按照a类型和b类
型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
128.其中,(a1)中的n1和n2均为50以上的正整数。
129.(b)可按照包括如下步骤的方法确定所述待测样本为a类型样本还是b类型样本:
130.(b1)检测所述待测样本的dhodh基因甲基化水平;
131.(b2)将步骤(b1)获得的所述待测样本的dhodh基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是a类型还是b类型。
132.在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
133.在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
134.所述a类型样本和所述b类型样本可为如下中的任一种:
135.(c1)肺癌样本和无癌对照;
136.(c2)肺癌样本和肺良性结节样本;
137.(c3)肺癌不同亚型样本;
138.(c4)肺癌不同分期样本;
139.(c5)肺癌样本和食管癌样本;
140.(c6)肺癌样本和胰腺癌样本;
141.(c7)胰腺癌样本和食管癌样本;
142.(c8)胰腺癌样本和无癌对照;
143.(c9)食管癌样本和无癌对照。
144.以上任一所述数学模型在实际应用中可能会根据dna甲基化的检测方法以及拟合方式不同有所改变,要根据具体的数学模型来确定,无需约定。
145.在本发明的实施例中,所述模型具体为log(y/(1-y))=b0+b1x1+b2x2+b3x3+

+bnxn,其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数,b0为常量,x1~xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化值(每一个值为0-1之间的数值),b1~bn为模型赋予每一个位点甲基化值的权重。
146.在本发明的实施例中,所述模型的建立还可酌情加入年龄、性别、白细胞计数等已知参数来提高判别效率。本发明的实施例中建立的一个具体模型为用于辅助区分肺部良性结节和肺癌的模型,所述模型具体为:log(y/(1-y))=19.243-0.186*dhodh_b_3-0.086*dhodh_b_4-5.553*dhodh_b_5+1.022*dhodh_b_6-1.371*dhodh_b_7+0.455*dhodh_b_8-0.188*d hodh_b_9+0.148*dhodh_b_10+1.030*dhodh_b_11-19.157*dhodh_b_12.13-2.078*dh odh_b_14-1.048*dhodh_b_15+1.030*dhodh_b_16-1.021*dhodh_b_17+4.131*dhodh_b_18-1.978*dhodh_b_19+1.298*dhodh_b_20.21+0.005*年龄-0.219*性别(男性赋值为1,女性赋值为0)-0.013*白细胞个数。所述dhodh_b_3为seq id no.2所示的dna片段自5’端第102-103位所示cpg位点的甲基化水平;所述dhodh_b_4为seq id no.2所示的dna片
段自5’端第181-182位所示cpg位点的甲基化水平;所述dhodh_b_5为seq id no.2所示的dna片段自5’端第220-221位所示cpg位点的甲基化水平;所述dhodh_b_6为seq id no.2所示的dna片段自5’端第230-231位所示cpg位点的甲基化水平;所述dhodh_b_7为seq id no.2所示的dna片段自5’端第267-268位所示cpg位点的甲基化水平;所述dhodh_b_8为seq id no.2所示的dna片段自5’端第280-281位所示cpg位点的甲基化水平;所述dhodh_b_9为seq id no.2所示的dna片段自5’端第302-303位所示cpg位点的甲基化水平;所述dhodh_b_10为seq id no.2所示的dna片段自5’端第313-314位所示cpg位点的甲基化水平;所述dhodh_b_11为seq id no.2所示的dna片段自5’端第339-340位所示cpg位点的甲基化水平;所述dhodh_b_12.13为seq id no.2所示的dna片段自5’端第351-352位和第355-356位所示cpg位点的甲基化水平;所述dhodh_b_14为seq id no.2所示的dna片段自5’端第375-376位所示cpg位点的甲基化水平;所述dhodh_b_15为seq id no.2所示的dna片段自5’端第386-387位所示cpg位点的甲基化水平;所述dhodh_b_16为seq id no.2所示的dna片段自5’端第399-400位所示cpg位点的甲基化水平;所述dhodh_b_17为seq id no.2所示的dna片段自5’端第407-408位所示cpg位点的甲基化水平;所述dhodh_b_18为seq id no.2所示的dna片段自5’端第414-415位所示cpg位点的甲基化水平;所述dhodh_b_19为seq id no.2所示的dna片段自5’端第431-432位所示cpg位点的甲基化水平;所述dhodh_b_20.21为seq id no.2所示的dna片段自5’端第437-438位和第439-440位所示cpg位点的甲基化水平。所述模型的阈值为0.5。通过模型计算的检测指数大于0.5的患者候选为肺癌患者,小于0.5的患者候选为肺良性结节患者。
147.在上述各方面中,所述检测dhodh基因甲基化水平为检测血液中dhodh基因甲基化水平。
148.在上述各方面中,当所述a类型样本和所述b类型样本为(c3)中肺癌不同亚型样本时,所述a类型样本和所述b类型样本具体可为肺腺癌样本、肺鳞癌样本和小细胞肺癌样本中的任意两种。
149.在上述各方面中,当所述a类型样本和所述b类型样本为(c4)中肺癌不同分期样本时,所述a类型样本和所述b类型样本具体可为临床i期肺癌样本、临床ii期肺癌样本和临床iii期肺癌样本中的任意两种。
150.以上任一所述dhodh基因具体可包括genbank登录号:xm_005255827.4(gi:1370467996)转录物变体x1;genbank登录号:xm_017022990.2(gi:1370467997),转录物变体x2;genbank登录号:xm_005255829.4(gi:1370467998),转录物变体x3。
151.本发明提供了肺癌患者、胰腺癌患者和食管癌血液中dhodh基因的低甲基化现象。实验证明,以血液为样本就能够区分癌症(肺癌、胰腺癌和食管癌)患者和无癌对照、区分肺部良性结节和肺癌、区分肺癌不同亚型和不同分期,并且能够区分肺癌和胰腺癌、肺癌和食管癌、胰腺癌和食管癌。本发明对于提高肺癌、胰腺癌和食管早期诊疗效果和降低死亡率均有重要的科学意义和临床应用价值。
附图说明
152.图1为数学模型示意图。
153.图2为数学模型举例说明。
具体实施方式
154.下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
155.下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
156.以下实施例中的二氢乳清酸脱氢酶(dihydroorotate dehydrogenase,dhodh)基因定量试验,均设置三次重复实验,结果取平均值。
157.实施例1、用于检测dhodh基因甲基化位点的引物设计
158.经过大量序列和功能分析,选择了dhodh基因中的3个片段(dhodh_a片段、dhodh_b片段、dhodh_c片段)进行甲基化水平和癌症相关性分析。
159.dhodh_a片段(seq id no.1)位于hg19参考基因组chr16:72040500-72040866,正义链。dhodh_b片段(seq id no.2)位于hg19参考基因组chr16:72041157-72041714,正义链。dhodh_c片段(seq id no.3)位于hg19参考基因组chr16:72041946-72042720,正义链。
160.dhodh_a片段中的cpg位点信息如表1所示。
161.dhodh_b片段中的cpg位点信息如表2所示。
162.dhodh_c片段中的cpg位点信息如表3所示。
163.表1 dhodh_a片段中cpg位点信息
164.cpg位点cpg位点在序列中的位置dhodh_a_1seq id no.1自5’端第47-48位dhodh_a_2seq id no.1自5’端第59-60位dhodh_a_3seq id no.1自5’端第66-67位dhodh_a_4seq id no.1自5’端第70-71位dhodh_a_5seq id no.1自5’端第72-73位dhodh_a_6seq id no.1自5’端第129-130位dhodh_a_7seq id no.1自5’端第153-154位dhodh_a_8seq id no.1自5’端第339-340位
165.表2 dhodh_b片段中cpg位点信息
166.cpg位点cpg位点在序列中的位置dhodh_b_1seq id no.2自5’端第42-43位dhodh_b_2seq id no.2自5’端第72-73位dhodh_b_3seq id no.2自5’端第102-103位dhodh_b_4seq id no.2自5’端第181-182位dhodh_b_5seq id no.2自5’端第220-221位dhodh_b_6seq id no.2自5’端第230-231位dhodh_b_7seq id no.2自5’端第267-268位dhodh_b_8seq id no.2自5’端第280-281位dhodh_b_9seq id no.2自5’端第302-303位
dhodh_b_10seq id no.2自5’端第313-314位dhodh_b_11seq id no.2自5’端第339-340位dhodh_b_12seq id no.2自5’端第351-352位dhodh_b_13seq id no.2自5’端第355-356位dhodh_b_14seq id no.2自5’端第375-376位dhodh_b_15seq id no.2自5’端第386-387位dhodh_b_16seq id no.2自5’端第399-400位dhodh_b_17seq id no.2自5’端第407-408位dhodh_b_18seq id no.2自5’端第414-415位dhodh_b_19seq id no.2自5’端第431-432位dhodh_b_20seq id no.2自5’端第437-438位dhodh_b_21seq id no.2自5’端第439-440位dhodh_b_22seq id no.2自5’端第512-513位dhodh_b_23seq id no.2自5’端第532-533位
167.表3 dhodh_c片段中cpg位点信息
168.cpg位点cpg位点在序列中的位置dhodh_c_1seq id no.3自5’端第26-27位dhodh_c_2seq id no.3自5’端第48-49位dhodh_c_3seq id no.3自5’端第68-69位dhodh_c_4seq id no.3自5’端第80-81位dhodh_c_5seq id no.3自5’端第84-85位dhodh_c_6seq id no.3自5’端第123-124位dhodh_c_7seq id no.3自5’端第149-150位dhodh_c_8seq id no.3自5’端第209-210位dhodh_c_9seq id no.3自5’端第225-226位dhodh_c_10seq id no.3自5’端第403-404位dhodh_c_11seq id no.3自5’端第405-406位dhodh_c_12seq id no.3自5’端第419-420位dhodh_c_13seq id no.3自5’端第427-428位dhodh_c_14seq id no.3自5’端第435-436位dhodh_c_15seq id no.3自5’端第446-447位dhodh_c_16seq id no.3自5’端第453-454位dhodh_c_17seq id no.3自5’端第467-468位dhodh_c_18seq id no.3自5’端第477-478位dhodh_c_19seq id no.3自5’端第480-481位dhodh_c_20seq id no.3自5’端第488-489位dhodh_c_21seq id no.3自5’端第507-508位dhodh_c_22seq id no.3自5’端第511-512位dhodh_c_23seq id no.3自5’端第520-521位
dhodh_c_24seq id no.3自5’端第526-527位dhodh_c_25seq id no.3自5’端第529-530位dhodh_c_26seq id no.3自5’端第537-538位dhodh_c_27seq id no.3自5’端第541-542位dhodh_c_28seq id no.3自5’端第572-573位dhodh_c_29seq id no.3自5’端第583-584位dhodh_c_30seq id no.3自5’端第588-589位dhodh_c_31seq id no.3自5’端第590-591位dhodh_c_32seq id no.3自5’端第596-597位dhodh_c_33seq id no.3自5’端第617-618位dhodh_c_34seq id no.3自5’端第620-621位dhodh_c_35seq id no.3自5’端第635-636位dhodh_c_36seq id no.3自5’端第646-647位dhodh_c_37seq id no.3自5’端第662-663位dhodh_c_38seq id no.3自5’端第697-698位dhodh_c_39seq id no.3自5’端第709-710位dhodh_c_40seq id no.3自5’端第723-724位dhodh_c_41seq id no.3自5’端第748-749位dhodh_c_42seq id no.3自5’端第750-751位
169.针对三个片段(dhodh_a片段、dhodh_b片段和dhodh_c片段)设计特异pcr引物,如表4所示。其中,seq id no.4、seq id no.6和seq id no.8为正向引物,seq id no.5、seq id no.7和seq id no.9为反向引物;seq id no.4、seq id no.6和seq id no.8中自5’第1至10位为非特异标签,第11至35位为特异引物序列;seq id no.5、seq id no.7和seq id no.9自5’第1至31位为非特异标签,第32至56位为特异引物序列。引物序列中不包含snp和cpg位点。
170.表4 dhodh甲基化引物序列
[0171][0172]
实施例2、dhodh基因甲基化检测及结果分析
[0173]
一、研究样本
[0174]
经患者知情同意,共收集722例肺癌患者、152例肺部出现良性结节患者、79例胰腺癌患者、118例食管癌患者和945例无癌对照(无癌对照即以前和现在没有患过癌症且没有报道过肺小结节患者且血常规指标都在参考范围内)的离体血液样本。
[0175]
所有患者样本都是手术前收集的且都经过影像学和病理确诊。
[0176]
肺癌、胰腺癌和食管癌亚型根据病理组织学进行判断。
[0177]
肺癌分期以ajcc第8版分期系统为判断标准。
[0178]
722例肺癌患者按照分型划分:肺腺癌619例,肺鳞癌42例,小细胞肺癌49例,其他12例。
[0179]
722例肺癌患者按照分期划分:i期649例,ii期41例,iii期32例。
[0180]
722例肺癌患者按照肺癌肿瘤大小(t)划分:t1 603例,t2 83例,t3 36例。
[0181]
722例肺癌患者按照有无肺癌淋巴结浸润(n)划分:无肺癌淋巴结浸润688例,有肺癌淋巴结浸润34例。
[0182]
79例胰腺癌患者按照分型划分:胰腺导管腺癌63例,其他亚型共计16例。
[0183]
118例食管癌患者按照分型划分:食管鳞状细胞癌94例,其他亚型共计24例。
[0184]
无癌人群、肺部良性结节、肺癌、胰腺癌和食管癌患者各自年龄的中位数分别为56、57、58、58和57岁,且这5种群体中各自的男女比例都约为1:1。
[0185]
二、甲基化检测
[0186]
1、提取血液样本的总dna。
[0187]
2、将步骤1制备的血液样本总dna进行重亚硫酸盐处理(参照qiagen的dna甲基化试剂盒说明书操作)。重亚硫酸盐处理后,未发生甲基化的胞嘧啶(c)被转化成尿嘧啶(u),而甲基化的胞嘧啶保持不变,即原来cpg位点的c碱基经重亚硫酸盐处理后转化为c或u。
[0188]
3、以步骤2经过重亚硫酸盐处理的dna为模板,采用表4中的3对特异引物对通过dna聚合酶按照常规pcr反应要求的反应体系进行pcr扩增,3对引物都采用相同的常规pcr体系,且3对引物都按照以下程序进行扩增。
[0189]
pcr反应程序为:95℃,4min

(95℃,20s

56℃,30s

72℃,2min)45个循环

72℃,5min

4℃,1h。
[0190]
4、取步骤3的扩增产物,通过飞行时间质谱进行dna甲基化分析,具体方法如下:
[0191]
(1)向5μl pcr产物中加入2μl虾碱性磷酸盐(sap)溶液(0.3ml sap[0.5u]+1.7ml h2o)然后按照以下程序在pcr仪中孵育(37℃,20min

85℃,5min

4℃,5min);
[0192]
(2)取出2μl步骤(1)得到的sap处理后的产物,根据说明书加入5μl t-cleavage反应体系中,然后在37℃孵育3h;
[0193]
(3)取步骤(2)的产物,加入19μl去离子水,再用6μg resin在旋转摇床进行去离子化孵育1h;
[0194]
(4)2000rpm室温离心5min,将微量上清由nanodispenser机械手臂上样384spectrochip;
[0195]
(5)飞行时间质谱分析;获得的数据用spectroacquire v3.3.1.3软件收集,通过massarray epityper v1.2软件实现可视化。
[0196]
上述飞行时间质谱检测使用的试剂均来试剂盒(t-cleavage masscleave reagent auto kit,货号:10129a);上述飞行时间质谱检测使用的检测仪器为massarray

r analyzer chip prep module 384,型号:41243;上述数据分析软件为检测仪器自带软件。
[0197]
5、对步骤4得到的数据进行分析。
[0198]
数据统计分析由spss statistics 23.0进行。
[0199]
非参数检验用于两组之间的比较分析。
[0200]
多个cpg位点的组合对于不同样品分组的鉴别效果通过逻辑回归和受试者曲线的统计学方法得以实现。
[0201]
所有的统计检验都是双侧的,p值《0.05被认为具有统计学意义。
[0202]
通过质谱实验,共获得60个可以区别的甲基化片段的峰图。采用spectroacquire v3.3.1.3软件根据含甲基化片段的峰和非甲基化片段的峰面积比较,计算甲基化水平(spectroacquire v3.3.1.3软件可自动通过计算峰面积得到每个样本在每个cpg位点的甲基化水平)。
[0203]
三、结果分析
[0204]
1、无癌对照、良性结节和肺癌血液中dhodh基因甲基化水平
[0205]
以722位肺癌患者、152位肺部出现良性结节患者和945名无癌对照的血液为研究材料进行分析dhodh基因中所有cpg位点的甲基化水平(表5)。结果表明,dhodh基因中所有cpg位点在无癌对照组中甲基化水平中位数为0.53(iqr=0.29-0.74),良性结节中甲基化水平中位数为0.52(iqr=0.28-0.73),肺癌患者中甲基化水平中位数为0.51(iqr=0.27-0.72)。
[0206]
2、血液中dhodh基因甲基化水平可以区分无癌对照和肺癌患者
[0207]
通过比较分析722位肺癌患者和945名无癌对照的dhodh基因的甲基化水平,结果发现肺癌患者dhodh基因中所有cpg位点甲基化水平显著低于无癌对照(p《0.05,表6)。此外,肺癌不同亚型(肺腺癌、肺鳞癌和小细胞肺癌)中dhodh基因所有cpg位点的甲基化水平分别都与无癌对照有显著性差异。肺癌不同分期(临床i期、ii-iii期)中dhodh基因所有cpg位点的甲基化水平分别都与无癌对照有显著性差异。此外,无淋巴浸润的肺癌患者和有淋巴浸润的肺癌患者的甲基化水平分别与无癌对照之间有显著性差异(p《0.05)。因此,dhodh基因的甲基化水平可以用于肺癌的临床诊断,尤其可用于肺癌的早期诊断。
[0208]
3、血液中dhodh基因甲基化水平可以区分肺部良性结节和肺癌患者
[0209]
通过比较分析722位肺癌患者和152名良性结节中dhodh基因的甲基化水平,结果发现良性结节患者中dhodh基因所有cpg位点甲基化水平显著高于肺癌患者(p《0.05,表7)。此外还发现肺癌不同亚型(肺腺癌、肺鳞癌和小细胞肺癌)、不同临床时期(i期或ii-iii期)和有无淋巴浸润的肺癌患者的dhodh基因中所有cpg的甲基化水平分别都与良性结节有显著性差异。因此,dhodh基因的甲基化水平可应用于区分肺癌患者和良性结节患者,是非常有潜在价值的标志物。
[0210]
4、血液中dhodh基因甲基化水平区分肺癌不同亚型或者肺癌不同分期
[0211]
通过比较分析不同亚型肺癌患者(肺腺癌、肺鳞癌和小细胞肺癌)和不同分期肺癌患者中dhodh基因的甲基化水平,发现dhodh基因中所有cpg位点甲基化水平分别在肺癌不同亚型(肺腺癌患者、肺鳞癌患者和小细胞肺癌患者)、肺癌肿瘤大小(t1、t2和t3)、肺癌不同分期(临床i期、ii期和iii期)、有无淋巴结浸润条件下存在显著性差异(p《0.05,表8)。因此,dhodh基因的甲基化水平可以用于区分肺癌不同亚型或者肺癌不同分期。
[0212]
5、血液中dhodh甲基化水平可以区分胰腺癌患者和无癌对照
[0213]
以79名胰腺癌患者和945名无癌对照的血液为研究材料进行分析两者之间dhodh基因中所有cpg位点的甲基化水平差异(表9),其中79名胰腺癌患者中有63例为胰腺导管腺
癌。79名胰腺癌患者中所有目标cpg位点的甲基化水平中位数为0.49(iqr=0.24-0.69),无癌对照组甲基化水平中位数为0.53(iqr=0.29-0.74),胰腺癌患者中所有cpg位点甲基化水平显著低于无癌对照(p《0.05)。63位胰腺导管腺癌患者所有目标cpg位点甲基化水平的中位数为0.49(iqr=0.24-0.69),且甲基化水平显著低于无癌对照(p《0.05)。因此,dhodh基因的甲基化水平可以用于胰腺癌的临床诊断。
[0214]
6、血液中dhodh甲基化水平可以区分食管患者和无癌对照
[0215]
以118名食管癌患者和945名无癌对照的血液为研究材料进行分析食管癌患者和无癌对照之间的dhodh基因中cpg位点甲基化水平差异(表10),118位食管癌中包括94位食管鳞状细胞癌。结果表明,食管癌患者中所有目标cpg位点的甲基化水平中位数为0.50(iqr=0.25-0.71),无癌对照组甲基化水平中位数为0.53(iqr=0.29-0.74),食管癌患者中所有cpg位点甲基化水平显著低于无癌对照(p《0.05)。食管鳞状细胞癌中所有目标cpg位点甲基化水平的中位数为0.50(iqr=0.24-0.70),且甲基化水平显著低于无癌对照(p《0.05,表10)。因此,dhodh基因的甲基化水平可以用于食管癌的临床诊断。
[0216]
7、血液中dhodh甲基化水平可以区分胰腺癌患者和肺癌患者
[0217]
以79名胰腺癌患者和722名肺癌患者的血液为研究材料进行分析胰腺癌患者和肺癌患者血液中dhodh基因中甲基化水平差异(表11)。结果表明,胰腺癌患者中所有目标cpg位点的甲基化水平中位数为0.49(iqr=0.24-0.69),肺癌患者甲基化水平中位数为0.51(iqr=0.27-0.72),胰腺癌患者中所有cpg位点甲基化水平显著低于肺癌患者(p《0.05)。因此,dhodh基因的甲基化水平可以用于区分胰腺癌和肺癌患者。
[0218]
8、血液中dhodh甲基化水平可以区分食管癌患者和肺癌患者
[0219]
以118名食管癌患者和722名肺癌患者的血液为研究材料进行分析食管癌患者和肺癌患者血液dhodh基因中甲基化水平差异(表11)。结果表明,食管癌患者中所有目标cpg位点的甲基化水平中位数为0.50(iqr=0.25-0.71),肺癌患者甲基化水平中位数为0.51(iqr=0.27-0.72),食管癌患者中所有cpg位点甲基化水平显著低于肺癌患者(p《0.05)。因此,dhodh基因的甲基化水平可以用于区分食管癌和肺癌患者。
[0220]
9、血液中dhodh甲基化水平可以区分胰腺癌患者和食管癌患者
[0221]
分析79名胰腺癌患者和118名食管癌患者的血液中dhodh基因中甲基化水平差异(表11)。结果表明,胰腺癌患者中所有目标cpg位点的甲基化水平中位数为0.49(iqr=0.24-0.69),食管癌患者中所有目标cpg位点的甲基化水平中位数为0.50(iqr=0.25-0.71),胰腺癌患者中所有cpg位点甲基化水平显著低于食管癌患者(p《0.05)。因此,dhodh基因的甲基化水平可以用于区分胰腺癌患者和食管癌患者。
[0222]
10、用于辅助癌症诊断的数学模型的建立
[0223]
本发明建立的数学模型可以用于达到如下目的:
[0224]
(1)区分肺癌患者和无癌对照;
[0225]
(2)区分肺癌患者和肺良性结节患者;
[0226]
(3)区分胰腺癌患者和无癌对照;
[0227]
(4)区分食管癌患者和无癌对照;
[0228]
(5)区分胰腺癌患者和肺癌患者;
[0229]
(6)区分食管癌患者和肺癌患者;
[0230]
(7)区分胰腺癌患者和食管癌患者
[0231]
(8)区分肺癌亚型;
[0232]
(9)区分肺癌分期。
[0233]
数学模型的建立方法如下:
[0234]
(a)数据来源:步骤一中列出的722例肺癌患者、152例肺部出现良性结节患者、79例胰腺癌患者、118例食管癌患者和945例无癌对照的离体血液样本的目标cpg位点(表1-表3中的一种或多种的组合)甲基化水平(检测方法同步骤二)。
[0235]
数据可根据实际需要加入年龄、性别、白细胞计数等已知参数来提高判别效率。
[0236]
(b)模型建立
[0237]
根据需要选取任意两类不同类型患者数据即训练集(例如:无癌对照和肺癌患者、无癌对照和胰腺癌患者、无癌对照和食管癌患者、肺良性结节患者和肺癌患者、肺癌患者和胰腺癌患者、肺癌患者和食管癌患者、食管癌患者和胰腺癌患者,肺腺癌和肺鳞癌患者,肺腺癌和小细胞肺癌患者,肺鳞癌和小细胞肺癌患者,i期肺癌和ii期肺癌患者,i期肺癌和iii期肺癌患者,ii期肺癌和iii期肺癌患者)作为用于建立模型的数据,使用sas,r,spss等统计软件使用二分类逻辑回归的统计方法通过公式建立数学模型。数学模型公式计算出的最大约登指数对应的数值为阈值或直接设定0.5为阈值,待测样品经过测试和代入模型计算后得到的检测指数大于阈值归为一类(b类),小于阈值归为另外一类(a类),等于阈值作为不确定的灰区。在对新的待测样品进行预测来判断属于哪一类时,首先通过dna甲基化的测定方法检测该待测样品dhodh基因上一个或者多个cpg位点的甲基化水平,然后将这些甲基化水平的数据代入上述数学模型(如果构建模型时纳入了年龄、性别、白细胞计数等已知参数,则该步骤同时向模型公式中代入该待测样品的相应参数的具体数值),计算得到所述待测样本对应的检测指数,然后比较所述待测样本对应的检测指数和阈值的大小,根据比较结果确定所述待测样本属于哪一类样本。
[0238]
举例:如图1所示,将训练集中dhodh基因单个cpg位点的甲基化水平或者多个cpg位点组合的甲基化水平的数据通过sas、r、spss等统计软件使用二分类逻辑回归的公式建立用于区分a类和b类的数学模型。该数学模型在此为二类逻辑回归模型,具体为:log(y/1-y)=b0+b1x1+b2x2+b3x3+

+bnxn,其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数,b0为常量,x1~xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化值(每一个值为0-1之间的数值),b1~bn为模型赋予每一个位点甲基化值的权重。具体应用时,先根据训练集中已经检测的样本的一个或者多个dna甲基化位点的甲基化程度(x1~xn)及其已知的分类情况(a类或者b类,分别对y赋值0和1)建立数学模型,由此确定该数学模型的常量b0以及各个甲基化位点的权重b1~bn,并由该数学模型计算出的以最大约登指数对应的数值为阈值或直接设定0.5为划分的阈值。待测样品经过测试和代入模型计算后得到的检测指数即y值大于阈值归为b类,小于阈值归为a类,等于阈值作为不确定的灰区。其中a类和b类为相对应的两分类(二分类的分组,哪一组a类,哪一组是b类,要根据具体的数学模型来确定,在此不做约定),比如无癌对照和肺癌患者、无癌对照和胰腺癌患者、无癌对照和食管癌患者、肺良性结节患者和肺癌患者、肺癌患者和胰腺癌患者、肺癌患者和食管癌患者、食管癌患者和胰腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺
癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者。对受试者的样品进行预测来判断属于哪一类时,首先采集受试者的血液,然后从中提取dna。将提取的dna通过重亚硫酸盐转化后,用dna甲基化的测定方法对受试者的dhodh基因的单个cpg位点的甲基化水平或者多个cpg位点组合的甲基化水平进行检测,然后将检测得到的甲基化数据代入上述数学模型。如果该受试者的dhodh基因一个或者多个cpg位点的甲基化水平代入上述数学模型后计算出来的检测指数大于阈值,则该受试者判定与训练集中检测指数大于阈值的归属于一类(b类);如果该受试者的dhodh基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数小于阈值,则该受试者跟训练集中检测指数小于阈值的归属于一类(a类);如果该受试者的dhodh基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数等于阈值,则不能判断该受试者是a类还是b类。
[0239]
举例:图2的示意图举例说明dhodh_b的优选cpg位点(dhodh_b_3、dhodh_b_4、dhodh_b_5、dhodh_b_6、dhodh_b_7、dhodh_b_8、dhodh_b_9、dhodh_b_10、dhodh_b_11、dhodh_b_12.13、dhodh_b_14、dhodh_b_15、dhodh_b_16、dhodh_b_17、dhodh_b_18、dhodh_b_19和dhodh_b_20.21)的甲基化以及数学建模在用于肺部良恶性结节判别的应用:将肺癌患者和肺良性结节患者训练集(在此为:722名肺癌患者和152位肺良性结节患者)中已经检测的17个可区分的优选cpg位点组合的甲基化水平的数据以及患者的年龄、性别(男性赋值为1,女性赋值为0)、白细胞计数通过r软件使用二分类逻辑回归的公式建立用于区分肺癌患者和肺良性结节患者的数学模型。该数学模型在此为二类逻辑回归模型,由此确定该数学模型的常量b0以及各个甲基化位点的权重b1~bn,在此例中具体为:log(y/(1-y))=19.243-0.186*dhodh_b_3-0.086*dhodh_b_4-5.553*dhodh_b_5+1.022*dhodh_b_6-1.371*dhodh_b_7+0.455*dhodh_b_8-0.188*dhodh_b_9+0.148*dhodh_b_10+1.030*dhodh_b_11-19.157*dhodh_b_12.13-2.078*dhodh_b_14-1.048*dhodh_b_15+1.030*dhodh_b_16-1.021*dhodh_b_17+4.131*dhodh_b_18-1.978*dhodh_b_19+1.298*dhodh_b_20.21+0.005*年龄-0.219*性别(男性赋值为1,女性赋值为0)-0.013*白细胞个数,其中y为因变量即将待测样品的10个可区分的甲基化位点的甲基化值以及年龄、性别、白细胞计数代入模型以后得出的检测指数。在设定0.5为阈值的情况下,待测样品的dhodh_b_3、dhodh_b_4、dhodh_b_5、dhodh_b_6、dhodh_b_7、dhodh_b_8、dhodh_b_9、dhodh_b_10、dhodh_b_11、dhodh_b_12.13、dhodh_b_14、dhodh_b_15、dhodh_b_16、dhodh_b_17、dhodh_b_18、dhodh_b_19和dhodh_b_20.21这17个可区分的cpg位点的甲基化水平经过测试后连同其年龄、性别、白细胞计数的信息代入模型进行计算,得到的检测指数即y值大于0.5归为肺癌患者,小于0.5归为肺良性结节患者,等于0.5则不确定为肺癌患者还是肺良性结节患者。此模型的曲线下面积(auc)计算结果为0.66(表15)。具体受试者判断方法举例如图2所示,从两位受试者(甲,乙)分别采集血液提取dna,将提取的dna通过重亚硫酸盐转化后,用dna甲基化的测定方法对受试者的dhodh_b_3、dhodh_b_4、dhodh_b_5、dhodh_b_6、dhodh_b_7、dhodh_b_8、dhodh_b_9、dhodh_b_10、dhodh_b_11、dhodh_b_12.13、dhodh_b_14、dhodh_b_15、dhodh_b_16、dhodh_b_17、dhodh_b_18、dhodh_b_19和dhodh_b_20.21这17个可区分的cpg位点的甲基化水平进行检测。然后将检测得到的甲基化水平数据连同受试者的年龄、性别和白细胞计数的信息代入上述数学模型。甲受试者经数学模型后计算出来的值为0.82大于0.5,则甲受试者判定为肺癌患者(与临床判定结果相符);乙受试者的dhodh基因一个或者多个cpg位点的
甲基化水平数据代入上述数学模型后计算出来的值为0.28小于0.5,则乙受试者判定肺良性结节患者(与临床判定结果相符)。
[0240]
(c)模型效果评价
[0241]
根据上述方法,分别建立用于区分肺癌患者和无癌对照、肺癌患者和良性结节患者、胰腺癌患者和无癌对照、无癌对照和食管癌患者、肺癌患者和胰腺癌患者、肺癌患者和食管癌患者、胰腺癌患者和食管癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者的数学模型,并且通过受试者曲线(roc曲线)对其有效性进行评价。roc曲线得出的曲线下面积(auc)越大,说明模型的区分度越好,分子标志物越有效。采用不同cpg位点进行数学模型构建后的评价结果如表12、表13和表14所示。表12、表13和表14中,1个cpg位点代表dhodh_b扩增片段中任意一个cpg位点的位点,2个cpg位点代表dhodh_b中任意2个cpg位点的组合,3个cpg位点代表dhodh_b中任意3个cpg位点的组合,
……
以此类推。表中的数值为不同位点组合评价结果的范围值(即任意个cpg位点组合方式的结果均在此范围内)。
[0242]
上述结果显示,dhodh基因对于各组的鉴别能力(肺癌患者和无癌对照、肺癌患者和肺良性结节患者、胰腺癌患者和无癌对照、食管癌患者和无癌对照、胰腺癌患者和肺癌患者、食管癌患者和肺癌患者、胰腺癌患者和食管癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者)随着位点数的增加而增加。
[0243]
除此以外,在表1-表3所示的cpg位点中,还存在少数几个较优位点的组合比多个非较优位点组合的鉴别能力更好的情况。例如表15、表16和表17所示的dhodh_b_3、dhodh_b_4、dhodh_b_5、dhodh_b_6、dhodh_b_7、dhodh_b_8、dhodh_b_9、dhodh_b_10、dhodh_b_11、dhodh_b_12.13、dhodh_b_14、dhodh_b_15、dhodh_b_16、dhodh_b_17、dhodh_b_18、dhodh_b_19和dhodh_b_20.21这17个可区分的最优位点的组合是dhodh_b中任意17个组合的优选位点。
[0244]
综上所述,dhodh基因上的cpg位点及其各种组合,dhodh_a片段上的cpg位点及其各种组合,dhodh_b片段上的cpg位点及其各种组合,dhodh_b片段上dhodh_b_3、dhodh_b_4、dhodh_b_5、dhodh_b_6、dhodh_b_7、dhodh_b_8、dhodh_b_9、dhodh_b_10、dhodh_b_11、dhodh_b_12.13、dhodh_b_14、dhodh_b_15、dhodh_b_16、dhodh_b_17、dhodh_b_18、dhodh_b_19和dhodh_b_20.21位点及其各种组合,dhodh_c片段上的cpg位点及其各种组合,以及dhodh_a、dhodh_b和dhodh_c上的cpg位点及其各种组合的甲基化水平都对肺癌患者和无癌对照、肺癌患者和肺良性结节患者、胰腺癌患者和无癌对照、食管癌和无癌对照、胰腺癌患者和肺癌患者、食管癌患者和肺癌患者、胰腺癌患者和食管癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者有判别能力。
[0245]
表5比较无癌对照、良性结节和肺癌的甲基化水平
[0246]
[0247][0248]
表6比较无癌对照和肺癌的甲基化水平差异
[0249]
[0250][0251][0252]
表7比较良性结节和肺癌的甲基化水平差异
[0253]
[0254][0255]
表8比较肺癌不同亚型或者肺癌不同分期的甲基化水平差异
[0256]
[0257][0258]
表9比较无癌对照和胰腺癌的甲基化水平差异
[0259]
[0260]
[0261][0262]
表10比较无癌对照和食管癌的甲基化水平差异
[0263]
[0264][0265]
表11比较肺癌、胰腺癌和食管癌的甲基化水平差异
[0266]
[0267][0268]
表12 dhodh_b的cpg位点及其组合用于区分肺癌和无癌对照,肺癌和良性结节,胰腺癌和无癌对照,以及肺癌和胰腺癌
[0269]
[0270][0271]
表13 dhodh_b的cpg位点及其组合用于区分食管癌和无癌对照,食管癌和胰腺癌,以及食管癌和肺癌
[0272]
[0273][0274]
表14 dhodh_b的cpg位点及其自由组合用于区分肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、肺癌i期和肺癌ii期、肺癌i期和肺癌iii期、肺癌ii期和肺癌iii期癌患者
[0275]
[0276][0277]
表15 dhodh_b的最佳cpg位点及其组合用于区分肺癌和无癌对照,肺癌和良性结节,胰腺癌和无癌对照,以及肺癌和胰腺癌
[0278]
[0279][0280]
表16 dhodh_b的最佳cpg位点及其组合用于区分食管癌和无癌对照,食管癌和胰腺癌,以及食管癌和肺癌
[0281]
[0282][0283]
表17 dhodh_b的最佳cpg位点及其组合用于区分肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、肺癌i期和肺癌ii期、肺癌i期和肺癌iii期、肺癌ii期和肺癌iii期癌患者
[0284]
[0285][0286]
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本技术欲包括任何变更、用途或对本发明的改进,包括脱离了本技术中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1