生物标志物在制备妊娠糖尿病诊断试剂中的用途的制作方法

文档序号:29219021发布日期:2022-03-12 12:16阅读:192来源:国知局
生物标志物在制备妊娠糖尿病诊断试剂中的用途的制作方法

1.本发明涉及医学诊断领域,具体的说是利用代谢组学筛选糖尿病的生物标志物并用于糖尿病的诊断,尤其是妊娠糖尿病的诊断以及用来诊断妊娠个体是否是糖尿病的系统。


背景技术:

2.代谢组学(metabolomics)是对机体中相对分子量小于1000的小分子代谢物进行定性和定量分析的一门学科。通过代谢组学分析可以反映机体的生理和病理状况,也可以区分不同个体间的差异。随着质谱技术的发展,液相色谱与质谱联用技术(lc-ms)已成为代谢组学研究中最主要的研究工具。目前,代谢组学已经广泛应用与临床诊断领域,主要是发现与疾病诊断与治疗相关的代谢标志物。
3.妊娠期糖尿病(gestational diabetes mellitus,gdm)是最常见的妊娠期代谢异常,显著增加了早产、胎儿生长受限、胎儿畸形、母亲产后罹患2型糖尿病等多种风险。从出生缺陷防控角度来看,母体gdm作为直接的“不良环境因素”阻碍胎儿的正常发育,并可能导致胚胎源性的成人疾病。因此,gdm的早期诊断非常重要,是临床及时干预、防范出生缺陷与母胎不良结局的重要基础。传统的gdm诊断依据是指孕24-28周的口服75g糖,例如葡萄糖、耐量试验,这个时候进行,时机较晚,患者依从性不佳,高血糖及相关代谢紊乱对母儿的不良影响已经发生,不利于改善母婴结局。由于gdm发病机制仍不清晰,尚缺乏精准反映gdm表型的标志物和早期检测方法。
4.这就需要提供一种更早期的预测妊娠个体是否具含有糖尿病的风险的系统以及采用新的标志物来进行预测。


技术实现要素:

5.本发明通过采集正常孕妇与妊娠糖尿病孕妇的血清样本,利用液相色谱-高分辨质谱联用(lc-hrms)技术对以上样本进行代谢组学分析,并通过统计分析筛选出正常孕妇与妊娠糖尿病孕妇之间的新差异代谢物,进一步建立用于妊娠糖尿病鉴别诊断的模型,这里的鉴别具有识别,区别的意思,就是区分健康正常和患有妊娠糖尿病的系统,该系统包括这些模型公司进行自动计算病输出结果。同时,本发明也利用这些标志物建立了预测妊娠个人空腹后1小时和2小时候的血糖值的系统,该系统也包括数学模型,从而根据该数值可以判断妊娠个人是否是糖尿病。
6.本发明的目的是鉴别诊断妊娠糖尿病,包括寻找妊娠糖尿病新的生物标志物的方法,找出用于妊娠糖尿病鉴别诊断的生物标志物及其模型,以及早期妊娠糖尿病鉴别诊断的方法。
7.本发明的第一方面,提供一种基于血清代谢组学对妊娠糖尿病的生物标志物进行筛选的方法,具体步骤如下:(1)收集妊娠糖尿病孕妇和正常孕妇的血清样本;
(2)提取血清代谢物;(3)采用液相-质谱联用对提取的血清代谢物进行检测及数据预处理;(4)利用偏最小二乘判别分析对样本分群,结合显著性分析,筛选不同分组的差异代谢物或者差异的生物标志物;(5)根据筛选得到的差异代谢物,挖掘可以用来诊断妊娠糖尿病的生物标志物以及这些标志物的应用,例如:如何利用这些标志物来诊断或者预测妊娠糖尿病患者,或者从健康人群中鉴别诊断出妊娠糖尿病患者。
8.在一些方式中,所述步骤(1)的具体实现为:血清样本来自正常孕妇和妊娠糖尿病孕妇。这里所述的正常孕妇和妊娠糖尿病是已经经过诊断确认的,比如经过血糖检测、葡萄糖耐量试验确认的正常孕妇和妊娠糖尿病孕妇。
9.在一些方式中,所述步骤(2)的具体实现为:按照1:4的比例,向血清样品中加入含多种同位素内标的甲醇沉淀剂,振荡3分钟混匀后,于20 ℃ 4000
ꢀ×ꢀ
g离心10分钟。从每个样品中取4份各100 μl上清至4个样品板中,氮吹吹干,加入多种含同位素内标的复溶液用于后续uplc-ms/ms检测。
10.所述步骤(3)的具体实现为:对原始质谱数据提取m/z离子、保留时间,对保留时间校正后进行数据库检索鉴定代谢物,检查代谢物色谱峰积分得到峰面积,并进行数据归一化和缺失值填充,得到的数据矩阵进行后续生信分析。
11.所述步骤(4)的具体实现为:对数据矩阵进行数据过滤,剩余数据利用正交偏最小二乘判别分析对样本分群,正常孕妇和妊娠糖尿病孕妇两组可得到明显的聚类分群。
12.在一些方式中,所述步骤(5)的具体实现为:结合生物学意义,筛选fdr值小于0.05同时vip大于1的化合物作为差异代谢物,挖掘妊娠糖尿病孕妇的生物标志物,并进行代谢通路分析。
13.进一步地,筛选出妊娠糖尿病的生物标志物之后,选取一至多种生物标志物建立用于妊娠糖尿病鉴别诊断的模型。
14.进一步地,建立用于预测妊娠个体空腹后1小时或者2小时的血糖值的非线性模型,并对模型进行优化,将模型的预测值与实测值进行对比从而验证模型诊断的准确性,最终得到更优的诊断模型。
15.所以,第二方面,本发明提供生物标志物在用于诊断妊娠个体是否患有糖尿病检测试剂中的用途,所述标志物选择如下的一种或者几种:r-3-羟基丁酰肉碱、1,5-脱水葡萄糖醇、1-花生四烯酰甘油磷脂酰胆碱、1-花生四烯酰甘油磷脂酰肌醇、1-亚油酰甘油磷脂酰胆碱、1-棕榈酰甘油磷脂酸、1-棕榈酰甘油磷脂酰胆碱、2-氨基乙二酸、2-羟基丁酸、3-(4-羟苯基)乳酸、3-羟丁酸、3-甲基-2-氧代丁酸、3-甲基-2-氧代戊酸、4-甲基-2-氧代戊酸、8-甲氧基犬尿氨酸、肉碱、顺-3,4-亚甲基庚酰肉碱、胱硫醚、二硫化半胱酰甘氨酸、脱氧胆酸、γ-谷氨酰基-ε-赖氨酸、葡萄糖、甘油磷脂酰肌醇、甘氨酸、甘胆酸硫酸酯、甘氨石胆酸硫酸酯、组氨酰丙氨酸、吲哚乙酸、异亮氨酸、异熊去氧胆酸硫酸酯、异戊酸、硫化双丙氨酸、亮氨酸、n6-乙酰赖氨酸、n-乙酰牛磺酸、n-乙酰色氨酸、n-乙酰缬氨酸、油酸、乳清苷、草酸、棕榈酰肉碱、泛酸、苯丙氨酸、焦谷酰胺、丝氨酸、苏糖酸、酪氨酸、缬氨酸。
16.优选地,所述妊娠糖尿病,尤其是早中期妊娠糖尿病,所述早中期为妊娠28周以
–ꢀ
异亮氨酸*0.271
ꢀ–ꢀ
亮氨酸 *1.177 + 缬氨酸 *0.506 + 2-氨基乙二酸 *1.622;模型d:得分(score)=1.847*棕榈酰肉碱+ 0.447* 油酸
ꢀ‑ꢀ
0.757* 甘氨酸 + 0.235* 苯丙氨酸 + 0.057* 丝氨酸
‑ꢀ
1.606* 酪氨酸
‑ꢀ
0.285* 异亮氨酸
ꢀ‑ꢀ
1.103*亮氨酸 + 0.491* 缬氨酸 + 1.622*2-氨基乙二酸;模型e:得分(score)=0.688* 油酸
ꢀ‑ꢀ
0.78* 甘氨酸 + 0.484* 苯丙氨酸 + 0.146*丝氨酸
ꢀ‑ꢀ
0.781* 酪氨酸 + 0.383*异亮氨酸
ꢀ‑ꢀ
1.431*亮氨酸 + 0.303* 缬氨酸 + 1.27*2-氨基乙二酸;其中,生物标志物名称代表血清中相应生物标志物的相对丰度。
22.在一些方式中,所述模型a的临界值为0.515,将所述血清中相应化合物的相对丰度输入模型a:当得分(score)》0.515时,诊断为妊娠糖尿病的可能性高,当得分(score)≤0.515时,诊断为妊娠糖尿病的可能性低或者为正常孕妇。
23.所述模型b的临界值为0.463,将所述血清中标志物相应化合物的相对丰度输入模型b:当得分(score)》0.463时,诊断为妊娠糖尿病的可能性高或者可以直接判断为妊娠糖尿病,当得分(score)≤0.463时,诊断为妊娠糖尿病的可能性低或者可以直接判断为正常怀孕。
24.所述模型c的临界值为0.662,将所述血清中标志物相应化合物的相对丰度输入模型c:当得分(score)》0.662时,诊断为妊娠糖尿病的可能性高,当得分(score)≤0.662时,诊断为妊娠糖尿病的可能性低。
25.所述模型d的临界值为0.661,将所述血清中标志物相应化合物的相对丰度输入模型d:当得分(score)》0.661时,诊断为妊娠糖尿病的可能性高,当得分(score)≤0.661时,诊断为妊娠糖尿病的可能性低。
26.所述模型e的临界值为0.671,将所述血清中标志物相应化合物的相对丰度输入模型e:当得分(score)》0.671时,诊断为妊娠糖尿病的可能性高,当得分(score)≤0.671时,诊断为妊娠糖尿病的可能性低。
27.以上这些模型,用来验证我们实际孕妇人群中糖尿病的区分准确性和实际数据的相关性为0.950,说明可以用以上模型来区分正常和糖尿病孕妇。
28.在一些方式中,所述血清中相应标志物化合物的相对丰度的检测步骤包括:步骤1:收集待测血清样本;步骤2:提取血清代谢物;步骤3:采用液相-质谱联用对步骤2的血清代谢物进行检测及进行数据处理;在一些方式中,步骤2所述提取血清代谢物的具体操作包括:按照1:4的比例,向血清样品中加入甲醇沉淀剂,振荡3分钟混匀后,于20 ℃ 4000
ꢀ×ꢀ
g离心10分钟。从每个样品中取4份各100 μl上清至4个样品板中,氮吹吹干,加入复溶液用于后续检测。
29.在一些方式中,所述复溶液包含多种同位素内标。
30.在一些方式中,所述液相-质谱联用的检测条件包括:采用uplc-q exactive进行检测,扫描范围为70-1000 m/z;采用正离子电喷雾电离模式进行检测时,使用c18色谱柱进行分离,流动相a为含有0.05% pfpa和0.1% fa的水,流动相b为甲醇或甲醇、乙腈、水的混合溶液;采用负离子电喷雾电离模式进行检测时,使用c18色谱柱进行分离,流动相a为含
有6.5 mm碳酸氢铵的水,流动相b为甲醇(b);或者,使用hilic色谱柱进行分离,流动相a为含有10 mm甲酸铵的水,流动相b为乙腈。
31.应当指出的是,这里所说的相对丰度是各生物标志物的量的相对值,例如,某一样本中模型a的所有生物标志物的总量为x、葡萄糖(glucose)的量为a,葡萄糖的相对丰度就是a与x的比值。这里的量能以浓度、含量或重量表示;也能以紫外吸收的强弱、发出荧光的强弱、色谱峰的面积或峰高等表示。在一些方式中,也能以内标或某一化合物的量为参照,某一生物标志物的相对丰度就是该生物标志物的量与这一内标或化合物的量的比值,此时,模型的临界值需进行相应改变或模型中各生物标志物的模型系数需发生等比例变化。在一些方式中,这里的相对丰度也可以是各生物标志物的量的绝对值,例如待测样本中的浓度或含量,此时,模型的临界值需进行相应改变或模型中各生物标志物的模型系数需发生等比例变化。
32.在一些方式中,对每个生物标志物建立roc曲线,可以发现那些曲线下面积大的生物标志物,从而挑选出来一批生物标志物来建立诊断模型,或者更为可靠的诊断结果。一般可以理解,选择的生物标志物越多,建立的模型的可靠性可能越高,例如准确性越高和特异性越强,灵敏度越高。但是也可以选择单一的或者几种重要的生物标志物来进行诊断,或者进行初步的筛查检测。这种检测方法可以是多种的,例如利用本发明的液相质谱联合检测,可以采用高通量的方式,一次性的检测本发明的一种或者多种生物标志物,当然并不排除检测少量的几种生物标志物。当然,也可以采用免疫的方法来检测重要的少量的几种生物标志物,例如1种,2种,3种,4种或者5种生物标志物的联合检测,也具有诊断价值,例如采用血液中单一标志物葡萄糖的量来衡量是否是可能患有糖尿病,这个标准也是一个金标准,但是并不表示葡萄糖就是唯一的标志物,当然可以选择其它的标志物来测量,例如本发明新发现的标志物来诊断量个体是否患有妊娠糖尿病的可能性。
33.本发明的第四方面,提供一种预测血糖值的预测模型。所述预测模型可以是线性模型,也可以非线性模型,例如随机森林回归、多项式回归、支持向量回归和梯度提升回归树中的一种,优选支持向量回归模型。
34.所述预测模型可以选取一种或多种妊娠糖尿病的生物标志物来建立,例如上述生物标志物中的一种或多种的组合,当然也可以是其他已报道的妊娠糖尿病的生物标志物或者其组合。通过所述预测模型可以预测妊娠个体的血糖水平,例如将所述生物标志物的检测值或者测试浓度值输入所述预测模型,即可预测血糖值。在一些方式中,预测妊娠个体的标记物质可以选择多种联合使用,可以采用空腹血液样本中标记物质的浓度数值,并输入本发明的模型,从而预测空腹后1小时或者2小时的血糖值。
35.在一些方式中,所述预测模型为支持向量回归模型,支持向量回归模型的方程为:其中,y为预测血糖值,i表示第i个生物标志物,m表示生物标志物的个数,wi表示第i个生物标志物的权重,ki表示第i个生物标志物的系数,b为常数。
36.在一些方式中,所述ki通过下述公式计算:
其中,γ、coef和degree为待调参数,μi∙
νi为自变量的线性模型,μi为第i个生物标志物线性系数,νi为第i个生物标志物的检测值或者测试值。
37.在一些方式中,选取19个生物标志物建立所述支持向量回归模型时,m为19。
38.优选地,这19个生物标志物由葡萄糖、1,5-脱水葡萄糖醇、3-甲基-2-氧代丁酸、3-羟丁酸、2-羟基丁酸、泛酸、3-甲基-2-氧代戊酸、4-甲基-2-氧代戊酸、棕榈酰甘油磷脂酰胆碱、棕榈酰肉碱、油酸、甘氨酸、苯丙氨酸、丝氨酸、酪氨酸、异亮氨酸、亮氨酸、缬氨酸、2-氨基乙二酸组成。
39.w1、w2…w19
分别为葡萄糖、1,5-脱水葡萄糖醇、3-甲基-2-氧代丁酸、3-羟丁酸、2-羟基丁酸、泛酸、3-甲基-2-氧代戊酸、4-甲基-2-氧代戊酸、棕榈酰甘油磷脂酰胆碱、棕榈酰肉碱、油酸、甘氨酸、苯丙氨酸、丝氨酸、酪氨酸、异亮氨酸、亮氨酸、缬氨酸、2-氨基乙二酸的权重。
40.μ1、μ2…
μ
19
分别为葡萄糖、1,5-脱水葡萄糖醇、3-甲基-2-氧代丁酸、3-羟丁酸、2-羟基丁酸、泛酸、3-甲基-2-氧代戊酸、4-甲基-2-氧代戊酸、棕榈酰甘油磷脂酰胆碱、棕榈酰肉碱、油酸、甘氨酸、苯丙氨酸、丝氨酸、酪氨酸、异亮氨酸、亮氨酸、缬氨酸、2-氨基乙二酸的线性系数。ν1、ν2…
ν
19
分别为所述个体血清中葡萄糖、1,5-脱水葡萄糖醇、3-甲基-2-氧代丁酸、3-羟丁酸、2-羟基丁酸、泛酸、3-甲基-2-氧代戊酸、4-甲基-2-氧代戊酸、棕榈酰甘油磷脂酰胆碱、棕榈酰肉碱、油酸、甘氨酸、苯丙氨酸、丝氨酸、酪氨酸、异亮氨酸、亮氨酸、缬氨酸、2-氨基乙二酸的检测值。
41.在一些方式中,通过检测空腹0小时的血清来预测空腹0小时后某一时间点的血糖值时,所述检测值为测得个体空腹0小时所述生物标志物的血清浓度。
42.在一些方式中,所述支持向量回归模型用于预测空腹0小时口服葡萄糖后1小时的血糖值时,b=0.0628,γ=0.037,coef=1,degree=3,w1、w2…w19
分别为:-140.1367461、-18.20203701、-0.266373135、-3.780820943、0.703137151、0.012695848、0.390205074、-0.34291643、-8.627272594、0.012476258、4.889600901、-0.140125414、-2.270950842、-3.66914922、1.697783174、-1.961842966、-6.56784338、-4.497375666、-0.037450268,μ1、μ2…
μ
19
的数值分别为:-5.94596e-05、-0.026149544、0.28517657、0.0073573、0.265723742、11.02574829、0.671723153、-0.753129322、-0.000533758、28.73541414、0.009542539、0.023184566、0.066366599、-0.022813626、-0.151902626、0.053198092、0.051457031、0.005974243、2.289641593。
43.在一些方式中,所述支持向量回归模型用于预测空腹0小时口服葡萄糖后2小时的血糖值时,b=0.0797,γ=0.037,coef=2,degree=3;w1、w2…w19
分别为:-98.73331703、3.187643085、-0.21586202、-12.36378322、-2.548963953、-0.290267916、0.192553693、-0.858808125、15.2824188、-0.009794368、-17.62280907、-6.38707688、-5.655502071、-2.357173357、-0.809820523、1.810651075、0.243270797、-3.100345313、-0.150868078,μ1、μ2…
μ
19
的数值如下:-0.000356085、-0.033072209、0.35070682、-0.003628292、0.227143481、10.14047839、0.684864863、-0.675811046、0.011682708、3.438905244、0.011565459、0.050289956、-0.022181694、-0.038488107、-0.175825644、0.165291135、
0.077198939、-0.070012174、1.889998371。
44.应当说明的是,在一些方式中,获取所述检测值,将检测值代入所述支持向量回归模型的系统,可通过该模型预测空腹1小时、2小时的血糖浓度,则也能够用于预测口服葡萄糖耐量实验的结果值(ogtt)。将该模型的预测结果与血糖的标准值进行对比,即可判断妊娠个体是患有妊娠糖尿病。在一些方式中,这里的检测值除了上述的生物标志物的血清浓度,也可以是血清含量、血清中的相对丰度,或者其他体液中生物标志物的浓度或含量或相对丰度,例如尿液。获取所述检测值的方法可以是液相色谱联用质谱技术、也可是气相、紫外、红外、核磁或免疫检测等其他能够检测所述生物标志物的分析方法。
45.采用这样的公式或者模型来预测,例如空腹采取样本,测量所选标志物的浓度或含量,然后通过以上的所选标志物的各个数值,例如各个标志物的权重数值(提前计算),浓度数值(样本的测量),系数值(提前通过建模计算),通过本发明的预测公式进行计算从而获得预测的血糖值,这样不像传统的方式采用口服葡萄糖来进行耐受检测,避免传统方法的缺陷,另外,也可以早期进行预测,例如在受孕1周、2周、3周、4周、5周、8周、12周、或者18周、或者20周。最后,这样的方式仅需采取一次样本,而传统的ogtt法需要采取至少2次样本来测试。
46.在一些方式中,提供含有以上模型的系统,该系统包括以上模型或者模型公式,然后通过输入标记物质的测量值,然后让系统自动计算出预测的血糖值,或者让计算机自动计算出测试者中是否是妊娠糖尿病。所以,所述的系统包括输入模块和计算或者运算模块,输入模块用来输入标记物质的测量值,例如浓度值,或者存储模块来存储标记物质的浓度值,然后计算系统自动提取浓度值,并带入模型公式进行运算,这些标志物质的系数值,权重值都可以提前存储在存储器内,计算的时候,自动提取并带入模型公式进行计算而获得结果,例如获得血糖值,或者获得正常或者糖尿病的妊娠个体。
47.在一些方式中,本发明提供一种支持向量回归模型的建立方法,该方法包括包括以下步骤:步骤(1)获取样本数据,例如检测患者空腹0小时多个生物标志物的浓度和患者口服葡萄糖后1小时与2小时的血糖值;步骤(2)将步骤(1)获得的样本数据随机划分为训练集和验证集;步骤(3)采用多项式核函数k(x)进行高维映射,所述多项式核函数的数学表达式为:其中,γ、coef和degree为待调参数,μi∙
νi为自变量的线性模型,μi为第i个生物标志物线性系数,νi为步骤(1)获得的第i个生物标志物的数据值。
48.步骤(4)通过训练集数据训练模型:参数调整采用了网格搜索和梯度下降结合的方式,划定了最优参数的最可能范围,在划定范围内遍历所有参数组合,得到含有一定支持向量数的支持向量回归模型,再用验证集验证模型的准确性。其中,支持向量构成了高维空间中的“间隔带”,在预测新的样本的时候,通过公式计算标志物与“间隔带”边缘的距离,从而获得预测的最终值,即预测血糖值。
49.在一些方式中,所述训练集占所述样本数据总数的80%,所述验证集占所述样本总
数的20%。此外,也可以按1:1或其他的比例将样本数据划分为训练集和验证集,一般训练集的样本数据不少于验证集。样本应具有一定的数量和代表性,使具有统计学意义,例如样本总数不低于20个。
50.本发明的第五方面,本发明提供一种用于妊娠糖尿病的早期诊断系统。所述诊断系统包括运算模块。
51.在一些方式中,所述运算模块包括上述第三方面所述的多种生物标志物联合鉴别诊断妊娠个体是否患有糖尿病的分类模型中的一种或者多种。将测得孕妇个体的生物标志物的相对丰度输入该系统,所述系统即可区分该孕妇是妊娠糖尿病还是非妊娠糖尿病;或者将多个孕妇(含妊娠糖尿病和正常孕妇)的生物标志物的相对丰度均输入该系统,所述系统即可将多个孕妇分为妊娠糖尿病组和非妊娠糖尿病组。
52.在一些方式中,所述运算模块包括上述第三方面所述的预测血糖值的预测模型。将空腹0小时测得的孕妇个体的生物标志物的检测值输入该系统,所述系统即可预测空腹口0小时服葡萄糖后某一时间(如1小时和/或2小时)的预测血糖值。优选地,该系统还能将预测血糖值与标准值进行对比,从而判断孕妇个体是否患有糖尿病或患糖尿病的可能性。
53.在一些方式中,所述诊断系统还包括输入模块,输入模块用来输入前述生物标志物的一种或者多种检测结果,这种检测结果可以是定量检测结果或者定性结果。
54.在一些方式中,所述诊断系统包括检测模块,检测模块用来进行样本的检测,通过该模块测量各个生物标志物的量,例如浓度,相对丰度等。所述系统包括测量模块,测量模块用来进行样本具体标志物质的检测,检测模块可以是液相-质谱联用仪也可以是检测抗原-抗体反应的荧光仪等。这里的具体的诊断或者检测方法都可以采用现有常规的方法,例如液相色谱法、气相色谱法、毛细管电泳法、超临界流体色谱法、离子色谱法等色谱方法,质谱法以及质谱法与上述色谱法的联用技术,核磁、紫外、红外等光谱法,免疫方法等,其中免疫方法包括酶联免疫、干化学方法、干式的测试条方法、或者电化学方法。
55.在一些方式中,所述诊断系统包括判断模块,判断模块判断运算模块的计算结果与临界值的关系,得出诊断结果。
56.在一些方式中,所述诊断系统还包括输出模块,用于诊断结果的输出。
57.在一些方式中,所述诊断系统还包括阴性对照或者参考数据模块。
58.本发明的第七方面,提供一种检测妊娠糖尿病的试剂盒,该试剂盒中包括可以检测前述生物标志物质中的一种或者多种试剂,这种试剂可以是血液处理试剂,例如过滤、提取前述生物标志物质的试剂,也包括直接用来检测生物标志物是否存在或者存在数量的试剂,例如抗体、抗原或者标志物。
59.本发明的优势在于:本发明利用血清代谢组学的方法筛选出妊娠糖尿病孕妇与正常孕妇之间的小分子差异代谢物,作为生物标志物,用于妊娠糖尿病的鉴别诊断及其相关应用。此外,本发明还提供了用于准确地鉴别诊断妊娠糖尿病的模型。
附图说明
60.图1是分析流程图。
61.图2是正离子模式下的总离子流图。
62.图3为负离子模式下的总离子流图。
63.图4a是19个标志物的正常孕妇(cm)与妊娠糖尿病孕妇(gdm)两组的opls-da统计结果图。
64.图4b是48个标志物的正常孕妇(cm)与妊娠糖尿病孕妇(gdm)两组的opls-da统计结果图。
65.图5是模型a的roc曲线。
66.图6是模型b的roc曲线。
67.图7模型c的roc曲线。
68.图8模型d的roc曲线。
69.图9模型e的roc曲线。
70.图10为 1小时血糖值与19个标志物浓度数值的散点图及lowess拟合曲线。
71.图11为2小时血糖值与19个标志物浓度数值的散点图及lowess拟合曲线。
72.图12为支持向量回归模型对验证集1小时血糖值的预测示意图。
73.图13为支持向量回归模型对验证集2小时血糖值的预测示意图。
74.详细说明(1)诊断或者检测这里的诊断或者检测是指对于样本中的生物标志物进行检测或者化验,或者目的生物标志物的含量,例如绝对含量或者相对含量,然后通过目标标志物是否存在或者数量的多少来说明提供样本的个体是否可能具有或患某种疾病,或者具有某种疾病的可能性。这里的诊断与检测的含义可以互换。这种检测的结果或者诊断的结果是不能直接作为患病的直接结果,而是一种中间结果,如果获得直接的结果,还需通过病理学或者解剖学等其它辅助手段才能确认患有某种疾病。例如,本发明提供了多种与妊娠糖尿病具有关联性的新的生物标志物,这些标志物的含量的变化与是否患有妊娠糖尿病具有直接的关联性。
75.(2)标志物或生物标志物与妊娠糖尿病的联系标志物和生物标志物在本发明中具有相同的含义。这里的联系是指某种生物标志物在样本中出现或者含量的变化与特定疾病具有直接的关联性,例如含量的相对升高或者降低,表示这种患有这种疾病的可能性相对健康人员更高。
76.如果样本中多个不同的标志物同时出现或者含量的相对变化,表示这种患有这种疾病的可能性相对健康人员也更高。也就是说标志物种类中,某一些标志物与患病的关联性强,有些标志物与患病的关联性弱,或者有些甚至与某种特定的疾病无关联。对于那些关联性强的标志物中的一种或者多种,可以作为诊断疾病的标志物,与那些关联性弱的标志物可以与强的标志物组合来诊断某种疾病,增加检测结果的准确性。
77.针对本发明发现的血清中的众多生物标志物,这些标志物都可以用来进行区分妊娠糖尿病患者与健康孕妇。这里的标志物可以单独作为单个的标志物来进行直接的检测或者诊断,选择这样的标志物表示该标志物的含量的相对变化与妊娠糖尿病具有强的关联性。当然,可以理解的是,可以选择与妊娠糖尿病关联性强的一种或者多种标志物的同时检测。正常的理解是,在一些方式中,选择关联性强的生物标志物来进行检测或者诊断可以达到一定标准的准确性,例如60%,65%,70%,80%,85%,90%或者95%的准确性,则可以说明,这些标志物可以获得诊断某种疾病的中间值,但并不表示就能直接确认患有某种疾病。例如,本发明中,表2中的差异代谢物,可以选择vip值越大或fc值越大的差异代谢物作为诊断是否
是妊娠糖尿病的标志物,或者作为从健康人群中筛选妊娠糖尿病的标志物。
78.当然,也可以选择roc值越大的差异代谢物来作为诊断的标志物。所谓的强,弱一般通过一些算法来计算确认,例如标志物与妊娠糖尿病的贡献率或者权重分析。这样的计算方法可以是显著性分析(p值或fdr值)和倍数变化(fold change),多元统计分析主要包括主成分分析(pca)、偏最小二乘判别分析(pls-da)和正交偏最小二乘判别分析(opls-da),当然还包括其他的方法,例如roc分析等。当然,其它的模型预测方法也是可以的,在具体选择生物标志物的时候,可以选择本发明所公开的差异代谢物,也可以选择或者结合其它现有公知的标志物。
79.(3)糖尿病和妊娠糖尿病糖尿病是一种代谢性疾病,其特征是患者的血糖长期高于标准值。由于胰脏无法产生足够的胰岛素,或者是细胞对胰岛素不敏感而导致不同的糖尿病类型,包括ⅰ型糖尿病、ⅱ型糖尿病、妊娠糖尿病及其它类型的糖尿病。ⅰ型糖尿病是患者自身无法产生足够的胰岛素或者根本无法产生胰岛素,也被称为胰岛素依赖型糖尿病。ⅱ型糖尿病是患者自身胰脏并没有任何病理问题,但其细胞对于胰岛素的反应不正常、不灵敏或细胞对胰岛素没有反应,也被称为非胰岛素依赖型糖尿病。妊娠糖尿病指孕妇过去没有糖尿病病史,但在怀孕期间血糖高于正常值。
80.由上述分类可知,妊娠糖尿病与ⅰ型糖尿病、ⅱ型糖尿病显著不同,其发生于特定时期,特定人群,且该孕妇人群的体内代谢与正常人相比会存在一系列差异,其血清代谢物也会不同。因此,用于ⅰ型糖尿病或ⅱ型糖尿病诊断或潜在的生物标志物(包括血清生物标志物)不一定适用于妊娠糖尿病,例如:joanna hajduk等报道丙氨酸(alanine)在控制组和妊娠糖尿病组间无显著差异(p》0.1)(a combined metabolomic and proteomic analysis of gestational diabetes mellitus,international journal of molecular sciences,2015,16,30034
ꢀ‑ꢀ
30045);但sanmei chen等报道丙氨酸与ⅱ型糖尿病密切相关,是其潜在的生物标志物(serum amino acid profles and risk of type 2 diabetes among japanese adults in the hitachi health study,scientific reports,2019,9:7010)。同样,适用于妊娠糖尿病诊断的生物标志物也不一定适用于ⅰ型糖尿病或ⅱ型糖尿病的诊断。
81.另外,肥胖是糖尿病的高危因素(包括妊娠糖尿病),但不是绝对因素,肥胖的生物标志物不一定是糖尿病或妊娠糖尿病的生物标志物,例如:专利us16/375834公开谷氨酸盐(glutamate)为肥胖的差异代谢物,而kalliopi i.pappa等报道在正常孕妇和妊娠糖尿病孕妇组间谷氨酸盐无显著差异(intermediate metabolism in association with the amino acid pro

le during the third trimester of normal pregnancy and diet-controlled gestational diabetes,american journal of obsetrics & gynecology,2007,1)。
具体实施方式
82.为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。这些说明仅仅是表明本发明是如何实现的,并不能限定本发明的具体范围。本发明的范围在权利要求中限定。
83.实施例1:收集血清样本收集了正常孕妇和妊娠糖尿病的血清样本,这些个体都是通过金标准测试的并经过确认的正常孕妇和妊娠糖尿病的样本,各30例,且均处于妊娠中期(20-28周)。
84.实施例2:提取血清代谢物按照1:4的比例,向血清样品中加入含多种同位素内标的甲醇沉淀剂,振荡3分钟混匀后,于20 ℃ 4000
ꢀ×ꢀ
g离心10分钟。从每个样品中取4份各100 μl上清至4个样品板中,氮吹吹干,加入多种含同位素内标的复溶液用于后续uplc-ms/ms检测。
85.实施例3:对提取的血清代谢物进行检测及数据预处理(1)液相色谱/质谱条件四种uplc-ms/ms方法均采用acquity 2d uplc(超高效液相色谱;waters,milford,ma,usa)结合q exactive(qe)高分辨质谱(thermo fisher scientific,san jose,usa)开展。质谱参数为:扫描分辨率35000、扫描范围70-1000 m/z。
86.具体4种uplc-ms/ms方法参数如下:方法1:qe采用正离子电喷雾电离(esi)模式进行检测,液相使用c18色谱柱(uplc beh c18,2.1x100 mm,1.7 μm;waters)进行分离,流动相为含有0.05% pfpa(五氟丙酸酐)和0.1% fa(甲酸)的水(a)和甲醇(b);方法2:qe采用负离子电喷雾电离(esi)模式进行检测,液相使用c18色谱柱(uplc beh c18,2.1x100 mm,1.7 μm;waters)进行分离,流动相为含有6.5 mm碳酸氢铵的水(a)和甲醇(b);方法3:qe采用正离子电喷雾电离(esi)模式进行检测,液相使用c18色谱柱(uplc beh c18,2.1x100 mm,1.7 μm;waters)进行分离,流动相为含有0.05% pfpa和0.1% fa的水(a)和甲醇/乙腈/水(b);方法4:qe采用负离子电喷雾电离(esi)模式进行检测,液相使用hilic色谱柱(uplc beh amide,2.1x150 mm,1.7 μm;waters)进行分离,流动相为含有10 mm甲酸铵的水(a)和乙腈(b)。
87.(2)数据预处理在得到每个代谢物的原始峰面积以后进行标准化处理用于后续的统计和生信分析。首先对每个代谢物的原始峰面积进行底数为2的对数转换(log2)以降低整体数值的偏态分布和使数据接近正态分布,然后使用中位数进行归一化,最后使用所有样本的最小值填充缺失值。
88.实施例4:利用正交偏最小二乘判别分析对样本分群,结合显著性分析,筛选差异代谢物代谢组学一般采用单变量分析和多元统计分析结合的方式进行差异代谢物的筛选,其中单变量分析主要包括特征离子在不同分组中的显著性分析(p值或fdr值)和倍数变化(fold change),多元统计分析主要包括主成分分析(pca)、偏最小二乘判别分析(pls-da)和正交偏最小二乘判别分析(opls-da)等,如图4a和图4b。
89.所有统计分析均使用r完成,具体的r相关信息见下表1。
90.表1:本发明所用的r及其相关信息
计算变量投影重要度(variable importance for the projection,vip)以衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力,进一步进行wilcoxon秩和检验得到校正后的p值(fdr)。
91.根据差异代谢物的筛选标准:(1)vip》1;(2)fdr 《0.05,即vip》1或fdr《0.05时,判定代谢物在两组间存在显著差异,该代谢物为两组间的差异代谢物。
92.本发明发现主要显著的差异代谢物有:表2:妊娠糖尿病孕妇与正常孕妇的差异代谢物
上表中的48种妊娠糖尿病和正常孕妇的血清差异代谢物,可作为妊娠糖尿病鉴别诊断的候选生物标志物,选择其中的一种或多种的组合,可用于妊娠糖尿病的辅助诊断。表中fdr值越小和/或vip值越大,在一定程度上说明该差异化合物在两组间的差异性越显著,同时也说明该差异化合物可能具有更高的诊断价值。由上表可知,48种差异代谢物主要与糖代谢、脂肪酸代谢、磷脂代谢、氨基酸代谢等代谢路径相关,相关代谢通路上的某一化合
物或代谢物存在差异,其可能影响该代谢通路上的其它代谢物,因此可以在这些代谢通路上进一步寻找妊娠糖尿病的生物标志物。
93.实施例5:鉴别诊断妊娠糖尿病孕妇与正常孕妇的分类模型及其建立1.单一差异代谢物鉴别诊断妊娠糖尿病孕妇与正常孕妇的分类模型及其建立。
94.建立实施例4表3中的每个代谢物的roc 曲线,通过曲线下面积(auc)的大小来判断实验结果优劣。auc为0.5表示单个代谢物无诊断价值;auc大于0.5,说明单个代谢物具有诊断价值;auc越大,说明单个代谢物的诊断价值越高。
95.表3: roc分析妊娠糖尿病与正常孕妇样本各差异代谢物的roc值及相关信息
2.多种差异代谢物联合鉴别诊断妊娠糖尿病孕妇与正常孕妇的分类模型及其建立基于表3中差异代谢物在妊娠糖尿病和正常孕妇中的相对丰度,利用正交偏最小二乘回归(rstudio软件,nipals算法实现)建立鉴别诊断妊娠糖尿病与正常孕妇的模型(19个代谢物变量组成自变量矩阵,“妊娠糖尿病孕妇”与“正常孕妇”逻辑值作为因变量),计算变量投影重要度(vip),fdr值等,以衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力,进一步进行wilcoxon秩和检验得到校正后的p值(fdr),筛选用于鉴别诊
断妊娠糖尿病的最优模型参数(rstudio软件),得到预测模型a和预测模型b。
96.①
选取了19个差异代谢物建立模型a,其模型变量及相关参数如下表4所示:

表4模型a的变量及参数列表
模型a方程为:score=3.425*glucose + 0.854*palmitoylcarnitine
ꢀ‑ꢀ
4.598*oleate
ꢀ‑ꢀ
1.307*glycine + 0.309*phenylalanine
ꢀ‑ꢀ
2.253*serine
ꢀ‑ꢀ
0.335*tyrosine
ꢀ‑ꢀ
0.172*isoleucine
ꢀ‑ꢀ
1.273*leucine
ꢀ‑ꢀ
0.422*valine + 0.622*2-aminoadipic acid
ꢀ‑ꢀ
0.882*1,5-anhydroglucitol (1,5-ag) + 0.898*3-methyl-2-oxobutyrate + 2.292*3-hydroxybutyrate (bhba) + 2.919*2-hydroxybutyrate (ahb) + 1.319*pantothenic acid
ꢀ‑ꢀ
0.103*3-methyl-2-oxovalerate + 0.856*4-methyl-2-oxopentanoate + 1.256*1-palmitoyl-gpc (16:0)模型方程中,glucose、1,5-anhydroglucitol 等名称代表对应生物标志物的相对丰度。如图5,进行roc分析,auc为0.910,敏感性(sensitivity)与特异性(specficity)分别为0.825与0.930,说明模型a可以很好地对妊娠糖尿病孕妇与正常孕妇进行鉴别诊断。模型a的临界值为0.515,将各生物标志物的相对丰度代入上述方程,当score》0.515时,诊断为妊娠糖尿病的可能性很高;当score≤0.515时,诊断为妊娠糖尿病的可能性低。
97.③ꢀ
选取所有48个差异代谢物建立模型b,其模型变量及相关参数如下表5所示:表5模型b的变量及参数列表
模型b方程为:score=
ꢀ–ꢀ
0.0199*deoxycholate
ꢀ–
0.290*n-acetylvaline
ꢀ–
0.400*carnitine+0.161*cystathionine
ꢀ–
0.244*indolelactate +0.177*oxalate (ethanedioate) +0.127*threonate +0.00588*3-(4-hydroxyphenyl)lactate (hpla)
ꢀ‑
0.0284*glycocholenate sulfate + 0.0678*glycolithocholate sulfate + 0.484*1-arachidonoyl-gpc (20:4)
ꢀ–ꢀ
0.431*γ-glutamyl-epsilon-lysine + 0.177*n-acetyltryptophan + 0.0495*1-arachidonoyl-gpi (20:4)
ꢀ‑ꢀ
0.214*1-linoleoyl-gpc (18:2)
ꢀ–ꢀ
0.0635*1-palmitoyl-gpa (16:0)
ꢀ–ꢀ
0.0171*orotidine + 0.415*n6-acetyllysine + 0.0039*lanthionine
ꢀ–ꢀ
0.0893*histidylalanine
ꢀ‑ꢀ
0.0995*(r)-3-hydroxybutyrylcarnitine
ꢀ–ꢀ
0.0756*isovalerate (c5) +0.146*pyroglutamine + 0.0503*glycerophosphoinositol + 0.0513*n-acetyltaurine
ꢀ–ꢀ
0.0205*cysteinylglycine disulfide + 0.187*8-methoxykynurenate
ꢀ–ꢀ
0.0361*isoursodeoxycholate sulfate (2) + 0.142*cis-3,4-methyleneheptanoylcarnitine如图6,进行roc分析,模型b的auc为0.947,敏感性与特异性分别为0.967与0.867,说明模型b可以很好地对妊娠糖尿病孕妇与正常孕妇进行鉴别诊断。模型b的临界值为0.463,将各生物标志物的相对丰度代入上述方程,当score》0.463时,诊断为妊娠糖尿病的可能性很高;当score娠0.463时,诊断为妊娠糖尿病的可能性低。
98.④ꢀ
选取11个差异代谢物建立模型c,其模型变量及相关参数如下表6所示:表6模型c的变量及参数列表
模型c方程为:score=1-palmitoyl-gpc (16:0)*0.163+palmitoylcarnitine *1.775 + oleate *0.455
ꢀ–ꢀ
glycine *0.723 + phenylalanine *0.203 + serine *0.085
ꢀ–ꢀ
tyrosine *1.599
ꢀ–ꢀ
isoleucine *0.271
ꢀ–ꢀ
leucine *1.177 + valine *0.506 + 2-aminoadipic acid *1.622模型方程中,oleate,glycine等生物标志物名称代表对应生物标志物的相对丰度。如图7,进行roc分析,auc为0.884,敏感性(sensitivity)与特异性(specficity)分别为0.747与0.841,说明模型c可以很好地对妊娠糖尿病孕妇与正常孕妇进行鉴别诊断。模型c的临界值为0.662,将各生物标志物的相对丰度代入上述方程,当score》0.662时,诊断为妊娠糖尿病的可能性很高;当score≤0.662时,诊断为妊娠糖尿病的可能性低。
99.⑤
选取10个差异代谢物建立模型d,其模型变量及相关参数如下表7所示:表7模型d的变量及参数列表
模型d方程为:score=1.847*palmitoylcarnitine + 0.447*oleate
ꢀ‑ꢀ
0.757*glycine + 0.235*phenylalanine + 0.057*serine
ꢀ‑ꢀ
1.606*tyrosine
ꢀ‑ꢀ
0.285*isoleucine
ꢀ‑ꢀ
1.103*leucine + 0.491*valine + 1.622*2-aminoadipic acid模型方程中,oleate,glycine等生物标志物名称代表对应生物标志物的相对丰度。如图8,进行roc分析,auc为0.879,敏感性(sensitivity)与特异性(specficity)分别为0.774与0.841,说明模型d可以很好地对妊娠糖尿病孕妇与正常孕妇进行鉴别诊断。模型d的临界值为0.661,将各生物标志物的相对丰度代入上述方程,当score》0.661时,诊断为妊娠糖尿病的可能性很高;当score≤0.661时,诊断为妊娠糖尿病的可能性低。
100.⑥ꢀ
选取9个差异代谢物建立模型e,其模型变量及相关参数如下表8所示:表8模型e的变量及参数列表
模型e方程为:score=0.688*oleate
‑ꢀ
0.78*glycine + 0.484*phenylalanine + 0.146*serine
ꢀ‑ꢀ
0.781*tyrosine + 0.383*isoleucine
ꢀ‑ꢀ
1.431*leucine+ 0.303*valine + 1.27*2-aminoadipic acid模型方程中,oleate,glycine等生物标志物名称代表对应生物标志物的相对丰度。如图9,进行roc分析,auc为0.782,敏感性(sensitivity)与特异性(specficity)分别为0.642与0.854,说明模型e可以很好地对妊娠糖尿病孕妇与正常孕妇进行鉴别诊断。模型e的临界值为0.671,将各生物标志物的相对丰度代入上述方程,当score》0.671时,诊断为妊娠糖尿病的可能性很高;当score≤0.671时,诊断为妊娠糖尿病的可能性低。
101.应当说明的是,上述各模型中,生物标志物(或差异代谢物)的模型系数为正数时,说明该生物标志物与妊娠糖尿病的发生成正相关,即该生物标志物相对丰度越大,诊断为妊娠糖尿病的可能性越高;模型系数为负数时,说明该生物标志物与妊娠糖尿病成负相关,即该生物标志物相对丰度越大,诊断为妊娠糖尿病的可能性越低。生物标志物的模型系数的绝对值越大,其在模型中具有的妊娠糖尿病的诊断价值越高,例如:模型a中油酸模型系数为-4.598,泛酸的模型系数为1.319,说明油酸的相对丰度越高时,诊断为妊娠糖尿病的可能性越低;泛酸的相对丰度越高时,诊断为妊娠糖尿病的可能性越高;油酸的诊断价值高于泛酸,即油酸和泛酸的相对丰度发生相同变化时,油酸其对模型a诊断结果的影响大于泛酸的。
102.一般来说建立疾病诊断模型时,选择的生物标志物(或差异代谢物)越多,模型的诊断准确率越高,但是在临床实际使用过程中,还需考虑临床检测的技术难度、临床收费以及临床报告解读的难度、以及建模过程的复杂性等问题。因此,准确率越高,模型的价值不一定越高。另外,选择生物标志物的过程中,也需要考虑生物标志物相关的代谢通路,包括相关代谢通路的集中度,通路生物学意义的可解释性等因素。根据通行原则,能满足要求的前提下,模型越简单越好,即在满足准确性的前提下,模型所用的生物标志物越少且越容易被检测,该模型的价值越高。
103.对比上述模型a、模型b、模型c、模型d和模型e可知,(1)建立模型时,选择的生物标志物不一定是诊断价值更高的化合物,例如:表3中n-乙酰氨基乙磺酸和苯丙氨酸的auc值分别为0.773和0.512,单一n-乙酰氨基乙磺酸诊断妊娠糖尿病的价值高于单一苯丙氨酸,但模型a选择了苯丙氨酸,并未选择n-乙酰氨基乙磺酸。
104.(2)单一诊断价值更高的生物标志物,在模型中具有的诊断价值不一定更好,例如:表3中丝氨酸和2-氨基乙二酸的auc值分别为0.631和0.691,单一2-氨基乙二酸诊断妊娠糖尿病的价值高于单一2-氨基乙二酸;而在模型a中丝氨酸的模型系数为-2.253,2-氨基乙二酸模型系数为0.622,模型a中丝氨酸的贡献远高于2-氨基乙二酸。
105.(3)模型b包括所有的48种生物标志物,其auc值为0.947,敏感性与特异性分别为0.967与0.867,具有最佳的诊断性能;模型a包括19种生物标志物,其auc值为0.910,敏感性与特异性分别为0.825与0.930。模型a的生物标志物个数远低于模型b,诊断性能只是略微降低,综合检测技术难易、检测成本等其他因素,模型a的实际价值可能高于模型b。
106.(4)模型c、d、e的auc值虽均低于模型a和模型b,但依然具有较高的诊断价值,且模c、d、e的生物标志物个数分别为11个、10个和9个,实际应用过程更方便、检测成本更低。
107.(5)模型d比模型c减少了1-棕榈酰甘油磷脂酰胆碱,其auc值略微下降(由0.884降至0.879),敏感性与特异性无明显变化,说明与模型d相比,模型c的诊断价值无明显差异。模型e比模型d减少了棕榈酰肉碱,其auc值下降明显(由0.879降至0.782),说明模型e的诊断价值低于模型d。因此,综合考虑,三个生物标志物个数接近的模型中,模型d的价值更高。
108.为了验证以上模型分类准确性,采用盲选实验,随机挑选临床150个怀孕妇女,而且怀孕的时间都在20-28周之间,采用本发明的实施例子才测试各个标志物的丰度值,采用模型a-e的分类模型,采用以上不同的标志物输入相对丰度来进行鉴别和分类,获得了可能属于妊娠糖尿病数据,其中a模型为34个,b模型为35个, c模型为36个,d模型为35个,e模型为38个。这些分类的为阳性的妊娠糖尿病中,对150个怀孕妇女通过糖尿病测试的金标准进行确认后,妊娠糖尿病的人数实际为35个。说明采用以上模型来分明分类预测,造成漏检或者假阳性的概率很低,准确性在97%以上,从而认为以上标志物建立的分类模型具有一定的准确性,可以作为临床来进行初步的分类。
109.实施例6:用于预测孕妇血糖值的预测模型及其建立1.获取数据一共获得了499个孕妇的数据,这些数据包含利用液相色谱串联质谱法测得的空腹t0小时(不用口服糖)19个(表12所列举)生物标志物的血清浓度数值(单位为:
µ
g/ml),以及空腹t0小时口服葡萄糖(75g)后1小时和2小时的生化血糖值(单位mmol/l,生化血糖值测量采用一般的试剂盒就可以测试)。其中,19个生物标志物的检测过程包括:提取血清样本中代谢物,用液质-联用法进行检测,获得表12中19个标志物的浓度数值(具体数据略),具体样本提取和处理方法以及参数等可以采用实施例子1-3中介绍的方法。
110.2.模型建立空腹口服葡糖后的1小时与2小时的血糖值是妊娠糖尿病诊断的金标准(杨慧霞等,妊娠糖病诊断标准的新里程碑,中华围产医学杂志,2010年5月第12期第3卷)。我们选取妊娠糖尿病生物标志物建立预测模型,将空腹0小时各个生物标志物的测量值带入预测模型,预测空腹0小时后1小时和2小时的血糖值,并将预测值与实测值进行对比,从而判断预
测模型是否准确。
111.首先考虑多元线性回归,将19个变量(标志物的浓度)纳入线性回归模型,例如其中,m为生物标志物的个数,μi为第i个生物标志物线性系数,νi为第i个生物标志物的检测值(是空腹采取血液样本测试19个标志物的浓度),b为常数。
112.经过测试和参数多次优化,获得分别用于预测空腹0小时后1小时和2小时血糖值的两个线性回归模型,但通过这两个模型预测的空腹1小时和2小时血糖值的血糖值与实测值均存在较大差距,其r-squared数值为0.32(1小时)和0.36(2小时),rmse为1.32(1小时)和1.15(2小时),不符合临床建模的要求。一般评价依据为r-squared值越大越好和rmse越小越好,这两个参数是评价模型预测指标的参数。
113.在观察血糖值与各个自变量(生物标志物的血清浓度)之间的趋势后,判断血糖值与自变量之间可能存在非线性关系(见图10、图11),尤其是m-1、m-2、m-4、m-11等变量的多项式与因变量的变化趋势相对明显地呈现出相关关系(lowess拟合曲线),因此考虑采用非线性模型来进行,先后尝试了随机森林回归、多项式回归、支持向量回归和梯度提升回归树等方法,其中支持向量回归的表现相对最优(见表9),可以理解,r-squared值相对最大,rmse值相对最小,说明采用非线性模型,特别是支持向量回归模型来预测妊娠糖尿病的效果最好,具体的选择计算过程略。
114.表9 非线性模型拟合效果对比当采用支持向量回归模型来预测血糖值的时候,需要计算各个自变量,例如各个生物标志物的支持向量矩阵数据,从而计算权重和各个标志物的系数,利用这些矩阵数据来通过具体的计算预测模型来预测最终的血糖值。
115.本实施例选择19个具体的生物标志物分别建立预测空腹1小时和2小时血糖值的支持向量回归模型及优化过程具体如下:(1)所有样本预先被随机划分为训练集和验证集,其中训练集占总体样本数的80%,验证集占20%,即训练集中有398个样本,验证集有101个样本。
116.(2)建模使用的工具是r语言(版本3.6.2),使用rstudio操作界面,支持向量回归函数来自e1071软件包(版本1.7.7),采用多项式核函数(polynomial)进行高维映射,其数学表达式为:
其中,γ、coef和degree为待调参数;μi∙
νi为自变量的线性模型;μi为第i个生物标志物线性系数;νi为空腹0小时第i个生物标志物的血清浓度数值。本实施例子中,选取了19个妊娠糖尿病的生物标志物,i为1至19并分别对应序号为m-1至m-19的生物标志物,如表12。
117.(3)自变量矩阵(训练集)以连续数值类型带入svr函数(k(x)),因变量分别为1小时血糖值(1hpg)和2小时血糖值(2hpg),kernel设定为多项式核函数”polynomial”当初始参数为γ=1,coef=0,degree=1。建模完成后,在采用初始参数情况下,其r-square值为0.43(1小时)和0.46(2小时),rmse为0.83(1小时)和0.78(2小时)。这样的结果并不是最优化的,r-square值比rmse还小,并不是优化的参数。
118.参数调整采用了网格搜索和梯度下降结合的方式,划定了最优参数的最可能范围,在划定范围内遍历所有参数组合。最终得到的两个模型分别含有469个(1小时)和454个(2小时)支持向量(支持向量矩阵(svr
sv
))和变量参数,这些支持向量构成了上述高维空间中的“间隔带”,新样本在预测时,会计算其与“间隔带”边缘的距离,也就是预测值。
119.最终获得的支持向量回归模型的方程为:其中,y为预测血糖值(mmol/l),i表示第i个生物标志物,m表示生物标志物的个数(m=19),wi表示第i个生物标志物的权重(表13),ki表示第i个生物标志物的系数,b为常数。ki系数通过下列公式计算而获得(k(x)):其中,γ、coef和degree为待调参数,μi∙
νi为自变量的线性模型,μi为第i个生物标志物线性系数,νi为第i个生物标志物的检测值((
µ
g/ml)。优化后获得的参数相关信息如表10至13所示。在最优参数下支持向量回归模型的rmse分别为0.67(1小时)和0.53(2小时)。
120.表10 支持向量回归建模的调参结果表11支持向量回归的建模测试结果
表12:19个自变量的线性系数表13: 19个自变量的权重值
备注:权重值的计算公式:svr
coef
为1(1小时)和2(2小时)的系数,svr
sv
为svr模型的支持向量矩阵;%*%表示矩阵乘法,具体数值和计算过程略,从而获得以上各个指标的权重。
121.最终优化获得的预测空腹1小时和2小时血糖值的支持向量回归模型的rmse分别为0.67(1小时)和0.53(2小时)。采用有以上模型的预测的血糖值和实际测得的血糖值显示,实际值与预测值的pearson相关系数为0.95(1小时)和0.93(2小时),rmse为0.59(1小时)和0.59(2小时)。具体数据结果与图示如图12和图13,图中黑色点为血糖实测值,灰色点为模型预测值,灰色虚线为临床诊断依据的标准,黑色点与红色点之间的连线长度代表两者之间的差距。支持向量回归模型对验证集样本的预测结果表明,大部分样本的预测血糖值与实测血糖值差距在可接受范围内,训练集的拟合程度相对其他方法达到最高,验证集有86%的样本预测值与实测值之差小于1,个别差距较大且影响到妊娠糖尿病阴阳性的样本个数也符合预期。这充分说明,采用本发明的非线性回归模型,结合标注物的权重,系数和实际测量的空腹标志物的浓度,可以预测空腹后1小时和2小时的血糖值,根据预测的值来判断怀孕是否是糖尿病患者,这样可以早起进行预测,减少测量的次数。利用以上模型进行过临床试验,采用本发明的预测模型预测的血糖值和实际测试的值相关性高,可以实际运用于临床。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1