用于预测PD1/L1抑制剂疗效的生物标记物和方法与流程

文档序号:16917146发布日期:2019-02-19 19:03阅读:569来源:国知局
用于预测PD1/L1抑制剂疗效的生物标记物和方法与流程

本发明属于生物技术领域,更具体而言本发明涉及用于预测pd1/l1抑制剂疗效的生物标记物和方法。



背景技术:

肿瘤免疫治疗是肿瘤领域研究的热点之一,它和传统的化疗和药物靶向治疗不同,主要是通过克服患者体内的免疫抑制,重新激活患者自身的免疫细胞来杀伤肿瘤,以pd1/l1抑制剂为代表的免疫疗法已经取得了巨大成功。2018年6月15日,国家药品监督管理局批准纳武利尤单抗注射液(英文名:nivolumabinjection)进口注册申请,用于治疗表皮生长因子受体(egfr)基因突变阴性和间变性淋巴瘤激酶(alk)阴性、既往接受过含铂方案化疗后疾病进展或不可耐受的局部晚期或转移性非小细胞肺癌(nsclc)成人患者,这对解决我国肿瘤患者临床用药的可及性有积极意义。

但是,这种免疫疗法并不适用于每个人,只有少数患者才能从中受益。此外,免疫疗法费用昂贵,所以实现精准免疫治疗,选择优势获益人群就显得至关重要。目前市场上关于免疫疗法的生物标记物(biomarker)主要有肿瘤突变负荷(tmb)、pd-l1蛋白的表达、微卫星不稳定(msi)等。2017年12月21日,yarchoanetal.在新英格兰杂志上发表了评估肿瘤突变负荷(tumormutationburden,tmb)与客观缓解率(objectiveresponserate,orr)之间关系的研究,发现55%不同类型肿瘤的客观缓解率差异可以用tmb来解释,tmb越高,癌症的客观缓解率越高,该研究推动了tmb在免疫疗法中的应用(yarchoan,m.,hopkins,a.,&jaffee,e.m.(2017).tumormutationalburdenandresponseratetopd-1inhibition.thenewenglandjournalofmedicine,377(25),2500-2501.)。

然而,目前免疫疗法的生物标记物都存在缺陷,以tmb为例,虽然可以预测免疫治疗的疗效,但临床实验中采用不同的平台进行tmb检测,检测和分析的成本比较高,并且高tmb的cut-off值也各不相同。所以找到广谱、准确的生物标记物是免疫疗法的当务之急。dna甲基化异常是肿瘤发生发展过程中的标志性事件之一,异常的甲基化会不正常的“开启”或“关闭”一些基因的功能。研究表明免疫t细胞彻底耗竭与dna甲基化过程有关,因此,通过对dna甲基化数据分析,可以发现与免疫疗法相关的新的生物标记物。



技术实现要素:

本发明人通过分析癌症病人的dna甲基化数据及对应癌症pd1/l1客观缓解率数据,发现了用于鉴定患者是否适合接受pd1/l1免疫疗法的甲基化位点,并以这些甲基化位点构建了预测pd1/l1抑制剂临床疗效模型。

在一方面,本发明提供了一种用于预测pd1/l1抑制剂疗效的生物标记物的方法,所述方法包括,

(1)获得与pd1/l1抑制剂临床疗效相关的甲基化位点;

(2)获得针对所述甲基化位点的甲基化beta值;

(3)采用lasso方法构建所述甲基化位点beta值与orr之间的线性方程;

(4)所述线性方程中涉及的甲基化探针对应的甲基化位点即为所述生物标记物。

在一个实施方案中,所述与pd1/l1抑制剂临床疗效相关的甲基化位点和相应甲基化探针为表2中列出的甲基化位点和相应甲基化探针。

在第二方面,本发明还提供了利用本发明第一方面鉴定的生物标记物;所述生物标记物包括选自如下的cpg位点组:

1:31155158、1:55317188、1:236017325、3:141120919、5:156536107、8:97158052、11:46299066和22:28073997;

6:31322298、6:30458998、6:41302149、9:91762376、3:172241975、10:123329113和2:236579007;

6:31322298、6:30458998、6:30459255、6:30460798、6:41302149、2:98330020、3:172241975、10:123329113和2:236579007;

6:30459255、6:30460244、6:30460798、8:145018075、1:42384365、1:47900320、11:46298946、11:46299066、11:46299168、1:969257、1:976172和1:976227;

6:30458998、6:30459255、6:30459317、8:145018010、8:145018075、1:42384056、1:42384310、1:42384365、1:47900320、11:46298946、11:46299066、11:46299168、11:46299204、1:969257和1:976172。

在第三方面,本发明提供了一种用于检测本发明第二方面的生物标记物的试剂盒,所述试剂盒包括:

(1)涵盖本发明的生物标记物的探针序列,其中所述生物标记物的cpg位点中的c保持不变或者被t替换;或者

(2)检测本发明的dna甲基化标志物的引物对,所述引物对扩增含有所述dna甲基化标志物的一段序列,其中所述生物标记物的cpg位点中的c保持不变或者被t替换。

在一个实施方案中,所述探针序列是seqidno.1-8。

在第四方面,本发明提供了一种用于鉴定pd1/l1抑制剂疗效的方法,所述方法包括选自如下的一项,

(1)获得个体中选自cpg位点1:31155158、1:55317188、1:236017325、3:141120919、5:156536107、8:97158052、11:46299066和22:28073997的甲基化程度的值;预测疗效y:

y=-ba×xa-bb×xb-bc×xc+bd×xd-be×xe-bf×xf+bg×xg-bh×xh+a

其中,a表示约0.793,ba-bh分别表示约0.0526、约0.0269、约0.711、约0.263、约0.00086、约0.012、约1.058、约0.0603,xa-xh分别表示cpg位点1:31155158、1:55317188、1:236017325、3:141120919、5:156536107、8:97158052、11:46299066和22:28073997的甲基化程度的值;

(2)获得个体中选自cpg位点1:31155158、1:55317188、1:236017325、3:141120919、5:156536107、8:97158052、11:46299066和22:28073997的甲基化程度的值;预测疗效y:

y=-ba×xa-bb×xb-bc×xc-bd×xd-be×xe-bf×xf+bg×xg+a

其中,a表示约1.41,ba-bg分别表示约0.472、约0.3373、约0.08073、约0.10919、约0.221、约0.5256、约0.033,xa-xg分别表示cpg位点1:31155158、1:55317188、1:236017325、3:141120919、5:156536107、8:97158052、11:46299066和22:28073997的甲基化程度的值;

(3)获得个体中选自cpg位点6:31322298、6:30458998、6:30459255、6:30460798、6:41302149、2:98330020、3:172241975、10:123329113和2:236579007的甲基化程度的值;预测疗效y:

y=-ba×xa-bb×xb+bc×xc+bd×xd-be×xe+bf×xf-bg×xg-bh×xh+bi×xi+a

其中,a表示约1.32,ba-bi分别表示约0.707、约0.519、约0.282、约0.249、约0.145、约0.047、约0.329、约0.105,xa-xi分别表示cpg位点6:31322298、6:30458998、6:30459255、6:30460798、6:41302149、2:98330020、3:172241975、10:123329113和2:236579007的甲基化程度的值;

(4)获得个体中选自cpg位点6:30459255、6:30460244、6:30460798、8:145018075、1:42384365、1:47900320、11:46298946、11:46299066、11:46299168、1:969257、1:976172和1:976227的甲基化程度的值;预测疗效y:

y=ba×xa+bb×xb+bc×xc-bd×xd+be×xe-bf×xf-bg×xg+bh×xh-bi×xi-bj×xj+bk×xk+bl×xl-a

其中,a表示约0.628,ba-bl分别表示约0.215、约0.314、约0.115、约0.926、约0.306、约0.183、约0.059、约3.483、约0.263、约0.0285、约0.2317、约0.267,xa-xl分别表示cpg位点6:30459255、6:30460244、6:30460798、8:145018075、1:42384365、1:47900320、11:46298946、11:46299066、11:46299168、1:969257、1:976172和1:976227的甲基化程度的值;

(5)获得个体中选自cpg位点6:30458998、6:30459255、6:30459317、8:145018010、8:145018075、1:42384056、1:42384310、1:42384365、1:47900320、11:46298946、11:46299066、11:46299168、11:46299204、1:969257和1:976172的甲基化程度的值;预测疗效y:

y=-ba×xa+bb×xb+bc×xc-bd×xd-be×xe+bf×xf+bg×xg+bh×xh-bi×xi-bj×xj+bk×xk-bl×xl+bm×xm-bn×xn+bo×xo+bp×xp-a

其中,a表示约1.04,ba-bp分别表示约0.172、约1.24、约0.162、约4.903、约0.524、约0.582、约0.0668、约0.497、约0.198、约0.284、约5.695、约0.612、约0.0759、约0.0865、约0.379、约0.366,xa-xp分别表示cpg位点6:30458998、6:30459255、6:30459317、8:145018010、8:145018075、1:42384056、1:42384310、1:42384365、1:47900320、11:46298946、11:46299066、11:46299168、11:46299204、1:969257和1:976172的甲基化程度的值。

在第五方面,本发明还提供了与pd1/l1抑制剂疗效相关的基因,例如dhcr24、lyst、mir1537、zbtb38、havcr2、gdf6和creb3l1,这些基因的甲基化水平跟免疫疗法的疗效息息相关。优选地,这些基因与cpg位点1:31155158和cpg位点22:28073997的序列结合使用。

本发明发现了用于鉴定患者是否适合接受pd1/l1免疫疗法的甲基化位点,并以这些甲基化位点构建了预测pd1/l1抑制剂临床疗效模型,本方法具有检测方便,成本低廉、高通量的特点,适合推广。

附图说明

通过以下附图对本发明进行说明:

图1是本发明的实验方案流程图。

图2是本发明的甲基化模型和文献中tmb模型预测能力的比较。

图3是本发明的甲基化模型预测的orr值与真实orr值的比较。

图4是本发明的甲基化模型和文献中tmb模型预测能力的进一步比较。

图5是本发明的甲基化模型和tcga数据构建的tmb模型预测能力的比较。

具体实施方式

本发明公开了一种基于甲基化数据鉴定与pd1/l1抑制剂临床疗效相关的生物标记物的方法,利用癌症病人的dna甲基化数据及对应癌症pd1/l1客观缓解率数据,发现了用于判断患者是否适合接受pd1/l1免疫疗法的甲基化位点,并以这些甲基化位点构建了预测pd1/l1免疫疗法的客观缓解率的模型。本发明发现的与pd1/l1疗效相关的生物标记物相比于市场已有的更加准确可靠,并且检测简单、节约成本、具有良好的应用前景。

不希望拘囿于任何理论,但发明人认为,位点的甲基化影响了免疫疗法相关基因的表达,因此这些位点的活跃程度决定了癌症患者是否适合接受免疫疗法。发明人通过实验数据证实了这一点。

在本发明中,cpg位点以其在基因组的坐标表示。

在本发明中,beta值是衡量位点甲基化程度的值(0-1),beta值越大,甲基化程度越高。位点甲基化程度的值是测定个体内该位点的甲基化的比例。例如,beta值0.75是该cpg位点75%发生甲基化。在本领域中,根据质谱峰图判断甲基化程度。例如,甲基化程度可以通过如下步骤测定:1)提取dna样品,2)对所述dna样品进行亚硫酸盐处理,3)用本发明的引物对扩增所述亚硫酸盐处理的样品,获得扩增产物,4)对所述扩增产物进行消化(例如采用sap酶),5)对所述消化后的扩增产物进行转录和酶切,6)采用质谱方法对所述转录和酶切产物进行检测,获得样品序列中本发明的dna甲基化标志物的甲基化情况。优选地,在步骤5)后包括纯化步骤,对所述转录和酶切产物进行纯化。优选地,所述质谱方法是飞行质谱方法,例如来自sequenom公司。在本发明中,由于甲基化的cpg在经亚硫酸盐处理后c会变成u,所以利用其中本发明的cpg位点中的c保持不变或者被t替换的两种探针序列的杂交情况可以得出该cpg位点的甲基化情况。

在本发明中,约是指基础值的上下10%,例如约0.793是指在0.793的基础上加和减0.0793。

在本发明中,基因名称均采用ncbi-gene里的官方命名(officialsymbol)。cg17484237是探针编号,可以从数据库中得到其对应的甲基化值,或者进行相关的计算,其对应的cpg位点的坐标id是在探针在基因组的位置。其他探针编号的意义遵循同样的规则(见后文表2)。通路id是通路在kegg数据库中的编号(见后文表3)。

以下列出本专利第三部分所述模型中各个探针编号对应的cpg位点在基因组上的位置(染色体号:位置)和探针序列:

cg03749154(seqidno.1)1:31155158

agctcactctaattaatatctgcagtatctcatctaggaggtgggtttcg

cg16051114(seqidno.2)1:55317188

cggagtgccctgtgttcctggagaaggcattccagggttgaatcttgtcc

cg04144714(seqidno.3)1:236017325

cggggagatgatttacctggatgaaccttcatagttcctttaaatgccgt

cg20395773(seqidno.4)3:141120919

tgacagtcaccaggctctgtggcccagagtcctaactgcgttgtccttcg

cg17484237(seqidno.5)5:156536107

ctgggtacttcttccaactgtctactccacaatcacatgagcagtagccg

cg15006881(seqidno.6)8:97158052

gggaaacgcggcccaggcttgagaccacaaagggcacattagtggttacg

cg24644201(seqidno.7)11:46299066

gtggctcgaggaatcctctctccttttttaaagagacatctgcaacttcg

cg13038847(seqidno.8)22:28073997

gggtaatctgtgagtaaatcactgtaaaccagcaggcaagtgtttgcacg。

本发明的引物设计可以按本领域中常规方法进行,对于一个甲基化位点,例如常规引物设计软件在其前后设计引物。例如,引物设计原则:长度15-30bp,其有效长度[ln=2(g+c)+(a+t)]一般不大于38,否则pcr的最适延伸温度会超过taq酶的最佳作用温度(74度),从而降低产物的特异性;gc含量在45%一55%之间,pcr扩增中的复性温度一般是较低tm值引物的tm值减去5-10摄氏度;引物长度小于20时,其tm恒等于4×(g+c)+2×(a+t);碱基分布的随机性,应避免连续出现4个以上的单一碱基,尤其是不应在其3’端出现超过3个的连续g或c,否则会使引物在g+c富集序列区错误引发;引物自身不能含有自身互补序列,否则会形成发夹样二级结构;两个引物之间不应有多于4个的互补或同源碱基,不然会形成引物二聚体,尤应避免3’端的互补重叠。

本发明从dna甲基化数据出发,鉴定与pd1/l1抑制剂临床疗效相关的生物标记物,实验方案如图1中所示。

一、数据的收集

将tcga数据库中的癌症类型对应到yarchoanetal.在文献中提到的癌症类型,发明人得到18种癌症类型的交集。在tcga中下载18种癌症病人的450k甲基化芯片数据,并搜集对应癌症的pd1/l1抑制剂的客观缓解率(表1)。

表1tcga癌症样本量及文献中orr值的统计

二、筛选与pd1/l1抑制剂临床疗效显著相关的甲基化位点

对于每一种癌症,计算每个探针(~48万)在所有肿瘤样本中的平均beta值,然后在18种癌症中计算探针的平均beta值和orr值之间的相关性,以spearmanabs(rho)>=0.7&p<=0.01为筛选条件,得到与pd-1/pd-l1抑制剂疗效显著相关的269个探针,共对应191个基因,对应的甲基化位点显示在表2中。

表2与pd1/l1抑制剂临床疗效显著相关的位点

为了初步验证结果的可靠性,对上述基因进行kegg通路富集分析(表3)。这些基因可以显著富集一些和免疫相关的通络:同种异体移植物排斥(allograftrejection),移植物抗宿主病(graft-versus-hostdisease),抗原加工提呈(antigenprocessingandpresentation)等,说明上述方法筛选得到的探针在生物学意义上是与免疫疗法相关的。

表3基因通路富集分析

随后,发明人统计了基因对应探针的数量,并查看探针数量在前几名的基因功能(表4)。基因对应的探针数目越多,该基因可能与免疫疗效越相关,成为pd-1/pd-l1抑制剂临床疗效相关的生物标记物的可能性越大。以hla-e基因为例,它在nk细胞介导的天然免疫,cd8+t细胞介导的获得性免疫种发挥重要作用。2016发表在clinicalcancerresearch上的一篇论文揭示了在肝内胆管癌中,hla类抗原表达可以用来选择适合接受pd1/l1免疫疗法的患者,这是对本研究结果可靠性的有力支持(sabbatino,f.,villani,v.,yearley,j.h.,deshpande,v.,cai,l.,konstantinidis,i.t.,...&ferrone,c.r.(2016).pd-l1andhlaclassiantigenexpressionandclinicalcourseofthediseaseinintrahepaticcholangiocarcinoma.clinicalcancerresearch,22(2),470-478.)。

表4对应探针数量靠前的基因功能信息

三、基于甲基化位点构建预测pd1/l1抑制剂临床疗效模型

为了量化甲基化位点预测pd1/l1免疫疗法疗效(orr)的能力,根据上述步骤鉴别出的与pd1/l1抑制剂临床疗效显著相关的探针,采用lasso方法构建甲基化探针与orr之间的线性方程。其中,甲基化探针值为预测变量,orr值为响应变量。

lasso算法是由roberttibshirani在1996年首次提出,该方法是一种压缩估计。其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下使得残差平方和最小,从而压缩一些系数,设定某些自变量的回归系数为0,达到压缩变量的目的,从而得到可解释的模型。

对于一般的线性回归模型:

y=a+b1x1+b2x2+…+bpxp+∈

常数项和回归系数的lasso估计为:

本研究中,模型的输入变量为y与x,模型需要确定的输出变量为回归系数b与常数项a。其中,y代表18种癌症使用pd1/l1免疫疗法的客观缓解率,即orr值,输入为18行×1列大小的矩阵,每一行代表一种癌症的orr值;x代表步骤二中鉴别出的18种癌症中与pd1/l1抑制剂临床疗效显著相关的269个探针的beta值,输入是大小为18行×269列的矩阵(见表5),每一行与y向量中18种癌症一一对应,每一列表示一个与pd1/l1抑制剂临床疗效显著相关的探针的beta值;b为回归系数,a为常数项,是模型需要确定的量;∈是误差项,越接近于零值则说明模型的预测效果越准确;λ是一个非负的调节参数,能够控制压缩的程度。λ值的确定可以利用efron和tibshirani在1993年提出的交叉验证法(crossvalidated,cv)来估计。在本研究中,采用matlab中的lasso函数进行方程拟合,cv设置为10,matlab的运行命令为:lasso(x,y,′cv′,10)。

运行上述命令后,根据matlab的输出变量均方误差(meansquareerror,mse)确定回归系数b与常数项a的值。当均方误差最小时(mse=0.0042),有8个甲基化探针的系数b是非零值,分别为cg03749154(cpg位点1:31155158)、cg16051114(cpg位点1:55317188,对应基因为:dhcr24)、cg04144714(cpg位点1:236017325,对应基因为:lyst和mir1537)、cg20395773(cpg位点3:141120919,对应基因为:zbtb38)、cg17484237(cpg位点5:156536107,对应基因为:havcr2)、cg15006881(cpg位点8:97158052,对应基因为:gdf6)、cg24644201(cpg位点11:46299066,对应基因为:creb3l1)和cg13038847(cpg位点22:28073997),根据不同探针的回归系数b以及常数项a得到的方程为:

orr=-0.0526×xa-0.0269×xb-0.711×xc+0.263×xd-0.00086×xe-0.012×xf+1.058×xg-0.0603×xh+0.793

其中,xa-xh分别表示cg03749154、cg16051114、cg04144714、cg20395773、cg17484237、cg15006881、cg24644201和cg13038847的beta值。

至此,预测pd1/l1抑制剂临床疗效的模型构建完成。只要将上述8个探针的beta值带入方程,就能预测出此癌症使用pd1/l1抑制剂的客观有效率。

表5建模输入数据y与x变量的格式

四、模型的评估与比较

为了评价模型的预测能力,本研究采用留一法(leaveoneout,loo)进行模型预测性能的评估。“留一法”交叉检验是指每次从建模样本中剔除总样本的1个样本做测试集,用其余的样本做训练集建模,来预测测试集的过程,循环总样本数,即可得到一个交叉验证后的预测值,用来评价模型性能的好坏。在本模型中,每次构建方程时,保留一种癌症作为测试,因此可以得到18个模型,根据这18个模型计算可得18个癌症的orr值,并与文献中yarchoanetal.构建的tmb预测的模型进行比较,发明人采用的评估方法为roc曲线。roc(receiveoperatingcharacteristic)曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。auc(areaundercurveofroc)表示roc曲线下面积,auc的值越大,说明模型分类性能越好。

以18种癌症真实orr的中值对pd1/l1疗效进行二分类划分,其中大于中值的归为1类,小于中值的归为0类,然后比较甲基化模型和文献中tmb模型的预测结果。从图2可以看出,相比于文献中tmb的预测结果,用甲基化探针构建的模型预测的orr值更为准确。

交叉验证的结果证实了模型的可靠性,因此发明人采用之前用所有数据构建的方程,预测orr值,并比较预测结果和真实值之间的差距(图3)。从图3可以看出,除了胰腺癌、黑色素瘤和肾细胞癌,甲基化模型预测的结果都非常准确,绝对误差都控制在0.05以内,此外,方程预测的18种癌症的orr值与真实orr值的spearman相关性为0.93。为了更好的说明用甲基化探针预测orr值的性能,发明人又采用1个探针、2个探针构建方程,与用tmb预测orr值的模型进行比较。由roc曲线可以看出,用甲基化探针构建的方程预测的准确性要好于用tmb预测的结果,而且用一个探针预测的结果,就已经好于tmb(图4)。

由于文献中建模所用的tmb样本和本发明建模所用甲基化数据样本并不具备很好的对应关系,为了保证数据来源的一致性,发明人从tcga上下载了18种癌症的maf文件并计算其tmb,并重新以orr值为相应变量,按照文献的方式构建方程,进而可以更加准确地评价两种数据模型的优劣。重新计算的tmb与orr的方程为:orr=0.0384*ln(tmb)+0.0934。甲基化模型的auc为0.92,tmb模型的auc为0.68,由此可知,本发明基于甲基化数据构建的pd1/l1免疫疗法疗效的预测方程是准确的,并优于tmb模型(图5)。

五、模型的鲁棒性验证

为了验证模型的鲁棒性,发明人从tcga和geo数据库中下载了前列腺癌和非小细胞肺癌的450k甲基化数据作为独立数据集,然后将其肿瘤样本的平均探针值带入方程中,得到预测的orr值。从表6可以看出,在两个独立数据集中,甲基化模型预测的结果也十分准确。

表6甲基化模型在独立数据集中的验证

五、更多预测orr值的甲基化模型

为了发现更多的预测orr的甲基化模型,发明人对免疫通路中的探针集,以及富集探针比较多的基因对应的探针集,分别建立lasso模型,预测orr。相关的免疫通路为:自然杀伤细胞介导的细胞毒性、同种异体移植排斥、移植物抗宿主病、抗原加工提呈、吞噬体、自身免疫性甲状腺疾病、内吞作用。富集探针比较多(探针数量大于3)的基因为:hla-e、plec、hivep3、foxd2-as1、foxd2、creb3l1、agrn。

对于免疫相关通路中的探针,本发明人建立了两个lasso模型。

方程1为:

回归系数b以及常数项a得到的方程为:

orr=-0.47209×xa-0.33734×xb-0.08073×xc-0.10919×xd-0.22108×xe-0.52563×xf+0.033014×xg+1.4102

其中,xa-xg分别表示cg15340334(6:31322298;对应基因为:gdf6)、cg25786265(6:30458998;对应基因为:hla-e)、cg25663770(6:41302149;对应基因为:ncr2)、cg13614383(9:91762376;对应基因为:shc3)、cg22572614(3:172241975;对应基因为:tnfsf10)、cg16499947(10:123329113;对应基因为:fgfr2)、cg27076454(2:236579007;对应基因为:agap1)的beta值。方程预测的18种癌症的orr值与真实orr值的spearman相关性为0.95,说明该模型预测的很准确。

方程2为:

回归系数b以及常数项a得到的方程为:

orr=-0.70668×xa-0.51916×xb+0.282115×xc+0.249494×xd-0.14527×xe+0.047318×xf-0.32871×xg-0.62127×xh+0.104683×xi+1.3217

其中,xa-xi分别表示cg15340334(6:31322298;对应基因为:hla-b)、cg25786265(6:30458998;对应基因为:hla-e)、cg02188225(6:30459255;对应基因为:hla-e)、cg11019014(6:30460798;对应基因为:hla-e)、cg25663770(6:41302149;对应基因为:ncr2)、cg12332902(2:98330020;对应基因为:zap70)、cg22572614(3:172241975;对应基因为:tnfsf10)、cg16499947(10:123329113;对应基因为:fgfr2)、cg27076454(2:236579007;对应基因为:agap1)的beta值。方程预测的18种癌症的orr值与真实orr值的spearman相关性为0.99,说明该模型预测的非常准确。

这两个模型中探针对应的探针序列:

对于富集探针比较多的基因对应的探针集,本专利也建立了两个lasso模型。

方程1为:

orr=0.214688×xa+0.31447×xb+0.115163×xc-0.92569×xd+0.306455×xe-0.18316×xf-0.05886×xg+3.48276×xh-0.26271×xi-0.02852×xj+0.23169×xk+0.267466×xl-0.628

其中,xa-xl分别表示cg02188225(6:30459255;对应基因为:hla-e)、cg20105257(6:30460244;对应基因为:hla-e)、cg11019014(6:30460798;对应基因为:hla-e)、cg21550172(8:145018075;对应基因为:plec)、cg25607920(1:42384365;对应基因为:hivep3)、cg03440588(1:47900320;对应基因为:foxd2)、cg12256550(11:46298946;对应基因为:creb3l1)、cg24644201(11:46299066,对应基因为:creb3l1)、cg20981182(11:46299168;对应基因为:creb3l1)、cg09248054(1:969257;对应基因为:agrn)、cg23625715(1:976172;对应基因为:agrn)、cg26222311(1:976227;对应基因为:agrn)的beta值。方程预测的18种癌症的orr值与真实orr值的spearman相关性为0.90,说明模型预测的比较准确。

方程2为:

orr=-0.17245×xa+1.240157×xb+0.162432×xc-4.90301×xd-0.52385×xe+0.581755×xf+0.066752×xg+0.497098×xh-0.19837×xi-0.28404×xj+5.695274×xk-0.61164×xl+0.075923×xm-0.08652×xn+0.378791×xo+0.365833×xp-1.0409

其中,xa-xp分别表示cg25786265(6:30458998;对应基因为:hla-e)、cg02188225(6:30459255;对应基因为:hla-e)、cg04907849(6:30459317;对应基因为:hla-e)、cg20154947(8:145018010;对应基因为:plec)、cg21550172(8:145018075;对应基因为:plec)、cg16685388(1:42384056;对应基因为:hivep3)、cg23762517(1:42384310;对应基因为:hivep3)、cg25607920(1:42384365;对应基因为:hivep3)、cg03440588(1:47900320;对应基因为:foxd2)、cg12256550(11:46298946;对应基因为:creb3l1)、cg24644201(11:46299066,对应基因为:creb3l1)、cg20981182(11:46299168;对应基因为:creb3l1)、cg25626312(11:46299204;对应基因为:creb3l1)、cg09248054(1:969257;对应基因为:agrn)、cg23625715(1:976172;对应基因为:agrn)、cg26222311(1:976227;对应基因为:agrn)的beta值。方程预测的18种癌症的orr值与真实orr值的spearman相关性为0.95,说明该模型预测的非常准确。

这两个模型中探针对应的探针序列:

序列表

<110>深圳市太空科技南方研究院

<120>用于预测pd1/l1抑制剂疗效的生物标记物和方法

<130>cf180466s

<160>33

<170>siposequencelisting1.0

<210>1

<211>50

<212>dna

<213>人(homosapiens)

<400>1

agctcactctaattaatatctgcagtatctcatctaggaggtgggtttcg50

<210>2

<211>50

<212>dna

<213>人(homosapiens)

<400>2

cggagtgccctgtgttcctggagaaggcattccagggttgaatcttgtcc50

<210>3

<211>50

<212>dna

<213>人(homosapiens)

<400>3

cggggagatgatttacctggatgaaccttcatagttcctttaaatgccgt50

<210>4

<211>50

<212>dna

<213>人(homosapiens)

<400>4

tgacagtcaccaggctctgtggcccagagtcctaactgcgttgtccttcg50

<210>5

<211>50

<212>dna

<213>人(homosapiens)

<400>5

ctgggtacttcttccaactgtctactccacaatcacatgagcagtagccg50

<210>6

<211>50

<212>dna

<213>人(homosapiens)

<400>6

gggaaacgcggcccaggcttgagaccacaaagggcacattagtggttacg50

<210>7

<211>50

<212>dna

<213>人(homosapiens)

<400>7

gtggctcgaggaatcctctctccttttttaaagagacatctgcaacttcg50

<210>8

<211>50

<212>dna

<213>人(homosapiens)

<400>8

gggtaatctgtgagtaaatcactgtaaaccagcaggcaagtgtttgcacg50

<210>9

<211>50

<212>dna

<213>人(homosapiens)

<400>9

tctcaccttttcaagctgtgagagacacatcagagccctgggcactgtcg50

<210>10

<211>50

<212>dna

<213>人(homosapiens)

<400>10

gtcctgggtatggccctccccatcctgctgccaggtcagtgtgatctccg50

<210>11

<211>50

<212>dna

<213>人(homosapiens)

<400>11

aggtcatgtctcttctcagggaaagcgggagcccttctggagcccttccg50

<210>12

<211>50

<212>dna

<213>人(homosapiens)

<400>12

tccttccctgttctcttttctattaaaaataagaacctgggcagagtgcg50

<210>13

<211>50

<212>dna

<213>人(homosapiens)

<400>13

cggtctggagccttccggctggtctggttgaaatgcgacccacagacatg50

<210>14

<211>50

<212>dna

<213>人(homosapiens)

<400>14

ctttgtgactttgatgtaaacatcaaacacagccccctttcctgtcttcg50

<210>15

<211>50

<212>dna

<213>人(homosapiens)

<400>15

cgcatatgcagaaatggaaggggcacaatgttgctgaaaattcagtttgg50

<210>16

<211>50

<212>dna

<213>人(homosapiens)

<400>16

aaaaaacatgtggatgttttccaaaatattaaccccatcacaatgtctcg50

<210>17

<211>50

<212>dna

<213>人(homosapiens)

<400>17

cgtcaagtcatcttaactgtccattgagatgggactcctgtaaaatcact50

<210>18

<211>50

<212>dna

<213>人(homosapiens)

<400>18

gttccagctgcccggtgctgcgggtgcggaaggtgcggaaatcccaagcg50

<210>19

<211>50

<212>dna

<213>人(homosapiens)

<400>19

aaccaggccagcaatgatgcccacgatggggatggtgggctgggaagccg50

<210>20

<211>50

<212>dna

<213>人(homosapiens)

<400>20

gctactctaaggctgagtgtaagtgcggggcgggagcgtggaggagctcg50

<210>21

<211>50

<212>dna

<213>人(homosapiens)

<400>21

cgtgacccacaaccaccagggagggaaacaggctgcccgagggctccata50

<210>22

<211>50

<212>dna

<213>人(homosapiens)

<400>22

caggcaaaaacacaatcacaaggtaaaatacagcgcaaggaatccatccg50

<210>23

<211>50

<212>dna

<213>人(homosapiens)

<400>23

cggaatagccatgtacattgaagcaccaaactaggcagctggataatggg50

<210>24

<211>50

<212>dna

<213>人(homosapiens)

<400>24

cggctggttgtgagcatgctcgcgccgggaacagatccaccctctgttat50

<210>25

<211>50

<212>dna

<213>人(homosapiens)

<400>25

tatttcgttttctttgcttcttctgtgacccttacttctttcgcctaccg50

<210>26

<211>50

<212>dna

<213>人(homosapiens)

<400>26

cgggacagtggttggtgaagccttaaaatgccaatgttccaggaacactg50

<210>27

<211>50

<212>dna

<213>人(homosapiens)

<400>27

gtggctcgaggaatcctctctccttttttaaagagacatctgcaacttcg50

<210>28

<211>50

<212>dna

<213>人(homosapiens)

<400>28

tctctgtgaaaccgggaacccctggctggctagcccagctggccaaggcg50

<210>29

<211>50

<212>dna

<213>人(homosapiens)

<400>29

cgggaacccctggctggctagcccagctggccaaggcgccacgcccccac50

<210>30

<211>50

<212>dna

<213>人(homosapiens)

<400>30

ggcgtccgcggggagttccagaggatcgggcggatgcggacgggagagcg50

<210>31

<211>50

<212>dna

<213>人(homosapiens)

<400>31

caagaagagcccgtgccccagcgtggtggcgcctgtgtgtgggtcggacg50

<210>32

<211>50

<212>dna

<213>人(homosapiens)

<400>32

acctacagcaacgaatgcgagctgcagcgggcgcagtgcagccagcagcg50

<210>33

<211>50

<212>dna

<213>人(homosapiens)

<400>33

tgtctagcctggagcagccggttcccagcgcaggaagggcagccctggcg50

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1