基于沉默和非沉默突变的癌症分类和预后

文档序号:37259244发布日期:2024-03-12 20:36阅读:43来源:国知局
基于沉默和非沉默突变的癌症分类和预后

本发明属于癌症诊断领域。


背景技术:

1、过去几年,新一代测序(ngs)技术的快速发展和计算能力的加速导致大量基因组信息可用。利用这些高维数据的各种研究将癌症确定为一组高度异质性的基因组疾病,其特征是肿瘤间和肿瘤内的巨大多样性。此外,在不同癌症类型的患者中重复鉴定出了共同的遗传特征,并且在诊断为同一癌症类型的患者中发现了显著的多样性。这些发现强调了个性化、基因靶向性癌症治疗的需求。

2、到目前为止,已经有成百上千个基因被认为是癌症的驱动因素,还有更多的基因正在研究中。某些基因,如tp53、braf、egfr或idh1,已经成为基因疗法的靶点。尽管如此,要完全阐明癌症基因组图景,仍有许多障碍需要克服。目前,大多数当代研究都基于全外显子组测序(wes)得出的数据。此外,大多数研究仅关注或主要关注非沉默突变;编码区中引起所产生蛋白质氨基酸序列改变的改变。沉默突变,如内含子、非翻译区(utr'5和utr'3)的修饰,甚至编码区本身的同义突变基本上都被排除在分析之外。

3、然而,癌性沉默突变可能会对基因表达产生有害影响,在某些情况下,甚至可能会导致比非沉默突变更严重的后果。启动子或增强子等调控区的突变可能会破坏或形成新的转录因子结合位点并引起转录调控的改变。非翻译区的突变可能会影响翻译调控或修饰微小rna结合位点,从而影响mrna稳定性。同义突变可能会改变基因表达的所有方面,影响翻译速率、蛋白质折叠、转录、mrna稳定性和剪接。总的来说,沉默突变可能会修饰基因表达过程的所有阶段,导致蛋白质数量的扩大或减少。因此,尽管大多数沉默突变不会导致蛋白质功能性的改变,但它们可能会显著改变蛋白质丰度,从而影响癌症适合性。

4、癌症基因组令人难以置信的异质性——即使对于据推测具有同一癌症类型的患者也是如此——使得预测任务高度复杂。当只检查非沉默突变时,人们会遗漏这些癌性基因组复杂突变模式中的很大一部分。此外,沉默驱动突变——即使现今认为与非沉默驱动相比是罕见的——也可能具有高度影响,因此对于预测模型而言也可能是有益的。事实上,先前有研究表明,调节基因表达的沉默突变或非沉默突变可能会显著影响癌细胞的表型及其存活。

5、亟需整合沉默突变的预测模型和分析方法,从而提供对与癌症发展和进展有深刻联系的基因组图景更广泛的理解。


技术实现思路

1、本发明提供了确定对象中癌症的类型的方法,其包括采用机器学习模型来评估不是外显子非同义突变的突变。还提供了估计对象诊断后的存活时间的方法。还提供了包括训练机器学习模型的方法。

2、根据第一方面,提供了确定对象中癌症的类型或估计对象诊断后的存活时间的方法,所述方法包括:

3、a.接收来自所述癌症的基因组突变数据,其中所述数据包括不是外显子非同义突

4、变的突变;

5、b.将经训练的机器学习(ml)模型应用于接收到的基因组突变数据;

6、从而确定对象中癌症的类型或估计所述对象诊断后的存活时间。

7、根据一些实施方式,所述数据包括在所述癌症中发现的突变,所述突变不存在于所述对象的健康组织中。

8、根据一些实施方式,所述方法是确定癌症类型的方法,并且使所述ml模型受到包括来自具有已知癌症类型的癌症患者的基因组突变数据的训练集的训练,并且所述ml模型输出所述对象中所述癌症的分类作为所述已知癌症类型之一。

9、根据一些实施方式,所述方法是估计所述对象诊断后的存活时间的方法,并且使所述ml模型受到包括来自具有经诊断的已知存活时间的癌症患者的基因组突变数据的训练集的训练,并且所述ml模型输出所述对象的估计存活时间。

10、根据一些实施方式,所述训练集仅包括具有经诊断的已知癌症类型或已知存活时间的癌症患者中的至少两个中出现的突变。

11、根据一些实施方式,所述突变选自:基因的3’和5’非翻译区(utr)中的突变、基因的内含子中的突变、基因侧翼区中的突变和外显子同义突变。

12、根据一些实施方式,侧翼区包括基因的转录起始位点5kb内、基因的转录终止位点5kb内或两者的非转录序列。

13、根据一些实施方式,所述基因组突变数据包括:

14、a.来自所述对象、所述癌症患者或两者的深度测序数据中的所有utr突变;

15、b.来自所述对象、所述癌症患者或两者的深度测序数据中的所有内含子突变;

16、c.来自所述对象、所述癌症患者或两者的深度测序数据中的所有侧翼区突变;

17、d.来自所述对象、所述癌症患者或两者的深度测序数据中的所有同义外显子突变;或

18、e.其组合。

19、根据一些实施方式,所述基因组突变数据还包括外显子非同义突变。

20、根据一些实施方式,所述基因组突变数据包括来自所述对象、所述癌症患者或两者的深度测序数据中的所有外显子非同义突变。

21、根据一些实施方式,所述深度测序是全外显子组测序(wes)。

22、根据一些实施方式,所述基因组突变数据包括在来自所述对象、所述癌症患者或两者的wes数据中发现的所有突变。

23、根据一些实施方式,所述癌症选自肾上腺癌、膀胱癌、尿路上皮癌、乳腺癌、宫颈癌、胆管癌、结肠癌、淋巴癌、食管癌、脑癌、头颈癌、肾癌、肝癌、肺癌、中胚层癌、卵巢癌、胰腺癌、内分泌癌、神经内分泌癌、前列腺癌、直肠癌、皮肤癌、骨癌、软组织癌、胃癌、睾丸癌、甲状腺癌、子宫癌和葡萄膜癌。

24、根据一些实施方式,所述基因组突变数据包括内含子突变,并且所述癌症选自宫颈癌、结肠癌、脑癌、肾癌和肝癌。

25、根据一些实施方式,所述基因组突变数据包括utr突变或侧翼区突变,并且所述癌症选自宫颈癌、骨癌和软组织癌。

26、根据一些实施方式,所述基因组突变数据包括utr突变、内含子突变、侧翼区突变、外显子同义突变和外显子非同义突变,并且所述癌症选自膀胱癌、尿路上皮癌、乳腺癌、宫颈癌、结肠癌、肾癌、肝癌、肺癌、卵巢癌、骨癌、软组织癌、皮肤癌、甲状腺癌和子宫癌。

27、根据一些实施方式,所述基因组突变数据包括utr突变、内含子突变、侧翼区突变、外显子同义突变和外显子非同义突变,并且所述癌症选自乳腺癌、结肠癌、脑癌、肾癌、肝癌、卵巢癌、骨癌、软组织癌、甲状腺癌和子宫癌。

28、根据一些实施方式,所述基因组突变数据来自癌症活检或液体活检。

29、根据一些实施方式,所述方法还包括向所述对象施用已知治疗所确定的癌症类型的治疗剂。

30、根据一些实施方式,所述方法还包括对预期存活时间在预定阈值以下的对象施用另外的治疗性治疗。

31、根据另一方面,提供了方法,其包括:

32、使机器学习(ml)模型受到训练集的训练以确定对象中癌症的类型或估计对象诊断后的存活时间,所述方法包括:

33、i.接收基因组数据;和

34、ii.从接收的基因组数据中提取突变,其中所述突变不是外显子非同义突变;

35、其中所述训练集是通过将所述突变标记为来自具体类型的癌症或来自诊断后存活具体时间量的对象并将多个突变及其标签(labels)组合在一起形成所述训练集而生成的,其中所述多个包括来自至少两种癌症类型的癌症的标签或来自存活不同时间量的对象的标签。

36、根据一些实施方式,所述方法还包括:在推断步骤处将经训练的ml模型应用于从癌症接收的基因组突变数据,其中接收的基因组数据包括不是外显子非同义突变的突变,和输出确定的癌症类型或估计的存活时间。

37、根据一些实施方式,所述推断步骤包括本发明的方法。

38、根据另一方面,提供了评估癌症的方法,所述方法包括接收包括来自所述癌症的dna的样品和检测所述dna中基因的沉默突变,所述基因的沉默突变选自表5中提供的基因的沉默突变,从而评估癌症。

39、根据一些实施方式,所述癌症选自表5中提供的癌症类型,并且其中所述基因选自在所述癌症类型中观察到其突变的基因。

40、根据一些实施方式,所述评估包括确定所述癌症中的驱动基因或驱动突变。

41、根据一些实施方式,所述方法还包括向提供所述样品的对象施用靶向所确定的驱动基因的抗癌疗法,另一个基因是包括所确定的驱动基因或所述驱动突变的生物通路。

42、通过下文给出的详细描述,本发明的其它施方式和全部适用范围将变得显而易见。然而,应理解的是,详细描述和具体实例虽然指示了本发明的优选实施方式,但仅作为说明给出,因为通过此详细描述,落入本发明的精神和范围内的各种变化和修改对于本领域技术人员来说都将变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1