使用机器学习模型检测HLA等位基因杂合性丧失的制作方法

文档序号:36717477发布日期:2024-01-16 12:17阅读:21来源:国知局
使用机器学习模型检测HLA等位基因杂合性丧失的制作方法


背景技术:

1、免疫检查点通常是指一组硬连接到免疫系统中的抑制途径,其调节生理免疫反应的持续时间和幅度。当被激活时,免疫检查点分子(例如pd-1)遏制免疫系统,以防止其无差别地攻击细胞。虽然免疫检查点通常是有效的,但肿瘤细胞可能会操纵这种机制来防止免疫系统消除肿瘤细胞。

2、免疫检查点阻断疗法是最近一种对抗肿瘤细胞机制的治疗。免疫检查点阻断疗法使用诸如免疫检查点抑制剂的药物来激活免疫系统以识别和消除癌细胞。免疫检查点阻断疗法使免疫系统能够正确识别和消除经由主要组织相容性复合物(mhc)呈递新抗原的肿瘤细胞。尽管早期取得了成功,但由于肿瘤细胞抵抗和逃避免疫检查点阻断疗法的复杂肿瘤内在和外在机制,很大一部分受试者对这些疗法没有反应。阐明这种免疫检查点阻断抗性的原因已被证明比最初预期的更具挑战性。

3、引起免疫检查点阻断抗性的机制之一可能包括人白细胞抗原(hla)基因中杂合性丧失。对应于肿瘤细胞突变基因的新抗原可以与由特定hla等位基因编码的hla蛋白结合并呈递在细胞表面。当检测到呈递的新抗原时,免疫系统可以通过部署t细胞来做出反应,t细胞通过检测呈递的新抗原来鉴定和消除肿瘤细胞。因此,免疫系统的有效性可能取决于新抗原是否呈递在肿瘤细胞表面上。相反,阻止新抗原的呈递可能导致t细胞无法检测到对应的肿瘤细胞。

4、各种研究表明,肿瘤细胞通常具有hla基因中杂合性丧失,使得缺失的hla等位基因的对应hla蛋白不能用于将新抗原呈递在肿瘤细胞表面上。例如,每个人受试者具有六个不同的hla等位基因,能够向免疫系统呈递一组不同的抗原。hla等位基因的种系序列多样性可以通过介导新抗原向免疫系统的呈递来影响肿瘤进化。在免疫检查点阻断疗法存在下,hla序列多样性的这种影响似乎更为明显。当肿瘤细胞突变时,可能发生hla等位基因区域中体细胞杂合性丧失,从而导致hla序列多样性的降低。hla等位基因杂合性的此种丧失越来越被认为是肿瘤细胞免疫检查点阻断抗性的原因。

5、因此,从测序数据中检测hla等位基因杂合性丧失可能有利于预测免疫检查点阻断抗性并针对给定受试者开发对应的疗法。然而,传统技术可能不足以准确检测hla等位基因杂合性丧失。例如,检测hla杂合性丧失的常规技术可以包括进行全基因组询问以检测拷贝数。在这种技术中,hla基因周围拷贝数的减少可能表明其杂合性丧失。然而,由于至少以下原因,这种传统技术在从测序数据中检测hla杂合性丧失方面可能是不可靠的。首先,突变基因的多态性质导致对应序列读段与参考基因组的不良比对。其次,序列变异的复杂性会掩盖已缺失的特定hla等位基因,这对于新抗原疗法设计至关重要。

6、另一种常规技术可以包括在将序列数据与hla等位基因特异性参考序列进行比对后鉴定hla基因的拷贝数变异。然而,传统拷贝数变体算法所依赖的大多数等位基因特异性比对技术无法解决hla特异性挑战,诸如等位基因之间外显子组探针捕获的差异。此外,拷贝数变体算法对于肿瘤纯度低的生物样品可能很差,并且难以检测亚克隆缺失,从而引起了对这些算法的敏感性和准确性的担忧。因此,尽管兴趣日益浓厚,但传统技术最终依赖于hla等位基因区域周围侧接区域的缺失作为hla杂合性丧失的代表,而不是开发hla杂合性丧失特异性算法。鉴于上述情况,准确检测hla杂合性丧失具有挑战性。

7、此外,验证hla杂合性丧失检测算法的性能一直是所述领域的一个额外挑战。例如,传统技术包括评估hla杂合性丧失调用与标准cnv算法在侧接每个hla基因的区域中进行的拷贝数调用之间的一致性。另一种传统技术包括设计引物以捕获hla基因周围的区域,应用pcr来鉴定受试者中hla等位基因的拷贝数丧失。然而,这些方法既不能验证可能丧失的特定hla等位基因的身份,也不能解决对低肿瘤纯度样品或hla杂合性亚克隆性丧失样品的调用准确性。


技术实现思路

1、在一些实施方案中,提供了一种检测hla等位基因杂合性丧失的方法。所述方法可以包括访问经过训练的机器学习模型,所述模型使用训练数据集进行训练,所述训练数据集包括一组或多组对应于与一组受试者中的受试者对应的肿瘤样品中鉴定的hla等位基因的训练特征。对于hla等位基因的基因组区域,第一组训练特征包括:(i)调整后的b等位基因频率,其表示肿瘤样品中对应于基因组区域的杂合等位基因的第一b等位基因频率与基因组区域中与一个或多个对照样品相关的杂合等位基因的第二b等位基因频率之间的比率;以及(ii)对应于基因组区域的肿瘤样品的第一等位基因特异性覆盖率与对应于基因组区域的一个或多个对照样品的第二等位基因特异性覆盖率之间的比率。对于hla等位基因,第二组训练特征包括hla等位基因周围的侧接基因组区域的至少部分是否被缺失的指示。

2、所述方法还可以包括接收对应于特定受试者的生物样品的序列数据。所述方法还可以包括使用机器学习模型以通过使用机器学习模型处理序列数据来生成与在特定受试者的生物样品中鉴定的hla等位基因中是否存在杂合性丧失的概率对应的结果。所述方法还可以包括输出结果。

3、本公开的一些实施方案包括有包括一个或多个数据处理器的系统。在一些实施方案中,系统包括含有指令的非暂时性计算机可读存储介质,所述指令当在一个或多个数据处理器上执行时,致使一个或多个数据处理器执行本文公开的一个或多个方法的部分或全部和/或一个或多个过程的部分或全部。本公开的一些实施方案包括有形地体现在非暂时性机器可读存储介质中的计算机程序产品,包括被配置为致使一个或多个数据处理器执行本文公开的一个或多个方法的部分或全部和/或一个或多个过程的部分或全部的指令。

4、所使用的术语和表达用作描述而非限制术语,并且在此类术语和表达的使用中无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内可以进行各种修改。因此,应当理解,尽管所要求保护的本发明已经通过一些实施方案和任选特征进行了具体公开,但本领域技术人员可以对本文公开的概念进行修改和变化,并且此类修改和变化被认为在所附权利要求所定义的本发明的范围内。



技术特征:

1.一种方法,其包括:

2.如权利要求1所述的方法,其中所述序列数据是全外显子组测序数据。

3.如权利要求1-2中任一项所述的方法,其中所述序列数据是全基因组测序数据。

4.如权利要求1-3中任一项所述的方法,其中所述机器学习模型使用所述训练数据集进行训练,所述训练数据集进一步包括对应于所述受试者的肿瘤纯度值和肿瘤倍性值。

5.如权利要求1-4中任一项所述的方法,其中所述训练数据集是使用对应于所述受试者的所述hla等位基因的参考序列生成的。

6.如权利要求1-5中任一项所述的方法,其中所述机器学习模型包括一种或多种经过训练的梯度提升算法。

7.如权利要求1-6中任一项所述的方法,其还包括基于所述结果预测施用给所述特定受试者的免疫检查点阻断疗法的功效降低。

8.如权利要求1-7中任一项所述的方法,其中所述特定受试者的生物样品包括一个或多个癌细胞。

9.如权利要求1-8中任一项所述的方法,其还包括基于所述结果预测与在所述特定受试者的生物样品中鉴定的所述hla等位基因对应的一个或多个新抗原。

10.如权利要求1-9中任一项所述的方法,其中使用所述机器学习模型处理所述序列数据包括确定从所述序列数据鉴定的hla等位基因的等位基因特异性数据。

11.如权利要求10所述的方法,其中所述hla等位基因通过对所述序列数据应用hla基因分型从所述序列数据中鉴定。

12.一种系统,其包括:

13.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,包括被配置为致使一个或多个数据处理器执行本文公开的一个或多个方法的部分或全部的指令。


技术总结
提供了一种检测HLA等位基因杂合性丧失的方法。所述方法可以包括访问经过训练的机器学习模型,所述模型使用训练数据集进行训练,所述训练数据集至少包括包含以下的训练数据集:调整后的B等位基因频率,其表示肿瘤样品中对应于基因组区域的杂合等位基因的第一B等位基因频率与基因组区域中与一个或多个对照样品相关的杂合等位基因的第二B等位基因频率之间的比率。所述方法还可以包括使用所述机器学习模型以通过使用所述机器学习模型处理序列数据来生成与在特定受试者的生物样品中鉴定的HLA等位基因中是否存在杂合性丧失的概率对应的结果。

技术研发人员:雷切尔·马蒂·派克,达塔瑞亚·梅拉赫鲁沃,史蒂文·迪亚,查尔斯·艾博特,西莫·V·张,埃里克·拉维,约翰·威斯特,理查德·徹恩,肖恩·迈克尔·波伊尔
受保护的技术使用者:佩索纳里斯公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1