从循环核酸中鉴定全基因组序列数据中的全局序列特征的制作方法

文档序号：26100725发布日期：2021-07-30 18:11阅读：来源：国知局

技术特征：

1.一种方法，其包括：

(a)通过数据处理系统从来自受试者的无细胞dna样品获得全基因组序列数据，其中所述全基因组序列数据包括多个全基因组序列读段；

(b)通过所述数据处理系统从所述多个基因组序列读段的至少大多数中计算两个或更多个度量，其中所述两个或更多个度量中的第一度量为：

(i)所述无细胞dna的片段大小，

(ii)所述多个全基因组序列读段的相对读段深度，或

(iii)种系等位基因失衡；

(c)通过所述数据处理系统将所述两个或更多个度量输入分类器中以获得对第一类的第一预测和对第二类的第二预测，其中所述第一类为包括循环肿瘤dna的所述无细胞dna样品并且所述第二类为不包括所述循环肿瘤dna的所述无细胞dna样品；以及

(d)通过所述数据处理系统，基于所述第一预测和所述第二预测将所述无细胞dna样品分类为所述第一类或所述第二类。

2.根据权利要求1所述的方法，其中所述两个或更多个度量中的第二度量为：

(i)所述无细胞dna的片段大小，

(ii)所述多个全基因组序列读段的相对读段深度，或

(iii)种系等位基因失衡；并且

其中所述第二度量与所述第一度量不同。

3.根据权利要求1或2所述的方法，其中所述分类器为线性判别分析。

4.根据权利要求1、2或3所述的方法，其中计算第三度量并将其输入所述分类器中，所述第三度量为：

(i)所述无细胞dna的片段大小，

(ii)所述多个全基因组序列读段的相对读段深度，或

(iii)种系等位基因失衡；并且

其中所述第一度量、所述第二度量和所述第三度量中的每一者都是不同的度量。

5.根据权利要求1至4中任一项所述的方法，其中通过将在所述样品中获得的无细胞dna片段大小进行标准化，从而获得概率密度函数值，来计算所述无细胞dna的所述片段大小。

6.根据权利要求1至4中任一项所述的方法，其中所述无细胞dna的所述片段大小包括概率密度函数内的区域的比率。

7.根据权利要求6所述的方法，其中所述概率密度函数内的区域的比率包括：长度为介于约116个与约156个核苷酸之间的无细胞dna片段大小的概率的比率，以及长度为介于约164个与约168个核苷酸之间的模式附近的无细胞dna片段大小的概率的比率。

8.根据权利要求1至4中任一项所述的方法，其中所述无细胞dna的所述片段大小是通过以下方式计算出的统计片段得分：

(i)将在所述样品中获得的无细胞dna片段大小进行标准化，从而获得概率密度函数值；

(ii)确定所述无细胞dna片段大小的值的对数及连续无细胞dna片段大小之间的一阶差分；

(iii)除去至少20个最低的无细胞dna片段大小，以获得剩余的无细胞dna片段大小；以及

(iv)与包括所述循环肿瘤dna的无细胞dna以及不包括所述循环肿瘤dna的无细胞dna相比，确定所述剩余的无细胞dna片段大小的第一主成分轴。

9.根据权利要求1至8中任一项所述的方法，其中所述多个全基因组序列读段的相对读段深度通过以下方式计算：

(i)对无细胞dna片段大小序列读段计数进行预处理，以获得一组标准化的无细胞dna片段大小序列读段计数；

(ii)确定所述一组标准化的无细胞dna片段大小序列读段计数的每条染色体臂的中位读段深度；以及

(iii)确定所述每条染色体臂的中位读段深度的最大值，以获得拷贝数扩增得分。

10.根据权利要求9所述的方法，其中所述预处理包括：

(i)将来自各个样品的序列读段计数映射到具有预先确定大小的窗口中；

(ii)基于一个或多个因素过滤每个窗口中的序列读段计数，以获得每个窗口的一组剩余的无细胞dna片段大小序列读段计数；

(iii)对每个窗口中的鸟嘌呤-胞嘧啶含量和可映射性偏差进行校正；以及

(iv)针对来自包括循环肿瘤dna的无细胞dna样品的序列数据将每个窗口中剩余的无细胞dna片段大小序列读段计数进行标准化。

11.根据权利要求1至10中任一项所述的方法，其中使用统计模型来计算所述种系等位基因失衡，所述统计模型优选地为二项式概率模型，以确定所述无细胞dna样品中一个或多个种系等位基因失衡位点的中位概率值，并获得等位基因失衡得分。

12.根据权利要求11所述的方法，其中如果所述一个或多个种系等位基因失衡位点的所述中位概率值低于预先确定的显著性水平，则所述中位概率值指示所述无细胞dna样品中所述一个或多个种系位点处的等位基因失衡。

13.根据权利要求1至12中任一项所述的方法，其进一步包括：通过所述数据处理系统，基于所述无细胞dna样品的分类为所述第一类还是所述第二类来预测所述受试者是否有微小残留病。

14.一种诊断有微小残留病的患者的方法，其包括：

(a)计算从受试者的无细胞dna样品获得的全基因组序列数据的特征的两个或更多个得分，其中所述特征包括：(i)所述无细胞dna的片段大小，(ii)所述多个全基因组序列读段的相对读段深度，(iii)种系等位基因失衡，(iv)软剪切率，(v)取代类型的比率，(vi)总体预测的体细胞突变计数，(vii)不一致读段的比率，(vi)相对line/sine元件读段深度，或它们的组合；

(b)通过所述数据处理系统将所述两个或更多个得分输入分类器中以获得对第一类的第一预测和对第二类的第二预测，其中所述第一类为包括循环肿瘤dna的所述无细胞dna样品并且所述第二类为不包括所述循环肿瘤dna的所述无细胞dna样品；

(c)通过所述数据处理系统，基于所述第一预测和所述第二预测将所述无细胞dna样品分类为所述第一类或所述第二类；以及

(d)通过所述数据处理系统，基于所述无细胞dna样品的分类为所述第一类还是所述第二类来确定所述受试者是否有微小残留病。

15.一种系统，其包括：

一个或多个处理器；以及

存储器，所述一个或多个处理器可访问所述存储器，所述存储器存储可由所述一个或多个处理器执行的多个指令，所述多个指令包括当由所述一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至14所述的方法的指令。

16.一种计算机产品，其包括计算机可读介质，所述计算机可读介质存储多个用于控制计算机系统执行根据权利要求1至14所述的方法的指令。

技术总结
本公开提供用于在从无细胞DNA(cfDNA)样品获得的全基因组序列数据中鉴定全局癌症特异性序列特征的技术。一种示例性技术包括从cfDNA样品获得多个全基因组测序读段，以及从所述多个基因组测序读段中的至少大多数中确定两个或更多个度量，其中所述两个或更多个度量中的第一度量为：(i)所述无细胞DNA的片段大小，(ii)所述多个全基因组测序读段的相对读段深度，或(iii)种系等位基因失衡。所述技术进一步包括将所述两个或更多个度量输入分类器中以获得对第一类的第一预测和对第二类的第二预测，以及基于所述第一预测和所述第二预测将无细胞DNA样品分类为所述第一类或所述第二类。

技术研发人员：蔡明阳;F·卡西;冯靓;A·洛夫乔伊
受保护的技术使用者：豪夫迈·罗氏有限公司
技术研发日：2019.12.19
技术公布日：2021.07.30

完整全部详细技术资料下载

当前第2页1 2