使用多态性变体等位基因频率进行单体型分型和拷贝数分型的制作方法

文档序号:9769200阅读:662来源:国知局
使用多态性变体等位基因频率进行单体型分型和拷贝数分型的制作方法
【技术领域】
[0001]本发明设及用于遗传物质的单体型分型和/或拷贝数分型的方法。更具体地,本发 明设及用于通过对单细胞、少量细胞的库、多细胞DNA制剂或甚至来自例如血流中的无细胞 DNA的DNA制剂中的多态性变体(PV)等位基因分数(PVAF)进行测定、定相和分段从而进行全 基因组单体型分型、单体型特异性DNA拷贝数分析和测定DNA异常的减数分裂/有丝分裂起 源的方法。
[醒]发明背景
[0003] 特异性祀向每个家族的特定突变的(单细胞)诊断测试的开发费时、劳动强度大且 昂贵,此外还导致待经历该操作的夫妇的长长的等待列表。因此,新的用于遗传诊断的遗传 方法势在必行。
[0004] 染色体非整倍性是妊娠失败和胎儿或个体的异常发育的主要原因。运样的非整倍 性可W来自减数分裂错误,运在绝经期前的十年中卵子发生中更为普遍。植入前遗传学筛 查(PGS)已经被概念化为提高每个移植胚胎的妊娠率并防止IVF后的异常妊娠与患病的活 产儿。然而,基于FISH和基于aCGH的PGS方法不能鉴别减数分裂错误和有丝分裂错误。特别 地,卵裂期细胞分裂很容易发生有丝分裂染色体分离错误,运并不必然损害正常的胚胎发 育。
[0005] 基于微阵列或下一代测序W及随后的全基因组单体型分型,全基因组SNP分析最 近已经变为可行。然而,非分裂中期的二倍体单细胞的整个基因组的精确单体型分型已被 大大地排除,主要是由于由单细胞DNA扩增假象(如随机ADO)和一个等位基因相对于另一个 等位基因的优先扩增(PA) W及SNP探针强度的错误算法解释所引入的基因型错误。
[0006] Wang等人在"PennCNV: an integrated hidden Markov model designed for high-resolution copy number variation detection in whole-genome SNP genotyping data."Genome research 17,1665(2007)中开发了一种用于测定拷贝数崎变 的整合的隐藏MarkoV模型(被称为PennCNV)。PennCNV使用SNP B等位基因频率(BAF)值和 Io曲值来测定拷贝数崎变。运适用于还未经历全基因组扩增(WGA)的多细胞样品,因为不同 的拷贝数崎变具有特定的BAF值模式。然而,由于等位基因扩增偏差,由单细胞的全基因组 扩增(WGA)所获得的PVAF值可能显著失真,并因此不如来源于未进行WGA的DNA样品的PVAF 值那样可W区分不同的拷贝数状态。特别是重复和=体性极其难W在单细胞中确认普通的 PVAF值和Io排值;当被应用于临床设置时,运可能会导致单细胞拷贝数分析的错误解释并 因此甚至导致误诊。PennCNV和本领域已知的其它类似方法也可W采用S重基因型来测定 来源于大量细胞的DNA样品中崎变的起源。尽管运些方法适用于使用多细胞DNA样品的离散 双等位基因基因型检测和确认缺失,然而均不能精确地确认崎变(特别是重复)的亲本起源 的干扰和机理起源的干扰。然而,在本发明的实施方案中,提供信息的PVAF值被有利地单体 型分型/定相并用于测定单体型特异性拷贝数状态W及它们的亲本起源和机理起源,低至 单细胞水平。
[0007] 除了本领域已知的运些方法之外,本领域已知的还有基于群体用于测定未经历 WGA的多细胞DNA样品中的等位基因不平衡和镶嵌性。¥曰1:1曰111;[1等人在"化口1017口6-6曰36(1 profiling of subtle allelic imbalance with SNP arrays'',Genome research 23, 152,(2013)中使用杂合SNP检出(SNP-calI)的B等位基因频率(BAF)值来检测正常I: I等位 基因的改变。在使用如Scheet等人在"A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and h曰plotypic ph3se.''inAmeric3n journal of human genetics 78,629 (2006)中所述的fastPHASE进行种系单体型的基于群体的统计学估计后,他们将运些估计 的种系单体型和从相同的杂合SNP的BAF值所推导的超过阔值(即在所有的杂合基因座上所 观察的BAF的中位值)的"过量"单体型进行比较W测定种系单体型和BAF推导的"过量"单体 型之间的相一致性(phase concordance),和从而单体型特异性等位基因不平衡。然而,他 们没有考虑BAF本身的幅度并忽略了总强度。相反,Nik-Zainal等人在叮he life Msto巧 of 2化reast cancers."Cell,149,5,2012中很好地应用了来自千人基因组计划("A map of human genome variation from population-scale sequencing.''Nature 467,1061, 2010)的数据并使用IMPUTE(Howie等人在"Fast and accurate genotype imputation in genome-wide association studies through pre-phasing.''Nature Genetics 44,8, 2012中)来将由下一代测序数据所测定的种系SNP定相至片段化和从而短的亲本特异性单 体型域化aplotype block)。通过单体型对等位基因比率的随后分析证实了比当对个体SNP BAF进行全基因组评分时更高的对检测等位基因不平衡和异常的灵敏度。通过将该原理(被 命名为Battenberg算法)应用于杂合SNP检出的BAF值,他们能够从所预期的0.5的值评估杂 合SNP检出的BAF值的失真W测定短单体型延伸中的等位基因不平衡,并因此研究DNA样品 中的镶嵌DNA拷贝数崎变。然而重要的是,已经显示本领域已知的上述两种方法适用于从大 量细胞提取的标准DNA样品,但会对来源于单细胞数据的BAF值是低效率的,因为群体测定 的种系单体型代表短的延伸,并且单细胞分析所需的全基因组扩增方法向SNP的BAF引入了 噪声。此外,在单细胞样品中不能显示亲本同源重组位点。相反,本发明的实施方案有利地 应用基于家族或亲属的定相原理并且特别地不需要测定在研究本身下的DNA样品的SNP检 出。因此,根据本发明的实施方案的方法有利地能够在广泛的种系单体型上解释PVAF值,并 且能够用于解释除标准DNA样品W外需要全基因组扩增的DNA样品、单细胞或少量细胞的 PVAF值。根据本发明的实施方案的方法有利地应用亲本的和在特定实施方案中另外的近亲 的强有力的离散PV基因型W对亲本基因型进行定相,其随后被应用于W单体型特异性的方 式来分别地从父本和母本的提供信息的SNP研究DNA样品的PVAF值。根据本发明的实施方案 的方法使用长的亲本单体型域,其中可考虑到随机WGA假象的影响。此外,运些基于群体的 方法不能有效追踪基因组异常的机理起源。然而,本发明有利地能够追踪基因组异常至减 数分裂或有丝分裂错误。运在植入前遗传学诊断(PGD)中具有重要意义,特别是当在早期发 育的卵裂期完成该诊断时。如果植入前胚胎的单细胞具有减数分裂机理起源的崎变,则该 胚胎不应当被植入,因为崎变最可能在胚胎的所有单个卵裂球中永存。然而,如果卵裂期胚 胎具有有丝分裂机理起源的崎变,运并不必然意味着崎变存在于该胚胎的所有单个卵裂球 中,因为染色体不稳定性在卵裂期胚胎发生中是常见的。因此,通过本发明测定染色体异常 的减数分裂或有丝分裂机理起源使得针对卵裂期胚胎的用于非整倍性筛查的植入前遗传 学诊断(PGS)成为可能。因此,本发明使得在一次测定中同时进行PGD和PGS变得可行。
[0008] Navin等人在('Tumor evolution inferred by single-cell sequencing"Nature 472,90(2011)中开发了聚焦序列读数深度分析方法来在单细胞WGA产物的测序后计算单细 胞DNA拷贝数景观。计算了对应于特定区间(bin)的单端序列读数的量W测定经历WGA的单 细胞基因组的IogR值及后续拷贝数状态。有利地,本发明的实施方案使用来源于高通量基 因分型技术(包括SNP阵列和下一代测序设备)的PV基因型、Io排值和PVAF值,W及整合的 Io曲值和PVAF值来显示基因组崎变。后一种实施方案良好适用于测定缺失,然而,普通单细 胞PVAF值对于重复的确认不是强有力的。与后一种实施方案相比,本发明的其它实施方案 将PVAF值分类和亚分类,随后对运些值进行分段。因此,本发明的方法的实施方案有利地能 够重建亲本单体型并测定崎变的减数分裂或有丝分裂机理起源。
[0009] 对于WGA之后的单细胞或低细胞量的单体型分型,现有技术方法能够利用细胞的 离散双等位基因基因型。在运些方法中,测定精确的等位基因和单体型的量W及它们的起 源是不可能的。例如,本领域已知的运些方法不能精确地区分二体染色体与具有有丝分裂 起源的S体性。此外,当在少量细胞或多细胞DNA样品中存在细胞的混合物时,不能分析DNA 样品的镶嵌性质。此外,因为运些方法采用双等位基因基因型,它们可严重遭受样品中的 WGA假象W及真正的DNA拷贝数变异。为了将WGA等位基因脱扣假象减轻至一定程度, Handyside等人在"Karyomapping:a universal method for genome wide analysis of genetic disease based on mapping crossovers between parental haplotypesJ Med Genet,47,10,(2010)中建议只使用杂合基因型。尽管该方法可消除ADO假象的影响;但 它没有减轻由等位基因插入(allele drop inKADI)假象产生的假杂合基因型。因为,WGA 产物中的杂合SNP只占(单细胞)基因型的小部分,较小的ADI假象可能有很大的影响从而导 致假单体型。根据本发明的实施方案的方法相对于运些现有技术方法是有利的,因为使用 了连续的提供信息的PVAF值。运具有若干优点,包括因为PVAF值和后续分段化的应用减轻 随机WGA假象(包括不完全的AD0、ADI、优先扩增(PA))的作用W及考虑了样品中真正的拷贝 数变异而对于重建的单体型具有更高的灵敏度;可W检测和分析少量细胞或多细胞DNA样 品的镶嵌性质;不仅可W识别有丝分裂=体性和二体性而且可W测定崎变的减数分裂和有 丝分裂性质,此外,可W检测拷贝中性事件(诸如UPhD和UPiD);另外,可W检测研究中的每 个亲本中或个体的DNA中LOH(运可能是血缘的结果)的修补(patch)。
[0010] 特别地,现有技术方法不允许使用连续多态性变体等位基因频率(同时)测定拷贝 数和单体型。当使用来源于包含少量遗传物质的样品(诸如单细胞样品)的含噪声基因分型 数据时,运尤其复杂。
[0011] 仍然存在对用于单体型分型和/或拷贝数分型的改善的方法的需要。
[001。发明概述
[0013] 本发明的一个目的是提供用于单体型分型和/或拷贝数分型的设备和方法。特别 地,本发明提供一种方法,其允许同时全基因组检测遗传异常(包括拷贝数变异、镶嵌性W 及区分单体性和单亲二体性)、遗传物质的遗传(包括单体型)和遗传异常的机理起源(例如 减数分裂或有丝分裂起源)。此外,本发明的方法甚至允许分析包含极少量的DNA的样品(诸 如单细胞样品)中的遗传物质。与现有技术相比,本发明提供在所获得的信息的细节和类型 W及精确度上得到改善的方法。
[0014] 本发明的一个优点是不使用DNA样品本身的离散PV检出。运对于单细胞或少量细 胞DNA样品是重要的,因为本发明的方法减少了由WGA假象和/或用WGA物质测定的信号的算 法解释所引起的错误离散PV检出。
[0015] 本发明的一个优点是具有两个固有特征:(1)每个亲本图谱内的一致性特征 (parity feature)和(2)亲本图谱之间的互补性特征。
[0016] 本发明的实施方案的一个优点是基于多态性变体等位基因分数提供一种改善的 方法,W进行全基因组单体型分型、拷贝数分析和测定单细胞或多细胞来源的DNA样品中 DNA异常的机理起源。
[0017] 该目的通过根据本发明的独立权利要求的方法实现。从属权利要求设及优选的实 施方案。
[0018] 在第一方面,本发明提供用于分析受试者的遗传物质的方法,所述方法包括:
[0019]-获得受试者的遗传物质的连续多态性变体等位基因频率(PVAF)值;
[0020]-获得第一亲本的基因型信息;
[0021 ]-基于第一亲本的基因型信息将连续PVAF值分类在对应于第一亲本的类别中;
[0022] -对所述分类的PVAF值进行分段;W及
[0023] -提供分段的PVAF值W指示受试者的遗传物质中的遗传异常和/或受试者的遗传 物质的遗传。
[0024] 在一个相关的方面,本发明提供用于分析受试者的遗传物质的方法,所述方法包 括:
[0025] -获得受试者的遗传物质的连续多态性变体等位基因频率(PVAF)值;
[00%]-获得第一亲本和第二亲本的基因型信息;
[0027]-基于第一亲本和第二亲本的基因型信息将连续PVAF值分类在对应于第一亲本 的类别中;
[00%]-对所述分类的PVAF值进行分段;W及
[0029] -提供分段的PVAF值W指示受试者的遗传物质中的遗传异常和/或受试者的遗传 物质的遗传。
[0030] 在第二方面,本发明提供一种方法,其包括:
[0031] -获得受试者的遗传物质的连续多态性变体等位基因频率(PVAF)值;
[0032] -获得第一亲本的定相的基因型信息和第二亲本的定相的或未定相的基因型信 息;
[0033] -基于第一亲本和第二亲本的基因型信息将连续PVAF值分类在对应于第一亲本 的类别中;
[0034] -将来自对应于第一亲本的类别的连续PVAF值亚分类成子类别;
[0035] -将所述亚分类的PVAF值进行分段;W及
[0036] -提供分段的PVAF值W指示受试者的遗传物质中的遗传异常和/或受试者的遗传 物质的遗传。
[0037] 在第=方面,本发明提供一种方法,其包括:
[0038] -获得受试者的遗传物质的连续多态性变体等位基因频率(PVAF)值;
[0039] -获得第一亲本的定相的基因型信息和第二亲本的定相的基因型信息;
[0040] -基于第一亲本和第二亲本的基因型信息将连续PVAF值分类成对应于第一亲本 的第一类别和对应于第二亲本的第二类别;
[0041 ]-将第一类别和第二类别中的连续PVAF值亚分类成子类别;
[0042] -将所述亚分类的PVAF值进行分段;W及
[0043] -提供分段的PVAF值W指示受试者的遗传物质中的遗传异常和/或受试者的遗传 物质的遗传。
[0044] 在其它方面,本发明提供用于对样品的遗传物质进行单体型分型和/或拷贝数分 型的方法,所述方法包括:
[0045] -测定样品的遗传物质的连续多态性变体等位基因频率(PVAF)值;
[0046] -使用近亲的基因型或样品本身的基因型提供定相的亲本多态性变体(PV)基因 型;
[0047] -使用所提供的(定相的或未定相的)亲本PV基因型将所测定的样品的遗传物质 的连续PVAF值进行分类,得到分类的PVAF值;
[0048] -使用所提供的亲本的定相的PV基因型将样品的所述分类的PVAF值亚分类成子 类别;
[0049] -将所述亚分类的PVAF值进行分段,得到单体型分型的/定相的和分段的PVAF模 式。
[0050] 在本发明的优选实施方案中,样品的遗传物质可W来源于单细胞、少量细胞、大量 细胞或无细胞DNA。已使用包含受试者的遗传物质的样品测定了连续PVAF值。在特定实施方 案中,所述样品包含所述受试者的少量遗传物质,诸如包含所述受试者的仅一个或少量细 胞的样品,或获自孕育着所述受试者的母亲的血浆样品。在另一个特定实施方案中,已使用 (特别是全基因组)阵列或测序技术(尤其是如本文所述的阵列和测序技术)测定连续PVAF 值。在又一个特定实施方案中,已使用全基因组扩增的(经历WGA的)样品测定连续PVAF值。
[0051] 在本发明的优选实施方案中,多态性变体可W是任何遗传变体,其在与参考序列 相比较时具有至少一种替代形式。在特定实施方案中,所述多态性变体是多核巧酸多态性 (SNP)。在其它实施方案中,所述PVAF值是B等位基因频率(BAF)。
[0052] 在本发明的优选实施方案中,方法可W进一步包括根据单体型分型的/定相的和 分段的PVAF值(在本文中也被称为(分段的)PVAF模式)标准化遗传物质的DNA量值(诸如读 出计数或Io曲值)。特别地,方法包括获得DNA量值并基于所述分段的PVAF值标准化所述DNA 量值。优选地,DNA量值为10曲值或读出计数值。
[0053] 在本发明的优选实施方案中,提供所述定相的亲本PV基因型包括:
[0054] (a)基于(近)亲属(即在两个同线基因座上杂合的亲本中,其中第一基因座上的等 位基因的指定处于与第二基因座上的等位基因相同的染色体上)的基因型对亲本PV基因型 进行定相。
[0055] 在特定实施方案中,本发明的方法进一步包括在分段之前针对中轴线反射获得的 PVAF值。在进一步的优选实施方案中,本发明的方法包括在分段之前在对应于特定的定相 亲本基因型的位置上针对中轴线反射获得的PVAF值。反射PVAF值提供的益处为它改善分段 (更多的PVAF值存在于用于分段的特定PVAF值的周围)。此外,反射PVAF值帮助从连续PVAF 图提取单体型信息。
[0056] 优选地,在对应于第一亲本的类别中反射PVAF值包括:
[0057]-测定其中所述第一亲本具有特定的定相基因型(例如,AB或BA)的基因座;W及 [0化引一将所测定的基因座上的PVAF值围绕中轴线反射。
[0059] 特别地,反射PVAF值在两个子类别中均进行。在另一个优选实施方案中,方法还包 括在对应于第二亲本的类别中反射PVAF值。应当注意的是,测定其中应当在第一亲本和第 二亲本类别中反射PVAF值的基因座不必需地针对同样的特定的定相基因型进行。例如,在 父本类别中,可W针对其中父本单体型是AB的那些基因座反射PVAF值;而在母本类别中,可 W针对其中母本单体型是BA的那些基因座反射PVAF值。然而,在特定的亲本类别中,优选在 其中所述亲本具有特定的定相基因型(例如,针对双等位基因标记物的任一 AB)的基因座上 进行PVAF值的反射。
[0060] 在本发明的优选实施方案中,方法包括:
[0061 ] (a)将样品的遗传物质的所测定的连续PVAF值分类在亲本PVAF类别中
[0062] (b)将(a)的所述亲本PVAF类别进行亚分类并根据亲本定相的PV基因型的特定组 合反射所测定的PVAF值。
[0063] 在本发明的优选实施方案中,单体型分型的/定相的和分段的PVAF模式提供独立 的单体型域检出。
[0064] 在本发明的优选实施方案中,将亲本得分和所述单体型分型的/定相的和分段的 PVAF模式用于标准化DNA量值(在本文中也被称为(相对)拷贝数值)(例如10排)和测定样品 的遗传物质的二体染色体。
[0065] 在本发明的优选实施方案中,方法还可包括将所述标准化的(相对)拷贝数值(例 如Io曲)或具有单体型分型的/定相的和分段的PVAF模式的拷贝数图谱进行整合,W掲示样 品的遗传物质中不同异常的不同标志(S ignature)。
[0066] 在特定实施方案中,将连续PVAF值分类在对应于第一亲本的类别中包括:
[0067] -使用第一亲本和任选第二亲本的基因型信息测定针对第一亲本提供信息的基 因座;W及
[0068] -将针对第一亲本提供信息的所述基因座上的受试者的遗传物质的连续PVAF值 分类在对应于第一亲本的类别中。
[0069] 在另一个特定实施方案中,将来自对应于第一亲本的类别的连续PVAF值进行亚分 类包括:
[0070] -测定具有第一亲本和第二亲本的特定基因型组合的基因座;
[0071] -将具有第一亲本和第二亲本的特定基因型组合的所述基因座上的受试者的遗 传物质的连续PVAF值进行亚分类。
[0072] 在本发明的优选实施方案中,使用分段法进行分段。本领域技术人员知晓适用于 将分类(亚分类)的PVAF值进行分段的分段法,诸如包括K均值算法的聚类分段法。在
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1