用于单基因疾病的基于通用单倍型的非侵入性产前测试的制作方法

文档序号:18123666发布日期:2019-07-10 09:47阅读:1047来源:国知局
用于单基因疾病的基于通用单倍型的非侵入性产前测试的制作方法

本专利申请要求于2016年11月18日提交的名称为“universalhaplotype-basednoninvasiveprenataltestingforsinglegenediseases”的美国临时申请号62/424,088的优先权且是其非临时申请,所述美国临时申请的全部内容以引用的方式并入本文用于所有目的。



背景技术:

母系血浆中无细胞胎儿dna的存在(loym等人,lancet1997;350:485-7)提供了用于产前诊断的非侵入性方法。用于筛选常见胎儿染色体非整倍性的母系血浆dna分析已以高精确度得到实现(chiurwetal.bmj2011;342:c7401;mcculloughrm等人,plosone2014;9:e109173),导致执行的侵入性产前诊断程序数目中的显著减少。

除了胎儿非整倍性之外,单基因疾病是一些孕妇考虑产前诊断的另一个原因。因为胎儿dna存在于母系dna的背景中(lunfm等人,clinchem2008;54:1664-72),所以用于单基因疾病遗传的非侵入性确定的早期工作集中于可以与母系基因组区分开的父系传递的胎儿特异性序列或突变的分析。例如,母系血浆中染色体y序列的检测允许准确的胎儿性别确定,并且因此充当评估胎儿患有性连锁病症的风险的手段(loym等人,amjhumgenet1998;62:768-75;costajm,benachia,gautiere,nengljmed2002;346:1502;bustamante-aragonesa等人,haemophilia2008;14:593-8)。母系血浆中父系遗传的突变型等位基因的存在或不存在已应用于父系遗传的常染色体显性遗传疾病的非侵入性评价或排除受常染色体隐性遗传疾病影响的胎儿(loym等人prenataldiagnosisoffetalrhdstatusbymolecularanalysisofmaternalplasma.nengljmed1998;339:1734-8;saitoh等人,lancet2000;356:1170;chiurw等人,lancet2002;360:998-1000)。

然而,即使使用过度的测序深度,某些父系遗传的突变型等位基因的检测也可能是困难的,例如基因缺失、倒位、重复元件中的突变和同源基因。此外,可能难以检测母系遗传的突变,特别是如果无法从父亲获得遗传信息的话。



技术实现要素:

实施例可以提供用于测量胎儿的基因组特性的有效且准确的技术,而无需直接从胎儿侵入性地获取样品,否则这将对胎儿带来显著风险。相反,实施例可以分析从母亲获得的胎儿和母系dna片段的无细胞混合物(例如,血浆、血清、尿等)。分析可以以特定方式执行,以确定可以包括突变的亲代单倍型的遗传。此类技术对于确定胎儿是否已遗传了来自亲代的突变可是有价值的,其中当胎儿已遗传了突变时可以执行遗传治疗。

一些实施例可以有利地减少待分析的样品数目和/或在无细胞混合物中分析的基因座数目。例如,可以避免来自父亲的样品的测试以获得父系遗传信息(例如,以解决其中此类信息无法获得的情况),同时仍允许在给定的染色体区域中确定来自母亲的母系单倍型的遗传。在一些实施方式中,为了提供在没有父系遗传信息的情况下执行此类测量的技术能力,可以在无细胞混合物中测量每种母系单倍型的特性(例如,在染色体区域中的基因座处具有不同等位基因的序列读数的计数或大小)。可以将两种母系单倍型的性质值之间的分离值(例如,差或比率)与阈值进行比较,以确定哪种单倍型被遗传。由于可能无法获得父系等位基因的测量,实施例可以测量胎儿是纯合的一些基因座和胎儿是杂合的一些基因座处的特性,但在用于确定母系单倍型的遗传的阈值选择中解释胎儿是杂合的此类基因座。

一些实施例可以通过避免需要三个样品(例如,父母和先前的孩子)以执行亲代的单倍型分析来有利地减少待分析的样品数目。为此,可以对细胞母系样品中的dna分子进行测序以获得来自染色体区域中的两个染色体拷贝的长序列读数,所述dna分子与染色体区域重叠且至少1kb长(或者5kb、10kb或20kb)。此类长读数可以用于构建母系和/或父系单倍型。为了减少在无细胞混合物中分析的基因座数目,可以鉴定亲代单倍型中的突变,并且可以选择在突变附近且具有某些特征(例如,该亲代是杂合的)的基因座。例如,对于母系单倍型的遗传,特征可以包括母亲是杂合的,但是父系等位基因在基因座处是已知的。作为父系单倍型遗传的例子,除父亲在所选基因座处是杂合的之外,特征还可以包括母亲对于在所选基因座的第一子集处的第一父系单倍型的第一等位基因是纯合的,并且母亲对于在所选基因座的第二子集处的第二父系单倍型的第二等位基因是纯合的。

下文详细描述了本发明的这些和其它实施例。例如,其它实施例涉及与本文描述的方法相关的系统、装置和计算机可读介质。

参考下述详细描述和附图,可以获得对本发明实施例的本质和优点的更佳理解。

附图说明

图1是示出了根据本发明的实施例,用于间接检测从父母遗传的胎儿基因组中的突变的方法的高级流程图。

图2显示了根据本发明的实施例,使用连锁读取测序(linked-readsequencing)的单倍型定相技术200的示意图。

图3是示出了根据本发明的实施例,使用从胎儿的怀孕母亲获得的生物样品,用于检测胎儿从父亲遗传的胎儿基因组中的突变的方法300的流程图。

图4是示出了根据本发明的实施例,使用从怀孕母亲获得的生物样品,用于检测胎儿从怀孕母亲遗传的胎儿基因组中的突变的方法400的流程图。

图5显示了所研究病例的突变状态的表500。

图6显示了根据本发明的实施例,用10xtm系统处理的亲代基因组dna的测序数据表。

图7是显示了根据本发明的实施例的母系血浆dna的靶向测序数据的概述的表700。

图8显示了根据本发明的实施例,关于家族a-m的单倍型定相数据的表800。

图9显示了根据本发明的实施例,关于家族a至f中的胎儿单倍型分析。

图10a显示了家族a中关于母亲的与突变位点(30kb缺失)的单倍型连锁。图10b显示了家族a中关于父亲的与突变位点的单倍型连锁。

图11是显示了根据本发明的实施例,用于母系血浆分析的信息性snp的表1100。

图12显示了根据本发明的实施例,在家族g至m中的胎儿单倍型分析。

图13a-13d示出了由明显较长的母系dna分子的存在推断的单倍型分配。图13a显示了参考chrx的总深度的长分子的标准化覆盖度。图13b-13d显示了基因重排区域内部(图13c)或外部(图13b或13d)的dna分子长度的箱线图。

图14是根据本发明的实施例,无父系的尺寸rhso原理的图示。

图15a-15c显示了根据本发明的实施例,在hapi和hapii之间的代表性尺寸概况。

图16显示了根据本发明的实施例的prhso和prhdo性能的总结。

图17显示了根据本发明的实施例,在基于尺寸和计数的分析中反映的hapi和hapii之间的不平衡程度的关联性。

图18a和18b显示了根据本发明的实施例,以95%的灵敏度实现实现分类所需的血浆dna分子的最小数目的因素。

图19显示了根据本发明的实施例,当样品中的胎儿dna级分从5%、10%、15%或20%倍增时,单倍型方框分类所需的血浆dna分子数目中的倍数变化。

图20是显示了根据本发明的实施例,关于真实病例的prhso和prhdo分析中所需的理论分子数目的表2000。

图21显示了根据本发明的实施例,使用基于滑动窗口的prhdo的重组鉴定。

图22显示了根据本发明的实施例,关于易错区域的prhso和prhdo结果。

图23是使用从怀孕母亲获得的生物样品,确定胎儿从怀孕母亲遗传的胎儿基因组的一部分的方法2300的流程图。

图24示出了根据本发明的实施例的测量系统。

图25显示了可与系统一起使用的示例计算机系统的方框图。

术语

“生物样品”可以指从受试者(例如人,例如孕妇、患有癌症的个人、或怀疑患有癌症的个人、器官移植受体或怀疑患有涉及器官(例如,心肌梗塞中的心脏、或中风中的脑、或贫血中的造血系统)的疾病过程的受试者获取的任何样品,并且含有一种或多种目的核酸分子。生物样品可以是体液,例如血液、血浆、血清、尿、阴道液、来自(如睾丸)积水的流体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗、泪、痰、支气管肺泡灌洗液、来自乳头的排出液、来自身体不同部位(例如甲状腺、乳房)的吸出液等。也可以使用粪便样品。在各种实施例中,生物样品中的大部分dna已就无细胞dna进行富集(例如,经由离心方案获得的血浆样品可以是无细胞的,例如,大于50%、60%、70%、80%、90%、95%或99%的dna可以是无细胞的。离心方案可以包括例如3,000gx10分钟,获得流体部分,并且在例如30,000g下再离心另外10分钟,以去除残留的细胞。

术语胎儿dna的分数浓度可与术语胎儿dna比例和胎儿dna分数互换使用,并且指存在于源自胎儿的母系血浆或血清样品中的dna分子的比例(loymd等人amjhumgenet1998;62:768-775;lunfmf等人clinchem2008;54:1664-1672)。

“序列读数”指从核酸分子的任何部分或全部测序的核苷酸串。例如,序列读数可以是从核酸片段测序的短核苷酸串(例如,20-150)、在核酸片段的一个末端或两个末端处的短核苷酸串、或者存在于生物样品中的整个核酸片段的测序(测序两个末端的亚型)。测序片段的两个末端可以在比对中提供更高的准确度,并且还提供片段的长度。序列读数可以以各种方式获得,例如使用测序技术或使用探针,例如在杂交阵列或捕获探针中,或扩增技术,例如聚合酶链反应(pcr)或使用单一引物的线性扩增或等温扩增。

“基因座(locus)”或其复数形式“基因座(loci)”可以指任何长度的核苷酸(或碱基对)的位置或地址,其具有跨越基因组的变异。

如本文使用的,术语“单倍型”指在多重基因座处的等位基因的组合,其在相同染色体或染色体区域上一起传递。单倍型可以指少至一对基因座或染色体区域,或整个染色体。术语“等位基因”指在相同物理基因组基因座处的替代dna序列,其可能导致或不导致不同的表型性状。在任何特定的二倍体生物中,其中每个染色体具有两个拷贝(除了男性人类受试者中的性染色体之外),每个基因的基因型包括存在于该基因座处的一对等位基因,其在纯合子中是相同的并且在杂合子中是不同的。生物群体或物种通常包括在各个个体中的每个基因座处的多重等位基因。其中多于一个等位基因在群体中发现的基因组基因座被称为多态性位点。这个基因座处的等位基因变异可作为群体中存在的等位基因数目(即,多态性程度)或杂合子的比例(即,杂合率)来测量。如本文使用的,术语“多态性”指人类基因组中的任何个体间变异,而不管其频率如何。此类变异的例子包括但不限于单核苷酸多态性,简单串联重复多态性、插入-缺失多态性、突变(其可能是引起疾病的)和拷贝数变异。

受试者的“直接单倍型分析”指不需要来自另一个受试者的遗传信息的单倍型分析。因此,可以仅使用受试者的样品执行单倍型分析。相反,间接单倍型分析使用另一个受试者的遗传信息,例如父母和孩子的三个一组,以确定亲代的单倍型。直接单倍型分析的例子包括单分子测序、连锁读取测序和单分子长片段pcr,随后为杂交探针、微阵列、质谱法及其它的等位基因检测。

术语“尺寸概况”一般涉及生物样品中dna片段的大小。尺寸概况可以是直方图,其提供以各种大小的dna片段量的分布。各种统计参数(也称为尺寸参数或仅参数)可以用于将一种尺寸概况与另一种尺寸概况区分开。一个参数是特定尺寸或尺寸范围的dna片段相对于所有dna片段或相对于另一个尺寸或范围的dna片段的百分比。

术语“尺寸分布”指任何一个值或值的集合,其表示对应于特定组(例如来自特定单倍型或来自特定染色体区域的片段)的分子大小的长度、质量、重量或其它度量)。各种实施例可以使用各种尺寸分布。在一些实施例中,尺寸分布涉及一条染色体的片段相对于其它染色体的片段的大小(例如,均值、中值或平均值)排序。在其它实施例中,尺寸分布可以涉及染色体片段的实际大小的统计值。在一个实施例中,统计值可以包括染色体片段的任何均值、平均值或中值大小。在另一个实施方式中,统计值可以包括低于截止值的片段的总长度,其可以除以所有片段的总长度,或者至少低于更大截止值的片段。

“分离值”对应于涉及两个值的差或比率。分离值可以是简单的差或比率。作为示例,x/y的直接比率以及x/(x+y)是分离值。分离值可以包括其它因子,例如乘法因子。作为其它示例,可以使用值的函数的差或比率,例如,两个值的自然对数(ln)的差或比率。分离值可以包括差和比率。

一组dna片段的“特性”可以指定量和共同特性,例如与dna片段组的计数或尺寸值有关。作为示例,特性的值可以是组中的片段数目或组中的片段的尺寸分布的统计值。dna片段组可以属于相同单倍型。

如本文使用的,术语“分类”指与样品的特定特性相关的任何数目或其它字符。例如,“+”符号(或词语“正”)可以表示样品被分类为具有缺失或扩增。分类可以是二元的(例如,正或负)或具有更多的分类水平(例如,从1到10或0到1的标度)。术语“截止”和“阈值”指在操作中使用的预定数目。例如,截止尺寸可以指高于其片段被排除的大小。阈值可以是高于其或低于其应用特定分类的值。这些术语中的任一个都可以用于这些上下文的任一个中。

具体实施方式

无细胞胎儿dna的发现(lo,y.m.d.等人,lancet350,485-487(1997))及其在非侵入性产前测试(nipt)中的各种应用已彻底改变了产前护理。可以实现以非侵入性方式的胎儿染色体非整倍性的检测(chiu,r.w.k.等人,procnatlacadsci105,20458-20463(2008);fan,h.c.等人,procnatlacadsci105,16266-16271,(2008);chiurw等人,bmj2011;342:c7401;yu,s.c.等人,plosone8,e60968(2013);straver,r.等人,wisecondornucleicacidsres42,e31(2014))、胎儿微缺失(yu,s.c.y.等人,clinicalchemistry,doi:10.1373/clinchem.2016.254813(2016))、单基因疾病((lam,k.w.等人,clinicalchemistry,doi:clinchem.2012.189589[pii]10.1373/clinchem.2012.189589(2012);newmi等人,jclinendocrinolmetab2014;99:e1022-30)和胎儿新生突变(chan,k.c.等人,procnatlacadsciusa113,e8159-e8168,(2016))。特别地,常染色体非整倍体的nipt已在90多个国家迅速转化成临床实践,并且被全世界数百万孕妇使用(allyse,m.等人,intjwomenshealth7,113-126(2015);chandrasekharan,s.等人,scitranslmed6,231fs215(2014))。

由于全基因组单倍型分析技术在过去并不成熟,因此单倍型信息源自分析相关家族成员例如先证者的样品(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。然而,这意味着对于大多数实际目的,该方法可能仅适于其中来自先前受影响成员的dna可用的家族。通过使用直接单倍型分析方法,例如连锁读取测序,可以使用rhdo方法用于其中先证者样品不可用的家族中的非侵入性产前测试。一些实施例已应用了连锁-读取测序技术,以从亲代dna直接生成单倍型分辨的基因组序列。

通过使用来自亲代的单倍型信息选择特定基因座,并且从在所选基因座处的母系血浆dna确定序列读数的共同特性,用亲代单倍型信息解释母系血浆dna测序数据,以推导出胎儿的突变状态。该方案用于许多常染色体和x连锁疾病的非侵入性产前评价,显示这种简化的方法使单基因疾病遗传的非侵入性检测成为可能,而无需设计定制测定来评价在逐个病例基础上的突变(lenchn等人,prenatdiagn2013;33:555-62;verhoefti等人,prenatdiagn2016;36:636-42),并且仅需要使用来自亲代的标本。

此外,已开发了一些实施例,其不需要任何父系dna信息来确定母系遗传。可以从得自血浆的序列读数确定两种单倍型的共同特性,并且可以将共同特性值之间的分离值与分别对应于两种单倍型的遗传的不同阈值进行比较。以这种方式,由于易于对需要的所需测量的约束,检测母系单倍型的遗传以及母系突变的能力可以更普遍适用。

i.胎儿基因组中的遗传突变的检测

为了评价母系传递的突变的胎儿遗传,已开发了方法来比较母系血浆中的突变型和野生型等位基因或单倍型的相对量。相对突变剂量方法直接测量携带突变型或野生型等位基因的母系血浆中的dna分子数目。对于其为突变携带者的母亲,母系血浆中的两个等位基因之间的相等量或偏斜量将分别提供胎儿是杂合还是纯合的指示(lunfm等人,procnatlacadsci2008;105:19920-5;tsuinb等人,blood2011;117:3684-91)。

另一方面,相对单倍型剂量(rhdo)方法允许通过测量与母系血浆dna中的突变型等位基因和野生型等位基因连锁的单倍型上的单核苷酸多态性(snp)等位基因的相对计数来推导出胎儿基因型(loym等人,scitranslmed2010;2:61ra91)。该方法允许间接测量更难以通过直接突变特异性测定来检测的突变,例如基因缺失、倒位、重复元件和同源基因中的突变(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。rhdo方法可以应用于全基因组(loym等人,scitranslmed2010;2:61ra91)或指定特定基因座分析的靶向方式(newmi等人,jclinendocrinolmetab2014;99:e1022-30;lamkw等人,clinchem2012;58:1467-75)。

在rhdo分析中,需要母系单倍型信息。然而,先前研究中使用的单倍型定相策略是复杂且费力的。确定单倍型信息的方法包括推论统计分析和直接实验技术。通过对三个一组(包括父亲、母亲和家族中受影响的先证者)的基因组dna进行基因分型,可以鉴定与突变位点连锁的snp,且因此可以推导出单倍型(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。这种方法限制了将测试应用于具有其dna可用的先前受影响家族成员的家族。可替代地,单倍型可以通过基于群体的推断(zeevida等人,jclininvest2015;125:3757-65)来构建,或者通过以下方法从个体的基因组dna重构:克隆库稀释测序(kitzmanjo等人,natbiotechnol2011;29:59-63)、保留邻近性的转座测序(aminis等人,natgenet2014;46:1343-9)和haploseq(selvarajs,jrd,bansalv,renb.,natbiotechnol2013;31:1111-8)。然而,这些技术需要复杂的实验方案或尚未广泛商业可用的试剂(snydermw,adeya,kitzmanjo,shendurej.,natrevgenet2015;16:344-58)。

a.使用直接单倍型分析用于检测遗传突变的概述

图1是示出了根据本发明的实施例,用于间接检测从亲代遗传的胎儿基因组中的突变的方法100的高级流程图。突变可以来自母亲或父亲。方法100可以使用来自亲代的样品用于单倍型分析,然后执行来自母亲的无细胞样品的测序。

在方框110处,使用来自亲代的样品进行亲代基因组的直接单倍型分析。例如,直接单倍型分析可以包括测序来自细胞样品的dna,例如血液样品的血沉棕黄层中的白血细胞。直接单倍型分析允许减少待分析的样品数目,因为不需要来自孩子(即,其除基因组未知的胎儿外)的遗传信息。直接单倍型分析的例子包括单分子测序和连锁读取测序。

作为直接单倍型分析的部分,可以测序长dna分子(例如1kb、5kb、10kb、20kb、50kb、100kb或更多)。此类长dna分子可以由细胞dna的片段化过程产生,其中所述片段化过程提供了超过1kb长的显著部分的dna分子。可以将与长dna分子对应的长序列读数与参考基因组比对,以鉴定与相同染色体区域重叠的读数。在杂合基因座处具有相同等位基因的长读数可以用于重构单倍型。

在一些实施例中,直接单倍型定相方法使用基于微流体的连锁读取测序技术变得可用(zhenggx等人,natbiotechnol2016;34:303-11)。例如,可以将长输入dna分子分隔到液滴内,并且转化成短的带条形码片段用于测序。相同的条形码用于鉴定源于相同液滴的短片段,其中位于彼此附近(例如,在参考基因组中)的此类短片段(读数)可以被鉴定为来自相同的长dna分子。在一些实施方式中,当组中的每个短读数与至少一个其它短读数重叠时,一组短片段可以视为彼此接近。在其它实施方式中,短读数可能仅需要在另一个短读数的指定距离内,例如,在10、50、100、200、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000.70,000、80,000、90,000或100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000个碱基内。

当样品中dna的量相对稀释(例如,比样品中的基因组等价物跨越更多液滴散布)时,由两种单倍型不可能存在两个长片段。因此,可以作出附近的短读数来自相同的长dna分子的假设。因此,短读数的重构可以提供长距离单倍型信息。

在方框120处,选择杂合基因座的集合用于检测所鉴定突变的遗传。亲代在这些基因座处是杂合的,使得可以通过分析来自无细胞母系样品的读数来确定哪种单倍型被遗传。可以选择所鉴定突变附近的基因座,因为突变可能在相同的单倍型上遗传。在各种实施例中,可以选择在突变的100bp、1kb、10kb、100kb、1mb或5mb内的基因座。

可以在亲代的特定染色体区域中鉴定突变。可以全基因组或对于特定染色体区域执行直接单倍型分析。当执行全基因组时,可以选择在特定染色体区域中的单倍型。如下文更详细地描述的,可以分阶段执行基因座的集合的选择,例如选择用于围绕已知疾病的靶向分析的snp,然后使用来自具有特定特征的那些snp的某个子集的数据。以这种方式,跨越患者的相同方案和试剂用于检测相同突变的遗传。

在一些实施例中,进一步的标准可以用于选择基因座的集合。例如,当已知另一个亲代的遗传信息时,可以选择其中另一个亲代是纯合的基因座。以这种方式,可以知道从另一个亲代遗传的等位基因。此外,另一个亲代对于相同单倍型的所有等位基因可以是纯合的,例如在基因座的集合处的第一单倍型的第一等位基因。在其它实施例中,另一个亲代的此类遗传信息不可用,且因此不使用。在此类情况下,可以修改用于确定遗传的阈值的选择,如稍后节段中所述。

在方框130处,测定在两个亲代单倍型处的无细胞母系样品中两组dna片段的特性值。无细胞母系样品包括胎儿和母系dna片段,并且特性可以反映遗传的单倍型。例如,可以使母系血浆dna经受测序,并且可以鉴定位于疾病基因座上游和下游的snp等位基因。可以推导出每个snp等位基因的单倍型起源。可以靶向序列,这可以用对于杂合基因座的集合特异性的捕获探针或引物来完成。此类靶向测序可以与仅与杂合基因座比对组合完成,从而提供更有效的测序和计算比对。

可以通过鉴定具有对应于在杂合基因座的集合处的两个亲代单倍型的不同等位基因的读数来确定特性。例如,可以鉴定与参考基因组中的杂合基因座的集合比对的序列读数,并且分成两组:第一组具有对应于第一亲代单倍型的第一等位基因之一,并且第二组具有对应于第二亲代单倍型的第二等位基因之一。为了效率,可以仅对杂合基因座的集合执行序列读数的比对,并且可以弃去不与杂合基因座之一比对的序列读数。

对应于亲代单倍型的一组dna片段的特性的一个例子包括该组中的分子数目。该特性的值可以是标准化值,例如,与单倍型比对的dna片段的计数除以样品的dna片段的总数目或参考区域(例如染色体)的dna片段的数目。

对应于亲代单倍型的一组dna片段的特性的另一个例子包括该组中dna片段的尺寸分布的统计值。示例统计值包括该组中dna片段的均值、平均值或中值大小,以及一个尺寸范围(例如,低于尺寸截止值或以特定尺寸,例如150bp)中的dna片段的总长度或数目,其可以除以第二范围中的dna片段(例如,低于较大尺寸截止值的所有dna片段或dna片段)的总长度或数目。

在方框140处,通过比较两种单倍型组的特性的值来确定突变是否被遗传。如果具有所鉴定突变的单倍型被遗传,则可以确定突变被遗传。例如,可以在两组的两个值之间确定分离值。在一些实施例中,可以确定两组中两个dna片段数目之间的差或比率,这可以对于相对单倍型剂量(rhdo)完成。如果差(例如,hapi–hapii)超过阈值,则可以将第一亲代单倍型鉴定为被遗传。遗传的特定阈值和分类可以取决于是否使用来自另一个亲代的信息,例如,另一个亲代对于在基因座的集合处的哪个等位基因集合是否是纯合的。相应地,可以执行源自两个父系亲代单倍型的血浆dna分子丰度之间的统计学比较以确定遗传。

在其它实施例中,可以确定两组中dna片段的尺寸分布的两个统计值之间的分离值(例如,差或比率),这可以对于基于相对单倍型的尺寸缩短分析(rhso)完成。本文提供了进一步的细节。

当对父母双方执行单倍型分析时,可以确定关于母亲和父亲的遗传单倍型。然后可以基于两个统计结果的集合推导出胎儿基因型。

b.直接单倍型分析

在一些实施例中,可以使用对从孕妇及其男性伴侣获得的血细胞dna的基于微流体的连锁读取测序(zhenggx等人,natbiotechnol2016;34:303-11)来确定亲代单倍型。可以使用来自任一亲代的基因组dna的其它来源,例如来自口腔涂片、口腔拭子、毛囊细胞等的dna。亲代dna的连锁读取测序可以以全基因组方式执行,或可以靶向特定疾病相关基因座。也可以使用除连锁读取测序外的直接单倍型分析方法,例如长dna分子的单分子测序。可替代地,长dna片段的单个分子的长片段pcr(arbeithuberb等人,methodsmolbiol2017;1551:3-22),并且随后为例如通过杂交探针、微阵列、质谱法的手段,以确定存在于dna分子上的等位基因也产生直接单倍型。

图2显示了根据本发明的实施例,使用连锁读取测序的单倍型定相技术200的示意图。可以对任一亲代执行技术200。作为示例,从亲代血沉棕黄层测序数据中,每个序列读数的条形码信息用于将短序列读数连接成原始长输入分子。伴随充分稀释,在相同的分隔中,例如在相同的孔、相同的凝胶珠或任何其它反应容器中,具有覆盖具有相反单倍型的基因组基因座的两个不同长dna分子的机会非常低。

长dna分子210可以得自组织样品,例如亲代的血沉棕黄层。在各种实施例中,细胞核中的完整细胞dna可以经由超声处理或仅通过移液来片段化,以获得长dna分子210。取决于获得此类dna片段的方法,可以产生一些长片段和一些较短的dna片段。在此类情况下,例如通过各种过滤技术,例如电泳,可以选择长dna分子210。在各种实施方式中,选择1kb、5kb、10kb或20kb或更多的片段。

在215处,将长dna分子210分隔到凝胶珠内。一定数目的高分子量(hmw)基因组dna的基因组当量可以跨越更多的液滴分隔分布。考虑到珠的数目和长dna分子210的数目,每粒珠中的长dna分子的数目将足够低,使得来自任何一个基因组区域的不多于一个长dna分子将在相同珠中表示。每粒珠可能含有多于一个长dna分子,但相同珠中的长dna分子无一来自相同基因组基因座。例如,每粒珠可以具有1%的基因组当量。

凝胶珠可以包括带条形码的寡核苷酸。具有给定凝胶珠的特定条形码的寡核苷酸可以附着到该珠中的dna,用于后续鉴定目的。

在220处,将长dna分子210片段化,并且较短的dna片段用珠中的带条形码的寡核苷酸加上标签。dna片段化和条形码添加可以作为一个步骤执行,例如通过标签化(tagmentation)(zhang等人,natbiotechnol2017;35:852–857)。在一些实施方式中,可以通过使dna经受随机引发和聚合酶扩增来执行片段化。此类扩增将导致在随机位置处的正向和反向引发,并且因此扩增子将具有各种大小,例如几百到几千碱基。所得到的扩增子可以是带条形码的或随机引物含有条形码。在一些实施方式中,长dna分子210可以通过10xtm带条形码引物进行扩增。这可以通过称为多重置换扩增(mda)的过程或使用具有条形码序列的随机引物的其它扩增技术来完成。

在225处,对加上条形码标签的短dna分子进行测序。可以经由各种技术执行测序,例如流过测序池并且使用连接到加上条形码标签的短dna分子末端的衔接子执行桥式扩增。可以通过半导体测序,单分子测序或可以确定短dna片的碱基序列的任何技术执行测序。检测系统可以检测对应于不同碱基的信号(例如,荧光信号的成像或电信号的捕获),从而获得序列读数。序列读数可以包括短dna分子的序列和带条形码寡核苷酸的序列。

在一些实施例中,在随机引物介导的条形码化过程之后,dna分子可能仍相对较长。在此类情况下,可以执行剪切dna。但是,可以省略剪切,例如,如果多重置换扩增生成具有条形码信息的足够短的片段。

在230处,鉴定共享相同条形码(例如,来自相同凝胶珠)的短序列读数。具有相同条形码的短序列读数可以彼此进行比较,例如通过与参考序列比对,所述参考序列可以是整个参考基因组或待靶向的区域。如果具有相同条形码的短序列读数集合彼此接近(例如,重叠或在指定距离内),则可以将该读数集合鉴定为属于相同的长dna分子。可以组合附近读数的集合,以重构关于给定区域的长dna分子的序列。在给定的凝胶珠中可能存在多重长读数。彼此重叠(例如,如通过与参考比对确定的),并且在重叠区域中具有相同序列的重构的长读数(跨越凝胶珠)可以连接在一起作为扩展的单倍型。相应地,通过最初连接短读数测序数据,并且随后连接长dna的重叠组装段以提供长距离遗传信息,来实现基因组dna的单倍型定相。

在235处,鉴定与突变位点237重叠的单倍型块。单倍型块可以对应于染色体区域(例如,如可以通过杂合基因座的集合限定的)。如果亲代基因组中存在多重突变位点,则可以鉴定多重单倍型块。

作为示例,可以在短序列读数中鉴定在特定位置处的突变型等位基因(例如,在与参考比对后)。作为单倍型定相的部分,可以将携带突变型等位基因的读数上共享相同条形码的短序列读数集合连锁(突变型连锁的条形码读数),并且定相至相同的单倍型(称为hapi或突变型连锁的单倍型)。具有突变型等位基因的读数可能需要在附近读数集合中,且因此假定为相同长dna分子的部分。

类似地,将野生型连锁的条形码读数定相至相反的单倍型。相应地,与携带野生型等位基因的读数共享相同条形码的读数可以定相至相反的单倍型(称为hapii或野生型连锁的单倍型)。

在240a处,显示了一组突变型连锁的条形码读数。这些长序列读数中的每一个来自不同的凝胶珠,并且圆圈可以对应于在杂合基因座处的等位基因。总的来说,在这种情况下,这些等位基因可以视为第一亲代单倍型—hapi的第一等位基因或突变型连锁的单倍型。

在240b处,显示了一组野生型连锁的条形码读数。这些长序列读数中的每一个来自不同的凝胶珠,并且圆圈可以对应于在杂合基因座处的等位基因。总的来说,在这种情况下,这些等位基因可以视为第二亲代单倍型—hapii的第二等位基因或野生型连锁的单倍型。

在250处,将在相同单倍型上与突变型和野生型等位基因连锁的snp鉴定为基因座的集合,例如作为方法100的方框120的部分。基因座的集合可以用于后续母系血浆dna分析(例如,rhdo或rhso)。在各种实施例中,snp可以在突变的100bp、1kb、10kb、100kb、1mb或5mb内。突变周围的基因座的集合的窗口可以是不对称的,例如如果突变接近单倍型块的末端,则突变的左侧可能存在更多的基因座且在左侧上更远离。

在260处,对无细胞样品执行测序且定量读数(例如,计数或尺寸)。例如,可以提取关于突变型或野生型连锁的单倍型的snp信息用于rhdo或rhso分析。

在其它实施例中,直接序列分型可以使用染色体拷贝上的重组事件(例如,1kb或更多的大缺失、插入或倒位),以确定来自相同单倍型的读数。例如,含有重组体的测序母系dna分子的配对末端当映射到参考基因组时看起来与hmwdna分子一样长。然而,实际上,片段化过程可以确保片段平均起来小于1kb。基于由比对确定的长度,确定长于特定长度(例如,1kb、5kb、10kb、20kb或更长)的dna片段可以视为来自具有重组事件的单倍型。相应地,该特点可以用于将snp指定给相应的单倍型,即与明显较长的dna分子相关的snp等位基因被指定给突变型连锁的单倍型。

c.选择基因座以检测突变和探针/引物的使用

如上所述,该基因座集合的选择可以在多个阶段中发生。例如,初始基因座集合可以对应于已知在某个疾病基因座附近的snp,例如,基于公共数据库或其它受试者的测序。在方框110中的直接单倍型分析可以使用靶向测序,其使用序列特异性探针和/或序列特异性引物来测序初始基因座集合。然后,在确定单倍型并且在亲代单倍型中阳性鉴定突变之后,可以选择其中亲代实际上是杂合的某些基因座(即,亲代在初始集合的所有基因座处可以不是杂合的)。此外,可以使用针对初始集合的探针和/或引物的靶向测序来执行方框130中的无细胞母系样品的分析,但是可以仅使用在最终选择的基因座处的读数。以这种方式,可以使用跨越患者的相同方案和试剂执行靶捕获。

相应地,基于单倍型的方法超过直接突变分析的优点是可以通过定量评价母系血浆中的信息性snp等位基因来推断胎儿遗传,避免对于定制的突变特异性测定的需要(lenchn等人,prenatdiagn2013;33:555-62;verhoefti等人,prenatdiagn2016;36:636-42)。此类定制测定需要及时进行优化,以满足在怀孕期间临床可接受的出报告时间的要求。有时,对于某些具有挑战性的基因组基因座(例如重复区域、同源基因的存在)或某些突变(缺失、倒位、基因重组),不容易开发突变特异性测定。cyp21a2就是这样一个例子,关于其的结果在下文提供。cyp21a2的序列与假基因cyp21a1p共享高度同源性。因为从母系血浆中的snp等位基因比率推断胎儿基因型,所以不需要对于cyp21a2突变定制的测定。

用于靶捕获一组临床上重要的单基因疾病基因座周围的snp的一系列探针可以在实验室中预先贮存。测试的规模可以根据临床需要而变化。例如,可以选择仅使用设计用于一次评价一个疾病基因座的靶捕获探针。该策略适合于评价具有特定单基因疾病的家族史的高危险妊娠,或通过筛查程序已被鉴定为突变携带者(samavata,modellb.,bmj2004;329:1134-7)。可替代地,可以合并与几个疾病基因座相关的靶捕获探针并且同时进行分析。当存在待测试的许多基因基因座时,这种替代策略是有用的,例如用于研究通过超声检查术检测的胎儿异常,如先天性心脏缺陷。

还存在在公共卫生环境中应用这种非侵入性测试方法的潜力,旨在产前管理社区中高度流行的疾病,例如囊性纤维化、镰状细胞性贫血或地中海贫血,或者将受益于产前(newmi,abrahamm,yuent,lekarevo.,seminreprodmed2012;30:396-9)或早期新生儿治疗的疾病。当用作公共卫生筛选工具时,捕获探针可以首先用于携带者鉴定(bellcj等人,scitranslmed2011;3:65ra4),其中亲代dna的连锁读取测序用于确定亲代突变和单倍型结构。然后可以将相同的探针用于母系血浆dna的靶捕获,用于基于单倍型的胎儿基因型评价。因此,可以改进用于单基因疾病的产前筛选和检测的工作流程。

各种标准可以用于进一步选择用于检测突变的基因座,例如,在第二选择阶段。基因座与突变的接近度是一个标准。另一个示例性标准是亲代在基因座处是杂合的,例如,如基于直接单倍型分析确定的。进一步的标准可以是可以推导出来自另一个亲代的遗传等位基因,例如,(1)基于在该基因座集合处是纯合的另一个亲代,或(2)基于在某些基因座处检测到的父系特异性等位基因和从多个参考单倍型中选择遗传的父系单倍型。另外,集合中的基因座数目可以要求至少是指定的数目。

为了确定父系单倍型的遗传,可以分析其中母亲是纯合的并且父亲是杂合的信息性基因座(例如,snp)。每个此类信息性基因座对于特定的父系单倍型是特异性的,即具有独特等位基因的单倍型。例如,如果母亲对于a/a是纯合的并且父亲对于a/g是杂合的(其中父系hapii具有g),则此类信息性基因座对于hapii提供信息。此类信息性基因座可以通过对母亲进行基因分型来鉴定,也可以通过分析在那些基因座处的无细胞混合物的等位基因含量来鉴定。当一个等位基因的等位基因分数小于特定百分比(例如,25%、20%、15%或10%)时,实施例可以假设母系是纯合的。

可以跟踪其中存在此类父系特异性等位基因的基因座,并且可以选择大致相等百分比的对于于两种单倍型各自特异性的信息性基因座用于测试。如果胎儿已从父亲遗传了突变,则具有在无细胞母系样品(例如,血浆或血清)中检测到的父系特异性等位基因的读数属于父系突变型连锁的单倍型,如通过父系dna的单倍型分析所鉴定的。特别地,具有来自对于突变型连锁的单倍型特异性的n个信息性基因座的第一集合之一的父系等位基因的读数数目可以与具有来自对于野生型单倍型特异性的n个信息性基因座的第二集合之一的父系等位基因的读数数目进行比较。

为了确定母系单倍型的遗传,可以分析其中母亲是杂合的并且父亲是纯合的信息性基因座(例如,snp)。每个snp可以分类为α型或β型。这两个类型可以视为两个不同的基因座集合,其中每个集合是独立使用的。在其它实施方式中,每个类型的基因座可以视为相同基因座集合的不同子集,例如,其中不同组的dna片段对应于基因座的不同子集。

对于α型snp,父系等位基因与母系突变型连锁的单倍型上的母系等位基因相同。如果胎儿已遗传了突变型等位基因,则在母系血浆dna中观察到突变型连锁的单倍型的过度表达。相比之下,如果胎儿已遗传了野生型等位基因,则不存在任一种母系单倍型的过度表达。对于β型snp,父系等位基因与母系野生型连锁的单倍型上的母系等位基因相同,即与野生型等位基因连锁的单倍型。如果胎儿已遗传了野生型单倍型,则观察到野生型连锁的单倍型的过度表达。另一方面,如果胎儿已遗传了突变型等位基因,则两种单倍型将相等地表示。

d.单倍型的性质

来自无细胞混合物的序列读数的各种性质可以用于区分特定单倍型的存在。取决于从待分析的亲代遗传的单倍型,无细胞混合物中两种单倍型的性质将是不同的,从而指示哪种单倍型被遗传。示例性质包括来自亲代单倍型各自的dna分子数目的量(例如,如根据比对确定的)和尺寸分布的统计值。

1.在每种单倍型处的dna片段量

可以通过测量在母系血浆中携带snp信息的dna分子的剂量不平衡,来实现对于单基因病症的非侵入性产前测试。rhdo分析的原理是分别评价含有与母系中突变型和野生型相关单倍型连锁的snp信息的血浆dna片段的数目。相对于其它母系单倍型,传递给胎儿的母系单倍型预期是过度表达的。可以基于dna片段具有哪个等位基因来计数来自在所选基因座集合处的每种单倍型的dna片段的量。可以确定每个基因座的量,或者可以使用该基因座集合的共同计数。然后,可以使用该量确定分离值,其中所述分离值指示哪种单倍型被遗传。

在各种实施例中,该量可以是在基因座集合之一处具有特定等位基因的片段数目、来自特定单倍型上的任一基因座集合中的片段数目,以及在特定单倍型上的基因座处的计数的统计值(例如,均值)。代替数目,还可以使用dna片段的总长度。进一步的例子可以在美国专利公开2011/0105353和2013/0040824中找到,所述美国专利公开以引用的方式整体并入。

当确定每种单倍型的总计数时,在进行比较之前,在单倍型的每个基因座处的个别计数被有效地聚集。然后可以比较亲代单倍型的聚集量,以确定单倍型是过度表达、相等表达还是表达不足的。在其它实施方式中,比较在基因座处具有两个等位基因的片段的两个量,其中在多重基因座处的比较可以用于聚集个别分离值,以获得聚集分离值。

当确定每个基因座的计数时,可以确定每种单倍型的运行总和,并且可以使用每个基因座之后的总和来确定测试,以确定分离值是否具有足够的统计功效来鉴定哪种单倍型被遗传。在一些实施方式中,对于母系遗传,可以确定两个分离值,例如,当使用α型和β型snp时。每个分离值可以用于确定哪种单倍型的分开分类被遗传。可以比较两种分类以确认一致性。

如本文所述,差是分离值的一个例子。例如,分离值可以是nhapi-nhapii,其中nhapi是对应于第一单倍型的读数的数目,且nhapii是对应于第二单倍型的读数的数目。作为另一个例子,可以使用nhapi和nhapii的比值。

2.尺寸

nipt的数据分析主要基于计数母系血浆中的dna分子(lunfm等人,procnatlacadsci2008;loym等人,scitranslmed2010;tsuinb等人,blood2011)。最近,证实血浆dna尺寸特性也可以应用于检测胎儿染色体非整倍性(yu,s.c.等人,procnatlacadsciofusa,111,8583-8588,doi:10.1073/pnas.1406103111(2014))。基于尺寸的方法利用了在母系血浆中胎儿来源的dna分子比母系衍生的dna分子短的生物学特征(loym等人,scitranslmed;yu,s.c.等人,procnatlacadsciofusa,111;chan,k.c.等人,clinchem50,88-92,doi:10.1373/clinchem.2003.024893(2004))。胎儿三体性中额外的胎儿染色体的存在将导致源自受影响染色体的另外更多的短dna片段。在后来的研究中(yu,s.c.y.等人,clinicalchemistry,doi:10.1373/clinchem.2016.254813(2016)),据报道,基于尺寸的分析也可以用作确认通过基于计数的分析检测到的亚染色体拷贝数畸变(cna)的独立方法。基于尺寸和计数的分析的组合分析可以减少假阳性,并且区分畸变是母系还是胎儿来源的。最近的研究证实利用母系血浆中无细胞胎儿dna的尺寸特征来确认基于计数的分析结果,并且区分畸变是胎儿还是母系来源的可能性,如美国专利公开2016/0217251中所述,所述美国专利公开以引用的方式整体并入。

本文探讨了进行基于尺寸的分析以推导出母系传递的单基因病症的胎儿遗传的可行性。具体地,实施例探索基于尺寸的方法的可行性,称为基于相对单倍型的尺寸缩短分析(rhso),以推导出母系传递的单基因突变的胎儿遗传。

由于母系血浆中胎儿和母系来源的dna分子之间的尺寸差异,我们推理胎儿来源的母系传递的单倍型的存在将分别改变源自两个母系单倍型的血浆dna分子的尺寸分布。因此,我们提议通过使用rhso比较以特定尺寸的两种单倍型的尺寸分布(例如,累积频率)的统计值,可能能够确定胎儿的母系遗传。

由于对应于由胎儿遗传的单倍型的无细胞混合物中较短的胎儿dna片段,各种统计值可以用于测量两种单倍型的尺寸分布中的相对差异。本文以及美国专利公开2011/0276277和2013/0237431中提供了例子,所述美国专利公开以引用的方式整体并入。在一些实施例中,rhso分析比较了在以特定尺寸(例如,150bp)的两个母系单倍型上携带单核苷酸多态性的dna分子的累积频率。累积频率可以测量为测量的所有dna片段中以一定尺寸或更小的dna片段的总百分比。

3.靶向分析

在一些实施例中,可以执行无细胞混合物的靶向分析,以获得足够数目的读数,用于准确地确定两种单倍型的特性的值,从而确保足够的统计准确度。在一些情况下,当围绕疾病基因座的母系血浆dna数据足以允许在亲代单倍型之间的统计学显著的剂量评价时,可以实现胎儿基因型的非侵入性推导。所需的序列信息量取决于胎儿dna分数、所选基因座集合中的基因座数目(例如,信息性snp)和测序深度。

如果未获得足够数目的读数,则可以重新设计靶向特定疾病基因座的另外捕获探针和/或引物,以捕获更多的snp。计算模拟显示,如果snp的数目达到1000,伴随200倍的测序深度,即使具有低胎儿dna的分数浓度,也可以生成统计学确信的rhdo分类(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。

e.根据特性中的差异确定遗传

对于两个亲代单倍型的特性(例如,dna片段的计数或统计尺寸值)的足够不同的值提供了哪种单倍型被遗传的准确指示。两组dna片段的两个特性值之间的分离值(即,对于两种单倍型)可以与阈值进行比较,以确定的指示是否足够强。例如,阈值可以用于确认一种单倍型的过度表达。

1.父系传递的常染色体突变

可以计算对应于每种单倍型的读数量。对于每种单倍型,可以计数具有父系特异性等位基因(即,在母亲中未发现)的读数以确定量。可以使用所选基因座的不同子集,这取决于父系特异性等位基因在哪种单倍型上(即,母亲对于另一种单倍型上的等位基因是纯合的)。例如,第一基因座子集可以具有来自第一父系单倍型的第一等位基因,且第二基因座子集可以具有来自第二父系单倍型的第二等位基因。此类基因座的存在可以通过对母亲进行基因分型,或分析在各种基因座处的等位基因的相对等位基因分数来确定,例如如上所述。

对于过去开发的非侵入性产前测试(nipt)应用,任何父系特异性等位基因的胎儿遗传可以简单地基于母系血浆中该等位基因的存在或不存在。在本发明的实施例中,统计学检验(例如,柯尔莫诺夫-斯米尔诺夫检验(kolmogorov–smirnovtest)(ks测试))用于统计学比较两个父系等位基因子集之间的累积等位基因计数。通过使用父系单倍型之间的统计学比较,实施例可以最小化由于测序错误无意中作出胎儿遗传的错误判断的机会。例如,测序错误可能导致碱基变化,其恰好对应于胎儿未遗传的父系单倍型上的等位基因。沿着父系单倍型之一的信息性snp的等位基因计数可以被序贯地累积计数,直到沿着一种单倍型的区域的计数与来自另一个父系单倍型的相应区域的计数相比统计学显著升高。以这种方式,可以最小化由测序假象产生的一些错误碱基的机会,其导致胎儿单倍型的不正确判断。在父系单倍型之间执行统计学比较的另一个优点是可以以更高的精确度精确定位父系单倍型之间可能发生的重组事件的位置。

相应地,ks测试可以应用于确定两个父系单倍型之间是否存在等位基因计数的统计差异。可以分别累积父系单倍型之间的父系特异性等位基因的读数计数,直到突变型连锁的单倍型或野生型连锁的单倍型被分类(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。为了使随机影响最小化,可以要求单倍型块符合某些标准,例如,测试染色体区域中的snp数目≥25;两种单倍型之间的累积差异>0.53%;并且ks测试的p值<0.05(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。关于累积差异,它是与母系纯合等位基因不同的,与父系hapi和hapii连锁的父系特异性等位基因的读数数目。如果胎儿遗传了父系hapi,则应该存在具有父系hapi特异性等位基因(例如,来自第一基因座子集)的m个读数和具有父系hapii特异性等位基因(例如,来自第二基因座子集)的n个读数,其中m>n。因为可能存在父系hapi或hapii上相同的等位基因的一些序列错误,所以实施例可以设定父系hapi和hapii特异性等位基因之间的最小累积差异,以克服由测序错误造成的影响。百分比差异可以确定为m-n除以在两个基因座子集处的读数总数目(即,包括母系等位基因)。

2.母系传递的常染色体突变的rhdo分析

在一些实施例中,可以执行基于序贯概率比检验(sprt)分类的rhdo分析,以推导出母系传递的突变的胎儿遗传(loym等人,scitranslmed2010;2:61ra91;newmi等人,jclinendocrinolmetab2014;99:e1022-30)。rhdo分析可以涉及等位基因之间的剂量平衡或不平衡的统计评估,以确定遗传的单倍型块。

可以使用选择基因座(例如,α型snp或β型snp)执行rhdo分析。每种类型的分离值对应于遗传哪种单倍型的不同确定。例如,对于α型snp,来自突变型单倍型的读数的过度表达(例如,分离值大于阈值)指示突变型单倍型被遗传,而两种单倍型之间的读数的大致相等的表示(例如,分离值低于阈值)指示野生型单倍型被遗传。对于β型snp,来自野生型单倍型的读数的过度表达(例如,分离值大于阈值或低于阴性阈值)指示野生型单倍型被遗传,而两种单倍型之间的读数的大致相等的表示(例如,分离值低于阈值)指示突变型单倍型被遗传。

各种统计检验可以用于确定合适的阈值,例如,可以使用序贯概率比检验(sprt)。在一些实施例中,每个sprt分类的零假设是两个母系单倍型的剂量是平衡的。对于α型snp,备选假设是突变型连锁的单倍型的过度表达。对于β型snp,备选假设是突变型连锁的单倍型的表达不足。优势比为1200(hapi传递给胎儿与hapii传递给胎儿的机会之间的倍数变化)可以用于计算接受或拒绝零假设的阈值。先前描述了计算阈值的等式(loym等人,scitranslmed2010;2:61ra91)。

rhdo块分类可以从突变位点开始,并且向相邻的上游和下游snp延伸。上游和下游可以作为分开的分类来完成,或者可以从每个方向交替选择基因座(例如,snp)。可以累积沿着rhdo块的snp的读数计数,直到突变型连锁的单倍型或野生型连锁的单倍型被分类。为了最小化由杂交和作图效率引起的偏差,过滤掉(即不使用)相反单倍型之间的读数计数偏斜超过95%置信区间的snp,因为这两个等位基因之间的差异远远偏离由胎儿贡献造成的预期偏差,这更可能由额外的分析偏差如杂交和/或作图效率造成。通过拟合每个snp位点的当前测序深度,可以根据泊松或二项式分布推导出95%置信区间。两个等位基因之间的读数计数的意外偏斜也可以通过使用99%、90%、85%、80%、75%、70%、65%、60%置信区间来定义。

如关于无父系技术的后面节段中所述,一些实施例可能不确定基因座的类型,从而不需要关于父亲的遗传信息。

3.rhso

在一些实施例中,可以使用与rhdo相似类型的基因座,例如,α型snp或β型snp。rhso的统计尺寸值可以测量短dna片段与大dna片段的相对比例,如通过不同大小范围所指定的,其可以是1bp宽。当母系单倍型被遗传时,小dna片段的比例将增加,且因此剂量表示与统计尺寸值之间可能存在关系。

在使用α型snp的rhdo中,来自突变型单倍型的读数的过度表示指示突变型单倍型被遗传。对于rhso,突变型单倍型的小片段比野生型单倍型更高的比例(例如,尺寸值之间的分离值大于阈值)指示突变型单倍型被遗传,而两种单倍型之间大致相等的尺寸值(例如,分离值低于阈值)指示野生型单倍型被遗传。对于β型snp,野生型单倍型的小片段比突变型单倍型更高的比例(例如,分离值大于阈值或低于阈值)指示野生型单倍型被遗传,而两种单倍型之间大致相等的尺寸值(例如,分离值低于阈值)指示突变型单倍型被遗传。

示例性尺寸值包括由短dna片段贡献的总长度的分数可以如下计算:

f=∑w长度/∑600长度,其中

w长度表示对于给定单倍型,长度等于或小于截止w(bp)的dna片段长度的总和;和

600长度表示对于相应的单倍型组,等于或小于600bp的dna片段长度的总和。可以使用除600bp外的大截止值。标准可以是两个范围不同,尽管它们可以重叠。分离值δf可以是f(hapi)–f(hapii),其中hapi或hapii可以定义为突变型单倍型。其它实例是f(hapii)–f(hapi),f(hapi)/f(hapii)。

另一个示例性尺寸值是使用短dna片段的分数。设定截止尺寸(w)以定义短dna分子。截止尺寸可以改变并且选择为适应不同的诊断目的。计算机系统可以确定等于或短于尺寸截止的来自单倍型的dna片段的数目。然后可以通过将短dna的数目除以该单倍型的dna片段的总数目来计算dna片段的分数(q)。q值将受到dna分子群体的尺寸分布影响。较短的总体尺寸分布表明较高比例的dna分子将是短片段,因此,给出较高的q值。qhapi和qhapii是来自单倍型各自的片段的两组尺寸分布的统计值的实例。示例性分离值与上述相似,例如δq=qhapi–qhapii,δq=qhapii–qhapi。δq=qhapi/qhapii或δq=qhapii/qhapi。

本文还描述了以给定尺寸的累积频率的另一个例子。另外,当关于父亲的遗传信息未知时,也可以使用使用rhso的技术。

4.用于评价x连锁遗传的统计分析

用于检测常染色体相对于染色体x上的遗传突变的统计分析可以不同。例如,可以分析其中母亲是杂合的染色体x上的信息性snp。如果男性胎儿已遗传了突变,则存在与来自无细胞混合物(例如,母系血浆dna分析)的突变型连锁的单倍型比对的读数的过度表达。如果男性胎儿已遗传了野生型等位基因,则存在与突变型连锁的单倍型比对的读数的表达不足(即,与野生型连锁的单倍型比对的读数的过度表达)。

可以测试两种备选假设:(a)当与野生型等位基因相比时,突变型等位基因过度表达,和(b)当与野生型等位基因相比时,突变型等位基因表达不足(tsuinb等人,blood2011;117:3684-91)。可以使用各种统计检验,例如sprt、二项式检验、泊松检验、卡方检验和费希尔精确检验。

5.胎儿dna的分数浓度的测量

在一些实施例中,胎儿dna的分数浓度可以用于确定阈值,因为胎儿dna的分数浓度可以影响两种单倍型的值之间的分离程度。然而,不需要此类使用。对于其中父系和母系基因组dna样品两者进行测序的情况,母系血浆中的胎儿dna的分数浓度(f)可以基于在亲代双方中是纯合但对于不同等位基因的snp进行计算(loym等人,scitranslmed2010;2:61ra91)。

其中p是胎儿特异性等位基因的读数计数,并且q是由母系和胎儿基因组共享的等位基因的读数计数。

对于处于x连锁疾病风险中的家族,可以如下确定胎儿dna的分数浓度。位于染色体y和x上的同源zfy和zfx基因基因座可以分别使用液滴数字pcr(ddpcr)技术进行定量。先前描述了引物和探针组合物(tsuinb等人,blood2011;117:3684-91)。根据制造商的方案,在20μl的反应体积中使用ddpcrsupermixforprobes(bio-rad)建立用于一个样品的反应(2个实验对象组),并且使用qx100或qx200dropletgenerator(bio-rad)与70μl液滴生成油(bio-rad)混合。反应在37℃下开始30分钟用于尿嘧啶n-糖基化酶的作用,随后为95℃温育10分钟,94℃30秒和57℃1分钟的50个循环,以及98℃10分钟的1个循环。然后将液滴装载到qx200dropletreader(bio-rad)内。通过quantasoftsoftware版本1.7.4(bio-rad)计算zfy和zfx的浓度。胎儿dna的分数浓度(2xzfy)/(zfy+zfx)x100%,其中zfy和zfx是zfy和zfx分子的浓度。

f.用于检测突变的方法

如上所述,实施例可以检测特定单倍型上的突变是否由胎儿遗传,而不必从胎儿获取直接样品(例如,经由羊膜穿刺术或绒毛膜绒毛取样)。相反,使用包含胎儿和母系dna的无细胞混合物的母系样品,从而允许测量突变是否被遗传。

1.父亲

图3是示出了根据本发明的实施例,使用从胎儿的怀孕母亲获得的生物样品,用于检测胎儿从父亲遗传的胎儿基因组中的突变的方法300的流程图。突变可能是单基因病症的原因。父亲具有在染色体区域中具有第一父系单倍型和第二父系单倍型的父系基因组,其可以在对父系样品应用测定之前或之后进行鉴定。生物样品含有母系和胎儿dna片段的混合物,从而允许非侵入性测量,但使得此类测量比使用胎儿样品更困难。在父系样品的直接单倍型分析之前,在父系基因组中可能已经或可能尚未鉴定出突变。

在方框305处,测序细胞父系样品(例如血液样品的血沉棕黄层)中的长dna分子,以获得长序列读数。测序可以特异性地靶向特定染色体区域中的dna分子(例如,其包括作为测定的部分测量的突变)。在一个实施方式中,测序可以是全基因组的,但可以仅选择与特定染色体区域重叠的长dna分子用于进一步分析。长序列读数将来自待单倍型分析的染色体区域中的两个染色体拷贝。对于长dna分子和视为长的相应的长序列读数,要求可以是长度至少1kb、5kb、10kb、20kb、50kb或100kb。

在方框310处,使用与具有突变的染色体区域重叠的长序列读数构建第一父系单倍型和第二父系单倍型。可以通过与参考比对来鉴定与染色体区域重叠的长序列读数。可以使用在染色体区域中的多个基因座处共享等位基因的长序列读数的第一集合构建第一父系单倍型,其中所述第一父系单倍型在多个基因座处具有第一等位基因。可以使用在染色体区域中的多个基因座处共享等位基因的长序列读数的第二集合构建第二父系单倍型,其中所述第二父系单倍型在多个基因座处具有第一等位基因。

单倍型的重构可以鉴定在父亲中是杂合的一个或多个基因座处重叠的长读数。这些杂合基因座可以从在各种基因座处的等位基因计数中鉴定(例如,对于在基因座处的两个等位基因中的每一个,等位基因百分比大于40%)。在杂合基因座处具有相同等位基因的长读数(即,长读数重叠并且在重叠区域中具有相同序列)可以用于重构单倍型。其中两个长读数具有相同等位基因的重叠区域中的基因座数目可以要求至少为指定数目(例如,2、5、10等),使得在重叠区域中确认足够量的匹配。以这种方式,在这些杂合基因座处具有相同的等位基因指示那些长读数在相同的单倍型上,并且因此可以用于确定与其它长读数的重叠区域,从而扩展单倍型。

作为另一个例子,群体单倍型可以用于扩展亲代单倍型。例如,一个群体单倍型块显示高ld(连锁不平衡)值(例如>0.95),并且与从直接单倍型分析方法推导出的亲代单倍型块共享相同的等位基因可以允许亲代单倍型块被连接在一起,以形成更长的单倍型块。

在方框315处,在染色体区域中的第一父系单倍型中的第一位置处鉴定突变。突变可能已经已知位于第一位置处,其可以是用于重构单倍型的杂合基因座之一。一旦单倍型已知,具有突变的特定单倍型就可以被鉴定为突变型单倍型。

在方框320处,从得自怀孕母亲的生物样品中分析多个无细胞dna片段。母系样品含有母系和胎儿核酸的混合物。母系样品可以被获取,可能精制(例如,纯化用于无细胞dna),然后接收用于分析,例如,经受测定且分析所得到的序列数据。在各种实施例中,母系样品可以是血浆、血清、尿、唾液或子宫灌洗液。

在一些实施例中,分析dna片段可以包括鉴定参考基因组中dna片段的位置(例如,当受试者是人时,参考人类基因组—可以测试其它动物)。例如,当dna片段与杂合基因座重叠时,可以确定dna片段的等位基因。分析可以以各种方式执行,例如dna测序、微阵列、杂交探针、基于荧光的技术、光学技术、分子条形码和单分子成像(geissgk等人,natbiotechnol2008;26:317-325)、单分子分析、pcr、数字pcr、质谱法等。可以使用允许确定母系生物样品中dna片段的基因组位置和等位基因(关于基因型的信息)的任何方法。一些此类方法描述于美国专利公开2010/0112590中,所述美国专利公开以引用的方式整体并入。

分析可以特异性地靶向包括突变的基因组窗口。例如,引物可以扩增基因组窗口中的dna,然后可以执行测序。作为另一个例子,探针可以优先捕获基因组窗口内的dna。在各种实施方式中,可以对此类捕获的dna进行测序,或者对探针特异性的信号可以指示在所选择的基因座集合之一处的捕获dna片段的等位基因。

在方框325处,从多个基因座例如用于确定单倍型的杂合基因座中选择基因座集合。可以基于突变的第一位置,并且基于在该基因座集合处纯合的怀孕母亲的母系基因组,来选择基因座集合。可以在突变的第一位置的指定距离内选择基因座集合。接近距离可以是各种值,例如,如本文所提供的。

可以基于母系在其上是纯合的等位基因来确定两种不同类型的基因座,即γ型基因座和ζ型基因座。母系基因组对于在该基因座集合的第一子集(γ型)处的第一等位基因可以是纯合的,并且母系基因组对于在第二子集(该基因座集合的ζ型)处的第二等位基因可以是纯合的。相应地,可以使用对包括突变的基因组窗口特异性的探针和/或引物。

在方框330处,鉴定对应于每种单倍型的dna片段组。例如,基于所鉴定的位置和对于第一组dna片段所确定的等位基因,可以将生物样品中的第一组dna片段鉴定为在第一基因座的子集之一处具有第一等位基因之一。第一组可以包括位于第一基因座子集中的每一个处的至少一个dna片段。基于所鉴定的位置和对于第二组dna片段所确定的等位基因,可以将生物样品中的第二组dna片段鉴定为在第二基因座的子集之一处具有第二等位基因之一。第二组可以包括位于第二基因座子集中的每一个处的至少一个dna片段。

在方框335处,计算两组教导中的dna片段的量。例如,计算机系统可以计算第一组dna片段的第一量,并且计算机系统可以计算第二组dna片段的第二量。此类量是单倍型特性的示例值,如本文所述。作为例子,量可以是dna片段的数目或组中dna片段的总长度。

在方框340处,计算第一量和第二量之间的分离值。本文提供了分离值的实例,例如包括差或比率。分离值可以允许确定两种单倍型中的哪一种比另一种更多表示。

在方框345处,基于分离值与截止值的比较,确定胎儿是否遗传了在第一父系单倍型上的突变。还可以确定胎儿是否遗传了第二父系单倍型。可以使用各种统计检验进行确定,例如柯尔莫诺夫-斯米尔诺夫检验、费希尔精确检验、泊松检验和二项式检验。

2.母亲

图4是示出了根据本发明的实施例,使用从怀孕母亲获得的生物样品,用于检测胎儿从怀孕母亲遗传的胎儿基因组中的突变的方法400的流程图。突变可能是单基因病症的原因。怀孕母亲具有在染色体区域中具有第一母系单倍型和第二母系单倍型的母系基因组,其可以在对母系样品应用测定之前或之后进行鉴定。

方法400的方面可以以与方法300中类似的方式执行。例如,生物样品含有母系和胎儿dna片段的混合物,从而允许胎儿突变状态的非侵入性测量。在母系样品的直接单倍型分析之前,在母系基因组中可能已经或可能尚未鉴定出突变。

在方框405处,测序细胞母系样品(例如血液样品的血沉棕黄层)中的长dna分子,以获得长序列读数。可以以与图3的方框305类似的方式执行方框405。

在方框410处,使用与具有突变的染色体区域重叠的长序列读数构建第一母系单倍型和第二母系单倍型。可以以与图3的方框310类似的方式执行方框410。例如,可以通过与参考比对来鉴定与染色体区域重叠的长序列读数。可以使用在染色体区域中的多个基因座处共享等位基因的长序列读数的第一集合构建第一母系单倍型,其中所述第一母系单倍型在多个基因座处具有第一等位基因。可以使用在染色体区域中的多个基因座处共享等位基因的长序列读数的第二集合构建第二母系单倍型,其中所述第二母系单倍型在多个基因座处具有第二等位基因。

在方框415处,在染色体区域中的第一母系单倍型中的第一位置处鉴定突变。可以以与图3的方框315类似的方式执行方框415。

在方框420处,从得自怀孕母亲的生物样品中分析多个无细胞dna片段。可以以与图3的方框320类似的方式执行方框420。

在方框425处,基于突变的第一位置,从多个基因座(例如用于确定单倍型的杂合基因座)中选择基因座集合。可以以与图3的方框325类似的方式执行方框425。方框425还可以包括确定在该基因座集合处胎儿从父亲遗传的父系等位基因。父系等位基因可以对应于第一等位基因或第二等位基因,例如,对应于α型基因座或β型基因座。可以基于确定父系等位基因的位置来选择基因座集合。因此,可以首先确定遗传的父系等位基因,然后选择基因座集合。在各种实施例中,可以选择α型基因座或β型基因座的子集,并且每一个子集分开使用。

可以以各种方式推导来自父亲的遗传等位基因的推导。例如,遗传的等位基因可以基于在该基因座集合处是纯合的另一个亲代来推导。作为另一个例子,可以基于在某些基因座处检测到的父系特异性等位基因,以及从多个参考单倍型中选择遗传的父系单倍型推导遗传的等位基因。

在方框430处,鉴定对应于每种单倍型的dna片段组。可以以与图3的方框330类似的方式执行方框430。例如,基于具有第一等位基因之一的这些dna片段中的每一个,可以将第一组dna片段鉴定为对应于第一母系单倍型。基于具有第二等位基因之一的这些dna片段中的每一个,可以将第二组dna片段鉴定为对应于第二母系单倍型。

在方框435处,计算两组中各自中dna片段的特性。本文描述了此类特性的例子,例如dna片段的量或尺寸分布的统计值。可以计算特性的值。例如,计算机系统可以计算第一组dna片段的第一值,其中所述第一值限定第一组dna片段的特性。计算机系统还可以计算第二组dna片段的第二值,其中所述第二值限定第二组dna片段的特性。在各种实施例中,可以根据rhdo或rhso确定特性。

在一些实施例中,该值也可以是标准化值,例如染色体区域的读数计数除以样品的读数总数目或参考区域的读数数目。该值也可以是与另一个值(例如,在rhdo中)的差或比率,从而提供该区域的差异的特性。

在方框440处,计算第一值和第二值之间的分离值。可以以与图3的方框3340类似的方式执行方框440。

在方框445处,基于分离值与截止值的比较,并且基于父系等位基因是对应于第一等位基因还是第二等位基因,确定胎儿是否遗传了在第一母系单倍型上的突变。还可以确定胎儿是否遗传了第二父系单倍型。可以使用各种统计检验例如sprt进行确定。

作为例子,该确定可以基于父系等位基因,因为α型基因座和β型基因座可以不同地处理。例如,高于α型基因座的第一截止值的正分离值可以指示第一母系单倍型被遗传,并且因此胎儿遗传了该突变。对于差接近0或对于(即,两个值的)比率接近1的分离值可以指示第二母系单倍型被遗传。对于β型基因座,低于第二截止值的负分离值可以指示第二母系单倍型的遗传,而对于差接近0或对于比率接近1的分离值可以指示第一母系单倍型被遗传,且因此胎儿遗传了该突变。

g.用于检测突变的结果

提供了使用亲代样品的直接单倍型分析和经由遗传单倍型的突变检测的各种结果。本节段中的例子仅使用rhdo而不使用rhso;然而,后一节段用于确定遗传的母系单倍型的无父系技术。

招募了对于胎儿具有先天性肾上腺增生(cah)、β-地中海贫血、埃-范二氏综合征(evc)、血友病或亨特综合征的风险中的十三个家族。除了受evc影响的怀孕之外,招募的家族各自具有已知的疾病家族史,对于所述疾病寻求常规的产前诊断。对于evc病例,超声检查揭示导致evc的怀疑的多种结构异常。胎儿的疾病状态通过基于亲代dna和胎儿dna的突变分析的常规产前评价来确定,其通过绒毛膜绒毛取样或羊膜穿刺术或者在分娩后通过脐带血或新生儿dna分析获得。

图5显示了所研究病例的突变状态的表500。十三个家族被列为a-m。这些疾病在第510列中列出,并且对应于该疾病的基因在第515列中提供。第520、525和530列分别显示了母亲、父亲和胎儿的基因型。在这些列中,缩写如下:del是30-kb大基因缺失;int2是在内含子2处的c.293-13a/c>g;ex3代表在外显子3处的c.332_339del;并且nl用于正常等位基因。妊娠年龄是在采血用于分析的时间。

对于cah家族,从靶向捕获的亲代血沉棕黄层dna制备连锁的短读数,并且测序至646倍单倍型人覆盖的均值。捕获探针靶向含有21-羟化酶(cyp21a2)基因的主要组织相容性复合物iii类(newmi等人,jclinendocrinolmetab2014)。对于其它家族,从亲代血沉棕黄层dna制备的连锁短读数的全基因组测序执行至34倍单倍型覆盖的平均值。亲代dna样品的n50相块长度范围为3至14mb,具有>94%定相的snp。n50是单倍型分析性能的指标,且定义为在其下该块的块长度和较大块的总和代表总体定相序列的50%的块长度(snydermw,adeya,kitzmanjo,shendurej.,natrevgenet2015;16:344-58;zhenggx等人,natbiotechnol2016;34:303-11)。母系血浆dna的平均测序深度为275倍。

图6显示了根据本发明的实施例,用10xtm系统处理的亲代基因组dna的测序数据表600。n50相块是单倍型块集合的统计量。n50类似于单倍型块长度的平均值或中值,但分配有给予较长的单倍型块的较大权重。样品中块定相的单倍型块首先从最长到最短排序。n50是单倍型块的长度,其中长于该n50块的所有块的相加覆盖了50%的定相序列(例如,在全基因组单倍型的背景下50%的人类基因组或50%的基因组的靶向部分)。平均分子长度是原始长dna分子的平均长度,由其得到具有相同条形码的较短dna片段。多路是在测序反应中一起测序的样品数目。读数的数目是从测序仪获得的测序读数的数目。映射率%是映射到人类基因组的读数的比例。pcrdup%是对于预期源自pcr步骤的两个末端共享相同的基因组坐标的片段比例,也称为pcr复制率。靶上%是如预先设计的落入靶向区域内的片段的比例。深度是待测序核苷酸的平均时间。

图7是显示了根据本发明的实施例的母系血浆dna的靶向测序数据的概述的表700。映射的读数是与人类基因组成功比对的序列片段的数目。非重复读数是对于两个末端共享相同基因组坐标的比对片段的数目,其除了一个之外被全部去除。在去除具有至少一个不同末端的重复之后源自片段的读数被视为非重复读数。pcrdup%是对于预期源自pcr步骤的两个末端共享相同的基因组坐标的片段比例,也称为pcr复制率。靶区域覆盖率是至少测序一次的预先设计区域的百分比。靶上%是如预先设计的落入靶向区域内的片段的比例。深度是待测序核苷酸的平均时间。平均深度是待测序的预先设计的区域内的核苷酸的平均时间。

图8显示了根据本发明的实施例,关于家族a-m的单倍型定相数据的表800。跨越靶区域的相块是跨过目的靶向区域的单倍型块的基因组坐标,例如含有疾病原因基因的区域。跨越靶区域的相块的长度(碱基)是跨过目的靶区域的单倍型块的核苷酸总数目。跨越靶区域的snp数目是目标靶区域中可用的杂合snp的数目。

1.关于常染色体隐性遗传疾病的产前评价

家族a至f各自呈现用于常染色体隐性遗传疾病的产前评价。对于这些病例中的每一种,成功地确定了母亲以及父亲的突变型连锁的和野生型连锁的单倍型,如图6中详述的。通过母系血浆dna测序读数之间的统计学比较确定母系和父系单倍型的胎儿遗传。

图9显示了根据本发明的实施例,关于家族a至f中的胎儿单倍型分析。推导的胎儿基因型与常规诊断测试的结果一致。

每个家族具有相应的图,其中水平轴是包括突变的染色体的区段。每个家族具有关于父系遗传和母系遗传的图。父系遗传显示于列900中,且母系遗传显示于列950中。从左到右,a-d家族的水平轴从染色体6的端粒位置到着丝粒位置,其中突变位于cyp21a2基因座中。对于家族e,水平轴是从染色体11上的hbb基因座到着丝粒位置。对于家族f,水平轴是从染色体4上的端粒位置到着丝粒位置,其中突变包括evc2位置。evc综合征是由evc或evc2基因中的突变引起的常染色体隐性遗传疾病,并且亲代双方均为evc2上的突变的携带者。

分析从侧接突变位点的snp开始,然后朝向端粒和着丝粒方向延伸。通过rhdo分析确定其母系单倍型的胎儿遗传。通过ks测试分析确定其父系单倍型的胎儿遗传。单倍型块由箭头指示。箭头的尾部和尖端指示通过用于确定单倍型的特定技术确定的单倍型块的起始和终止位置。例如,一种技术是用于确定父系遗传的ks测试,并且单倍型块对应于作出单倍型遗传的准确确定所需的基因座数目。如所示,在对于其确定亲代单倍型信息的染色体区域中可以存在许多单倍型块。

箭头串(例如,箭头串905)的长度对应于对于各自亲代进行单倍型分析的染色体区域。因此,家族a的父亲将在大于4mb的染色体区域中进行单倍型分析。每个箭头具有不同的颜色,指示突变型连锁的单倍型902(红色)或野生型连锁的单倍型904(蓝色)。例如,箭头907和909对应于家族a中父亲的野生型连锁的单倍型。箭头909很大以突出显示跨越突变位点的分类块。对于母系遗传,对于使用的每种类型的基因座存在两个箭头:一个用于α型基因座,且另一个用于β型基因座。对于家族d,两个单倍型块之间存在间隙957,起因于该类型的两个信息性基因座之间的相对长的距离,其中一个基因座在一个单倍型块的末端处且而另一个基因座在另一个单倍型块的开始处

作为说明,家族a中的父亲是点突变的携带者,而母亲是在cyp21a2基因座处的30-kb缺失的携带者(如表500中所示)。在孕龄8周和1天时收集母系血样。从亲代血沉棕黄层dna的连锁读取测序数据中解析亲代的单倍型。

图10a显示了家族a中关于母亲的与突变位点(30kb缺失)的单倍型连锁。母亲是30kb缺失的携带者。通过将读数与参考比对,且鉴定具有足够数目的读数以指示母系基因组中的两个不同等位基因的基因座,来鉴定杂合基因座1005(特别是snp)。与具有分配至30-kb缺失区域内的基因座的碱基的读数共享相同条形码的序列读数视为与hapii(野生型连锁的单倍型)相连锁。特别考虑了在杂合基因座1005之一处的此类读数,并且贮存这些读数上的等位基因。含有替代等位基因(即,未与hapii连锁的杂合基因座1005处的等位基因)的读数被分配至hapi,突变型连锁的单倍型。相应地,我们通过首先确定来自野生型连锁的单倍型的等位基因,并且将在杂合基因座1005处具有不同等位基因的读数鉴定为来自突变型连锁的单倍型,将其它等位基因推断为源自与30-kb缺失相连锁的单倍型。跨越靶基因的定相母系单倍型块1008长度约4.7mb,并且含有4519个信息性snp用于随后的母系血浆rhdo分析,如表800中所示。水平轴1010显示了跨越染色体6的水平轴。

图10b显示了家族a中关于父亲的与突变位点的单倍型连锁。父亲是点突变的携带者。父系点突变位于chr6上,在基因组坐标32,006,858(grch37/hg19)处。与含有父系突变型等位基因的读数共享相同条形码的序列读数1020被定相至一种单倍型(hapiii)。与携带野生型等位基因的读数共享相同条形码的序列读数1030被定相至相反的单倍型(hapiv)。相应地,在突变型连锁的读数上发现的等位基因被定相至一种单倍型(hapiii),并且野生型连锁的读数上的等位基因被定相至另一种(hapiv)。如表800所示,跨越靶基因的定相单倍型块长度约7.5mb,并且含有4631个信息性snp用于随后的母系血浆ks测试分析。

为了确定母系突变的胎儿遗传,我们计算了携带信息性snp等位基因的血浆dna分子的数目。然后,我们用sprt分类评估α型和β型snp的单倍型剂量平衡或不平衡,并且推导出由胎儿遗传的单倍型块。

图11是显示了根据本发明的实施例,用于母系血浆分析的信息性snp的表1100。对于家族a的母系遗传,鉴定了总共108种α型snp和92种β型snp,并且它们在sprt分类中分开计数。对于α型snp,在6个sprt分类中观察到两种单倍型的相等表示(即,108种α型基因座的6个不同集合)。对于β型snp,在2个sprt分类中观察到野生型连锁的单倍型的过度表示(即,92种β型基因座的2个不同集合)。两项分析均指示胎儿已遗传了来自母亲的野生型连锁的单倍型。可能仅需要连锁的α型基因座和92个β型基因座的总数目的子集,以准确地执行单倍型遗传的分类,例如,不在未分类区域中。

对于家族a,为了确定父系突变的胎儿遗传,在母系血浆中检测到靶向cyp21a2区域内的2863个信息性snp。跨越基因座完成65次ks测试,如图11中所示。每个ks测试达到统计学显著性(p<0.05;两种单倍型之间的最小累积差异>0.53%),指示在母系血浆中在野生型连锁的单倍型上存在比突变型连锁的单倍型上更多的父系特异性等位基因。ks测试分析支持胎儿已遗传了来自父亲的野生型连锁的单倍型的结论。我们因此得出结论,胎儿没有遗传任何亲代突变,且未受到cah的影响。

对家族b至f和推导出的胎儿基因型应用相同的过程,并且因此疾病状态与常规产前诊断结果一致。特别值得注意的是,在家族b和f的血浆dna数据中观察到rhdo遗传的变化(图9)。在家族b中,由rhdo分析推导出的胎儿遗传的母系单倍型在染色体6上约28-30mb处从野生型连锁的变为突变型连锁的。如图9中所示,变化的确切位置在所使用的两种类型的基因座(即,α或β)之间不同。确切的位置将取决于分别单倍型块中使用的基因座数目以及两种类型的相邻基因座之间的距离。在家族f中,存在由胎儿遗传的推导出的父系单倍型在染色体4上约5-5.5mb处从野生型连锁的到突变型连锁的转变。

在图9中,蓝色和红色之间的箭头颜色中的变化指示其中怀疑重组的位置。一旦对于先前基因座集合已确定遗传,就可以通过使用新的基因座集合重新开始单倍型确定来检测此类变化。例如,可以从已知父系单倍型的染色体区域的起点选择基因座。然后,序贯基因座(例如,突变的特定距离内且与突变连锁的杂合基因座)可以用于确定单倍型的特性的值,直到可以进行分类。一旦进行分类,就分析下一个基因座集合,直到可以进行另一种分类。对于家族b和f,分别通过测序绒毛膜绒毛和羊水样品来确认可疑的重组。

2.x连锁疾病的产前评估

家族g至l具有血友病a或b的家族史。家族m具有亨特综合征的家族史。由于男性对于染色体x是半合子的,因此仅执行母系单倍型分析和母系x连锁突变的胎儿遗传。

图12显示了根据本发明的实施例,在家族g至m中的胎儿单倍型分析。由于男性对于染色体x是半合子的,因此我们仅分析了x连锁突变的母系遗传。分析从侧接突变位点的snp开始,然后朝向端粒和着丝粒方向延伸。

与图9一致,遗传的单倍型块由箭头指示。箭头的尾部和尖端指示单倍型块的起始和终止位置。通过rhdo分析分类母系单倍型的胎儿遗传。红色箭头推断母系血浆dna中突变型连锁的snp等位基因的过度表达被分类,并且指示胎儿在该基因座处已遗传了突变型连锁的单倍型。蓝色箭头推断母系血浆dna中野生型连锁的snp等位基因的过度表达被分类,并且指示胎儿在该基因座处已遗传了野生型连锁的单倍型。

在家族g中,母亲是f8上的点突变的携带者。从母系基因组dna检测到的染色体x上的杂合snp构建单倍型,并且确定与突变型或野生型等位基因的连锁。重构单倍型的长度为1.4mb,并且含有448个信息性snp用于遗传分析。使母系dna经受全基因组测序。由于较低的测序深度和映射的问题,鉴定了较少的信息性snp,以在疾病基因座处构建母系单倍型。对于母系血浆样品执行靶向测序,以提供更高的测序深度。由于定相母系单倍型上的信息性snp的较少数目(即,仅448个信息性基因座),由于映射困难,在母系血浆中的靶区域内仅检测到6个信息性snp。尽管如此,实现了跨过突变位点的一种sprt分类。结果显示与突变型等位基因相连锁的信息性snp的表达不足,并且指示胎儿已遗传了来自母亲的野生型等位基因。

在家族h中,经由直接单倍型分析成功地解析了母系单倍型。然而,该特定突变位于snp耗尽的重复区域中,并且捕获探针未特异性地设计为靶向跨过该突变位点的区域。此外,用于dna提取的母系血浆体积仅为0.75ml,其远低于其它样品的3.68ml血浆的均值,并且这可以减少用于rhdo分析的dna量。因此,不存在足够的来自母系血浆dna测序的信息性snp数据用于rhdo分类。

从对于家族i执行的母系血浆dna分析中怀疑重组事件。随后通过胎盘dna的靶向测序确认重组。对于家族i至l成功执行了母系单倍型分析和母系血浆rhdo评价。推导出的胎儿基因型与常规诊断结果一致。

3.使用表观长度的结构变异的直接单倍型分析

在家族m中,母亲对于ids/ids2基因重排(易位)是杂合的。ids通常对于ids2着丝粒定位,并且处于相反的方向。这些区域中的基因重排通常是由于存在于ids和ids2上的同源序列之间的染色体内重组,导致ids的中断和插入区域的倒位。母系dna和绒毛膜绒毛dna的pcr扩增和限制性片段长度多态性分析鉴定了使ids内含子7和ids2内含子7并排的重组(lualdis等人,hummutat2005;25:491-7;bondesonml等人,hummolgenet1995;4:615-21)。由于基因内重排,存在连接突变型单倍型上的远距离基因组区域的更多短序列读数。因此,当映射到参考基因组时,含有重排的测序的母系dna分子的配对末端看起来与hmwdna分子一样长。我们使用该特征将snp分配至分别的单倍型,即与明显更长的dna分子相关的snp等位基因被分配至突变型连锁的单倍型。然后将相反的snp等位基因分配至野生型连锁的单倍型。

相应地,在其中发生长重排的实施例中,通过将具有相同条形码和来自相同基因组区域的序列读数连接而组装的dna片段的表观长度可以用于确定哪种单倍型与亲代样品中的长重排相关。通常,已知哪种单倍型与点突变相关,因为存在覆盖突变的序列读数并且最终连锁到单倍型内。但是对于复杂的重排,突变跨过大区域并且不被“包含”在任何一个测序的dna分子中。在此类情况下,表观长度可以用于将读数分配给突变型单倍型。作为示例,可以通过映射带条形码短读数中的问题或通过分析长序列读数的覆盖来鉴定重排或其它长结构变异。

图13a-13d示出了使用连锁读数的单倍型分配,所述连锁读数从母系基因组dna获得,并且通过明显更长的母系dna分子的存在增加推断。图13a是根据本发明的实施例,显示了连接的dna分子参考跨越chrx的总深度的标准化覆盖率的图1300:148,450,000-148,700,000。两条虚线指示家族m母亲的ids基因(chrx:148,553,758-148,608,466)中基因重排的位置。在hapi1302中观察到峰值,这代表了长分子数目的明显增加,所述长分子覆盖相对于hapii1304的区域和相对于其它区域的区域。

覆盖该区域的长分子中的明显增加是比对假象的结果。含有基因重排的组装的连锁dna分子看起来跨越参考基因组中较长的距离。测序的母系dna分子和组装的连锁dna在物理上要小得多,因为基因重排导致ids和ids2之间(chrx:148553758-148608466)的碱基区段的缺失,并且倒位使更多的端粒基因座进入患者的基因组中更着丝粒的位置,但在参考基因组中则不是。然后,这些明显的现象将反映为覆盖具有基因重排的基因组基因座的连锁dna分子的过度表达(图13a)。它也可以反映为含有更长的连锁dna分子的单倍型。

来自具有基因重排的单倍型的连锁dna分子的长度中的明显增加显示于图13b的中图中,其中连锁或高分子量dna分子的长度在具有基因重排的基因组区域的hapi上比hapii更长。因此,具有相对增加的长度或增加的覆盖率的连锁dna分子可以被鉴定为与基因重排在相同的单倍型上。

图13b-13d显示了基因重排区域内部(图1320)或外部(图1310或图1330)的连锁dna分子长度的箱线图。图1320显示了基因重排区域内的长dna分子的长度分布。hapi中的连锁dna分子的平均长度比hapii中的相对更长(p<0.0001)。图1310和1330分别显示了重排区上游和下游的连锁dna分子的长度分布。不存在hapi和hapii之间的连锁dna分子的长度的显著差异(图1310:p值=0.8665;图1330:p值=0.9641)。基于这些数据,我们将hapi推断为突变型连锁的单倍型。

此类技术可以用于各种结构变异,例如缺失、重复、拷贝数变体、插入、倒位和易位(重排)。除了导致明显长于均值的重构的序列读数(即,由连锁读数产生的长序列读数)的结构变异外,此类技术也可以用于导致明显短于均值的重构的序列读数的结构变异。例如,包括大插入或扩增的结构变异可以导致短于均值的重构的序列读数(例如,在插入或扩增之前和之后)。

相应地,当测序包括dna分子的连锁读取测序以重构来自较小连锁读数的长序列读数时,重构的长序列读数的表观长度中的变化可以用于将序列读数分配至具有结构变异的单倍型。例如,构建第一母系单倍型可以包括鉴定重构的长序列读数,其各自在长度中与结构变异之前和之后的区域的重构长序列读数的平均长度相差至少指定的长度。在对应于结构变异的区域中的每个重构的长序列读数将通过小于指定长度或长于指定长度而不同。在各种实施例中,指定长度可以是百分比变化(例如,5%、10%、20%、30%、40%、50%等)或绝对长度(例如,5kb、10kb、20kb、50kb、100kb或更多)。

一旦基于上述长度分析确定了两种单倍型,就可以如本文所述进行无细胞样品的分析。例如,根据母系血浆dna的rhdo分析,存在突变型连锁的snp等位基因的过度表达,并且这指示胎儿已遗传了来自母亲的突变型等位基因。结果与临床诊断和绒毛膜绒毛分析一致。

4.讨论

实施例使用直接单倍型分析方法来解析跨越疾病基因座的亲代单倍型,然后将其用于解释从母系血浆dna获得的靶向测序数据。使用这种方法,成功推导出处于一系列单基因疾病的风险中的13个家族中的12个的胎儿突变谱。这12个胎儿的突变状态被正确分类。

对于所有13个家族实现了亲代dna的单倍型分析。我们显示这种直接的全基因组单倍型分析方法避免了分析来自受疾病影响的相关家族成员的样品的需要。这一新发展不仅意味着分析的成本已降低,而且还意味着非侵入性胎儿基因分型可能潜在地应用于大多数高危妊娠。

所需的序列信息的量可以取决于胎儿dna分数,所选基因座集合中的基因座数目(例如,信息性snp)和测序深度。在上述结果中,我们将胎儿dna的分数浓度的样品分类为低至4.7%,其中较低百分比的可能具有足够的测序深度而不是基因座。实施例可以检测重组,如在该研究中的三个病例中检测到的。如果重组事件作为突变附近的基因组位置发生,则它可能导致不正确的胎儿基因型分类。可以通过使用读数的表观长度来检测此类效应,如图13a和13b中所述。

本研究中描述的方案可以容易地用于许多情况,例如,具有约1-2周的出报告时间。结果证实该方法适用于各种单基因疾病。此类方法可以普遍应用为胎儿单基因疾病的非侵入性评价的通用方案,从而成为更广泛地采用的胎儿单基因疾病的非侵入性产前评价。相应地,高通量连锁读取测序随后为基于母系血浆的相对单倍型剂量分析代表了用于遗传性单基因疾病的非侵入性产前测试的改进方法。该方法绕过了对于突变特异性测定的需要,并且不依赖于来自其它受影响家族成员的dna的可用性。因此,该方法普遍适用于处于单基因疾病遗传的风险中的妊娠。

5.补充细节

在妊娠期间的任何侵入性程序之前收集5-10ml母系血液样品。将父系和母系血液样品在4℃下以1,600xg离心10分钟,并且将血浆部分在4℃下以1,600xg再离心10分钟(2)。转移血浆,血沉棕黄层和基因组dna。父系和母系血沉棕黄层dna加工和血浆dna加工在补充方法节段中描述。

在一些实施例中,用于靶向测序的靶捕获探针的设计可以以下述方式执行。对于先天性肾上腺增生(cah)的产前评价,如先前所述设计靶向cyp21a2基因和侧翼区的捕获探针(nimblegen)(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。设计另一个靶标捕获探针(nimblegen)集合,以覆盖目的基因的上游和下游snp,包括hbb(用于β-地中海贫血的评价)、f8(用于血友病a)、f9(用于血友病b)和ids(用于对于亨特综合症)。对于埃-范二氏综合征(evc)的产前评价,使用seqcapezhumanexome+utrkit(nimblegen)富集测序文库。

在一些实施例中,父系和母系血沉棕黄层dna加工可以以下述方式执行。用magattracthmwkit(qiagen)从血沉棕黄层中提取高分子量基因组dna(hmwgdna)。对于cah病例,用gemcodetmprotocol(10xtmgenomics)加工基因组dna,并且对于其它病例,用chromiumtmgenomeprotocol(10xtmgenomics)加工基因组dna。chromium系统是在研究期间变得可用的该系统的升级版本。将长基因组dna链分隔到10xtm带条形码的凝胶珠中。每个凝胶珠上覆盖相同基因组基因座的两个分子的可能性很低。凝胶珠中的带条形码的寡核苷酸随机结合到长分子上,并且生成具有相同条形码的短片段。制备带条形码的片段的文库,并且使用highoutput试剂盒(illumina),在nextseq500测序仪(illumina)上测序,具有98bpx2(gemcode)或150bpx2(chromium)的配对末端形式。对于cah家族,在测序之前,用靶捕获探针富集亲代基因组dna。

在一些实施例中,血浆dna加工可以以下述方式进行。遵循制造商的说明,使用qiampdspdnabloodminikit(qiagen),从母系血浆中提取无细胞dna。使用具有修饰的truseqnanodnalibrarypreparationkit(illumina),制备用于母系血浆dna的文库。在末端修复和衔接子连接步骤代替磁珠清除之后,使用minelutereactioncleanupkit(qiagen)。使用洗脱缓冲液代替试剂盒中提供的重悬浮缓冲液。根据输入dna的量,将eb:lig2:dna衔接子的比率调节至4.17:2.5:0.83或3.75:2.5:1.25。在dna富集代替磁珠清除之后,使用minelutepcr纯化kit(qiagen)。用靶捕获探针富集血浆dna文库,并且使用highoutput试剂盒(illumina),在nextseq500测序仪(illumina)上测序,具有75bpx2的配对末端形式。

在一些实施例中,序列读数比对可以以下述方式执行。用由10xtmgenomics提供的longranger流水线加工父系和母系血沉棕黄层dna的带条形码的文库。使用burrows-wheeleraligner,将与有效条形码相关的读数与人类基因组(grch37/hg19)比对。生成用条形码和定相信息注释的输出文件,并且充当用于下游分析的家族的参考单倍型。

shortoligonucleotidealignmentprogram2(soap2)用于将母系血浆dna序列读数与非重复掩蔽的参考人基因组(grch37/hg19)比对,并且允许2个核苷酸错配。重复读数显示人类基因组上的相同起始和终止位置被去除。

ii.不需要父系dna信息的技术

在上述实施例中,父系基因型(loym等人,scitranslmed2010;2:61ra91)或父系单倍型(newmi等人,jclinendocrinolmetab2014;99:e1022-30)用于确定母系单倍型的遗传,例如用于rhdo结果和rhso的描述。具体地,父系遗传的等位基因用于确定基因座是α型还是β型,这影响了根据与阈值的比较确定的分类。

然而,存在其中父亲的dna不可用的情况。在本节段中,我们开发了用于非侵入性胎儿遗传确定的两种方法,其不需要父系dna信息的输入。这些方法致使单基因疾病的nipt在逻辑上更加实用。所需要的只是母系血液样品。对母系血细胞部分执行直接单倍型分析,并且使用样品的母系血浆部分执行nipt评价。用于上述rhdo和rhso的技术可以用于此处的应用,其中基因座的选择具有不同的标准,并且潜在地阈值的确定不同。

a.选择基因座的集合

无父系的技术仍确定在每种单倍型处的性质的值,例如,确定对应于母系单倍型各自的dna片段的量或统计大小值。但是,未确定基因座的类型。选择的基因座集合在母亲中是杂合的,但不知道遗传的父系等位基因在给定基因座处是什么。因此,没有作出关于哪种父系等位基因在基因座集合之一处被遗传的明确推论,例如甚至不使用在其它基因座处的检测,如可以使用参考单倍型完成的,如美国专利公开2011/0105353中所述。利用足够数目的基因座,我们已确定不需要基因座的特异性鉴定,例如,当正确选择阈值时。

该技术可以如下说明。可以假设胎儿在分析区域内的每一个母系杂合snp位点处是纯合的。如果胎儿是纯合的,则这将促成胎儿已遗传了的母系单倍型的过度表达。然而,实际上,胎儿在那些母系杂合snp位点是纯合的还是杂合的将取决于胎儿已从父亲遗传哪种等位基因。如上所述,在本节段的技术中,我们不知道父系基因型或父系单倍型;并且我们不尝试推导父系信息,如美国专利公开2011/0105353中所述。

如果胎儿在母系杂合snp位点处确实是杂合的(与假设相反),则在该一个snp位点处的等位基因计数中不存在不平衡。它不促成帮助鉴定母系单倍型不平衡的统计学。然而,它一般不逆转单倍型不平衡的方向,以促成替代单倍型的胎儿遗传的错误解释,因为在此类位点处只是不存在不平衡。对于检测母系单倍型不平衡的目的而言,它只是无信息的。只要在单倍型块内存在足够的snp位点以产生统计学上显著的不平衡,母系单倍型不平衡仍然是可检测的。

与使用父系dna信息的技术的不同之处在于确定哪种单倍型具有不平衡,而对于α型基因座和β型基因座的分析在不平衡和平衡之间。确定在两种不同类型的不平衡之间的转换可以允许准确的分类而无需父系dna信息。

在一些实施例中,可以基于群体信息选择基因座。例如,在知道哪些是来自单倍型分析数据的母系杂合位点之后,随后可以参考群体数据库(例如,hapmap),以鉴定该基因组区域处的那些snp位点的多少比例具有纯合的高度可能性。例如,如果根据群体数据库(尽管对于母亲杂合),基因座具有相对较低的百分比(例如,小于40%、30%、20%或10%)是杂合的,则可以存在胎儿是纯合的显著可能性(例如,大于20%、30%或40%)。可以选择此类基因座,并且不满足此类标准的基因座可以被弃去(即,不使用)。具有足够数目的基因座,不平衡将是显而易见的。

b.根据特性中的差异确定母系遗传

rhdo和rhso均可以用于这种无父系的技术中。在这些实施例中,母系hapi和hapii可以通过任何单倍型分析手段进行鉴定,包括直接方法(例如,连锁读取测序、单分子测序、单分子数字pcr和其它单分子长距离dna分析方法)和间接方法(例如,从基于家族的dna分析推断基因型数据或来自群体数据库的统计推断)。因此,哪些等位基因对应于哪种母系单倍型在所选择的基因座集合处仍然是已知的。实施例并不限于突变的检测,而是可以用于确定任何染色体区域的遗传。

1.无父系的相对单倍型剂量分析(prhdo)

无父系的相对单倍型剂量(prhdo)方法基于鉴定无细胞母系样品(例如血浆)中的两种母系单倍型之间的不平衡。该方法的原理是对于任何基因组位点,存在两种母系单倍型,hapi和hapii。胎儿必须遗传hapi或hapii。胎儿遗传的母系单倍型将导致母系血浆中该单倍型的过度表达。通过研究存在于各自母系单倍型上的杂合等位基因的累积等位基因计数,可以在母系血浆dna数据中鉴定出这种单倍型不平衡。

当覆盖该基因座集合的来自无细胞母系样品的读数可用时,通过分析来自那些母系杂合基因座的等位基因计数,并且将跨越属于相同单倍型的等位基因的计数相加直至检测到整体不平衡,可以鉴定母系单倍型不平衡。过度表达的单倍型是由胎儿遗传的单倍型。

为了最大化用最少量的母系血浆dna数据检测到不平衡的机会,可以改变阈值(zc截止)以基于信息性snp位点的预期数目或百分比来检测不平衡。例如,在知道哪些是来自单倍型分析数据的母系杂合位点之后,可以参考群体数据库以鉴定在该基因组区域处那些snp位点的多少比例在另一个人(例如,父亲和/或胎儿)中是纯合的高度可能性。可以从群体基因型数据库,例如1000基因组计划或hapmap数据库,推导出关于snp基因座是纯合的可能性。对于每个snp,可以计算基因分型为纯合的个体的比例,这将被视为是纯合的可能性。用于定义跨越所使用的单倍型块是纯合的高可能性的截止可以是但不限于70%、75%、80%、85%、90%和95%。然后可以基于标记为纯合的高度可能性的snp比例来减少阈值的绝对值。例如,如果70%具有高度可能性,则典型的阈值可以减少70%。

可替代地,在预测哪个位点具有胎儿是纯合的高度可能性之后,可以将等位基因计数集中在这些位点上,并且维持相同的统计阈值。上文在选择基因座集合的节段中描述了这种解决方案。在另一个实施方式中,根据群体中存在的此类等位基因的概率,可以将不同的权重分配给源自两种单倍型的两个等位基因之间存在的等位基因计数中的差异。

在设定阈值时,实施例可以解释由于限制在每个位点处的母系dna数据(以节省成本),在各个snp位点处等位基因计数中的随机变异程度。在一些实施例中,可以基于假定的分布(例如,泊松分布)确定用于区分哪种母系单倍型被遗传的阈值。例如,分别对应于源自hapi和hapii的等位基因计数的nhapi和nhapii可以假设为遵循泊松分布(jiang,p.等人,bioinformatics28,2883-2890,doi:10.1093/bioinformatics/bts549)。

nhapi~泊松(λ1)

nhapii~泊松(λ2)

假设胎儿dna分数为f,并且假设来自hapi和hapii的总累积dna片段为n。当样品不含有任何胎儿dna时,预期母系杂合等位基因之间不存在净剂量不平衡。因此,当f为0时,假设母系hapi或hapii的等位基因计数为n*0.5。当样品含有胎儿dna时,可以假设胎儿在所有分析的母系杂合snp位点处是纯合的。如果胎儿遗传母系hapi,则λ1将是n*(0.5+f/2)并且λ2将是n*(0.5-f/2)。nhapi-nhapii大致遵循正态分布,具有平均值n*f和标准差母系hapi和hapii之间的等位基因计数差异的程度可以依据z得分来测量:

如果zc在3以上,则胎儿将遗传hapi;如果zc在-3以下,则胎儿将遗传hapii。胎儿必须从母亲遗传单倍型i或ii。因此,当zc<3但>-3时,这意味着不存在足够的统计证据,例如,不足够数目的测序读数或胎儿dna分数,以作出该区域的胎儿遗传的确定。在那种情况下,只要更多的杂合基因座可用,就可以对于特定单倍型块测试该集合中的另外基因座。更多基因座可能无法始终是可用的,例如,当待检测特定突变并且基因座需要在突变的指定距离内时。

相应地,泊松统计(或其它统计)可以用于捕获此类变异,并且设定鉴定单倍型不平衡和超过可由随机变异所负责的等位基因偏移的截止。其它统计学,例如但不限于二项式分布、正态分布、γ分布、β分布、负二项式分布、隐马尔可夫模型、蒙特卡罗模拟和期望最大化算法、以及机器学习算法,也可以使用捕获此类变异。

可以以各种方式分析母系无细胞样品。作为例子,母系血浆dna数据可以通过全基因组测序,通过靶向目的基因组区域,或通过提供跨越各个snp位点的等位基因计数的多重数字pcr测定,或类似地通过微阵列或质谱法或确定单倍型内snp的等位基因比率的其它定量方法获得。血浆中的母系和胎儿dna分子均为短片段或仅几百个碱基长。因此,母系血浆中的测序、数字pcr或其它定量等位基因比率测量基于各个snp。但是单倍型不平衡的统计解释可以使用沿着单倍型块的多个信息性snp的共同等位基因计数,使用母系hapi和hapii作为支架。

如果母亲是遗传疾病突变的携带者,则能够从母系单倍型信息中鉴定hapi或hapii是否含有母系突变。在执行prhdo后,实施例可以确定胎儿已遗传了哪种母系单倍型以及它是否是与母系突变相关的单倍型。如果是,则认为胎儿已遗传了母系突变。为了确定父系突变或父系单倍型,随后可以搜索存在于母系血浆中但不存在于母系单倍型中的突变型和野生型等位基因。这些通常是snp位点,其中母亲是纯合的并且胎儿已遗传了不同的等位基因。如果父系突变与母系突变不同,则此类非母系突变可以从母系血浆dna数据中非常容易地鉴定为性质上不同的序列。在此类背景下,不需要父系遗传或基因组信息。因此,无论prhdo是否用于确定胎儿遗传或基因组信息或突变状态,都不需要父系信息。

2.无父系的prhso

尺寸可以以与基于计数的技术类似的方式使用。例如,一个阈值可以用于检测第一母系单倍型是否被遗传,并且第二阈值可以用于检测第二母系单倍型是否被遗传。另外,无父系的基于相对单倍型的尺寸缩短分析(prhso)可以如上所述选择基因座。

图14是根据本发明的实施例,无父系的rhso原理的图示。图14显示了细胞dna1405(即,来自细胞组织),其可以用于确定母系单倍型。为了获得两种单倍型(即hapi和hapii),可以使用直接单倍型分析技术,例如基于微流体的连锁读取测序(zhenggx等人,natbiotechnol2016;34:303-11),分析来自母系细胞1405的细胞dna。作为例子,细胞dna可以从得自孕妇的血细胞dna中获得,或者从亲代-后代三元基因型中推导出来(newmi等人,jclinendocrinolmetab2014;99:e1022-30)。与疾病原因基因相连锁的snp被分配为hapi.

图14显示了两个分支。分支1410对应于如果胎儿遗传hapi将发生的分析和结果。分支1450对应于如果胎儿遗传hapii将发生的分析和结果。

如果胎儿已遗传了hapi(分支1410),则与携带hapii等位基因的那些相比,携带hapi等位基因的更多片段存在于母系血浆1415中。源自胎儿的较短dna片段1412导致hapi的dna片段共同短于hapii的dna片段。图1420显示了hapi的尺寸分布和hapii的尺寸分布。如所示,相对于hapii的尺寸分布,hapi的尺寸分布向左移动(即,至更小的尺寸)。这种向较小dna片段的转变是胎儿dna片段1412的结果。

曲线1425显示了如根据图1420确定的累积尺寸分布。累积分布是图1420在每个尺寸下的曲线下面积的图。当在相应尺寸分布的峰值处时,累积分布增加最快。与hapii的那种相比,胎儿dna片段1412也使hapi的累积尺寸分布向较短末端移动。

为了定量hapi的尺寸缩短程度,构建了hapi和hapii之间的尺寸概况的累积尺寸频率中的差异(δf),如图1430中所示。换言之,基于母系hapi和hapii确定从短到长尺寸的血浆dna分子的渐进累积作为样品中总血浆dna分子的比例。然后如下计算两条曲线之间的差异δf:

δf=shapi-shapii(2)

其中δf表示以特定尺寸的母系hapi和hapii之间的累积频率中的差异,并且shapi和shapii分别表示来自母系hapi和hapii的小于特定尺寸的血浆dna片段的比例。关于特定尺寸的δf的正值提示,与hapii相比,在母系hapi上短于该特定尺寸的dna的更高丰度。δf是分离值的例子。

阈值可以用于确定δf是否足够大以作出遗传单倍型的准确确定。在图14中,当分离值确定为z得分时,阈值被鉴定为大于3,所述z得分考虑了典型变异,例如标准差。当母系血浆dna测量值是远离参考数据的标准差的指定数目(例如,2或3)时,阈值可以视为足够大,所述参考数据捕获母系血浆中累积尺寸测量的随机变异。可以模拟一组参考数据。例如,在来自hapi和hapii的dna分子之间没有尺寸差异的假设下,生成30次源自hapi和hapii的两组dna分子的随机排列。在这些排列期间,没有考虑相信息。因此,排列结果将代表背景随机变异。对于每种排列,计算模拟的hapi和hapii之间的累积频率中的差异(δf)并且预期为零。在使用比率的实施例中,期望值可以是一。为了统计学定量母系血浆中母系传递和未传递单倍型之间的尺寸差异程度,通过使用z得分来计算测试样品中以特定尺寸的尺寸差异的程度。z得分(例如,下式(3))可以通过比较由实际测试数据推导的δf150(以尺寸150bp的测试样品的δf)与源自以150bp的模拟参考数据的δf的平均值和标准差来计算。理论上,m预期为0。如果zs大于3,则提示hapi的胎儿遗传。如果zs小于-3,则提示hapii的胎儿遗传。

如果胎儿已遗传了hapii(分支1450),则与携带hapi等位基因的那些相比,携带hapii等位基因的更多片段存在于母系血浆1455中。源自胎儿的较短dna片段1452导致hapii的dna片段共同短于hapi的dna片段。图1470显示了hapi的尺寸分布和hapii的尺寸分布。如所示,相对于hapi的尺寸分布,hapii的尺寸分布向左移动(即,至更小的尺寸)。这种向较小dna片段的转变是胎儿dna片段1452的结果。

曲线1475显示了如根据图1470确定的累积尺寸分布。累积分布是图1470在每个尺寸下的曲线下面积的图。与hapi的那种相比,胎儿dna片段1452也使hapii的累积尺寸分布向较短末端移动。图1430显示了δf为负,因为shapii增加早于shapi。

相应地,如果胎儿已从母亲遗传了iapi,则hapi在母系血浆中过度表达。由于胎儿来源的hapi血浆dna较短,hapi的尺寸概况将相对于hapii的那种向左手移动,导致在150bp下hapi和hapii之间的累积尺寸差异(δf)中的增加。相反,如果胎儿已从母亲遗传了hapii,则在150bp下所得的δf将给出负值。

除了来自母系单倍型的小于特定尺寸的一定比例的血浆dna片段外,还可以使用尺寸分布的其它统计值。本文提供了其它例子。例如,可以使用来自一个尺寸范围的dna片段数目相对于在不同尺寸范围中的dna片段数目的比率。两个尺寸范围可以重叠,但至少具有不同的范围起点和终点。

c.结果

我们从先前的研究(newmi等人,jclinendocrinolmetab2014;99:e1022-30)中检索了27个病例的数据和用于节段i的数据。对每个家族中的母系、父系和先证者的基因组dna执行靶向大规模平行测序,以检测各自的基因型,并且推导出new等人研究中的亲代单倍型。如节段i中所述,进行关于母系基因组dna的基于微流体的连锁读取测序(10xgenomics)用于单倍型定相。在具有不同捕获探针(nimblegen)集合的所有样品中,使母系血浆dna经受靶向测序。每个文库在具有配对末端形式的hiseq2000(illumina)或hiseq1500(illumina)或nextseq500测序仪(illumina)上进行测序。测序数据在由10xtmgenomics提供的shortoligonucleotidealignmentprogram2(soap2)或longranger流水线上进行比对。

从我们分析的27个病例中,rhso分析的调用率为74.1%,其准确率为100%。两种母系单倍型之间的胎儿分数和尺寸差异越高,成功分类所需的dna分子数目越低。我们证实基于尺寸的方法作为以非侵入性的方式测试且验证单基因突变的胎儿遗传的独立测定是可行的,而不需要父系基因型信息。

1.hapi和hapii之间的尺寸差异程度

我们分别分析了携带hapi和hapii等位基因的dna片段的尺寸分布。从配对末端测序读数的末端的基因组坐标推导出每个血浆dna分子的大小。为了确定血浆dna分子的大小,可以通过大规模平行测序对整个分子进行测序,例如使用边合成边测序方法、半导体测序或单分子测序,例如通过oxford纳米孔系统或pacificbiosciences系统。

图15a-15c显示了根据本发明的实施例,在hapi和hapii之间的代表性尺寸概况。数据对应于病例mp31,其数据在图16的表1600中显示。

图15a显示了与hapi或hapii相关的各种大小的母系血浆dna分子的丰度的频率分布图。在范围为100至150bp的尺寸下,来自hapi的dna分子的比例高于hapii。

图15b显示了与hapi或hapii相关的母系血浆dna分子的尺寸分布的累积频率。来自hapi的dna分子的累积频率曲线相对地朝向hapii的左侧移动。

图15c显示了与hapi和hapii相关的母系血浆dna分子的尺寸分布之间的累积差异。在该实例中,对于每种病例计算在特定尺寸下的母系hapi和hapii之间的δf。在150bp尺寸下的δf大约为图15c中的最大值1532。因此,选择150bp作为截止值,以统计上定量尺寸差异的程度。

在来自hapi和hapii的dna分子之间没有尺寸差异的假设下,从模拟数据生成灰线1535。在其中来自hapi和hapii的dna分子之间不存在尺寸差异的假设下,通过将母系单倍型的两个相随机排列30次而生成模拟参考数据集合。计算模拟的hapi和hapii之间的累积频率中的差异(δf)并且预期为零。

为了统计上定量母系血浆中母系传递和未传递的单倍型之间的尺寸差异程度,通过以z得分(zs)的形式使用下式,通过与模拟参考数据比较来计算测试样品中以特定尺寸的尺寸差异程度:

其中δf150代表在尺寸150bp下的测试样品的δf;并且m和sd代表源自以150bp的模拟参考数据的δf的平均值和标准差。理论上,m预期为0。如果zs大于3,则hapi被提示传递给胎儿。如果zs小于-3,则hapii被提示传递给胎儿。zs是分离值的另一个例子,或可替代地是指定阈值的方法。

在病例mp31中,zs是39.44(表1600),其大于3。因此,它提示胎儿已遗传了母系hapi。结果与临床诊断一致。

2.prhso性能

图16是根据本发明的实施例的prhso和prhdo性能的总结。我们分析了上述两个实验数据集,以评估prhso的灵敏度和特异性。这两个数据集通过单倍型定相方法不同。new等人通过对母系、父系和先证者的dna进行基因分型推断母系单倍型。节段i应用基于微流体的连锁读取测序以直接定相母系单倍型。总之,我们测试了处于常染色体隐性疾病或x连锁疾病的风险中的27个家族,包括先天性肾上腺增生(cah)、埃-范二氏综合征(evc)、β地中海贫血、血友病和亨特综合征。母系血浆的平均测序深度范围为25至528倍(中值:217倍)单倍型人覆盖。母系血浆中的胎儿dna分数范围为1.4%至23.1%(中值:10.1%)。

使用rhso方法,对27个病例中的20个(74.1%)进行分类。正确推导出这个20病例的母系遗传状况。对于剩余7个病例,zs在3和–3之间,并且因此没有作出胎儿遗传的分类。

图17显示了根据本发明的实施例,在基于尺寸和计数的分析中反映的hapi和hapii之间的不平衡程度的关联性。为了比较rhso性能与无需父系单倍型的信息的基于计数的方法(prhdo)用于测量两种母系单倍型中每一种上的等位基因的剂量不平衡,无论分子尺寸如何(loym等人,scitranslmed2010;2:61ra91;fan,h.c.等人nature487,320-324,doi:10.1038/nature11251,2012)。

与rhso的74.1%相比,prhdo的调用率为85.2%。两种分类均具有100%的准确率。对于zc在3和-3之间的病例,不作出胎儿遗传。由rhso和prhd分析反映的,母系血浆样品中存在的母系hapi和hapii之间的分子不平衡量级是一致的(pearson’sr=0.9,p值<0.0001)。

相应地,我们已证实无父系的基于相对单倍型的尺寸缩短(prhso)的可行性,以从母系血浆中的无细胞dna的测序数据推断胎儿的母系遗传。该方法基于计算母系单倍型之间的尺寸差异。使用prhso,在处于一系列单基因疾病的风险中的27个家族中,20个胎儿突变谱被正确分类。

3.prhso和prhdo所需的最小分子数目

我们还使用计算机模拟研究了prhso或prhdo分类所需的血浆dna分子的最小数目。病例mp16被选择用于建模数据集,因为该病例具有足够的胎儿dna分数和足够的snp位点用于下游数据分析。我们首先通过分别检查胎儿特异性和母系特异性dna片段来分开胎儿和母系血浆dna尺寸概况。其中母亲是纯合且胎儿是杂合的snp基因座用于推导出胎儿特异性等位基因。另一方面,其中母亲是杂合的且胎儿是纯合的snp基因座用于推导出母系特异性等位基因。关于胎儿和母系血浆dna尺寸分布,我们可以通过将来自mp16数据集的不同血浆dna种类(母系或胎儿,短或长)计算包括到模拟样品数据集内,通过改变测序深度、胎儿dna分数和血浆dna尺寸,在计算机芯片上模拟不同数目的源自母系hapi和hapii的dna分子,所述dna分子由母亲和胎儿两者贡献。

胎儿dna分数是可以影响分析所需的dna分子数目的因素之一。在某个胎儿dna分数下,我们使用zs>3检查了prhso达到95%灵敏度所需的dna片段总数目,伴随模型数据集的使用。作为比较,还测定了以95%灵敏度的prhdo的dna片段总数目。

图18a显示了根据母系血浆样品中不同的胎儿dna分数,实现分类所需的每种单倍型块所分析的血浆dna分子的数目。随着胎儿dna分数对于prhso和prhdo两者增加,所需的分子数目呈指数减少。在相同的胎儿dna分数下,prhdo分类所需的分子数目低于prhso。与prhdo相比,prhso需要相对更多的分子以获得相同水平的准确度。这解释了为何通过prhso比prhdo分析更多未分类的病例。

图19显示了根据本发明的实施例,当样品中的胎儿dna级分从5%、10%、15%或20%倍增时,单倍型方框分类所需的血浆dna分子数目中的倍数变化。当存在胎儿dna分数中的2倍减少时,prhdo所需的dna分子数目将增加四倍,而rhso所需的dna分子数目中的倍数增加较少。

除了胎儿dna分数外,可以影响使用rhso以95%灵敏度进行分类所需的dna分子数目的另一个因素是母系血浆中母系来源的dna和胎儿来源的dna之间的尺寸分布的差异。为了理解尺寸分布差异与所需分子数目之间的关系,我们模拟了在150bp的尺寸下,从1%到20%在母系hapi和hapii之间的累积尺寸差异的范围(δf150)。我们然后分别计算了在5%、10%、15%和20%的胎儿dna分数下所需的dna分子数目。

图18b显示了根据胎儿和母系dna之间的不同程度的尺寸差异(δf)以及母系血浆样品中不同的胎儿dna分数,实现分类所需的每种单倍型块所分析的血浆dna分子的数目。图18b显示了在给定胎儿分数和δf150下达到95%灵敏度所需的理论分子数目。在特定的胎儿dna分数下,当存在δf150中的2倍减少时,需要分析的dna分子数目将大约增加四倍。

根据该计算机模拟分析,给定5%的胎儿dna、100倍的测序深度以及在150bp下一般大于20%的母系和胎儿dna分子之间的累积尺寸差异,所需的snp的最小数目将是310。参考模拟结果,未分类的病例可以通过对于prhso或prhdo计算待分析的分子数目不足加以解释。

图20是显示了根据本发明的实施例,关于真实病例的prhso和prhdo分析中所需的理论分子数目的表2000。表2000显示了大多数未分类的病例不具有分析的足够dna分子,如通过基于胎儿dna分数和该样品的dna尺寸差异的模拟预测的。因此,来自样品的增加量的分析,例如通过增加测序深度、或通过在其中胎儿dna分数可能变得更高的孕龄后期收集样品,可以允许胎儿遗传变得可分类。以加阴影的黄色的细胞代表其母系遗传不能通过prhdo或rhso确定的那些样品

关于rhso和prhdo的计算机模拟由r脚本(www.r-project.org)进行。对于rhso模拟分析,假设胎儿dna分数为f。假设分析了母系dna中的杂合等位基因。r程序中的“rbinom”功能用于模拟源自母系hapi和hapii的血浆dna分子,分别根据μ1和μ2的预期分数。如果胎儿遗传母系hapi,则μ1为(0.5+f/2)且μ2为(0.5-f/2)。根据胎儿和母系dna分子的经验尺寸分布,分别模拟母系血浆中的胎儿和母系dna大小。r程序中的“样品”功能用于随机抽样包含母系hapi和hapii的胎儿和母系dna大小的大小(模拟数据集a),基于由上述“rbinom”功能确定的相应血浆dna分子量。另一方面,其中假设剂量不平衡不存在于母系血浆中的母系hapi和hapii之间的数据集b通过将μ1和μ2分配为0.5来模拟。在模拟数据集a和b中确定δf150。模拟数据集b中的δf150用于在式(3)中产生m和sd。因此,对于数据集a,我们可以在rhso模拟分析中计算z得分。对于prhdo模拟分析,我们可以直接应用“rbinom”功能与μ1和μ2,以模拟血浆中母系hapi和hapii之间存在的等位基因不平衡。其后,式(1)用于计算prhdo模拟分析中的z得分。

4.使用滑动窗口进行检测

准确的胎儿单倍型确定还可以取决于重组的准确检测,即其中遗传的胎儿单倍型在hapi和hapii之间变换。例如,实施例可以通过分析具有不连续大小的单倍型块并且一次解释一个块来鉴定重组。可替代地,可以使用滑动窗口方法来确定胎儿在较小基因组区域内已遗传了哪种单倍型,并且只要母系血浆中的单倍型不平衡仍然指向相同的单倍型,则继续延长该区域。例如,使用上式(1),200kb滑动窗口可以用于分析单倍型块剂量不平衡。200kb窗口预期具有200个snp(每千碱基1个snp)。因此,假设平均杂合率为25%,将分析50个杂合snp位点。

根据图18a,20,000个分子(即400x覆盖率/snp)将允许妊娠中单倍型块遗传的分类,其中胎儿dna分数为5%。如果我们检测到两个连续滑动窗口(或其它数目的连续窗口,例如3、4等)之间的分类变化,则提示存在于这两个连续单倍型块之间的重组。可以使用其它窗口尺寸,包括但不限于5kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、300kb、400kb、500kb。窗口大小的选择可以根据待分析的实际snp的数目、实现的测序深度以及重组率来调整。较高的测序深度和较高的snp密度将导致所需的较小窗口尺寸;并且因此可以实现检测重组中的更高分辨率。只要下一个区域提示替代单倍型显示不平衡,块的延长就可以停止。

图21显示了根据本发明的实施例,使用基于滑动窗口的prhdo的重组鉴定。使用此类累积动态方法,我们可以正确鉴定在病例mp21中存在的重组位点。相应地,实施例可以对于形成彼此重叠的滑动窗口的其它染色体区域重复。当指定数目的连续滑动窗口指示对遗传的新母系单倍型的改变时,可以鉴定重组。

5.易错区域中的rhso准确度

在一些情况下,基于尺寸的方法可以给予比基于计数的分析更好的性能。例如,对于易错区域,包括重复、低复杂性、高gc%区域,映射和杂交引入额外的偏差,这影响计数表示,因此影响rhdo的准确度和灵敏度。然而,对于尺寸分析,关于目的区域内的尺寸概况的关注可以最小化源自共享一些序列相似性的不同区域的影响。

为了说明这一点,我们使用位于上述易错区域的那些dna片段重新分析了病例mp10623。因此,prhdo将产生zc值为11.97的调用,提示hapi传递到胎儿上,但根据实际临床信息,胎儿实际上遗传了母系hapii。相比之下,prhso仍然给出zs值为-12.42的正确调用(图22)。prhso的此类性质对于分析位于端粒和着丝粒区域内的那些基因将是特别重要的,例如但不限于f8和hba1基因。

图22显示了根据本发明的实施例,关于易错区域的prhso和prhdo结果。在图22中,当疾病相关基因位于端粒和着丝粒区域内时,例如但不限于与血友病有关的f8基因以及与地中海贫血有关的hba1,提示rhso在那些易错区域中更稳固,这将优于prhdo。

d.讨论

prhso和prhdo方法还将应用扩展为没有父系单倍型信息而确定母系遗传。避免测序父系样品的需要,可以降低测定的成本。另一方面,父系标本在实际临床环境中不可用的情况并不少见。prhso和prhdo仍然可以允许检查疾病相关的母系单倍型是否传递到胎儿上。因此,可以实现母系遗传的常染色体显性遗传病症的产前测试(saitoh等人,lancet2000;356:1170)或常染色体隐性遗传病症的排除(chiurw等人,lancet2002;360:998-1000)。

胎儿dna分数和母系血浆中母系和胎儿来源的dna的尺寸概况是影响rhso分析中所需的dna分子数目的两个关键变量。例如,在病例mp3中,胎儿dna分数仅为1.4%,并且因此需要更多的测序读数用于分类。对于病例mp4,rhso中所需的特别高数目的dna分子可以通过实际上在母系和胎儿血浆dna尺寸概况之间不存在差异来加以解释。

另外,由于rhso方法包括尺寸过滤,因此需要比prhdo分析更多的dna分子以在rhso中实现相同的灵敏度。因此,由于可用于rhso分析的血浆dna分子数目不足,ha1和m12418可以仅在prhdo分析中分类。

分析中使用的测序深度和snp的数目是影响rhso准确度的两个主要因素。一般而言,分析的杂合snp基因座越多,实现相同水平的准确度所需的测序深度越低。在我们的模拟分析中,rhso可以准确地推导出胎儿的母系传递突变遗传的胎儿遗传,条件是胎儿dna分数为3%和900个杂合snp,其测序深度为100倍(图18a)。在该研究中,未分类病例中使用的血浆dna分子数目低于所需的理论分子数目。在一些实施例中,可以通过增加测序深度或扩展捕获探针以靶向更多snp来分析更多dna分子,来实现分类。

我们的经验数据和模拟数据显示,prhdo需要比prhso分析更少量的血浆dna或更少的测序,因此prhdo可以通过单末端测序执行。然而,如果对于prhdo和prhso两者均分析了足够数目的信息性dna分子,则它们可以提供相互的分类结果确认。类似地,rhdo和rhso可以提供相互的确认。因此,prhso可以作为prhdo的补充或协同方法用于母系单倍型遗传的非侵入性检测,包括使用母系血浆dna的单基因疾病。例如,当扩展基因实验对象组(即,靶向突变的数目)用于群体筛选时,prhso可以在单基因疾病的nipt检测中提供另外的价值。当基因实验对象组扩展时,仅使用一种技术可以导致假阳性率增加,但两种技术的使用可以减少假阳性率。对于一些高风险突变,当任一技术指示遗传时,可能期望将突变鉴定为被遗传,以便改善灵敏度。

e.没有伴侣信息确定遗传单倍型的方法

图23是使用从怀孕母亲获得的生物样品,确定胎儿从怀孕母亲遗传的胎儿基因组的一部分的方法2300的流程图。怀孕母亲具有在染色体区域中具有第一母系单倍型和第二母系单倍型的母系基因组。生物样品包含母系和胎儿dna片段的混合物。

在方框2310处,确定第一母系单倍型和第二母系单倍型。基于一种或多种其它样品中的dna分析进行测定。例如,生物样品可以是来自血液样品的母系血浆样品,而另一种样品可以是来自血液样品的血沉棕黄层。因此,母系血浆样品与血沉棕黄层不同。测序可以包括dna分子的连锁读取测序,例如,其至少为1kb长。

第一母系单倍型可以确定为在染色体区域中的多个基因座处具有第一等位基因,其中所述母系基因组在多个基因座处是杂合的。第二母系单倍型可以确定为在染色体区域中的多个基因座处具有第二等位基因,其中第二等位基因不同于第一等位基因。方框2310可以以与图4的方框410类似的方式执行。

在方框2320处,选择多个基因座的集合。该基因座集合的选择可以不使用父系等位基因的任何测量。例如,即使遗传的父系单倍型未知,也可以仅选择该区域中的杂合基因座。在一些实施例中,关于人的百分比(例如,在包括母亲的亚群中)的群体统计数据可以用于选择其中胎儿可能是纯合的基因座。相应地,基因座集合的选择可以访问对应于胎儿的父亲和/或胎儿本身的群体的群体统计数据库(例如,如果由于母亲来自与父亲不同的群体,群体对于胎儿是不同的),其中排除了具有高于群体的截止值的杂合流行率的基因座。杂合的流行率可以被视为等价于纯合的流行率,因为两者是相关的。

由于不知道父系遗传的等位基因,胎儿基因组可以在基因座集合的一些(例如,第一部分)中是纯合的,并且在基因座集合的一些(例如,第二部分)中是杂合的。其中胎儿是杂合的位置一般不指示哪种单倍型被遗传,但由于胎儿在一些基因座处是纯合的,因此可以检测到两种单倍型中的不平衡。在其处胎儿是纯合的基因座的比例可以不同,例如,20%、30%、40%、50%、60%、70%、80%、90%或100%。

在一些实施例中,多个基因座的集合可以包括鉴定染色体区域中的第一母系单倍型中的第一位置处的突变,并且选择位于突变的第一位置的指定距离内的基因座集合。本文提供了示例性距离。

在方框2330处,从得自怀孕母亲的生物样品中分析多个无细胞dna片段。方框2330可以以与图3的方框320类似的方式执行。可以经由靶向程序分析多个无细胞dna片段,例如,当待检测突变时。例如,多个无细胞dna片段的测序可以靶向包括突变的基因组窗口。另一个实施例可以使用对包括突变的基因组窗口特异性的探针和/或引物。

在方框2340处,鉴定对应于每种单倍型的dna片段组。方框2340可以以与图3的方框330和图4的方框430类似的方式执行。例如,基于具有第一等位基因之一的这些dna片段中的每一个,第一组dna片段可以鉴定为对应于第一母系单倍型。基于具有第二等位基因之一的这些dna片段中的每一个,第二组dna片段可以鉴定为对应于第二母系单倍型。

在方框2350处,计算两组各自中的dna片段的性质。方框2350可以以与图4的方框435类似的方式执行。在各种实施例中,可以根据rhdo或rhso确定特性。例如,第一值可以是第一组dna片段的平均尺寸,并且第二值可以是第二组dna片段的平均尺寸。作为另一个例子,第一值qhapi是第一组中短于截止尺寸的dna片段的分数,并且第二值qhapii是第二组中短于截止尺寸的dna片段的分数。作为另一个例子,第一值fhapi和第二值fhapii对于各自的单倍型定义为f=∑w长度/∑n长度,其中∑w长度表示相应组中长度等于或小于截止尺寸w的dna片段的长度之和;并且σn长度表示相应组中长度等于或小于n个碱基的dna片段的长度之和,其中n大于w。

在方框2360处,计算第一值和第二值之间的分离值。方框2360可以以与图3的方框3340类似的方式执行。

在方框2370处,当分离值大于第一阈值时,确定胎儿遗传了第一母系单倍型。在各种实施例中,第一阈值可以是绝对数目、百分比或其它标准化值(例如,通过方差调节)。例如,当分离值是zs或zc时(如等式(1)和(3)中),第一阈值可以是3。可以根据所需特异性和灵敏度,以及基于各种其它因素,例如所选择的基因座集合的群体统计学和测量的胎儿浓度,选择不同的阈值。作为另一个例子,分离值可以包括比率,其影响待确定的z得分中的分子(例如,δf是比率),但方差的使用仍然可以是待使用的阈值3(或标准差的其它数目)。

在一些实施例中,使用用于限定估计标准差的随机变异的统计分布来选择第一阈值和第二阈值。例如,统计值可以除以给定统计分布的预期变异量(例如,泊松分布,如本文所述)。

在方框2380处,当分离值小于第二阈值时,确定胎儿遗传了第二母系单倍型。例如,当分离值是zs或zc时(如等式(1)和(3)中),至少在使用z得分时,第一阈值可以是-3或其它负值。在一些实施例中,两个阈值可以是正的,例如,当在两个值之间取得比率时。例如,对于对应于比率中的分子的单倍型,一个阈值可以是2,并且对于分母中的单倍型,另一个阈值可以是1/2。

也可以使用其它类型的比率。例如,分母可以包括两种单倍型的计数总和。此类变化将影响所使用的阈值,但此类阈值在用于确定分离值的不同技术之间具有限定的关系。在分母中具有值总和的此类例子中,可以确定两个分离值,并且可以将每个分离值与相同的阈值进行比较,从而确认哪种单倍型被过度表达。此类技术与确定一个分离值且与两个阈值进行比较相同,因为它只是将变换应用于分离值和第二阈值。

iii.示例性系统

图24示出了根据本发明的实施例的测量系统2400。如所示的系统包括样品2405,例如样品支架2410内的无细胞dna分子,其中样品2405可以与测定2408接触,以提供物理特征2415的信号。样品支架的例子可以是流动池,其包括测定的探针和/或引物或液滴通过其移动的管(其中所述液滴包括测定)。来自样品的物理特征2415(例如,荧光强度、电压或电流)由检测器2420进行检测。检测器可以以间隔(例如,周期性间隔)获取测量,以获得构成数据信号的数据点。在一个实施例中,模拟数据转换器多次将来自检测器的模拟信号转换成数字形式。数据信号2425从检测器2420发送到逻辑系统2430。数据信号2425可以存储在局部存储器2435、外部存储器2440或存储设备2445中。

逻辑系统2430可以是或可以包括计算机系统,asic,微处理器等。它还可以包括显示器(例如,监视器、led显示器等)和用户输入装置(例如,鼠标、键盘、按钮等),或者与其耦合。逻辑系统2430和其它部件可以是独立或网络连接的计算机系统的部分,或者它们可以直接附着至或掺入装置(例如,测序装置)中,所述装置包括检测器2420和/或样品支架2410。逻辑系统2430还可以包括在处理器2450中执行的软件。逻辑系统2430可以包括存储用于控制测量系统2400以执行本文描述的任何方法的指令的计算机可读介质。

本文提到的任何计算机系统可以利用任何合适数目的子系统。此类子系统的例子显示于图25中的计算机系统10中。在一些实施例中,计算机系统包括单个计算机仪器,其中子系统可以是计算机仪器的部件。在其它实施例中,计算机系统可以包括多个计算机仪器,各自是具有内部部件的子系统。计算机系统可以包括台式计算机和膝上型计算机,平板电脑,移动电话和其它移动装置。

图25中所示的子系统经由系统总线75互连。显示了耦合到显示适配器82的另外子系统,例如打印机74、键盘78、存储设备79、监视器76及其它。耦合到i/o控制器71的外围装置和输入/输出(i/o)装置可以通过本领域已知的任何手段例如输入/输出(i/o)端口77(例如,usb、)连接到计算机系统。例如,i/o端口77或外部接口81(例如以太网、wi-fi等)可以用于将计算机系统10连接到广域网如因特网、鼠标输入装置或扫描仪。经由系统总线75的互连允许中央处理器73与每个子系统通信,并且控制来自系统存储器72或存储设备79(例如,固定磁盘例如硬盘驱动器或光盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储设备79可以体现为计算机可读介质。另一子系统是数据收集装置85,例如相机、麦克风、加速度计等等。本文提到的任何数据都可以从一个部件输出到另一个部件,并且可以输出给用户。

计算机系统可以包括多个相同的部件或子系统,例如,通过外部接口81、通过内部接口或经由可以从一个部件连接到另一个部件且去除的可移动存储设备连接在一起。在一些实施例中,计算机系统、子系统或仪器可以通过网络进行通信。在此类情况下,一台计算机可以视为客户机而另一台计算机视为服务器,其中每台计算机都可以是相同计算机系统的部分。客户机和服务器可以各自包括多重系统、子系统或部件。

实施例的各方面可以使用硬件电路(例如,专用集成电路或现场可编程门阵列)以控制逻辑的形式和/或使用具有一般可编程处理器的计算机软件以模块或集成方式来实现。如本文使用的,处理器可以包括单核处理器、相同集成芯片上的多核处理器、或单个电路板或联网上的多个处理单元以及专用硬件。基于本文提供的公开内容和教导,本领域普通技术人员将知道且了解使用硬件以及硬件和软件的组合来实施本发明的实施例的其它方式和/或方法。

本专利申请中描述的任何软件组件或功能可以作为由处理器执行的软件代码实施,使用任何合适的计算机语言,例如java、c、c++、c#、objective-c、swift或脚本语言例如使用传统或面向对象技术的perl或python。软件代码可以作为一系列指令或命令存储在计算机可读介质上用于存储和/或传输。合适的非暂时性计算机可读介质可以包括随机存取存储器(ram)、只读存储器(rom)、磁性介质如硬盘驱动器或软盘、或光学介质如光盘(cd)或dvd(数字通用盘)、闪速存储器等等。计算机可读介质可以是此类存储或传输装置的任何组合。

还可以使用适于经由符合各种协议的有线、光学和/或无线网络包括因特网的传输的载波信号来编码且传输此类程序。像这样,可以使用由此类程序编码的数据信号来创建计算机可读介质。用程序代码编码的计算机可读介质可以与兼容装置一起打包或者与其它装置分开提供(例如,经由因特网下载)。任何此类计算机可读介质可以位于单个计算机产品(例如,硬盘驱动器、cd或整个计算机系统)上或其内,并且可以存在于系统或网络内的不同计算机产品上或其内。计算机系统可以包括监视器、打印机或其它合适的显示器,用于向用户提供本文提到的任何结果。

本文描述的任何方法可以用包括一个或多个处理器的计算机系统完全或部分地执行,所述计算机系统可以被配置为执行步骤。因此,实施例可以涉及配置为执行本文描述的任何方法的步骤的计算机系统,潜在地具有执行分别步骤或分别步骤组的不同部件。尽管呈现为编号步骤,但本文方法的步骤可以在相同时间或不同时间或以不同次序执行。另外,这些步骤的一部分可以与来自其它方法的其它步骤的一部分一起使用。此外,步骤的全部或部分可以是可选的。另外,任何方法的任何步骤都可以用模块、单元、电路或用于执行这些步骤的系统的其它手段来执行。

特定实施例的具体细节可以以任何合适的方式组合,而不背离本发明的实施例的精神和范围。然而,本发明的其它实施例可以涉及与每个个别方面相关的特定实施例,或这些个别方面的特定组合。

本发明的示例性实施例的上文描述已呈现用于说明和描述的目的。它并不预期是详尽的或将本发明限制于所述的精确形式,并且鉴于上文教导,许多修改和变化是可能的。

除非特别指出相反,否则“一个”、“一种”或“该/所述”的叙述预期意指“一个或多个/一种或多种”。除非特别指出相反,否则“或”的使用预期意指“包含性或”,而不是“排他性或”。对“第一”部件的提及不一定要求提供第二部件。此外,除非明确说明,否则对“第一”或“第二”部件的提及不将所提及的部件限制到特定位置。术语“基于”预期意指“至少部分地基于”。

本文提到的所有专利、专利申请、出版物和说明书以引用的方式整体并入用于所有目的。没有任何内容被承认是现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1