一种遗传变异检测方法与流程

文档序号:12542361阅读:681来源:国知局
一种遗传变异检测方法与流程
本发明涉及遗传变异检测领域,特别是拷贝数变异,例如微缺失/微重复及非整倍性的检测。

背景技术:
拷贝数变异(Copynumbervariation,CNV)是指DNA片段范围从kb到Mb的亚微观突变,表现为拷贝数增加或减少。拷贝数变异和疾病之间关系的研究已经有很长的历史。对于一些胚系突变拷贝数变异(即父母均没有,胎儿由于自身变异而产生的拷贝数变异),有观点认为,片段越大,越容易发生先天异常,例如染色体非整倍性(aneuploidy)疾病(如T21、T18等)和染色体微缺失/微重复综合征都是公认的胚系突变拷贝数变异相关疾病。人类染色体微缺失/微重复综合征(microdeletion/microduplicationsyndromes)是由人类染色体上出现微小片段缺失或重复,即DNA片段拷贝数变异,引起表型复杂多变的疾病类型,在围产儿和新生儿中发病率较高,可导致严重的疾病和异常,如先天性心脏病或心脏畸形、严重的生长发育迟缓、外貌或肢体畸形等。另外,微缺失综合征也是除唐氏综合征与X染色体易损综合征外引起智力发育迟缓的主要原因之一【KnightSJL(ed):GeneticsofMentalRetardation.MonogrHumGenet.Basel,Karger,2010,vol18,pp101-113(DOI:10.1159/000287600)】。近年来,在出生缺陷发病率统计中排在首位的先天性心脏病以及在遗传咨询诊断门诊中排在前列的智力低下、脑瘫和先天性耳聋都与微缺失综合征有关。常见的微缺失综合征包括22q11微缺失综合征、猫叫综合征、Angelman综合征、AZF缺失等。尽管每种微缺失综合征发病率都很低,其中较常见的22q11微缺失综合征、猫叫综合征、Angelman综合征、Miller-Dieker综合征等发生率分别为1∶4000(活产婴儿)、1∶50000、1∶10000、1∶12000,但由于临床检测技术的限制,大量的微缺失综合征患者在产前筛查和产前诊断中无法检出,甚至在婴儿出生数月甚至数年后出现典型的临床表征后,回溯性的寻找原因时,也因检测技术的限制无法对病因进行确诊(https://decipher.sanger.ac.uk/syndromes)。由于部分类型的微缺失综合征无法根治,在出生后数月或数年内去世,给社会和家庭带来沉重的精神和经济负担。据不完全统计,全球“快乐木偶综合征”(Angelman综合征)患者已达1.5万名,其他类型的染色体微缺失综合征患者数量也在逐年增加。因此,孕前对临床疑似患者和有相关不良孕产史的父母进行染色体微缺失/微重复检测,有利于提供遗传咨询和提供临床决策依据;在孕期进行早期产前诊断可有效防止患儿出生或为患儿提供出生后的治疗方法提供依据【BretelleF,etal.Prenatalandpostnataldiagnosisof22q11.2deletionsyndrome.EurJMedGenet.2010Nov-Dec;53(6):367-70】。然而,由于这类疾病的染色体变异水平微小而无法用常规的临床方法,例如染色体核型分析方法等(其分辨率为10M以上),检出【MalcolmS.Microdeletionandmicroduplicationsyndromes.PrenatDiagn.1996Dec;16(13):1213-9】。目前,针对微缺失/微重复综合征的产前诊断主要采用有创胎儿羊水或者其他组织的方法进行分子诊断。目前,有创的分子诊断方法主要有高分辨率染色体核型分析、FISH(荧光原位杂交)、ArrayCGH(比较基因组杂交)、MLPA(多重连接探针扩增技术)和PCR的方法等。其中,遗传学诊断以FISH检查为黄金标准,可以有效地检测出大部分染色体片段缺失。然而,由于有创取样需要一定的手术或者细胞培养,从时间效率和资源消耗的角度而言,适合充当诊断指标,而不适合作为一种普适临床筛查的方法。在微缺失/微重复综合征的无创筛查方法方面,也有一些尝试。例如,在2011年11月发表的一项无创胎儿微缺失综合症检测研究中,研究者对母亲孕期血浆进行了高深度测序,产生了大约243百万条测序短序列(shortreads),检测出胎儿从12p11.22到12p12.1的一个4Mb左右的微缺失【DavidPeters,etal.NoninvasivePrenatalDiagnosisofaFetalMicrodeletionSyndrome.NEnglJMed2011;365:1847-1848】。但是,产生如此大的数据量,无论从资源消耗,还是时间效率而言,都是不适合临床使用。结合上述内容可知,目前对于染色体微缺失/微重复综合征的产前检查方法中,还没有可行的普适筛查方法。本领域中需要一种新的可信的胎儿拷贝数变异筛查方法,以对已知的位点进行鉴定,并对未知的位点进行发现性探索。

技术实现要素:
随着高通量测序技术的不断发展与测序成本的不断降低,测序技术在产前筛查方面的研究使得通过高通量测序进行染色体拷贝数变异和非整倍性等遗传变异,特别是胎儿非整倍性染色体变异筛查,分析得到了越来越广泛的应用。为了进行遗传变异检测,本发明设计了一种基于高通量测序技术进行遗传变异筛查的方法,该方法可使用拷贝数变异及非整倍性等遗传变异的检测,具有通量高、特异性高、定位准确的特点。本发明的方法包括获取测试样品并提取DNA、进行高通量测序对获得的数据进行分析,得出检测结果。本发明提供了一种遗传变异检测方法,其包括以下步骤:1)从测试样本获得测序序列,例如,所述测序序列片段长度可以为25-100nt,所述测序序列片段数目可以为至少1百万条。2)将所述测序序列与参考基因组序列进行比对;3)将所述参考基因组序列划分窗口,统计比对至各窗口的测序序列数目,基于所述测序序列数目得到各窗口的统计量;4)对于一段参考基因组序列,基于其上所有窗口的统计量在该段参考基因组序列上的变化,获得两侧窗口的统计量发生显著性变化的位置,这些位置即为测试样本遗传变异位点在参考基因组序列上的位置。在一个实施方案中,本发明方法中的所述遗传变异位点是所述统计量由递增变成递减的拐点与下一个同样的拐点之间的中位点,且两个遗传变异位点之间包括至少50,至少70,至少100,优选100个窗口长度;上述位点、拐点、中位点是指统计量所对应的窗口所对应的染色体位置,可以用窗口的起点、中点、终点等任意位置来代表。在具体一个实施方案中,本发明方法还进一步包括步骤:5)对遗传变异位点进行筛选,得到筛选后的遗传变异位点,例如,上述步骤5)为:对于每个遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列,统计所述两段序列包含的窗口的统计量组成的两个数值群体的差异,去除其差异显著性值最大且大于预设阈值的遗传变异位点;重复上述过程,直至所有遗传变异点的差异显著性值都小于预设阈值,其中,所述差异显著性例如可以通过游程检验进行,去除游程检验显著性值最大且大于预设阈值的遗传变异位点;重复上述过程,直至所有遗传变异点的游程检验显著性值都小于预设阈值。在一个实施方案中,上述步骤5)中使用的预设阈值可以通过以下步骤获得:a)用对照样本代替测试样本,根据本发明的方法得到遗传变异位点;b)对于每个遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列,统计它们包含的窗口的统计量组成的两个数值群体的差异,去除所述差异最不显著的遗传变异位点;c)重复上述步骤b),直至剩余候选突破点数等于预期值Nc,Nc=Lc/T,Lc是基因组序列的长度,理论极限精度T是理论上能检测到的片段大小,当窗口大小均值为w,窗口滑动长度为S,游程检验的每个群体窗口数为N时,理论极限精度T=w+S*N,在所有剩余候选突破点的显著性值中,最小值为所述显著性阈值。本发明还提供了一种遗传变异检测方法,包括步骤:1)根本发明的方法得到一段参考基因组序列上的遗传变异位点;2)将所述遗传变异位点之间的片段进行置信选择的步骤。在本发明的一个实施方案中,上述步骤2)置信选择的步骤为:i)通过窗口的统计量的分布模式,计算统计量的分布概率,并设定阈值;ii)将筛选后的遗传变异位点之间的片段中窗口的统计量均值与所述阈值进行比较,通过比较结果确定遗传位点之间的片段是否异常。在本发明的另一实施方案中,上述步骤2)置信选择的步骤为:i)通过窗口的统计量的分布模式,计算统计量的分布概率,并设定第一阈值和第二阈值;ii)将筛选后的遗传变异位点之间的片段中窗口的统计量均值与所述第一阈值和第二阈值进行比较,如果片段中窗口的统计量小于第一阈值,则该片段为片段缺失,如果大于第二阈值,则该片段为片段重复,其中,所述第一阈值为统计量出现的累计概率在小于或等于0.1处,优选在小于或等于0.01处,最优选在0.05处的统计量的值,并且/或者所述第二阈值可以为统计量出现的累计概率为在大于或等于0.9处,优选在大于或等于0.99处,最优选在0.95处的统计量的值。本发明还提供了一种计算机可读介质,承载一系列可执行代码,其可执行本发明的遗传检测方法。本发明还提供了一种胎儿遗传变异的检测方法,其包括一下步骤:获取含胎儿核酸的母体样本;对所述母体样本进行测序;使用权利要求1-16任一项所述方法检测遗传变异的步骤。在本发明的一个实施方案中,所述母体样本为母体外周血。与目前的遗传变异检测的方法对比,本发明的优越性主要有一下几点:(1)临床可行性:我们只使用5M左右的测序数据,可检测出5Mb左右的CNV片段。而已报道方法则使用了接近243M,我们的方法大大的减少了数据产生的成本和时间。(2)可扩展性:除了通过增加测序量之外,我们可以通过扩大对照组数量来增大精度,以减轻对起始DNA量的压力。(3)更稳定,更加全面:已报道文章中,并无明确指出自身的操作细节,而本发明设计数据群体校正,片段化条件优选等的各个方面。附图说明图1为本发明一个实施例对染色体进行遗传变异分析的简要流程图。图2A为S67的染色体数字核型图。图2B为S10的染色体数字核型图。图2C为S14的染色体数字核型图。图2D为S18的染色体数字核型图。图2E为S49的染色体数字核型图。图2F为S55的染色体数字核型图。图2G为S82的染色体数字核型图。图2H为S103的染色体数字核型图。具体实施方式实施例中表的说明:表1为实施案例各样本CNV结果列表。表2为实施案例各样品的aCGH与核型检测结果。表3.本实施案例的检测结果与标准核型检测结果。根据本发明的实施例,测试样本为含有核酸样本,核酸的类型并不受特别限制,可以是脱氧核糖核酸(DNA),也可以是核糖核酸(RNA),优选DNA。本领域技术人员可以理解,对于RNA,可以通过常规手段将其转换为具有相应序列的DNA,进行后续检测和分析。另外,测试样本的属性也不受特别限制。根据本发明的一些实施例,可以采用基因组DNA样本,也可以采用由基因组DNA的一部分作为测试样本。根据本发明的实施例,测试样本的来源并不受特别限制。根据本发明的示例,可以采用孕妇样本作为测试样本,从而可以从其中提取含有胎儿遗传信息的核酸样本,进而可以对胎儿的遗传信息和生理状态进行检测和分析。根据本发明的实施例,可以使用的孕妇样本的例子包括但不限于孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞。发明人发现,通过对上述孕妇样本进行提取核酸样本,能够有效地对胎儿基因组中的遗传变异进行分析,实现对胎儿无损的产前诊断或检测。虽然本发明可以进行无创胎儿遗传变异检测是一种优势,例如所述样本是孕妇的外周血,但是本发明的方法也适用于有创检测,例如所述样本可以来自胎儿的脐带血;所述的组织可以是胎盘组织或绒毛膜组织;所述的细胞可以是未培养或培养过的羊水细胞、绒毛组细胞。在本发明中,待测受试者和正常受试者是同一物种。同时,本发明的变异检测并不一定用于疾病诊断或相关的目的,因为多态性的存在,一些相对参考基因组的变异存在并不代表着患病风险或健康状况,可以纯粹是遗传多态性科学研究的用途。在本发明中,对照样本是相对测试样本而言的。例如在与疾病检测相关的方法中,对照样本是指正常样本。例如,在本发明的一个实施方案中,测试样本为母体外周血,相应的对照样本则为怀有正常胎儿的正常母亲的外周血。根据本发明的实施例,从测试样本提取核酸样本的方法和设备,也不受特别限制,可以采用商品化的核酸提取试剂盒进行。在本发明的方法中,所述窗口具有相同的参考唯一比对序列(referenceuniquereads)数目。参考唯一比对序列是指具有唯一序列的染色体片段,这种片段可以确定地定位于单一染色体位置,染色体的参考唯一比对序列可基于公开的染色体参考基因组序列例如hg18或hg19进行构建。获得参考唯一比对序列的过程,一般包括,将参考基因组切割为任意固定长度的序列,将这些序列比对回参考基因组,选择唯一比对到参考基因组的序列为参考唯一比对序列。所述固定长度依测序仪的测序结果序列长度而定,具体可参考平均长度。不同测序仪得到的测序结果长度是不同的,具体每一次测序,测序结果的长度也可能不同,该长度的选取存在一定主观和经验因素。本发明的一个实施例中,参考唯一比对序列长度选择是根据测序结果的实际序列长度进行,例如25-100bp,对于illumina/Solexa系统,例如可选50bp,则每个窗口含有的参考唯一比对序列数目控制在80万-90万。在本发明的方法中,所述窗口之间可以有重叠或无重叠。本发明的一个实施例中,相邻窗口之间距离1kb-100kb,优选5kb-20kb,更优选10kb。这一距离可根据样本中胎儿DNA的丰度进行调整。调整的原理是每一个窗口对应一个统计量及一个染色体位置,也就意味着窗口的距离决定了检测的精度。精度越高,母体来源的背景也越高,越不容易区分遗传变异的来源。在本发明的方法中,所述统计量可以是测序序列数目本身,但优选经过误差校正(例如GC校正)和/或数据标准化的统计量,目的是统计量满足统计学的常见分布,例如正态或标准正态分布。便于对统计量进行后续的统计分析。在本发明的一个实施例中,是相对所有窗口的平均测序序列数目进行标准化处理。在本发明的一个实施例中,标准化包括下文求Z值的过程。在一个实施方案中,所述统计量是对比对至窗口的测序序列数目进行标准化处理得到的近似符合正态分布的统计量。在一个实施方案中,所述标准化是基于比对至所有窗口的平均测序序列数目。在一个实施方案中,所述统计量是近似符合标准正态分布的统计量。在本发明中,测序序列是指测序仪输出的序列片段,即reads,优选约25-100nt。在本发明中,所述DNA分子的获取可以采用盐析法、柱层析法、磁珠法、SDS法等常规DNA提取方法,优选采用磁珠法。所谓的磁珠法,是指血液、组织或细胞经过细胞裂解液和蛋白酶K的作用后得到裸露的DNA分子,利用特异性的磁珠对DNA分子进行可逆性的亲和吸附,经漂洗液清洗除去蛋白质、脂质等杂质后,用纯化液将DNA分子从磁珠上洗脱下来。磁珠是本领域中公知的,可市购获得,例如从Tiangen。在本发明中,一般情况下,对于获自样品的DNA分子直接进行测序和后续步骤已经可以实现本发明的目的,提取的DNA可以不需经过处理即用于后续步骤。在一些优选实施方案中,可以仅对电泳主带集中在50-700bp,优选100-500bp,更优选150-300bp,特别是约200bp大小的片段进行研究。本发明一些更优选实施方案中,可以将DNA分子打断为电泳主带集中在一定大小的片段,例如50-700bp,优选100-500bp,更优选150-300bp,特别是200bp附近,然后进行后续步骤。所述DNA分子的随机打断处理可以采用酶切、雾化、超声、或者HydroShear法。优选地,采用超声法,例如Covaris公司的S-series(基于AFA技术,当由传感器释放的声能/机械能通过DNA样品时,溶解气体形成气泡。当能量移除后,气泡破裂并产生断裂DNA分子的能力。通过设置一定的能量强度和时间间隔等条件,可将DNA分子打断至一定范围的大小。例如,具体原理和方法可以参见Covaris公司的S-series说明书)。在本发明中,所述的突破点或候选突破点(breakpoint),是潜在或存在的遗传变异位点,按照惯例,该位点表现为参考基因组上的位置。本发明中,遗传变异位点与突破点两个概念之间在特定情况下是可相互转换的,仅仅是表述上的不同,在不同的阶段都可能用以表示潜在在或确定存在的遗传变异在参考基因组上位置坐标。本发明中,从测试样本获得测序序列可以采用测序的方法进行,所述测序可通过任何测序方法进行,包括但不限于双脱氧链终止法;优选高通量的测序方法,包括但不限于第二代测序技术或者是单分子测序技术。所述第二代测序平台(MetzkerML.Sequencingtechnologies-thenextgeneration.NatRevGenet.2010Jan;11(1):31-46)包括但不限于Illumina-Solexa(GATM,HiSeq2000TM等)、ABI-Solid和Roche-454(焦磷酸测序)测序平台;单分子测序平台(技术)包括但不限于Helicos公司的真实单分子测序技术(TrueSingleMoleculeDNAsequencing),PacificBiosciences公司单分子实时测序(singlemoleculereal-time(SMRTTM)),以及OxfordNanoporeTechnologies公司的纳米孔测序技术等(Rusk,Nicole(2009-04-01).CheapThird-GenerationSequencing.NatureMethods6(4):2446(4)。测序类型可以为single-end(单向)测序和Pair-end(双向)测序,测序长度可以为50bp、90bp、或100bp。在本发明的一个实施方案中,所述的测序平台为Illumina/Solexa,测序类型为Pair-end测序,得到具有双向位置关系的100bp大小的DNA序列分子。本发明的一个实施方案中,测序的测序深度可以依据检测的胎儿染色体变异片段大小确定,测序深度越高,检测的灵敏度越高,即可检出的缺失和重复的片段越小。测序深度可以是1-30×,即总数据量为人类基因组长度的1-30倍,例如在本发明的一个实施方案中,测序深度为0.1×,即2倍(2.5×108bp)。当待测的DNA分子来自多个受试样本时,每个样本可以被加上不同的标签序列,以用于在测序过程中进行样品的区分(MicahHamady,JeffreyJWalker,JKirkHarrisetal.Error-correctingbarcodedprimersforpyrosequencinghundredsofsamplesinmultiplex.NatureMethods,2008,March,V0l.5No.3),从而实现同时对多个样品进行测序。标签序列为了区分不同序列,但不影响添加标签序列的DNA分子的其他功能。标签序列长度可以是4-12bp。本发明的一个实施例中,所述的人类基因组参考序列是NCBI数据库中的人类基因组参考序列。在本发明的一个实施方案中,所述人类基因组序列是NCBI数据库中版本36(hg18;NCBIBuild36)的人类基因组参考序列。在本发明中,所述比对可以是不容错比对,也可以是错配1个碱基的比对。序列比对可以通过任何一种序列比对程序,例如本领域技术人员可获得的短寡核苷酸分析包(ShortOligonucleotideAnalysisPackage,SOAP)和BWA比对(Burrows-WheelerAligner)进行,将测序序列与参考基因组序列比对,得到测序序列在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行,或者由本领域技术人员根据需要对参数进行选择。在本发明的一个实施方案中,所采用的比对软件是SOAPaligner/soap2。本发明中,所述软件算法是一种由深圳华大基因研究院开发针对胎儿拷贝数变异检测的一系列程序,统称为FCAPS。它能够通过新一代测序技术产生的数据,将受试样本和对照集合进行数据校正、标准化和片段化,估算出胎儿拷贝数变异的程度和大小。在本发明的方法的一些具体实施方案中,对于步骤1)从测试样本获得测序序列:根据TiangenDP327-02Kit操作手册从测试样本和对照样本提取血浆DNA后,按照修改过的Illumina/Solexa标准建库流程进行建库。关于构建全基因组测序文库的细节,可以参见测序仪器的厂商例如Illumina公司所提供的规程,例如参见Illumina公司MultiplexingSamplePreparationGuide(Part#1005361;Feb2010)或Paired-EndSamplePrepGuide(Part#1005063;Feb2010),通过参照将其并入本文。在这个过程中,本身集中于200bp的DNA分子两端被加上测序所用接头,每个样本被加上不同的标签序列,从而在一次测序得到的数据中可以使多个样本得数据区分开,利用第二代测序方法Illumina/Solexa测序(用其它测序方法如ABI/SOLiD能达到相同或相近的效果),每个样本得到一定大小片段的测序序列。在本发明的方法的一些具体实施方案中,对于步骤2)比对:将本发明方法步骤1)测序序列与NCBI数据库中的标准人类基因组参考序列进行SOAP2比对,得到所测序DNA序列在基因组上的位置信息。为避免重复序列对CNV分析的干扰,只选取与人类基因组参考序列唯一比对的测序序列(reads),进行后续分析。在本发明的方法的一些具体实施方案中,对于步骤3)划分窗口并获得窗口的统计量包括步骤:a)对于测试样本和对照样本,在基因组参考序列上开长度为w的窗口,计算每个窗口的GC含量并计算落在每个窗口上的相对测序序列片段数;b)将上述测试样本的相对测序序列片段数相对于对照样本的相对测序序列片段数进行校正并标准化。在在本发明的方法的一些具体实施方案中,对测试样本基于对照样本集进行GC校正:因为测序批次间/内存在一定的GC偏向性,会使基因组中高GC或低GC区域出现拷贝数偏差,对测序数据基于对照样本集进行GC校正得到每个窗口中校正后的相对测序序列数,可以去除此偏向性,提高拷贝数变异检测的精度。对每个窗口中校正后的相对测序序列数进行标准化:用怀孕母亲血浆检测胎儿的拷贝数变异,由于母亲DNA背景的影响,胎儿的变异较难凸显出来,所以要通过标准化,来降低母亲DNA背景噪音,放大胎儿中拷贝数变异信号。在本发明的一个实施方案中,所述GC校正包括步骤:a)用对照样本代替测试样本,依照本发明的方法得到比对至各窗口的测序序列并计算各窗口的相对测序序列数目;b)得到比对至各窗口的测序序列的GC含量与所述窗口的相对测序序列数目的函数关系;c)对于每个窗口,利用测试样本比对到该窗口内的测序序列的GC含量和上述函数关系,对测试样本的该窗口的相对测序序列数目进行校正,得到该窗口的校正的相对测序序列数目。在本发明的方法的一些具体实施方案中,对于步骤3)划分窗口并获得窗口的统计量包括步骤:a)计算测试样本和对照样本的相对测序序列数:对于测试样本和对照样本,在人类基因组参考序列上开长度为w的窗口,统计本发明方法步骤2)中落在每个窗口上的测序序列数ri,j,其中下标i和j分别代表窗口编号和样本编号,并计算每个窗口的GC含量GCi,j,计算相对测序序列数其中平均测序序列数b)数据校正和标准化:①在GC含量为横坐标和相对测序序列数R为纵坐标的坐标系中,将对照样本的Ri,j和GCl,J线性拟合,得斜率ai和截距bi,②对于测试样本的每个窗口,计算校正的相对测序序列数③对于测试样本的每个窗口,计算统计量Zi,j:其中在本发明的方法的一些具体实施方案中,对于对于步骤4)中得到测试样本遗传变异位点在参考基因组序列上的位置通过以下步骤进行:①初始化:针对每个窗口的端点,如果在该点前后窗口的统计量Z变化趋势发生改变,且该点与上一个前后窗口的统计量Z变化趋势发生改变的点之间距离至少n个窗口(n为整数10-500,优选50-300,例如100),则该点为候选突破点(Breakpoint),比如前后窗口的统计量Z由递增变成递减的那个拐点与下一个同样的拐点之间的中点为候选突破点,或者前后窗口的统计量Z由递减变成递增的那个拐点与下一个同样的拐点之间的中点为候选突破点bk(k=1,2,…..,s,s为>0的整数);②最优迭代:为了研究一段基因组序列的拷贝数变异或非整倍性,将该段基因组序列的所有排过序的候选突破点记为Bc={b1,b2,...,bs},每个候选突破点bk都存在左右面两个片段,所述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域,将这两个片段中所有窗口的Zi,j进行检验(例如,进行游程检验——一种非参数检验,利用两个群体元素混合后的分布均匀状态评价此两个群体的差异显著性)所得的p值(pk),视作“bk作为突破点的显著性”,将pk最大的候选突破点剔除,反复此步骤,直到所有p值都小于该基因组序列的终止p值(pfinal);③终止p值的获得:在测试过程中,将以另一对照样本作为测试样本进行上述步骤a)至c)①,对于一段基因组序列,将该段基因组序列的所有排过序的候选突破点记为Bc={b1,b2,...,bs},每个候选突破点bk都存在左右面两个窗口,将这两个窗口中所有Zi,j进行游程检验所得的p值(pk),视作“bk作为突破点的显著性”,将pk最大的候选突破点剔除,合并其左右两个窗口,直到候选突破点数等于预期值Nc(Nc=Lc/T,Lc是基因组序列c的长度,T(理论极限精度)是理论上能检测到的片段大小,当窗口大小为w,窗口滑动长度为S,游程检验的每个群体个数为N时,理论极限精度T=W+S*N),在该候选突破点集合中,最小p值为该基因组序列的终止p值(pfinal)。在本发明的方法的一些具体实施方案中,将所述遗传变异位点之间的片段进行置信选择的步骤为:对于在参考基因组序列上遗传变异位点之间的片段,计算该片段中Zi,j的平均值,记为,如果片段的小于-1.28,则该片段为片段缺失,如果大于1.28,则该片段为片段重复。在本发明中,游程检验是一种非参数检验,根据两个群体混合后,两个群体中元素的分布均匀情况得到评价这两个群体的显著性P值。可参考:http://support.sas.corn/kb/33/092.html。在本发明中,以对照样本作为测试样本进行试验时,由于实际中测序或实验会引起全基因中不同片段上比对至的测序片段数存在差异,所以进行检验过程中,这些差异就会被区分出来,只是突破点两端的片段还达不到变异水平而已。因为在检验开始时,候选突破点并不能将这些差异较显著的区分开,所以要定义一个N值,保证当突破点数为N值是,实验可以较好的区分这些差异,那么在用此得到的阈值去检测测试样本时就可以更精确。在本发明中,对于值阈值的确定:将对照样本按照步骤a)和b)统计,则每个窗口中Z值符合正态分布,-1.28和1.28分别是该正态分布中累计概率0.05和0.95的分位点。虽然,本领域技术人员根据需要,也可以选取值为绝对值更大和更小的值,分别对应正态分布中累计概率更大和更小;但是,-1.28和1.28是发明人针对本发明通过大量实验确立的最优选的阈值,在该两个值之外绝对值更大的阈值会增加检测结果中的假阴/假阳性率。本发明方法的一种应用中,例如对适用人群进行无创胎儿CNV筛查,有利于提供遗传咨询和提供临床决策依据;进行产前诊断可有效防止患儿出生。本发明适用人群可以是所有健康孕妇,适用人群举例仅用于说明本发明,而不应为限定本发明的范围。下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场获得的常规产品。以下括号内为各个试剂或试剂盒的厂家货号。所使用的测序用的接头和标签序列来源于Illumina公司的MultiplexingSamplePreparationOligonutideKit。实施例一、对1例孕妇血浆进行胎儿大片段拷贝数变异检测,和对9例孕妇血浆进行胎儿非整倍性变异检测1.DNA提取:按照TiangenDP327-02Kit操作流程提取上述8例血浆样品(样品编号见表1)的DNA,所提取DNA按照修改后的Illumina/Solexa标准建库流程进行建库,在主带集中于200bp的DNA分子两端被加上测序所用接头,每个样本被加上不同的标签序列,然后与flowcell表面互补接头杂交。通过flowcell表面连接有一层单链引物,DNA片段变成单链后通过与芯片表面的引物碱基互补被一端“固定”在芯片上;另外一端(5’或3’)随机和附近的另外一个引物互补,也被“固定”住,形成“桥(bridge)”,反复30轮扩增,每个单分子得到了约1000倍扩增,成为单克隆DNA簇。然后在IlluminaHiseq2000上通过双末端测序,得到长度为约50bp的DNA片段序列。具体而言,将获自上述血浆样品的约10ng的DNA,进行修改后的Illumina/Solexa标准流程建库,具体流程参照产品说明书(http://www.illumina.com/提供的Illumina/Solexa标准建库说明书)。经2100Bioanalyzer(Agilent)确定DNA文库大小及插入片段为约200bp,QPCR精确定量后可上机测序。2.测序:本实施例中,对于获自上述10例血浆的DNA样本按照Illumina/Solexa官方公布的ClusterStation和Hiseq2000(PEsequencing)说明书进行操作,使每个样品得到约0.36G数据量进行上机测序,每个样本根据所述标签序列区分。利用比对软件SOAP2(获自soap.genomics.org.cn),将测序所得DNA序列与NCBI数据库中版本36(hg18;NCBIBuild36)的人类基因组参考序列进行不容错比对,得到所测序DNA序列在所述基因组上的定位。3.数据分析a)对测试样本计算相对测序序列数:参考唯一比对序列长度选50bp,统计参考唯一比对序列的数目,将人类基因组参考序列上划分为具有相同参考唯一比对序列数目(84万)的窗口,所有窗口大小均值为1Mb,相邻窗口距离为S=10kb。统计上述步骤2中落在每个窗口上的实际测序序列数ri,j,其中下标i和j分别代表窗口编号和样本编号,并计算每个窗口的GC含量GCi,j,计算相对测序序列数其中平均测序序列数b)数据校正和标准化:①在GC含量为横坐标和相对测序序列数R为纵坐标的坐标系中,将对照样本的Ri,j和GCi,j线性拟合,得斜率ai和截距bi,②对于测试样本的每个窗口,计算校正的相对测序序列数③对于测试样本的每个窗口,计算标准化的相对测序序列数Zi,j:其中c)合并窗口①初始化:将参考基因组序列上每个窗口的起点位置记录为统计量Z的位置。则对应参考基因组上的染色体位置,Z值有一个变化趋势。找到Z值拐点(即Z值从增加趋势转化为减少趋势,或者从减少趋势变化为增加趋势的临界点)所对应的位置。对于任一染色体,从第一个窗口的起点开始,再依次选取选取距离至少为100个窗口的位置,这些位置记为为候选突破点bk(k=1,2,…..,s,s为>0的整数)(Breakpoint);②最优迭代:为了研究基因组任意一条染色体的拷贝数变异分析或非整倍性(本实施例仅研究1-22号人染色体),将每条染色体的所有排过序的候选突破点记为Bc={b1,b2,...,bs},每个候选突破点bk都存在左右面两个片段,所述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域,将这两个片段中所有Zi,j进行游程检验,所得的p值(pk),视作“bk作为突破点的显著性”,将pk最大的候选突破点剔除,反复此步骤,直到所有p值都小于该染色体的终止p值(pfinal);③终止p值的获得:在测试过程中,将以对照样本作为测试样本进行上述步骤a)至c)①,对于染色体c,将第c条染色体的所有排过序的候选突破点记为Bc={b1,b2,…,bs},每个候选突破点bk都存在左右面两个窗口,将这两个窗口中所有Zi,j进行游程检验所得的p值(pk),视作“bk作为突破点的显著性”,将最不显著的候选突破点剔除,直到候选突破点数等于预期值Nc(Nc=Lc/T,Lc是染色体长度,理论极限精度T=2Mb),在该候选突破点集合中,最小p值为该染色体的终止p值(pfinal),见下表;实施例中使用的相关数值染色体染色体长度(bp)Ncpfinal1247,249,7191234.45E-1312242,951,1491212.30E-1693199,501,827994.98E-1494191,273,063955.1lE-1725180,857,866904.47E-1416170,899,992851.99E-1277158,821,424792.70E-1458146,274,826732.31E-1319140,273,252702.99E-12110135,374,737671.22E-20611134,452,384672.99E-12112132,349,534662.60E-12713114,142,980572.10E-17814l06,368,585532.51E-6715100,338,915502.77E-1281688,827,254442.70E-841778,774,742391.27E-891876,117.153381.07E-1431963,811,651311.71E-1202062,435,964311.56E-952146,944,323233.96E-892249,691,432242.38E-111d)合并窗口后的片段过滤:为了进一步对合并窗口后获得的片段进行过滤,计算该片段中Zi,j的平均值,记为如果片段的小于-1.28或者大于1.28,则该片段为拷贝数变异。结果见表1。4)结果可视化,见图2。表1.实施案例各样品CNV结果列表以下将本发明CNV分析结果与CGH芯片结果比较,比较结果如下表2所示。CGH芯片结果使用HumanGenomeCGHMicroarrayKit,(AgilentTechnologiesInc.)依照提供商的方案获得,步骤简述如下:采用与待测标本相同性别的健康人DNA或男,女健康人混合DNA作为参照DNA利用Cy3,Cy5荧光素分别对参照DNA和待测DNA进行标记,然后与探针进行杂交,如果待测DNA与参照DNA荧光强度之比为1,则可以理解为待测DNA与参照DNA量相等,如果比率不等于1,则表明待测DNA有缺失或扩增。各种不同类型ArrayCGH的分辨率取决于微阵列上探针的间距和长度。流程:收集G显带染色体检查后剩余的细胞培养液,提取待测标本和对照标本的基因组DNA。纯化对待测样本和参照样本进行不同的荧光标记,然后将标本与阻断非特异杂交的Cot-1DNA混合,变性,预退火,与微阵列杂交,最后洗脱未与微阵列靶标特异性结合的DNA再经过扫描和软件分析得到每个微阵列靶标上的两种信号的荧光强度比值,反映待测标本基因组DNA与参照标本基因组DNA在相应序列或基因上的拷贝数变化。表2.本发明实施例的检测结果与CGH芯片结果的比较以下将本发明CNV分析结果与标准核型分析结果比较,比较结果如下表3所示。标准核型分析步骤如下:(1)将穿刺所得羊水离心5分钟(转速800~1000转/分),而后在接种罩内进行接种。先吸出上清液留送其他检查,剩0.5ml羊水及沉淀的羊水细胞于离心管内,打匀沉淀的胎儿脱落细胞及羊膜细胞成为细胞悬液,接种入三个盛有培养液的培养瓶内。(2)将培养瓶放入二氧化碳培养箱。(3)接种5~7天后,羊水内有活力的细胞就贴附在瓶底,并开始生长,可用倒装显微镜(invertedmicroscope)观察细胞生长情况。如已经贴壁,可更换培养液,加入3~5ml新鲜培养液,以后每2~3天换液一次。贴壁的细胞有上皮样细胞,成纤维样细胞及羊水细胞,这是一种形态界于上皮样细胞和成纤维细胞之间的细胞,上述三种细胞都形成克隆,如果生长状态良好,接种11~14天后,瓶底可有十多个大片克隆,肉眼也可看出瓶底上呈絮片状的克隆,细胞核大而圆。此时可准备制片或称收获(harvest)。收获看一天,应更换新鲜培养液,以增加核分裂。(4)收获:平均在培养后14~20天收获,在培养瓶内加入秋水仙素(Colchicine)0.04毫微克/毫升,使细胞停止在分裂相中期,培养5~15小时,在倒置显微镜下可见很多分裂相细胞核,细胞圆而大,明亮如一片明珠,相互联接。加秋水仙素的量,各实验室可不同。(5)消化(trypsinize)将培养瓶内的培养液倒入离心管内,在培养瓶底放入0.02%EDTA胰酶消化液0.5ml或0.15%蛋白酶(Pronase)0.5ml,用玻璃长弯吸管轻轻吹打瓶底之细胞克隆,倒装显微镜下见克隆细胞已经飘浮,吸入离心管,再用Hank氏液0.5~1ml冲洗并用长吸管继续吹打尚未飘浮之细胞,使其完全脱落后,倒入离心管内。离心5分钟,速度800~1000转/分,吸去清液,细胞备用。(6)低渗:上述离心管及细胞内轻轻加入37℃的0.075MKC1液4ml,用手指轻弹管底或用尖吸管轻轻开沉淀之细胞,置37℃水浴内16分钟(各实验室可根据自已经验高速低渗时间),离心5分钟,吸去上清液,沿管壁轻轻滴入新鲜置之固定液(甲醇∶冰醋酸=3∶1),轻轻有指头拍管底,使细胞均匀分开,固定15分钟后离心,更换固定液,第二次固定30分钟后过液。(7)吹片:离心吸去上清液,留0.5ml制成细胞悬液,或吸净上清液,加入0.5ml新配的固定液,用细长玻璃管小心吹拍后吸出一滴,滴在从冰水中取出来的玻璃片上,轻轻吹开,玻片置空气中干燥后,在显微镜下看染色体分散情况,再继续吹片。干燥的玻片可直接用Giemsa染色。(8)分带:如果染色体形态良好可做Giemsa带简称G带。先将玻片在65℃下烤1小时,或在37℃下烤24小时,在室温下将玻片放入0.25%胰酶液20~25秒,过两遍生理盐水,放入2%Giemsa液内5~10分钟,取出用流水冲洗,空气干燥后,即可在显微镜下看染色体,作核型分析。表3.本实施案例的检测结果与标准核型检测结果比较编号标准核型分析本发明方法的检测结果判断结果S10T18T18一致S14T21T21一致S18T18T18一致S49T13T13一致S55T21T21一致S82T21T21一致S103T13T13一致尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1