组合物及其在序列测定和变异检测中的用图_4

文档序号:9682210阅读:来源:国知局
[0050] 步骤2 :芯片杂交,目标区域捕获富集。未经捕获的(Non-Captured)样品进行 LM-PCR反应,纯化,随后进行芯片杂交;在定制的300K NimbleGen芯片上杂交68-72h, 杂交结束后进行芯片的洗涤和洗脱反应,随后进行捕获后的(Captured)样品的连接介导 PCR(LM-PCR)反应;杂交反应过程可以参考NimbleGen芯片试剂盒说明书,LM-PCR参照 Illumina DNA标准建库说明书中的LM-PCR反应条件和反应体系进行。
[0051] 步骤 3 :样品 Agilent 2100Bioanalyzer 以及 ABI stepOne 进行富集度的检 测,检测合格的文库经反应生成DNA簇群,随后进行HiSeq2500上机测序,双末端测序, PE101+8+101程序进行上机测序,产生原始数据。
[0052] 实施例三点突变检测
[0053] 点突变,包括单个核苷酸的突变、缺失或插入。
[0054] 数据下机后进入信息分析部分,如图2所示。首先对下机的原始数据(Raw reads) 进行测序质量评估,去除低质量以及被接头污染的reads。随后用BWA软件(Burrows Wheeler Aligner)与参考基因组HG19进行序列比对,也可以用其它已公开的比对软件,如 SOAP软件等,标记去除重复(duplication)reads,然后进行重比对和碱基质量值校正,以 获得比对结果(BAM文件),获得点突变信息、注释、筛选,结果见表8。
[0055] 基于BAM文件还可以进行1)序列捕获效果评价,统计深度、覆盖度,并进行单碱基 深度分布图的绘制,2)其它变异检测,用本发明的一方面的方法及基于该方法编成的程序 软件进行CNV、倒位等的检测,随后进行变异注释、变异筛选,最后对突变进行解读,并生成 报告。
[0056] 实施例四CNV检测分析
[0057] 选取了 2对表型正常的受检夫妇和1对有DMD家族史的姐妹,抽取外周血。检测 所有目标基因,尤其是HBA1、HBA2、DMD等CNV突变比例高的基因。
[0058] 步骤如下:
[0059] (1)对测序数据进行比对,去重复reads,得到目标区域(捕获区域,全外显子或 全基因组)的深度,以及识别出的包括目标区域SNP位点的次等位碱基频率(B allele frequency,BAF);
[0060] (2)对目标区域切分窗口,求每个窗口的测序深度,设定滑动切分长度LI = 20bp 和窗口大小L2 = 200bp对目标区域进行切分,获得多个窗口,基于上述比对结果,计算每个 窗口的测序深度,每个窗口的测序深度为比对上该窗口的测序数据的量(比如reads数或 者碱基数)与该窗口大小的比值,依据每个窗口所在的窗口大小和/或所在的滑动长度区 域大小确定每个窗口的平均测序深度,全部窗口的长度覆盖目标区域至少1次。因各窗口 是部分交叉重叠的,各个窗口的平均测序深度为从该窗口的一端开始依次滑动L1长的区 域至该窗口的另一端所包含的所有L1大小的区域的测序深度的平均值。
[0061] (3)对各窗口的平均测序深度进行修正
[0062] a.根据参考序列(reference)上K-mer的唯一性(unique)修正平均深度,以避免 基因组上重复序列对CNV检测的影响。具体地,对参考序列进彳丁窗口切分时,窗口大小、划 动长度都是作为参数可以自行设定的。划动长度小于窗口大小时有重叠,等于窗口大小时 没有重叠,大于窗口大小时窗口间留有空隙(gap)。绝大多数窗口大小跟设定的一样,但每 一段捕获区域切分到末尾时,不足一个窗口长度的部分会被合并到最后一个窗口里去。窗 口大小的设定可以根据需要检测的CNV长度进行设定。计算reference上每个碱基开始 的63bp (即K = 63)长的序列在整个基因组上的出现次数(每个染色体最后62个碱基除 外),将非unique的区域(即出现次数超过1次的Kmer)从捕获区域中删除掉,即将捕获区 域(全外显子组、全基因组数据同理)中非unique的区域删除掉,只检测unique区域内的 CNV。
[0063] 若是低深度数据,比如5X的测序数据,只能划分大的窗口检测长片段的CNV,比如 检测整条染色体。根据经验,要检测l〇〇bp这个精度的CNV,需要约30X以上的有效数据(去 掉建库中PCR引起的重复序列之后的reads的覆盖深度)。
[0064] b.做GC修正,GC修正的方法:对参考序列进行窗口划分,如果pair end的reads, 可以根据插入片段(segment)长度即PE reads之间的距离设定GC窗口大小,在此设定窗 口 200, GC窗口划动长度20,在捕获区域参考序列上划窗口计算参考序列上的GC比例,同 时计算样本在每个窗口内的平均测序深度,每个窗口都可得到GC比例-测序深度的这样一 个数据,再用lowess回归或者loess回归,得到一条GC-测序深度的回归曲线。再根据这 条曲线对每个碱基的深度进行校正,具体是:计算每个碱基以它为中心的200bp窗口的GC 比例,然后除以GC曲线上这个GC比例对应的深度值,再乘以窗口的平均深度。
[0065] c.以染色体为单位对染色体平均测序深度进行检验,对整条染色体的目标区间都 发生拷贝数变异的进行记录,同时根据X、Y染色体深度进行性别判断,对男性样本的XY深 度进行校正。因为捕获测序的不均匀性,不同染色体上设计的捕获区域在长度、序列特异 性、GC含量上的不同,会导致不同染色体的实际测序深度存在差异,会影响对性别和染色体 非整倍性的判断。但这种不同染色体的测序深度差异在不同样本间的表现是稳定的,具有 很高的相关性,通过这种相关性对每个染色体的测序深度进行修正,可以基本排除捕获测 序不均匀的影响。性别判断主要根据:如果Y有捕获,看Y的深度是否足够;只有X捕获, 看X深度和常染色体深度的关系。比如男性X的正常隐含状态是1拷贝,女性X的正常隐 状态是2拷贝,不先确定倍性,统一用2的话,可能导致检出男性X发生杂合缺失这种错误, 并且XXY型也无法识别(单看表型,XXY的男性可能与XY男性没有差别)。
[0066] 染色体深度校正是利用的是同批样本间深度的相关性一致性,对每个染色体的平 均深度进行修正,发现有3拷贝的染色体,或者男性的非2拷贝的X和Y,把染色体拷贝数设 为真实的值,不然正常的都是2。
[0067] (4)求同一批数据的窗口深度向量间的相关系数,对满足高相关性的样本进行批 次修正,进一步降低测序不均匀性对检测的影响。具体地,对每个样本的每个染色体,划出 来的各个窗口的平均深度作为一个一维的向量,然后可以计算样本间每个染色体深度波动 的相关系数。该步也可以作为检测质量控制(QC)的依据。个别发生降解的样本和其他正常 样本的深度相关性会很低,根据相关系数设定阈值,将与正常样本相关性很低的样本过滤, 比如相关系数小于〇. 8的,避免在后面的计算中造成问题,或者导致结果中过多的假阳性。
[0068] (5)将经过所有修正后的测序深度数据放入隐马模型(HMM)进行计算,预测每个 窗口的拷贝数,并对结果进行评估,计算每段CNV的后验概率值。深度作为HMM的显状态进 入HMM模型,发射概率假定服从负二项分布。模型主体部分是根据王俊等翻译的《生物序 列分析》一书中介绍的隐马模型,依据本发明方法编成的检测软件,部分参考了下列几篇文 献,t匕如参考Quantifying copy number variations using a hidden Markov model with inhomogeneous emission distributions, Mccalum, Wang et al. Biostatistics(2013), 1 4, 3, pp. 600 - 611的负二项分布假设。
[0069] 可选的,以上只使用修正后的测序深度数据,这是因为SNP BAF数据用的是杂 合snp,一般用来检测较长片段的重复变异(duplication, dup),而示例中捕获测序的数 据由于捕获区域内SNP位点比较少,发生CNV的dup区域也少,所以该示例的CNV检测 没有利用BAF信息。若是检测常染色体的大片段CNV -般需使用BAF数据,比如可参考 PennCNV:An integrated hidden Markov model designed for high-resolution copy number variation detection in whole-genome SNP genotyping data, wang et al.进 行,使用SNP BAF以及在HMM中转移概率距离惩罚项的设置。
[0070] (6)对结果进行筛选整理,标注发生CNV区间,输出表格,并画出每个发生CNV的区 域及其附近区域的深度图。检测结果如表8所示。
[0071] (7)通过比较待测样品和对照样品的深度图,得到基因的CNV突变情况,判断各窗 口与对照样本的相应窗口的平均测序深度的差异程度,统计上差异显著则判定待测样本的 这个窗口存在CNV。对照样本中相应窗口的平均测序深度可以参照待测样本的相应窗口的 平均测序深度的获得过程来确定,比如可以预先或者同时对至少一个对照样本进行目标区 域测序、比对和计算各窗口的平均测序深度来获得,最好依靠多个样本,比如大于30个的 正常对照样本的数据来获得。对照样本的窗口的平均测序深度数据可以保存供检测其它待 测样本CNV检测时使用。
[0072] CNV的检测还包括:依据比对结果中的有固定距离关系的成对的读段在参考序列 上的距离,确定CNV的类型,以L表示一对成对读段中的两个读段的固定距离,以L'表示该 对成对读段中的两个读段在参考序列上的距离,当L' > L,则判定所述CNV是缺失类型,当 L' < L,则判定所述CNV为插入类型;其中,所说的有固定距离关系的成对读段来自一个测 序文库的两端,比如双末端(pair-end,PE)测序,获得PE reads。因实际建库时,获得的文 库的大小通常不是一个固定数值而是一数值范围,比如建库时没有精确切胶或没有以其它 方式纯化获得一固定大小的文库,这样,比如预构建的文库大小为500bp,最后获得的文库 大小通常处于300-900bp,所以,更佳地,当L'彡2L,判定该CNV是缺失类型,当L'彡0. 2L, 判定该CNV为插入类型,检测更准确。图3A和图3C是关于缺失类型CNV的检测,首先比较 各个窗口对应的深度,找出发生明显落差的窗口,检出发生缺失的位置,但对于此缺失的准 确位置,精度在二端的一个窗口范围内,通过以上窗口测序深度的计算,能大致确定发生的 边界。而如果同时检出pe reads&eads本身并不覆盖在缺失区域)之间的长度与正常长 度相比发生了异常时,便为这个缺失提供了独立于深度之外的缺失存在的证据,避免了其 他原因导致的假阳性,同时也可以确定一个大致的发生范围。
[0073] CNV的判定还包括:依据比对结果中的不完全比对到参考序列上的读段,确定CNV 的精确位置和大小。所说的不完全比对到参考序列上的读段也称为割裂读段,割裂读段 (split reads)的不能整段比对上参考序列,一端比对上一端不能比对上,依据这些割裂 读段确定CNV的精确位置和大小包括:截取割裂读段中的不能比对上的部分,将截取的部 分定义为一个割裂片段;将割裂片段比对到参考序列,获得割裂片段在参考序列上的位置; 基于割裂片段在参考序列上的位置和该割裂片段所属读段在参考序列上的位置、以及所述 两个位置在参考序列上的距离,确定所述CNV的精确位置和大小。如图3C所示,如果正好 有割裂reads(split reads)覆盖到了这个缺失发生的位置,便可以用split reads中的断 点位置精确确定缺失发生的位置。图3B是重复或插入类型CNV的检测,也同样是基于深度 发生差异窗口确定大致区域,pe reads提供辅助支持,进而用split reads找出断点,最后 综合起来得出实际发生的结构变异的情况。
[0074] 实施例五倒位检测、验证试验
[0075] 突变中有内含子倒位情况,根据倒位片段设计引物,采用长PCR(Long PCR)进行基 因片段扩增,通过电泳条带大小判断是否发生倒位突变来检验或验证。
[0076] ( 一)F8 倒位(F8inversion)
[0077] F8基因的1号内含子倒位和22号内含子倒位相关的区段存在长片段重复序列,芯 片捕获测序技术难以准确确定,需要PCR检测或验证。检验涉及的引物如表3所示,判断方 法如表4所示。
[0078] 表3F8倒位引物序列
[0079]
[0080] F8的反应体系和条件:
[0081] F8-int22h反应试剂及每个反应所需的量,第2管,引物F8Q换为FB8,其余一致。
[0082]
[0083] F8_intlh反应试剂及每个反应所需的量如下,第2管,引物对换为intlh_2f、 intlh_2r 和 9F,其余一致。
[0084]
[0085]
[0086] F8PCR反应条件
[0087] F8_int22h 扩增程序:
[0088]
[0089] F8_intlh 扩增程序:
[0090]
[0091] F8倒位的通过琼脂糖凝胶电泳进行鉴别或验证。如图4和图5,对于F8的22号 内含子倒位:PQ引物对(SEQ ID N0 :1和2)的PCR产物条带大小为12kb,PB引物对(SEQ ID N0:1和3)的PCR产物条带大小为10.8kb。根据PQ和PB条带有或无,以判断受检样本 的F8基因的22号内含子的状态。对于F8的1号内含子倒位,类似于前者的判断。倒位检 测结果见表4。
[0092] 表4F8倒位判断结果
[0093]
[0094] (二)CYP21A2 基因变异
[0095] 利用Sanger测序来验证。CYP21A2扩增及测序引物序列如表5所示。
[0096] 表5CYP21A2扩增及测序引物序列
[0097]
[0098]
[0099] *测序备选是用于应对各种多态性变异导致常规测序引物无法正常使用的情况。
[0100] CYP21A2的反应体系
[0101]
[0102] *指表5的3对扩增引物,分别进行扩增。
[0103] PCR 条件:
[0104]
[0105] CYP21A2基因检测结果分析依据Sanger测序峰图的读取方法进行判断分析,结果 见表8。
[0106] (三)SMN1基因的7号外显子缺失
[0107] SMN1基因的7号外显子缺失存在于95~98%的脊髓性肌肉萎缩症患者。但是 SMN1基因存在与其高度同源的SMN2基因,两个基因的相似性高达99%。SMN1基因和SMN2 基因的7号外显子仅存在1个碱基的差异,芯片捕获测序难以区分SMN1基因和SMN2基因 的序列。因此根据SMN1和SMN2基因的7号外显子的1个碱基的差异,采用qPCR方法进行 定量分析。检验涉及的引物如表6所示。
[0108] 表 6SMN1 定量 PCR (Quantitative PCR)引物
[0109]
[0110] 反应体糸:
[0111]
[0112] 上述反应体系中大Mix的配置:
[0113] 各实施例中各反应体系中的模板(Temple)指各对照样本以及受检样本提取的 DNA。
[0114] 反应条件:
[0115] 95 °C 2min ;
[0116] 94。0 30s,退火温度 30s,72。0 30s,4cycles ;
[0117] 后接熔解曲线;
[0118] 72°C收集信号(荧光采集时间)。
[0119] 结果分析,与捕获测序结果进行复合。检测结果及判断方法如表7所示,以qPCR 的RQ值为判断依据,理论上:阴性(野生型)的RQ值为1 ;杂合缺失携带者为〇. 5 ;纯合突 变的为0。但是由于实验过程引入的偏好性以及个体DNA存在差异,根据大量实验调整获 得RQ值范围来判断得出结论,与捕获测序检测结果吻合与否等,比如对于阴性结果检测, RQ〈0. 90说明前述捕获测序检测结果最好重新进行。
[0120] 表7SMN1检测判定方法
[0121]
[0122] 3对表型正常夫妇相关疾病的致病突变检测和/或验证结果如表8所示。经上述 分析或验证之后,得到样本检测结果如下,证明利用以上本发明的示例方法可以筛查出多 种变异,具有可行性。
[0123] 表 8
[0124]
【主权项】
1. 一组合物,其包含探针,所述探针固定在固相载体上或者游离于溶液中,其特征在 于,所述探针至少能够覆盖以下15个基因中的5个基因的每个基因区域的至少一部分: HBA1、HBA2、HBB、GJB2、SLC26A4、SMN1、DMD、GALT、PAH、F8、F9、ATP7B、CYP21A2、GAA和PKHD1 ; 任选地,所述探针至少能够覆盖所述15个基因中的10个基因的每个基因区域的至少 一部分; 任选地,所述探针能够覆盖所述15个基因的每个基因区域的至少一部分。2. 权利要求1的组合物,其特征在于,所述探针的设计是依据预覆盖区域在参考基因
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1