同时对单细胞基因组和转录组构库及测序的方法基于单细胞整合基因组学的测序方法及应用_2

文档序号:9541708阅读:来源:国知局
卵母细胞进行测序和生物信息学分析。具体步骤如 下:
[0061]SCIG实验部分
[0062] 本发明实施例提供了一种同时构建卵母细胞基因组和转录组高通量测序文库的 方法,包括如下步骤:
[0063]实施例1:核质分离
[0064] 1)取单个小鼠次级卵母细胞;
[0065] 2)分离细胞核和细胞质:
[0066] 使用eppendorf显微操作系统,采用显微注射(Microinjection)法对单个细胞进 行核质分离。准备孔径大小与单个次级卵母细胞和单个细胞核大小接近的玻璃管(所述 显微注射法中,微细管针(microcapillaryneedle)的直径在0.5-5微米(microns),抓针 (holdingneedle)的直径在10-50微米(microns)),分离完后细胞核与细胞质分别放入不 同的PCR管中,随后液氮保存,并对下一个进行同样的处理。(注:细胞质中RNA的不稳定 性,我们在穿膜步骤中会注射微量RNA抑制剂到细胞质,防止在破膜分核过程中RNA的降 解。同时保证整个过程都在4度操作。)
[0067] 实施例2 :全基因组和全转录组高通量测序文库的构建、及高通量测序
[0068] 1)单个细胞核全基因组扩增
[0069]由于单个细胞中DNA量非常有限(6pg左右),所以在测序之前首先要对单个 细胞中的DNA量进行均一扩增。我们采用GenomePlexWGA4扩增方法(Sigma-Aldrich 的GenomePlex?SingleCellWholeGenomeAmplificationKit试剂盒,货号 WGA4-50RXN,具体步骤参照试剂盒说明书),该方法将基因组通过短时间高温操作进行随机 片段化,形成一系列短模板,然后对这些短链DNA进行随机退火,给每个短链两边都加上有 特定序列组成的文库,然后针对这些特定序列,进行等温起始扩增。
[0070] 2)单个细胞去核细胞质全转录组扩增和文库的构建
[0071] 单个细胞中全部RNA含量大约在10pg左右,mRNA的含量相对更少一些。首先 要对mRNA进行反转录和扩增。我们采用Clontech公司的"SMARTerUltraLowRNAKit forIHumina?'Sequencing" 试剂盒来扩增。
[0072]Clontech公司该方法是基于传统的5'RACE技术,在反转录过程中在每个序列片 段末端通过Tdt末端转移酶或者置换酶加上一个统一的接头序列(Adaptor),再通过和这 些接头序列互补的引物进行PCR扩增。扩增之后的转录组文库会用管家基因引物进行验 证,只有合格的文库才会进一步构建成IlluminaHiseq平台的测序文库和测序。
[0073] 3)基因组和转录组扩增的效果验证:通过管家基因和片段大小分布来验证文库 的进行质控,具体指标需满足如下:(1)采用Agilent2100确定片段范围,挑选片段长度合 理的文库;(2) 10个管家基因检测扩增的覆盖率,至少扩增5个管家基因。
[0074] 满足以上两条的在华大基因公司用IlluminaHiseq2000平台对全基因组(外显 子组测序(Exomeseq))和转录组进行高通量测序。从成本考虑,本发明对第1)步所得的 样品进行的全基因组测序,采用外显子测序(可选地,也可采用CNV(lx)测序),以极大的减 少测序成本和分析的数据量。
[0075]SCIG生物信息分析部分
[0076] 实施例3:生物信息学分析
[0077] 从基因组序列和mRNAfastq文件序列分别用Bowtie和Tophat方法与基因组比 对[72, 73]。并用Varscan方法将基因组和mRNA中差异的位点找出来[38]。默认设置 varscan,至少涵盖8个序列数才会用于后续的分析,最小的变异等位基因频率为0. 01。变 异的等位基因频率小于75%的称为杂合子,否则分配到纯合子变异。通过比对基因组序列 和mRNAfastq文件序列来检测RESs,每个位点至少涵盖8个序列。用Cufflinks方法中的 FPKM值来测定基因的表达水平[74]。下载的Ensembl基因注释(10mm)中,只选择蛋白编 码基因和基因间长链非编码RNA(largeintergenicnon-codingRNA,lincRNA) [75] 〇
[0078] 测序结果以及分析
[0079] 1、多个样品分析单细胞外显子组
[0080] 按照实施例1的方法,本发明实施例从小鼠(mouse) 6个次级卵母细胞(样品编号 ID分别为:S1-S6)中分别提取6个细胞核,同时分别获取6个去核细胞的细胞质。同时, 我们制备了PB1counterparts(样品编号ID分别为:P1-P6,为完整单个细胞样品,作为对 照),详细流程参见图3a。
[0081] 按照实施例2的方法,本发明实施例分别对上述单细胞S1-S6样品的细胞核和去 核细胞质进行外显子组测序(exome-seq)和转录组测序(mRNA-seq)(参见图3b)。
[0082] 生物信息学分析:
[0083]图4是本发明实施例提供的卵母细胞外显子序列的生物分析结果。
[0084] 在覆盖小鼠基因组0. 93Gb(34. 2% )的数据中,联合S1-S6的外显子组测序数据, 通过VarScan方法可检测到726, 525个差异位点。436, 535个变异位点是杂合子,其中,有 290, 264(66. 5% )个杂合子变异位点的两个等位基因都在一个卵母细胞的基因组中出现 (在S1-S6中,有36, 000~98, 000个杂合子位点)。虽然这些卵母细胞是单倍体,但是这 些杂合子位点可以用减数分裂同源重组进行解释。鉴于这些次级卵母细胞出于减数分裂II 期,每条染色体具有两条姐妹染色单体,因此,减II期的同源染色体之间的基因重组可能 导致了单倍体卵母细胞中的杂合子等位基因)[17]。对于各个卵母细胞来说,杂合子位点在 小鼠基因组中的分布大体相同,只有少数例外(参见图4)。
[0085] 为了确认单倍体卵母细胞中的杂合子变异是源于减数分裂同源重组,并精确定位 出发生同源重组的区域,有必要对PB1counterparts的基因组进行测序。此外,为了证明 来源于同一个单倍体细胞的外显子组测序数据的纯合子并非误读,比如,因较低的测序深 度或者对两个等位基因的测序偏好所导致的误读,本发明采用来源于同一组织的双倍体细 胞的外显子组测序数据作为对照,因此,本发明设置了如下对照:1)对单细胞进行外显子 组测序(PB1组,样品编号ID:P1-P6) ;2)对大量小鼠肝脏细胞(cellsinbulk)进行外显 子组测序(样品编号ID:BL,来源于同一只小鼠)。构建好的高通量测序文库,采用实施例 2同样的方法送华大基因测序。
[0086] 从图4c可以看出,卵母细胞(S1-S6)、PB1组(单个细胞,P1-P6)、肝脏细胞集群 组(BL)中杂合子位点分布非常相似。图4d显示了各个PB1样品中重组的杂合子分布,和 图4b中S1-S6卵母细胞的(杂合子)分布模式相匹配;杂合子位点和重组后的杂合子位点 高度相关的结果表明,从卵母细胞的S1-S6样品中获得的外显子信息是精确的。另一方面, 从外显子组测序数据看,在卵母细胞S1-S6样品测序结果中,只有小于0. 05% (~46, 000) 的纯合子位点在肝脏细胞中被标注为杂合子位点,小于〇. 31 %的杂合子位点在肝脏细胞中 被标注为纯合子位点,这说明从卵母细胞S1-S6样品中获得的外显子信息忠实地显现了卵 母细胞外显子的信息,并没有出现等位基因选择偏好或低质量的测序。总的说来,上述各种 类型样品的外显子组测序实验给单个细胞提供了可信的基因组参考序列,可用于后续的整 合分析。
[0087] 2、在单个卵母细胞样品中和多个卵母细胞样品中检测到相似的基因表达数
[0088] 对于转录组测序(mRNA-seqassays)来说,本发明提供了如下样品:
[0089] 组1 :3个单个的卵母细胞的转录组(样品ID:SW1_SW3;均来源于同一小鼠);
[0090]组2 :200个卵母细胞的转录组(样品ID:B200;来源于多只小鼠);
[0091] 对1)和2)分别进行单细胞转录组测序和多细胞转录组测序,以比较单个去核卵 母细胞质(S1-S6号样品)、单个卵母细胞(组1)以及多个卵母细胞(组2)之间转录丰度 的异同点。
[0092]图5是本发明实施例提供的卵母细胞转录组序列的生物分析结果。
[0093]S1-S6号样品的转录组测序序列在整个转录组中分布均匀,证明本发明实施例采 用的Smart-seq2扩增方法可以覆盖(recover)全长mRNA转录本[16]。通过评估所得序列 数占转录本的比例,结果显示,转录本的3'端的覆盖率更高,然而,整个转录本的覆盖率在 25%-75%之间,表明在cDNA扩增同样覆盖了转录本的5'端(参见图5a)。选取每个转录 本样品中的1%,计算序列的频率,结果发现,有一小部分序列位于转录本的5'端(参见图 5b)。进一步地,本发明实施例通过对转录本的长度进行分组,分析了mRNA转录本中的序列 覆盖度和序列频率,结果表明,转录本越长,表现出的3'端偏好就越明显[25]。
[0094] 在每个单个卵母细胞中(包括S1-S6号样品和SW1-SW3号样品),均能检测到超 过10, 000条蛋白编码基因和IncRNA(longnon-codingRNA);当采用更高的标准时,比如 FPKM超过0. 1时,仍能发现大约10, 000条基因在每个卵母细胞中表达(参见图5c)。
[0095]如本发明所述的,FPKM(ReadsPerKilobaseofexonmodelperMillionmapped reads,[Mortazavietal.,2008]),即每 1 百万个map上的reads中map到外显子的每IK 个碱基上的reads个数。
[0096] 在单个卵母细胞样品(组1和S1-S6号样品)中,表达的基因比多个卵母细胞样 品(组2)中的少,在B200(组2)中表达的基因(同时在单个卵母细胞样品中没有发现 表达)一般表现出较小的FPKM值(参见图5c)。理论上,鉴于动态的转录调控,以及由于 转录爆发导致的转录组异质性(transcriptomeheterogeneity),在同样的测序深度前提 下,200个细胞的群体样品应该比单个细胞样品具有更多的表达基因,同时可能有一个较 低的表达水平。然而,出乎意料的是,本发明实施例发现,在S1-S6号样品的去核细胞质比 W1-SW3号样品的完整单细胞具有更多数量的表达基因;此外,所有在W1-SW3号样品中表达 的基因在S1-S6号样品中同样也表达,这可能是由于去核细胞质的测序深度相对稍微高了 一点,比对碱基数(mappedreads)约超过完整单细胞平均25M(1. 5% )。如果对各个样品 给定类似的比对数量(小于40million),给的对比的碱基数越高,越多表达基因就可能被 发现[9, 39]。此外,细胞与细胞之间的差异,以及外界环境的变化可能引起转录本表达数 量的差异[40]。当将"表达基因"定义为至少0.1FPKM时,我们在完整的卵母细胞中(而非 去核卵母细胞质中则没有发现表达)获得了 526个表达基因;另外,在完整的卵母细胞和去 核卵母细胞质两种细胞样品中,这些基因的表达水平的差异非常小(中位数为〇. 97FPKM, 即medianof0.97FPKM,参见图5d),这表明从细胞中提取走细胞核的操作只会带来非常 微量的带poly(A)尾的RNA损失。
[0097] 此外,mRNAs、IncRNA转录本均可被mRNA-seq测序,因为IncRNA也具有 poly(A)尾,并且在mRNA-seq测序中的poly(A)尾捕获步骤会被保留下来。因此,在去 核细胞质的S1-S6号样品中,我们除了检测到13, 686条蛋白编码基因之外,还能检测 至lj521条表达IncRNA基因。Ensembl注释记录了小鼠(mouse) 1,793条IncRNA基因和 22,182条蛋白编码基因(chrY和chrM除外)。这两种基因被检测的基因比例非常不同 (P_value〈2. 2E-16,chi-squaretest,卡方检验),同样,在单个卵母细胞(组1)和多个卵 母细胞(组2)样品中,类似不同的规律也被观察到(P_value〈2. 2E-16,chi-squaretest)。 目前,有研究称有一些不带poly(A)尾的IncRNA在mRNA-seq测序中不能被捕获,这就解释 了为什么本发明实施例中检测到的IncRNA数量较少[39]。此外,相比mRNA,IncRNA的表 达呈现高度的组织特异性,可能在卵母细胞中有一部分IncRNA并不转录[41]。
[0098] 3、单个的卵母细胞中的基因表达水平高度相关
[0099] 通过DAVID,发现S1-S6号样品中前100高度表达的基因在G0期(细胞周期中的 G0期)丰度较高,包括细胞周期、细胞分裂和配子产生等活动的G0期;此外,在诸如卵母 细胞减数分裂和细胞周期的生物途径(biologicalpathways)中的丰度也较高[42]。在 W1-SW3号样品和B200样品中,前100高表达的基因的丰度规律和S1-S6号样品差不多,这 表明卵母细胞在这些样品中功能正常,且相关功能基因的转录本表达水平较丰富。
[0100] 现有文献[10, 12]通过计算单个细胞间表达值得相关因子(correlation coefficientofexpressionvalues)来评估细胞间转录组的变异(variability)。本发 明实施例采用与上述文献报道相同的方
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1