遗传图谱构建方法和装置、单体型分析方法和装置的制作方法

文档序号:397879阅读:765来源:国知局
专利名称:遗传图谱构建方法和装置、单体型分析方法和装置的制作方法
技术领域
本发明涉及遗传学和生物信息学领域,具体涉及遗传图谱的构建方法和装置,以及单体型分析方法和装置,特别是涉及基于单细胞全基因组测序的遗传图谱构建方法和装置,以及单体型分析 方法和装置。
背景技术
遗传图谱的构建基于遗传学第三定律——基因的连锁和交换定律,即是以具有遗传多态性的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,I %的重组率称为IcM)为图距的基因组图。遗传图谱的构建对于各物种的研究具有重大的意义,能够阐释物种的遗传规律、特点,利用这一功能,我们能够研究很多与人类相关的生物功能的遗传规律。比如,在农作物研究中遗传图谱的构建能够使我们了解与作物高产、抗病相关基因的遗传重组规律,指导我们进行育种工作,获得高产耐性强的产品;而对于人类自身,遗传图谱的构建能够更好的让我们进行某些遗传病的研究,以及指导优生。但是目前遗传图谱构建的传统方法,不能很好的运用于人类自身。由于遗传图谱的构建是基于减数分裂中产生的同源重组事件随机分配到子代个体中的统计分析,因此需要选取每一代的大量个体进行研究,而哺乳动物缺少构图的大量后代,这就直接限制了人类遗传谱图的构建过程,因为很难选取一个如此庞大的家系来满足统计学随机性的条件进行研究。N. ARNHEIM, H. LI等利用单精子来构建遗传图谱(Genetic mapping by singlesperm typing, Animal Genetics 1991, 22,105-115),解决了样本选取问题,但是仍然存在很大的局限。文中所采用的方法只能对已知的部分基因作扩增进行后续分析,不仅依赖引物的效果,而且对于未知基因以及不易扩增出的片段无能为力,因此该方法得到的遗传图谱相对片面、不完善。以Illumina Solexa、ABI SOLiD和Roche 454为代表的第二代高通量测序技术,以及第三代测序技术(即单分子测序技术),主要包括Helic0s公司的真实单分子测序技术、Pacific Biosciences 公司的单分子实时测序技术和 Oxford Nanopore Technologies公司的纳米孔测序技术等在近几年得到快速发展,已成为基因组学研究的重要工具。

发明内容
本发明利用全基因组测序技术,获得单细胞全基因组序列数据,对数据进行生物信息学分析和处理,最终能够获得高分辨率的遗传图谱并进行单体型分析。本发明的第一方面涉及基于单细胞测序的遗传图谱构建方法,其包括以下步骤通过全基因组测序获得某物种单细胞的全基因组序列;将获得的全基因组序列与该物种的参考序列进行比对,得到包括所有单细胞个体的单核苷酸多态性(SNP)位点的基因型(genotype)数据;根据获得的基因型数据,运用最小重组法(maximum parsimony ofrecombination, MPR法),推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞SNP基因型的父本/母本(a/b)分型结果;根据分型后的SNP的基因型结果,在染色体上划分出连锁区域(linkage region,LR,也可称为bin),划分为一个bin的标准是(1)连续相同SNP (即都为a或b)的数量至少为5个;(2)选取的bin的物理长度大于250kb ;得到bin的分型后,通过对所有细胞bin的情况进行统计,计算出a/b的变化比率,进而可得出每连续两个bin与bin之间的重组率;
根据每连续两个bin与bin之间的重组率,得到重组图谱;其中a型与b型bin交界的位点即为重组位点,通过统计多个样本在重组位点的重组情况,得到每个重组位点的重组率,最终获得遗传图谱。根据本发明第一方面的构建方法,其中所述的某物种为子代数目有限的高等生物,例如为哺乳动物;在本发明的实施方案中,所述的某物种为人。根据本发明第一方面的构建方法,其中所述的单细胞可以为生殖细胞,在本发明的实施方案中,所述的单细胞为精子细胞。根据本发明第一方面的构建方法,其中所述的获得某物种单细胞全基因组序列的方法为本领域技术人员知晓和使用的常规方法,其中包括获得细胞的全基因组DNA、扩增全基因组DNA和全基因组DNA测序的步骤;根据本发明第一方面的构建方法,所述的扩增全基因组DNA的方法为本领域技术人员知晓和使用的常规方法,例如可以为简并寡核苷酸引物PCR (degenerateoligonucleotide-primed PCR, D0P-PCR)、连接反应介导的 PCR(ligation mediated PCR,LM-PCR)、改良的扩增前引物延伸反应(improved primer extension preamplification,I-PEP)、多重链转换扩增(multiple displacement amplification, MDA)或基于引物酶的全基因组扩增技术(primase-based whole ge-nome amplification,pWGA)等方法,在本发明的一个实施方案中,所述的扩增全基因组DNA的方法为基于链置换反应的DNA等温扩增方法,例如为MDA方法。根据本发明第一方面的构建方法,可以采用本领域常规的高通量测序方法进行全基因组测序,例如以Illumina Solexa、ABI SOLiD和Roche 454为代表的第二代测序技术,以及第三代测序技术,即单分子测序技术,例如Helic0S公司的真实单分子测序技术、Pacific Biosciences公司的单分子实时测序技术和Oxford Nanopore Technologies公司的纳米孔测序技术;在本发明的实施方案中,采用Illumina Solexa第二代测序技术。根据本发明第一方面的构建方法,其中所述的获得细胞全基因组DNA的方法中包括使用微量盐酸胍的步骤。在本发明的实施方案中,采用室温碱裂解细胞、并加入微量盐酸胍的方法。其中所述微量盐酸胍的终浓度为2X 10_3 3X K^mol/L,在本发明的一个实施方案中,所述微量盐酸胍的终浓度为2X10_3mol/L。在本发明的一个实施方案中,所述的单细胞为精子细胞。根据本发明第一方面的构建方法,其中将获得的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果的方法为本领域技术人员知晓和常用的方法,在本发明的一个实施方案中,其包括以下步骤以所述物种例如人类的参考序列例如Hgl9为对照建立索引,将测序获得的全基因组序列数据通过核酸序列比对软件例如SOAP的比对分析得到比对结果;以参考序列例如人类Hgl9的fasta文件和dbSNP作为参照,将上述比对结果通过SNP探测软件例如SOAPsnp得到call SNP的结果cns文件;通过对cns文件的进一步处理,即可筛选得到可靠的SNP位点数据;通过将不同单细胞的SNP位点数据整合到一个文件中,得到一个包括所有单细胞的各个SNP位点基因型的统计结果。本发明的第二方面涉及基于单细胞测序的遗传图谱构建装置(图2),其包括单细胞全基因组测序单元,用于获得某物种单细胞的全基因组序列; SNP位点基因型统计单元,与所述的单细胞全基因组测序单元相连,用于将某物种单细胞的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果;亲本(parents)分型单元,与所述SNP位点基因型统计单元相连,用于运用最小重组法推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞的SNP基因型的a/b分型结果;连锁区域(bin)划分单元,与所述parents分型单元相连,用于根据a/b分型后的SNP的基因型结果,将基因型划分为连锁区域(bin),划分为一个连锁区域的标准是(I)连续相同的SNP(即都为a或b)数量至少为5个;(2)选取的bin的物理长度大于250kb ;相邻bin之间的重组率计算单元,与所述连锁区域(bin)划分单元相连,用于在得到bin的分型后,通过对所有细胞bin的情况进行统计,计算出a/b的变化比率,进而可得出每连续两个bin与bin之间的重组率;根据每两个连续的bin与bin之间的重组率,得到重组图谱。重组位点的重组率计算单元,与所述相邻bin之间的重组率计算单元相连,重组图谱中a型与b型bin交界的位点即为重组位点,通过统计多个样本在重组位点的重组情况,得到每个重组位点的重组率,最终获得遗传图谱。根据本发明第二方面的装置,其中所述的某物种为子代数目有限的高等生物,例如为哺乳动物;在本发明的实施方案中,所述的某物种为人。根据本发明第二方面的装置,其中所述的单细胞可以为生殖细胞,在本发明的实施方案中,所述的单细胞为精子细胞。根据本发明第二方面的装置,其中所述的单细胞全基因组测序单元包括获得细胞的全基因组DNA子单元、扩增全基因组DNA子单元和全基因组DNA测序子单元;根据本发明第二方面的装置,所述的获得细胞全基因组DNA子单元用于获取细胞的全基因组DNA,所述的获取方法中包括使用微量盐酸胍的步骤。在本发明的实施方案中,采用室温碱裂解细胞、并加入微量盐酸胍的方法。其中所述微量盐酸胍的终浓度为2X10_3 SXlCTmol/L,在本发明的一个实施方案中,所述微量盐酸胍的终浓度为2X10_3mOl/L。在本发明的一个实施方案中,所述的单细胞为精子细胞。根据本发明第二方面的装置,所述的扩增全基因组DNA子单元用于对获得的细胞全基因组DNA进行扩增,其采用的方法例如可以为DOP-PCR、LM-PCR、I_PEP、MDA或pWGA等方法,在本发明的一个实施方案中,所述的扩增全基因组DNA的方法为基于链置换反应的DNA等温扩增方法,例如为MDA方法。根据本发明第二方面的装置,所述的全基因组DNA测序子单元用于对扩增后的全基因组DNA进行序列测定,其采用的方法例如是以Illumina Solexa、ABI SOLiD和Roche454为代表的第二代测序技术,以及第三代测序技术,即单分子测序技术,例如Helic0s公司的真实单分子测序技术、Pacific Biosciences公司的单分子实时测序技术和OxfordNanopore Technologies公司的纳米孔测序技术;在本发明的实施方案中,采用IlluminaSolexa第二代测序技术。根据本发明第二方面的装置,其中的SNP位点基因型统计单元用于将获得的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果,其采用的方法为本领域技术人员知晓和常用的方法,在本发明的一个实施方案中,其包括以下模块比对模块用于以所述物种例如人类的参考序列例如Hgl9为对照建立索引,将测序获得的全基因组序列数据通过核酸序列比对软件例如SOAP的比对分析得到比对结果;·探测模块用于以参考序列例如人类Hgl9的fasta文件和dbSNP作为参照,将上述比对结果通过SNP探测软件例如SOAPsnp得到callSNP的结果cns文件;筛选模块用于通过对cns文件的进一步处理,筛选得到可靠的SNP位点数据;整合模块用于通过将不同单细胞的SNP位点数据整合到一个文件中,得到一个包括所有单细胞的各个SNP位点基因型的统计结果。本发明的第三方面涉及一种单体型分析方法,其包括以下步骤通过全基因组测序获得某物种单细胞的全基因组序列;将获得的全基因组序列与该物种的参考序列进行比对,得到包括所有单细胞个体的单核苷酸多态性(SNP)位点的基因型(genotype)数据;根据获得的基因型数据,运用最小重组法,推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞SNP基因型的父本/母本(a/b)分型结果;根据分型后的SNP的基因型结果,在染色体上划分出连锁区域(bin),划分为一个bin的标准是(I)连续相同SNP (即都为a或b)的数量至少为5个;(2)选取的bin的物理长度大于250kb ;单细胞的单体型可由已确定的连锁区域(bin)得出,即全基因组中同一个bin中的a或b的集合就是此细胞的单体型(haplotype)。根据本发明第三方面的分析方法,其中所述的某物种为子代数目有限的高等生物,例如为哺乳动物;在本发明的实施方案中,所述的某物种为人。根据本发明第三方面的分析方法,其中所述的单细胞可以为生殖细胞,在本发明的实施方案中,所述的单细胞为精子细胞。根据本发明第三方面的分析方法,其中所述的获得某物种单细胞全基因组序列的方法为本领域技术人员知晓和使用的常规方法,其中包括获得细胞的全基因组DNA、扩增全基因组DNA和全基因组DNA测序的步骤;根据本发明第三方面的分析方法,所述的扩增全基因组DNA的方法例如可以为D0P-PCR、LM-PCR、I-PEP、MDA或pWGA等方法,在本发明的一个实施方案中,所述的扩增全基因组DNA的方法为基于链置换反应的DNA等温扩增方法,例如为MDA方法。根据本发明第三方面的分析方法,可以采用本领域常规的高通量测序方法进行全基因组测序,例如以Illumina Solexa、ABI SOLiD和Roche 454为代表的第二代测序技术,以及第三代测序技术,即单分子测序技术,例如Helic0S公司的真实单分子测序技术、Pacific Biosciences公司的单分子实时测序技术和Oxford Nanopore Technologies公司的纳米孔测序技术;在本发明的实施方案中,采用Illumina Solexa第二代测序技术。根据本发明第三方面的分析方法,其中所述的获得细胞全基因组DNA的方法中包括使用微量盐酸胍的步骤。在本发明的实施方案中,采用室温碱裂解细胞、并加入微量盐酸胍的方法。其中所述微量盐酸胍的终浓度为2X 10_3 3X K^mol/L,在本发明的一个实施方案中,所述微量盐酸胍的终浓度为2X10_3mol/L。在本发明的一个实施方案中,所述的单细胞为精子细胞。根据本发明第三方面的分析方法,其中将获得的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果的方法为本领域技术人员知晓和常用的方法,在本发明的一个实施方案中,其包括以下步骤 以所述物种例如人类的参考序列例如Hgl9为对照建立索引,将测序获得的全基因组序列数据通过核酸序列比对软件例如SOAP的比对分析得到比对结果;以参考序列例如人类Hgl9的fasta文件和dbSNP作为参照,将上述比对结果通过SNP探测软件例如SOAPsnp得到call SNP的结果cns文件;通过对cns文件的进一步处理,即可筛选得到可靠的SNP位点数据;通过将不同单细胞的SNP位点数据整合到一个文件中,得到一个包括所有单细胞的各个SNP位点基因型的统计结果。本发明的第四方面涉及一种单体型分析装置(图3),其包括单细胞全基因组测序单元,用于获得某物种单细胞的全基因组序列;SNP位点基因型统计单元,与所述的单细胞全基因组测序单元相连,用于将某物种单细胞的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果;parents分型单元,与所述SNP位点基因型统计单元相连,用于运用最小重组法推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞的SNP基因型的a/b分型结果;连锁区域(bin)划分单元,与所述parents分型单元相连,用于根据a/b分型后的SNP的基因型结果,将基因型划分为连锁区域(bin),划分为一个连锁区域的标准是(I)连续相同的SNP(即都为a或b)数量至少为5个;(2)选取的bin的物理长度大于250kb ;单细胞的单体型可由已确定的连锁区域(bin)得出,即全基因组中同一个bin中的a或b的集合就是此细胞的单体型(haplotype)。根据本发明第四方面的装置,其中所述的某物种为子代数目有限的高等生物,例如为哺乳动物;在本发明的实施方案中,所述的某物种为人。根据本发明第四方面的装置,其中所述的单细胞可以为生殖细胞,在本发明的实施方案中,所述的单细胞为精子细胞。根据本发明第四方面的装置,其中所述的单细胞全基因组测序单元包括获得细胞的全基因组DNA子单元、扩增全基因组DNA子单元和全基因组DNA测序子单元;根据本发明第四方面的装置,所述的获得细胞全基因组DNA子单元用于获取细胞的全基因组DNA,所述的获取方法中包括使用微量盐酸胍的步骤。在本发明的实施方案中,采用室温碱裂解细胞、并加入微量盐酸胍的方法。其中所述微量盐酸胍的终浓度为2X10_3 SXlCTmol/L,在本发明的一个实施方案中,所述微量盐酸胍的终浓度为2X10_3mOl/L。在本发明的一个实施方案中,所述的单细胞为精子细胞。根据本发明第四方面的装置,所述的扩增全基因组DNA子单元用于对获得的细胞全基因组DNA进行扩增,其采用的方法例如可以为DOP-PCR、LM-PCR、I_PEP、MDA或pWGA等方法,在本发明的一个实施方案中,所述的扩增全基因组DNA的方法为基于链置换反应的DNA等温扩增方法,例如为MDA方法。根据本发明第四方面的装置,所述的全基因组DNA测序子单元用于对扩增后的全基因组DNA进行序列测定,其采用的方法例如是以Illumina Solexa、ABI SOLiD和Roche454为代表的第二代测序技术,以及第三代测序技术,即单分子测序技术,例如Helic0s公司的真实单分子测序技术、Pacific Biosciences公司的单分子实时测序技术和Oxford Nanopore Technologies公司的纳米孔测序技术;在本发明的实施方案中,采用IlluminaSolexa第二代测序技术。根据本发明第四方面的装置,其中的SNP位点基因型统计单元用于将获得的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果,其采用的方法为本领域技术人员知晓和常用的方法,在本发明的一个实施方案中,其包括以下模块比对模块用于以所述物种例如人类的参考序列例如Hgl9为对照建立索引,将测序获得的全基因组序列数据通过核酸序列比对软件例如SOAP的比对分析得到比对结果;探测模块用于以参考序列例如人类Hgl9的fasta文件和dbSNP作为参照,将上述比对结果通过SNP探测软件例如SOAPsnp得到callSNP的结果cns文件;筛选模块用于通过对cns文件的进一步处理,筛选得到可靠的SNP位点数据;整合模块用于通过将不同单细胞的SNP位点数据整合到一个文件中,得到一个包括所有单细胞的各个SNP位点基因型的统计结果。本发明的第五方面涉及一种提取细胞基因组DNA的方法,其包括在裂解细胞后使用盐酸胍的步骤,所述盐酸胍的终浓度为2X10_3 3 XK^mol/L,在本发明的一个实施方案中,所述盐酸胍的终浓度为2X 10_3mol/L。在本发明的一个实施方案中,所述提取细胞基因组DNA的方法采用碱裂解细胞后再加入盐酸胍的方法,所述盐酸胍的终浓度为2X10_3 SXK^mol/L,在本发明的一个实施方案中,所述盐酸胍的终浓度为2X 10_3mol/L。在本发明的一个实施方案中,其中所述细胞为精子细胞。在本发明中,盐酸胍所起的作用为使DNA结合蛋白变性,其可以用于普通细胞基因组DNA的提取。由于精子细胞的鱼精蛋白较难去除,而鱼精蛋白会影响后续测序的覆盖度和深度,因此本发明的方法尤其适用于精子细胞全基因组DNA的提取。本发明还涉及本发明第五方面所述的提取细胞基因组DNA的方法用于细胞全基因组测序的用途。在本发明的一个实施方案中,所述细胞为精子细胞。发明的有益效果本发明通过对单细胞进行全基因组测序和数据分析,其具有以下优点1)由于哺乳动物缺少构图的大量后代,选取单倍体的生殖细胞进行遗传图谱构建,取材上克服了传统方法的弊端,取样随机符合统计学原理;2)由于用单倍体的生殖细胞进行基因分型的先例存在研究范围和技术的局限,我们采用的全基因组扩增、高通量测序结合SNP分型的方法能够很好的解决这一问题,不仅能够涵盖已知基因,而且能够覆盖未知区域,从测序数据中检测出的SNP基因型也最全面,能够获得最高分辨率的遗传图谱;3)利用生物信息学方法获得全基因组DNA序列的数据信息,通过对分析数据方法的反复摸索,得到一种获得高分辨率遗传图谱的方法;4)该遗传图谱构建技术能运用于人类遗传学的研究,在基因组学和遗传学方面发挥巨大作用,而且其适合的样本不仅来源于人,还可适用于大部分繁殖能力较低的各种生物,尤其是濒危物种,通过此方法能够非常直观的了解其繁殖的遗传规律,从而指导其按照最优方案繁衍。


图I为单精子测序构建遗传图谱信息分析流程图 。图2为遗传图谱构建装置。图3为单体型分析装置。图4为单精子全基因组连锁区域(bin)间的重组统计结果图(即重组图谱)。图中每一行表示一个单精子,其中的两种颜色分别表示基因分型的结果(浅色表示a,深色表示b),白色区域是分型过程中出现的缺失(missing)的情况,图中显示的深浅交界点即为一个重组点。图5为1-5号人染色体的物理图谱(左)和遗传图谱(右)。其中物理图谱对每一个划分区域(bin)在染色体上的位置关系有一个直接的表述;遗传图谱体现了相邻两个bin之间的遗传重组率,用CM作为单位来表示。对于所示的5条染色体,染色体实际长度、遗传距离分别为chrl(249. 251M,142. 238cM),chr2(243. 199M,155. 710cM),chr3(198. 022M,118. 738cM),chr4(191. 154M,73. 378cM),chr5(180. 915M,78. 830cM)。图6为单精子全基因组序列分析数据产出图。A代表染色体编号出代表单体型区段(Haplotype Blocks) ;C代表遗传距离(cM)值;D代表热点区域;E代表GC含量$代表覆盖5父精细胞基因组;G代表覆盖2 X精细胞基因组出代表覆盖O. 2 X精细胞基因组;I代表基因密度,由浅到深表示由低到高J代表SNP密度。
具体实施例方式发明详述基于现有技术中单精子构建遗传图谱存在的问题,本发明提出了一种结合单细胞全基因组扩增、全基因组重测序和基因分型进行单精子遗传图谱构建和单体型分析的方法。该方法包括实验流程和信息分析流程,实验流程基于单细胞操作技术,具体地,基于单细胞分离技术和微量DNA扩增技术产生足量单细胞DNA样品;信息分析流程基于重测序原理得到基因型,然后根据最小重组法进行单细胞基因组的双亲分型,最终进行图谱的构建。在本发明的实施方案中,以人类精子作为取材对象,很好地解决了人类家系的选取问题(难以选取一个庞大的家系来满足构图所需的大量个体数量),保证了取样的随机性,解决了样本基数的问题。把每个精子当作一个后代,原理上同样基于减数分裂中产生的遗传重组,理论上是科学且可行的;其次,为去除染色体上的结合蛋白特别是鱼精蛋白,使DNA更好的释放,我们采取常温碱性裂解并加入微量胍类化合物,如加入盐酸胍(GuHCl),能够获得高质量的扩增模板;最后,我们通过多重链置换扩增(MDA)方法进行单细胞全基因组的扩增,并结合高通量全基因组测序技术,实现对全基因组范围的分析,不仅能够涵盖已知基因,而且能够覆盖到所有的未知区域,所以能够获得高分辨率的遗传图谱。本发明分为实验部分和信息部分两部分,实验部分主要就单精子分离、裂解细胞、多重链置换扩增、质控、建库、测序来进行,目的是为了扩增出单精子的基因组进行后续信息分析;信息分析部分,分为基因型分析以及图谱构建和单体型分析。在本发明中,在对全基因组扩增后,还包括对扩增产物进行质量控制的步骤,其包括以下两个方面扩增产物的浓度当扩增产物的浓度达到一定标准时,视为产物浓度指标合格;
·
管家基因的覆盖度检测取扩增产物做管家基因检测,当样本中有70%以上的管家基因能够扩增得到,例如在电泳时可以看到目的条带,则可进行下一步建库,并上机测序。本发明中,可以采用本领域常规的高通量测序方法进行全基因组测序,例如以Illumina Solexa、ABI SOLiD和Roche 454为代表的第二代测序技术,以及第三代测序技术,即单分子测序技术,例如Helicos公司的真实单分子测序技术、Pacific Biosciences公司的单分子实时测序技术和Oxford Nanopore Technologies公司的纳米孔测序技术;在本发明的实施方案中,采用Illumina Solexa第二代测序技术。在本发明的一个实施方案中,其包括以下实验操作流程和信息分析流程I)实验操作流程通过密度梯度离心纯化样品,倒置显微镜下从细胞悬液中分离出单个精子细胞或者利用微流控技术分离出单精子细胞,细胞经过裂解释放出染色体DNA,DNA经变性处理后进行多重置换扩增(MDA),扩增后的基因组DNA检测其浓度,浓度合格的DNA样本继续作PCR检测,选取不同染色体上的管家基因为目的片段进行PCR扩增,电泳检验目的条带的存在。PCR检验合格的样品即可用于后续的文库构建和测序分析,或其它遗传学分析。单细胞DNA样品制备的周期为3-4天。2)信息分析流程参考图I。a)以人类Hgl9作为对照建立索引,将测序下机数据与之进行SOAP比对(软件版本 SOAPaligner v2. 2lhttp://soap. Renomics. orR. cn/)得至lit匕对结果。b)以人类Hgl9的fasta文件和Hgl9dbSNP作为参照,将比对结果通过SOAPsnp进行SNP探测,得到call SNP的结果cns文件。c)从cns文件中筛选得到可靠的SNP位点集。d)通过将不同单细胞的SNP结果整合到一个文件中,得到一个包括所有单细胞的各个SNP位点基因型(genotype)的统计结果。e)运用最小重组 法(maximum parsimony of recombination,Parent-independent genotyping for constructing an μ Itrahigh-densitylinkagemap based on population sequencing. PNAS,2010,107,10578-10583),推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞的a/b分型结果。f)对于分型之后各个SNP的genotype结果,我们以两个标准将他们划分为一个个连锁区域(bin) 1)连续相同的SNP数量(即都为a或b)至少为5个;2)选取的bin的物理长度要大于250kb。g)通过统计相邻bin与bin之间的重组情况,计算可以得到重组率,由于已知每个bin的位置范围,我们就能够得到各条染色体的相邻两个bin之间的具体重组信息。h)最终,根据不同的颜色代表不同的a/b分型结果(空白表示基因组缺失区域),我们就能得到重组图谱。
i)根据重组图谱的断点信息(颜色变换点),在每个断点处做纵切线对所有不重复的切点进行重组数量的统计,可以得到遗传图谱。j)对于重组热点区域进行研究,回溯到Hgl9的gff注释文件中提取相关的序列和基因,能够得到更多关于某些与重组紧密相关基因的详细阐述,从而验证我们该方案的科学性与可行性。k)对于遗传上紧密连锁区域的研究得到单体型区段(haplotype blocks),探索紧密连锁的遗传区域的某些遗传特征。本发明论证了单细胞测序模型能运用于人类遗传学的研究,这一模型能够在个人基因组学和遗传学方面发挥巨大作用,对于所有高等生物(繁殖能力有限)而言,该技术都能够有效的应用其中,尤其是一些濒危物种,我们能够从一定程度上指导、帮助其按照最优的方案繁衍。下面将结合实施例对本发明的实施方案进行详细描述,本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。实施例I :单精子测序构建重组图谱和遗传图谱I. I试剂仪器列表表I -20°C保存试剂
权利要求
1.基于单细胞测序的遗传图谱构建方法,其包括以下步骤 通过全基因组测序获得某物种单细胞的全基因组序列; 将获得的全基因组序列与该物种的参考序列进行比对,得到包括所有单细胞SNP位点的基因型的统计结果数据; 根据获得的基因型数据,运用最小重组法推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞SNP基因型的父本/母本(a/b)分型结果; 根据分型后的SNP的基因型结果,在染色体上将其划分为连锁区域(bin),划分为一个bin的标准是(I)连续相同a或b的SNP数量至少为5个;(2)选取的bin的物理长度大于 250kb ; 得到bin的分型后,通过对所有细胞bin的情况进行统计,计算出连续两个bin之间a/b的变化比率,进而可得出每连续两个bin与bin之间的重组率; 根据每连续两个bin与bin之间的重组率,得到重组图谱;其中a与b交界的位点即为重组位点,通过统计多个样本在重组位点的重组情况,得到每个重组位点的重组率,最终获得遗传图谱。
2.基于单细胞测序的遗传图谱构建装置,其包括 单细胞全基因组测序单元,用于获得某物种单细胞的全基因组序列; SNP位点基因型统计单元,与所述单细胞全基因组测序单元相连,用于其将某物种单个细胞的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果;亲本(parents)分型单元,与所述SNP位点基因型统计单元相连,用于运用最小重组法推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞的SNP基因型的a/b分型结果; 连锁区域(bin)划分单元,与所述parents分型单元相连,用于根据a/b分型后的SNP的基因型结果,在染色体上将基因型划分为连锁区域(bin),划分为一个连锁区域的标准是⑴连续相同a或b的SNP数量至少为5个;(2)选取的bin的物理长度大于250kb ;相邻bin之间的重组率计算单元,与所述连锁区域(bin)划分单元相连,用于在得到bin的分型后,通过对所有细胞bin的变化情况进行统计,计算出a/b的变化比率,即可得出每连续两个bin与bin之间的重组率,根据每连续两个bin与bin之间的重组率,得到重组图谱。
重组位点的重组率计算单元,与所述相邻bin之间的重组率计算单元相连,重组图谱中a与b交界的位点即为重组位点,通过统计多个样本在重组位点的重组情况,得到每个重组位点的重组率,最终获得遗传图谱。
3.一种单体型分析方法,其包括以下步骤 通过全基因组测序获得某物种单细胞的全基因组序列; 将获得的全基因组序列与该物种的参考序列进行比对,得到包括所有单细胞个体的单核苷酸多态性(SNP)位点的基因型(genotype)数据; 根据获得的基因型数据,运用最小重组法,推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞SNP基因型的父本/母本(a/b)分型结果;根据分型后的SNP的基因型结果,在染色体上划分出连锁区域(bin),划分为一个bin的标准是⑴连续相同SNP(即都为a或b)的数量至少为5个;(2)选取的bin的物理长度大于250kb ; 单细胞的单体型可由已确定的连锁区域(bin)得出,即全基因组中同一个bin中的a或b的集合就是此细胞的单体型(haplotype)。
4.一种单体型分析装置,其包括 单细胞全基因组测序单元,用于获得某物种单细胞的全基因组序列; SNP位点基因型统计单元,与所述单细胞全基因组测序单元相连,用于将某物种单细胞的全基因组序列与该物种的参考序列进行比对,得到SNP位点基因型的统计结果; 亲本(parents)分型单元,与所述SNP位点基因型统计单元相连,用于运用最小重组法推断出发生重组事件最少情况下的父本和母本两套染色体各自的基因型,进而确定出各个单细胞的SNP基因型的a/b分型结果; 连锁区域(bin)划分单元,与所述parents分型单元相连,用于根据a/b分型后的SNP的基因型结果,将基因型划分为连锁区域(bin),划分为一个连锁区域的标准是(I)连续相同的SNP(即都为a或b)数量至少为5个;(2)选取的bin的物理长度大于250kb ; 单细胞的单体型可由已确定的连锁区域(bin)得出,即全基因组中同一个bin中的a或b的集合就是此细胞的单体型(haplotype)。
5.根据权利要求I或3的方法以及权利要求2或4的装置,其中所述的某物种为子代数目有限的高等生物,例如为哺乳动物;所述哺乳动物例如为人。
6.根据权利要求I或3的方法以及权利要求2或4的装置,其中所述的单细胞为生殖细胞,例如为精子细胞。
7.根据权利要求I或3的方法,其中所述的获得某物种单细胞全基因组序列的方法包括获得细胞的全基因组DNA、扩增全基因组DNA和全基因组DNA测序的步骤。
8.根据权利要求7的方法,当其中所述的单细胞为精子细胞时,其中所述的获得细胞全基因组DNA的方法中包括使用微量盐酸胍的步骤;其中所述微量盐酸胍的终浓度为2 X 1(Γ3 3 X lO^nol/L,例如为 2 X l(T3mol/L。
9.根据权利要求2或4的装置,其中所述的单细胞全基因组测序单元包括获得细胞的全基因组DNA子单元、扩增全基因组DNA子单元和全基因组DNA测序子单元。
10.根据权利要求9的装置,所述的获得细胞全基因组DNA子单元用于获取细胞的全基因组DNA,所述的获取方法中包括使用微量盐酸胍的步骤;其中所述微量盐酸胍的终浓度为 2 X I(T3 3 X KTW/L,例如为 2 X l(T3mol/L。
11.一种提取细胞基因组DNA的方法,其包括在裂解细胞后使用盐酸胍的步骤,所述盐酸胍的终浓度为2 X 10_3 3X lO'ol/L,例如为2X 10_3mol/L。
12.根据权利要求11的方法,其中所述细胞为精子细胞。
13.权利要求11或12的方法用于全基因组测序的用途。
全文摘要
本发明涉及基于单细胞全基因组测序的遗传图谱构建和单体型分析方法,以及用于所述方法的装置。遗传图谱构建方法包括将某物种单细胞的全基因组序列与参考序列进行比对,得到单核苷酸多态性位点基因型的统计结果;对基因型结果进行亲本分型,分为最合适的父本/母本(a/b)结果,使得所有细胞的统计结果中出现的重组次数最少;根据分型后的结果,将其划分为连锁区域(bin);通过计算a/b的变化比率得到所有相邻bin之间的重组率;根据每个重组位点的重组率,最终获得遗传图谱。本发明的方法能够利用单细胞获得高分辨率的遗传图谱,其不仅可用于人,还可用于一些繁殖能力有限的高等生物,特别是濒危物种。
文档编号C12Q1/68GK102952855SQ201110246888
公开日2013年3月6日 申请日期2011年8月26日 优先权日2011年8月26日
发明者宋卢挺, 邵迪, 郑泽群, 郑智俊, 吴逵, 梁舒恒, 陶晔, 侯勇 申请人:深圳华大基因科技有限公司, 深圳华大基因研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1