同时确定多种样本的线粒体基因组序列信息的方法和系统的制作方法

文档序号：9887977阅读：1392来源：国知局

同时确定多种样本的线粒体基因组序列信息的方法和系统的制作方法
【技术领域】
[0001] 本发明涉及生物技术领域，具体地，涉及同时确定多种样本的线粒体基因组序列 ig息的方法和系统。
【背景技术】
[0002] 线粒体（mitochondrion)是真核生物细胞内的重要细胞器，几乎存在于各类真核生物细胞内，处于新陈代谢和生物能量转换的中心地位。在后生动物中，大部分物种线粒体的基因组大小大概在16Kb左右，编码13个蛋白质，2个rRNA以及22个tRNA。并且其基因组具有相当一致的结构特点：十分细小和致密，基因的排列紧密，没有或很少的基因间隔序列，所有的基因都不含有内含子。
[0003] 线粒体因其独特的系统发育历史常被用作系统发育研究的重要分子标记物。例如，国际生命条形码项目（the International Barcode of Life, iBOL, http://ibol.org) 利用线粒体的coxl基因作为动物的物种鉴别序列，已经获得近15万个物种的数据库，线粒体上的其他蛋白基因，如CYTB、ND1等都是有助于物种鉴定和系统发育关系的构建的很好的分子标记。
[0004] 然而，如何快速有效的获得大量物种的线粒体基因组仍然是个难题。

【发明内容】

[0005] 需要说明的是，本发明是基于发明人的下列发现而完成的：
[0006] 传统的线粒体的基因组测序一般都是通过物理分离线粒体、常规PCR或LA-PCR 的方法分离得到研究者所关注物种的线粒体DNA，然后通过酶切或超声打断的方法得到短的DNA片段，通过第一代测序仪（基于Sanger测序原理）测序并通过软件进行组装得到全长线粒体基因组序列。而这些传统方法都不可避免的需要针对单个物种设计引物，并逐个进行扩增和测序。受到引物设计和测序通量的限制，该过程非常耗时，成本高，无法快速的用于大量生物的全线粒体基因组测序。近年来第二代测序技术（the next generation sequencing technology, NGS)使人们有能力完成大量样品的线粒体基因组测序。同时，也使低廉地获取大量不同物种的全线粒体基因组成为可能。NGS所能够提供的测序通量大大超过任何单个线粒体基因组的测序需求，以Illumina HiSeq 2000为例，单个run的测序通量达到600G，足以对30万个线粒体基因组进行100X的测序。虽然将不同的样品混合可以解决通量浪费的问题，但是怎样将混合的测序结果一一对应回混合样本中的原初个体是目前研究的瓶颈。目前常用的技术采用物理分隔或在样本测序前添加带有索引标签的接头来区分同一个测序反应中的多个样品。此技术的应用虽然能够极大的增加一次测序反应中测序样本的数量，但由于此方法需要对每一个样本单独建库，其成本会随着所需测序样本的数量呈线性增长，因此大大限制了索引标签序列在混合样本中的应用。
[0007] 从测序技术发展的早期开始，研究人员们就在找寻一种能够大规模测序和分析物种的方法。不同的研究人员都从理论的角度上验证了混合测序分析的可行性。2010年 Timmermans等人将该思路应用在了 30个鞘翅目的线粒体全基因组测序上，证实了宏线粒体基因组测序分析的可行性，他们利用大片段PCR扩增富集线粒体基因组，并利用罗氏454 测序30个混合的甲虫线粒体，扩增特定基因片段以辅助组装。然而该研究中使用的LA-PCR 受引物的限制很大，尤其对于不同科目的物种需要针对性的设计引物。而且因为，其混合的物种亲缘关系较近，导致混合组装过程中产生钳合体的概率大大增加，同时也需要一系列特定基因片段的sanger测序结果辅助组装，进一步增加了人力物力成本。
[0008] 因而，现阶段大量物种的线粒体基因组组装的方法仍有待改进。
[0009] 本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种能够快速有效的同时确定大量物种的线粒体基因组信息的手段。具体地，本发明旨在通过利用NGS的高通量和低成本的优势，结合宏基因组分析技术，通过生物信息学的方法混合组装动物线粒体基因组。
[0010] 根据本发明的一个方面，本发明提供了一种同时确定多种样本的线粒体基因组序列信息的方法，所述多种样本所属种相互不同。根据本发明的实施例，该方法包括以下步骤：提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物；将所述DNA混合物进行文库构建，以便获得DNA测序文库；对所述DNA测序文库进行测序，以便获得多个测序序列；将所述多个测序序列进行筛选，以便获得目标序列；将所述目标序列进行序列组装，以便获得多个组装序列；将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。
[0011] 发明人惊奇地发现，利用本发明的方法能够一次性平行获得大量物种的线粒体基因组。并且，根据本发明的实施例，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用。
[0012] 根据本发明的另一方面，本发明还提供了一种用于同时确定多种样本的线粒体基因组序列信息的系统，所述多种样本所属种相互不同。根据本发明的实施例，该系统包括： DNA混合物提供装置，所述DNA混合物提供装置用于提供所述多种样本中每一种的基因组 DNA并混合，以便获得DNA混合物；文库构建装置，所述文库构建装置与所述DNA混合物提供装置相连，用于将所述DNA混合物进行文库构建，以便获得DNA测序文库；测序装置，所述测序装置与所述文库构建装置相连，用于对所述DNA测序文库进行测序，以便获得多个测序序列；筛选装置，所述筛选装置与所述测序装置相连，用于将所述多个测序序列进行筛选，以便获得目标序列；序列组装装置，所述序列组装装置与所述筛选装置相连，用于将所述目标序列进行序列组装，以便获得多个组装序列；形态学物种分类装置，所述形态学物种分类装置用于将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；组装序列物种分配装置，所述组装序列物种分配装置分别与所述序列组装装置和所述形态学物种分类装置相连，用于基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及线粒体基因组构建装置，所述线粒体基因组构建装置与所述组装序列物种分配装置相连，用于基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。
[0013] 根据本发明的实施例，利用本发明的系统能够一次性平行获得大量物种的线粒体基因组。并且，发明人发现，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用。
[0014] 其中，需要说明的是，在本文中所采用的表达方式"蛋白基因"、"蛋白编码基因"、 "线粒体蛋白基因"均是指线粒体蛋白编码基因。
[0015] 本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0016] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
[0017] 图1显示了根据本发明一个实施例的同时确定多种样本的线粒体基因组序列信息的方法的流程示意图；
[0018] 图2显示了根据本发明一个实施例，组装序列物种分配的流程示意图；
[0019] 图3显示了根据本发明一个实施例，49个物种样本的线粒体基因组组装结果示意图；
[0020] 图4显示了根据本发明一个实施例，49个物种样本的组装序列涵括线粒体蛋白基因情况的不意图；
[0021] 图5显示了根据本发明一个实施例，49个物种样本中其中三个果蝇种的C0I基因进化距离及其组装质量示意图；
[0022] 图6显示了根据本发明一个实施例，利用软件Geneious注释6个组装线粒体基因组的结果示意图；
[0023] 图7显示了根据本发明一个实施例的用于同时确定多种样本的线粒体基因组序列信息的系统的结构示意图；
[0024] 图8显示了根据本发明一个实施例，筛选装置400的结构示意图；
[0025] 图9显示了根据本发明一个实施例，序列组装装置500的结构示意图；
[0026] 图10显示了根据本发明一个实施例，组装序列物种分配装置700的结构示意图。
【具体实施方式】
[0027] 下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
[0028] 根据本发明的一个方面，本发明提供了一种同时确定多种样本的线粒体基因组序列信息的方法，所述多种样本所属种相互不同。发明人惊奇地发现，利用本发明的方法能够一次性平行获得大量物种的线粒体基因组。并且，根据本发明的实施例，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用。
[0029] 具体地，根据本发明的实施例，本发明的同时确定多种样本的线粒体基因组序列信息的方法包括以下步骤：
[0030] 首先，提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物。
[0031 ] 其次，将所述DNA混合物进行文库构建，以便获得DNA测序文库。根据本发明的实施例，所述DNA测序文库的插入片段长度为250bp。
[0032] 再次，对所述DNA测序文库进行测序，以便获得多个测序序列。根据本发明的实施例，利用HiSeq2000测序平台进行所述测序。由此，前述的DNA测序文库也将按照HiSeq2000 测序平台的文库构建策略构建。
[0033] 接着，将所述多个测序序列进行筛选，以便获得目标序列。根据本发明的实施例，将所述多个测序序列进行筛选，进一步包括：将所述多个测序序列进行去接头污染和质量控制处理，以便获得经过去接头污染和质量控制处理的测序序列；将所述经过去接头污染和质量控制处理的测序序列进行第一比对，以便获得第一比对序列；将所述第一比对序列分剪成长度为51bp的Kmer片段；以及从所述多个测序序列中寻找与所述Kme

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周欣;唐敏;刘山林;苏旭;谭美华;
技术所有人：深圳华大基因研究院;
我是此专利的发明人

上一篇：无参转录组分析系统及方法
上一篇：一种基于大规模数据挖掘的癌症检测试剂盒及检测方法