一种二代序列基因组重叠群的组装方法和系统与流程

文档序号:15686258发布日期:2018-10-16 21:05阅读:2490来源:国知局

本发明涉及生物技术领域,具体涉及基因组重叠群的组装方法,特别涉及一种二代序列基因组重叠群的组装方法和系统。



背景技术:

罗氏454测序系统的测序原理是基于焦磷酸测序法,依靠生物发光对dna序列进行检测,在dna聚合酶,atp硫酸化酶,荧光素酶和双磷酸酶的协同作用下,罗氏454测序系统将引物上每一个dntp的聚合与一次荧光信号释放偶联起来。通过检测荧光信号释放的有无和强度,就可以达到实时测定dna序列的目的。此技术不需要荧光标记的引物或核酸探针,也不需要进行电泳,具有分析结果快速、准确、高灵敏度和高自动化的特点。罗氏454测序序列平均长度一般为500bp左右,最长为700bp左右,其长度相对于目前二代测序hiseq2500的250bp和miseq的300bp来说要长的多,但其在2016年年中已经停止服务。

目前基因组组装项目以全基因组鸟枪法测序(whole-genomeshotgunsequencing,wgs)为主流设计方案,wgs是一种分析大片段基因组dna序列的策略,将大片段dna(如噬菌体文库中约40kb长或细菌人工染色体所含350kb长的dna插入片段)随机切成许多1~1.5kb的小片段,分别对其测序,然后借助序列重叠区域拼接成全段序列。

重叠群(contig)组装主要采用德布鲁因图(debrujingraph)算法进行拼接。但由于基因组中普遍存在重复序列,此组装算法在遇到重复区域无法跨过时就会断掉,重复比例比较高的基因组组装会存在大量长度比较短的重叠群(contig)。

把组装出的重叠群(contig)从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群(contig)的大小即为n50的大小,n50对评价基因测序的完整性有重要意义。n60即把组装出的重叠群(contig)从大到小排列,当其累计长度刚刚超过全部组装序列总长度60%时,最后一个重叠群(contig)的大小即为n60的大小。n70、n80、n90以此类推。

而由于454序列读长比较长,可以利用相互重叠关系进行拼接,相比德布鲁因图算法来说可以跨过更多的重复区域,组装出长度比较短的contig会更少,指标会更高。

综上所述,序列读长对基因组组装效果有重要的影响,如何通过实验建库和测序读长选取,并结合拼接软件进行拼接以达到延长序列读长,接近或超过454序列的平均长度就成为一个亟待解决的问题。



技术实现要素:

针对现有技术的不足及实际的需求,本发明提供一种二代序列基因组重叠群的组装方法和系统,本方法和系统能够延长二代序列的平均长度并提高基因组重叠群组装的指标和准确性。

为达此目的,本发明采用以下技术方案:

第一方面,本发明提供一种二代序列基因组重叠群的组装方法,包括如下步骤:

(1)提取样品基因组并超声打断;

(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;

(3)将步骤(2)得到的文库进行二代双末端测序;

(4)将各个文库的二代双末端测序的读1(read1)和读2(read2)进行拼接;

(5)将拼接后的序列进行序列组装;

其中,所述二代双末端测序的读1(read1)和读2(read2)的序列有5bp以上的重叠区域。

本发明中,通过拼接后进行重叠群组装,只要读1(read1)和读2(read2)的序列有5bp以上的重叠区域,读1(read1)和读2(read2)就能拼接成功,并获得尽可能长的序列,而通过这样的拼接后组装使得重叠群数量少,从而也提高了重叠群组装的效率和准确性。

根据本发明,所述超声打断的范围和切胶的长度范围本领域技术人员可以根据测序长度进行调节,随着技术进一步发展测序长度将进一步延长,超声打断的范围和切胶的长度范围也随之改变,在此不做特殊限定。

根据现有技术的测序长度pe250和pe300,本申请确定了两个超声打断范围和切胶的长度范围。

根据现在测序长度pe250选择的超声打断的范围为100-500bp,切胶的长度范围为450-500bp,例如可以是450-470bp、460-480bp或470-490bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。

根据现在测序长度pe300选择的超声打断的范围为100-600bp,切胶的长度范围为550-600bp,例如可以是550-570bp、560-580bp或570-590bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。

根据之后的测序长度pe400选择的超声打断的范围为100-800bp,切胶的长度范围为750-800bp,例如可以是750-770bp、760-780bp或770-790bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。

根据之后的测序长度pe500选择的超声打断的范围为100-1000bp,切胶的长度范围为950-1000bp,例如可以是950-970bp、960-980bp或970-990bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。

根据本发明,所述二代双末端测序选用的测序仪只要能够进行双末端测序都是可行的,本领域技术人员可以根据需要进行选择,在此不做特殊限定,本申请采用的是hiseq测序仪或miseq测序仪。

根据本发明,所述二代双末端测序的读1(read1)和读2(read2)的读长长度本领域技术人员可以根据测序长度进行调节,随着技术进一步发展测序长度将进一步延长,读1(read1)和读2(read2)的读长长度也随之改变,在此不做特殊限定。

本发明中所述二代双末端测序的读1(read1)和读2(read2)的读长长度为200-2000bp,例如可以是200bp、210bp、230bp、250bp、260bp、270bp、280bp、290bp、300bp、320bp、350bp、380bp、400bp、420bp、450bp、480bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1000bp、1100bp、1200bp、1300bp、1400bp、1500bp、1600bp、1700bp、1800bp、1900bp或2000bp,优选为200-500bp,进一步优选为250-300bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。

本发明中,由于现在测序长度所限,所述读1(read1)和读2(read2)的读长长度为200-500bp,但随着测序技术的进一步发展,测序长度的不断延长,所述读1(read1)和读2(read2)的读长长度可延长到2000bp甚至更长,无论测序技术如何发展,读1(read1)和读2(read2)的读长长度如何延长,只需读1(read1)和读2(read2)的读长具有重叠区域,本发明方法都是适用的。

根据本发明,所述二代双末端测序的读1(read1)和读2(read2)的序列有5bp以上的重叠区域,优选为10bp以上的重叠区域,所述重叠区域的上限值为序列长度-1,例如可以是5bp、8bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp或200bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。

本发明中,所述拼接后的序列长度为读1(read1)长度+读2(read2)长度-重叠区域长度。

本发明中,由于某些原始序列带有接头序列,或含有少量低质量序列,使用软件经过一系列数据处理以去除杂质数据,得到有效数据,所述步骤(3)和步骤(4)之间还包括将步骤(3)所述的二代双末端测序进行数据过滤。

优选地,所述数据过滤具体包括:去除含接头和低质量的序列。

本发明中,所述低质量的序列为质量值小于等于20的碱基数占整个序列的20%以上的序列。

根据本发明,步骤(4)所述的拼接采用pear软件进行对比拼接。

根据本发明,步骤(5)所述的序列组装为对各个文库拼接后序列根据重弄跌关系进行序列组装,从而获得基因组重叠群序列,本发明采用cabog、celera、newbler或shortyedena中的任意一种软件进行组装。

根据本发明,所述二代序列基因组重叠群的组装方法包括如下步骤:

(1)提取样品基因组并超声打断;

(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;

(3)将步骤(2)得到的文库采用hiseq测序仪或miseq测序仪进行二代双末端测序,所述二代双末端测序的读1(read1)和读2(read2)的读长长度为250-2000bp,所述读1和读2的序列有5bp以上的重叠区域;

(4)将步骤(3)所述的二代双末端测序进行去除含接头和低质量的序列的数据过滤;

(5)将各个文库的二代双末端测序的读(read1)1和读2(read2)采用pear软件进行拼接;

(6)将拼接后的序列采用cabog、celera、newbler或shortyedena中的任意一种软件进行序列组装。

第二方面,本发明提供一种二代序列基因组重叠群的系统,包括依次连接的如下组件:建库模块,测序模块、拼接模块和重叠群组装模块。

根据本发明,所述建库模块用于将样品dna超声打断后凝胶纯化并切胶,以构建不同插入片段的文库。

根据本发明,所述测序模块用于对构建的文库进行二代双末端测序和数据过滤;所述拼接模块用于对二代双末端测序的读1(read1)和读2(read2)进行拼接;所述重叠群组装模块用于对拼接后的序列进行序列组装。

与现有技术相比,本发明具有如下有益效果:

(1)本发明方法和系统通过实验建库、根据测序读长选取建库和切胶范围,并结合拼接软件进行拼接,达到了延长序列读长的目的,用延长后的序列根据重叠关系进行重叠群组装,达到提高重叠群组装的指标和准确性;

(2)本发明方法通过拼接后进行重叠群组装,使得重叠群数量少,从而也提高了重叠群组装的效率和准确性。

附图说明

图1是本发明基于第二代测序技术和实验建库、切胶技术相结合,组装基因组重叠群的流程图;

图2是本发明基于第二代测序技术和实验建库、切胶技术相结合,读1和读2测通并拼接,获得更长序列读长的流程图。

具体实施方式

为更进一步阐述本发明所采取的技术手段及其效果,以下结合附图并通过具体实施方式来进一步说明本发明的技术方案,但本发明并非局限在实施例范围内。

除非另有说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不构成对本发明的限制。对于本领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为本说明的一部分。

实施例1

本发明提供一种基于第二代测序技术和实验建库、切胶技术相结合的二代序列基因组重叠群的组装方法,流程图如图1所示,包括如下步骤:

(1)提取样品基因组并超声打断;

(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;

(3)将步骤(2)得到的文库采用hiseq测序仪进行二代双末端测序,所述二代双末端测序的读1和读2的读长长度为250-300bp,所述读1和读2的序列有10bp以上的重叠区域,具体如表1所示:

表1

(4)将步骤(3)所述的二代双末端测序进行去除含接头和低质量的序列的数据过滤;

(5)将各个文库的二代双末端测序的读1和读2采用pear软件进行拼接,具体的拼接过程如图2所示,所示读1和读2具有10bp以上的重叠区域,所述pear比对拼接软件可从http://sco.h-its.org/exelixis/web/software/pear/获得;

(6)将拼接后的序列采用cabog、celera、newbler或shortyedena中的任意一种软件进行序列组装。

实施例2

水稻(ir64)基因组具体应用例,在该例子中,实现基因组重叠群测序组装,具体步骤如下:

(1)建库测序

提取样本的dna并随机超声打断100-600bp,经电泳后,凝胶纯化并切胶,切胶范围为550-570bp,以构建不同插入片段的文库;

(2)双末端测序

纯化后的dna片段文库连接测序接头,pcr,然后分别使用miseq测序仪进行二代双末端300bp序列读长的测序,所述读1和读2的序列有10bp的重叠区域;

(3)数据过滤

去除含接头的序列和低质量序列,获得过滤后的序列;

(4)序列拼接

通过pear软件分别对过滤后的序列进行比对拼接,获得拼接后的序列,拼接序列平均长度为472bp,数据量约为9.38gb;

(5)建立重叠群

将拼接后序列用newbler软件进行组装,得到大小约为353mb的重叠群序列,结果如表2所示,contign50为21036bp,从表2中可以看出本发明方法一n10到n90的组装指标远远高于不拼接直接用platanus软件的方法二,从number>100bp和number>2000bp来看,方法二明显存在很多很短的contig。

表2读1和读2拼接和不拼接直接用platanus软件用kmer=151进行组装比较

综上所述,本发明方法和系统在水稻基因组组装中相对于用德布鲁恩图算法,重叠群组装指标和准确性都有大幅提高。

申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1