批量获得高精度昆虫COI基因条形码的方法和试剂盒与流程

文档序号:14241700阅读:864来源:国知局

本申请涉及基因条形码获取领域,特别是涉及一种批量获得高精度昆虫coi基因条形码的方法和试剂盒。



背景技术:

在过去的几年里,科学家在构建精心选择的dna标记方面做出了巨大努力。例如,生命的国际条形码(ibol,www.ibol.org)项目在通过很多年的积累之后,已经得到了覆盖约20万种的4,694,277条序列。其中,包括细胞色素氧化酶c亚基i(缩写coi)作为动物的条形码标记,核内转录间隔区(缩写its)作为真菌的条形码标记,rbcl基因和基因matk基因为植物的条形码。dna条形码已被证明能够加快未知物种的发现和识别,推进全面的生物调查或“所有类群生物多样性资源”(atbi)项目,也适用于法医学应用和环境管理等。

目前,大部分基因条形码的获取都是通过单样本的dna提取、pcr扩增,然后进行sanger测序或双二碱基-index的illumina测序。其中,sanger测序在一定程度上具有比较高的准确性;但是通量很低、费时费力,并且,中间还需要电泳跑胶等步骤。sanger测序的峰图在dna质量不好或pcr扩增效率低的情况下会出现杂峰,影响最终获得的条形码的准确性。此外,对于微量dna样本和非模式类群的物种,采用sanger测序法获得条形码,一般都要经过多轮的pcr才能满足测序的要求。另外通过sanger测序一般不会得到研究物种中包含的微生物或寄生虫的共扩增,例如沃尔巴克氏体感染、肠道微生物等的序列信息,而这些信息在研究中往往非常有价值。

shokrallaetal.于2015年进行了双二碱基-index方法利用illuminamiseqhts平台对dna条形码进行测序,结果显示在1010个样本的coi基因dna条形码的658bp的测序成功率为97.3%,相对于传统的sanger测序,每个样品的成本和劳动时间减少了近80%。简要地说,该技术采用了两次pcr反应,每次使用两种不同的引物,其中一次pcr扩增的是条形码的5’端区域,另一次pcr扩增的是条形码3’端区域,两次pcr扩增产生两个较小的重叠片段,约82个碱基对重叠,从而克服illumina测序平台的读长的限制。但是,即便如此,illumina测序的最长测序能力是300pe,两次pcr扩增重叠组装后也只能达到约518bp的长度,与coi基因条形码的658bp仍然有至少100bp的gap,所以并不能通过一次测序获得coi基因条形码区域的全长,这大大影响了数据的完整性,不能满足通过coi基因条形码进行物种鉴定的使用需求。



技术实现要素:

本申请的目的是提供一种新的批量获得高精度昆虫coi基因条形码的方法和试剂盒。

本申请采用了以下技术方案:

本申请的一方面公开了一种批量获得高精度昆虫coi基因条形码的方法,包括将96对index序列分别添加到coi基因的标准引物的5’端,形成新的带有index序列的96对coi基因标准引物;采用带有index序列的coi基因标准引物,分别对待测昆虫的dna样本进行单重pcr扩增;将pcr扩增产物混合,进行illumina建库,采用可以进行pe150测序的ngs平台对所构建的文库进行测序;最后,通过对测序数据进行信息分析,获得完整的coi基因条形码序列。

其中,96对index序列是自行设计的序列,符合一般测序平台对index序列的需求。

需要说明的是,本申请的昆虫coi基因条形码获得方法,实际上就是基于高通量的ngs平台对昆虫coi基因进行测序,相比于传统的sanger测序方法,本申请的昆虫coi基因条形码获得方法效率更高,并且,降低了时间和人工成本,解决了低质量dna不能进行测序的问题,同时也能挖掘到sanger测序不能获得的嵌合体和共生微生物或寄生虫的序列情况。相比现在illumina测序方法,本申请通过可以进行pe150测序的ngs平台和测序数据的信息分析,可以获得全长的coi基因条形码序列,并且与桑格的一致性几乎达到了100%,甚至同一物种的不同单倍型也可以组装出来。本申请的批量获得高精度昆虫coi基因条形码的方法,为研究生物多样性提供了有利工具。

优选的,信息分析包括数据过滤、序列拆分和两端连接、间隙填充;数据过滤包括,a)去除接头污染序列,b)去除包含n数目大于10的序列,c)去除低质量reads;序列拆分和两端连接包括,结合index序列和coi基因标准引物序列,对所有reads序列进行拆分,对于每个待测昆虫个体,将其在拆分中得到的5’末端和3’末端序列按照98%的相似度聚类,选择聚类结果中最高丰度的序列进行下游的连接和组装,获得coi基因条形码的全长序列;选择聚类结果中丰度不小于所述最高丰度的1/10的序列,按照其测序序列的id信息把有成对关系的序列挑选出来,将重叠区具有高于95%的相似性的且重叠长度达到30-120bp的序列用coap连接,最后,将两端覆盖度不足5的碱基截断,排列出双端序列有可能的组合,获得在样本中潜在的微生物或寄生虫的共扩增序列;间隙填充包括,采用soapbarcode算法对获得的coi基因条形码全长序列进行补充,获得高精度的完整的昆虫coi基因条形码;具体的,将5’端定义为起始点,并且3’末端作为终点,对于每个待测昆虫个体,用kmer构建debrujin图形,从起点到终点的步骤查找潜在的连接路径,采用以下三种策略确保路径的正确性,a)删除在分叉处前的kmer的丰度小于kmer平均丰度的10%的路径;b)

普通读不同出度和位于最后分叉之前kmer之间进行计数,删除有一个以上的出程度第一步之后剩余,并且出度共同的reads小于平均丰度的10%的路径,c)删除扩大超出了预先设定的长度没有终点的路径。

其中,测序序列的id信息,是fastq文件格式中第一行文件,对应测序仪运行信息。成对关系的序列是指,可以进行pe150测序的ngs平台中,采用的是pe测序,即pari-end双末端测序,所以对于一个双链的dna片段,从两端测,就有一对reads。出度是图论中的术语,对有向图而言,顶点的度可分为出度和入度。一个顶点的出度为d,是指有d条边以该顶点为起点,或说与该点关联的出边共有d条。入度的概念也类似。

需要说明的是,本申请的批量获得高精度昆虫coi基因条形码的方法,通过本申请特殊的信息分析,能够获得更加准确的高精度的完整昆虫coi基因条形码序列,为后续的基于条形码的检测和研究奠定了坚实的基础。

优选的,illumina建库的插入片段设计为250bp,ngs平台的测序长度为150pe。本申请的一种实现方式中,具体的可以进行pe150测序的ngs平台为hiseq测序平台。

需要说明的是,虽然本申请的测序长度为150pe,但是,建库片段为250bp;因此,在150pe的测序长度下可以准确的测定插入片段;并且,通过对测序数据进行信息分析,可以获得完整的658bp的coi基因条形码区域全长。

优选的,标准引物的上游引物为seqidno.1所示序列,下游引物为seqidno.2所示序列;

seqidno.1:5’-taaacttcagggtgaccaaaaaatca-3’

seqidno.2:5’-ggtcaacaaatcataaagatattgg-3’。

需要说明的是,本申请的方法中,具体使用的是添加有index序列的标准引物,因此,在seqidno.1所示序列的上游引物的5’端还具有index序列,在seqidno.2所示序列的下游引物的5’端也具有index序列。可以理解,96对index序列分别添加到上游引物和下游引物的5’端后,就形成了96对新的带有index序的标准引物。

另外,还需要说明的是,96对index序列中,每对index序列都包含正向index和反向index,可以理解,正向index是添加在上游引物5’端的,反向index是添加在下游引物5’端的。

优选的,96对index序列如表1所示,

表196对index序列

需要说明的是,表1所示的96对index序列,实际上是本申请的一种实现方式中具体采用的index序列,index序列作为一段随机的索引序列,其长度和具体序列都不只限于表1所示的序列,只要所添加的index序列,在添加到coi基因标准引物上后不影响引物的扩增效率,并且每两个index直接有至少两个碱基的差异,以满足后续拆分要求且不对昆虫基因造成非特异性杂交或扩增即可。

本申请的另一面公开了一种批量获得高精度昆虫coi基因条形码的试剂盒,该试剂盒中含有带index序列的96对coi基因的标准引物,96对coi基因的标准引物分别带不同的index序列;标准引物的上游引物为seqidno.1所示序列,下游引物为seqidno.2所示序列;index序列如表1所示,上游引物的5’端带有正向index序列,下游引物的5’端带有反向index序列。

需要说明的是,本申请的试剂盒,实际上就是本申请的批量获得高精度昆虫coi基因条形码的方法中,具体采用的带有index序列的96对coi基因标准引物。可以理解,为了使用方便,完全可以将本申请方法中所使用的引物制成试剂盒,然后,按照申请的方法对昆虫进行高通量测序,从而获得高精度的昆虫coi基因条形码。当然,试剂盒中还可以包括其它的用于测序或pcr扩增的试剂,在此不做具体限定。

本申请的有益效果在于:

本申请的批量获得高精度昆虫coi基因条形码的方法,充分利用ngs平台高通量测序的优点,提高了coi基因条形码的获取效率、降低了时间和人工成本;并且,本申请的方法可以获得全长的coi基因条形码序列,与桑格测序的一致性达到99.98%,为生物多样性研究提供了有利工具。

具体实施方式

本申请批量获得高精度昆虫coi基因条形码的方法,扩展了双indexhts平台的方法,使其应用于昆虫coi基因条形码获取更方便且更有效;本申请的方法只需一次pcr反应,适用更广泛的测序长度150pe的ngs平台,例如hiseq平台。本申请的方法,在96孔板中进行,可以精确的获得在一个96孔板中所有样品的条形码结果,即使是来自一个物种的不同的单倍型。并且,相比于sanger测序法,本申请的方法,可以对质量较差的dna进行测序,哪怕pcr扩增后电泳显示没有明确条带的样品仍然能够获得序列结果。

本申请的方法与现有的illumina测序获得基因条形码的方法相比,最大的区别就在于,illumina测序是通过两次pcr对完整的coi基因条形码区域进行测序,并且直接对测序结果进行组装获得基因条形码,因此,不能通过一次测序获得coi基因条形码区域的全长。而本申请则是将coi基因条形码区域打断成小片段,确保每个小片段的测序完整和准确性,再对例如hiseq的高通量测序数据进行信息分析,将各小片段拼接成完整的coi基因条形码区域。本申请的方法,充分利用了高通量测序的优势,可以批量的获得高精度的昆虫coi基因条形码。

下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。

实施例

本例采用采自于四川省老河沟自然保护区摩天岭地区的昆虫样本进行试验,其中主要为鳞翅目昆虫样本;采用批量获得高精度昆虫coi基因条形码的方法,获得所采集的昆虫的coi基因条形码。昆虫样本采样于2012年至2013年,由深圳华大基因提供和保存。

本例批量获得高精度昆虫coi基因条形码的方法,详细如下:

1.带有index序列的coi基因标准引物

标准引物的上游引物为seqidno.1所示序列,下游引物为seqidno.2所示序列;

seqidno.1:5’-taaacttcagggtgaccaaaaaatca-3’

seqidno.2:5’-ggtcaacaaatcataaagatattgg-3’。

96对index序列如表1所示,

表196对index序列

其中,上游引物的5’端添加正向index序列,下游引物的5’端添加反向index序列,形成新的带有index序列的96对coi基因标准引物。带有index序列的标准引物由上海生工有限公司合成。

2.昆虫dna提取

本例对95种昆虫进行了dna提取,其中有个昆虫设置了同一个物种的两个单倍型,及有个别碱基差异的情况,同时有一个阴性对照。

本例的昆虫裂解液采用“insectlysisbuffer+na2so3”、bindingmix即“bindingbuffer(bb)”、pwb洗涤液和wb洗涤液等详见glassfiberplatednaextractionprotocol。网址如下:

http://ccdb.ca/site/wp-content/uploads/2016/09/ccdb_dna_extraction-plants.pdf

具体的dna提取如下:

1)按照样品信息表中预先设定的编号,将昆虫样品加入到相应的96孔板中,用酒精清洁实验台,铺上铝箔纸或保鲜膜,防止污染;为了防止静电使昆虫腿乱跳,应首先在96孔板每孔加入30ul左右的酒精,用镊子取昆虫腿样,取样原则:对于非常微小的昆虫应取整个身体,微小的昆虫可以取多条腿,小的昆虫取一条腿,大的昆虫,如蝗虫,取腿部的胫节部分。取样的过程中应注意防止污染,取一个样品就用酒精灯高温灼烧镊子一次,并充分冷却后取下一个样品。每加完一个行或竖就用12连管或8连管封盖。

2)将96孔板离心,然后打开封盖,37℃加热蒸发酒精。

3)准备新的带裙边的96孔板(96wellsoildskirtedeppendorf),每孔加入50μl配置好的昆虫裂解液,将已经蒸发掉酒精的样品加入到带裙边的96孔板中。54℃温浴消化最少6小时。

4)将96孔板1500g离心15秒移除掉封盖上的冷凝水。

5)每个孔加入100μl的bindingmix,1000g震荡离心20秒。

6)移除封盖,将96孔板中150μl的溶液加入到gf板中,gf板放在square-wellblock上面,用axysealsealingfilm封盖gf板。

7)5000g离心5分钟,dna吸附在gf板的gf膜上。

8)第一次洗脱:gf板每孔加入180μl的pwb洗脱液,用新axysealsealingfilm封盖,5000g离心2分钟。

9)第二次洗脱:gf板每孔加入750μl的wb洗脱液,用新axysealsealingfilm封盖,5000g离心5分钟。

10)除封盖,gf板56℃温浴30min除去残留的酒精。

11)gf板放置到下面有collectionmicroplate的pallcollar上;添加30-60μl的56℃预热的ddh2o至孔中gf膜上,室温孵育1min,密封。

12)封装好的板子放到干净的方孔板square-wellblock上避免收集板的破碎;5000g离心5min收集dna;移走并丢弃gf板。

3.pcr扩增

采用带有index序列的coi基因标准引物对提取的昆虫dna样本进行pcr扩增,pcr扩增体系为25μl,包括:10×primerbuffer3μl、dntpsmix2.5μl、extaq0.3μl、10μm带有index序列的上游引物1μl、10μm带有index序列的下游引物1μl、dna样本1μl、ddh2o16.2μl。

本例共设置了96个pcr反应,96个pcr反应分别采用带有不同index序列的coi基因标准引物,96个pcr反应的coi基因标准引物所带的index序列依序如表1所示。

96个pcr反应分别在96孔pcr板中的每个孔中完成,所加的试剂只有pcr引物和dna模板不同,其他试剂完全相同,反应条件也完全相同。pcr引物的不同是指每个样品需要与之对应的含有对应标签的引物序列。

pcr反应条件为,94℃预变性1min,然后进入5个循环:94℃变性30s、45℃退火40s、72℃延伸1min,5个循环反应结束后进入35个循环:94℃变性30s、51℃退火40s、72℃延伸1min,循环结束后,72℃延伸10min,12℃hold。

pcr扩增完成后,采用1.2%的琼脂糖凝胶电泳检测pcr扩增产物。

4.illumina建库

将每一个样本的pcr扩增产物吸取5μl进行混合,获得混合的pcr扩增产物96×5μl,分装成5管,每管96μl,取一管进行dna浓度测定,符合要求后送到测序公司进行illumina文库构建,illumina建库的插入片段大小为250bp,测序类型为hiseq双端测序,读长150bp。本例的qubit检测浓度为120(ng/μl),为a类dna样品,可以直接进行下游测序。

5.测序数据信息分析

对测序数据进行生物信息学分析,按照本例的信息分析方法运行流程,输入文件为hiseq测序平台的下机fastq格式数据、index序列和引物信息,最终得到本例的每个待测昆虫的coi基因条形码序列。本例的信息分析包括数据过滤、序列拆分和两端连接、间隙填充,详细如下:

1)数据过滤,去除原始数据中低质量数据,具体处理如下:

a)去除接头污染,比对的最小长度:15碱基,最多有3个错配;

b)去除包含n数目大于10的序列;

c)去除低质量reads,具体的phred质量评分=2,ascii66“b”,illumina公司1.8+phred+33>50个碱基对。

2)序列拆分和两端连接,具体如下:

首先,利用perl脚本,按照预先设定的混合方案结合序列5’末端和3’末端所包含的index序列,以及引物序列的情况,将所有reads序列进行拆分;其中,预先设定的混合方案,即所设计的将某几个样本的pcr产物进行混合,本例具体的是将96个样本都进行了混合。然后,对于每个待测昆虫个体,将其在上一步中拆分得到的5’末端和3’末端序列按照98%的相似度聚类。接下来,选择聚类结果中最高丰度的序列进行下游的连接和组装,获得coi基因条形码的全长序列。另外,在聚类结果中具有丰度不小于最高丰度1/10且和最高丰度序列差异大于2%的序列也被保留,作为候选序列结果,以获得在样本中潜在的寄生虫、沃尔巴克氏体感染或肠道微生物等扩增结果。在此之后,将前面得到的候选序列结果按照其id信息把与之有成对关系的序列挑选出来,再将重叠区具有高于95%的相似性的且重叠长度达到一定范围的序列用coap连接;最后,用perl脚本将两端覆盖度不足5的序列删除。

3)间隙填充

本例采用soapbarcode算法获得高精度的coi基因条形码全长序列。简言之,将5’端定义为起始点,3’末端作为终点。然后,对于每个待测昆虫个体,用kmer构建debrujin图形,从起点到终点的步骤查找潜在的连接路径。下面几种策略是用来保证正确的路径:

a)在分叉处前的kmer的丰度如果小于kmer平均丰度的10%将被删除;

b)普通读不同出度和位于最后分叉之前kmer之间进行计数,如果有一个以上的出程度第一步之后剩余,并且出度共同的读<平均丰度的10%被除去;

c)扩大超出了预先设定的长度没有终点的路径将被删除。

经过以上信息分析,本例的95个昆虫样本,最终得到88个coi基因条形码序列,其中,有7个样本没有得到coi基因条形码序列。

与此同时,本例采用传统的sanger测序,对提取的95个昆虫dna样本进行测序,结果显示,sanger测序的95个昆虫样本只获得了62个coi基因条形码序列。sanger测序获得的62个coi基因条形码序列,本例都有获得。共同获得的62个coi基因条形码序列中,本例的测序结果与sanger测序结果相比,其中有56个100%相同,5个只有1个碱基的差异,1个样品有3个碱基的差异,成功率从66.32%提升到92.63%;并且,对于部分pcr扩增产物凝胶电泳没有条带的样本,本例也能够获得测序结果和coi基因条形码序列。由此可见,本例的条形码获取方法成功率远高于传统的sanger测序;同时本例的coi基因条形码获取方法更加高效,时间成本和人力成本更低。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1