一种基于转录组的准确高效的真核生物基因鉴定方法与流程

文档序号:15857770发布日期:2018-11-07 11:16阅读:1822来源:国知局

本发明涉及生物技术领域,尤其是涉及一种基于转录组的准确高效的真核生物基因鉴定方法。

背景技术

自人类基因组测序完成以来,越来越多的生物的基因组测序完成。基于基因组鉴定生物基因相对容易。然而,完成基因组测序的物种所占比例极小,大部分的物种都需要通过同源克隆的方式鉴定物种本身的基因。同源克隆对于近缘物种中已鉴定得到对应基因的情况下,效果较好。然而,在鉴定物种间一致性低的基因以及一些进化地位特殊的物种的基因时,同源克隆往往无法达到令人满意的效果。这是往往需要分析基因的保守位点,设计兼并引物,可能同时需要几对,甚至十几对的引物才能获得目的基因。大大增加了鉴定的经济成本和时间成本。

转录组是继基因组学后另一大组学研究热点。由于转录组测序技术的发展,以及转录组测序和数据分析相对基因组简单,转录组测序成本远远低于基因组测序。转录组测序理论上能够获得某个样本中全部表达的基因的序列。因此,一次转录测序构建的数据库可为成千山万个基因的鉴定提供基础数据库。转录组测序的成本平摊到每一个基因的鉴定上低至几毛钱至几元钱,这远远低于多次引物的设计合成成本。



技术实现要素:

本发明提供一种基于转录组的准确高效的真核生物基因鉴定方法,可以有效解决上述背景技术中的问题。

本发明的技术方案概述如下:

一种基于转录组的准确高效的真核生物基因鉴定方法,包括如下工艺步骤:

第1步,拟鉴定基因表达预测:首先利用基因的基本信息,以及其在其他物种中的研究结果预测待鉴定基因本身的表达的情况,确定待鉴定基因高表达的时空信息;

第2步,拟鉴定基因高表达样品的采集和rna提取与反转录:待鉴定基因高表达样品的要求为,待鉴定基因的表达量高,样品容易采集且rna容易提取,根据此要求,利用真核生物特有的polya富集rna,片段化rna后反转录得到所需的cdna文库;

第3步,转录组测序:使用高通量测序平台对cdna文库进行测序;

第4步,转录组数据分析与存储:对cdna文库的转录组数据质控、拼接,并进行功能注释,注释结果保存于excel;

第5步,转录组数据的调取:利用excel的搜索功能,以待鉴定基因为关键词进行搜索,将需要鉴定的基因名在功能注释的excel中搜索定位其在转录组中的位置,调出对应的转录组序列,若找到多个序列,则进行序列比对,筛选正确的序列用于引物设计;

第6步,基因鉴定引物的设计与基因鉴定:根据筛选到的序列对序列进行整理分析,预测其cds并设计序列特异性引物,进行基因鉴定。

优选的是,所述第1步中具体可使用相关的查询数据库,如thehumanproteinatlas(https://www.proteinatlas.org),此外,一些特殊的物种可参考其近缘物种的研究报告。

优选的是,所述第2步中的rna提取过程中利用oligot富集包含polya的全部rna,并使用但不限于agilent2200检测rna和cdna文库质量。

优选的是,所述第3步中的高通量测序平台包括但不限于hiseq-2500、hiseq-2000、罗氏454和iontorrent。

优选的是,所述第4步中的质控包括错误率的分布、reads的组成、cleandata数据;拼接使用trinity中三个独立的模块进行,即茧(inchworm)、蛹(chrysalis)、蝶(butterfly);基因功能注释则使用七大数据库进行,包括nr,nt,pfam,kog/cog,swiss-prot,kegg,go;所述第4步中的注释结果包括但不限于拼接转录本信息、corset转录本层次聚类信息,以及功能注释结果。

优选的是,所述第5步中的excel的搜索功能定位是使用ultraedit软件的搜索功能定位所需要的序列,所述第5步中序列比对采用mega进行,并使用ncbi的blast功能进行验证。

优选的是,所述第6步中的序列整理的格式为.fasta格式,序列的整理分析使用mega软件;引物设计使用但不限于premierprimer、oligo、vectorntisuit、dnasis、omiga和dnastar;根据引物是否添加酶切位点及pcr酶的特性选用适当的克隆载体完成基因鉴定。

优选的是,执行引物的pcr,胶回收pcr产物,克隆到适宜的载体中,对克隆菌液进行测序,测序结果用dnastar软件包分析,拼接,分析结果在ncbi中比对确定鉴定基因的准确性,完成基因鉴定,其克隆的载体使用但不限于pmd19-t、pmd18-t。

与现有技术相比,本发明的有益效果是:该种基于转录组的准确高效的真核生物基因鉴定方法,技术设计完整紧凑,具体是通过近缘物种的研究报告分析,测定待鉴定基因表达丰富样本的转录组,再在转录组中筛选待鉴定基因的目的序列,并以此为基础进行基因的鉴定克隆,得到准确的基因序列。本技术手段适用于大多数真核生物的功能基因鉴定,十分准确,满足了研究过程功能基因鉴定的研究需求。本发明设计合理,使用简单,成本相对较低,适合推广使用。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

一种基于转录组的准确高效的真核生物基因鉴定方法,包括如下工艺步骤:

第1步,拟鉴定基因表达预测:使用thehumanproteinatlas数据库搜索leptin的组织表达情况,发现其在软组织和脂肪组织中表达量高,根据查询结果推测leptin在达氏鲟脂肪组织中高表达,然而只有50cm以上的达氏鲟才能比较容易采集到脂肪组织,而实验室样本的达氏鲟约为20cm,考虑到肝脏中含有大量的脂肪细胞,推测肝脏中也表达leptin,因此采集达氏鲟肝脏作为转录组测序样品;

第2步,拟鉴定基因高表达样品的采集和rna提取与反转录:在二级生物安全柜中快速解剖达氏鲟取出肝脏,于液氮中速冻后,提取rna,琼脂糖凝胶电泳分析rna降解程度以及是否有污染;nanodrop检测rna的纯度(od260/280比值);qubit对rna浓度进行精确定量;agilent2200精确检测rna的完整性,用带有oligo(dt)的磁珠富集真核生物mrna;随后加入fragmentationbuffer将mrna打断成短片段,以mrna为模板,用六碱基随机引物(randomhexamers)合成一链cdna,并加上a尾和测序接头;agilent2200对文库的insertsize进行检测;

第3步,转录组测序:库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行illuminahiseq测序;

第4步,转录组数据分析与存储:转录组质控包括错误率的分布、reads的组成和cleandata数据;trinity拼接后的文件保存为fata格式,并进行corset层次聚类,层次聚类结果保存为fasta格式,使用七大数据库进行基因功能注释,包括nr,nt,pfam,kog/cog,swiss-prot,kegg,go,并将功能注释结果储存于excel表格中;

第5步,转录组数据的调取:以leptin作为搜索关键词在excel表格中进行搜索,排除受体的相关结果确定正确的leptin结果,并查找对应的cluster编号,使用cluster编号查到对应的转录组序列;

第6步,基因鉴定引物的设计与基因鉴定:使用dnastar分析转录组中的cds,以转录组序列为基础设计leptin引物如下

(senseprimer)5'gaatgaactatccaattgtacccc3'

3'cttacttgataggttaacatgggg5'

(anti-senseprimer)5'ctcagcatttctttagttgatcca3'

3'gagtcgtaaagaaatcaactaggt5'

引物扩增片段进行胶回收,胶回收产物克隆到pmd19-t载体中。测序结果显示,峰图无杂峰,测序效果良好。

测序结果在ncbi中的比对结果显示基因鉴定得到的序列为达氏鲟的leptin序列。

该种基于转录组的准确高效的真核生物基因鉴定方法,技术设计完整紧凑,具体是通过近缘物种的研究报告分析,测定待鉴定基因表达丰富样本的转录组,再在转录组中筛选待鉴定基因的目的序列,并以此为基础进行基因的鉴定克隆,得到准确的基因序列。本技术手段适用于大多数真核生物的功能基因鉴定,十分准确,满足了研究过程功能基因鉴定的研究需求。本发明设计合理,使用简单,成本相对较低,适合推广使用。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出的实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1