一种利用测序技术分析猪乳腺组织基因表达差异的方法

文档序号:400286阅读:874来源:国知局
专利名称:一种利用测序技术分析猪乳腺组织基因表达差异的方法
技术领域
本发明属于动物基因工程技术领域,尤其涉及一种利用测序技术分析猪乳腺组织基因表达差异的方法。
背景技术
金华猪又称“金华两头乌”,是我国著名的优良猪种之一,金华猪具有成熟早,肉质好,繁殖率高等优良性能,腌制成的“金华火腿”质佳味香,外型美观,蜚声中外。产于浙江东阳、义乌、金华等地。体型中等,耳下垂,颈短粗,背微凹,臀倾斜、蹄质坚实。全身被毛中间白,头颈、臀尾黑。以早熟易肥、皮薄骨细、肉质优良、适于腌制火腿著称。金华猪的毛色遗传性比较稳定,以中间白、两头乌为特征,纯正的毛色在头顶部和臀部为黑皮黑毛,其余多处均为白皮白毛,在黑白交界中,有黑皮白毛呈带状的晕。金华猪性成熟早,遗传性稳定,繁殖力强。金华猪杂种优势良好,已被广泛用作杂交亲本。肉脂品质好,肌肉颜色鲜红,系水力强,细嫩多汁,富含肌肉脂肪。皮薄骨细,头小肢细,胴体中皮骨比例低,可食部分多。繁殖力高,平均每胎产仔可达14头以上,繁殖年限长,优良母猪高产性能可持续8-9年,终生产仔20胎左右,乳头数多,泌乳力强,母性好,仔猪哺育率高。适应性好,耐寒耐热能力强, 耐粗饲,能适应我国大部分地区的气候环境,多次出口到日本、法国、加拿大、泰国等国家。大约克猪原产于英国,是世界分布最广的瘦肉型猪代表品种。我国引入多年,由于其体形大,被毛全白,亦称为大白猪,在各地均有饲养,可作为第一母本或父本利用。具有生长速度快、饲料利用率高、胴体瘦肉率高、肉色好、产仔多、适应性强的优良特点.其体形高大,皮肤可有隐斑;头颈较长,面宽微凹,耳向前直立;体躯长,背腰平直或微弓,腹线平, 胸宽深,后躯宽长丰满;有效乳头6对以上.成年公猪体重250-300千克,成年母猪体重 230-250千克。通常利用的杂交方式是杜X长X大或杜X大X长,即用长白公(母)猪与大约克夏母(公)猪交配生产,杂一代母猪再用杜洛克公猪(终端父本)杂交生产商品猪。这是目前世界上比较好的配合。我国用大约克夏猪作父本与本地猪进行二元杂交或三元杂交,效果也很好。可在我国绝大部分地区饲养,较适宜集约化养猪场、规模猪场。随着新一代高通量测序技术的快速发展,建立在高通量测序基础上的转录组测序技术已成为目前从全基因组水平研究基因表达和转录组分析的重要手段.转录水平的调控是生物体最主要的调控方式.在深度测序技术出现之前,高通量测定不同基因转录水平的主要手段是基因芯片,它可以对不同组织或不同发育阶段的基因表达差异和模式进行分析,而RNA-Seq技术最基本的应用也是检测基因的表达水平,它对同一样品深度测序可以捕获低表达的基因,而对大量样品同时测序可以获得样品之间的表达差异。与基因芯片数据比较,RNA测序得到的是数字化的表达信号,无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段,具有灵敏度高、分辨率高和应用范围广等优势。除此之外, 研究人员还可以获得转录本表达丰度、转录起始位点和可变剪切等重要信息。所以,建立在高通量测序基础上的转录组研究已经逐步取代基因芯片技术成为目前从全基因组水平研究基因表达的主流方法。Marioni et al. (2008)比较了转录组测序和传统Microarray芯片技术在分析基因表达水平上的各自表现,他们发现深度测序具有良好的可重复性,并且能发现更多的低表达的基因。Tang et al. (2009)等利用RNA-Seq对小鼠单个卵母细胞进行表达谱分析,与芯片技术相比,高通量测序可以多检测到75%的基因表达,并且有8%_19% 的基因存在两种以上的转录形式。Pan et al . O008)利用Solexa测序仪进行了人的转录组测序,首次利用新一代测序数据发现和检测了选择性剪切,而且还用测序数据估计了外显子。把高通量测序技术应用到由mRNA逆转录生成的cDNA上,从而获得来自不同际遇的 mRNA片段在特定样本中的含量,这就是mRNA测序或mRNA-seq。同样原理,各种类型的转录本都可以用深度测序技术进行高通量定量检测,统称作RNA-seq或RNA测序。

发明内容
本发明目的在于针对现有技术的不足,提供一种利用测序技术分析猪乳腺组织基因表达差异的方法。该方法通过制备金华猪和大约克猪乳腺组织的cDNA文库并进行转录组测序分析来研究其基因表达情况,并进行两不同样本的基因差异表达分析和差异基因GO 分析。本发明的目的是通过以下技术方案来实现的一种利用测序技术分析猪乳腺组织基因表达差异的方法,该方法包括以下步骤
(1)总RNA的提取金华猪和大约克猪屠宰后,采集乳腺组织样本,研钵置于高压灭菌锅中灭菌,然后将乳腺组织样本放入研钵,倒入液氮,将乳腺组织样本研磨成粉末状态;然后取样品粉末50-100mg,移至已加入Iml Trizol试剂的2ml离心管中并混勻,室温条件下静置5-lOmin,让样品中核蛋白混合物完全裂解;在离心管中加入200ul氯仿,剧烈震荡15 秒后,室温条件下静置2-aiiin ;
然后放入离心机中,4°C、13000rpm离心15min,上层无色水相为RNA,下层红色是酚、 氯仿层;吸取上层无色水相至一新的离心管中,加入500ul异丙醇(沉淀RNA),室温条件下静置IOmin ;然后4°C、13000rpm离心lOmin,RNA被沉淀,呈胶状颗粒;弃上清,加入Iml用 DEPC水配置的体积百分比浓度为75%酒精,旋转管子混勻;4°C、IOOOOrpm离心5min ;弃乙醇,沉淀物在室温条件下干燥5-lOmin ;加入50ul体积百分比浓度为0. 1%的DEPC水溶解 RNA ;
(2)构建组织RNA-Seq 测序 cDNA 文库,采用 Illumina Satandard Kit 试剂盒,cDNA 文库的制备主要包括以下子步骤(2. l)mRNA分离和片段化;用poly (T)寡聚核苷酸从上述2个总RNA池中抽取带poly(A)尾的RNA,其中的主要部分就是编码基因所转录的mRNA, 然后将所得的mRNA用裂解液在70摄氏度下裂解5分钟;(2. 2) cDNA合成与末端修复;利用N6随机引物和反转录酶将片段化的mRNA合成cDNA —链,随后用RNaseH和DNA多聚酶再将一链cDNA合成双链cDNA,然后利用T4DNA多聚酶和KlenowDNA多聚酶对二链cDNA进行末端修饰;(2. 3)连接5'和3'测序接头;用Illumina adaptor mix和T4DNA酶将上述经过末端修饰的cDNA连接到Illumina双端测序接头上,这样得到将用于测序的cDNA ; (2. 4) PCR扩增cDNA文库;在以上过程,将RNA随机片段化和采用随机引物进行反转录,都是为了使所得cDNA片段较均勻地取自各个转录本,为了提高测序效率,一般采用电泳切胶法(琼脂糖凝胶的质量体积比浓度为0. 02g/ml),获取长度范围在200-250bp的cDNA片段, 再经过15个循环的PCR线性扩增后,最后用QIAquick PCR purification KIT试剂盒富集和纯化得到最终的cDNA文库;
(3)采用IlluminaGA II X测序仪器对建库产物进行测序上述纯化好的cDNA文库放进基因组分析泳道中,采用边合成边测序法,利用Illumina GA II χ测序平台进行5'和 3'双向75nt长度RNA-Seq测序,每个通道将产生数百万条原始的读段(Read),Read的测序读长为75bp ;
(4)RNA-Seq数据的基本处理,该步骤包括以下子步骤
(4. 1)将测序数据定位到参考基因组获得RNA-Seq的原始数据后,首先需要将所有测序读段通过序列映射定位到Ensembl数据库的猪基因组上,这需要使用TopHat软件以及Bowtie软件共同来完成;首先,通过Bowtie采用Burrows-Wheeler转换将猪基因组按照一定规则压缩并建立索引,然后采用Tophat软件来查找和回溯来定位读段;不过在读段定位之前,需要按照Illumina标准程序对读段进行质量过滤,Tophat允许每个读段多重比对,并且可以允许最多出现2个缺省的错配;定位的结果接着被用于鉴定可以表达的 “islands”,这也就是潜在的外显子;如果存在有些读段不能直接定位到参考基因组上,那么就会将这些读段与Tophat数据库中公认的结合位点进行比对,从而可以签订出潜在的外显子结合位点;最后,读段定位到基因组后采用SAM格式来存储,而鉴定的结合位点会以 BED文件保存;
(4. 2)转录本签订上述凭借好的序列会进一步使用Cuffinks软件来预测新的转录本; RNA-Seq数据能在一定程度上推断对于每一个转录本的表达水平,并检测其在不同样品间的差异表达和调控;因为Cuffinks软件可以不依赖一致参考基因的转录本去预测未知的、 潜在的新的转录本,这就使得CufTinks软件可以应用于位置物种选择性剪切和转录本的鉴定;预测的转录本会存储在以transcript, expr命名的文件夹里,而签订的基因则会储存在以genes, expr命名的文件夹下面;用FPKM进行基因表达估计,FPKM就是每百万读段中来自于某基因外显子每千碱基长度的读段数,公式表示为=FPKM=(基因区段计数/基因长度*测序深度)*109 ;最后预测的转录本和他们相关的外显子会形成GTF格式文件,并被储存在transcript, gtf文件夹下面;
(4. 3)基因和转录本注释一旦所有的读段序列用Cuffinks软件进行组合后,组合转录本的GTF文件将和参考基因组一起进行比对;利用Cuffinks软件中得Cuffcompare模块可以对每个转录本是已知或未知进行分类;这样,所有的转录本包括与参考基因组匹配的(ClaSS-COde:u or -)或者包含在参考基因组内的(class-c0de:c)以及发现新的转录本亚型(class-code ;j)和潜在的新的转录本(class-code:u or -)都会被签订出来;一份包括所有预测的转录本和参考转录本的组合文件将会生成并被存储在<Sample_Name>_ combined, gtf 文件下面;
(5)比较两种样本中基因表达的差异用金华猪乳腺组织中FPKM值与大约克猪乳腺组织中FPKM值的比值的绝对表达倍数来表示金华猪和大约克猪乳腺组织中差异基因表达水平;
(6)差异表达基因的GO分析基因功能聚类分析采用GO方法分析,使用功能基因注释软件包bioconducter分析组织中功能相关基因表达变化;一般来说,单个基因的表达情况的改变不能完全反应特定细胞功能和通路的整体变化情况;因为生物个体的细胞功能的实现并不仅仅是依靠一两个基因功能的改变来实现的;而基因本体(Gene Ontology, G0),也就是一套与基因有关的树状的词汇表的引入为基因功能数据挖掘提供了新的思路;GO分析主要目的在于发掘出与基因差异表达现象关联的特征基因功能类的组合;GO分析是根据挑选出的有注释的差异基因,计算这些差异基因同GO分类中某个特定的分支的超几何分布关系;通过GO分析可以找到富集差异基因的GO分类条目,寻找不同样品间的差异基因可能和那些基因功能的改变有关。本发明的有益效果是,通过高通量测序(RNA-kq)技术对金华猪和大约克猪乳腺组织进行全基因组表达谱分析,探讨这两个不同猪种的乳腺基因组表达差异,得到一系列重要的遗传信息,为深入研究猪泌乳发育、泌乳过程中相关的基因功能和调控机制提供基础材料。


图1是质量体积比为0.06g/ml的聚丙烯酰胺凝胶电泳图,图中,第一泳道是 marker条带,第二泳道是金华猪乳腺组织cDNA条带,第三泳道是大约克猪乳腺组织cDNA条
市ο
具体实施例方式本发明利用测序技术分析猪乳腺组织基因表达差异的方法,包括以下步骤
1、总RNA的提取金华猪和大约克猪屠宰后,采集乳腺组织样本,研钵置于高压灭菌锅中灭菌,然后将乳腺组织样本放入研钵,倒入液氮,将乳腺组织样本研磨成粉末状态 ’然后取样品粉末50-100mg,移至已加入Iml Trizol试剂的2ml离心管中并混勻,室温条件下静置5-lOmin,让样品中核蛋白混合物完全裂解;在离心管中加入200ul氯仿,剧烈震荡15 秒后,室温条件下静置2-aiiin ;
然后放入离心机中,4°C、13000rpm离心15min,上层无色水相为RNA,下层红色是酚、 氯仿层;吸取上层无色水相至一新的离心管中,加入500ul异丙醇(沉淀RNA),室温条件下静置IOmin ;然后4°C、13000rpm离心lOmin,RNA被沉淀,呈胶状颗粒;弃上清,加入Iml用 DEPC水配置的体积百分比浓度为75%酒精,旋转管子混勻;4°C、IOOOOrpm离心5min ;弃乙醇,沉淀物在室温条件下干燥5-lOmin ;加入50ul体积百分比浓度为0. 1%的DEPC水溶解 RNA。同时,取出2ul进行RNA完整性检验,另外取出Iul进行RNA浓度和纯度的测定,其余在-70°C保存备用。2、构建组织 RNA-Seq 测序 cDNA 文库,采用 Illumina Satandard Kit 试剂盒, cDNA文库的制备主要包括以下步骤(l)mRNA分离和片段化;用poly (T)寡聚核苷酸从上述2个总RNA池中抽取带poly(A)尾的RNA,其中的主要部分就是编码基因所转录的mRNA, 然后将所得的mRNA用裂解液在70摄氏度下裂解5分钟。(2) cDNA合成与末端修复;利用 N6随机引物和反转录酶将片段化的mRNA合成cDNA —链,随后用RNaseH和DNA多聚酶再将一链cDNA合成双链cDNA,然后利用T4DNA多聚酶和KlenowDNA多聚酶对二链cDNA进行末端修饰。(3)连接5'和3'测序接头;用Illumina adaptor mix和T4DNA酶将上述经过末端修饰的cDNA连接到Illumina双端测序接头上,这样得到将用于测序的cDNA。(4)PCR扩增cDNA文库;在以上过程,将RNA随机片段化和采用随机引物进行反转录,都是为了使所得 cDNA片段较均勻地取自各个转录本,为了提高测序效率,一般采用电泳切胶法(琼脂糖凝胶的质量体积比浓度为0. 02g/ml),获取长度范围在200-250bp的cDNA片段,再经过15个循环的PCR线性扩增后,最后用QIAquick PCR purification KIT试剂盒富集和纯化得到最终的cDNA文库。3、采用Illumina GA II X测序仪器对建库产物进行测序上述纯化好的cDNA文库放进基因组分析泳道中,采用边合成边测序法(sequencing by synthesis,SBS),利用 Illumina GA II χ测序平台进行5'和3'双向75nt长度RNA-Seq测序,每个通道将产生数百万条原始的读段(Read),Read的测序读长为75bp。4、RNA-Seq数据的基本处理
(1)将测序数据定位到参考基因组
获得RNA-Seq的原始数据后,首先需要将所有测序读段通过序列映射定位到Ensembl 数据库的猪基因组上(http:www. ensembl. org/info/data/ftp/index. html),这需要使用 TopHat软件以及Bowtie软件共同来完成。首先,通过Bowtie采用Burrows-Wheeler转换将猪基因组按照一定规则压缩并建立索引,然后采用Tophat软件来查找和回溯来定位读段。不过在读段定位之前,需要按照Illumina标准程序对读段进行质量过滤,Tophat允许每个读段多重比对,并且可以允许最多出现2个缺省的错配。定位的结果接着被用于鉴定可以表达的“islands”,这也就是潜在的外显子。如果存在有些读段不能直接定位到参考基因组上,那么就会将这些读段与Tophat数据库中公认的结合位点进行比对,从而可以签订出潜在的外显子结合位点(即剪切位点)。最后,读段定位到基因组后采用SAMGequence Alignment/Map)格式来存储,而鉴定的结合位点会以BED文件保存。(2)转录本签订
上述凭借好的序列会进一步使用Cuffinks软件来预测新的转录本。RNA-Seq数据能在一定程度上推断对于每一个转录本的表达水平,并检测其在不同样品间的差异表达和调控。因为Cuffinks软件可以不依赖一致参考基因的转录本去预测未知的、潜在的新的转录本,这就使得CufTinks软件可以应用于位置物种选择性剪切和转录本的鉴定。预测的转录本会存储在以transcript, expr命名的文件夹里,而签订的基因则会储存在以genes, expr 命名的文件夹下面。目前最常用的基因表达估计方法包括FPKM(Fragments Per Kilobases of exon per Million fragments mapped),就是每百万读段中来自于某基因外显子每千碱基长度的读段数,公式表示为=FPKM=(基因区段计数/基因长度*测序深度)*109。最后预测的转录本和他们相关的外显子会形成GTF格式文件,并被储存在transcript, gtf文件夹下面。(3)基因和转录本注释
一旦所有的读段序列用Cuffinks软件进行组合后,组合转录本的GTF文件将和参考基因组一起进行比对。利用Cuffinks软件中得Cuffcompare模块可以对每个转录本是已知或未知进行分类。这样,所有的转录本包括与参考基因组匹配的(class-code:!! or -)或者包含在参考基因组内的(claSS-COde:C)以及发现新的转录本亚型(class-code ; j)和潜在的新的转录本(class-code:!! or -)都会被签订出来。一份包括所有预测的转录本和参考转录本的组合文件将会生成并被存储在<Sample_Name>_COmbined. gtf文件下面。5、比较两种样本中基因表达的差异。这些差异一般可以用一些统计假设检验方法检测,但这种检验有时会受到测序深度、基因长度等因素的影响,需要对结果进行仔细分析,消除尽可能的混杂因素,必要时可以用读段的绝对表达值倍数变化(fold-change)来作为补充。RNA测序数据是对提取出的RNA转录本中随机进行的短片段测序,如果一个转录本的丰度高,则深度测序后定位到其对应的基因组区域的读段也就多,可以通过对定位到基因外显子区的读段计数来估计基因表达水平。很显然,读段计数出了与基因真实表达水平成正比,还与基因长度成正比,同时也与测序深度即测序实验中得到的总读段数正相关。为了保持对不同基因和不同试验件估计的基因表达值的可比性,人们提出了 FPKM (fragment per kilobase of exon per million fragments mapped)的概念FPKM是每百万读段中来自于某基因每千碱基长度的读段数。在本发明的试验中,金华猪和大约克猪乳腺组织中差异基因表达水平就是用金华猪乳腺组织中FPKM值与大约克猪乳腺组织中FPKM值的比值, 并且为了消除尽可能的混杂因素,我们采用绝对表达倍数表示。6、差异表达基因的GO (Gene Ontology)分析。基因功能聚类分析采用GO方法分析,使用功能基因注释软件包bioconducter分析组织中功能相关基因表达变化。一般来说,单个基因的表达情况的改变不能完全反应特定细胞功能和通路的整体变化情况。因为生物个体的细胞功能的实现并不仅仅是依靠一两个基因功能的改变来实现的。而基因本体 (Gene Ontology, G0),也就是一套与基因有关的树状的词汇表的引入为基因功能数据挖掘提供了新的思路。GO分析主要目的在于发掘出与基因差异表达现象关联的特征基因功能类的组合。GO分析是根据挑选出的有注释的差异基因,计算这些差异基因同GO分类中某个特定的分支的超几何分布关系。通过GO分析可以找到富集差异基因的GO分类条目,寻找不同样品间的差异基因可能和那些基因功能的改变有关。以下结合实施例来进一步说明本发明。1、总RNA的提取
采集泌乳21天金华猪、大约克猪屠宰后迅速采集乳腺组织样本,立刻装入冷冻管中, 置入液氮中,按上述步骤提取总RNA。配制静DEPC处理的电泳缓冲液50X TAE,高压灭菌待用,用3%H202浸泡电泳槽15min,再用DEPC冲洗,然后倒入0. 5X TAE电泳缓冲液,用0. 5 X TAE电泳缓冲液制备1%琼脂糖凝胶进行电泳,在凝胶成像仪上观察并拍照,初步评估RNA 质量。2、测序cDNA文库的构建
采用标准建库方法,分别对金华猪和大约克猪乳腺组织总RNA,进行测序文库构建,并用6. (FoTBEpolyacrylamide gel检测条带的准确性。结果表明,文库条带均在350bp附近, 与目的条带相符。检测结果见图1。3、Illumina Solexa测序结果基本处理
其中RXJ样品(金华)共测序获得30,307,414的数据读数(Reads),共计产生约2. 27G 的数据量,RXY样品(大约克夏),共测序获得31,M4,100的数据读数,共计产生约2. 34G的数据量。为了进一步获得测序数据与测序物种的基因信息的比对结果,我们对数据进行了进一步的统计分析。使用TopHat软件将RNA-Seq测序数据定位到参考基因组。样品RXJ 和RXY分别有30,378,936和31,沘5,299数据是可比对的(当一个测序数据比对上Genome 一次,我们计算为一次Mappable,当一个测序数据比对上Genome 二次则计数的Mappable为二,因此Mappable Reads数目有可能大于测序总读数),18,744,172以及19,858,470的数据是比对上基因组的,其中比对上Transcripts的数目分别为12,628,373和12,461,893,比对上Intron的分别为308,360和569,356,比对上Genome的分别是4,286,671以及5, 264,186。4、新预测的两个样本的转录本、外显子和内含子的统计信息
相对于既有的Ensembl上的GTF文件文件信息,利用猪基因组序列以及测序数据,采用Cufflinks软件来预测新的转录本.其中针对RXJ样本,在染色体l(chrl)上,转录本 (Transcript)最短长度为71nt,最长为83Mnt,平均长度为648. 6nt.其中包括的外显子, 从1-57个外显子不等,其中平均外显子个数为2. 9个.针对的外显子长度从4nt到4537nt 碱基长度不等,平均长度为221. 6nt.内含子长度从70nt到344474nt碱基不等,平均内含子长度为5434. 1.而针对RXY样本,在染色体l(chrl)上,转录本CTranscript)最短长度为71nt,最长为9599nt,平均长度为742. 6nt。其中包括的外显子,从1到58个外显子不等,其中平均外显子个数为2. 9个。针对的外显子长度从4nt到5740nt碱基长度不等,平均长度为259. 9nt。内含子长度从70nt到^0700nt碱基不等,平均内含子长度为 5785.5nt。对于RXY样品,所有染色体上预测的最长的转录本有9871nt,位于chrMT,最短的只有71nt,位于chrl和chr2在内的多条染色体上;所有染色体上预测的最大的外显子个数有57个,位于chrl,最长的外显子为8737nt,位于chrMT ;在所有染色体上预测的内含子最长有500000nt,位于chrll上,最短也为70nt。对于RXY样品,所有染色体上预测的最长的转录本有1485^t,位于chrl2上,最短的只有71nt,位于多条染色体上;所有染色体上预测的最大的外显子个数有58个,位于chrl上,最长的外显子为6870nt,位于chr2 ;在所有染色体上预测的内含子最长有448666nt,也位于chrll,最短的只有70nt,位于chrl在内的多条染色体上。所以,通过比较可以看出RXJ样本预测的最长的转录本和最长的内含子都高于RXY样本,但后者的最多外显子个数以及最长外显子长度都高于前者。5、基因差异表达分析
在本研究中,金华猪、大约克猪差异表达基因四40个,并且差异基因表达水平值的范围是-20. 0722到17. 3563。在这些差异表达基因中,表达差异倍数大于2倍的有178个,其中表达上调有96个,下调有82个。从结果中发现,差异表达基因上调的多余下调的。上调的基因有 SLK、SPTAN1、HMGCS1、ACOX1、ACLY 等,下调的基因有 ABHD6、PHGR1、CHI3L1、PPP1CB、 RNDl 等。6、差异表达基因的G0(Gene Ontology)分析
在本实验中将差异表达的基因分别按照生物过程、细胞成分和分子功能进行分类。显著性GO分类1-生物学过程中涉及到的显著功能有转录调控、信号转导、细胞粘附、蛋白质磷酸化、多细胞生物的发育调控、跨膜运输、蛋白质运输、细胞凋亡、蛋白质水解、细胞周期、 细胞分化等。显著性分类2-细胞成分中涉及的显著性功能有细胞质、核、膜、膜的完整性、 质膜、胞液、线粒体、高尔基体、内质网等。显著性分类3-分子功能中涉及的显著性功能有蛋白结合、金属离子结合、核苷酸结合、锌离子结合、ATP结合、水解酶活力、转移酶活力、催化活力等。
权利要求
1. 一种利用测序技术分析猪乳腺组织基因表达差异的方法,其特征在于,该方法包括以下步骤(1)总RNA的提取金华猪和大约克猪屠宰后,采集乳腺组织样本,研钵置于高压灭菌锅中灭菌,然后将乳腺组织样本放入研钵,倒入液氮,将乳腺组织样本研磨成粉末状态;然后取样品粉末50-100mg,移至已加入Iml Trizol试剂的2ml离心管中并混勻,室温条件下静置5-lOmin,让样品中核蛋白混合物完全裂解;在离心管中加入200ul氯仿,剧烈震荡15 秒后,室温条件下静置2-aiiin ;然后放入离心机中,4°C、13000rpm离心15min,上层无色水相为RNA,下层红色是酚、 氯仿层;吸取上层无色水相至一新的离心管中,加入500ul异丙醇(沉淀RNA),室温条件下静置IOmin ;然后4°C、13000rpm离心lOmin,RNA被沉淀,呈胶状颗粒;弃上清,加入Iml用 DEPC水配置的体积百分比浓度为75%酒精,旋转管子混勻;4°C、IOOOOrpm离心5min ;弃乙醇,沉淀物在室温条件下干燥5-lOmin ;加入50ul体积百分比浓度为0. 1%的DEPC水溶解 RNA ;(2)构建组织RNA-Seq 测序 cDNA 文库,采用 Illumina Satandard Kit 试剂盒,cDNA 文库的制备主要包括以下子步骤(2. l)mRNA分离和片段化;用poly (T)寡聚核苷酸从上述2个总RNA池中抽取带poly(A)尾的RNA,其中的主要部分就是编码基因所转录的mRNA, 然后将所得的mRNA用裂解液在70摄氏度下裂解5分钟;(2. 2) cDNA合成与末端修复;利用N6随机引物和反转录酶将片段化的mRNA合成cDNA —链,随后用RNaseH和DNA多聚酶再将一链cDNA合成双链cDNA,然后利用T4DNA多聚酶和KlenowDNA多聚酶对二链cDNA进行末端修饰;(2. 3)连接5'和3'测序接头;用Illumina adaptor mix和T4DNA酶将上述经过末端修饰的cDNA连接到Illumina双端测序接头上,这样得到将用于测序的cDNA ; (2. 4) PCR扩增cDNA文库;在以上过程,将RNA随机片段化和采用随机引物进行反转录,都是为了使所得cDNA片段较均勻地取自各个转录本,为了提高测序效率,一般采用电泳切胶法(琼脂糖凝胶的质量体积比浓度为0. 02g/ml),获取长度范围在200-250bp的cDNA片段, 再经过15个循环的PCR线性扩增后,最后用QIAquick PCR purification KIT试剂盒富集和纯化得到最终的cDNA文库;(3)采用IlluminaGA II X测序仪器对建库产物进行测序上述纯化好的cDNA文库放进基因组分析泳道中,采用边合成边测序法,利用Illumina GA II χ测序平台进行5'和 3'双向75nt长度RNA-Seq测序,每个通道将产生数百万条原始的读段(Read),Read的测序读长为75bp ;(4)RNA-Seq数据的基本处理,该步骤包括以下子步骤(4. 1)将测序数据定位到参考基因组获得RNA-Seq的原始数据后,首先需要将所有测序读段通过序列映射定位到Ensembl数据库的猪基因组上,这需要使用TopHat软件以及Bowtie软件共同来完成;首先,通过Bowtie采用Burrows-Wheeler转换将猪基因组按照一定规则压缩并建立索引,然后采用Tophat软件来查找和回溯来定位读段;不过在读段定位之前,需要按照Illumina标准程序对读段进行质量过滤,Tophat允许每个读段多重比对,并且可以允许最多出现2个缺省的错配;定位的结果接着被用于鉴定可以表达的 “islands”,这也就是潜在的外显子;如果存在有些读段不能直接定位到参考基因组上,那么就会将这些读段与Tophat数据库中公认的结合位点进行比对,从而可以签订出潜在的外显子结合位点;最后,读段定位到基因组后采用SAM格式来存储,而鉴定的结合位点会以 BED文件保存;(4. 2)转录本签订上述凭借好的序列会进一步使用Cuffinks软件来预测新的转录本; RNA-Seq数据能在一定程度上推断对于每一个转录本的表达水平,并检测其在不同样品间的差异表达和调控;因为Cuffinks软件可以不依赖一致参考基因的转录本去预测未知的、 潜在的新的转录本,这就使得CufTinks软件可以应用于位置物种选择性剪切和转录本的鉴定;预测的转录本会存储在以transcript, expr命名的文件夹里,而签订的基因则会储存在以genes, expr命名的文件夹下面;用FPKM进行基因表达估计,FPKM就是每百万读段中来自于某基因外显子每千碱基长度的读段数,公式表示为=FPKM=(基因区段计数/基因长度*测序深度)*109 ;最后预测的转录本和他们相关的外显子会形成GTF格式文件,并被储存在transcript, gtf文件夹下面;(4. 3)基因和转录本注释一旦所有的读段序列用Cuffinks软件进行组合后,组合转录本的GTF文件将和参考基因组一起进行比对;利用Cuffinks软件中得Cuffcompare模块可以对每个转录本是已知或未知进行分类;这样,所有的转录本包括与参考基因组匹配的(ClaSS-COde:u or -)或者包含在参考基因组内的(class-c0de:c)以及发现新的转录本亚型(class-code ;j)和潜在的新的转录本(class-code:u or _)都会被签订出来;一份包括所有预测的转录本和参考转录本的组合文件将会生成并被存储在<Sample_Name>_ combined, gtf 文件下面;(5)比较两种样本中基因表达的差异用金华猪乳腺组织中FPKM值与大约克猪乳腺组织中FPKM值的比值的绝对表达倍数来表示金华猪和大约克猪乳腺组织中差异基因表达水平;(6)差异表达基因的GO分析基因功能聚类分析采用GO方法分析,使用功能基因注释软件包bioconducter分析组织中功能相关基因表达变化;一般来说,单个基因的表达情况的改变不能完全反应特定细胞功能和通路的整体变化情况;因为生物个体的细胞功能的实现并不仅仅是依靠一两个基因功能的改变来实现的;而基因本体(Gene Ontology, G0),也就是一套与基因有关的树状的词汇表的引入为基因功能数据挖掘提供了新的思路;GO分析主要目的在于发掘出与基因差异表达现象关联的特征基因功能类的组合;GO分析是根据挑选出的有注释的差异基因,计算这些差异基因同GO分类中某个特定的分支的超几何分布关系;通过GO分析可以找到富集差异基因的GO分类条目,寻找不同样品间的差异基因可能和那些基因功能的改变有关。
全文摘要
本发明公开了一种利用测序技术分析猪乳腺组织基因表达差异的方法,分别构建了金华猪和大约克猪乳腺组织cDNA的文库并用基因组分析仪进行测序,采用Cufflinks软件预测了新的转录本信息;在此基础上还对两样本测序结果进行了比较分析,包括基因差异表达分析和差异表达基因的GeneOntology分析;本发明公开了金华猪和大约克猪乳腺组织转录组测序的过程和结果,并对这些序列信息进行了深入的统计分析和比较,以期为深入研究猪泌乳发育、泌乳过程中相关的基因功能和调控机制提供基础材料。
文档编号C12Q1/68GK102409099SQ20111038581
公开日2012年4月11日 申请日期2011年11月29日 优先权日2011年11月29日
发明者张立凡, 彭静, 徐宁迎, 王颖 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1