1.本发明涉及生物信息技术领域,更具体地,涉及一种基于全基因组序列的巴西橡胶树萜类合成酶基因家族的挖掘与分析方法。
背景技术:2.巴西橡胶树作为一种重要的经济植物,其体内的主要次生代谢产物是萜类化合物,其中占萜类化合物比重较大的是多萜化合物——天然橡胶。天然橡胶因其具有优良的弹性、良好的绝缘性、可塑性、以及耐磨、耐拉、隔水隔气等特性,被广泛应用于工业、农业、国防、交通运输、医疗卫生和日常生活等方面,是不可或缺的战略物资和工业原料。全球天然橡胶所需量的90%来源于巴西橡胶树。根据国际橡胶发明组织(irsg)报道,预计2022年全球天然橡胶需求量将达到1437万吨。因此,人们致力于发明如何提高天然橡胶产量。
3.巴西橡胶树中除了天然橡胶这种多萜化合物以外,还存在其他萜类化合物。萜类合成酶(tps:terpene synthase)是单萜、倍半萜、二萜等萜类化合物合成过程中一类非常关键的酶,它们与相应底物法呢基二磷酸(fpp:farnesyl diphosphate)、对映-柯巴基二磷酸(ecp:ent-copalyl diphosphate)、双牻牛儿基二磷酸(ggpp:geranylgeranyl diphosphate)、二甲烯丙基焦磷酸(dmapp:dimethylallyl pyrophosphate)等结合并发生催化反应。tps控制着这些萜类化合物的产生、产量、种类等,会影响萜骨架单体ipp和dmapp的浓度和流向,这些单体也是天然橡胶生物合成时所需要的单体,因此tps会影响天然橡胶的生物合成。虽然巴西橡胶树的基因组已经被测序,但目前为止还没有基于巴西橡胶树全基因组tps基因的挖掘与分析,巴西橡胶树中萜类化合物的合成途径也尚未清楚。
技术实现要素:4.为解决背景技术提出的问题,本发明提出了一种基于全基因组序列的巴西橡胶树萜类合成酶基因家族的挖掘与分析方法。
5.本发明通过巴西橡胶树的基因组挖掘出所有的tps,对巴西橡胶树的萜类合成酶(hbtps:hevea brasiliensis terpene synthase)进行基因序列分析、顺式作用元件分析、系统发育树分析、功能注释、差异表达分析、蛋白质三维结构预测及其与相应底物的对接分析等。这些分析将有助于揭示hbtps的作用及其分子机理,为巴西橡胶树体内天然橡胶生物合成的有效调控提供新的见解。
6.为实现上述目的,本发明的技术方案如下;
7.本发明基于全基因组序列的巴西橡胶树萜类合成酶基因家族的挖掘与分析方法。其包括如下步骤:
8.s1、hbtps的挖掘和鉴定;
9.s2、hbtps基因序列分析;
10.s3、hbtps的顺式作用元件分析;
11.s4、hbtps系统发育树分析;
12.s5、hbtps功能注释与次级代谢通路预测;
13.s6、hbtps的差异表达分析;
14.s7、hbtps的三维结构预测与分子对接分析。
15.上述挖掘与分析方法,其中步骤s1具体包括以下步骤:
16.s11.从ncbi数据库的子数据库genome中下载巴西橡胶树及其他物种的基因组序列;
17.s12.从pfam数据库下载tps的两个保守结构域模型,分别为n末端结构域模型,其id号为pf01397;c末端结构域模型,其id号为pf03936;
18.s13.使用hmmer软件分别搜索它们的蛋白质序列数据;以氨基酸残基数大于200和e-value小于10-5为条件进行筛选,搜索包含一个或两个保守结构域的序列,由同一个基因编码的蛋白质序列取最长那条hbtps基因序列。
19.上述挖掘与分析方法,其中步骤s2具体包括以下步骤:
20.s21.使用gsds工具对hbtps基因的内含子外显子结构进行可视化;
21.s22.使用meme(https://meme-suite.org/meme/tools/meme)预测保守结构域;
22.s23.通过muscle软件对hbtps进行多序列比对以分析保守基序。
23.上述挖掘与分析方法,其中步骤s3具体为:
24.根据hbtps的注释信息,使用tbtools提取每个hbtps基因编码区前面的2000bp序列,使用plantcare(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)预测hbtps的顺式作用元件。
25.上述挖掘与分析方法,其中步骤s4具体为:
26.tps使用muscle进行序列比对,比对后的结果使用mega x构建系统发育树,系统发育树的结果使用itol(https://itol.embl.de/)工具进行美化。
27.进一步的,所述系统发育树的参数设置为邻接法和jtt模型,boostrap值设置为1000。
28.上述挖掘与分析方法,其中步骤s5具体为:使用blast和软件对uniprot数据库进行blastp搜索,使用interproscan进行interpro数据库和go数据库注释,从而得到其他物种中相似的tps序列,据此推测这些序列在细胞组成、分子功能、代谢过程等方面的功能信息,go数据库的注释结果使用wego(https://wego.genomics.cn/)进行可视化;使用kegg数据库的工具blastkoala(http://www.kegg.jp/blastkoala/)对hbtps进行次级代谢通路预测,以对hbtps进行功能分类和代谢通路分析,使用kobas(http://kobas.cbi.pku.edu.cn/annotate/)对hbtps的功能分类进行补充。
29.上述挖掘与分析方法,其中步骤s6中具体包括以下步骤:
30.s61.从sra数据库下载巴西橡胶树叶子和乳胶中的rna-seq数据,id号为prjna742874;
31.s62.使用sra-tools将rna-seq数据转换为fastq格式;
32.s63.使用fastqc进行测序数据质量的评估;
33.s64.使用trimmomatic进行去接头和低质量数据剔除;
34.s65.使用hisat2将巴西橡胶树的rna-seq比对到基因组序列;
35.s66.使用samtools进行相关数据的排序和格式转换;
36.s67.使用subread的featurecounts程序进行表达量计算;
37.s68.使用deseq2进行差异表达分析。
38.上述挖掘与分析方法,其中步骤s7具体包括以下步骤:
39.s71.使用alphafold2对hbtps的三维结构进行预测;
40.s72.使用autodock将预测结果与其相应底物进行对接;
41.s73.使用pymol将对接结果进行可视化。
42.进一步的,所述底物为fpp、ecp、ggpp、dmapp,从pdb数据库中下载。
43.本发明使用hmmer软件对巴西橡胶树全基因组的tps基因进行了挖掘,共鉴定出47条全长的tps基因。对所鉴定的47条全长tps基因及其编码序列进行了分析,系统发育树分析发现hbtps分为tps-a、tps-b、tps-c、tps-e/f、tps-g 5个亚家族。保守基序分析发现了ddxxd、dxdd、nse/dte、rr(x)8w、ea(x)w等保守基序。分析了hbtps基因28种873个参与植物生长发育、环境胁迫反应和植物激素反应相关的顺式作用元件。将hbtps进行功能注释,从而推测hbtps参与的细胞组分,分子功能、生物过程等。在kegg数据库的次级代谢通路分析中,hbtps参与了k14173,k14175,k15803,k04120,k04121,k17982,k127427条这些萜类化合物合成的次级代谢的通路。差异表达分析hbtps基因在乳胶和叶子中的差异表达情况。对7条通路的hbtps进行三维结构预测,并分析其结合位点附近保守基序、金属离子和底物的结合情况,结合位点附近发现ddxxd、nse/dte、ea(x)w保守基序。本发明结果有助于揭示hbtps的作用及其分子机理,有助于解析巴西橡胶树中天然橡胶生物合成的调控机制。
44.与现有技术相比,本发明基于全基因组序列的巴西橡胶树萜类合成酶基因家族的挖掘与分析方法具有如下优点及有益效果:
45.1.本发明的tps是基于巴西橡胶树全基因组进行挖掘。
46.2.本发明对hbtps进行了hbtps基因序列分析、hbtps的顺式作用元件分析、hbtps系统发育树分析、hbtps功能注释与次级代谢通路预测、hbtps的差异表达分析、hbtps的三维结构预测与分子对接分析等比较系统的分析。
47.3.本发明的hbtps三维结构预测分析使用alphfold2进行预测,该工具较新,预测结果较为准确可靠。
48.4.本发明发现基序ea(x)w也参与了hbtps的催化反应。
附图说明
49.图1为本发明47个hbtps基因的外显子-内含子个数;
50.图注:黄色矩形代表外显子,细线代表内含子,hbtps基因的亚家族分类显示在不同颜色的方框中。
51.图2为本发明hbtps中的保守基序;
52.图注:图的上面部分为hbtps使用muscle比对的结果,图的下面部分为hbtps在meme中预测的保守基序结果。
53.图3a为每个hbtps基因中不同顺式作用元件的数量。
54.图3b为hbtps基因三大类顺式作用元件的数量分布。
55.图3c为不同类别中顺式作用元件所占比例。
56.图4为巴西橡胶树与其他6个物种的tps的系统发育树;
57.图注:r.communis tps:蓖麻的萜类合成酶;p.patens tps:小立碗藓的萜类合成酶;a.thaliana tps:拟南芥的萜类合成酶;s.moellendorffii tps:江南卷柏的萜类合成酶;o.sativa tps:水稻的萜类合成酶;a.grandis tps:大冷杉的萜类合成酶。
58.图5a为hbtps在uniprot数据库中注释为与其他物种的tps相似的比例。
59.图5b为在interpro数据库中注释的hbtps的相关功能信息。
60.图5c为在go数据库中注释的hbtps相关功能信息。
61.图6a为hbtps在kegg数据库中注释的3条倍半萜合成酶次级代谢通路反应图。
62.图6b为hbtps在kegg数据库中注释的2条二萜合成酶次级代谢通路反应图。
63.图6c为hbtps在kegg数据库中注释的1条二萜合成酶次级代谢通路反应图。
64.图6d为hbtps在kegg数据库中注释的1条碳骨架合成酶次级代谢通路反应图。
65.图7a为rna-seq样本相关性分析。
66.图7b为hbtps的差异表达分析热图。
67.图7c为hbtps基因的火山图。
68.图8a左侧为hbtps12的三维结构图,右侧为hbtps12与fpp和镁离子的对接图。
69.图8b左侧为hbtps17的三维结构图,右侧为hbtps17与fpp和镁离子的对接图。
70.图8c左侧为hbtps19的三维结构图,右侧为hbtps19与dmapp和镁离子的对接图。
71.图8d左侧为hbtps30的三维结构图,右侧为hbtps19与ggpp的对接图。
72.图8e左侧为hbtps40的三维结构图,右侧为hbtps40与ecp和镁离子的对接图
73.图8f左侧为hbtps44的三维结构图,右侧为hbtps44与fpp和镁离子的对接图。
74.图8g左侧为hbtps47的三维结构图,右侧为hbtps47与ggpp和镁离子的对接图;
75.图注:α结构域用绿色显示;β结构域用蓝色显示;γ结构域用黄色显示;n-末端螺旋用紫色显示;ddxxd保守基序用红色显示;nse/dte保守基序用橙色显示;ea(x)w保守基序用灰色显示;dxdd保守基序用棕色显示;镁离子用绿色圆球显示;黄色虚线表示配位或存在氢键作用力。
具体实施方式
76.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
77.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
78.在本说明书中,对某些术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、步骤、方法或者特点可以在任一个或多个实施例或示例中以合适的方式结合。
79.下面结合图1至图8g和实施例对本发明的技术方案做进一步的说明。
80.本实施例基于全基因组序列的巴西橡胶树萜类合成酶基因家族的挖掘与分析方法,主要包括以下步骤:
81.1、hbtps的挖掘和鉴定
82.使用hmmer软件,利用tps的两个保守的结构域pf01397和pf03936分别进行相似性搜索,以氨基酸残基数大于200,和e-value小于10-5
为条件筛选巴西橡胶树基因组中的蛋白质序列,总共鉴定出了75条hbtps。其中63条同时包含n末端结构域和c末端结构域,有12条只含有c末端结构域或n末端结构域的基因。在63条序列中,有一个基因编码产生的多个蛋白质序列的情况,只取最长那条序列进行分析,其余的序列不进行分析,此类基因总共有13条。有3条基因在测序过程中存在大量不确定核苷酸n,是问题基因不参与分析。最后得到47条较为完整的hbtps,有关这47条hbtps序列的信息如表格1所示,亚家族分类参考图4。
83.表格1 47条hbtps的相关信息
84.[0085][0086]
2.hbtps基因序列分析
[0087]
hbtps外显子-内含子数量如图1所示,亚家族分类参考图4。属于tps-a亚家族的基因含有4-8个外显子和3-7个内含子,属于tps-b亚家族的基因含有3-8个外显子和2-7个内含子,属于tps-c亚家族的基因含有10-15个外显子和9-14个内含子,属于tps-e/f亚家族的基因含有8-15个外显子和7-14个内含子,属于tps-g亚家族的基因含有6-7个外显子和5-6个内含子。
[0088]
一般植物中,tps-c、tps-e/f亚家族的tps基因含有13-15个外显子和12-14个内含子;tps-a、tps-b和tps-g亚家族的tps基因含有6-8个外显子和5-7个内含子。本发明所挖掘的hbtps基因序列分析结果表明,从较古老的tps-c和tps-e/f亚家族的hbtps基因到较新的tps-a、tps-b和tps-g亚家族的hbtps基因,外显子和内含子的数量逐渐减少,这与进化过程中tps基因的外显子与内含子逐渐丢失形成新的分类的观点是一致的。
[0089]
多序列比对结果发现hbtps中存在植物tps中常见的rr(x)8w、rdr、ddxxd、dxdd、nse/dte保守基序。此外,在hbtps中还发现了rlg、frllr、ly(x)as、d(x)n(x)2q、rwd和ea(x)w保守基序。rr(x)8w基序仅存在于tps-a和tps-b亚家族中,并且在tps-b亚家族中非常保
守。rlg基序在巴西橡胶树的所有tps亚家族中均有存在。frllr基序在巴西橡胶树的所有tps亚家族中均有存在。ly(x)as基序存在于tps-a亚家族中但不保守,ly(x)as基序在tps-b、tps-c和tps-g亚家族中是保守的。d(x)n(x)2q基序在巴西橡胶树的所有tps亚家族中均有存在。rdr基序在tps-a、tps-b亚家族中是保守的,在tps-g亚家族中仅hbtps42保守。ddxxd基序除了在tps-c亚家族中不存在,在其他亚家族中均存在(我们将tps-c亚家族中dxdd保守基序在此处呈现)。rwd基序在tps-a亚家族中相对不保守,在tps-c亚家族中不存在,但在tps-b和tps-g亚家族中是保守的。除了tps-c亚家族外,其他亚家族中的hbtps均含有ea(x)w基序。nse/dte基序除了在tps-c中不存在外,在其余亚家族中均保守。在发现的所有基序中,它们在tps-b亚家族显示出最高的保守性,而在tps-c亚家族包含最少的保守基序。保守基序如图2所示。
[0090]
在保守基序的分析中,我们一共发现了rr(x)8w、rlg、frllr、ly(x)as、d(x)n(x)2q、rdr、ddxxd、dxdd、rwd、ea(x)w、nse/dte 11个保守基序,这些保守的基序具有某些重要功能和作用。ddxxd、dxdd、nse/dte、rr(x)8w、rdr基序在tps的催化功能中起重要作用。在本发明中,rr(x)8w保守基序只存在于tps-a和tps-b亚家族的hbtps中,在蛋白质结构预测分析部分发现其在n末端螺旋附近。该基序可能在覆盖活性位点上起重要作用,同时该基序也在tps的异构化和环化反应的启动中起作用。除了tps-c亚家族的hbtps29-hbtps32外,其他亚家族的hbtps基本都含有ddxxd和nse/dte基序,hbtps12、hbtps17、hbtps19、hbtps40、hbtps44、hbtps47在分子对接结合位点附近都发现有ddxxd和nse/dte基序,它们在ⅰ类tps的催化中起重要作用,参与二价金属结合。dxdd在ⅱ类tps中具有质子化启动环化的作用。本发明中,dxdd基序只存在于tps-c亚家族的hbtps29-hbtps32中,这几个酶在kegg数据库中均被注释为对映-贝壳杉烯合成酶。值得注意的是,ea(x)w基序在分子对接分析中均被发现在hbtps12、hbtps17、hbtps19、hbtps40、hbtps44、hbtps47的结合位点附近,且在hbtps17、hbtps19、hbtps44中与相应底物的二磷酸部分产生了氢键作用力,该基序参与了与底物的结合及催化作用。
[0091]
3.hbtps基因的顺式作用元件分析
[0092]
为了分析hbtps基因的表达调控功能,我们提取了翻译起始位点上游的2000bp核酸序列,并使用plantcare预测其可能存在的顺式作用元件。我们分析了28种873个参与植物生长发育、环境胁迫反应和植物激素反应相关的顺式作用元件。如图3a所示是顺式作用元件出现的次数。如图3b所示,在三大类顺式作用元件中,与植物激素相关的顺式作用元件在整体中出现的次数占比最高。如图3c所示,与植物生长发育的相关顺式作用元件中,aagaa-motif和as-1出现次数较多;与环境胁迫相关的顺式作用元件,are、stre、wun-motif出现次数较多;与植物激素反应相关的顺式作用元件abre、gare-motif、ere、myc、tgacg-motif出现次数较多。hbtps7、hbtps37、hbtps40没有预测到相关顺式作用元件,原因是这几条数据测序结果较差,存在大量没法测出来的碱基。
[0093]
hbtps基因中鉴定出了28种与植物生长发育、胁迫、响应激素相关的顺势作用元件。这些hbtps基因可能在巴西橡胶树的生长发育、防御、天然橡胶的产生起重要作用。如对生长发育起重要作用的顺式作用元件如aagaa-motif、as-1等。与胁迫有关的顺式作用元件如are、stre、tc-rich repeat、wun-motif等。与植物激素有关的顺式作用元件如脱落酸反应元件abre,meja响应元件如tgacg-motif、myc和cgtca-motif,以及ere乙烯响应元件。在
这些顺式作用元件中,激素相应元件数量是最多的,推测tps在植物体中的作用与激素的作用密切相关。
[0094]
4.巴西橡胶树与其他植物tps的系统发育树分析
[0095]
为了分析hbtps的进化情况,我们挑选了蓖麻(大戟科植物),小立碗藓(苔藓植物),拟南芥子叶植物),江南卷柏(蕨类植物),水稻(单子叶植物),大冷杉(裸子植物)的tps与hbtps进行系统发育树分析。除了裸子植物大冷杉利用现有属于tps-d亚家族的基因(q9m7d1.1)在ncbi数据库进行blastp搜索找到12条大冷杉的tps外,其他5个植物鉴定tps方法均与巴西橡胶树鉴定tps的方法相同。巴西橡胶树与其他6个植物的tps亚家族的tps数量统计如表格2所示,tps-a亚家族的tps数量最多,tps-g亚家族的tps数量最少。
[0096]
表格2巴西橡胶树与其他6种植物的tps在系统发育树各亚家族中的数量统计
[0097][0098][0099]
通过巴西橡胶树与其他6种植物tps的系统发育树结果分析(见图4)。在tps-a亚家族分支有15个hbtps,从hbtps1-hbtps15。tps-b亚家族分支有13个hbtps,从hbtps16-hbtps28。tps-c亚家族分支有4个hbtps,从hbtps29-hbtps32。tps-e/f亚家族分支有10个hbtps,从hbtps33-hbtps41同时还有hbtps47。tps-g亚家族分支有5个hbtps,从hbtps42-hbtps46。结果发现,tps-a亚家族的hbtps总数最多,为15个。tps-a和tps-b两个亚家族的hbtps数量达到28个,占总hbtps数量的59.57%,tps-c亚家族的hbtps最少,只有4个。分析结果中hbtps未出现在tps-d亚家族和tps-h亚家族中。在所有亚家族中hbtps均与蓖麻的tps聚在一起。值得注意的是,在tps-a亚家族中,属于双子叶植物的巴西橡胶树、蓖麻和拟南芥的tps聚成tps-a亚家族中的一个分支,而属于单子叶植物的水稻的tps被聚在另一个分支。tps-d亚家族仅存在大冷杉的tps,该亚家族为裸子植物特有。在tps-e/f亚家族分支中属于双子叶植物的拟南芥、蓖麻、hbtps聚在一个分支,属于单子叶植物的水稻的tps聚在了另一个分支。tps-h亚家族只存在江南卷柏的tps,该亚家族为江南卷柏特有。
[0100]
根据系统发育树分析,hbtps主要被分为了tps-a,tps-b,tps-c,tps-e/f,tps-g 5个亚家族。hbtps大部分存在于tps-a和tps-b中,表明这两个亚家族的hbtps在进化过程中不断扩展。巴西橡胶树与蓖麻的tps在各个亚家族中均聚在一起,且在各个亚家族中分布的tps数量有很大的相似性。可能是因为它们同属于大戟科植物,亲缘关系更近,所以在系统发育树中聚在一起。而拟南芥和水稻的tps在tps-a和tps-b亚家族中tps数量分布差异较大(见表格2)。
[0101]
5.hbtps的功能注释与次级代谢通路作图
[0102]
对所有确定的47条hbtps进行blastp搜索uniprot数据库,hbtps的序列与蓖麻,雷
公藤,西洋牡荆,葡萄,西葫芦,冬凌草,银白杨,东青栎,拟南芥这9个物种中的tps相似。其中有62%的hbtps与蓖麻的tps相似,蓖麻跟巴西橡胶树同属于大戟科植物,亲缘关系较近。hbtps中与其他物种相似的序列所占的比例如图5a所示。
[0103]
interpro数据库中查询结果显示所有hbtps总共与11个功能有关。ipr008949(isoprenoid synthase domain superfamily:类异戊二烯合酶结构域超家族)存在于所有hbtps中,ipr002060(squalene/phytoene synthase:角鲨烯/植物烯合酶)存在于hbtps20和hbtps27中,ipr19845(squalene/phytoene synthase,conserved site:角鲨烯/植物烯合酶,保守位点)存在于hbtps29和hbtps45中,ipr032696(squalene cyclase,c-terminal:角鲨烯环化酶,c末端)只存在于hbtps39中,ipr034741(terpene cyclase-like 1,c-terminal domain:萜烯环化酶样1,c末端结构域)存在于25个hbtps中,ipr044814(terpene cyclases,class 1,plant:萜烯环化酶样1,c端结构域)存在于38个hbtps中,其他功能均存在于四十多个hbtps中,这些注释功能均为tps的功能。interpro数据库的注释结果展示如图5b所示。
[0104]
根据go数据库的注释结果,所有注释结果被分为三个主要大类,生物过程,分子功能,细胞组分。在生物过程中,涉及到6个小类,有38条序列被注释参与metabolic process(代谢过程),biosynthetic process(生物合成过程),organic substance metabolic process(有机物代谢过程)。在分子功能中,涉及到6个小类,所有46条序列被注释有ion binding(离子结合),lyase activity(裂解酶活性),catalytic activity(催化活性)的功能,这些都是萜类合成酶的功能。在细胞组分中,涉及到7个小类,只有2条序列被注释为在intracellular part(细胞外),non-membrane-bonded organelle(非膜结合细胞器)。hbtps32在go数据库中无注释结果。go数据库注释信息如图5c所示。
[0105]
通过kegg数据库的blastkoala工具对hbtps进行代谢通路注释,总共有36个hbtps被注释成功,占总数量的76.60%。被注释出的通路有7条,倍半萜合成酶通路有k14173、k14175、k15803,二萜合成酶通路有k04120、k04121、k17982,碳骨架相关合成酶通路有k12742。在kegg数据库中hbtps没有任何一个基因被注释在单萜合成酶通路,但在kobas数据库中,hbtps21、hbtps23、hbtps25、hbtps26、hbtps27被注释为单萜合成酶。通过统计数据发现,被注释为倍半萜合成酶的hbtps有20个,被注释为二萜合成酶的hbtps有14个,被注释为碳骨架相关合成酶的hbtps有2个。
[0106]
hbtps在kegg数据库中注释的通路的反应图如图6a-6d所示。hbtps17被注释在k14173通路(ec:4.2.3.46)。hbtps43-hbtps46被注释在k14175通路(ec:4.2.3.48)。
[0107]
hbtps1-hbtps15被注释在k15803通路(ec:4.2.3.75)。这三个通路都是倍半萜合成酶相关通路。hbtps29-hbtps32被注释在k04120通路(ec:5.5.1.13)。hbtps33-hbtps41被注释在k04121通路(ec:4.2.3.19)。hbtps47被注释在k17982通路(ec:4.2.3.144)。这三个通路都是二萜合成酶相关通路。hbtps18和hbtps19被注释在k12742通路(ec:4.2.3.27),该通路是异戊二烯合成酶通路。
[0108]
在功能注释中,uniprot、interpro和go数据库注释的结果都说明找到的47条基因是tps或者有tps的功能,这些结果表明了鉴定的hbtps的可靠性。巴西橡胶树的主要萜类产物为多萜,kegg数据库注释结果中的hbtps22、hbtps28为γ-松油烯合成酶,其结合底物为gpp,应该是单萜合成酶,而且注释结果中没给出具体的通路,所以我们无法确定它们是否
为单萜合成酶。在kobas数据库注释中,hbtps21、hbtps23、hbtps25、hbtps26、hbtps27被注释为单萜合成酶,表明了巴西橡胶树也可能存在单萜合成酶,但可能并不典型。注释的通路按萜类产物分为7条,分别为k14173、k14175、k15803、k04120、k17982、k04121、k12742。k12742。值得注意的是,k12742通路的异戊二烯合成酶催化底物dmapp产生的异戊二烯是合成橡胶的重要原料,随着近年来对合成橡胶的需求增加,对异戊二烯合成酶的研究显得更加重要。
[0109]
6.hbtps的差异表达分析
[0110]
如图7a所示,样本之间的相关性分析表明,样本相关性较好。在乳胶中发现11个hbtps基因有表达,在叶子中发现有33个hbtps基因有表达。通过观察图7b可以看出,hbtps16、hbtps12、hbtps13、hbtps11在乳胶中高表达,且聚为一类,这几个基因的蛋白质序列在kegg数据库通路注释中均被注释为(-)-大牻牛儿烯d合成酶。而hbtps4、hbtps15、hbtps5、hbtps24在叶子中高表达且被聚为一类。hbtps3、hbtps33、hbtps22、hbtps34、hbtps17、hbtps40在叶子中高表达且被聚为一类。以logfc=2,p-value《0.05为标准做火山图(图7c)发现,hbtps12、hbtps13、hbtps16、hbtps11、hbtps6在乳胶中上调,这些tps中除了hbtps16功能未被注释外,其他4个tps均为(-)-大牻牛儿烯d合成酶。hbtps3、hbtps22、hbtps17、hbtps40、hbtps34、hbtps5、hbtps20均下调。其中hbtps3、hbtps5为(-)-大牻牛儿烯d合成酶;hbtps17为α法呢烯合成酶;hbtps20为香叶烯合成酶;hbtps22为γ-松油烯合成酶;hbtps34、hbtps40对映-柯巴基合成酶。
[0111]
乳胶当中除了天然橡胶外,也含有一些其他萜类物质。ipp总供应量的增加可以提高天然橡胶的产量,非天然橡胶类的萜类的生成会消耗掉ipp,降低天然橡胶的产量。本发明发现,hbtps12、hbtps13、hbtps16、hbtps11、hbtps6在乳胶中上调,我们推测这些hbtps可能会消耗掉部分ipp,也有可能它们本身有刺激ipp产生的作用,以产生更多的ipp。因此这些基因可以作为提高橡胶产量的靶基因,调控这些基因的表达,会影响橡胶的产量。hbtps3、hbtps22、hbtps17、hbtps40、hbtps34、hbtps5、hbtps20在乳胶中下调,这些hbtps有可能是分流比较严重的tps,因此植物采用降低这些酶的表达的方式来提高天然橡胶产量。
[0112]
7.hbtps三维结构预测与分子对接
[0113]
为了分析hbtps的三维结构,每个通路挑选一个hbtps在alphafold2中进行三维结构预测,我们总共预测了7个hbtps的三维结构,并挑选了排名第一的结果进行分析。将预测的7个hbtps的三维结构进行可视化,如图8a-8g的左侧所示,所有预测的hbtps均有n端螺旋。所有hbtps均含有α结构域和β结构域,hbtps30、hbtps40、hbtps47除了含有α结构域和β结构域,还含有一个γ结构域。除了预测到hbtps30有ⅱ类tps的结合位点dxdd在βγ结构域界面外,其余hbtps均预测到ⅰ类tps的结合位点ddxxd和nse/dte在α结构域。在α结构域中,除了ddxxd和nse/dte保守基序,我们还在结合位点附近发现了基序ea(x)w。预测的三维结构有同时含有αβγ结构域和只含有αβ结构域两种。同时含有αβγ结构域的hbtps属于tps-c和tps-e/f亚家族,这两个亚家族聚成一簇且在进化树中更古老的位置,而只含有αβ结构域的hbtps属于tps-a、tps-b和tps-g亚家族。
[0114]
在hbtps的三维结构预测中,分析发现所预测的hbtps的三维结构有两种,分别为含有αβ结构域和含有αβγ结构域两种。tps的三维结构主要有α、αβ、βγ和αβγ四种,而植物中的tps的三维结构主要有αβ和αβγ两种,tps的结构本质上是模块化的,可以由一个、两个
或三个结构域组成。陆地植物祖先tps可能起源于细菌中的拥有βγ双结构域的柯巴基合酶(cps)和α结构域贝壳杉烯合酶(ks)的融合,形成cps-ks,这种cps-ks可能是由祖先陆地植物通过水平基因转移获得的,后来祖先拥有αβγ三个结构域的cps-ks似乎经历了至少两次基因复制事件,形成了现在的tps-c、tps-e/f和tps-h/d/a/b/g亚家族。tps-h亚家族的tps拥有αβγ三个结构域,tps-c、tps-e/f和tps-d亚家族的tps拥有αβγ三个结构域或αβ两个结构域,而tps-a、tps-b、tps-g的基因只有αβ两个结构域,tps在进化过程中γ结构域出现脱落的现象。在本发明中预测的hbtps三维结构与以往的结果相同,属于tps-c和tps-e/f亚家族的hbtps30、hbtps40和hbtps47拥有αβγ三个结构域,而属于tps-a、tps-b、tps-g亚家族的hbtps12、hbtps17、hbtps19和hbtps44只有αβ两个结构域。在系统发育树分析部分,tps-c和tps-e/f亚家族处在进化树更古老的分支,tps-a、tps-b、tps-g亚家族处在进化树进化时间较靠后的分支,这与hbtps三维结构分析的结果是一致的。值得注意的是,在基因序列分析部分的结果也说明了在进化过程中,在tps基因单功能化、结构域脱落的过程中,也伴随着内含子外显子的丢失。
[0115]
预测之后的hbtps的三维结构使用autodock与相应的底物进行了分子对接,并挑选排名第一的对接结果进行分析。属于倍半萜合成酶次级代谢通路的hbtps12、hbtps17和hbtps44的结合底物均为fpp,属于碳骨架合成酶次级代谢通路的hbtps19的结合底物为dmapp,属于二萜合成酶次级代谢通路的hbtps30和hbtps47的结合底物为ggpp,同样属于二萜合成酶次级代谢通路的hbtps40的结合底物为ecp,该通路在hbtps30所属通路k04120的下一个通路k04121。hbtps40的结合底物ecp为hbtps30催化ggpp产生的产物。
[0116]
如图8a-8g的右侧,通过观察hbtps与底物的对接区域可以看出,hbtps12、hbtps17、hbtps19、hbtps40、hbtps44和hbtps47的活性位点均在α结构域,该区域由近似对称的α螺旋形成的疏水口袋区域。在hbtps12口袋区域,镁离子a与n445、e453(nse/dte)和fpp形成配位;镁离子b、c与d303、d307(ddxxd)和fpp形成配位;r456和d458与fpp形成氢键作用力,这都明确表明了保守基序和三核镁离子及底物之间有相互作用,这一结果与ⅰ类tps的催化机制(由保守基序ddxxd和nse/dte和三核镁离子簇触发相应底物二磷酸基团的电离,从而产生碳正离子引发催化)是一致的,hbtps17、hbtps19、hbtps40、hbtps44和hbtps47也显示了与hbtps12相似的结果。值得注意的是,hbtps17中的e393,hbtps19中的e423,hbtps44中的e377均与相应底物的二磷酸部分产生氢键作用力,这几个氨基酸残基都来自于基序ea(x)w,说明基序ea(x)w参与了催化反应。hbtps30的活性位点在βγ结构域界面,其保守基序为dxdd,观察hbtps30与其相应底物ggpp的结合图可以看出,ggpp与r343、r346、e479、n431形成配位。r343、f335和w339有氢键作用力;r346和e479有氢键作用力;t427、f430和n431有氢键作用力;d385和n431有氢键作用力。这一结果与ⅱ类tps的催化机制(通过催化启动碳正离子形成,利用保守基序dxdd中的天冬氨酸使末端质子化异戊二烯底物的碳-碳双键产生碳正离子,进而引发催化反应)是一致的。值得注意的是,对接结果中属于dxdd保守基序的残基并未直接与底物ggpp结合。
[0117]
如图8a-8g的右侧,在分子对接分析中,本发明分析的hbtps12、hbtps17、hbtps19、hbtps40、hbtps44、hbtps47属于ⅰ类tps,它们的活性位点均位于α结构域,三核镁离子簇和保守基序ddxxd和nse/dte作用触发底物发生催化反应,由与ddxxd和nse/dte基序配位的3个mg2+将底物的二磷酸基团固定在适当的位置,有效的封住了活性位点的入口。无配体和
有配体tps结构的比较表明,3个镁离子和二磷酸基团的结合引发了从开放活性位点构象到闭合活性位点构象的构象变化,这种构象的变化确保了ⅰ类tps碳正离子中间体免受本体溶剂的影响。值得注意的是,除了保守基序ddxxd和nse/dte,我们还发现了ea(x)w在结合位点附近,该基序在hbtps17、hbtps19、hbtps44中与相应底物产生氢键作用力,在催化反应中起重要作用。而属于ⅱ类tps的hbtps30的活性位点在βγ结构域界面,其α结构域缺乏ⅰ类tps特有的ddxxd和nse/dte金属结合基序,并且没有已知的功能,其α结构域可能是一种进化遗迹。保守基序dxdd与底物ggpp结合催化反应形成ecp,该产物是柯巴基合成酶(hbtps40)的结合底物。在所有预测的hbtps三维结构中的γ结构域并未发现活性位点和保守基序,这可能是进化过程中γ结构域脱落的原因。
[0118]
综上,本发明通过巴西橡胶树的基因组挖掘出所有的tps,对hbtps进行基因序列分析、顺式作用元件分析、系统发育树分析、功能注释、差异表达分析、蛋白质三维结构预测及其与相应底物的对接分析等。这些分析将有助于揭示hbtps的作用及其分子机理,为巴西橡胶树体内天然橡胶生物合成的有效调控提供新的见解。
[0119]
值得说明的是,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。