用于转录作图的基因识别标签(gis)分析方法

文档序号:440540阅读:451来源:国知局
专利名称:用于转录作图的基因识别标签(gis)分析方法
技术领域
本发明主要涉及转录作图方法,尤其涉及一种从转录本到索引基因组序列的压缩后缀数组作图的转录作图方法。
背景自从人类和其他几种生物体的基因组序列完成,人们的注意力就已经转移到了包括基因编码转录单位和调节基因表达水平的调节顺式作用元件在内的基因组功能元件的注释上来了。
现在关于基因组注释有三种主要方法。第一种是利用已有的转录数据来识别基因组中基因编码区域;第二种方法是利用计算算法从统计学的角度来预测这些基因和调节元件;第三种方法是比较其他脊椎动物基因组序列中的保守区域,该方法是基于基因组中的功能元件在进化过程中保守的观点。
尽管这些方法取得了相当大的成功,但是在测定人类基因组中所有功能元件的完整和内容精确方面还不尽人意,因此,现在仍然没有人类基因组的基因的完整列表,特别是,还没有识别所有的低冗余量基因和细胞特异性基因。许多基因模型认为目前的基因组注释,特别是关于转录从哪里起始到哪里结束的注释,是不正确的。
所有基因预测都得通过实验方法来验证,并且这些可能具有功能的基因都需要进行全长克隆以进一步做功能研究。因此,很明显,人类基因组注释领域面临很多挑战。
挑战之一是识别所有基因以及所有由人类和模型生物基因表达的转录本。在基因注释方面,cDNA的全长克隆和测序是最有决定性的,并且被认为是转录本分析的黄金标准。然而,当应用于许多物种和生物环境的大量转录本时,这种方法就显得费钱费时了。基于短标签的方法有很多,例如SAGE(基因表达连续分析法)和MPSS(大规模平行信号测序方法),这些基于短标签的方法是截取一段14-20bp的信号来代表每一个转录本。虽然这种方法在一个指定的转录组中能有效地对转录本进行标记和计数,但是这些标签的特异性经常不好并且有关转录本结构的信息量常常是不完整和模糊的。
通过截取全长cDNA克隆的相互连接的5’端和3’端形成一个双标签结构而获得的基因识别标签(GIS)的双标签序列,提供了实质的标签特异性。然而,可以应用于将GIS双标签序列定位到基因组中去的计算算法还不存在。过去,SAGE和MPSS标签运用一种两步法来分析。这些标签先与cDNA序列配对然后再与基因组配对。在这种方法中,那些不在cDNA数据库中的异常转录本不能被作图。两种最常用的序列比对工具BLAST(基本的局部对比搜索工具)和BLAT(类似BLAST的对比工具)都不是为短标签序列设计的并且通常得到差的或错误的结果。
因此,这些明确证实了需要一种改进的转录作图方法。

发明内容
下文中描述了依照本发明的一个实施例的转录作图方法,并且该方法综合了基于短标签方法(SAGE和MPSS)的效率和全长cDNA(flcDNA)的精确性来全面描述转录组,这种方法也被称为是基因识别标签(GIS)分析方法。在这种方法中,起初截取全长cDNA克隆的5’和3’端来形成一个双标签结构,然后以一种高效的方式对这个双标签的双标签串联体进行测序,最后再定位到基因组中来确定这个基因的结构。在这个GIS分析法中,每读取一个序列显示代表15个转录本的大约15个双标签。这种方法与目前的全长cDNA克隆和测序的方法相比,在识别和定量全长转录本方面能提高至少30倍的效率,因为每一个GIS双标签序列都包含36个碱基对(bp)来代表一个转录本的始端和末端,所以与14-21bp的SAGE和MPSS标签相比,能显著地提高从标签到基因组的定位的特异性。另外,由于一个GIS双标签代表了一个转录本的5’和3’端,所以它提供的信息比SAGE和MPSS标签更多。
为了容纳GIS双标签数据,运用一个基于标签到基因组(SAT2G)的算法的后缀数组,将GIS双标签序列定位到基因组序列中去,这个基因组序列是通过一个高级数据结构压缩后缀数组(CSA)来建立和索引的。
因此,根据该发明的第一方面,公开了一种转录本作图方法,包含以下步骤从一个基因的转录本中获得一个5’末端标签和一个3’末端标签;5’末端标签与一个基因组序列的至少一个部分配对,因此从那识别至少一个5’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签配对;3’末端标签与一个基因组序列的至少一个部分配对,因此从那识别至少一个3’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签配对;识别至少一个出现片段,这些片段中每一个都是一个基因组序列上的一个序列片段,这个基因组序列从至少一个5’位点中的一个延伸到至少一个3’位点中的一个,至少一个出现片段中的每一个都有一个序列长度;并且识别至少一个可能的基因位置,其中每一个可能的基因位置都是至少一个出现片段中的一个,该出现片段拥有一个不超过预定义基因长度的序列长度。
根据该发明的第二方面,公开了一种转录本作图系统,其包含
从一个基因的转录本中获得一个5’末端标签和3’末端标签的方法;5’末端标签与一个基因组序列的至少一个部分匹配的方法,因此来鉴别那里至少一个5’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签配对;3’末端标签与一个基因组序列的至少一个部分匹配的方法,因此来鉴别那里至少一个3’位点,至少一个3’位点中的每一个都有一段序列能与3’末端标签配对;识别至少一个出现片段的方法,其中每一个都是一个基因组序列上的一个序列片段,这个基因组序列从至少一个5’位点中的一个延伸到至少一个3’位点中的一个。至少一个出现片段中的每一个都有一个序列长度;以及识别至少一个可能基因位置的方法,其中每一个可能的基因位置都是至少一个出现片段中的一个,该片段拥有一个不超过预定义基因长度的序列长度。
根据该发明的第三方面,公开了转录本作图方法,包含以下步骤从一个基因的转录本中获得一个5’末端标签和一个3’末端标签;5’末端标签与一个基因组序列的至少一个部分配对,因此从那鉴别至少一个5’位点,至少一个5’位点中每一个都有一段序列能与5’末端标签配对;3’末端标签与一个基因组序列的至少一个部分配对,因此从那鉴别至少一个3’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签配对;识别至少一个出现的片段,这些片段中每一个都是一个基因组序列上的一个序列片段,这个基因组序列从至少一个5’位点中的一个延伸到至少一个3’位点中的一个,至少一个出现的片段中的每一个都有一个序列长度;以及从至少一个出现片断中识别至少一个可能的基因位置,每一个可能的基因位置是至少一个出现片断中的一个,这些片断具有至少一个片断的序列长度,该序列长度不超过预定的基因长度,出现片段的序列顺序与至少一个5’位点和相应的至少一个3’位点之一的序列顺序依照5’-出现片段-3’结构来与基因组序列相应部分的序列顺序配对,这个5’位点和至少一个5’位点之一和在那相应的至少一个3’位点之一都有一个从5’到3’的方向,并且与每一个出现片段相对应的至少一个5’位点之一以及至少一个3’位点之一都在同一条染色体上。
图示说明以下根据下列附图来描述本发明的实施例,在这些附图中

图1展示了应用于基因组注释的一个5’和3’末端标签的SAGE技术示意图;图2展示了根据该发明的一个实施例一转录作图方法的工艺流程图;图3展示了图2中转录本作图技术应用于一个GIS双标签的示意图;图4展示了为了在一个基因组序列中来回搜索5’位点和3’位点而得到图2的转录作图方法中的一个“找到-位点”伪代码;图5展示了为识别一个出现片段的序列长度而得到的图2的转录作图方法中的一个“配对_位点_1”伪代码,随后为识别一个可能的基因位置而将这个序列长度与一个预定长度进行比较;图6展示了当在随后得到的一个可能的基因位置遇到一个不等情况时,为识别一个出现片段而得到图2中转录作图方法中的一个“配对_位点_2”伪代码。
详细描述下面结合解决前面所述的问题来描述该转录作图方法。
完整的基因组注释依赖于精确识别转录单位,这个转录单位受到一个转录起始位点(TIS)和一个多聚腺苷酸位点(PAS)的限制。为了使之简化,发明了一对互补方法,即5’LongSAGE(长片段基因表达系列分析)和3’LongSAGE,这些方法都是基于能利用典型的全长cDNA克隆技术来使得能够高通量切除每一个转录本初始的和最后的20个碱基对(bp)的原始SAGE(基因表达系列分析)方法和LongSAGE方法。5’和3’LongSAGE标签定位到基因组中,使得TIS和PAS得以定位。
然而,来自于基因组序列中同一个转录本上的5’和3’标签的匹配不总是直接明了的,有时很模棱两可。一种解决办法就是通过同一个转录本上的交互连接的5’和3’标签来对5’和3’标签进行克隆。为了达到上述办法,设计了一种特别装置,其包含克隆接头和一个载体,将来自同一个转录本的5’和3’端标签连接成双标签。
大多数双标签能被连接后用于克隆和测序,其中每一个双标签代表一个单独的转录本。不像单标签序列,配对的双标签序列能被特异扩增,同时使得转录本结构在定位到基因组序列上时能得到精确定义,这种方法叫做基因识别标签(GIS)分析方法,它能精确地定位基因编码的转录单位的5’端和3’端,如图1所示。
在GIS分析方法中,应用传统的cap-trapper方法来富集一个全长cDNA,并使得带有MmeI限制性酶切位点的接头序列整合到cDNA片段的每一个末端。然后cDNA片段克隆到一个克隆载体上去构建一个GIS全长cDNA文库。用MmeI(II型限制性酶)对制备于这个库的质粒进行酶切,并切除MmeI绑定位点下游的20bp。酶切之后,插入库中的全长cDNA部分从质粒上脱落,使得已知的克隆载体留下了5’和3’端的18bp的标签。载体的再循环能创造一个GIS单双标签库,然后库中的双标签被切除和纯化,以用于连接和克隆来生成用于序列分析的最终的GIS双标签库,典型地,每读取一次GIS双标签克隆的序列会显示15个双标签。双标签序列的每一个单位都包含5’标签18bp和3’标签18bp,其中带有一个12bp的空白区以间隔一个双标签序列与另一个。
将双标签定位到基因组中类似寻找基因组序列上的一个模式的出现次数,模式寻找的方法包括传统的BLAST(基本本地对比搜索工具)和BLAT(类BLAST对比工具)方法。BLAST和BLAT方法速度都很慢,因为他们都需要一个通过沿整个基因组扫描而得到的搜索模式,而且,如果需要知道带有小的不匹配边际的模式的精确出现次数,需经常使用传统的全文索引,有效率的全文所引数据结构包括一棵后缀树和一个后缀数组。
后缀树是一个带有从根部生出的枝的树形数据结构,每一个枝终止在一个编码了一个基因序列后缀的叶子处。后缀数组是基因组的所有后缀按照词典顺序分类的序列,后缀数组用一个数组SA[i]表达,其中,i=1...n,SA[i]=j表示j-后缀(起始于字母j的后缀)是词典顺序中第i个最小的后缀。
后缀树和后缀数组都适用于快速模式搜索。给定一个长度为x的谱,它在基因组G[1...n]中的出现次数就能以O(x)和O(x log n)显示出来,分别对应于后缀树和后缀数组。虽然查询时间很快,但由于大的空间需求,建立后缀树和后缀数组并不是总可行的。例如,对于一个小鼠基因组,后缀树和后缀数组分别需要40千兆字节(GB)和13GB空间,该所需存储空间远远超出了普通计算机的存储空间容量。为了解决存储空间问题,我们采用空间有效性压缩后缀数组(CSA)索引数据结构,CSA是后缀数组的一个压缩形式,运用已知的算法库,CSA可以被高效的建立,而不需要很大的空间需求,所建立的CSA也十分小。例如,一个针对小鼠基因组的CSA(mm3),大约占用1.3GB空间。另外,CSA还可以支持高效搜索,搜索一个长度为x的谱仅需要用时O(xlog n)。
本发明的第一个实施例,即转录作图方法20在图2中得到了描述,图2展示了一个转录作图方法100的流程图,转录定位方法100应用于一个从一基因中得到的转录本,转录作图方法100最好用基于计算机的系统来实现。在转录作图方法100的步骤110中,从转录本中能得到一个5’末端标签24和一个3’末端标签26。
正如以上的描述和图3所示,合并5’末端标签24和3’末端标签26形成一个GIS双标签30。GIS双标签30有一个36bp的双标签长度32,其中含有来自5’末端标签24的18bp核苷酸序列和另一个来自3’末端标签26的18bp核苷酸序列。由于,分子克隆过程中带有一些酶学变异,GIS双标签30的双标签长度32在34bp和38bp之间变化。
变异经常发生在接近5’末端标签24和3’末端标签26的终端,结构上,仍然保留了内部的核苷。在3’末端标签26中,两个剩余核苷34(AA)在多聚腺苷酸(poly-A)尾部切除过程中得以保留,最终,AA剩余核苷34被用作一个方向指示器,因此,只有GIS双标签30中的3’终端标签26的16bp对标识一个基因组序列36是常用的。
步骤110后,在步骤112中,5’终端标签24和3’终端标签26都与基因序列36匹配。步骤112中,在5’终端标签24和3’终端标签26分别被匹配到基因序列36时,5’位点38和3’位点40被标识。每一个5’位点38和每一个3’位点40都是基因组序列36的一个部分,基因组序列36含有一个最终分别匹配5’终端标签24和3’终端标签26的序列。
步骤114中,至少一个出现片断42从基因组序列36中识别,至少一个出现片断42的每一个是一个沿着基因序列36的位于一个5’位点38和一个3’位点40之间的的序列片断,且出现片断42的每一个具有一个序列长度44。
所给定的转录(R)中的GIS双标签30(P),在基因序列36(G)中查找R的计算问题涉及到转录位置标识问题。因此,对于给定的G[1...n]和P[1...m],出现片断42在以下情况时被当作一个P的可实现的基因位置标示序列长度44(j-i)小于预定的基因长度(最大长度)时(对于已知的基因,预定的的基因长度在长度上少于100万数据对);5’终端标签24和3’终端标签分别对应地长于预定的最小长度5和最小长度3(此处最小长度5=16p,最小长度3=14bp);R的5’终端标签24和3’终端标签26分别是P[1...边界5]和P[边界3...m]的子链(此处边界5=19,边界3=18)。
基因组序列36较适宜使用一个压缩后缀数组(CSA)索引。5’终端标签和3’终端标签和基因组序列36匹配,最好通过应用二进制搜索压缩后缀数组。用作匹配5’终端标签24和3’终端序列26的二进制搜索对于两个引理是独立的,即引理1用于进行压缩后缀数组的前向搜索,引理2用于进行压缩后缀数组的后向搜索。
引理1(前向搜索)对于基因组G[1..n]和G中谱Q的一系列出现给定CSA,对任意碱基c属于{腺嘧啶(A),胞嘧啶(C),鸟嘌呤(G),胸腺嘌呤(T)},谱Qc的一组出现是可以在O(log n)时间内得到的。对于基因组序列36中的后缀,当在二进制搜索中与模式Q比较时,前向二进制搜索通过将常规二进制搜索算法修改成在压缩后缀序列和后缀序列中使用数值代替确切的文本实现。
引理2(后向搜索)对于基因组G[1...n]和G中谱Q的一系列出现给定CSA,对任意碱基c属于{腺嘧啶(A),胞嘧啶(C),鸟嘌呤(G),胸腺嘌呤(T)},我们可以在O(log n)时间内找到一系列谱cQ的出现。
图4展示了对于前向搜索和后向搜索二者的伪码“找到_位点”,代替一前一后的在步骤114中引用前向搜索和后向搜索,提供了一个二选一方法,或者只应用使用引理1的前向搜索,或者只应用对于基因序列36在标识至少一个出现片断42时使用引理2的后向搜索。
GIS双标签30可能在基因序列36中合理或不合理地出现,为了注明结果的位置,对于每一个合理的基因组序列和不合理的基因组序列生成一个索引,产生一个不合GIS双标签,而不是生成两个独立的索引数组。对于每一个5’终端标签24和3’终端标签26,后缀数组在步骤110中被搜索两次,第一次使用合理的GIS双标签30,第二次使用不合理的GIS双标签(未示出)。
另外,基因组序列36被自然地分割成染色体,这使得对于每一个染色体的序列片断生成一个压缩后缀数组。通过这个操作,对于特殊的染色体而不是全部基因组36序列,5’位点38和3’位点40是可以得到。
除了压缩后缀序列,如上所述的对于基因组序列36的索引还可以应用一个后缀序列,一颗后缀树,一个二进制或是近似的索引数据结构。
步骤114之后,5’位点38和3’位点40通过一系列的标记以标识出一个可行的基因位置,这些标记包括长度、位置、方向和排序标记。
在步骤116中,长度标记通过比较至少一个出现片断42中的每一个的序列长度44和步骤116中的预定基因长度来实现。起始时,5’位点38和3’位点40最好以一个上升顺序被分类,然后,至少一个出现片断42中的每一个具有一个不超过预定基因长度(最大长度)的序列长度44,此预定基因长度被当作一个可能的可行基因位置标识。对于步骤116,图5展示了伪码“配对_位点_1”。
在步骤118中,位置标记通过识别相应于至少一个出现片断42中的每一个的5’位点38和3’位点40分别定位于哪一个染色体的分析来实现,出现片断42标识一个可能的可行基因位置,仅当5’位点38和3’位点40属于相同的染色体时。
在步骤120中,方向检测通过识别对应于每一个出现片断42的5’位点38和3’位点40的方向来实现。5’位点38和3’位点40的方向通过设置剩余核苷34的位置可识别,更可取的,5’位点38和3’位点40应具有一个5’-3’方向,以标识出现片断42的潜在可行基因位置。
在步骤122中,排序检测通过比较每一个出现片断42相应的5’位点38和3’位点40和基因组序列36来实现。更可取的,每一个出现片断42和他们相应的5’位点38和3’位点40的排序应该遵循将成为潜在可行位点的一个5’-出现片断-3’结构。
转录作图方法的步骤116-122在组合或独立的任何序列都适用。
在出现可行基因的位置没有从GIS双标签30中被找到的的位置处,限制将被放宽以允许步骤112中在匹配3’终端标签26和基因序列36时至少一个非匹配。
作为可选择的,5’位点38和3’位点40的数量最初先于步骤112中5’位点38和3’位点40被匹配到基因序列36得到,这使得能够进行5’位点38和3’位点40数量不一致的标识,例如,当仅存在少于十个5’位点38和3’位点40或者多于万个3’位点40时,反之亦然。
当5’位点38与3’位点40间的大数量的不一致存在时,转录作图方法20进行对于基因组序列36冗余定位的多重反复。因此,当大数量的不一致增加时,转录定位方法100需要一个更改的方法。为标识不一致的数量,如下创建一个不一致条件1threshold5,3≥count5count3≥threshold5,3]]>其中count5是5’位点38的数量,count3是3’位点40的数量,threshold5,3是预先设定的阀值,例如为限制count5和count3数量上的不一致,threshold5,3=10000。CSA使得count5和count3在不经过列举任何5’位点38或任何3’位点的情况下得到。
图6伪码“匹配_位点_2”中所描述的方法被应用在以上的不一致情况符合时。在伪码“匹配_位点_2”中,定位基因组序列36所需要的反复的数量由count5和count3中较小的一个决定。例如,应具有两个5’位点38,为得到3’位点40的对应对于基因组序列的定位或者横向遍历仅被重复两次,一次针对两个5’位点38中的每一个,以此得到出现片断42。
然而,以上的不一致情况可能不符合,count5和count3之间数量不一致差别不大时,转录定位方法100回到“匹配_位点_1”中为得到出现序列42而描述的方法。
在前面的方式中,转录作图方法被描述成根据本发明对于标示前面的关于传统定位方法的不足的一个应用。虽然,仅描述了一个本发明的应用,但是,这对于熟悉此领域的人员考虑此可以在不偏离本发明的范围和精邃产生的大量改变和/或修正的应用时是显而易见的。
权利要求
1.一种转录作图方法,其包含以下步骤从一个基因的转录本中获得一个5’末端标签和一个3’末端标签;将5’末端标签与一个基因组序列上的至少一个部分匹配,因此在那识别至少一个5’位点,其中每一个都有一段序列能与5’末端标签匹配;将3’末端标签与一个基因组序列上的至少一个部分匹配,因此在那识别至少一个3’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签匹配;识别至少一个出现片段,其中每一个都是一个序列片段,该序列片段沿着基因组序列从至少一个5’位点中的一个延伸到至少一个3’位点中的一个,至少一个出现片段中的每一个都有一个序列长度;并且识别至少一个可能的基因位置,其中每一个可能的基因位置都是至少一个出现片段中的一个,该片段拥有一个不超过一个预定义基因长度的序列长度。
2.如权利要求1所述的转录作图方法,确定一个5’末端标签和一个3’末端标签的步骤包括以下步骤为形成该5’末端标签,提供一段至少有16个碱基对的核苷序列;并且为形成该3’末端标签,提供一段至少有16个碱基对的核苷序列。
3.如权利要求1所述的转录作图方法,将5’末端标签与一段基因组序列的至少一个部分匹配包括以下步骤把5’末端标签与一段染色体序列匹配。
4.如权利要求3所述的转录作图方法,将3’末端标签与一段基因组序列的至少一个部分匹配包括以下步骤把3’末端标签与一段染色体序列匹配。
5.如权利要求1所述的转录作图方法,还包含了生成用于索引该基因组序列的数据结构的步骤。
6.如权利要求1所述的转录作图方法,还包含了生成至少一个用于索引该基因组序列的树结构和有序数组的步骤。
7.如权利要求1所述的转录作图方法,还包含了生成用于索引该基因组序列的后缀数组、后缀树、二进制树形网络和一个压缩后缀数组中至少一个的步骤。
8.如权利要求7所述的转录作图方法,将5’末端标签和基因组序列的至少一个部分相匹配包括以下步骤对基因序列采用前移和/或后移的操作方法,比较5’末端标签和基因组序列的至少一个部分,以获得至少一个5’位点。
9.如权利要求8所述的转录作图方法,将3’末端标签和基因组序列的至少一个部分相匹配以下步骤对基因序列采用前移和/或后移的方法,比较3’末端标签和基因组序列的至少一个部分,以获得至少一个3’位点。
10.如权利要求1所述的转录作图方法,识别至少一个可能的基因位点的步骤包括比较至少一个出现片段中的每一个和至少一个5’位点之一以及相应的至少一个3’位点之一与基因组序列中的至少一个部分之间的序列顺序,从而得到至少一个可能的基因位置。
11.如权利要求10中的转录作图方法,比较至少一个出现片段中的每一个和至少一个5’位点之一和相应的至少一个3’位点之一的序列顺序包括下列步骤根据一个5’-出现片段-3’结构来比较至少一个出现片段中的每一个和至少一个5’位点之一和相应的至少一个3’位点之一的序列顺序。
12.如权利要求1中的转录作图方法,识别至少一个可能的基因位置的步骤包括识别至少一个出现片段中的每一个的5’-3’方向,以此获得至少一个可能的基因位置。
13.如权利要求12中的转录作图方法,识别5’-3’方向的步骤包括鉴别一个AA核苷酸残基,该AA核苷酸残基包含3’末端标签的一部分。
14.如权利要求1所述的转录作图方法,识别至少一个可能基因位置的步骤包括识别染色体,与出现片段相应的至少一个5’位点之一和至少一个3’位点之一定位在该染色体上,以因此识别至少一个可能的基因位置。
15.如权利要求1所述的转录作图方法,将5’末端标签与一个基因组序列的至少一个部分相匹配的步骤包括识别至少一个5’位点的数量;和将3’末端标签与一个基因组序列的至少一个部分相匹配的步骤包括识别至少一个3’位点的数量。
16.如权利要求15所述的转录作图方法,识别至少一个出现片段的步骤包括为识别至少一个3’位点中的至少一个,沿基因组序列从至少一个5’位点中的每一个向着基因组序列的其中一端来回移动。
17.如权利要求16所述的转录定位方法,识别至少一个可能的基因位置的步骤包括当至少一个5’位点中的每一个都识别出至少一个可能的基因位置时,相应地停止沿基因组序列的来回移动。
18.如权利要求15所述的转录定位方法,识别至少一个出现片段的步骤包括为鉴识别至少一个5’位点中的至少一个,沿基因组序列从至少一个3’位点的每一个向着基因组序列的其中一端来回移动。
19.如权利要求18所述的转录定位方法,识别至少一个可能的基因位置包括以下步骤当至少一个3’位点中的每一个都识别出至少一个可能的基因位置时,相应地停止沿基因组序列的来回移动。
20.一种转录定位系统,包含从一个基因的转录本中获得一个5’末端标签和3’末端标签的方法;将5’末端标签与一个基因组序列的至少一个部分匹配的方法,因此来鉴别那里至少一个5’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签相匹配;将3’末端标签与一个基因组序列的至少一个部分匹配的方法,因此来鉴别那里至少一个3’位点,至少一个3’位点中的每一个都有一段序列能与3’末端标签相匹配;识别至少一个出现片段的方法,出现片段中的每一个都是一个基因组序列上的一个序列片段,这个基因组序列从至少一个5’位点中的一个延伸到至少一个3’位点中的一个,每一个出现片段都有一个序列长度;以及识别至少一个可能的基因位置的方法,其中每一个可能的基因位置都是至少一个出现片段中的一个,该片段拥有一个不超过一个预定义基因长度的序列长度。
21.如权利要求20所述的转录定位系统,识别一个5’末端标签和一个3’末端标签的方法包括为了形成5’末端标签,提供一个带有至少16个碱基对的核苷序列的方法;为了形成3’末端标签,提供一个带有至少16个碱基对的核苷酸序列的方法。
22.如权利要求20所述的转录定位系统,5’末端标签与一段基因组序列的至少一个部分匹配的方法包括5’末端标签与一个染色体序列配对的方法。
23.如权利要求22所述的转录定位系统,3’末端标签与一段基因组序列的至少一个部分匹配的方法包括3’末端标签与一个染色体序列配对的方法。
24.如权利要求20所述的转录定位系统,它还包含生成用于索引基因组序列的一个数据结构的方法。
25.如权利要求20所述的转录定位系统,它还包含生成至少一个用于索引基因组序列的一个树结构和一个有序数组的方法。
26.如权利要求20所述的转录定位系统,它还包含生成用于索引基因组序列的后缀数组、后缀树、二进制树形网络和一个压缩后缀数组中的至少一个的方法。
27.如权利要求26所述的转录定位系统,将5’末端标签与基因组序列的至少一个部分匹配的方法包括为比较5’末端标签和基因组序列的至少一个部分,对基因组序列采用前移和/或后移的操作,从而得到至少一个5’位点的方法。
28.如权利要求27中的转录定位系统,将3’末端标签与基因组序列的至少一个部分匹配的方法包括为比较3’末端标签和基因组序列的至少一个部分,对基因组序列采用前移和/或后移的操作,从而得到至少一个3’位点的方法。
29.如权利要求20所述的转录定位系统,识别至少一个可能的基因位置的方法包括比较至少一个出现片段中的每一个和至少一个5’位点之一以及相应的至少一个3’位点之一与基因组序列中至少一个部分之间的序列顺序的方法,从而得到至少一个可能的基因位置。
30.如权利要求29所述的转录定位系统,比较至少一个出现片段中的每一个和至少一个5’位点之一以及相应的至少一个3’位点之一的序列顺序的方法,包括根据一个5’-出现片段-3’结构来比较至少一个出现片段中的每一个和至少一个5’位点之一以及相应的至少一个3’位点之一的序列顺序的方法。
31.如权利要求20所述的转录定位系统,识别至少一个可能的基因位置的方法包括识别至少一个出现片段中的每一个片段的5’-3’方向的方法,以此获得至少一个可能的基因位置。
32.如权利要求31所述的转录定位系统,识别5’-3’方向的方法包括识别一个AA核苷酸残基的方法,该AA核苷酸残基包含3’末端标签的一部分。
33.如权利要求20所述的转录定位系统,识别至少一个可能的基因位置的方法包括识别染色体的方法,与出现片段中的每一个相应的至少一个5’位点之一和至少一个3’位点之一定位在该染色体上,以此识别至少一个可能的基因位置。
34.如权利要求20所述的转录定位系统,将5’末端标签与基因组序列的至少一个部分匹配的方法包括识别至少一个5’位点的数量的方法,和将3’末端标签与一个基因组序列的至少一个部分相匹配的方法包括识别至少一个3’位点数量的方法。
35.如权利要求34所述的转录定位系统,识别至少一个出现片段的方法包括沿基因组序列从至少一个5’位点的每一个向着基因组序列的其中一端来回移动的方法,以识别至少一个3’位点中的至少一个。
36.如权利要求35所述的转录定位系统,识别至少一个可能的基因位置的方法包括当至少一个5’位点中的每一个被识别出至少一个可能的基因位置时,相应地停止沿基因组序列来回移动的方法。
37.如权利要求34所述的转录定位系统,识别至少一个出现片段的方法包括沿基因组序列从至少一个3’位点的每一个向着基因组序列的其中一端来回移动的方法,以识别至少一个5’位点中的至少一个。
38.如权利要求37所述的转录定位系统,识别至少一个可能的基因位置的方法包括当至少一个3’位点中的每一个被识别出至少一个可能的基因位置时,相应地停止沿基因组序列来回移动的方法。
39.一种转录作图方法,包含以下步骤从一个基因的转录本中获得一个5’末端标签和一个3’末端标签;将5’末端标签与一个基因组序列的至少一个部分匹配,因此在那识别至少一个5’位点,其中每一个5’位点都有一段序列能与5’末端标签匹配;将3’末端标签与一个基因组序列的至少一个部分匹配,因此在那识别至少一个3’位点,至少一个5’位点中的每一个都有一段序列能与5’末端标签匹配;识别至少一个出现片段,其中每一个都是一个序列片段,该序列片段沿着基因组序列从至少一个5’位点中的一个延伸到至少一个3’位点中的一个,至少一个出现片段中的每一个都有一个序列长度;从至少一个出现片段中识别至少一个可能的基因位置,至少一个可能基因位置中的每一个是至少一个出现片段之一,所述的出现片段带有至少一个不超过预定基因长度的序列长度,将至少一个出现片段中的序列顺序和至少一个5’位点的序列顺序以及相应的至少一个3’位点之一的序列顺序根据一个5’-出现片段-3’结构该基因组序列上的相应部分的序列顺序匹配,5’位点和至少一个5’位点之一和在那相应的至少一个3’位点之一有一个5’-3’的方向,并且与每一个出现片段相对应的至少一个5’位点之一以及至少一个3’位点之一都在同一条染色体上。
全文摘要
下文描述了依据本发明一实施例的转录作图方法,该方法综合了基于短标签测序方法(SAGE和MPSS)的效率和全长cDNA(flcDNA)方法的精确性来全面描述转录组。这个方法也称为基因识别标签分析(GIS)方法。在该方法中,截取全长cDNA克隆的5’和3’末端来连接形成一个双标签结构,随后以一种高效方式对该双标签的双标签串联体进行测序,最后定位到基因组中来确认该基因的结构。由于一个GIS双标签代表一个转录本的5’和3’末端,所以它提供的信息量比SAGE和MPSS标签的更多。为了能够有效的进行转录作图和基因定位识别,该方法能得到5’和3’标签对之间的片断长度,包括方向,分类和染色体家族的信息。此外,采用压缩后缀矩阵(CSA)来索引基因组序列不仅提高了作图的速度而且减少对计算存储量的需要。
文档编号C12N15/00GK101056993SQ200580038119
公开日2007年10月17日 申请日期2005年8月17日 优先权日2004年9月13日
发明者宋永健铿, 阮仪君 申请人:科技研究局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1