一种基于基因序列表达分析的LncRNA发掘方法

文档序号:6356713阅读:375来源:国知局
专利名称:一种基于基因序列表达分析的LncRNA发掘方法
技术领域
本发明属于生物技术领域,涉及长非编码核糖核酸(Longnoncoding RNA)鉴定方面。
背景技术
本发明是一种适用LncRNA鉴定的新方法。适用于LncRNA的生物医学研究或基础生物学研究。现在,越来越多的人开始把焦点放在MicroRNA(微小核糖核酸)上,因为它们具有降解目标信使RNA和抑制翻译的功能,从而调节基因表达。然而,新近的研究发现,还有一 类序列比较长的非编码RNA(long noncoding RNA)也具有调节基因表达的功能。例如小鼠中的macroRNA Xist和Air,其大小分别为18和108kb。Xist通过与染色体作用引起失活的X染色体上的大部分基因沉默,而Air与父本的Igf2r/Slc22a2/Slc22a3基因簇的沉默有关。另外,long ncRNA还可能与基因印记和反义转录有关。高密度的芯片tiling array和大规模的全长cDNA文库分析显示,在哺乳动物体内存在多达数千的ncRNA,通过FANTOM对102,801cDNAs的全长测序和分析显示,大约有三分之一(34,030)的序列缺少潜在的蛋白编码区域。而其中的大部分序列的功能仍然不清楚,当然其中可能有假的ncRNA序列,如3’ UTR或5’ UTR片断及内含子片断。2006 2007年,有好几篇文章通过生物信息学的方法预测了小鼠Long ncRNA的序列和潜在数量。由于文章采用的对ncRNA的限制条件不尽相同,得到的long ncRNA的数量也存在差异=PNAS上的文章为1328个,其中849个在脑中有明显的信号genome Res.上的文章则在小鼠中预测出3122个长的全长ncRNAs (“macroRNAs”)。PLoSGenetics在2006年有一篇文章除了预测小鼠macro ncRNA之外,还用RT-PCR、Northern等方法进行了验证。在人的基因组中,只有2 喊基用于编码蛋白,而有72%的喊基是可以转录的,因此ncRNA的存在有很大的空间。然而,这些不编码蛋白的RNA(ncRNA)有什么作用呢?近些年,研究者们主要将目光聚集在短的ncRNA (microRNA)上,已经发现了数百个microRNA,其主要功能是调节基因的表达。但是,我们也不能忽视更长一些的也具有重要功能的LncRNA。全基因组学和大量的转录序列分析使我们能够通过生物信息学方法更快跟准的发现大量的LncRNA。其生物学作用没有完全明晰,已知作用则包括基因沉默、基因印记和反义抑制。本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证。在创新性方面,我们的方法解决了常规方法长非编码RNA无法确定表达量的问题。通过筛选高表达的长非编码RNA,大大缩小了实验验证的范围,节省时间与精力。

发明内容
本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证。其基本流程如下步骤一收集人的所有全长mRNA序列数据步骤二 去除包含编码蛋白的外显子的mRNA序列。步骤三整理大于200bp的长非编码RNA,形成可检索数据库。步骤四搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。步骤五、实验验证


图I 一种基于基因序列表达分析的LncRNA发掘方法流程
具体实施例方式本发明将以一癌症疾病为实例,介绍本发明的具体实施步骤步骤一收集人的所有全长mRNA序列数据。数据来源于NCBI的数据库(http://www. ncbi. nlm. nih. gov/nuccore)。步骤二 去除包含编码蛋白的外显子的mRNA序列。步骤三整理大于200bp的长非编码RNA,形成可检索数据库。步骤四搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。我们利用计算机程序,从长非编码RNA的序列数据库中生成含有虚拟酶切结果,如果一个酶切没有返回结果,则自动在序列前面加上酶切位点,保证结果的全面性。程序记录了整个分析过程中的重要参数,如酶切的结果标签序列,长非编码RNA的注释等。通过与实际标签序列序列比对,最后是包含的标签数量,也就是长非编码RNA的表达丰度值。我们利用计算机程序,从长非编码RNA的序列数据库中生成含有虚拟酶切结果,如果一个酶切没有返回结果,则自动在序列前面加上酶切位点,保证结果的全面性。程序记录了整个分析过程中的重要参数,如酶切的结果标签序列,长非编码RNA的注释等。通过与实际标签序列序列比对,最后是包含的标签数量,也就是长非编码RNA的表达丰度值。以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。
权利要求
1.本发明所述的ー种基于基因序列表达分析的长非编码RNA发掘方法,本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进ー步的实验验证,包含如下几个步骤步骤I :收集人的所有全长cDNA序列数据; 步骤2 :去除包含编码蛋白的外含子的cDNA序列; 步骤3 :整理大于200bp的长非编码RNA,形成可检索数据库; 步骤4 :搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。
步骤5 :实验验证。
全文摘要
本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证。本发明主要包括如下流程步骤1、收集人的所有全长mRNA序列数据;步骤2、去除包含编码蛋白的外含子的mRNA序列;步骤3、整理大于200bp的长非编码RNA,形成可检索数据库。步骤4、搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。步骤5、实验验证。最终,我们预测了在特定细胞组织中高表达的长非编码RNA。
文档编号G06F19/20GK102693369SQ20111007194
公开日2012年9月26日 申请日期2011年3月24日 优先权日2011年3月24日
发明者曾华宗 申请人:上海聚类生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1