本发明涉及生物信息学和基因组学技术领域,具体涉及一种检测miRNA来源的方法。
背景技术:
miRNA又称microRNA,是一类广泛存在于动物、植物和病毒等多种有机体内、大小为21-25nt的内源性非编码单链小分子RNA。大多数miRNA基因首先转录生成初级转录本primiRNA(primary microRNA),通过特定的选择性剪切形成具有茎环结构的前体premiRNA(precursor microRNA);而后再次剪切,最终产生成熟miRNA。因此,miRNA前体序列即为产生成熟miRNA的来源序列。miRNA具有重要的调控功能,如在植物体中,miRNA主要负责调控植物生长、发育和胁迫耐受性等。目前,miRNA的鉴定和生物功能研究工作已取得很大进展。但是,miRNA的分类及其来源鲜有报道。
假基因是指与功能基因的核苷酸序列具有高度相似性且存在提前出现的终止密码子或者移码突变的一类核苷酸序列。假基因的产生主要有两条途径,其中一种是通过在基因组DNA复制过程中复制后的基因片段无法进行正常编码,而形成的沉默的冗余片段;另一种途径是由mRNA转录物反转录成cDNA后随机整合到基因组中,在长期进化选择过程中因随机突变积累而形成假基因。
目前的研究表明,部分假基因不仅能够转录,还可产生功能RNAs,并可通过多种机制调控其他基因的表达,从而具有重要的生物学功能。另外,在真菌、昆虫、无脊椎动物和植物等许多分类单元中,都已经发现假基因的存在可以混淆系统发育和群体遗传研究,得出错误的结果。为了避免假基因对物种不同研究方面的影响,检测及预测研究对象中目的片段是否存在假基因是减少假基因影响的主要的方法。目前大部分的研究仅局限于某些动物基因组假基因的鉴定,至今尚无研究来源于假基因的miRNA检测方法的相关报道。
目前,尚无假基因与miRNA之间关系的研究,现有技术中缺乏一套标准地检测由假基因转录得到的miRNA的方法。
技术实现要素:
有鉴于此,本发明的目的在于一种检测miRNA来源的方法,不仅能够填补现有技术中鉴定miRNA来源的空白,还能够运用此方法批量发掘基因组中具有潜在生物功能的假基因,从而避免现有技术在目标假基因选择方面的盲目性大、发掘数量有限的问题。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了一种检测miRNA来源的方法,包括以下步骤:
1)提供物种的待检测miRNA前体序列的信息;
2)提供假基因数据库中所述物种的假基因信息;
3)将所述待检测miRNA前体序列与所述物种假基因的核苷酸序列的物理位置是否重合,将与miRNA前体序列物理位置具有重合度的假基因确定候选假基因;
4)根据待检测miRNA前体序列与所述物种基因组的假基因序列在染色体所在的物理位置计算两类序列的重合度I;
5)当所述步骤4)得到的重合度I符合1≧I>0.3条件时,确定待检测miRNA是否由所述步骤3)得到的候选假基因所产生;
所述步骤1)和步骤2)之间没有时间顺序限定,所述步骤3)和步骤4)之间没有时间顺序限定。
优选的,所述步骤1)中信息包括目标miRNA前体序列在染色体上的物理位置、名称及所在DNA链的正负性。
优选的,所述步骤2)中的信息包括假基因在染色体上的物理位置、名称及假基因所在DNA链的正负性。
优选的,所述步骤4)中重合度I的计算公式为:
I=待检测miRNA前体序列与候选假基因核苷酸序列相互重合部分的长度/待检测miRNA前体序列的长度;
所述计算公式的适用情形包括以下三种:(1)目标miRNA(s)前体序列的起点和终点均位于候选假基因核苷酸序列的内部;(2)目标miRNA(s)前体序列的起点位于候选假基因核苷酸序列的内部,终点位于候选假基因核苷酸序列的外部;(3)目标miRNA(s)前体序列的终点位于候选假基因核苷酸序列的内部,起点位于候选假基因核苷酸序列的外部。
本发明提供了一种检测miRNA来源的方法,包括以下步骤:1)提供物种的待检测miRNA前体序列的信息;2)提供假基因数据库中所述物种的假基因信息;3)将所述待检测miRNA前体序列与所述物种假基因的核苷酸序列的物理位置是否重合,将与miRNA前体序列物理位置具有重合度的假基因确定候选假基因;4)根据目标miRNA前体序列与所述物种基因组的假基因序列在染色体所在的物理位置计算两类序列的重合度I;5)当所述步骤4)得到的重合度I符合1≧I>0.3条件时,确定待检测miRNA是否由所述步骤3)得到的候选假基因所产生;所述步骤1)和步骤2)之间没有时间顺序限定,所述步骤3)和步骤4)之间没有时间顺序限定。本发明通过比较假基因和miRNA前体序列在染色体上的物理位置,根据两者的重合度,以确定待测miRNA(s)是否由候选假基因产生。应用本发明的技术方案,一方面采用全基因组假基因以批量确定假基因来源的miRNA(s),填补了miRNA和假基因两者关系的研究空白,在miRNA分类和功能研究方面具有重要意义;另一方面,运用该技术可批量发掘基因组中具有潜在生物功能的假基因,为基因调节网络的构建提供候选假基因,从而克服现有技术对目标假基因的筛选盲目性大,发掘数量有限,步骤复杂,周期长、价格昂贵等问题。同时,本发明在保证鉴定结果的精确性和可靠性基础上,可在全基因组水平实现批量发掘,步骤简单,操作方便,用时短,显著地降低了实验成本。本发明可直接应用于动物、植物和微生物等物种单一或批量假基因与miRNA关系的研究;而且理论方法清晰,研究对象的数量不限与方法设计灵活,要求操作平台简单,操作易于掌握,过程方便快捷,结果精确可靠,价格优势明显。
说明书附图
图1为实施例1中miRNA前体序列来源的检测方法流程图。
具体实施方式
本发明提供了一种检测miRNA来源的方法,包括以下步骤:
1)提供物种的待检测miRNA前体序列的信息;
2)提供假基因数据库中所述物种的假基因信息;
3)将所述待检测miRNA前体序列与所述物种假基因的核苷酸序列的物理位置比较是否重合,将与miRNA前体序列具有重合度的假基因确定候选假基因;
4)根据检测miRNA前体序列与所述物种基因组的假基因序列在染色体所在的物理位置计算两类序列的重合度I;
5)当所述步骤4)得到的重合度I符合1≧I>0.3条件时,确定待检测miRNA是否由所述步骤3)得到的候选假基因所产生;
所述步骤1)和步骤2)之间没有时间顺序限定,所述步骤3)和步骤4)之间没有时间顺序限定。
本发明提供物种的待检测miRNA前体序列的信息。本发明中,通过查询miRNA的数据库miRBase网站(http://mirbase.org/index.shtml)或者转录组测序技术途径获得miRNA前体序列的信息。所述信息包括目标miRNA前体序列在染色体上的物理位置、名称及所在DNA链的正负性。本发明中,所述物种的种类没有特殊限制,本发明提供的方法可应用于本领域技术人员所熟知的物种,例如动物、植物和微生物等物种。本发明实施例中,是以秀丽隐杆线虫的miRNA作为检测对象。
本发明提供假基因数据库中所述物种的假基因信息。本发明中,所述假基因信息的获取途径包括查询假基因数据库PseudoFam网站(http://pseudofam.pseudogene.org/pages/main/about.jsf)或多组学测序。所述信息包括假基因在染色体上的物理位置、名称及假基因所在DNA链的正负性。本发明将所述待检测miRNA前体序列与所述物种假基因的核苷酸序列的物理位置比较是否重合,将物理位置具有重合度的假基因确定候选假基因。本发明中,物理信息重合指假基因与miRNA前体序列在染色体上的物理位置一致。本发明中,所述物理位置比较优选采用office作为操作平台。
得到候选假基因后,本发明根据待检测miRNA前体序列与所述物种基因组的假基因序列在染色体所在的物理位置计算两类序列的重合度I。本发明中,所述重合度I的计算公式优选为:
I=待检测miRNA前体序列与候选假基因核苷酸序列相互重合部分的长度/待检测miRNA前体序列的长度;
所述计算公式的适用情形包括以下三种:(1)目标miRNA(s)前体序列的起点和终点均位于候选假基因核苷酸序列的内部;(2)目标miRNA(s)前体序列的起点位于候选假基因核苷酸序列的内部,终点位于候选假基因核苷酸序列的外部;(3)目标miRNA(s)前体序列的终点位于候选假基因核苷酸序列的内部,起点位于候选假基因核苷酸序列的外部。
得到重合度I后,本发明中当待检测miRNA前体与步骤3)得到的候选假基因两类序列的重合度1≧I>0.3时,才最终确定待检测miRNA是步骤3)筛选得到的候选假基因所产生。
下面结合实施例对本发明提供的一种一种检测miRNA来源的方法方法进行详细的说明,但是不能把它们理解为对本发明保护范围的限定。
实施例1
使用一种研究假基因和miRNA关系的方法,对秀丽隐杆线虫全基因组已知的miRNA前体数据库和假基因数据库进行相关研究。
S1,通过查询miRNA的数据库miRBase网站(http://mirbase.org/index.shtml)获得秀丽隐杆线虫(Caenorhabditis elegans)全部已知的目标miRNAs前体序列的相关信息,包括其在染色体上的物理位置、名称及其所在DNA链的正负性等;
S2,通过查询假基因数据库PseudoFam网站(http://pseudofam.pseudogene.org/pages/main/about.jsf)获得秀丽隐杆线虫基因组假基因数据库的相关信息,包括其在染色体上的物理位置、名称极其所在DNA链的正负性等;
S3,将秀丽隐杆线虫的目标miRNA(s)与该物种基因组的假基因序列两者在染色体所在的物理位置进行比较,初步确定3个目标miRNAs基因和3个相对应的候选假基因;
S4,根据秀丽隐杆线虫目标miRNA(s)与该物种基因组的假基因序列在染色体所在的物理位置计算两者序列的重合度I,得知3个目标miRNAs基因的起止位点均位于候选假基因的内部,属于第(1)种情况,重合度I=1;
S5,根据目标miRNA前体与S3得到的候选假基因两者的物理位置重合度I(1≧I>0.3)最终确定3个目标miRNAs是由3个对应的候选假基因所产生。结果如表1所示。
表1秀丽隐杆线虫中3个目标miRNAs基因和对应的候选假基因信息一览表
由以上实施例可知,应用本发明的技术方案,采用假基因和miRNA前体序列两者在染色体上物理位置的重合度以确定两者关系的方法,不仅保证了分析结果的精确性和可靠性,且可直接应用于动物、植物和微生物等物种批量假基因与miRNA关系的研究;方法设计灵活,要求操作平台简单,操作易于掌握,过程方便快捷,简化了配套条件并显著地降低了分析成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。