一种牛全基因组密码对使用偏好性的检测方法

文档序号:6369310阅读:164来源:国知局

专利名称::一种牛全基因组密码对使用偏好性的检测方法
技术领域
:本发明属于分子遗传学和生物信息学领域,涉及基因组特定生物信息的检测,特别涉及一种牛全基因组密码对使用偏好性的检测方法。
背景技术
:根据中心法则,遗传信息的传递是由DNA到mRNA,再由mRNA到蛋白质。遗传信息在由mRNA到蛋白质的传递过程中是以三联体密码的形式传递的。每种氨基酸至少对应一个密码子,最多的有6种对应的密码子。编码同一种氨基酸的密码子称为同义密码子。人们已对不同物种的密码子使用偏好性进行了ー些研究,发现不同物种在密码子的使用上存在着明显的偏好性;同一物种不同功能基因的密码子使用偏好性也存在较大的差异。61种有意密码子有3721(61X61)种不同的密码对组合。对于密码对用法的研究,早期主要集中在大肠杆菌等模式生物。这些研究结果表明,密码对的使用不是随机的,具有一定的偏好性。近年来,伴随着多种生物全基因组测序的完成,密码对的研究也进入了基因组水平。这些基因组水平上的研究近一步证实了密码对的使用偏好性是具有物种特异性的,并且这种偏好性不同于密码子的使用偏好性,但对于造成密码对使用偏好性的根源,还不是很清楚。已有的研究结果表明,密码对的使用与基因的翻译效率有关。有学者提出,蛋白质合成过程中,核糖体蛋白和密码子与反密码子对在核糖体的P位和A位上形成的空间结构影响了翻译的精确性和速率,而这种空间结构的稳定性是影响密码对使用偏好性的主要原因。基于密码对使用偏好性的生物信息学分析是研究基因表达、蛋白质翻译效率和基因组进化等课题中的ー个重要环节。到目前为止,这方面的研究主要集中在研究单个基因或者基因组中所有基因的平均密码子使用偏好性。近年来的研究结果已经清晰的表明,核糖体对基因的翻译速度,在同一基因的不同区域是不同的。不同的密码对在基因序列上的排列顺序是否具有一定的规律?这些规律是否与基因不同区域的翻译速率有关系?这种关系是否是影响密码对使用偏好性的重要因素?这些问题是生物信息学和基因组学研究中极具挑战性的课题,在牛基因组上的相关研究仍是空白。
发明内容本发明的目的在于克服上述现有技术的缺点,提供ー种牛基因组密码子使用偏好性的检测方法,该方法利用全基因组的密码对的使用偏好性分值和联配(aligning)分析法对牛全基因组蛋白编码序列(codingsequence,⑶S)的密码对使用偏好性进行检查。本发明的目的是通过以下技术方案来解决的ー种牛基因组密码对使用偏好性的检测方法,包括以下步骤I)计算牛全基因组⑶S序列的3721种密码对的使用偏好性分值(codonpairscore,CPS)ο2)根据不同密码对的CPS值,首先分析牛基因组中单个CDS序列的密码对使用偏好性(codonpairbias,CPB)。某一⑶S序列的CPB值为该序列中所有密码对CPS值的算数平均值。3)根据基因组上3721种密码对的CPS值,针对基因组中的每ー个⑶S序列,按照⑶S序列上密码对的排列顺序,构建了ー个密码对偏好性分布型(CPSprofile)。针对该生物基因组中的所有CDS序列的密码对偏好性分布型分别从序列的5’和3’末端联配(aligning),并计算联配结果中的每ー个密码对位点上CPS值的平均值,得到了该生物所有⑶S序列的全基因组平均密码对偏好性分布型(averagedCPSprofile)。与现有技术相比,本发明提供牛基因组密码对使用偏好性的检测方法具有以下优点本发明的检测方法排除了密码子和氨基酸使用偏好性对密码对使用的影响,所得结果真实可信。分析基因组的平均密码对偏好性分布型表明,在牛全基因组水平上,密码对的使用偏好性在CDS的5’末端普遍偏低,并由5’末端向3’末端逐步升高。发明人将平均密码对偏好性分布型中出现的这ー规律称为‘密码对斜坡’(codonpairramp)。基于以上研究结果,发明人认为翻译起始区域内的碱基序列包含了大量的信息,这些信息可能影响了蛋白质翻译的起始和翻译的早期延长过程。本研究的结果对于理解牛密码对使用偏好性对基因表达的影响、基因序列的一維信息中蕴含的特定信号如何影响牛基因组上蛋白质功能和物种间进化等问题都具有一定的意义和指导作用,并为进一步开展此方面的研究提供了理论基础和新方法。图I为本发明的牛全基因组蛋白质编码序列的CPB值分布图2为本发明的牛全基因组蛋白质编码区5’区密码对使用偏好性分布图。具体实施例方式本发明首先从NCBI获取牛全基因组序列,并从该序列中提取出所有已知的蛋白质编码序列。根据这些蛋白质编码序列,计算3721种密码对的使用偏好性分值,然后计算每ー个编码序列的CDS序列的密码对使用偏好性。最后根据每个CDS序列的密码对使用分布性,利用联配分析技术,得到全基因组的密码对使用偏好型分布性。下面对本发明做进ー步详细描述,所述是对本发明的解释而不是限定。a、牛全基因组蛋白质编码序列的提取I、利用UCSC的TableBrowser获取牛(TaxID:9913)全基因组序列及其基因组注释信息。2、利用自编的Java程序,从以上获取的全基因组序列及其注释信息中获取全部已知的牛蛋白质编码区DNA序列(⑶S)。共得到6,963个⑶S序列。Java程序如下publicstaticvoidget_CDb_from_a_genome(Stringgb,StringCDSResult)throwsNoSuchElementException,BioException,IOException{Hashtablecds_anno_table=newHashtable();BufferedReaderbr=newBufferedReader(newFileReader(gb));SequenceIteratorstream=SeqIOTools.readGenbank(br);while(stream.hasNext()){Sequenceseq=stream.nextSequence();AnnotationannoI=seq.getAnnotation();Objectproductl=annoLgetProperty(,,SOURCE,,);StringnameOfProductI=productl.toString();Filefile=newFile(CDSResult);IlmakeaFilterfor〃CDS〃typesFeatureFilterff=newFeatureFilter.ByType(〃CDS〃);//getthefilteredFeaturesFeatureHolderfh=seq.filter(ff);IliterateovertheFeaturesinfhfor(Iteratori=fh.features();i.hasNext();){Featuref=(Feature)i.next();SymbolListseql=f.getSymbols();Annotationanno=f.getAnnotation();Mapmap=anno.asMap();Objectproduct=null;Objectanno2=map.get(〃db—xref〃);Stringcds_anno=anno2.toString();StringTokenizerstl=newStringTokenizer(cds—anno);inttokens=stl.countTokens();String[]element=newString[100];for(inta=0;a<tokens;a++){element[a]=stl.nextToken();if(element[a].matches(,,GeneID:·*〃)&&cds_anno_table.containsValue(element[a])!=true){cds_anno_tabIe.put(map.get(〃db_xref〃),element[a]);StringnameOfProduct=element[a]·replace(〃]〃,〃〃);Stringname=nameOfProductI+|+seq.getName()+〃|〃+nameOfProduct;Sequencedna=DNATools.createDNASequence(seql.seqString(),name)BufferedOutputStreambw=newBufferedOutputStream(newFiIeOutputStream(file,true));权利要求1.ー种牛基因组密码对使用偏好性的检测方法,其特征在于,包括以下步骤1)计算牛全基因组⑶S序列的3721种密码对的使用偏好性分值CPS;2)根据不同密码对的CPS值,首先分析牛基因组中单个CDS序列的密码对使用偏好性CPB,某一CDS序列的CPB值为该序列中所有密码对CPS值的算数平均值;3)根据基因组上3721种密码对的CPS值,针对基因组中的每ー个⑶S序列,按照⑶S序列上密码对的排列顺序,构建了ー个密码对偏好性分布型;针对该生物基因组中的所有CDS序列的密码对偏好性分布型分别从序列的5’和3’末端联配,并计算联配结果中的每ー个密码对位点上CPS值的平均值,得到了该生物所有CDS序列的全基因组平均密码对偏好性分布型。全文摘要本发明公开一种牛基因组密码对使用偏好性的检测方法,包括以下步骤计算牛全基因组CDS序列的3721种密码对的使用偏好性分值CPS;根据不同密码对的CPS值,分析牛基因组中单个序列的密码对使用偏好性CPB,某一序列的CPB值为该序列中所有密码对值的算数平均值;根据基因组上3721种密码对的CPS值,针对基因组中的每一个CDS序列,按照CDS序列上密码对的排列顺序,构建了一个密码对偏好性分布型;针对该生物基因组中的所有CDS序列的密码对偏好性分布型分别从序列的5’和3’末端联配,并计算联配结果中的每一个密码对位点上CPS值的平均值,得到了该生物所有CDS序列的全基因组平均密码对偏好性分布型。文档编号G06F19/18GK102693368SQ201210142809公开日2012年9月26日申请日期2012年5月10日优先权日2012年5月10日发明者刘小林,张慧林,赵胜申请人:西北农林科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1