一种ssr分子标记冗余性的生物信息学分析方法

文档序号:483594阅读:514来源:国知局
专利名称:一种ssr分子标记冗余性的生物信息学分析方法
技术领域
本发明涉及分子生物技术领域和计算机技术领域,尤其涉及一种SSR分子标记冗余性的生物信息学分析方法。
背景技术
SSR(Simple Sequence Repeat)作为重要的分子标记已经广泛应用于遗传图谱加密、基因定位、基因发掘、遗传多样性分析和分子标记辅助选择育种等研究方面。不同研究者由于不同的研究目的,从公共数据库中的序列和自有序列中开发的SSR标记可能存在冗余性,这样大大增加了研究的工作量。为了减少研究的重复性,降低经济成本,需要有相关工具去发掘冗余引物。目前,有一些软件可以分析序列的冗余性,比如BLASTclust (BLAST包,http://blast.ncbi. nlm. nih. gov/Blast. cgi ? CMD = ffeb&PAGE_TYPE = BlastDocs&DOC TYPE = Download)、 CD-HIT(http://www. bioinformatics. org/project/filelist. php ? group_id = 350)禾口 seqmatchall (EMBOSS 包,http://emboss, sourceforge. net/)。这些程序只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。对SSR研究热度现在处于上升趋势,对SSR标记中的冗余性分析也势在必行,目前没有相关程序分析SSR分析标记。

发明内容
针对以上问题开发了 SSR分子标记冗余性大规模分析的方法,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。具体是本发明提供一种SSR分子标记冗余性的生物信息学分析方法。一种SSR分子标记冗余性的生物信息学分析方法,包括以下步骤Al,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;A2,对脚本进行预处理,转化成FASTA格式;A3,把处理好的FASTA文件备份一个文件,后缀名为“.bk",使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;A4,从A3得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编号;A5,把所有相似引物写入一行,输出最终结果文件out. list。所述的生物信息学分析方法,步骤A4利用eXtr_ps2. pi脚本从A3得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编号;匹配分值计算公式如下
权利要求
1.一种SSR分子标记冗余性的生物信息学分析方法,其特征在于,包括以下步骤 Al,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;A2,对所述SSR分子标记进行预处理,转化成FASTA格式;A3,把处理好的FASTA文件备份一个文件,使用该备份文件作为输入,对各个物种的 SSR分子标记分别比对,查询相似性序列;A4,从A3得到的结果中按照相似匹配分值不低于81% ;同时没有gap;来过滤一对引物,然后提取相似引物编号;A5,把所有相似引物写入一行,输出最终结果文件out. list。
2.根据权利要求1所述的生物信息学分析方法,其特征在于,步骤A4中匹配分值计算公式如下S 匹配分值;a 查询序列和目标序列匹配上的序列长度(bp) ;1 目标序列长度(bp); m:错配个数。
全文摘要
本发明公开了一种SSR分子标记冗余性的生物信息学分析方法,包括以下步骤A1,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;A2,对所述SSR分子标记进行预处理,转化成FASTA格式;A3,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;A4,从A3得到的结果中按照相似匹配分值不低于81%;同时没有gap;来过滤一对引物,然后提取相似引物编号;A5,把所有相似引物写入一行,输出最终结果文件out.list。同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。
文档编号C12Q1/68GK102156824SQ20101060158
公开日2011年8月17日 申请日期2010年12月23日 优先权日2010年12月23日
发明者吴慎杰, 姚景珍, 李朋波, 杨六六, 王为, 王长彪, 董哲生 申请人:山西省农业科学院棉花研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1