单核苷酸距离多态性比较核酸序列进行物种分类的方法

文档序号:9687802阅读:454来源:国知局
单核苷酸距离多态性比较核酸序列进行物种分类的方法
【技术领域】
[0001] 本发明属于物种分类技术领域,特别设及一种单核巧酸距离多态性比较核酸序列 进行物种分类的方法。
【背景技术】
[0002] 目前,根据进化论原理,两段DNA或RNA若来自同一祖先,会有一定的同源性,亲缘 关系越近的物种同源性就越高,所W可根据DNA或RNA序列的核巧酸排列顺序进行分类,建 立分子进化的系统发育树(phylogenetic化ee)。目前广泛使用的是由化ggins和化a巧于 1988年提出的Clustal算法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关 系,然后根据距离矩阵计算产生系统进化树。两条序列比对时,最简单的情况就是不考虑空 位,只选择比对起始点,但运种方法误差较大,难W反映真实情况。目前最常用的方法是对 位比对,即通过插入间隔的方法使长度不同的序列对齐。由于有多种插入间隔的方式,从而 导致了比对的复杂性,使计算量大大增加。
[0003] 因此,本着求好的精神及理念,并由专业的知识、经验的辅助,W及在多方巧思、试 验后,方创设出本发明,特再提供一种单核巧酸距离多态性比较核酸序列进行物种分类的 方法,能够将序列上核巧酸的差异转变为核巧酸间距离的差异,既兼顾了空位,又无需插入 间隔,大大简化了比对的复杂性。

【发明内容】

[0004] 本发明提出一种单核巧酸距离多态性比较核酸序列进行物种分类的方法,将序列 上核巧酸的差异转变为核巧酸间距离的差异,既兼顾了空位,又无需插入间隔,计算方法简 单。
[0005] 本发明的技术方案是运样实现的:一种单核巧酸距离多态性比较核酸序列进行物 种分类的方法,包括如下步骤:
[0006] S10;对DNA序列或者RNA序列上的每个核巧酸进行编号;
[0007] S20:计算DNA序列或者RNA序列上相邻同种核巧酸的距离;
[000引S30:统计每种核巧酸的不同距离在每条DNA序列或者RNA序列中出现的次数;
[0009] S40:根据统计每种核巧酸的不同距离在每条DNA序列或者RNA序列中出现的次数, 构建距离矩阵,根据距离矩阵计算产生系统发育树,进行物种分类。
[0010] 作为一种优选的实施方式,所述核巧酸的种类包括核巧酸A、核巧酸T、核巧酸G、核 巧酸C和核巧酸U。
[0011] 作为一种优选的实施方式,所述步骤S20中计算DNA序列或者RNA序列上相邻同种 核巧酸的距离采用将序列中核巧酸A对应的编号提取出来,计算相邻核巧酸A之间的距离, 然后依次计算相邻核巧酸C之间、相邻核巧酸G之间、相邻核巧酸T、相邻核巧酸U之间的距 离。
[0012] 作为一种优选的实施方式,所述步骤S40中根据统计每种核巧酸的不同距离在每 条DM序列或者RNA序列中出现的次数,分析单核巧酸距离的多态性,通过构建距离矩阵,计 算产生系统发育树。
[0013] 作为一种优选的实施方式,所述步骤S40中分析单核巧酸同种核巧酸距离的多态 性,满足公式:F =化巧/(山+町),口 = -1姑,其中11、为两段0魁序列或者1?酷序列中第一段序列 中相邻同种核巧酸出现的某一距离的数目,ny是两段DNA序列或者RNA序列中第二段序列中 相邻同种核巧酸出现的某一距离的数目,nxy为两段DNA序列或者RNA序列相邻同种核巧酸之 间某一距离出现次数相同的数目,即nx和ny中的较小值,P为两段DNA序列或者RNA序列相邻 同种核巧酸距离的多样性值。
[0014] 作为一种优选的实施方式,所述步骤S40中分析单核巧酸同种核巧酸距离的多态 性,在计算两段DNA序列或者RNA序列的多样性值后,对四种核巧酸全部距离的多样性值求 取平均值,将所有DNA序列或者RNA序列两两比较计算后得到的平均值构建距离矩阵,根据 距离矩阵制作进化关系树。
[0015] 采用了上述技术方案后,本发明的有益效果是:根据DNA或RNA序列上相邻的两个 同种核巧酸距离的差异进行比对,构建距离矩阵,再根据距离矩阵计算产生系统进化树,本 方法将序列上核巧酸的差异转变为核巧酸间距离的差异,既兼顾了空位,又无需插入间隔, 计算方法简单,能够满足基本要求。
【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 W根据运些附图获得其他的附图。
[0017] 图1为本发明的流程示意图;
[0018] 图2为本发明构建的系统发育树;
[0019] 图3为利用Mega 6.0软件对位比对序列构建的系统发育树。
【具体实施方式】
[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0021] 如图1所示,本发明单核巧酸距离多态性比较核酸序列进行物种分类的方法,包括 如下步骤:
[0022] S10;对DNA序列或者RNA序列上的每个核巧酸进行编号;
[0023] S20:计算DNA序列或者RNA序列上相邻同种核巧酸的距离;
[0024] S30:统计每种核巧酸的不同距离在每条DNA序列或者RNA序列中出现的次数;
[0025] S40:根据统计每种核巧酸的不同距离在每条DNA序列或者RNA序列中出现的次数, 构建距离矩阵,根据距离矩阵计算产生系统发育树,进行物种分类。
[0026] 所述核巧酸的种类包括核巧酸A、核巧酸T、核巧酸G、核巧酸C和核巧酸U。
[0027] 所述步骤S20中计算DM序列或者RNA序列上相邻同种核巧酸的距离采用将序列中 核巧酸A对应的编号提取出来,计算相邻核巧酸A之间的距离,然后依次计算相邻核巧酸C之 间、相邻核巧酸G之间、相邻核巧酸T、相邻核巧酸U之间的距离。
[0028] 所述步骤S40中根据统计每种核巧酸的不同距离在每条DNA序列或者RNA序列中出 现的次数,分析单核巧酸距离的多态性,通过构建距离矩阵,计算产生系统发育树。
[0029] 所述步骤S40中分析同种单核巧酸距离的多态性,满足公式:F =化xy/(nx+ny),P 二-lnF,其中nx为两段DNA序列或者RNA序列中第一段序列中相邻同种核巧酸出现的某一距 离的数目,ny是两段DNA序列或者RNA序列中第二段序列中相邻同种核巧酸出现的某一距离 的数目,nxy为两段DNA序列或者RNA序列相邻同种核巧酸之间某一距离出现次数相同的数 目,即nx和ny中的较小值,P为两段DNA序列或者RNA序列相邻同种核巧酸距离的多样性值。
[0030] 所述步骤S40中分析单核巧酸同种核巧酸距离的多态性,在计算两段DNA序列或者 RNA序列的多样性值后,对四种核巧酸全部距离的多样性值求取平均值,将所有DNA序列或 者RNA序列两两比较计算后得到的平均值构建距离矩阵,根据距离矩阵制作进化关系树。
[0031] 所述步骤S40中还包括:根据统计每种碱基的不同距离在每条DNA序列或者RNA序 列中出现的次数,确定物种的同源性差异。
[0032] W-段DNA序列为例(同样适用于RNA序列),给每个核巧酸编号,则相邻两个核巧 酸A之间的距离如下所示:
[0033]
[0034] 由上可知,相邻两个核巧酸A之间的距离为7,4,3,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1