显性分子标记群体遗传多样性和遗传分化参数估算优化方法

文档序号:538951阅读:1292来源:国知局
专利名称:显性分子标记群体遗传多样性和遗传分化参数估算优化方法
技术领域
本项技术属于生物学领域。尤其涉及显性分子标记群体遗传多样性和遗传分化参数估算优化方法。
在众多的分子遗传标记中,RAPD(随机扩增多态性DNA)和AFLP(扩增片段长度多态性)等基于PCR技术并具有设备简便、无需预先知道基因组信息、可以同时在较短时间内完成大量样品的分析等特色,因此在生物资源管理和群体遗传多样性以及其它研究领域占有十分重要的地位(Haig 1998;Kuang等1998;Silbiger等1998)。但由于它们是显性标记,不能区分纯合子和杂合子,在基因频率的统计上存在困难。过去一直采用平方根法在假定群体处于遗传平衡的前提下来进行哑等位基因频率的估算(Stewart和Excoffier 1996),但平方根法会导致统计上的有偏估计。1994年,Lynch和Milligan就此提出了改进,但改进的方法受样本大小影响很大,由于该方法选择具有较高哑等位基因频率仍然导致遗传变异和遗传距离的有偏估计(L.A.ZHIVOTOVSKY 1999)。1999年,L.A.ZHIVOTOVSKY提出了基于Bayesian理论的新的统计方法用于显性分子遗传标记的哑等位基因频率估算。在Szmidt等(1996)的实例中,用该方法估计出的遗传参数更接近大配子体的结果。S.L.KRAUSS(2000)也指出该方法对J型分布的显性分子标记数据能够给出比其它方法更精确的结果。
基于Bayesian理论的新的统计方法需要计算GAMMA函数,虽然Excel中提供了该函数,但是对于分子群体参数的估算还是非常不方便,而且用手工计算常常由于大量数据及复杂的中间过程会产生错误,不利于新方法的推广和应用。
对显性分子遗传标记的遗传多样性和遗传分化的分析,通常包括两个方面(1)基于等位基因频率(假定群体处于遗传平衡)通常采用Nei’s H和Shannon H统计量估算遗传多样性;Nei’sG统计量Wright’s F统计量估算遗传分化。采用平方根方法估算的各统计量差异很大,研究工作者常常因此不知所措,无从选择。有的甚至错误地认为较大的就是最好的,从发表的众多发表的论文中也常常看到作者对各种统计量进行比较,试图找出所谓最佳答案。(2)基于分子表型通常采用分子表型频率,然后用Shannon信息指数计算多样性指数,再进行多样性分解,估算出多样性在群体间和群体内所占的比率。但至尽尚未对此进行统计量的定义,不利于描述以及与其它定义的统计量进行比较。
目前国内外尚无基于Bayesian理论的新的统计方法对多种群体遗传统计量同时进行遗传参数分析和比较及优化的报道。
本发明的技术方案是获得显性分子标记群体遗传多样性和遗传分化参数优化估算的方法根据输入的显性分子遗传标记,采用Zhivotovsky提出的基于Bayesian统计理论新的估算哑等位基因频率的方法和多种统计方法对多种群体遗传统计量进行群体遗传多样性和遗传分化遗传参数进行优化估算,估算哑等位基因频率的方法是对各位点分别先计算无带总数加“1”的Gamma函数的自然对数加上有带和无带总和加“1.5”的Gamma函数的自然对数,减去无带总数加“0.5”的Gamma函数的自然对数,再减去有带和无带总和加“2”的Gamma函数的自然对数,这个结果的指数即是哑等位基因频率;分别用Nei’s H统计量和Shannon H统计量计算群体内遗传多样性;再经算术、加权和全局三种平均方法计算整个群体的平均哑等位基因频率,再计算整个群体的总的遗传多样性,最后根据Nei’s G统计量计算出各位点的Gst和整个群体平均遗传分化系数Gst;另外用Bayesian法计算出来的哑等位基因频率计算群体间基因频率方差,根据Wright’s F统计量估算出各位点的Fst和所有标记位点的平均Fst。
其中具体有关用Bayesian法估算群体遗传参数的步骤和方法如下(1)对原始分子标记数据进行检测,然后进行基本统计(A)各群体各标记位点有带和无带的和;(B)从整个群体(即全局法)统计,各标记位点的有带和无带的总和。(2)Bayesian法计算哑等位基因频率的方法是对各位点分别先计算无带总数加“1”的Gamma函数的自然对数加上有带和无带总和加“1.5”的Gamma函数的自然对数,减去无带总数加“0.5”的Gamma函数的自然对数,再减去有带和无带总和加“2”的Gamma函数的自然对数,这个结果的指数即是哑等位基因频率。(3)然后用Bayesian法计算出来的哑等位基因频率分别用Nei’s H统计量和Shannon H统计量计算群体内遗传多样性;再经算术、加权和全局三种平均方法计算整个群体的平均哑等位基因频率,再计算整个群体的总的遗传多样性,最后根据Nei’s G统计量计算出群体遗传分化系数Gst。(4)用Bayesian法计算出来的哑等位基因频率计算群体间基因频率方差,根据Wright’s F统计量估算出各位点的Fst和所有标记位点的平均Fst。
本发明通过利用Zhivotovsky提出的基于Bayesian统计理论新的估算哑等位基因频率的方法,采用三种方法(算术平均、加权平均和全局法)计算平均哑等位基因频率,并分别采用Nei’s H统计量,Shannon H统计量来估算群体内遗传多样性和总群体的遗传多样性,用Nei’s G统计量估算的群体间遗传分化参数Gst以及Wight的F统计量估算的群体间哑等位基因频率的方差和遗传分化参数Fst(其中首次采用Bayesian方法估算的哑等位基因频率进行Shannon H统计量的估算)。
本发明特点是通过应用基于Bayesian统计理论的新的估算哑等位基因频率的方法估算的各种统计量的群体遗传多样性参数特别是群体遗传分化参数,与基于平方根法得到参数相比,明显降低了统计误差,而且各统计量得出的参数基本一致。
本发明方法利用计算机程序处理数据,能得到自洽和一致的有关参数,可以降低通过平方根法估算哑等位基因频率来估算群体遗传多样性和遗传分化参数所带来的统计误差。通过本项发明提供的计算机程序可以实现上述全部遗传参数的自动分析,大大降低了计算工作量并避免了因手工计算可能带来的计算错误。在动植物或微生物用显性分子标记进行群体遗传多样性和群体遗传分化参数估算中具有重要价值。
(2)基于平方根法计算出各群体各位点的哑等位基因频率,采用Nei’sH统计量给出了群体内遗传多样性Hs;各位点的算术平均哑等位基因频率和Hs以及Ht;采用Nei’s G统计量估算出群体遗传分化参数Gst;各位点的加权平均哑等位基因频率和Hs以及在加权平均上获得的Ht和Gst;各位点的全局法哑等位基因频率和Ht以及获得的Gst(算术平均和加权平均);各群体所有位点平均哑等位基因频率和Hs;在算术平均、加权平均和全局法三种条件下,整个群体所有位点的总的Ht,Hs和Gst。
(3)基于平方根法计算出各群体各位点的哑等位基因频率,采用Shannon H统计量给出了群体内遗传多样性参数Hs;各位点的算术平均哑等位基因频率和Hs以及Ht;和采用Nei’s G统计量估算出群体遗传分化参数Gst;各位点的加权平均哑等位基因频率和Hs以及在加权平均上获得的Ht和Gst;各位点的全局法哑等位基因频率和Ht以及获得的Gst(算术平均和加权平均);各群体所有位点平均哑等位基因频率和Hs;在算术平均、加权平均和全局法三种条件下,整个群体所有位点的总的Ht,Hs和Gst。
(4)基于平方根法,结合Wright’s F统计量给出了各位点哑等位基因频率方差和Fst,所有标记位点的平均Fst。
(5)用Bayesian法计算出哑等位基因频率,采用Nei’s H统计量给出了群体内遗传多样性Hs;各位点的算术平均哑等位基因频率和Hs以及Ht,采用Nei’s G统计量估算出群体遗传分化参数Gst;各位点的加权平均哑等位基因频率和Hs以及在加权平均上获得的Ht和Gst;各位点的全局法哑等位基因频率和Ht以及获得的Gst(算术平均和加权平均);各群体所有位点平均哑等位基因频率和Hs;在算术平均、加权平均和全局法三种条件下,整个群体所有位点的总的Ht,Hs和Gst。
(6)基于Bayesian法计算出各群体各位点的哑等位基因频率,采用Shannon H统计量给出了群体遗传多样性Hs;各位点的算术平均哑等位基因频率和Hs以及Ht;采用Nei’s G统计量估算出群体遗传分化参数Gst;各位点的加权平均哑等位基因频率和Hs以及在加权平均上获得的Ht和Gst;各位点的全局法哑等位基因频率和Ht以及获得的Gst(算术平均和加权平均);各群体所有位点平均哑等位基因频率和Hs;在算术平均、加权平均和全局法三种条件下,整个群体所有位点的总的Ht,Hs和Gst。
(7)基于Bayesian法,结合Wright’s F统计量给出了各位点哑等位基因频率方差和Fst,所有标记位点的平均Fst。
(8)基于Shannon Information Index(Chalmers等1992),给出了新定义的Z统计量—分子表型遗传分化。计算出各群体各个位点的分子表型频率和群体内分子表型多样性参数Hpop;各位点的算术和加权平均分子表型频率和平均Hpop;整个群体总的分子表型多样性Hsp、群体内分子表型遗传分化参数Zpop和群体间分子表型遗传分化参数Zst;各群体所有位点平均频率和Hpop;在算术平均、加权平均条件下,整个群体所有位点的总的Hsp、Hpop、Zpop和Zst。实例分析结果实例数据来自加拿大Alberta大学群体遗传研究小组提供的8个天然杨树群体的28个RAPD分子标记。根据本项技术重新分析后得出的群体遗传分化参数与平方根法比较结果如下Nei’s G统计量(Gst)群体分化参数 Wright F统计量(Fst)Nei’s H统计量 Shannon H统计量Bayesian法 0.0391 0.0373 0.0386平方根法0.0535 0.0858 0.0589(本表中的结果根据加权平均计算的平均哑等位基因频率)本项技术已经应用于美国国家自然科学基金项目“Iris耐盐天然群体分子进化和分子生态学研究”项目,还将应用于国家海洋863项目“海滨锦葵的分子育种”项目等。
权利要求
1.获得显性分子标记群体遗传多样性和遗传分化参数优化估算的方法根据输入的显性分子遗传标记,采用Zhivotovsky提出的基于Bayesian统计理论新的估算哑等位基因频率的方法和多种统计方法对多种群体遗传统计量进行群体遗传多样性和遗传分化遗传参数进行优化估算,其特征是估算哑等位基因频率的方法是对各位点分别先计算无带总数加“1”的Gamma函数的自然对数加上有带和无带总和加“1.5”的Gamma函数的自然对数,减去无带总数加“0.5”的Gamma函数的自然对数,再减去有带和无带总和加“2”的Gamma函数的自然对数,这个结果的指数即是哑等位基因频率;分别用Nei’s H统计量和Shannon H统计量计算群体内遗传多样性;再经算术、加权和全局三种平均方法计算整个群体的平均哑等位基因频率,再计算整个群体的总的遗传多样性,最后根据Nei’s G统计量计算出各位点的Gst和整个群体平均遗传分化系数Gst;另外用Bayesian法计算出来的哑等位基因频率计算群体间基因频率方差,根据Wright’s F统计量估算出各位点的Fst和所有标记位点的平均Fst。
2.由权利要求1所述的获得显性分子标记群体遗传多样性和遗传分化参数优化估算的方法其特征是用基于Bayesian方法估算哑等位基因频率,采用Nei’sH统计量和Shannon H统计量计算出群体内遗传多样性参数(Hs);各位点的算术平均哑等位基因频率和Hs以及整个群体总的遗传多样性(Ht);采用Nei’s G统计量估算出群体遗传分化参数(Gst);各位点的加权平均哑等位基因频率和Hs以及在加权平均上获得的Ht和Gst;各位点的全局法哑等位基因频率和Ht以及获得的算术平均和加权平均Gst;各群体所有位点平均哑等位基因频率和Hs;在算术平均、加权平均和全局法三种条件下,整个群体所有位点的总的Ht,Hs和Gst。
3.由权利要求2所述的获得显性分子标记群体遗传多样性和遗传分化参数优化估算的方法其特征是采用Wrigh’s F统计量给出了各位点哑等位基因频率方差和Fst,以及所有标记位点的平均Fst;并基于Shannon Information Index新定义的Z统计量,计算出各群体各位点分子表型频率;各位点群体内分子表型多样性Hpop;各位点的算术和加权平均分子表型频率和Hpop;整个群体总的分子表型多样性Hsp;在算术平均、加权平均条件下,整个群体所有位点的群体内分子表型多样性分化参数(Zpop)和群体间分子表型多样性分化参数(Zst)。
全文摘要
获得显性分子标记群体遗传多样性和遗传分化参数优化估算的方法根据输入的显性分子遗传标记,采用Zhivotovsky提出的基于Bayesian统计理论新的估算哑等位基因频率的方法和多种统计方法对多种群体遗传统计量进行群体遗传多样性和遗传分化遗传参数进行优化估算,运用本项方法,可以对动植物以及微生物的显性分子遗传标记数据进行群体遗传多样性和遗传分化等遗传参数进行优化估算,可以降低通过平方根法估算哑等位基因频率来估算群体遗传多样性和遗传分化参数所带来的统计误差。通过本发明计算机程序可以实现上述全部遗传参数的自动分析,大大降低了计算工作量并避免了因手工计算可能带来的计算错误。
文档编号C12Q1/68GK1462805SQ0313191
公开日2003年12月24日 申请日期2003年6月17日 优先权日2003年6月17日
发明者何祯祥, 钦佩, 阮成江, 周军 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1