候选基因的统计确认的制作方法

文档序号:6596283阅读:3094来源:国知局
专利名称:候选基因的统计确认的制作方法
技术领域
本发明涉及植物分子遗传学,特别地涉及用于评估植物种群中遗传标记与表现型之间的关联的方法。
背景技术
发展了多重实验范式以鉴定和分析数量性状基因座OiTL)(参见例如, Jansen (1996) Trends Plant Sci 1 :89)。数量性状基因座(QTL)是基因组的一个区域,该区域对一种或多种蛋白质进行编码并且解释了显著比例的可以受多个基因和环境条件控制的定性性质的一种给定表型的变异性。对于作物种类中的QTL作图的大多数公开报告是基于双亲杂交的使用。典型地,这些范式包括将一个或多个亲本对进行杂交,这一个或多个亲本对可以是例如衍生自两个近交系的单个对、或不同近交品系或系的多个相关的或无关的亲本,它们各自展示出相对于感兴趣的表型性状的不同的特征。典型地,这个实验计划包括从两个分叉的近交系的单个杂交衍生的100至300个分离子代(例如,被选择以最大化系之间的表型和分子标记差异)。对于跨越基因组的一组均勻分布的标记基因座将这些亲代和分离子代进行基因分型并且评价了一个至若干个数量性状(例如抗病性)。然后将QTL 鉴定为在分离子代中基因型值与表型变异性之间的显著统计关联。用于确定标志物是否是遗传连接到一个QTL上(或连接到另一个标志物上) 的众多的统计方法对于本领域的普通技术人员是已知的,并且包括例如标准线性模型如 ANOVA或回归作图(Haley and Knott (1992) Heredity69 :315)、最大相似法如期望最大算法(例如 Lander and Botstein (1989) Genetics 121 :185-199 Jansen (1992) Theor. Appl. Genet. ,85 :252-260 Jansen (1993)Biometrics 49 :227-231 Jansen(1994)In J. W. van Ooijen and J. Jansen(eds. ),Biometrics in Plant breeding !applications of molecular markers, pp.116-124, CPR0-DL0 Metherlands ;Jansen(1996)Genetics 142 305-311 ;以及 Jansen and Stam (1994) Genetics 136 :1447-1455) 示例性的统计方法包括单点标记分析、区间作图(Lander and Botstein(1989)Genetics 121 :185)、复合区间作图、惩罚回归分析、复合谱系分析、MCMC分析、MQM分析(Jansen(1994)Genetics 138 871) ,HAPLO-IM+ 分析、HAPL0-MQM 分析、以及 HAPL0-MQM+ 分析、贝叶斯 MCMC、岭回归(ridge regression)、血源同一分析、以及 Haseman-Elston 回归。联合作图或不平衡作图使用处于种群水平的关联。联合作图是一种用于检测基于连锁不平衡(LD)的基因效应的方法,连锁不平衡被发现于具有多样遗传物质的大量存在的种群(或种质)中。通过检查可以归因于跨越一组多样种质的遗传连锁标记与功能多态性之间的连锁不平衡强度的标志-性状关联,联合作图鉴定了数量性状基因座WTLs)。 在用于分子植物育种的工具的发展中,联合作图补充了 QTL分析。它具有两个主要的优于传统连锁作图方法的优点。首先,不需要系谱或杂交的事实经常使得它更易于收集数据。 其次,由于不相关个体之间共享的单体型的程度反映了经历非常大的数量的世代的重组作用,联合作图相比于连锁作图具有若干数量级的更高的分辨率。发明概述
在此提供了用于评估或确认在植物种群中在候选基因与一种感兴趣的性状之间的关联的方法。在本发明的不同实施方案中,该植物种群包括育种材料,特别是早期育种材料。这些方法包括获得对于一个或多个标记的基因型值并且使该基因型值与感兴趣的性状相关联。可以使用不同的关联模型来评价关联,包括不同的通用线性模型和混合线性模型。使用与植物育种种群的结构相关的统计方法发展了本发明的模型。在一些实施方案中,通过使用主成分分析,在关联模型中说明了种群结构。这种分析可以单独使用或与关联模型中其他说明种群结构的方法结合使用。在某些方面,适合关联模型的主成分的数目是依赖于主成分与感兴趣的性状的相关的。在此进一步提供的是用于在早期育种材料中使用一种基于传送不平衡的方法学的联合作图的一种新颖的统计方法。这种方法可以适用于任何种类并且在发现和确认与感兴趣的表型连锁的标记中是有用的。这个回归模型(定量近交系谱不平衡试验2,或 “QIPDT2”)可以被改进以说明位置效应和/或测试物效应,并且提供了对于所讨论的标记的遗传效应和表型贡献的估计。这个模型可以与主成分分析联合使用以说明种群结构。在此还描述了用于选择适当的植物种群用于关联研究的新颖方法。该方法包括评价在发育的多个阶段跨越多个环境条件的基因型数据和表型数据,并且选择与感兴趣的性状最相关的植物种群。使用本发明的方法所鉴定的标记可以用于标记辅助育种和选择中、作为用于构建遗传连锁图谱的遗传标记以分离在基因编码或非编码DNA序列周围的基因组DNA序列,从而鉴定促成感兴趣的性状的基因,并且用于产生具有所希望的性状的转基因植物。附图简述

图1是用于位置选择的示例性方法的流程图。图2是用于汇编表型数据文件用于关联分析的示例性方法的流程图。图3是用于汇编基因型数据文件用于关联分析的示例性方法的流程图。图4是用于QIPDT2分析的示例性方法的流程图。图5显示了用于七个线性模型的ρ值的累积分布的比较,用于鉴定SNP标记与颗粒产率之间的关联。对角灰色线显示了均勻分布。接近于均勻的分布应当包含较少的假阳性关联。GLM 通用线性模型,MLM 混合线性模型,PC 主成分(principal component),Q 用于亚群的k数目的结构输出,K:亲缘关系矩阵,psh 作为共享的等位基因的比例的亲缘关系,SELECT 根据它们与所分析的性状的相关所选择的PC。图6显示了在完全的、只有测试物的、以及只有位置的模型下对于来自TASSEL、 QIPDTl以及QIPDT2的产量的关联ρ值的结果。在每个曲线图中的均勻线显示了在基因组上无关联的无效假设下的P值。假定数目的关联的标记是基因组上所有标记的非常小的部分,关联P值曲线应该接近于均勻线。大的偏差表明更高的假阳性率。如在曲线图中所示, TASSEL产生了一致地更高的假阳性率,而QIPDTl具有一致地更高的阴性率,但是在这三种中显示出QIPDT2是最好的。图7代表了 QIPDT检验统计量。发明详述概述数量性状基因座(QTL)的位置和效应的估计对于标记辅助选择是最为重要的。迄今,这是通过经典的QTL作图方法来实现的(Lander and Botstein (1989)Genetics 121 185-199)。这些必要的实验要求建立连同大的作图种群的表型和基因型并且因此是非常地成本和时间密集的(Parisseaux andBernardo (2004) Theor Appl Genet 109 :508-514)。这些限制可以通过使用植物育种计划中常规收集的表型和基因型数据应用优异种质中的联合作图法来克服(Jansen et al. (2003)Crop Sci 43 =829-834) 此外,来自联合作图的结果在育种中是直接使用的,因为研究了整个优异种质中存在的等位基因变异。在此描述的是一种发现或确认一种或多种遗传标记与一种感兴趣的表型性状之间的关联的方法。在不同实施方案中,该方法包括用于评价关联的新颖模型,包括用于早期育种材料中的关联分析的QIPDT2模型。这些方法进一步包括通过使用主成分分析用于在关联分析中说明种群结构的新方法,其中使用与感兴趣的性状最显著相关的主成分作为关联模型中的协变量。如在此所使用的,术语“与......关联”与遗传标记(SNP,单体型、插入/缺失、串
联重复,等等)与表型之间的关系有关是指标记频率关于表型的数量范围或质量等级的在统计学上显著的依赖性。当标记与性状连锁并且该标记的存在指示了所希望的性状或性状形式将发生在包含该标记的生物中时,则该标记与该性状“正”相关。当标记与性状连锁并且当该标记的存在指示了所希望的性状或性状形式没有发生在包含该标记的植物中时,则该标记与该性状负相关。出于本发明的目的,术语“标记”是指任何被用来测试与感兴趣的性状相关联的遗传元件,并且不必要地表示该标记是与所感兴趣的性状正相关或负相关。因此,当标记基因型和性状表型相比于如果该标记基因型和性状表型分离地分开更频繁地在一种生物的子代中被一起发现时,则该标记与感兴趣的性状是相关联的。短语 “表型性状”是指生物的外观或其他特征,产生于其基因组与环境的相互作用。术语“表型” 是指一种生物的任何可见的、可检出的或另外地可测量的特性。术语“基因型”是指一种生物的遗传组成。这可以整体考虑,或关于单基因的等位基因(即在给定的基因座)进行考虑。在一些实施方案中,这些标记是在已知的或被猜想有待直接可归因于表型性状的基因或遗传元件之内的(即,“候选基因”)。例如,直接可归因于淀粉累积的遗传元件可以是直接涉及淀粉代谢的基因。可替代地,该标记可以发现于与感兴趣的表型性状相关联的基因座之内。“基因座”是染色体区域,其中一种多态核酸、性状决定簇、基因或标记在这里定位。因此,例如,“基因座”是物种的基因组中的特定的染色体部位,其中可以发现特定的基因。在不同的实施方案中,使用在此披露的这些方法所鉴定的这些标记可以与数量性状基因座(QTL)相关联。术语“数量性状基因座”或“QTL”是指具有至少两个等位基因的多态基因座,该至少两个等位基因有差别地影响表型性状在至少一个遗传背景中(例如在至少一个育种种群或子代中)的表达。在一些方面中,特别有用的分子标记是连锁到或紧密连锁到QTL标记上的那些标记。短语“紧密连锁”在本申请中表示在两个连锁位点之间以等于或小于大约10%的频率 (即在遗传图谱中被分开不大于IOcM)发生重组。换言之,紧密连锁的位点在至少90%的时间共分离。在本发明中,当标记位点证明与所希望的性状共分离(连锁)的显著可能性时,这些标记位点是特别有用的。在一些方面,这些标记可以称为连锁的QTL标记。两个最常用的用于详细分析复杂性状的工具是连锁分析以及联合作图(Rischand Merikangas, Science 1996,273 :1516-1517 ;Mackay, Annu RevGenet 2001,35: 303-339)。连锁分析利用了功能多态性的共享遗传特征以及已知祖先的家族或系谱之内的邻近标记。典型地用衍生自双亲杂交的实验种群来进行植物中的连锁分析。虽然基于与连锁分析相同的遗传重组基本原理,联合作图检查了这个共享的遗传特征用于经常具有未观察到的祖先的个体的收集。由于未观察到的祖先可以延伸数千个世代,在重组的这些多个世代之后,所共享的遗传特征仅对于邻近的基因座持续。实质上,联合作图利用了种群水平的历史和进化重组(Thornsberry et al. (2001)Nat Genet28 :286-289 ;Remington et al. (2001)Proc Natl Acad Sci USA 98 :11479-11484)。在此提供的是用于在早期育种材料中使用基于传递不平衡的方法学的联合作图的一种新颖的统计方法。这种方法在此称为定量近交系谱不平衡试验2 0HPDT2)。QIPDT2 可以适用于任何种类并且在发现并确认与感兴趣的表型连锁的标记中是有用的。在本发明的不同实施方案中,使用在此披露的这些方法所鉴定的标记被用来选择个体(例如植物)并且富集对于具有所希望的性状的个体的种群。通过鉴定显示了与所希望的表型共分离的统计显著的可能性的标记等位基因,人们可以有利地使用分子标记以鉴定所希望的个体。通过鉴定并选择与所希望的表型相关联的标记等位基因(或来自多个标记的所希望的等位基因),通过选择合适的分子标记等位基因,人们能够快速选择所希望的表型。虽然使用植物种群对在此披露的这些方法进行了例证并说明,这些方法同样适用于动物种群,例如人类和非人类动物,如实验动物、家养家畜、伴侣动物,等等。在此披露的这些方法结合了多种统计检验和模型,这些统计检验和模型可能在此没有被明确描述。标准的统计检验的详尽描述可以发现于统计学基础教科书中, 例如 像,Dixon, W. J. et al.,Introduction to Statistical Analysis, New York, McGraw-Hill(1969)或Steel R. G. D. et al. ,Principles andProcedures of Statistics with Special Reference to the Biological Sciences,NewYork,McGraw-Hill(1960)。 还存在多种对于本领域的普通技术人员已知的软件程序用于统计分析。植物种群对于作物种类中的QTL基因作图的大多数公开报告是基于双亲杂交的使用 (Lynch and Walsh(1997)Genetics and Analysis of Quantitative Traits, Sinauer Associates, Sunderland)。典型地,这个实验计划包括从两个分叉的近交系(例如被选择以最大化系之间的表型和分子标记差异)的单次杂交衍生出100至300个分离子代。将分离子代对于多个标记位点进行基因分型并且评估了在多种环境下的一个至多个数量性状。 然后鉴定QTL作为在分离子代中基因型值与表型变异性之间的显著统计关联。在此披露的这些方法有对于发现或确认在任何植物种群中的标记性状关联是有用的。术语“植物种群”或“植物的种群”表示一群植物,例如,从这群植物中取得样品用于评估、和/或从这群植物中选择植物用于育种目的。在本发明的优选实施方案中,该植物种群涉及植物的育种种群。育种种群是植物种群,从该植物种群中选择成员并且使之杂交以在育种计划中产生子代。然而,根据本发明,从其评估这些标记的种群成员不必是与最终选择用于育种以获得子代植物(例如用于后续分析周期的子代植物)的种群成员相同。在本发明的一些情况下,植物种群可以包括亲本植物连同从这些亲本植物衍生的一个或多个子代植物。在一些情况下,植物种群是衍生自单次双亲杂交,例如再两个亲本植物之间的杂交的子代种群。可替代地,植物种群包括衍生自两次或多次杂交的成员,这些杂交涉及相同或不同的亲本植物。该群体可以由重组近交系、回交系、测交系等组成。在本发明的不同实施方案中,该植物种群由早期育种材料组成。对于“早期”育种材料,预期的是这些植物是在F2至F3代。早期育种材料的使用发现的优点是,可供使用的育种材料的数量是大的;表型数据对于育种系是可供使用的;并且基因作图结果可以直接帮助选择。在育种早期,在多个位置测试了多个系。由于早期育种阶段涉及评价从多个杂交衍生的大数量的子代,这些育种材料提供了必要的表型数据用于鉴定并确认对于宽范围性状的标记。因此,通过使用从多个育种杂交衍生出的系以及通过杂种杂交获得的表型数据,本发明克服了对于大数量的单次杂交子代的需要。通过将标记分析集合到现有的育种计划中,可以获得与大数量子代相关联的功效、精度和准确度。此外,本发明考虑到跨越该育种计划而不是限于来自单次杂交的子代的样品有待作出关于标记关联的推论。在本发明的上下文中,术语“杂交的”或“杂交”表示配子通过授粉而从而产生子代(例如细胞、种子或植物)的融合。该术语包括有性杂交(一个植物由另一个授粉)和自交(自花授粉,例如当花粉和胚珠是来自相同的植物时)两者。短语“杂种植物”是指从遗传上相异的个体之间的杂交产生的植物。短语“近交植物”是指从遗传上相关的植物之间的杂交衍生的植物。在本发明的上下文中,术语“系”是指通过自花授粉一种近交植物而衍生的相关植物的家族。术语“子代”是指特定植物(自花授粉的)或植物对(异花授粉的)的后代。这些后代例如可以是F1、F2或任何后续世代。在不同的实施方案中,植物种群包括或组成为从一个或多个近交系与一个或多个测交系之间的杂交产生的种群。短语“测交系”是指这样的系,该系与一组它所杂交的系是无关的或遗传上不同的。在有性杂交中使用测交亲本允许本领域的普通技术人员确定在杂种组合中表型性状与数量性状基因座的表达的关联。短语“杂种组合”是指将一种单个的测交亲本杂交到多个系上的过程。产生此类杂交的目的在于评价该系在杂种子代中产生所希望的表型的能力,通过测交这些杂种子代而衍生自该系。在此披露的这些方法进一步包括在测交系与优异系之间的杂种杂交。“优异系”或 “优异品系”是农艺学上优越的系,它产生于多个育种周期以及对于优越的农艺学性能的选择。相比之下,“外来品系”或“外来种质”是从不属于种质的可获得的优异植物系或品系的植物衍生的品系或种质。众多的优异系是可获得的并且对于植物育种领域的普通技术人员是已知的。“优异种群”是优异个体或系的分类,就给定的作物种类的农艺学优越的基因型而言,它可以用来代表技术状态。类似地,“优异种质”或种质的优异品系是农艺学上优越的种质,典型地衍生自和/或能够产生一种具有优越的农艺学性能的植物。术语“种质”是指个体(例如植物)的或来自个体的遗传物质、一群个体(例如,植物系、种类或家族)、或来自系、种类、种系、或培养物的克隆。种质可以是生物或细胞的一部分,或可以从该生物或细胞中分离。通常,种质提供了具有特定的分子结构的遗传物质,该分子结构提供了对于生物或细胞培养物的一些或所有遗传品质的物理基础。在另一个实施方案中,育种材料的种群由近交植物组成,根据共同亲本将这些近交植物分类成系谱。“系谱结构”定义了后代与产生该后代的每个祖先之间的关系。系谱结构可以跨越一个或多个世代,记述了在后代与其亲代、祖亲代、曾祖亲代等之间的关系。
本发明的方法总体上适用于生物体并且实质上还适用于任何植物种群或种类。优选的植物包括农艺学上和园艺学上重要的种类,包括例如产生可食用的花的作物,例如花椰菜(甘蓝)(cauliflower (Brassica oleracea))、朝鲜蓟(菜蓟) (artichoke (Cynara scolvmus))、以及红花(红花属,例如红花)(saff lower (Carthamus, e. g. tinctorius)) ;/K果,例如苹果(苹果属,例如苹果)(fruits such as apple (Malus, e. g. domesticus))、香蕉(15蕉属,例如小果里予蕉)(banana(Musa, e. g. acuminata))、菜果(例如茶薦子属植物,茶薦子属,例如红醋栗)(berries (such as the currant,Ribes, e. g. rubrum))、樱桃类(例如甜樱桃,李属,例如欧洲甜樱桃)(cherries (such as the sweet cherry, Prunus, e. g. avium))、黄瓜(黄瓜属,例如黄瓜)(cucumber (Cucumis, e. g. sativus))、葡萄(葡萄属,例如葡萄)(grape (Vitis,e. g. vinifera))、柠檬(黎檬) (Iemon(CitrusIimon))JIijl (Cucumis melo)、坚果(例如胡桃,胡桃属,例如胡桃;花生, 落花生)(nuts (such as the walnut, Juglans, e. g. regia ;peanut, Arachishypoaeae))、 橙(柑桔属,例如柚)(orange (Citrus,e. g. maxima))、桃(李属,例如桃)(peach(Prunus, e. g. persica))、梨(梨属(Pyra),例如西洋梨)(pear (Pyra, e. g. communis))、胡椒 (茄属,例如珊瑚樱)(P印per (Solanum, e. g. capsicum))、李子(李属,例如欧洲李) (plum(Prunus, e. g. domestica))、草莓(草莓属,例如廣香草莓)(strawberry (Fragaria, e. g. moschata))、番爺(番属,例如番) (tomato (Lycopersicon, e. g. esculentum));叶类,例如苜蓿(苜蓿属,例如紫苜蓿)(leafs,such as alfalfa(Medicago, e. g. sativa))、 甘蔴(甘蔴属)(sugar cane (Saccharum))、甘蓝(例如 Brassica oleracea)、菊苣(菊苣属,例如菊苣)(endive (Cichoreum, e. g. endivia))、韭(葱属,例如韭葱)(leek (Allium, e. g. porrum))、莴苣(莴苣属,例如莴苣)(lettuce (Lactuca, e. g. sativa))、菠菜(菠菜属,例如菠菜(oleraceae)) (spinach (Spinacia e. g. oleraceae))、烟草(烟草属, 例如烟草)(tobacco (Nicotiana, e. g. tabacum));根类,例如竹芋(竹芋属,例如竹芋)(arrowroot (Maranta, e. g. arundinacea))、舌甘菜(舌甘菜属,例如舌甘菜)(beet (Beta, e. g. vulgaris))、胡萝卜(胡萝卜属,例如里予胡萝卜)(carrot (Daucus, e. g. carota))、 木薯(木薯属,例如木薯)(cassava(Manihot,e. g. esculenta))、芜菁(芸苔属,例如芜青)(turnip (Brassica, e. g. rapa))、萝卜(萝卜属,例如萝卜)(radish (Raphanus, e. g. sativus))、山药(薯截属,例如山药)(yam(Dioscorea, e. g. esculenta))、甘薯 (Ipomoea batatas);种子,例如豆(菜豆属,例如菜豆)((Phaseolus, e. g. vulgaris)) > 豌豆(豌豆属,例如豌显)(pea (Pisum, e. g. sativum))、大显(大显属,例如大显) (soybean(Glycine, e. g. max))、小麦(小麦属,例如普通小麦)(wheat (Triticum, e. g. aestivum))、大麦(大麦属,例如大麦)(barley (Hordeum, e. g. vulgare))、玉米(玉蜀黍属,例如玉蜀黍)(corn (Zea,e. g. mays))、稻(稻属,例如亚洲栽培稻)(rice (Oryza, e. g. sativa));草类,例如芒草(芒属,例如巨芒)(Miscanthus grass (Miscanthus, e. g., giganteus))以及柳枝稷(黍属,例如柳枝稷)(switchgrass (Panicum,e. g. virgatum)); 树,例如白杨(杨属,例如欧洲山杨)(poplar (Populus,e. g. tremula))、松树(松属) (pine (Pinus));灌木,例如棉花(例如陆地棉)(shrubs,such as cotton (e. g. ,Gossypium hirsutum));以及块茎,例如甘蓝(芸苔属,例如甘蓝(oleraceae)) (kohlrabi (Brassica,e. g. oleraceae))、马铃薯(5H属,例如洋芋)(potato (Solanum, e. g. tuberosum))、以及类似物。与任何给定种群相关联的种类可以是转基因种类、非转基因种类种、或任何遗传修饰的种类。可替代地,还可以使用给定的在荒野天然发生的种类的植物产品。植物位置的选择本发明对于植物育种是特别有价值的。通过举例,虽然本发明的方法是特别有用于评价从多个育种位置得到的植物种群中的标记性状关联,可以有利地选择某些位置用于评价所感兴趣的具体性状。在此提供了用于选择植物位置的新颖方法用于标记性状关联研究。这些方法包括从在多种不同环境条件下生长的植物中收集与感兴趣的性状相关的数据。然后根据与这些条件相关的用户定义的数值范围,将这些植物分成几个组。例如,其中温度条件跨越被测试的位置而变化时,这些植物可以分成几个温度范围(例如,A组可以由生长在具有15-20°C的日平均温度的区域内的植物组成,B组可以由生长在具有21-25°C 的日平均温度的区域内的植物组成,C组可以由生长在具有的日平均温度的区域内的植物组成,等等)。用于位置选择的方法的示例性流程图描述于图1中。可以收集对于任何相关的环境条件(例如,总降雨、日照小时、相对湿度、土壤条件、风,等等)的数据。在不同的实施方案中,在植物的多个发育阶段收集与感兴趣的性状相关的数据。使用玉米作为一个非限制性实例,可以在每个幼苗阶段、营养生长阶段、开花阶段、以及籽粒灌浆阶段收集数据。在收集对于位置和发育阶段的所有数据后,对每个植物指定对应于在每个发育阶段的环境条件的评分。例如,如果将以上参考的情景中的植物在幼苗和营养生长阶段暴露于从15°C至20°C的温度,在开花阶段暴露于从21°C至25°C的温度,并且在籽粒灌浆阶段暴露于从15°C至20°C的温度,则这种植物将收到AABA的评分。将认识到的是,任何有关的值、 范围或数值范围可以用来将植物指定到个体组中,并且这些值可以是定量的或定性的。对于标记性状关联,可以根据被评估的性状来选择植物,并且这种选择可以依赖于在某些发育阶段的暴露。例如,如果在幼苗和营养生长期时的耐热性是感兴趣的性状,具有CCAA评分的植物将胜过具有AACC评分的植物而被选择。因此,就标记性状关联而言, 植物的选择是基于该植物的特定发育阶段期间的相对环境条件,并且适当条件的选择是对于研究下的性状进行优化的。这种类型的位置选择的具体优点是,它消除了或补充了对于受控制的实验的需要,这些受控的实验可以是昂贵的并且有时是难以实现的。从生长在具有所希望的测试条件的位置中的植物收集数据实质上模仿了这样一种受控实验。使用多种工具,可以对于一个或多个环境条件收集数据。例如,在种植位置处或种植位置附近的大田站点处的工人可能能够测量实际的环境条件。可替代地,或另外地,可以使用对于种植位置处的或种植位置附近的条件的历史数据。在不同的实施方案中,可以从实际的种植位置、或从种植位置大约1英里、大约2英里、大约3英里、大约4英里、大约5 英里、大约10英里、大约20英里、大约30英里、或更大范围之内的位置收集数据。在又一个实施方案中,可以使用地理信息系统(GIQ技术获得数据。一种GIS是能够获得、储存、分析、并且显示地理参考信息(即,根据位置鉴定的数据)的计算机系统。GIS 的效能来自在空间背景下建立不同信息的的关系并且得出关于这种关系的结论的能力。关于世界的大部分信息包含位置参考,将该信息安置在地球的某一点。例如,当收集降雨信息时,重要的是知道降雨位于何处。这是通过使用位置参考系统(如经度和纬度,并且或许是海拔)来完成的。可以直接被输入GIS中的多数计算机数据库是由联邦、州、部落、以及地方政府、私营公司、学术界、以及非营利机构产生的。处于图谱形式的不同种类的数据可以被输入GIS中。GIS还可以将现有的数字信息(它可能还没有处于图谱形式)转化成它可以识别并使用的形式。例如,可以分析数字卫星图像来产生关于土地使用和土地覆盖的数字信息图谱。同样,普查或水文表列数据可以被转化成图谱样形式并且充当GIS中的主题 fn息层。因此,关于环境条件的信息通过多重基于GIS的资源是可获得的。例如,环境条件可以获自国家气候数据中心(www. ncdc. noaa. gov/oa/ncdc. html),它通过国家海洋和大气机构、以及国家干旱减灾中心(www. drought, unl. edu/)是可获得的。遗传标记虽然编码蛋白质的特异DNA序列跨越种类是相当保守的,其他的DNA区域(典型地是非编码的)趋于累积多态性,并且因此在相同属种的个体之间是可变的。这些区域提供了对于众多分子遗传标记的基础。在此披露的这些方法中,在选择植物种群之后,对于种群中的多个植物获得了对于多个标记的基因型值(参见图幻。该基因型值相应于该遗传标记的定量或定性测量。术语“标记”是指可识别的DNA序列,该序列对于种群内的不同个体是可变的(多态的),并且有助于研究性状或基因的遗传特征。在DNA序列水平的标记可以与对于个体的基因型独特的特定的染色体位置连锁,并且以一种可预测的方式遗传。该遗传标记典型地是DNA序列,该DNA序列在可以在实验室中测量的染色体上具有特定的位置。术语“遗传标记”还可以用于是指例如由基因组序列编码的cDNA和/或 mRNA、连同该基因组序列。为了是有用的,标记必须具有两个或更多个等位基因或变体。标记可以是或者直接的,即,位于所感兴趣的基因或基因座(即候选基因)之内,或间接的, 即,与所感兴趣的基因或基因座紧密连锁(可推测地,由于紧邻于感兴趣的基因或基因座但是没有在其内部的位置)。此外,标记还可以包括或者修饰了或者没修饰基因的氨基酸序列的序列。通常,在子代中分离的任何有差别地遗传的多态性状(包括核酸多态性)都是潜在的标记。术语“多态性”是指在种群中存在两个或更多个等位基因变体。术语“等位基因”或“等位基因的”或“标记变体,,是指在标记或特异的标记序列之内的特定位置处存在的变异;在SNP的情况下,出现的是实际的核苷酸;对于SSR,是重复序列的数目;对于肽序列,出现的是实际的氨基酸;在标记单体型的情况下,是在特异组合中的两个或更多个个体的标记变体的组合。“关联的等位基因”是指在多态基因座处的等位基因,它与所感兴趣的特定表型相关联。此类等位基因变体包括在单个碱基处的序列变异,例如单核苷酸多态性(SNP)。多态性可以是存在于位点处的单个核苷酸的差异,或可以是插入或缺失一个、少数几个或多个连续的核苷酸。将认识到的是,虽然本发明的这些方法最初是通过检测SNP 来例证的,可以类似地使用当前已知的或者此后发展或发现的方法来鉴定其他类型的多态性,这典型地涉及多于一种核苷酸。基因组变异性可以具有任何起因,例如,插入、缺失、复制、重复元件、点突变、重组事件、或转座因子的存在和顺序。该标记可以作为DNA序列多态性来直接测量,如一种单核苷酸多态性(SNP)、限制性片段长度多态性(RFLP)或短串联重复(STR),或间接测量为一种DNA序列变体,如单链构型多态性(SSCP)。标记还可以是处于一种DNA衍生的产品的水平的变体,如RNA多态性/丰度、蛋白多态性或细胞代谢产物多态性,或与基础DNA变体 (underlying DNA variant)或基因产物具有直接关系的任何其他生物学特征。在标记辅助育种方案中经常使用两种类型的标记,称为单序列重复(SSR,也成为微卫星(microsatellite))标记,以及单核苷酸多态性(SNP)标记。术语SSR通常是指导致长度变异性的任何类型的分子异质性,并且最典型地是短的(长达几百个碱基对)DNA区段,该DNA区段由两个或三个碱基对序列的多个串联重复组成。由于差的复制保真性,例如由聚合酶滑脱引起,这些重复序列导致了可变长度的高度多态的DNA区域。SSRs显得是通过基因组随机分散的并且总体上是由保守区域侧翼的。SSR标记还可以得自RNA序列(处于cDNA、部分cDNA或EST的形式)连同基因组物质。在一个实施方案中,该分子标记是一种单核苷酸多态性。发展了不同技术用于检测SNP,包括等位基因特异杂交(ASH;参见,例如,Coryell et al.,(1999) Theor. Appl. Genet. ,98 :690-696)。还可以广泛使用另外类型的分子标记,包括但不局限于表达序列标签(EST)和衍生自EST序列的SSR标记、扩增片段长度多态性(AFLP)、随机扩增多态性 DNA(RAPD)、以及同工酶标记。对于检测这种变异性,宽范围的方案对于本领域的普通技术人员是已知的,并且这些方案对于它们被设计来检测的多态性的类型而言经常是特异的。 例如,可以使用PCR扩增、单链构型多态性(SSCP)以及自动维持序列扩增(3SR;参见Chan and Fox, Reviews in Medical Microbiology 10:185-196)。可以收集用于标记分析的遗传物质(例如DNA或RNA)并且在任何方便的组织(如新植物可以从其生长的细胞、种子或组织)中或植物部位(如可以被培养成整个植物的叶、 茎、花粉、或细胞)中进行筛选。获得了足够数目的细胞以提供足够量的遗传物质用于分析,虽然仅需要最小样本容量,其中评分是通过扩增核酸进行的。可以从细胞样品通过本领域普通技术人员已知的标准核酸分离技术来分离遗传物质。在一个实施方案中,这些基因型值对应于位于一个或多个候选基因之内或附近的 SNP。在另一个实施方案中,这些基因型值对应于对于高密度的全基因组SNP图谱的实质上所有的、或所有SNP所获得的值。这种方法具有的胜过传统方法的优点在于,由于它包括整个基因组,它鉴定了从位于基因组任何处的基因表达的基因组产物的潜在相互作用, 而不要求预先存在关于基因组产物之间的一种可能相互作用的知识。高密度、整个基因组SNP图谱的实例是具有至少大约1个SNP/10,OOOWk至少1个SNP/5001A或大约10个 SNP/5001A、或至少大约25SNP或更多/5001Λ的图谱。标记的密度的定义可以跨越基因组而改变并且是由基因组区域之内的连锁不平衡的程度来确定的。此外,许多遗传标记筛选平台现在是可商购的,并且可以被用来获得对于现存方法的过程所要求的遗传标记数据。在多种情况下,这些平台可以采取遗传标记试验阵列 (微阵列)的形式,它允许成千上万个遗传标记的同时测试。例如,这些阵列可以测试的遗传标记数目是大于1,000、大于1,500、大于2,500、大于5,000、大于10,000、大于15,000、 大于20,000、大于25,000、大于30,000、大于35,000、大于40,000、大于45,000、大于 50,000 或大于 100,000、大于 250,000、大于 500,000、大于 1,000,000、大于 5,000,000、大于10,000, 000或大于15,000, 000。这样一种可商购的产物的实例是那些由AffymetrixInc (www. affymetrix. com)或 Illumina(www. illumina. com)推向市场的。在一个实施方案中,基因型值是从至少2个基因标记获得的。将理解的是,由于这种信息的性质,过滤或预处理数据即数据的质量控制可能是需要的。例如,可以根据特定的标准(例如数据复制或低频率;参见,例如knger et. al (2007)Anim Genet. 38(1) :7-14)来排除标记数据。这样的过滤的实例在以下进行了描述,虽然还可以采用被普通技术人员理解的过滤数据的其他方法来获得工作数据集,在该工作数据集上确定了标记关联。在本发明的一个实施方案中,当特定标记的等位基因频率是小于大约0. 01、或小于大约0. 05时,从分析中排除标记数据。“等位基因频率”是指等位基因存在于个体之内、系之内、或系的种群之内的基因座处的频率(比例或百分比)。例如,对于等位基因“A”,具有基因型“AA”、“Aa”、或“aa”的二倍体个体具有的等位基因频率各自是1. 0,0. 5、或0. 0。人们可以通过将来自系的个体样本的等位基因频率进行平均来估计系之内的等位基因频率。 类似地,人们可以通过将组成种群的系的等位基因频率进行平均来计算系的种群之内的等位基因频率。对于具有有限数目的个体或系的种群,等位基因频率可以表达为包含该等位基因的个体或系(或任何其他特定的组)的计数。在本发明的不同实施方案中,被评价感兴趣的具体性状的标记的集合可以是如上所述的任意标记,或可以是在不同植物种类中已经显示出或被猜想是与感兴趣的性状相关联的标记。对于不同种类的大数量的分子标记在本领域中是已知的并且可以在不同种类中使用在此披露的方法来确认。例如,在玉米中基于候选基因的分子功能和/或性能所鉴定的一组候选基因可以在大豆中进行测试。因此,在此所述的模型对于在不同植物种类中确认这些候选基因的效应是有用的。当评价一组候选标记时,具有无已知关联的普通随机标记(generally random marker)也被包括在该分析之中。感兴趣的性状本发明的这些方法适用于具有基础遗传组分的任何表型,即任何可遗传的性状。 “性状”是生物的特征,它以表型显示了自身,并且涉及一种生物、性能或任何其他可测量的一种或多种特征。性状可以是能在生物样品或组织之中或从生物样品或组织进行量化的任何实体,并且然后它可以被单独使用或与一个或多个其他定量的实体组合使用。“表型”是一种生物的一种外观形态或其他可见的特征并且涉及生物的一种或多种性状。因此,对于感兴趣的种群中的每个个体,对于感兴趣的性状收集了表型值(参见图2)。多种不同的性状可以通过在此披露的方法推论出。表型值对于裸眼或通过本领域中已知的任何其他评价方法(例如显微术、生物化学分析法、基因组分析、对于特定抗病性的测定,等等)是可观察的。在一些情况下,表型是由一个单个的基因或基因座来直接控制的,即一种“单基因性状”。在其他情况下,表型是多个基因的结果。“数量性状基因座”(QTL)是多态的并且影响表型的遗传区域,该表型能够以定量术语来描述,例如高度、重量、油含量、发芽天数、抗病性等等,并且因此可以被指定对应于对于表型性状的数量值的 “表型值”。对于任何性状,“相对高”特征表明高于平均,并且“相对低”特征表明低于平均。例如“相对高的产量”表明对于特定的植物种群比平均产量更丰富的植物产量。相反地,“相对低产量”表明对于特定的植物种群不如平均产量丰富的产量。
在示例性植物育种计划的背景下,定量表型包括产量(例如谷物产量、青贮产量)、胁迫(例如,旺季胁迫(mid-season stress)、终点胁迫、水分胁迫、热胁迫等)抗性、 抗病性、抗虫性、对密度的抗性、核数目、核大小、穗大小、穗数目、荚果数目、每个荚果中种子的数目、成熟度、开花时间、对于开花的热单位、开花天数、根倒伏抗性、茎倒伏抗性、穗高度、籽粒水分含量、测试重量、淀粉含量、籽粒组成、淀粉组成、油组成、蛋白质组成、营养保健品含量,等等。此外,以下的表型值可以与感兴趣的标记相关颜色、大小、形状、皮厚度、果肉密度、色素含量、油沉积、蛋白质含量、酶活性、脂质含量、糖和淀粉含量、叶绿素含量、矿物、盐含量、刺激性、香气和香味以及此类其他特征。对于这些指数中的每一个,对于每个样品,通过确定与样品中的每个项目相关的特征(例如重量)并且然后从分布中测量平均值和标准偏差值来确定参数的分布。类似地,这些方法同样适用于连续可变的性状,例如,谷物产量、高度、油含量、对于胁迫(例如终点胁迫或旺季胁迫)的反应等等,或适用于多类别的计数性状(但是就像它们是连续可变一样可以被分析),例如发芽天数、开花天数或结果天数,并且适用于以不连续的(间断的)或分离的方式分布的性状。然而,应该理解的是,在任何感兴趣的生物之内,可以使用在此描述的这些方法对类似的或其他独特的性状进行表征。除了通过裸眼直接可评价的表型以外,在有或没有一种或多种人工装置或自动装置(包括例如显微镜、秤、尺子、测径器等)的辅助下,还可以使用生物化学和/或分子方法来评价许多表型。例如,可以评定油含量、淀粉含量、蛋白质含量、营养保健品含量、连同它们的成分组成,任选地接着使用一种或多种化学测定法或生物化学测定法进行一个或多个分离或纯化步骤。分子表型,如代谢物谱或表达谱(或者在蛋白质水平亦或在RNA水平) 同样可顺从于根据本发明的这些方法的评价。例如,代谢物谱(无论是小分子代谢物还是由代谢途径产生的大的生物分子)提供了关于农艺学上感兴趣的表型的有价值的信息。此类代谢物谱可以被评价为感兴趣的表型的直接或间接量度。类似地,表达谱可以充当表型的间接量度,或它们本身可以直接充当经受出于标记相关的目的的分析的表型。表达谱经常在RNA表达产物水平进行评估,例如以一种阵列格式,但是同样可以在蛋白质水平使用抗体或其他结合蛋白进行评估。此外,在一些情况下,所希望的是采用一种表型属性之间的数学关系而不是独立于感兴趣的多个表型的相关标记信息。例如,育种计划的最终目标可以是获得在低水(即干旱)条件下产生高产量的作物。而不是独立地将对于产量的标记与对于低水条件的抗性进行关联,可以将在水条件上的产量以及产量的稳定性的数学指示与标记进行相关。这样一种数学指示可以采用以下形式,包括基于来自多个单独性状的加权贡献的统计学衍生的指数值,或变量,该变量是跨越多个环境条件的植物性状反应的作物生长和发育模型或生态生理模型(共同称为作物生长模型)的分量。这些作物生长模型在本领域是已知的并且已经被用来研究对于植物性状的遗传变异的效应以及对于植物性状反应的图谱 QTL0 ^=JiLlilHammer et al. 2002. European Journal ofAgronomy 18 :15-31, Chapman et al. 2003. Agronomy Journal 95:99-113,以及 Reymond et al. 2003. Plant Physiology 131 :664-675的参考文献。关联分析
种群结构在此披露的这些方法对于发现或确认在植物种群中的遗传标记与一种感兴趣的表型性状之间的关联是有用的。这些方法包括应用一个或多个统计模型来检测或确认这种关联,特别在育种种群中。这些方法包括用于评价这种关联(例如QIPDT2)的新颖模型、连同对于现有的用于在关联分析中说明种群结构的方法的改进(例如,通过使用显著关联的原理组分作为联系模型中的协变量)。这些方法对于改进标记鉴定和确认中的准确度和效率是有用的(部分通过降低假阳性结果的数目)。对于关联作图的潜在严重的障碍是被种群结构所混淆。由关联作图所提供的相对高的分辨率是依赖于跨过基因组的连锁不平衡(LD)的结构。连锁不平衡(LD)是在指遗传位点之间的等位基因的非随机关联。多种遗传和非遗传因素,包括重组、漂移、选择、杂交模式、以及混合(即,具有不同等位基因频率的亚群的种群),影响了 LD的结构(Flint-Garcia et al. , AnnuRev Plant Biol 2003,54 :357-374 ;Gaut and Long, Plant Cell 2003,15 1502-1506)。关联作图的关键是在物理连锁的功能位点与标记之间的LD。所熟知的是,种群结构可以引起伪相关,导致了假阳性率的提高(Lander andSchork(1994) Science 265 2037-2048)。关于种群结构所关心的是,LD可以由亚群的混合引起,在统计分析中如果没有正确控制,这导致了假阳性结果(即I类错误)。当在亚群中对于具有平行表型差异的性状测试具有不同频率的随机遗传标记时,出现这种假阳性。在玉米(Liu et al. Genetics 2003,165 :2117-2128 ;Flint-Garcia et al. PlantJ 2005,44 1054-1064)和其他属禾中(Nordborg et al. PLoS Biol 2005,3:el96 ;Garris et al.Genetics 2005,169 1631-1638)中复杂的进化和育种历史无庸置疑地创造了种群结构和复杂家族关系两者。为了降低这种风险,种群结构的估计必须包括在关联分析中。已经设计了不同的统计方法来处理对于不同关联样本的种群结构问题(Yu et al. Nat Genet 2006,38 :203-208)。 在本发明的一个实施方案中,在此披露的这些方法包括用于降低由于种群结构的混淆的手段,这是通过使用基于模型的贝叶斯聚类算法(STRUCTURE)首先将个体分配到亚群中,然后以推论的分配为条件进行所有的分析。参见,例如,Pritchard et al. (2000)Am J Hum Genet 67 170-181,将其通过引用以其全部内容结合在此。在本发明的另一个实施方案中,使用基因组控制(GC)和结构关联(SA)方法着手解决了种群结构。用GC,使用一组随机标记来估计由种群结构产生的检验统计量的膨胀程度,假定这种结构对所有位点具有类似的影响(Devlin and Roeder,Biometrics 1999,55 997-1004)。相比之下,SA分析首先使用了一组随机标记来评价种群结构⑴),并且然后将这个估计结合到进一步的统计分析中(Pritchard and Rosenberg,Am J Hum Genet 1999, 65 :220-228 ;Pritchard et al. Genetics 2000,155 :945-959 ;Falush et al. Genetics 2003,164 :1567-1587) 在此还包括了用逻辑回归变更 SA(Thornsberry et al. NatGenet 2001,28 :286-289 ;Wilson et al. Plant Cell 2004,16 :2719-2733)。这种方法的通用线性模型版本在TASSEL (www. maizegenetics. net)中是可获得的。最近,已经先前发展了一种用于说明多水平相关性的关联作图的统一混合模型方法(Yu et al. Nat Genet 2006,38 =203-208)并且可以用在此处所披露的方法中。在这种方法中,使用随机标记来评价Q和相对亲缘关系矩阵(K),然后将它们拟合在混合模型框架中以测试标记-性状关联。在本发明中,亲缘关系系数被计算为对于每对个体共享的等位基因的比例(共享的Kp)而不是如在^iao et al. (2007)中所述的共享的单体型的比例。 K系数的矩阵可以包括在一些关联模型中以评定对于由于种群中的系的紧密相互关系的伪关联的控制。将对于每个k值的数据ft· (X| K)的对数概率进行作图以选择适当数目的亚群以包括在协方差矩阵中。有待用在关联模型中的亚群的数目能够以经验为主进行测定,或可以使用本领域已知的方法进行计算。例如,几位作者报告了关于STRUCTURE检测亚群的实数(k)的能力(这些亚群的实数组成了数据集)以及得到该k值的途径(Evarmo et al., 2005 ;Camus-Kulandaivelu et al. ,2007) Evanno et al. (2005)提出,Ak(与数据的对数概率的变化的二级率有关的特别量)是该数据集中的聚类的实数的良好预测。一种广泛使用的尺寸减小的方法是主成分分析(PCA),这发现了数据的线性组合, 这样使得方差被最大化。主成分分析(PCA)是一种用于在高维度数据中提取主要关系并且减小数据集以降低用于分析的尺寸的统计方案。通常其操作可以被认为以这样一种方式揭示了数据的内部结构,该方式最好地解释了数据中的方差。当与其他方法对比时,将这种新方法应用在玉米数量性状和人类基因表达数据中导致了改进的I类和II类错误率两者的控制。PCA被算术地定义为一种正交线性变换,它将数据转化到新的坐标系,从而由任何数据投射的最大方差到达并位于第一坐标(称为第一主成分)上,第二最大方差位于第二坐标上,等等。在最小二乘项(least square term)中,PCA理论上是对于给定数据的最优变换。通过保留数据集的那些对其方差贡献最大的特征(通过保持较低级的主成分并且忽略较高级的主成分),PCA可以用于在数据集中维度减小。参见,例如Ralael and Woods Digital imageprocessing. Addison Wessley Publishing Company, 1992。术语"低维空间”是指,对于具有多个变量和未知量的信息数据库、亚组的具有减小数目的变量和未知量的信息数据库。然而,低维数空间保留了实质上所有的信息或实质上所有的信息数据库中的信息之间的关系。PCA采用了安排在多维空间中的复杂相关数据并且将高维度数据还原成更简单的线性化的轴,同时尽可能多地保留了原始变化。样品数据的所有相关成分将形成相关矩阵,其中沿着一个轴(特征矢量)的经转换、标准化的数据的方差是主成分。这些轴对应于在数据的最大变化的方向的最大特征值。可以使用具有类似容量的SMARTPCA软件包或软件来获得PC。通过线性建模的选择可以应用在可获得的大多数统计软件中(例如SAS、JMP、R,S-Plus等)。其他适当的统计软件包从多种公共和商业来源是可获得的,并且对于本领域的普通技术人员是已知的。经典地,使用了利用对应于旋转矩阵的排的特征值方法,为的是选择主成分的数目从而用作关联模型中的协变量。这包括方法如保持具有特征值大于单位值(unity)的主成分、碎石图(Scree plot)、Horn' s程序、回归方法、Bartlett ‘ s检验和分隔线段 (broken-stick)检验(参见,例如 Johnson and ffichern. 1988. Applied Multivariate Analysis. 2d ed. , Englewood Cliffs, NJ :Prentice_Hall ; 以及 Sharma, Applied Multivariate Techniques, Wiley, 1996) 因此,在本发明的一个实施方案中,根据由每个 PC所说明的方差的比例来对PC进行分级,并且在关联模型中使用最高1、2、3、4、5、6、7、8、 9、10个或更多个PC。可替代地,在本发明的另一个实施方案中,在每个PC与感兴趣的表型性状之间计算了统计相关性。根据PC与表型性状的的相关性,将PC排序,从而适配到关联模型中的第一个PC是最与表型性状相关的。在不同的实施方案中,对于表型性状具有在第五百分位数的P值的所有PC被包括在关联模型中。在另一个实施方案中,具有第一、第二、第三、第四、 第五、第六、第七、第八、第九、或第十百分位数的P值的所有PC都被适配到关联模型中。因此,在本发明中,对于由 Patterson et al. (2006 ;PLos Genetics 2:2074-2093)提出的关联作图的模型中,主成分(PC)分析或分子标记数据的特征分析的使用被PC的感兴趣的性状特异性选择增强,这些PC显著促成所观察的感兴趣的性状的变异。这种方法是一种新颖的用于确定有待用于关联模型中的主成分的数目的方法,它与以上描述的PC选择方法是不同的。在选择适当数目的PC的任一方法中,可以将多个PC同时加入到模型中,或可以使用前向逐步回归来建立该模型。在前向逐步回归中,所加入的第k个PC是加入最多信息的 PC,条件是已经适配了先前的(k-Ι)个PC。关联樽型在此披露了用于发现或确认在标记与一种感兴趣的性状之间的统计相关的方法。 可以使用下文中披露的新颖QIPDT2方法来建立相关,或可以使用在此披露的(或总体上本领域已知的)其他统计方法来建立相关,目的是评估标记与表型之间的关联强度,例如确定基因对于表型表达的贡献的大小和/或确定标记与影响感兴趣的表型的基因之间的连锁的邻近。如在此所使用的,术语“连锁”用于描述标记基因座与感兴趣的性状“相关联”的程度。用于进行关联分析的示例性方法描述于图4的流程图中。标记基因座可以与性状关联(连锁),例如,标记基因座可以与感兴趣的性状关联 (当该标记基因座与该性状是处于连锁不平衡时)。例如,分子标记与感兴趣的性状的连锁的程度被测量为该分子标记与该表型的共分离的统计概率。关联作图(通常称为连锁不平衡作图)已经成为一种用来揭示复杂性状的遗传控制的强大工具。关联作图依赖于大数量的世代,以及因此在一个种类的历史中允许去除QTL与任何不紧密连接到其上的标记之间的关联的的重组机会(Jannink and Walsh,2001)。在本发明的不同实施方案中,可以使用一种固定效应模型来评估一种标记性状关联。在该固定效应模型中,使用家族的成员或全部同胞来确定在遗传标记与表型性状之间的关联。如在此所使用的,术语“固定效应”优选是指引起对表型的系统效应的季节性、 空间、地理、环境或管理影响,或是指具有被实验者有意安排的水平的那些效应,或是指一致跨越被评估的种群的基因或标记的效应。Soller & Genizi首先提供了固定效应模型用于使用全同胞和半同胞种群结构来鉴定 QTL(Soller & Genizi,Biometrics 34:47(1978))。使用该模型的关于 QTL 效应和从表型性状与遗传标记之间的关联衍生出的基因组位点的推论对于用于评价的系和子代样本是特异的。这些推论不能延伸到其他家族或子代中,因为固定效应模型不将基因型和表型数据视为来自更大的种群的代表性样本。由于个体家族的成员通常是遗传相关的并且仅代表在育种种群之内所有可能杂交的样本,需要适用于更大的育种种群的模型。因此,使用一种随机效应模型,该标记性状关联可以在相关个体的种群中进行评价。一个随机效应模型不同于固定效应模型之处在于,不存在估计的标记效应。更确切地,估计是由表型变异性的比例组成,这可以归于在这些标记中的变异性。与固定效应模型不同,在未检验的子代中的QTL处,有可能预测对于取样的标记的基因型效应。同样,与固定效应模型不同,可以将预测的表型延伸到在该育种种群中的其他相关家族。对于人类系谱(Goldgar,Am. J. Hum. Genet. 47 :957(1990))中的全同胞和半同胞家族结构以及对于一般远交系种群(Xu & Atchley,Genetics 141 1198 (1995)),已经制备了随机效应模型。然而,随机效应模型不允许测试物效应。因为确切地选择了测试物,它们对于子代的表型的效应是固定的。因此,在本发明的一些实施方案中,得到的模型由混和的随机和固定效应组成。如在此所使用的,术语“混合模型方程”是指用于解决随机效应和固定效应两者的方程的模型。术语随机效应用于表示对于性状具有一种非系统影响的因素,该性状具有可以代表随机分布的水平。随机效应将典型地具有从可能的样本的群体中取样的水平。 合并了固定效应和随机效应两者的线性模型被称为混合线性模型。混合线性模型在本领域中是已知的并且在此处描述的关联分析中是有用的。如在此所使用的,关联模型的输出(它描述了分子标记与表型之间的连锁关系) 被给定为“概率”或“调节的概率”。概率值是统计可能性,即,表型与特定标记等位基因的存在或不存在的特定组合是随机的。因此,该概率评分越低,表型和特定标记共分离的可能性越大。在一些方面,概率评分被认为是“显著的”或“非显著的”。在一些实施方案中,随机分类的概率评分0. 05 (p = 0. 05,或5%的概率)被认为是显著的共分离的指示。然而, 本发明不限于这个特定标准,并且可接受的概率可能是小于50% (p = 0. 5)的任何概率。 例如,一个显著的概率可以是小于0. 25、小于0. 20、小于0. 15、或小于0. 1。示例性的关联模型包括以下这些TASSEL 模型在不同的实施方案中,可以使用基于java的软件TASSEL(通过关联、进化和连锁的性状分析)来测定标记性状关联。参见Yu et al. (2005)NatureGenetics 38:203-208, 通过引用结合在此。TASSEL利用先进的统计方法来最大化统计效能用于发现QTL。这种方法使用一种结构关联方法(Pritchard et al (2000)Am J Human Genet 67:170-181; Thornsberry et al. (2001)NatureGenetics 28 :286-289)和统一混合模型方法两者来最小化假阳性的风险(通过整合种群结构和种群内的家族相关性)。TASSEL允许连锁不平衡统计被计算并且用图形来可视化。连锁不平衡是通过标准化的不平衡系数D'、连同r2和P值来估计的。多样性分析工具同样是可得的,其中多样性估计包括平均成对散度(η )和分离位点。TASSEL的其他特征包括序列比对查看器、从比对中提取SNP和插入缺失(插入&缺失)、邻位相连进化树(neighbor-joining cladogram)、 以及多个数据图形化功能。TASSEL能够将来自不同来源的数据合并到单个的分析数据集中,归因于缺失数据,使用k-最近邻算法(Cover and Hart (1967)Proc IEEE TransInform Theory 13),并且进行主成分分析(PCA)来减少一组相关表型。对于 TASSEL 软件包的开放源代码在 sourceforge. net/projects/tassel 是可获得的。该软件包使用标准 PAL 文库(iubio. bio. indiana. edu/soft/molbio/java/pal/ doc/)、COLT 文库(dsd. lbl. gov/ hoschek/colt/)、以及 jFreeChart (www. jfree. org/ jfreechart/)。数据库访问可以通过GDPC中间件(www.maizegenetics.net/gdpc)来时间实现。对于TASSEL的用户手册可以发现于网址maizegenetics. net/tassel。
TASSEL被设计用于与不相关的样品一起使用并且能够控制中等的至弱的种群结构。种群结构(Q)和/或亲缘关系(K)估计可以被结合到模型中以降低假阳性的数目。还可能由PCA矩阵(特征值)来代替Q (结构)矩阵(Price et al.,2006 ;Zhao et al.,2007)。 在TASSEL中所使用的模型可以是一种通用线性模型或一种结合PCA的混合线性模型,或可以是一种通用线性模型或一种结合PCA和亲缘关系分析的混合线性模型。在TASSEL中的通用线性模型(GLM)程序包括进行排列以找到实验误差率的选项,用于当进行多重比较时校正假阳性的累积。混合线性模型(MLM)程序不包括对于多重试验的校正。在这个模型中, 邦弗朗尼校正可以用来避免假阳性的积累。QIPDT用TASSEL来检测系谱等级是困难的,并且TASSEL对于早期育种材料不是最佳的。 因此,在本发明的一些实施方案中,使用了数量近交系谱不平衡检验0HPDT)。QIPDT是用来自植物育种计划的近交系的对于基于家族的关联作图的检验。参见Mich et al. (2006) Theor Appl Genet 113 :1121-1130 ;通过引用结合在此。QIPDT是一种对于在植物育种计划中常规收集的数据的QTL检测方法。QIPDT是一种可适用于亲本近交系的基因型信息以及它们的后代近交体的基因型和表型信息的基于家族的关联检验。QIPDT延伸了 QPDT,一种基于家族的关联检验。核心家庭由两个亲本近交系所组成并且至少一个后代近交系可以被组合到延伸的系谱中OlIPDT的基础,如果涉及不同核心家庭的亲本系时)。QIPDT还将 Martin et al. (2001) Am J Hum Genet68 :1065-1067中关于系谱不平衡检验的校正考虑在内。QIPDT的一个主要优点是,该方法可以用于来自早期育种阶段(例如阶段2和3) 的材料,并且因此是有成本效益的,因为在这些材料上的表型数据已经出于育种目的而进行了收集。QIPDT是一种检验统计量T,如在Mich et al. 2006中所述对它进行了计算。对于每个标记计算了 T值,并且其ρ值是从标准正态分布找到的。QIPDT2虽然QIPDT对于测试关联的统计显著性是有用的,它并不提供标记效应的大小的估计,也不提供对于总的表型方差的相对遗传贡献。因此,本发明提供了使用回归模型的改进的方法,在此它被称为QIPDT2。QIPDT2是一种新颖的方法,该方法对于编码标记和表型调节采用了与QIPDT所使用的相同的方法,具有两个改进1)回归模型与标记和表型数据适配,这允许了对于所讨论的标记的遗传效应和表型贡献的估计;以及幻将该方法延伸到近交杂种(具有在多个位置生长的不同测试物),同时最初的QIPDT方法仅适用于近交体。 这种延伸是通过提取来自混合模型的近交体的遗传值来实现,这种模型说明了测试物效应以及非遗传效应(例如位置)。对于QIPDT2的模型可以写成yik = iViVik+eJk其中yki是对于系谱k中的个体i的调节的表型值;Xki是编码的标记基因型值; β 0是截距;β !是所讨论的遗传标记的回归系数或遗传效应。用于调节表型值并且编码标记基因型的方法与Mich et al. (2006)所使用的相同。对于双等位基因SNP标记,对于等位基因中的一个采用-1并且对于另一个采用1(假定这两个亲本具有不同的基因型)或采用0(如果这两个亲本具有相同的基因型或该基因型数据对于它们中的一个是缺失的。通过本发明的这个模型,可以获得对于每个标记的遗传效应和R2两者的估计。该模型的决定系数(R2)提供了标记的表型贡献的估计。在一些实施方案中,在对系谱结构进一步调节之前,该表型数据被预调节以排除来自测试物和/或位置的影响。用于预调节的这些方法在本申请的其他地方进行了披露。当在与一组测试物的近交体的杂种上收集表型数据时,将混合模型进行适配以提取近交体的遗传效应。如果在不同的位置进行实验,将一种位置效应加入到该模型中。这将产生以下完全型模型Yijk = μ + θ i+ τ J+ δ k+eiJk,其中yijk是在近交体i和测试物j之间的杂种上在位置k(假定在每个位置重复1 次,如果进行了重复,则更多的效应将被加入)处的原始表型观察。在混合模型中,测试物效应(τ j)被处理为固定效应,并且近交体(θ J和位置效应(δ k)被处理为随机效应。最佳线性无偏预测(BLUP)被用来预测所有近交体的遗传值(Qi),这些遗传值有待被用于计算来自如以上所述的系谱法的偏差。表型调节在本发明的不同实施方案中,在其中评价了标记性状关联的植物种群包括从近交系与测交系之间的杂交产生的杂种种群。然而,对于在近交系上的数据设计了许多统计方法(TASSEL和QIPDT),对于每个系这要求独特的性状值。为了获得可能与其表型比较的对于每个近交系的独特的性状值,有必要作出有助于控制测试物和/或位置的效应的表型调节。还可以在从不同地理位置处生长的植物中获得的数据上进行表型调节。当对于测试物效应和位置效应两者进行调节时,对于表型调节的“完全型模型” 是表型=位置效应(随机)+系效应(随机)+测试物效应(固定的)+误差项如下所示可以将该“依照位置”的模型用于对于位置进行调节表型=系效应(随机)+测试物效应(固定的)+误差项如下所示可以将该“依照测试物”的模型用于与特定测试物杂交的系表型=位置效应(随机)+系效应(随机)+误差项计算机实现的方法用于评估一种标记性状关联的上述这些方法可以完全地或部分地使用计算机程序或计算机实现的方法来进行。这些计算机程序被合适地配置以进行在此所述的操作。本发明的计算机程序或计算机程序产品包括计算机可用介质,该介质具有一种保存在其中的控制逻辑用于引起计算机执行在此所述的这些算法。本发明的计算机系统包括处理器(其操作用于确定、接受、检查、以及显示数据)、连接到所述处理器上的用于存储数据的内存、连接到所述处理器上用于显示数据的显示器、连接到所述处理器上的用于输入外部数据的输入设备;以及一种可由所述处理器执行的具有至少两个操作模式的计算机可读脚本。计算机可读脚本可以是本发明的实施方案的计算机程序或计算机程序产品的控制逻辑。对于本发明不是关键的是,计算机程序以任何特定计算机语言来编写或在计算机系统或操作系统的任何特定类型上进行操作。计算机程序可以被写成例如C++、java、peri、 Pyth0n、Ruby、PaSCal、或Basic程序语言。应当理解的是,人们可以用许多不同的程序语言之一创造这样一种程序。在本发明的一个方面,该程序被编写以在使用Linux操作系统的计算机上运行。在本发明的另一个方面,该程序被编写以在使用MS Windows或MacOS操作系统的计算机上运行。本领域的普通技术人员应当理解的是,根据本发明,只要顺序遵循合乎逻辑的流程,能够以任何顺序或同时地执行这些代码。标记物的下游使用使用在此披露的这些方法鉴定的标记可以用于基于基因组的诊断和选择技术;用于追踪生物的子代;用于确定生物的杂种性;用于鉴定连锁的表型性状、mRNA表达性状、或表型和mRNA表达性状两者的变异;作为遗传标记用于构建遗传连锁图谱;用于鉴定来自杂交的个体子代,其中该子代具有来自亲本供体、受体亲本、或亲本供体和受体亲本两者的所希望的遗传贡献;用于分离编码基因的或非编码DNA序列周围的基因组DNA序列,例如,但不局限于启动子或调节序列;在标记辅助选择、基于图谱的克隆、杂种证明、指纹图谱、基因分型和等位基因特异性标记;并且作为感兴趣的生物中的标记。从植物育种者的观点来看,用于发展分子标记技术的最初动因是通过标记辅助育种来增加育种效率的可能性。在通过上述的统计模型鉴定阳性标记之后,对应的遗传标记等位基因可以被使用来鉴定在多位点处含有所希望的表型的植物,并且将被预期与所希望的表型一起将所希望的基因型转移到其子代。证实了具有所希望的表型性状的连锁不平衡的分子标记等位基因(例如,数量性状基因座,或QTL)提供了用于在植物种群中选择所希望的性状(即标记辅助育种)的有用的工具。“标记基因座”是可以用来追踪第二连锁基因座的存在的基因座,例如编码或贡献于表型性状的表达的连锁基因座。例如,标记基因座可以用来监控在基因座(如QTL)处的等位基因的分离,这些等位基因遗传地或物理地连锁到该标记基因座上。因此,“标记等位基因”可替代地“标记基因座的等位基因”是发现于种群中的标记基因座处的多个多态核苷酸序列之一,它对于该标记基因座是多态的。在一些方面,本发明提供了用于鉴定和确认与感兴趣的表型性状相关的标记基因座的方法。每个鉴定的标记被预期是紧密地物理和遗传邻近于遗传元件(例如促成感兴趣的性状的QTL)的(导致物理和/或遗传连锁)。在展示出优选的表型性状的植物的基因组中,特定遗传标记等位基因的存在和/ 或不存在是通过以上所列出的方法来确定的,例如RFLP、AFLP, SSR、可变序列的扩增、以及 ASH。如果来自植物的核酸与对于所希望的遗传标记特异的探针杂交,该植物可以被自交以创造真正的具有相同基因组的育种系或它可以被渗入到或多个感兴趣的系中。术语“基因渗入”是指遗传基因座处的所希望的等位基因从一个遗传背景传送到另一个遗传背景中。 例如,通过相同属种的两个亲本之间的有性杂交,在一个特定基因座处的所希望的等位基因的基因渗入可以传送到至少一个子代中,其中至少一个亲本在其基因组中具有所希望的等位基因。可替代地,例如,等位基因的传送可以通过两个供体基因组之间的重组而发生, 例如在融合的原生质体中,其中至少一个供体原生质体在其基因组中具有所希望的等位基因。所希望的等位基因可以是例如,标记的经选择的等位基因、QTL、转基因、等等。在任何情况下,包括所希望的等位基因的后代可以重复地与具有所希望的遗传背景的系回交,并且对于所希望的等位基因进行选择,从而导致该等位基因变得在所选择的遗传背景中是固定的。
使用本发明的这些方法所鉴定的标记基因座还可以用来创造分子标记的密度遗传图谱。“遗传图谱”是在给定的种类之内的一个或多个染色体(或连锁群)上的基因座之间的遗传连锁关系的描述,通常以图表或表列形式进行描绘。“遗传图谱”是通过使用遗传标记、用于这些标记的种群的分离、以及重组频率的标准遗传原理来确定基因座的连锁关系的方法。“遗传图谱位置”是相对于相同连锁群上的周围遗传标记的遗传图谱上的位置,其中在给定的种类之内可以发现特定的标记。相比之下,该基因组的物理图谱是指绝对距离(例如,在碱基对中测量的或分离的,并且重叠的相邻遗传片段,例如重叠群)。基因组的物理图谱不考虑在物理图谱上的不同点之间的遗传行为(例如重组频率)。在某些应用中,制造或克隆大的核酸来鉴定更远地连接到给定标记上的核酸,或分离连接到或负责如在此所鉴定的QTL的核酸是有利的。应当理解的是,遗传连接到多态性核苷酸序列上的核酸任选地位于距离该多态性核酸高达约50厘摩,尽管取决于特定染色体区域的交换频率可以改变。距离多态性核苷酸的典型距离是在1-50厘摩的范围内,例如,通常为小于1厘摩、小于约1-5厘摩,约1-5、1、5、10、15、20、25、30、35、40、45或50厘摩、等。制造大的重组RNA以及DNA核酸的多种方法(包括重组质粒、重组λ噬菌体、黏粒、酵母人工染色体(YAC)、Pl人工染色体、细菌人工染色体(BAC)、以及类似物)是已知的。对于作为人工染色体的YAC、BAC、PAC、以及MAC的一般介绍描述于Monaco & Larin, Trends Biotechnol. 12 :280-286 (1994)中。用于制造大的核酸的适当的克隆技术的实例,以及足以指导普通技术人员完成多种克隆操作的说明也可以在例如Sambrook et al., (1989)MolecularCloning :A Laboratory Manual,Cold Spring Harbor Laboratory,Cold SpringHarbor 中找到。此外,在此所述的任何克隆或扩增策略对于产生重叠克隆的重叠群是有用的,由此提供了重叠核酸,这些重叠核酸在遗传连接的核酸的分子水平上显示出物理关系。在全生物测序计划中找到这种策略的通常的实例,在这些测序计划中对重叠克隆进行测序从而提供染色体的整个序列。在这个步骤中,根据所描述的标准步骤(例如,在以上的参考文献中)制造生物的cDNA或基因组DNA的文库。将单独的克隆分离出来并且进行测序,并且对重叠序列信息进行排序从而提供该生物的序列。一旦已经鉴定出与感兴趣的基因的表达显著相关的一个或多个QTL,则还可以将这些位点和连接的标记的每一个进一步表征以确定与感兴趣的基因的表达相关的一个或多个基因(例如,使用基于图谱的克隆方法,这对于本领域的普通技术人员应该是已知的)。例如,可以将一个或多个已知的调节基因进行基因作图以确定这些基因的基因位置是否与控制感兴趣的基因的mRNA表达的QTL相一致。使用本领域的标准技术(例如,但不限于,基因转化、基因互补或基因敲除技术、或过量表达)可以获得以下证实,即这种一致的调节基因正在影响感兴趣的一个或多个基因的表达。还可以通过在本领域中已知的基于图谱的克隆方法(由此定位在QTL的标记被用来通过使用大的插入基因组克隆的重叠群步移到感兴趣的基因处)使用遗传连锁图来分离调节基因(包括任何新的调节基因)。定位克隆是这样一种技术方法,即如Martin等人所述(Martin et al.,1993,Science 262 1432-1436 ;通过引用将其结合在此)可以使用它来分离一种或多种调节基因。“定位基因克隆”使用一种遗传标记的接近来物理定义克隆的染色体片段,该片段被连接到使用在此所述的统计方法而鉴定的QTL上。连接的核酸的克隆具有多种用途,包括作为遗传标记用来在随后的标记辅助育种方案中鉴别连接的QTL以及用于提高在重组植物(其中转基因植物中克隆序列的表达影响所鉴定的性状)中所希望的特性。令人希望地克隆的普通连接序列包括多个开放阅读框(例如,编码核酸或蛋白,这些核酸或蛋白为观察的QTL提供了分子基础)。如果标记接近于开放阅读框,它们可以与给定的DNA克隆进行杂交,由此鉴定出开放阅读框位于其上的克隆。如果侧翼的标记距离更远,可以通过构建重叠克隆的重叠群来鉴定包含开放阅读框的片段。然而,如本领域普通技术人员所知道的, 还可以使用其他适合的方法。而且,通过基因转化以及互补或通过以下描述的敲除技术可以获得以下证实,即这种一致的调节基因正在影响感兴趣的一种或多种基因的表达。当鉴定一种或多种基因负责或促成了感兴趣的性状时,可以产生转基因植物来实现所希望的性状。可以通过育种或通过普通基因工程技术将展示感兴趣的性状的植物并入植物系中。育种的方法和技术在本领域中是已知的。参见例如Wfelsh J. R. ,Fundamentals of Plant Genetics and Breeding, John Wiley & Sons, NY(1981) ;Crop Breeding, Wood D. R. (Ed. ) American Society of Agronomy Madison, Wis. (1983) ;Mayo 0. , The Theory of Plant Breeding, Second Edition, Clarendon Press, Oxford(1987) ;Singh, D. P., Breeding for Resistance to Diseases and Insect Pests,Springer-Verlag,NY(1986); 以及Wricke and Weber, Quantitative Genetics and Selection Plant Breeding,Walter de Gruyter and Co.,Berlin(1986)。相关的技术包括但不限于杂交、近交、回交育种、多系育种、双单倍体近交、品种共混(variety blend)、种间杂交、非整倍体技术,等等。在一些实施方案中,使用植物工程的常规方法来对植物进行基因修饰以获得感兴趣的性状可能是必要的。在这个实例中,可以将一个或多个与感兴趣的性状相关联的核酸序列引入植物中。对于该一种或多种核酸序列,这些植物可以是纯合的或杂合的。这种序列的表达(或者转录和/或翻译)导致了展示感兴趣的性状的植物。用于植物转化的方法在本领域中是熟知的。以下实例是作为说明而并不是作为限制而提供的。 实施例实施例1 选择干旱状态的位置分析方法将生长季期间所收集的天气信息插入生长位置中。使用作物模型来使天气条件与玉米发育阶段同步。通过“钥匙模型”工具来完成这项任务。开发这个模型,以此从远离实际种植位置的位置处所收集到的信息来外推天气信息以及相关的条件。可以使用例如该位置的历史数据来外推相关的信息。使用由这个工具提供的水平衡来定义对于幼苗(SD)、生长(VG)、开花(FL)、以及籽粒灌浆(GF)发育阶段的干旱状态。使用MS Excel将这些水平衡标准化为ζ值。根据某一阶段中干旱情况的ζ值,产生了 4个组(假定水平衡将具有正态分布)。干旱情况“Α”被定义为ζ值大于1 ;干旱情况 “B”将具有1与-1之间的ζ值;干旱情况“C”被定义为ζ值小于-1 ;并且干旱情况“D”被定义为ζ值小于-1. 65。选择具有在干旱条件下的试验与在最佳条件下的对比试验的实验并且然后对相应的条目进行鉴定。
结果对总计144个位置进行鉴定,所有阶段2和3的实验生长在这些位置。然而,102 个位置是非灌溉的并且因此用于本分析。不包括未报告的或无坐标的位置。水平衡的估计使用钥匙模型工具来对土壤水平衡进行估计。为了运行该钥匙模型,有必要获得位置ID、位置坐标、成熟期组、土壤含水量以及种植日期。使用ARCGIS 9. 2来对每个非灌溉位置处的土壤含水量进行估计。对于一些位置(例如USHE、USA0、以及USJA位置)缺少这些变量中的一些。从而,使用这些位置的历史信息,并且当这种信息不能得到时,使用从最近的可能的位置可获得的信息。此外,该模型包括对于第一个150cm的土壤剖面的土壤有效含水量(AWC)的信息。AWC取决于土壤剖面的属性,例如土壤质地、土壤结构以及土壤有机质。作物的水平衡可以被AWC显著地影响。例如,如果具有相同的降水量以及相同的大气需水量的两个不同位置在AWC方面不同,则它们在水平衡方面可以显著不同。如果位置具有非常多沙的土壤剖面(具有低AWC),与土壤剖面中具有更少砂质的位置相比,它变得更快地缺水 (waterstressed)。可以在 geostac. tamu. edu 的 NRCS STATGO 土壤数据库得到该第一个 150cm的土壤剖面的AWC。使用新的AWC信息来修改并且运行该钥匙模型,假定土壤剖面处于种植的田间持水量。该钥匙模型对处于幼苗、生长、开花以及籽粒灌浆发育阶段的每个位置的水平衡进行了估计。基于水平衡的位置选择基于水平衡来选择位置的标准与最初提出的(参考分析方法)是不同的。最初提出的模型是一种基于平均值和标准差估计的参数方法。它假定水平衡的分布是正态的。尽管如此,观察的水平衡具有非正态分布,因为它们在低值是不对称的并且是尖峰的。因此该平均值小于中位数。这个偏移影响了该方法对位置进行分类的有效性并且可以对处于干旱下位置的数量造成低估。为了克服这个问题,使用了一种基于十分位数的非参数方法。这个方法不需要对平均数以及标准差进行估计。它是基于水平衡的实际频率。已经使用类似的方法来定义澳大利亚的干旱情况(Gibbs and Maher,1967)。在这个实例中,将对于开花或籽粒灌浆阶段该第一个百分之十五的最负水平衡归类为“严重干旱”。类似地,将对于这些阶段在百分之十五至百分之三十之间的负平衡的位置归类为具有“中等干旱”的位置。该分析显示存在16个具有水平衡的位置,这些水平衡在对于开花或籽粒灌浆发育阶段之一的最低的百分之十五之内。选定位置的确认使用干旱指示物来证实这些干旱胁迫位置。修改的帕默尔干旱指数(MPDSI)考虑了以前的土壤条件并且表现出长期波动。相比之下,水分距平指数(MAI)关注降水异常并且表现出短期波动。通过NOAA下的国家气候数据中心(NCDC)对两个指数进行了估计。此外,用由国家干旱减灾中心(NDMC)提出的2006个干旱图确认了多个位置。该位置列表被大田站点管理员(field Station Manager)进一步证实并且作为结果
存在最初被认为是处于温和胁迫(该温和胁迫被更新为严重胁迫)下的多个位置。存在最初被认为是严重胁迫位置(这些位置没有被确认)的多个位置。因此,将它们排除在外。在给定的水平衡分析,干旱指数、以及站点管理员反馈下,使用14个位置进行分析。实验、试验以及条目鉴定在9个位置中存在阶段2试验并且在12个位置中存在阶段3试验。存在具有476 个试验的296个阶段3实验。结论贯穿该生长季对多个位置的干旱状态进行了评估以形成对干旱的描述。选择在该季节的最重要时刻具有所希望的干旱严重性的位置。使用现有的阶段2和3的产量数据对存在于这些位置中的条目进行鉴定以证实候选基因与干旱条件下优良育种材料的产量之间的关联。该分析鉴定了 14个位置、440个以及14059个条目。参考文献WJ Gibbs, JV Maher. Rainfall deciles as drought indicators. Bureau of Meteorology Bulletin No. 48, Commonwealth of Australia, Melbourne,1967.实施例2 :使用主成分的基于性状的选择作为线性模型的协变量用于联合作图的步骤la)从设计的田间试验来获得表型数据或lb)从育种试验来获得机会表型数据。2)表型数据的质量控制。避免具有高百分比的缺失数据的位置(例如,缺失数据 >20%)。将异常值去除。3)通过线性模型进行表型调节。如果是杂交体的数据,应当将试验仪的作用考虑在这些模型中。如果是多个位置的近交或杂交数据,应当将位置的作用考虑在这些模型中, 或可以分开地对不同的位置进行分析。重复是令人希望的以增加对条目的作用以及方差分量的估计的准确性。4)表型输入文件的制备。表型输入文件应当包含对于有待分析的每种性状的条目的效应的估计(例如,最小二乘法或最佳线性无偏预测(BLUP))。5)获得近交体条目或亲本近交体的种子用于有待植入温室的杂交体来发芽以及组织采样。6) DNA 提取。7)选择基因分型平台以及分子标记。不同的选项包括例如候选SNP测定的基于荧光探针的基因分型、基于珠粒的SNP阵列、高通量重测序、等。8)基因型数据的质量控制。应当将具有高百分比的缺失数据的标记物(例如,缺失数据>15%)去除或重复。9)制备基因型输入文件。每个近交条目应当具有用于每个筛选的分子标记的值 (例如,用于SNP标记的A、T、C或G)。应当将杂合数据作为缺失数据进行处理。
10)制备注释文件。相关文件的最小部件是标记的名字,它位于其中的染色体以及在共有的基因图或物理图中的位置。另外的信息可以是该标记是否位于编码区、基因的功能、代谢途径、等。11)用于标记的主成分分析。应当从基因型输入文件中提取出对于近交条目(例如,约1000个SNP标记)可用的的所有基因型标记的样品并且将其格式化以用于所希望的统计分析程序中。应当从注释文件中提取出用于标记的图信息。输出文件可以包括矩阵, 该矩阵具有希望数量的特征值的特征向量或对于这些近交条目的每一个的主成分。这个文件被称为PCA文件。12)使用近交输入项名字,应当将表型输入文件和PCA文件合并成单一的文件,在该文件中每个条目(行)必须具有一系列的列,这些列中的一些可以是表型或性状,并且其余的可以是特征向量。这个合并的文件必须被格式化以被能够分析混合线性模型、方差的分析、和/或皮尔逊相关的统计软件(例如,R、JMP、SAS、SPSS、S-Plus、等)读取。13)主成分的基于性状的选择。应当分开地分析每个表型或性状。这种分析的目标是用于鉴定所有主成分或特征值中的哪一个与该性状是显著相关的。13a)用每个主成分来计算每个性状的皮尔逊成对相关。检验相关系数的显著性并且鉴定该显著性P值(例如,P值< 0. 05)。13b)运行用于每个主成分的方差测试分析将其作为在表型的性状中观察到的方差变化的来源。鉴定F检验的显著性ρ值(例如,ρ值< 0. 05)。13c)对于每个性状运行线性模型。该性状可以是因变量并且这些主成分是预测变量。可以将这些预测变量合并到该模型中起固定或随机效应。如果该模型被认为是随机的,则该模型是一种混合线性模型。鉴定每个预测变量的检验的显著性P值(例如,P值
<0. 05)。14)从PCA文件中去除非显著性主成分或特征值。现在这个文件被称为选定的PCA 输入文件。15)对亲缘关系系数或加性关系矩阵进行估计。存在一些可供使用的分析选项例如SPAGeDi和TASSEL。应当从该基因型输入文件中提取出对于近交条目(例如,约1000个 SNP标记)可用的所有基因型标记的样品。这个文件应当被格式化以被SPAGeDi或TASSEL 读取。该输出文件是具有亲缘关系系数的方阵。这个文件将被称为亲缘关系矩阵文件。16)选择用于联合作图或连锁不平衡分析的软件。对于联合作图分析存在几个选项,例如 TASSEL、R、Helix Tree、SAS、ASREML、MTDFREML。TASSEL 是公开可获得的软件并且是用于在植物中进行联合作图的最流行的软件之一。17)应当将表型输入文件、基因型数据输入文件、选定的PCA文件、以及亲缘矩阵文件格式化以被TASSEL读取。18) 一旦这些文件进入TASSEL,通过运行通用线性模型来启动分析,在该通用线性模型中表型或性状是因变量,分子标记(例如,SNP)是预测固定变量,并且选定的主成分或特征值是用于调节种群结构的余因子。可以要求TASSEL来计算每个标记的实验性ρ 值,该P值校正F检验的ρ值以避免由于多重检验造成的假阳性。根据(例如,实验性ρ值
<0. 05)来确定实验性ρ值的阈值用来鉴定显著性标记性状关联。19)除了线性模型,将表型或性状考虑为因变量,将分子标记(例如,SNP)作为预测固定变量,将选定的主成分或特征值作为用于调节种群结构的余因子,并且将亲缘关系矩阵或加性关系矩阵作为帮助进一步精化这些近交条目的种群结构关系的随机项的分量来进行后验分析。由于将随机项结合到该模型中,这变成了混合线性模型。使用P值的邦佛伦尼校正可以对每个标记的P值进行校正以避免由于多重检验造成的假阳性。对校正的 P值的阈值进行定义并且对显著性标记性状关联进行鉴定。实施例3 与在玉米中的乙醇生产相关的性状的联合作图背景标记辅助选择(MAS)已经成为在育种中的一种通常的实践。然而,MAS的效率取决于检测紧密地连接到QTL上的标记的精确度。在检测QTL中联合作图已经被广泛用作连锁作图的替代方案。这种方法是基于连锁的基因座之间的连锁不平衡(LD)。由于LD通常仅存在于显著地更窄的染色体区域中,能够以比连锁作图高得多的分辨率来对QTL作图。 然而,LD可能出现在未连锁基因座之间,这是不希望的,并且可能由种群结构以及基因分型误差等引起假LD。其结果是,为了可靠地检测到在封闭连锁基因座之间的真LD,需要复杂的统计方法来将不同种类的假阳性降至最低。TASSEL是可以实现这个目的的软件包之一。 TASSEL是基于混合线性模型,在这些模型中种群结构与遗传相关被明确地控制。这个包被用于在这个报告中的具有乙醇数据的关联分析。方法和结果表型数据提供了具有近交系的表型信息的两组数据(1765个条目)。可用于分析的性状是淀粉、蛋白、油、含水量、密度、干磨标准(DGQ-24、DGS-48、W&DGS-72。与预期的一样,在淀粉与DGS性状之间存在着正的并且显著的相关。在蛋白和淀粉与DGS性状之间存在着负相关。基因型数据 基于荧光探针的SNP (TaqMan )在2052个近交系中对总计496个TaqMan SNP进行评分,这些近交系被包括在相关平台列表中。将这些SNP用于关联以及种群结构分析。基于珠粒的高通量SNP (Illumina GoldenGate )将包括1536个SNP的Goldenfeite阵列用于基因型485近交系中。在去除低质量的数据以及无信息SNP之后,选择了 1158个SNP用于分析。亲缘关系分析亲缘关系被计算为共享的等位基因的比例。使用496个Taqman SNP测定的基因型数据来进行亲缘关系分析。PCA 分析主成分分析(PCA)或“特征值分析”已经被提出作为Mructure的替代物以从基因型数据中推断出种群结构(Patterson et al.,2006)。PCA比Structure具有一些优点,例如对于大数据集的处理速度并且避免了选择特定数量的亚种群的需要。使用来自 GoldenGate阵列的数据使用软件SMARTPCA (它是EIGENSTRAT的一部分)来进行PCA。第一个三个PC(根据特征值列出)以与基于历史的杂优类群分组类似的方式将这些近交系分类。对于这些系的每一个,该第一 50个特征值中选择的PC以及它们相应的特征向量被用作TASSEL的关联模型的另一个协变量系列。基于与感兴趣的性状的关联选择PC在基于线性模型的联合作图中利用PC作为协变量是依赖于以下假定,即第一 PC是最好的协变量,因为它们解释了用标记发现的遗传变异中的大多数(Zhao et al., 2007)。然而,在模型中具有最大方差的PC不必是最好的协变量,因为较小的PC可能是与感兴趣的性状高度相关的(Aguilera et al.,2006)。使用GLM和MLM两者用来评定这些 50个PC中每一个的显著性并且用来估计由它们解释的变化的百分比。PC与表型之间的相关取决于性状并且有时大的PC(即,具有较大特征值的PC)不能解释多数的这样的变化,而较小的PC( S卩,具有较小特征值的PC)解释了某些性状的变化的相当大的百分比。使用TASSEL进行联合分析■ ψ java 白勺 ^K # TASSEL (Trait Analysis by association, Evolution andLinkage)结合了线性模型(通用的和混合的两者)方法以在控制种群和家族结构的同时建立标记与表型之间的关联(Bradbury et al.,2007)。可以将种群结构(Q)和/或亲缘性(K)估计结合到这些模型中以降低假阳性的数量。还可能用PCA矩阵(特征值)来替换 Q(Structure)矩阵(Price et al.,2006 ;Zhaoet al.,2007)。TASSEL中的联合模型用于TASSEL中的这些模型包括1)通用线性模型表型=标记+选定的PC(特征值);以及2)混合线性模型表型=标记+选定的PC(特征值)+K(ρ共享的)“选定的PC”是这样的PC,该PC是基于它与感兴趣的性状的关联而选定的。多重检验的调节TASSEL中的GLM程序包括执行排列以发现实验误差率的选项,当进行多重比较时该误差率校正了假阳性的积累。使用总计1,000个排列。MLM程序不包括对于多重检验的校正。使用软件QVALUE (Morey,2002)来计算q值以控制假发现率(FDR)。q值与ρ值是类似的,因为它们以某一误差率的方式为每个假设检验给出显著性的测量值。对于将显著性的测量值指定到许多同时完成的检验的每一个而言,这些q值是有用的。 在近交平台中的联合结果对于1732个系可以得到表型数据,这些系具有Taqman 496SNP集中的标记信息。 使用混合线性模型来检测标记在相当大的尺寸(> 1000)的数据集中的性状关联被要求的用来分析该模型的亲缘关系分量的计算时间限制。作为一个替代方案,对通用线性模型进行精化以在尽可能不需要亲缘关系矩阵下校正种群结构。几种GL模型之间的比较(图5)显示,基于性状显著性选择PC有助于降低对于显著性的偏差。该比较还显示,如果接受亚种群的真实数量作为具有数据ft~(x/K)的最高对数概率的k或k= 10亚种群,则这些结果对于显著性是不对称的。当使用k = 5作为亚种群的数量时(这更好地符合历史杂种优势类群的期望数量)观察到类似的结果。在线性模型中选择显著性PC作为协变量有助于控制ρ值的分布(S卩,避免大量的假阳性)。然而,在不同的性状之间观察到变化。使用显著相关的PC作为协变量在GLM中总计85个SNP显示了实验性ρ值(ρ<0.05)。具有最多显著性标记性状关联(MTA)的性状是油以及蛋白质(具有13种)并且具有最少显著性关联的性状是含水量(具有7种)。具有显著性ρ值(实验性ρ值< 5% ) 的85个中有总计15个SNP显示与以上性状关联。在近交板(panel)中的联合结果对于576个近交系可以得到表型数据,这些近交系具有来自16M个SNP的基因型信息。除了大量的SNP数据之外,与近交平台相比较近交板的减小的尺寸允许降低混合线性模型的运行时间。在线性模型中选择显著性PC作为协变量有助于控制ρ值的分布(S卩,避免大量的假阳性)。将亲缘关系矩阵作为加性关系矩阵包括在混合模型中有助于将假阳性率降低到预期水平并且有助于提高这些模型的R2。在GL和ML模型中显示最显著的ρ值的这些SNP是一致的。在GLM中总计122个 SNP显示了实验性ρ值ρ < 0. 05。在MLM中所有122个SNP显示个体ρ值ρ < 0.05。这表明甚至在包括亲缘关系矩阵以控制近交系之间的另外的遗传相关性之后,标记性状关联仍然是显著的。具有最多显著性标记性状关联(MTA)的性状是油(具有对种)并且具有最少的关联是蛋白质(具有10种)。具有显著性ρ值(实验性ρ值< 5% )的122个中有总计9个SNP显示与一个以上性状关联。当对于496个TaqMan SNP比较近交板与近交平台之间的结果时,在两个数据集中有十个(10)基因座显示实验性ρ值ρ < 0. 05。参考文献Aguilera, A.M. , Μ. Escabias, and Μ. J. Valderrama. 2006. Using principal components for estimating logistic regression with high-dimensional mu1tico11inear data.Computational Statistics & Data Analysis 50: 1905-1924. Bradbury, P. J. , Z. Zhang, D. E. Kroon, Τ. M. Casstevens, Y. Ram-doss, and E.S.Buckler. 2007. TASSEL Software for Association Mapping of Complex Traits in Diverse Samples, pp. btm308.Loiselle, B. A. , V. L. Sork, J. Nason, and C. Graham. 1995. Spatial genetic structure of a tropical understory shrub, Psychotria officinalis (Rubiaceae). American Journal of Botany 82 :1420-1425.Patterson, N. , A.L.Price, and D. Reich. 2006. Population Structure and Eigenanalysis. PLoS Genetics 2 :el90.Price, A. L. , N. J. Patterson, R. M. Plenge, M. E. ffeinblatt, N. A. Shadick, and D. Reich. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38 :904-909.Ritland, K. 1996. Estimators for pairwise relatedness and individual inbreeding coefficients. Genet. Res. 67 175-186.Storey, J. D. 2002. A direct approach to false discovery rates.Journal of the Royal Statistical Society :Series B 64 :479-498.Yu, J. , Z. Zhang, D. A. Abanao, G. Pressoir, T. M. R. , S. Kresovich, R. J. Todhunter, and E. S. Buckler.2007.Relatedness estimation with different numbers ofbackground markers and association mapping with different sample sizes..Theor Appl Genet In press.Zhao,K.,Μ. a. J. Aranzana,S. Kim, C. Lister,C. Shindo,C. Tang, C. Toomajian, H. Zheng,C. Dean,P. Marjoram,and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.Zheng, C. Dean, P. Marjoram, and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.实施例4 :通过用2005个阶段2的数据联合作图来确认产量候选基因目标这种用于增加玉米产量的方法包括鉴定以及使用与产量以及产量分量相关的在候选基因或基因座方面的天然变异。鉴定并且确认与产量相关的基因对于下游标记辅助育种的成功和高效是决定性的。本实验的目标是基于在与具有玉米育种阶段2-3数据的玉米同源的其他种属中它们的分子功能以及表型作用来确认选定的产量候选基因集的遗传效应。背景遗传变异性是获得遗传增益的重要的必要条件。与更宽的遗传种群体(即,外来种质)中的情况相比,鉴定优异种质中的遗传变异性是更困难的,但是它是保留育种种质的优异特征(即,维持高级特征)以及保持杂优类群的个性特征的一种适当的方法 (Rasmusson and Phillips, 1997 ;Yu andBernardo,2004)。因此,从优异种质中鉴定的遗传变异将容易得多地被引入我们的新产品中。已将鉴定了一组候选基因。这些基因理论上具有与产量以及产量分量相关的分子功能和/或在其他种属中展示的这类表型效应。然而, 在玉米中这些基因的实际效应,以及它们是否与玉米的经济性状相关,是未知的。在此尝试的该确认是1)对这些候选基因与在高产条件下所评估的性状的遗传关联进行评定;幻证实对于优异种质(该优异种质在性状方面具有显著效应)的核心中的候选基因存在不同的等位基因效应。表型数据育种者在多个位置在育种过程的不同阶段对玉米杂交体进行评估从而对产量以及其他农艺性状进行评定。已经对于用于本实验中的材料收集了表型数据。在这个分析中, 对三个性状进行了评估产量(在标准含水量下的谷物产量,% ),含水量(在收获时的谷物含水量),以及重量(每块地的谷物重量)。表型数据的评估对于产量、含水量以及重量而言跨位置以及测试物的系的杂交体的表型数据的平均值对应地为201. 68蒲式尔/英亩、18. 95%以及25. 29蒲式尔/每块地。选定的试验的表型数据包括在生长季节期间来自69个位置的信息。在这些位置的观察数量在从1至725 的范围内变动。在与33个不同的近交测试物进行杂交时,对总计890个近交体进行了评估。 跨越所有的位置与特定测试物杂交的近交系的观察数量在从4至2167的范围内变动。设定最小值为约300次观察的经验性阈值从而选择其中每个子集与特定测试物杂交的10个系子集以及其中在特定的位置对每个子集进行评估的10个系子集。表型调节为了获得对于每个近交系的独特性状值(该值可以与其基因型相比较),有必要进行表型调节(该调节有助于控制测试物和/或位置的效应)。没有考虑额外的因素(例如,成熟期组)以避免自由度或子集样品大小的进一步降低。为了进行表型调节,在两个不同的统计包(SAS/JMP和R)中执行混合线性模型分析,这旨在证实用于大数据集的混合模型方法已经被正确执行。因为两个软件给出非常接近的结果,将SAS/JMP结果用于下游数据分析。“完全型模型”分析包括如下所示的在该模型中的位置和测试物两者的效应表型=位置效应(随机)+系效应(随机)+测试物效应(固定的)+误差项。如下所示将“依照位置”的模型用于这10个选定的位置中的每一个表型=系效应(随机)+测试物效应(固定的)+误差项。如下所示将“依照测试物”的模型用于这10个选定的系子集(这些系与特定测试物杂交)中的每一个表型=位置效应(随机)+系效应(随机)+误差项。对每个性状的21个模型(1个完全型模型,10个依照位置的模型以及10个依照测试物的模型)的会聚、协方差估计值的估计、固定效应的显著性等进行评估。使用系效应的 BLUP作为调节的基因型。在一些情况下,所提出的混合模型没有会聚或由于缺乏重复而在系效应的估计方面有问题。对于这些情况,从模型中去除系效应并且使用残差(residual) 作为粗糙的方法来获得系效应(随后在关联分析中获得另外的重复,在关联分析中每个双等位基因基因座被表示为每个组的近交系的总数)。调节的表型从会聚的混合模型中获得用于系随机效应的解决方案(最佳线性无偏预测, BLUP)。对于没有会聚的这些模型,获得了残差。基因型数据还对总计890个系(在选定的试验的任何一个中收集了它们的表型数据)进行了基因分型。在近交系中对相应于17个候选基因的总计61个SNP进行评分。在消除单态性测定以及具有小于0. 01的等位基因频率的SNP之后,在TASSEL中对46个候选SNP的关联进行了测试。用于关联分析的方法学联合作图(通常称为连锁不平衡作图)已经成为揭示复杂性状的遗传控制的有力工具。联合作图依赖于大量的世代、以及因此在种属的历史中允许去除QTL与没有紧密地连接到其上的任何标记之间的关联的重组机会(Jannink and Jansen(2001)Genetics 157(1) :445- )。在联合作图分析中最重要的步骤之一是控制可能引起标记与表型之间的假相关并且因此增加了假阳性率的种群结构。a)亲缘关系分析在TASSEL中进行的方法将亲缘关系矩阵用于混合模型方法(该方法用于控制系之间的遗传相关)中。在299个随机SNP测定上使用基因型数据来进行亲缘关系分析。亲缘关系系数被定义为每对个体的共享的等位基因的比例(Kp共享的)。跑⑽等人使用共享的单倍型的比例作为它们的亲缘关系系数。在TASSEL中对于某些关联模型包括了 K系数的矩阵,用来对由于板中多个系的紧密相互关系造成的假关联的控制进行评估。b)种群结构分析
使用299个随机SNP测定的基因型数据来进行结构分析。使用软件STRUCTURE来进行模拟。使用了连锁模型(该模型结合了种群混合以及标记之间的连锁)。使用50000 次随后进行50000次MCMC重复的不作数迭代(burnin period)来确定范围从k = 1至15 个亚种群的种群结构的相似性。对于每个数值k重复4次运行。将估计的对于每个数值k 的数据的对数概率ft· (X|K)作图从而选择适当数量的亚种群以包括在该协方差矩阵中。确定的k的概率随着测试的k的数量一起增加直到它达到k = 6,并且然后开始下降。在这一点处,达成一致的是使用k = 6作为用于关联分析的亚种群的数量。使用推断出的世系表 (该表包含促成各近交体的世系的各亚种群的分数)作为该关联测试模型中的一系列的协变量。c)主成分分析主成分分析(PCA)或“特征分析”已经被提出作为STRUCTURE的替代以从基因型数据中推断出种群结构。PCA具有胜过STRUCTURE的一些优点,例如在短得多的时间期间处理大的数据集的能力,并且避免选择特定数量的亚种群的需要。使用软件SMARTPCA(它是 EIGENSTRAT的一部分)来进行PCA。对于这些种系的每一个使用10个特征向量以及它们相应的特征值作为TASSEL的关联模型的另一个协变量数列。TASSEL基于 java 的软件 TASSEL (Trait Analysis by association, Evolution andLinkage)结合了线性模型(通用的和混合的两者)方法以在控制种群和家族结构的同时建立标记与表型之间的关联(Bradbury et al.,2007)。可以将种群结构(Q)和/或亲缘性关系(K)估计结合到这些模型中以降低假阳性的数量。还可能用PCA矩阵(特征值)来替换 Q (STRUCTURE)矩阵(Price et al.,2006 ;Zhao et al. ,2007) TASSEL中的关联模型可以在TASSEL中执行不同的通用线性模型(GLM)和混合线性模型(MLM)。对于跨越多个位置以及测试物进行调节的产量以及含水量的表型,运行6个模型并且进行将其比较(在TASSEL中对于GWTPN没有进行分析)。对于依照位置以及依照测试物的所有的子集,使用独特的模型表型=标记+K (ρ共享的广TASSEL中的GLM程序包括执行排列以发现实验误差率的选项,当进行多重比较时该误差率校正了假阳性的积累。总计10,000个排列用于产量数据。MLM程序不包括对多重测试的校正。使用邦弗朗尼校正作为一种后验性校正以避免假阳性的积累。结果-TASSEL的关联模型产量完全型模型使用几种GL和ML模型来评定产量与候选SNP测定的关联。SNP标记显示出与产量的关联,SNP标记与产量二者在三个ML模型中在邦弗朗尼校正(校正α =5%)之后都是显著的,并且在三个GL模型中具有实验性ρ值< 0. 05是显著的。在相同的标准下,在6 个模型中的4个中有3个SNP (在两个模型中有两个,并且仅仅在一个模型中有7个)显示出显著性,。不同位置的产量还使用“依照位置”的模型来评定产量与候选SNP测定的关联。用于调节产量的该模型对于来自位置4400的数据没有会聚并且使用残差作为粗糙的方法来获得系效应。在 ML模型中在邦弗朗尼校正(校正α = 5% )之后在两个位置中有4个SNP测定显示出与产量显著关联。在这些位置中的仅有一个有9个以上的SNP测定显示出显著性。不同测试物的产量还使用“依照测试物”的模型来评定产量与候选SNP测定的关联。在ML模型中在邦弗朗尼校正(校正α =5%)之后在两个测试物中有2个SNP测定显示出与产量显著关联。在这些测试物的仅仅一个中有总计14个以上的SNP测定显示出显著性。含水量(moisture)完全型模型对GMSTP的系效应的BLUP进行测试以评定几个GL和ML模型中与候选SNP测定的关联。三个SNP标记显示出与含水量的关联,这些标记和含水量两者在三个ML模型中的两个中在邦弗朗尼校正(校正α =5%)之后都是显著的,并且在三个GL模型中具有实验性ρ值< 0. 05是显著的。在相同的标准下,在6个模型中的4个中有1个SNP (在三个模型中有三个,在两个模型中有5个,仅仅在一个模型中有3个)显示出显著性。不同位置的含水量还使用“依照位置”的模型来评定含水量与候选SNP测定的关联。在ML模型中在邦弗朗尼校正(校正α =5%)之后在两个位置有2个SNP测定显示出与含水量显著关联。在这些位置的仅仅一个中总计有15个以上的SNP测试显示出显著性。不同测试物的含水量还使用“依照测试物”的模型来评定GMSTP与候选SNP测定的关联。在ML模型中在邦弗朗尼校正(校正α =5%)之后在三个测试物中有1个SNP测定显示出与含水量显著关联。在这些测试物的两个中另外4个SNP测定显示出显著性,并且在这些测试物的仅一个中有10个SNP测定显示出显著性。QIPDTQIPDT是定量近交系谱不平衡试验(Quantitative Inbred PedigreeDisequilibrium Test)的首字母缩写,被提出用于利用近交系谱的信息进行联合作图,在更好地控制种群结构问题下这可以提供更高的统计效能以及更低的假阳性率 (Stich et al. 2006, TAG 113 :1121-1130)。这是最初开发的用于对人类的致病基因进行作图的 QPDT 的一个扩展(Zhang et al,2001. GeneticEpidemiol 21 :370-375-参见于 Mich et al 2006)。一个主要的优点是,该方法可以被用于来自育种早期的物质,并且因此是有成本效益的,因为这些物质上的表型数据被常规地收集以用于育种的目的。初始QIPDT是检验统计量(T,它是根据图7来计算的)。对于每个SNP,计算出T值(相反,在QIPDT程序中使用Z),并且从标准的正态分布中找出它的P值。QIPDT2虽然QIPDT方法对于检验关联的统计显著性是有用的,它没有提供对SNP遗传效应的大小、也没有提供促成总的表型方差的相对遗传的估计。因此,通过使用回归模型来改进该方法,该回归模型被称为QIPDT2 ;则该初始的方法被称为QIPDTl。用于QIPDT2的模型可以被写成yik = β0+β !Xi^ejk,
其中yki是系谱k中个体i的调节的表型值;Xki是编码的标记基因型值;β C1是截距;β i是所讨论的SNP的回归系数、或遗传效应。注意用于调节表型值以及编码标记基因型的方法与Mich等人Q006)所使用的相同。使用这个模型,可以对每个SNP的遗传效应以及R2两者进行估计。重要的是应当注意到,将表型数据进行预调节以在对系谱结构进行进一步调节之前将来自测试物和/或位置的效应排除在外。用于预调节的方法与以前对于 TASSEL分析所描述的相同。结果与用TASSEL进行的分析类似,取决于哪个子集被使用来针对位置和/或测试物调节表型数据。对于每个近交体这导致一个调节的表型值(或者是BLUP系值亦或是模型残差),该近交体包含对于该近交体的所有遗传效应与只有随机残差的一个组合。在QIPDT分析之前,根据它们的亲本品系将所有近交体归类成不同的核心家庭(nuclear family)。与 Mich等人(2006)中所使用的扩展的系谱相比,使用这些核心家庭预期提供对种群结构更好的控制。对于QIPDTl而言,对于每个SNP估计了 ζ值以及相应的ρ值;对于QIPDT2而言,对于每个SNP从简单的回归模型连同R平方一起得到t值以及相应的ρ值。就ρ值而言,QIPDT2显得比QIPDTl更强大。QIPDT2还提供了对每个SNP的相对贡献度的估计(R2)。TASSEL相对于QIPDT2的比较TASSEL倾向于给出比均勻分布的ρ值小得多的ρ值,而QIPDT2给出接近于均勻ρ 值的P值(图6)。在这两种方法中,候选基因SNP的关联不必比非候选SNP更显著(这取决于感兴趣的性状)。使用TASSEL的关联分析的结果包括对于相应于14个候选基因的含水量是显著的 30个SNP测定以及对于相应于12个候选基因的产量是显著的28个SNP测定。使用QIPDT2的关联分析的结果包括对于相应于5个候选基因的产量是显著的5 个SNP测定、对于相应于9个候选基因的含水量是显著的9个SNP测定、以及对于相应于5 个基因的重量是显著的5个SNP测定。参考文献Bradbury, P. J. , Ζ. Zhang, D. Ε. Kroon, Τ. Μ. Casstevens, Y. Ram-doss, and Ε. S. Buckler. 2007. TASSEL Software for Association Mapping of Complex Traits in Diverse Samples, pp.btm308.Camus-KulandaiveIu, L. , J. -B. Veyrieras, B. Gouesnard, A.Charcosset, and D. Manicacci. 2007. Evaluating the Reliability of Structure Outputs in Case of Relatedness between Individuals, pp. 887—890, Vol.47.Evanno,G. , S. Regnaut, and J. Goudet. 2005. Detecting the number of clusters of individuals using the software structure -.a simulation study, pp. 2611-2620, Vol. 14.Falush, D. , M. Stephens, and J. K. Pritchard. 2003. Inference of Population Structure Using Multilocus Genotype Data :Linked Loci and Correlated Allele Frequencies, pp. 1567-1587, Vol. 164.Jannink, J. L. , and B. Walsh, 2002 Association mapping in plant populations, pp. 59—68 in Quantitative Genetics, Genomics and Plant Breeding,edited by Μ. S. KANG. CAB International, New York.Price, A. L. , N. J. Patterson, R. M. Plenge, M. E. Weinblatt, N. A. Shadick, and D. Reich. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38 :904-909.Stich,B.,A. Melchinger, H. -P. Piepho,M. Heckenberger,H. Maurer, and J.Reif. 2006. A new test for family-based association mapping with inbred lines from plant breeding programs. TAG Theoretical and Applied Genetics 113 1121-1130.Zhao,K.,Μ. a. J. Aranzana,S. Kim, C. Lister,C. Shindo,C. Tang, C. Toomajian, H. Zheng,C. Dean,P. Marjoram,and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.实施例5 :通过对早期育种物质(阶段2数据)进行联合作图统计确认出干旱候选基因目标用于开发干旱耐受性产品的NT方法包括鉴定以及使用与在干旱条件下的产量相关联的候选基因或基因座中的天然变异。鉴定并且确认与干旱耐受性相关的基因对于下游标记辅助育种的成功和高效是决定性的。本实验的目标是基于在与具有玉米育种阶段2-3 数据的玉米同源的其他种属中它们的分子功能以及表型效应来确认选定的干旱耐受性候选基因集的遗传效应。在2005中的干旱位置的鉴定如实例1中所述选择干旱位置。表型数据育种者在不同的阶段在多个位置种植它们的杂交体并且对产量以及其他农艺性状进行评估。已经对于用于本实验中的材料收集了表型数据。在这个分析中,对三个性状进行了评估产量(在标准含水量下的谷物产量,% ),含水量(在收获时的谷物含水量), 以及重量(每块地的谷物重量)。表型数据的评估对于产量、含水量以及重量而言跨越位置以及测试物的种系的杂交体的表型数据的平均值对应地为165. 41蒲式尔/英亩、18. 94%以及20. 0蒲式尔。除了在一个位置的含水量以外,每个位置的平均值是彼此接近的。在各位置内与特定测试物杂交的系的杂交体的平均值显示了类似的模式。然而,由于多个位置内的测试物(可能由于不同的结合能力) 而存在较大的变异性。数据集的分类位置以及测试物在这些位置中观察的数量在从311至1456的范围内变动,并且在这些位置中独特系的数量在从311至14M的范围内变动。这些近交系与47个不同的近交测试物进行杂交。 与特定测试物进行杂交的系的数量在从1至575的范围内变动。设定最小值为240次观察的经验性阈值来选择与特定测试物杂交的多个系子集。表型调节如在实例4中所述进行表型调节。
基因型数据还对总计2189个系(在4个选定的位置的任何一个中收集了它们的表型数据) 进行基因分型。在近交系中对相应于大致57个候选基因的总计95个SNP进行了评分。在消除单态性测定以及具有小于0. 01的等位基因频率的SNP之后,在TASSEL中测试了 85个 SNP的关联。此外,对近交系中的153个随机SNP进行了基因分型。用于关联分析的方法学如实例4中所述进行了关联分析。结果在干旱完全型模型下的产量调节产量的该完全型模型没有会聚并且使用残差作为粗糙的方法来获得系效应。 使用几种GL和ML模型来评定与候选SNP测定的关联。在干旱条件下两个SNP标记显示与产量的关联,在三个ML模型中在邦弗朗尼校正(校正α = 5% )之后这两个SNP标记都是显著的,并且在三个GL模型中具有实验性ρ值< 0. 05是显著的。在相同的标准下,在6个模型的4个中有4个SNP (在三个模型中有两个,在两个模型中有三个并且在仅一个模型中有10个)显示出显著性。依照多个位置在干旱条件下的产量对于调节产量的该“依照位置”的模型对于来自位置6002和位置7346的数据没有会聚并且使用残差作为粗糙的方法来获得系效应。在ML模型中在邦弗朗尼校正(校正 α =5%)之后在一个位置中的在干旱下总计有15个测定显示出与产量显著关联。不同测试物在干旱条件下的产量对于调节产量的该“依照测试物”的模型对于来自两个测试物的数据没有会聚并且因此使用残差作为粗糙的方法来获得系效应。在ML模型中在邦弗朗尼校正(校正α = 5% )之后在测试物中有8个SNP测定显示出与产量显著关联。在干旱完全型模型下的含水量对含水量的系效应的BLUP进行了测试以此评定几个GL和ML模型中与候选SNP 测定的关联。在干旱下4个SNP标记显示出与含水量的关联,这些标记和含水量两者在三个ML模型中在邦弗朗尼校正(校正α =5%)之后都是显著的,并且在三个GL模型中具有实验性P值< 0. 05是显著的。使用相同的标准,在6个模型中5个中有SNP(在四个模型中有4个SNP,在3个模型中有1个SNP,在两个模型中有6个SNP,并且在仅一个模型中有7个)显示出显著性。依照多个位置在干旱条件下的含水量还使用了 “依照位置”的模型来评定含水量与候选SNP测定的关联。用于调节 GMSTP的“依照位置”的模型对于来自一个位置的数据没有会聚。在ML模型中在邦弗朗尼校正(校正α =5%)之后在三个位置有2个SNP测定显示与含水量显著关联。在这些位置中的两个中的四个以上的SNP测定显示出显著性。在这些位置中的仅一个中11个以上的SNP测定显示出显著性。依照不同测试物在干旱条件下的含水量还使用了“依照测试物”的模型来评定含水量与候选SNP测定的关联。在ML模型中在邦弗朗尼校正(校正α =5%)之后在4个测试物中有1个SNP测定显示出与含水量显著关联。在三个测试物中另一个SNP测定显示出显著性。在两个测试物中六个以上的 SNP测定显示出显著性。在仅一个测试物中总计32个其他的SNP测试显示出显著性。QIPDT 以及 QIPDT2如实例4中所述进行QIPDT以及QIPDT2分析。结果与用TASSEL进行的分析类似,取决于哪个子集被使用以针对位置和/或测试物来调节表型数据。对于每个近交体这导致调节的表型值(或者是BLUP系值至亦或是模型残差),该近交体包含对于该近交体的所有遗传效应与只有随机残差的组合。在QIPDT分析之前,根据它们的亲本品系将所有近交体归类成不同的核心家庭。与^ich等人Q006)中所使用的扩展的系谱相比,使用这些核心家庭预期提供对种群结构更好的控制。对于QIPDTl 而言,对于每个SNP估计了 ζ值以及相应的ρ值;对于QIPDT2而言,对于每个SNP从简单的回归模型连同R平方一起得到t值以及相应的ρ值。就ρ值而言,QIPDT2显得比QIPDTl更强大。QIPDT2还提供了对每个SNP的相对贡献的估计(R2)。TASSEL相对于QIPDT2的比较TASSEL倾向于提供比均勻分布的ρ值小得多的ρ值,而QIPDT2提供与均勻ρ值接近的P值。假定真实相关的数量通常是所有SNP的一小部分,对于TASSEL而言来自均勻分布的偏差可能是非常大的,而QIPDT给出了更合理的ρ值。在这两种方法中,候选基因SNP的关联不必比非候选SNP更显著(这取决于感兴趣的性状)。对于YGMSN而言,似乎是非候选SNP显示出壁候选SNP更高的显著性,而对于 GMSTP而言,通常候选SNP显示出更高的显著性。使用TASSEL的关联分析的结果包括对于相应于36个候选基因的含水量是显著的 47个SNP测定以及对于相应于25个候选基因的产量是显著的31个SNP测定。使用QIPDT2的关联分析的结果包括对于相应于九个候选基因的含水量是显著的 11个SNP测定、对于相应于两个候选基因的产量是显著的两个SNP测定、以及对于相应于两个候选基因的重量是显著的两个SNP测定。参考文献Bradbury, P. J. , Ζ. Zhang, D. Ε. Kroon, Τ. Μ. Casstevens, Y. Ram-doss, and Ε. S. Buckler. 2007. TASSEL Software for Association Mapping of Complex Traits in Diverse Samples, pp.btm308.Camus-KulandaiveIu, L. , J. -B. Veyrieras, B. Gouesnard, A.Charcosset, and D.Manicacci. 2007. Evaluating the Reliability of Structure Outputs in Case of Relatedness between Individuals, pp. 887—890, Vol.47.Evanno,G. , S. Regnaut, and J. Goudet. 2005. Detecting the number of clusters of individuals using the software structure -.a simulation study, pp. 2611-2620, Vol. 14.Falush, D. , M. Stephens, and J. K. Pritchard. 2003. Inference of Population Structure Using Multilocus Genotype Data :Linked Loci and Correlated Allele Frequencies, pp. 1567-1587, Vol. 164.Jannink, J. L. , and B. Walsh, 2002 Association mapping in plantpopulations,pp. 59—68 in Quantitative Genetics,Genomics and Plant Breeding, edited by M. S. KANG. CAB International, New York.Price, A. L. , N. J. Patterson, R. M. Plenge, M. E. Weinblatt, N. A. Shadick, and D. Reich. 2006. Principal components analysis corrects for stratification in genome-wide association studies. Nat Genet 38 :904-909.Stich,B.,A. Melchinger, H. -P. Piepho, M. Heckenberger,H. Maurer, and J. Reif. 2006. A new test for family-based association mapping with inbred lines from plant breeding programs. TAG Theoretical and Applied Genetics 113 1121-1130.Zhao,K.,Μ. a. J. Aranzana,S. Kim, C. Lister,C. Shindo,C. Tang, C. Toomajian, H. Zheng,C. Dean,P. Marjoram,and M. Nordborg. 2007. An Arabidopsis Example of Association Mapping in Structured Samples. PLoS Genetics 3 :e4.在本说明书中提到的所有公开物和专利申请对于本发明所涉及的领域的普通技术人员的技术水平而言是指示性的。所有公开物和专利申请都通过引用以相同程度结合在此,如同各个单独的公开物或专利申请都被明确地并且单独地指示而将通过引用进行结合。
尽管已经为了清楚理解的目的通过解释和实例详细地描述了以上发明,显而易见的是在所附权利要求的范围内可以实施某些改变和变更。
权利要求
1.一种鉴定与感兴趣的性状相关联的遗传标记的方法,该方法包括a)对于种群的每一植物的多个遗传标记的每一个提供基因型值,其中所述种群包含展示所述感兴趣的性状的植物;b)对于所述种群的植物中的每个成员的所述感兴趣的性状提供表型值;c)使用适当地编程的计算机来运行关联模型从而确定所述标记的一个或多个是否与感兴趣的性状相关,该关联模型包含用于校正所述种群中的结构的方法(means),其中所述校正是使用主成分分析(Principle ComponentAnalysis)来进行的,并且其中基于主成分与感兴趣的性状的关联的显著性来选择主成分以用于该模型中。
2.如权利要求1所述的方法,其中所述关联模型是线性模型。
3.如权利要求2所述的方法,其中所述关联模型是通用线性模型。
4.如权利要求2所述的方法,其中所述关联模型是混合线性模型。
5.如权利要求1所述的方法,其中所述的用于校正在所述种群中的结构的方法进一步包括亲缘关系分析。
6.如权利要求1所述的方法,其中所述种群的植物由在种群的早期育种材料中的分离子代组成。
7.如权利要求1所述的方法,其中所述种群的植物由杂交植物组成。
8.如权利要求7所述的方法,其中所述杂交植物是近交系与近交测试物之间杂交的结^ ο
9.如权利要求1所述的方法,其中所述种群包括在多个位置培育的植物。
10.如权利要求6所述的方法,其中所述表型值是对于位置效应、测试物效应、或位置效应和测试物效应进行调节的系效应。
11.如权利要求1所述的方法,其中所述遗传标记是单核苷酸多态性(SNP)。
12.如权利要求1所述的方法,其中步骤(a)包含从每个植物中分离遗传物质并且确定每个标记的基因型值。
13.一种鉴定与感兴趣的性状相关联的遗传标记的方法,该方法包括a)对于种群的育种材料中的多个遗传标记的每一个提供基因型值,其中所述种群包含展示所述感兴趣的性状的植物;b)对于所述种群的育种材料中的每个成员的所述感兴趣的性状提供表型值;c)使用线性回归模型在适当编程的计算机上确定所述标记的一个或多个是否与感兴趣的性状相关,该线性回归模型具有用于估计所述标记的每一个的遗传效应的大小以及所述标记的表型贡献的方法。
14.如权利要求13所述的方法,其中所述种群的育种材料由根据共同亲本归类成多个系谱的近交植物组成。
15.如权利要求14所述的方法,其中所述回归模型包括Yik = β ο+ β iXik+eJk其中yik是对于系谱k中的个体i表型值距离系谱平均值的偏差;其中Xik是所述标记的基因型值;其中β C1是截距;其中β!是回归系数并且还是该标记的遗传效应的大小的估计值;并且其中模型(R2)的决定系数提供了该标记的表型贡献的估计值。
16.如权利要求13所述的方法,其中所述种群的育种材料由杂交植物组成,这些杂交植物是从一个或多个近交系与一个或多个测试系之间的杂交得到的。
17.如权利要求13所述的方法,其中所述种群的育种材料由在多个位置培育的杂交植物组成。
18.如权利要求16或17所述的方法,其中针对位置效应和测试物效应中的一个或多个来调节所述表型值。
19.如权利要求18所述的方法,其中使用混合线性模型来调节该表型值,该混合线性模型包括Yijk = y + θ ι+ τ J+ 5 k+eiJk,其中yuk是对于在位置k处的近交体i与测试物j之间的杂交体的初始表型的观察; 其中测试物效应(τ j)被作为固定效应进行处理; 其中近交体效应(θ J以及位置效应(δ k)被作为随机变量进行处理。 其中使用最佳线性无偏预测(BLUP)来预测所有近交体的遗传值(θ J。
20.如权利要求13所述的方法,其中所述回归模型进一步包括用于校正在所述种群中的结构的方法。
21.如权利要求20所述的方法,其中所述的用于校正结构的方法包括主成分分析。
22.如权利要求21所述的方法,其中基于主成分与感兴趣的性状的关联的显著性来选择主成分以用于该模型中。
23.如权利要求13所述的方法,其中所述育种材料是阶段2或阶段3的育种材料。
24.如权利要求13所述的方法,其中所述遗传标记是单核苷酸多态性(SNP)。
25.如权利要求13所述的方法,其中步骤(a)包含从每个植物中分离遗传物质并且确定每个标记的基因型值。
26.如权利要求1所述的方法,进一步包括将表达构建体引入植物中,该表达构建体包括与所述感兴趣的性状相关联的核酸标记或处于与所述感兴趣的性状相关联的标记连锁不平衡状态下的核酸,其中所述核酸被可操作地连接于在所述构建体被引入其中的植物中起作用的启动子,并且其中所述植物由此展示出感兴趣的性状。
27.如权利要求1所述的方法,其中与所述感兴趣的性状相关联的标记被用于植物的标记辅助育种中,该植物包含与所述感兴趣的性状相关联的所述标记。
28.如权利要求13所述的方法,进一步包括将表达构建体引入植物中,该表达构建体包括与所述感兴趣的性状相关联的核酸标记或处于与所述感兴趣的性状相关联的标记连锁不平衡状态下的核酸,其中所述核酸被可操作地连接于在所述构建体被引入其中的植物中起作用的启动子,并且其中所述植物由此展示出感兴趣的性状。
29.如权利要求13所述的方法,其中与所述感兴趣的性状相关的标记被用于植物的标记辅助育种中,该植物包含与所述感兴趣的性状相关的所述标记。
30.一种选择植物以最佳地评估标记与感兴趣的性状之间的关联的方法,该方法包括a)在多种不同的环境条件下培养种群的植物,其中至少一个植物展示所述感兴趣的性状;b)收集与这些环境条件中的一个或多个相关的数据,其中所述数据是在所述植物的两个或更多个发育阶段过程中收集的;C)为每个植物指定与所述植物在其下生长的环境条件相关的得分,其中所述得分是对两个或更多个发育阶段中的每一个指定的;(d)选择在一个或多个发育阶段下暴露于特定范围的环境条件下的植物,其中所述选择对于评估所述感兴趣的性状是适当的。
31.如权利要求30所述的方法,其中所述感兴趣的性状是对于胁迫条件的耐受性,并且其中所述选择是基于最有可能诱导所述胁迫条件的环境条件以及对所述胁迫条件最敏感的该一个或多个发育阶段。
32.如权利要求31所述的方法,其中所述胁迫条件是水胁迫,并且其中选出的用于对所述标记与水胁迫之间的关联进行评估的植物生长在发育的一个或多个晚期阶段期间具有最严重程度的水胁迫的条件下。
33.如权利要求30所述的方法,其中使用地理信息系统技术来获得与环境条件相关的数据。
全文摘要
在此提供了用于对植物种群中在候选标记与感兴趣的性状之间的关联进行评估的方法。在不同的实施方案中,该植物种群是一种育种种群,特别是早期育种种群。这些方法包括获得候选标记的基因型值以及使该标记与该性状相关。可以使用多种相关模型来对该关联进行评估,并且包括与植物育种种群的结构相关的统计方法。可以通过使用主成分分析在相关模型中对种群结构进行说明。进一步提供了一种新的统计方法,该新的统计方法使用基于传递不平衡的方法对早期育种材料进行联合作图。可以将使用本发明的这些方法鉴定的标记用于标记辅助育种和选择,用于构建遗传连锁图以鉴定提供促成感兴趣的性状的基因,以及用于产生具有所希望的性状的转基因植物。
文档编号G06F19/18GK102334123SQ200980156103
公开日2012年1月25日 申请日期2009年12月4日 优先权日2008年12月4日
发明者L.A.古蒂雷兹罗杰斯, N.F.马丁, V.K.基肖尔, 王道龙 申请人:先正达参股股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1