植物育种方法

文档序号:381775阅读:333来源:国知局

专利名称::植物育种方法植物育种方法与相关申请的交叉引用本申请是非临时实用专利申请,其要求下列临时专利申请的优先权和利益2003年5月28日由Smith等人提交的的标题为"PlantBreedingMethod"的USS萌474,359,此处引用其全文作为参考,发明领域本发明提供了预测植物中表型性状值的方法,所述方法使用笫一植物群体的基因型、表型和家系关系信息鉴定至少一个遣传标记和表型性状之间的关联,然后利用所述关联在具有已知标记基因型的第二乾群体的成员中预测表型性状值.本发明也涉及鉴定影响表型性状的新的等位基因变体的方法.发明背景选择育种数世纪来已被用于提高或试图提高植物中具有农艺学和经济学利益的表型性状(例如,产重、谷粒含油百分比等).以其最基本的形式,选择育种涉及基于一个或多个表型性状选择作为下一代的亲本的个体.然而,这种表型选择由于环境(例如,土壤类型、降雨、温度变化范围等)对表型性状的影响而变得复杂,另一个有关这种表型选择的问题是绝大部分目的表型性状由超过一个基因座控制.据估计在驯化的植物中98X的经济上重要的表型性状是数量性状(Beavis的USPN6,399,855,标题为"QTLmappinginplantbreedingpopulations").基于认识到的影响表型性状表达变异性的分离遗传因子的数目和量级,这些性状被分为寡基因或多基因性状.历史上,术语数量性状曾被用来描述显示连续变异性的表型性状表达的变异性,并且其是多基因座相互之间和/或与环境之间的可能相互作用的净结果.为了描述更广泛的现象,术语"复合性状"曾被用来描述任何不表现经典的归因于单基因座的孟德尔遣传的性状(Lander&Schork,Science265:2037(1994))此处通常同义地使用所述两个术语.橫跨基因组的遍在多态性遣传标记(例如,RFLPs、SNPs等)的发展使得数量和分子遣传学家可能研究Edwards等人在Genetics115:113(1987)中所谓的数量性状基因座(QTL)以及其数目、量级和分布。QTL包括在某种程度上控制质量和数量表型性状的基因,所述性状在个体的家系内和在个体的家系群体内可以是不连续或连续分布的。已发展了实验性示例来鉴定和分析QTL(参见,例如,授予Helentjaris等人的USPN5,385,835,标题为"Identificationandlocalizationandintrogressionintoplantsofdesiredmultigenictraits,",授予Johnson的USPN5,492,547,标题为"Processforpredictingthephenotypictraitofyieldinmaize,"和授予Johnson的USPN5,981,832,标题为"Processpredictingthevalueofaphenotypictraitinaplantbreedingprogram").—个这样的示例包括将两个近交系杂交从而产生Fl单交杂交后代,将F1杂交后代自交从而产生分离F2后代,确定多标记基因座的基因型,和在所迷分离后代中估计一个至数个数量表型性状。然后在分离后代中基于基因型值和表型变异性之间的显著统计学关联鉴定QTL.这种实验性示例是理想的,因为F!代的亲本系具有已知的连锁相,后代中所有的分离基因座都是可提供信息的,并且标记基因座和影响表型性状的遣传基因座之间的连锁不平衡已被最大化.然而,必须投入相当多的资源以确定大量的杂交和/或近交后代的表型性能.因为研究来自仅仅两个亲本的后代,所以上述实验只能检测性状基因座(例如,QTL),两个亲本对于所述基因座是多态性的.这套性状基因座可能只代表目的育种群体(例如,玉米、高梁、大豆、低芥酸芥子等的育种群体)中基因座分离的小部分。通常,这些后代只显示一个或少数表型性状的变异,所迷性状是所使用的育种程序中的目的性状。这意味着可能需要发展分离群体、为标记基因座打分,和在重复的田间试验中种植并为目的表型性状打分.此外,用于检测QTL的方法对要鉴定的QTL产生偏倚的估计(参见,例如,Beavis(1994)"ThepoweranddeceitofQTLexperiments:LessonsfromcomparativeQTLstudies"inWilkinson(ed.)Proc.49thAnn.CornandSorghumRes,Conf.,AmericanSeedTradeAssoc,Chicago,IL,pp250-266).在推断育种群体内遣传上不同的亲本的后代的QTL的鉴定中,引入了另外的不准确性.此外许多(如果不是全部的话)性状受到环境因素的影响,所述环境因素也可引入不准确性.本发明克服了上面提到的困难,例如通过关联分析鉴定有关QTL的遣传标记,所迷关联分析可容纳复杂的植物群体(其中与双亲群体相比,更多的影响多个目的性状表型的基因座预期会分离),利用现有的育种程序产生的信息,和任选地解释环境效应,和通过应用这些信息来预测例如杂交后代的表型.通过阅读下列内容可获得对发明的全面理解.发明简述本发明提供了用于在植物中预测植物表型性状值的方法.所述方法使用第一植物群体的基因型、表型和家系关系信息鉴定至少一个遣传标记和表型性状之间的关联,然后利用所述关联预测具有已知标记表型的笫二靶群体成员的表型性状值.本发明也涉及鉴定影响表型性状的新的等位基因变体的方法.因此,笫一类一般的实施方案提供了在靶植物群体中预测表型性状值的方法,在所迷方法中,提供了至少一个遣传标记和表型性状之间的关联.例如,可提供表型性状和包含两个或更多个遗传标记的单元型之间的关联.在第一植物群体中估计所迷关联,所迷笫一植物群体是已建立的育种群体或其部分。根据统计学模型在笫一植物群体中估计所述关联,所述模型合并笫一植物群体的一套遣传标记的基因型和笫一植物群体中的表型性状值.所述统计学模型也可合并第一植物群体各成员之间的家系关系。然后提供至少一个靶植物群体成员的表型性状值.通过例如利用系谦和遣传标记信息,根据所述关联和根据至少一个与所述表型性状相关的遣传标记的至少一个成员的基因型预测所述值.在一类实施方案中,笫一植物群体包含多个近交种、单交F1杂种或其组合.例如,笫一植物群体任选地由近交种、单交F1杂种或其組合组成.因为笫一植物群体的成员是已建立的育种群体的成员,所以各近交种和/或单交Fl杂种的祖先通常是已知的,并且各近交种和/或单交Fl杂种通常是三个或更多个建立者中至少一个的后代.因为第一植物群体的成员通常来自具有多代系谱的已建立的育种群体,所以第一植物群体的成员任选地跨越多个育种周期(例如,至少3个、至少4个、至少5个、至少7个或至少9个育种周期).所述已建立的育种群体其自身通常包含至少3个建立者(例如,至少10个建立者、至少50个建立者、至少IOO个建立者或至少200个建立者,例如大约100至200个建立者)和所迷建立者的后代,其中所述后代的祖先是已知的.第一植物群体基本上可包含任何数目的成员,例如从大约50至大约5000个.表型性状可以是例如质量性状、数量性状、单基因性状、多基因性状等.第一植物群体的表型性状值可通过例如估计笫一植物群体成员之间的表型性状获得.可在笫一植物群体成员(例如,包含笫一植物群体的近交种和/或单交Fl杂种)中估计表型.可选择地,通过在至少一次与至少一个测交亲本的顶交组合中估计第一植物群体成员之间的表型性状来获得笫一植物群体中的表型性状值.表型性状包括但不限于产重、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、林高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量和穗轴颜色成套的遣传标记基本上可包含任何便利数目和类型的遣传标记.例如,成套的遣传标记可包含一个或多个单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸插入或缺失(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP).成套遗传标记可包含例如1至50,000个(或甚至更多个)遣传标记;例如,1至10个标记或500至50,000个标记,可通过实验确定和/或预测第一植物群体的成套遣传标记的基因型.类似地,可通过实验确定和/或预测把植物群体成员的成套遣传标记的基因型.在一类优选的实施方案中,通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析,可估计至少一个遗传标记和表型性状之间的关联.在一类这样的优选实施方案中,通过使用线性模型进行Bayesian分析来估计关联,所迷Bayesian分析通过可逆的跳跃马尔可夫链(jumpMarkovchain)MonteCarlo算法进行.通常,通过计算机程序或系统进行所迷Bayesian分析.在另一类优选的实施方案中,通过进行传递不平衡检验估计关联.把植物群体可包含近交植物、杂交植物或其组合.在一类优选的实施方案中,靶植物群体包含杂交植物,所述杂交植物包含由近交系之间单交产生的Fl后代.这些Fl后代可由例如包含所迷笫一植物群体和/或新近交系的近交后代单交产生.类似地,靶植物群体可包含后生世代,所述后生世代由包括至少一个笫一植物群体成员的育种杂交产生.至少一个靶植物群体成员中的表型性状值可通过多种方法中的任意一个方法进行预测.例如,对于简单质量性状,可通过发现于靶植物群体成员中的遣传标记等位基因的鉴定来预测表型.在其它例子中,可通过使用最佳线性无偏预测方法、多重回归方法、选择指数技术、脊回归(ridgeregression)方法、线性最优化方法或非线性最优化方法预测至少一个靶植物群体成员中的表型性状值.第一和靶植物群体基本上可包含任何类型的植物.例如,在优选种类的实施方案中,笫一和靶植物群体包含(例如,由下述组成)二倍体植物,包括但不限于杂交作物植物,例如玉米(例如,玉蜀黍(Zea迈ays))、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、棉花和粟'方法任逸地包括选择至少一个具有想要的预测的表型性状值的靶植物群体成员.至少一个逸择的目的靶植物群体成员可与至少一种其它植物进行育种或自交,以产生例如新的系或具有想要的表型性状值的杂种.在另一类实施方案中,方法包括克隆基因(所述基因与至少一个与所迷表型性状相关的遣传标记连锁),其中所述基因的表达影响所述表型性状,和任选地包括构建在宿主植物中表达经克隆的基因的转基因植物.另一类一般的实施方案提供了选择植物的方法.在所述方法中,提供了至少一个遣传标记和表型性状之间的关联.在笫一植物群体中估计所述关联,所述笫一植物群体是已建立的育种群体或其部分.根据统计学模型估计笫一植物群体中的关联,所述模型合并笫一植物群体的一套遣传标记的基因型与笫一植物群体中的表型性状,所述统计学模型也可合并笫一植物群体成员之间的家系关系.然后提供来自一个或多个非适应系的一个或多个植物.就选择的包含至少一个与表型性状相关的遣传标记的基因型选择一个或多个植物.选择的基因型任选地包含至少一个等位基因,所述等位基因是至少一个与表型性状相关的遗传标记的等位基因,所述等位基因是关于在笫一群体中发现的遣传标记等位基因而言新的等位基因.新的遗传标记基因型可表明与遣传标记(和与表型性状)相关的QTL的新等位基因的存在,为确定该假定的新QTL等位基因是否有利地影响表型性状,所述方法可包括在具有选择的基因型的一个或多个植物中估计表型性状.可选择至少一个具有选择的基因型和想要的表型性状值的植物.此外,可将至少一个选择的具有选棒的基因型和想要的表型性状值的植物与至少一种其它植物进行育种(例如,以引入遗传标记等位基因并因此将假定的新QTL等位基因引入适应性生殖质中).在一类优选的实施方案中,通过使用线性棋型、混合线性模型或非线性模型进行Bayesian分析,可估计至少一个遣传标记和表型性状之间的关联.在一类这样的优选实施方案中,通过使用线性模型进行Bayesian分析来估计关联,所述Bayesian分析通过可逆的跳跃马尔可夫链MonteCarlo算法进行.在另一类优选的实施方案中,通过进行传递不平衡检验估计关联.此处在它们相关的程度上使用了上述实施方案中提到的所有各种任选的构型和特征,例如第一植物群体和/或已建立的育种群体的組成、表型性状类型、遣传标记的种类和数目等.通过任何此处的方法选择、提供或产生的植物和通过此处任一方法生成的转基因植物形成了发明的另一特征。也提供了用于实践所述方法或其方面的数字系统.包含系统组分、通过所述方法选择的植物或两者,和合适的容器、包装材料、用于实践所迷方法的说明书等的试剂盒也是发明的特征.附困简述图l是概要地说明在已建立的育种群体的部分的例子(或示例性的笫一植物群体)中各近交系和单交杂种之间关系的系谦.困2提供了一般的系详玉米育种程序的示意性概览,困3概括地说明了进行Bayesian分析的軟件。困4描绘了按其在1号染色体上的位置顺序排列的511个标记的穗轴颜色的TDT似然比率统计学困.定义除非另外定义,否則所有此处所用的技术和科学术语都具有与本发明相关的领域内技术人员普遍理解的意思相同的意思,下列定义补充本领域内的定义和针对本申请,并且不转嫁于任何相关或不相关的案例,例如不转嫁于任何共同拥有的专利或申请.尽管任何与此处描述的方法和材料相似或等同的方法和材料可用于检验本发明,但此处描述了优选的材料和方法.因此,此处所用的术语只用于描述特定的实施方案,并且不意味着是限制性的.如本说明书中和附加的权利要求中所用的,除非上下文清楚地指出,否則单数形式的"一个(a)"、"一个(an)"和"该(the)"包括复数形式的所指物.因此,例如"一种蛋白"包括两种或更多种蛋白;"一个细胞"包括细胞混合物等."等位基因"或"等位基因变体"是基因或遣传标记的任何一个或多个可选择形式.在二倍体细胞或生物中,给定基因(或标记)的两个等位基因通常占据一对同源染色体上的相应基因座.在本发明的上下文中,术语"关联"或"与……关联"是指一个或多个处于连锁不平衡的遣传标记等位基因和表型性状等位基因,即在一种或多种植物的后代中发现标记基因型和性状表型在一起的频率高于所述标记基因型与性状表型独立分离的频率."育种周期"描迷了两个近交亲本和这些亲本的近交后代之间的分离.育种周期可包括例如,将两个近交系杂交以产生Fl杂种,将Fl杂种自交,并且自交多次以产生近交后代.育种周期任选地包括一次或多次与其中一个近交亲本的回交.也可按照育种周期描述近交和单交Fl杂种之间或两个单交Fl杂种之间的分离.为确定单交Fl杂种与近交种的育种周期距离,确定了近交种和各杂种的近交亲本之间的育种周期差异;这两个数字中较大的一个是分离Fl单交杂种和近交种的育种周期的数字.为确定笫一单交Fl杂种和笫二单交Fl杂种的育种周期距离,将笫一杂种的近交亲本与笫二杂种的近交亲本的所有可能的组合进行相互比较,且两个杂种间的育种周期距离与任何一个这些近交亲本組合之间的最大距离相等。"二倍体植物"是指具有两套染色体的植物,通常各套各来自其两个亲本."已建立的育种群体"是指通常在育种程序例如商业育种程序中产生和/或用作亲本的植物的集合体.已建立的育种群体的成员通常已进行了很好的表征;例如,可能已在例如不同的环境条件下,在多个地点和/或不同时间对几个目的表型性状进行了估计."F,是指第一子代,即两个个体之间或两个近交系之间交配的后代."后生世代"是指通过自交或有性杂交(例如,和其它的R后代,和近交系等)由Fi后代产生的F"Fs和更后的代."建立者"是指包含一个或多个等位基因(例如,遣传标记等位基因)的近交或单交F1杂种,在群体例如育种群体的系谦中在整个建立者的后代中可追踪到所迷等位基因.例如,在已建立的育种群体中,所述建立者通常(但不必是)最早培育的系.术语"基因"广义地是指任何与生物学功能相关的核酸.基因通常包括编码序列和/或表达这些编码序列所需要的调节序列.依赖于上下文,"遣传标记"是指核苷酸或多核苷酸序列,或是指被多态性占据的基因座,所述核苷酸或多核苷酸序列存在于植物基因组中和在目的群体中具有多态性.在许多其它的例子中,遣传标记包括,例如,SNPs、indels、SSRs、RFLPs、RAPDs和AFLPs,逸传标记可用于例如在染色体上定位基因座,所述基因座含有促进表型性状表达变异性的等位基因.遣传标记也指与所述基因组序列互补的多核苷酸序列,例如用作探针的核酸序列。"基因型"是指细胞或生物的基因组成.个体的"一套遗传标记基因型"由存在于个体中的一个或多个遣传标记基因座的特定等位基因组成,"生殖质"是指群体或其它个体的类群(例如,物种)的基因型全体。生殖质也可指植物材料,例如,充当各种等位基因库的植物类群,"适应的生殖质"是指经证明在例如给定的环境或地理区域具有遣传优势的植物材料,而"非适应的生殖质"、"原始生殖质"或"外来生殖质"是指在给定的环境或地理区域具有未知或未经证明的遣传价值的植物材料;同样,非适应的生殖质是指非已建立的育种群体的部分的植物材料和与已建立的育种群体的成员无已知关系的植物材料."单元型"是指个体从一个亲本遣传而来的成套的等位基因。因此二倍体个体具有两个单元型.术语单元型通常更狭义地表示物理连锁和/或不连锁的与表型性状相关的遣传标记(例如,序列多态性)."单元型区"(有时在文献中也称作单元型)是在单个染色体上物理连锁的两个或更多个遣传标记群(或其部分).通常,各区具有少数共同的单元型,并且可选择唯一地确定这些单元型中各单元型的遣传标记亚群(即,"单元型标记").短语"高通量筛选"是指测定法,在所述测定法中所用的方式允许筛选大量的遣传标记(例如,核苷酸序列)、大重的基因型个体或库、或同时筛选两者.在本发明的上下文中,高通量筛选是指对大量的个体或库基因型的植物基因组核酸序列进行筛选以鉴定遣传标记等位基因的存在."杂交"、"杂交植物"、或"杂交后代"是指从遗传上具有差异的亲本产生的个体(例如遣传杂合的或绝大部分杂合的个体).通常,杂种的亲本在几个重要方面不同.杂种通常比任一个亲本更具活力,但其不能纯育.如果两个个体在特定的基因座具有相同的等位基因,如果所述等位基因遣传自一个共同的祖先(即,所迷等位基因是相同亲本等位基因的拷贝),那么所述等位基因是"血源同一"的.另一可选择的是所述等位基因是"状态同一"(即,所迷等位基因表现出相同,但来源于两个不同的等位基因拷贝).血源同一信息可用于连锁研究;尽管血源同一信息可能特别有用,但血源同一和状态同一信息都可用于关联研究,例如此处描述的研究中,植物的"近交系"是指遣传上纯合的或接近纯合的群体.例如,近交系可通过几轮自交获得.近交系可纯育,例如对于一个或多个目的表型性状而言."近交"、"近交植物"或"近交后代"是指从近交系中取样的植物."连锁"是指在相同染色体上不同基因座的等位基因由于其物理邻近的原因导致一起分离的频率高于在其偶然独立传递时预期的频率的趁势.短语"连锁不平衡"(也称作"等位基因关联")是指一种现象,在所述现象中,在给定的群体中的两个或更多个基因座上的特定等位基因在其从亲本到子代分离时倾向于一起保持在连锁群中,其频率比从其单独的频率预测的频率更高.例如,当遣传标记等位基因和QTL等位基因一起发生的频率高于从单独的等位基因频率预测的频率时,其显示连锁不平衡.值得注意的是连锁是指基因座之间的关系,而连锁不平衡是指等位基因之间的关系."基因座"是指染色体上的位置(例如,基因、遣传标记等),术语"核酸"包括任何对应于核苷酸链的单体单位的物理链,包括核苷酸多聚体(例如一般的DNA或RNA多聚体)、PNAs、经修饰的寡核苷酸(例如,包含对生物学RNA或DNA来说是非典型的碱基的寡核苷酸(例如2,-0-甲基化的寡核苷酸))等.核酸可以是例如单链或双链的.除非另外指出,除了任何明确指出的序列外,本发明的特定核酸序列任选地包含或编码互补序列."系谱"是指祖先系、个体或个体或相关个体家族的生殖质的记录.术语"表型性状"是指植物的外观和其它可检测特征,所述外观和特征是由其基因组与环境相互作用作用造成的.术语"多数"是指超过整体一半.例如,群体的多数超过该群体成员的一半."多核苷酸序列"或"核苷酸序列"是核苷酸的多聚体(例如寡核普酸、DNA、核酸等),或依赖于上下文,是代表核普酸多聚体的特征链.根据任何明确说明的多核苷酸序列,可确定给定的核酸或互补多核苷酸的序列(例如,互补核酸)."植物群体"是指植物的集合体.所述集合体包括至少两林植物,和可以包括例如,IO抹或更多、50林或更多、IOO林或更多、500抹或更多、IOOO抹或更多、或甚至5000林或更多植物.群体的成员相互之间可以是相关的和/或不相关的;例如,植物相互之间可具有已知的系谗关系.术语"后代"是指特定植物(自交)或成对植物(异花传粉)的后代.所述后代可以是例如F!、F2或任何后代."质量性状"是由一个或少数几个表现主要表型效应的基因控制的表型性状.因为这个原因,质重性状通常是简单遣传的,示例包括但不限于花的颜色、穗轴颜色和抗病性例如Northern玉米叶片枯萎病抗性,"数量性状"是指可进行数字(即,定量的或量化的)描迷的表型性状,数量性状通常在群体的个体间表现连续的变异;即表型性状的数值差异是徵小的并且相互之间逐渐转化.通常,植物群体中数重性状的频率分布表现钟型曲线.数重性状通常是基因座与环境相互作用或多个基因座(QTL)相互之间和/或与环境间相互作用的结果.数量性状的示例包括植物的高度和产量.术语"数量性状基因座"("QTL")或术语"标记性状关联"是指遣传标记和染色体区域和/或影响目的性状表型的基因之间的关联.通常,例如基于一个或多个文献中公开的方法通过统计学确定该关联.QTL可以是染色体区域和/或具有至少两个差异地影响表型性状(数量性状或质量性状)表达的等位基因的基因座,在本发明的上下文中,短语"有性杂交的"或"有性生殖"是指通过授粉使配子融合以产生种子."有性杂交"或"异花传粉"是指由另一林植物给一林植物传粉."自交"是通过自体受粉产生种子,即,花粉和胚珠来自同一抹植物."单交F1杂种"是指由两个近交系之间杂交产生的Fi杂种."试验者"是指具有标准表型、已知特征和已确定的性能的系或单林植物."测交亲本"是来自在有性杂交中用作亲本的测交系的植物.通常,测交亲本和与其杂交的植物无关和与其在遗传上具有差异,当与用于表型估计的个体或近交系杂交时,试验者通常用于产生Fl后代。短语"顶交组合"是指将单个测交系和多个系杂交的方法.产生这些杂交的目的是确定杂交后代的表型性能;即,估计所述多个系中的每一个在杂交后代中产生想要的表型的能力,所述杂交后代通过测交来源于所迷系,"转基因植物"是指通过任何除了有性杂交或自交的方式已导入一个或多个外源多核苷酸的植物.下面描述了可实施该目的的方法的示例,其包括土壌杆菌(Agrobacterium)介导的转化、生物弹射击(bioUstic)方法、电穿孔、inplanU等技术.转基因植物也可通过已导入外源多核苷酸的转基因植物的有性杂交或自交产生."品种"是指根据分类学分类的物种的再分."品种"可与表示个体类群的术语"栽培品种"互换使用,所述个体在遣传上与物种内其它个体的群体不同.农业品种是能够在相同的物种中根据结构特征和/或性能从其它品种区分的相似植物的类群.此处定义或表征各种其它的术语。详述通过使用遣传连锁进行的关联研究提供了可选择的鉴定影响目的表型的染色体区域和/或基因的方法.简而言之,虽然连锁研究试困鉴定在一个或多个家系中与表型性状共分离的QTL,但关联研究通常试闺通过鉴定特定等位基因变体来鉴定QTL,所述特定等位基因变体与群体(不一定是双亲家系)中的表型性状相关.经鉴定与性状相关的等位基因变体可以是例如遣传标记的等位基因变体,所述变体与功能性变体(影响表型性状的基因的等位基因)连锁不平衡,或所迷遣传标记与功能性变体可以是同义的(例如,在编码区域中导致被编码的蛋白活性改变的SNP).连锁不平衡是在群体中观察到的现象,在所述群体中在两个(或更多个)基因座上的特定等位基因以高于两个(或更多个)等位基因频率的积的频率共同发生.例如,假定在基因座B上携带等位基因B的染色体上,基因座A发生突变产生新的等位基因A,.如果基因座A和B之间未发生重组,那么单元型A,Bn得以保存.如果基因座A和B之间发生重組,那么单元型未得以保存,最终,随着连续多代发生重组,新等位基因A.将与其它B的等位基因按其相对频率的比例发生(即,最终达到连锁平衡),然而,在两个群体或基因型杂交的第一分离代中,单元型A,Bn的频率高于A.等位基因频率和Bn等位基因频率的积;即,观察到连锁不平衡.在随机交配群体中,逼近平衡是重組频率的函数.对于未连锁的基因座,各代中单元型频率达到平衡值一半;基因座连锁越紧密,群体中持续不平衡的时间越长.因此利用连锁不平衡的关联研究可合并过去许多代的重组,从而获得高分辨率、精细尺度的基因定位(参见,例如,Xiong和Guo(1997)"Fine-scalemappingofquantitativetraitlociusinghistoricalrecombinations"Genetics145:1201-1218),本领域中已描迷了设计和进行各种类型的关联研究;参见,例如Rao和Province,eds.,(2001)AdvancesinGeneticsvolume42,GeneticDissectionofComplexTraits:Balding等人,eds.(2001)HandbookofStatisticalGenetics,JohnWileyandSonsLtd.;Borecki和Suarez(2001)"Linkageandassociation:basicconcepts"AdvGenet42i45-66jCardon和Bell(2001)"Associationstudydesignsforcomplexdiseases"NatRevGenet2:91-99j和Risch(2000)"Searchingforgeneticdeterminantsforthenewmillennium"Nature405:847-856,关联研究已用于估计与表型性状相关的候选基因(例如,Thornsberry等人(2001)"Dwarf8polymorphismsassociatewithvariationinfloweringUme"NatureGenetics28:286-289)和进行全基因组扫描以鉴定对表型变异有贡献的基因(例如,Paunio等人(2001)"Genome-widescaninanationwidestudysampleofschizophreniafamiliesinFinlandrevealssusceptibilitylocionchromosomes2qand5q"HumanMolecularGenetics10:3037-3048和Liu等人(2002)"Geno边ewidelinkageanalysisofceliacdiseaseinFinnishfamilies"Am.J.Hum.Genet.70:51-59),很明显,为了使关联研究有力,在目的区域中必须存在连锁不平衡(如果不存在连锁不平衡,那么关联研究只能鉴定其自身是实际功能性变体的标记),因此连锁不平衡减少的速率(以碱基对数目计算)影响关联研究的分辦率和所需的标记数目,这些考虑可影响例如用于分析的群体的选择.许多研究已检查了人中的连锁不平衡(例如,Reich等人(2001)"Linkagedisequilibriuminthehu迈angenome,,Nature411:199-204和Daly等人,(2001)"High-resolutionhaplotypestructureinthehumangenome"NatureGenetics29:229-232).在植物中也已分析了连铺不平衡;例如,最近由作者和其它人员进行的研究表明在玉米SNP基因座之间的强连锁不平衡延伸至少500bp(Ching等人(2002)"SNPfrequency,haplotypestructureandlinkagedisequilibriuminelitemaizeinbredlines"BMCGenetics3:19:也参见Remington等人(2001)"Structureoflinkagedisequilibriumandphenotypicassociationsinthemaizegenome"Proc.Natl.Assoc.Sci,98:11479-11484rTenaillon等人(2001)"PatternsofDNAsequencepolymorphismalongchromosome1of迈aize"ProcNatlAcadSciUSA98:9161-9166;和Jannoo等人(1999)"Linkagedisequilibriumamongmodernsugarcanecultivars"TheorAppGenet99:1053-1060),尽管也进行了许多涉及人和动物的关联研究(参见,例如,Paunio等人(2001)"Genome-widescaninanationwidestudysampleofschizophreniafamiliesiaFinlandrevealssusceptibilitylocionchromosomes2qand5q"HumanMolecularGenetics10:3037-3048',Liu等人(2002)"Genomewidelinkageanalysisofceliac-iseaseinFinnishfamilies"Am.J.Hum.Genet.70:51-59;Terwilliger(2001)"Ontheresolutionandfeasibilityofgenomescanningapproaches"Adv.Genet.42:351-391j和Grupe等人(2001)"Insilicomappingofcomplexdisease—relatedtraitsinmice"Science292:1915-1918),但较少进行涉及植物的研究.植物系谦提出了几个要求修饰或扩展用于人和动物的方法的挑战(参见,例如,Yi和Xu(2001)"Bayesianmappingofquantitativetraitlociundercomplicatedmatingdesigns"Genetics157:1759-1771).例如,用于植物的QTL作困方法可能需要处理自交和有性杂交、作为育种群体建立者的纯系近交系和巨大的家系.已经提出了用于在植物中进行解释这些因素的关联研究的Bayesian方法,例如,Yi和Xu的(2001)"Bayesianmappingofquantitativetraitlociundercomplicatedmatingdesigns"Genetics157:1759-1771和Bink等人(2002)"MultipleQTLmappinginrelatedplantpopulationsviaapedigree-analysisapproach"Theor.Appl.Genet.104:751-762描述了用于在复杂的植物群体中进行QTL作困的Bayesian方法,这些方法合并复杂植物群体(例如,笫一植物群体)的基因型、表型和家系系谦信息,使用这样的复杂群体提供了大量的益处.例如,不需要产生大量的单交杂种(或来自双亲杂交的大量的分离F2后代等)并确定其表型来进行分析;相反地,可从所述育种群体中选择植物和/或系,其中大重不同类型的后代的表型估计是育种程序的常规部分.育种程序通常要估计大量后代的表型,通常要在两个或更多个地点进行重复估计(因此提供了有关环境影响的数据).因为需要相当多的时间和努力来准确估计大部分经济上重要的表型性状,所以使用作为正在进行的育种程序的部分产生的数据节省了大重的时间和成本以及提供了潜在地更可靠的表型数据,并因此获得更好的困.参见,例如,Rafalski(2002)"Applicationsofsinglenucleotidepolymorphismsincropgenetics"Curr-Opin,PlantBio,5-94-100和Rafalski(2002)"Novelgeneticmappingtoolsinplants:SNPsandLD-basedapproaches**PlantSci162:329-333,本发明提供了使用笫一植物群体(例如,育种群体或其亚群)中植物的遣传标记基因型、表型信息和家系关系数据鉴定至少一个遣传标记和表型性状之间关联的方法,例如,使用Bayesian方法,例如上面提及的方法.所述方法包括基于笫二靶植物群体的一个或多个成员的一个或多个遣传标记的基因型来预测其表型性状值,所述遗传标记与所述性状相关.所述方法具有很多应用,例如,应用于在植物(例如,杂交作物植物;类似的方法可用于动物)中进行的育种程序.例如,所述方法可用于预测杂交后代(例如,由给定的具有已知标记基因型的成对近交系杂交产生的(实际或假设地)单交杂种)的表型性能.类似地,通过允许预测来自杂交的潜在后代的表型性能,所述方法可有助于在一个或多个杂交中对用作亲本的植物(例如,近交植物、杂交植物等)的选择;所述方法允许亲本植物的选择,所述亲本植物的子代具有最高的拥有想要的表型的概率.第一类普通的实施方案提供了在靶植物群体中预测表型性状值的方法.在所述方法中,提供了至少一种遣传标记和表型性状之间的关联.在笫一植物群体中估计关联,所述笫一植物群体是已建立的育种群体或其部分.根据统计学模型估计笫一植物群体中的关联,所述模型合并笫一植物群体的一套遣传标记基因型和第一植物群体中的表型性状值.然后提供靶植物群体中至少一个成员的表型性状值.根据所述关联和根据至少一个与表型性状相关的遣传标记的至少一个成员的基因型预测所述值.通过在经实验确定所述值之前预测所述值或用预测值代替通过实验确定的值.表型性状可以是数量性状,例如,提供数重值的性状.可选择地,表型性状可以是质量性状,例如,提供质量值的性状.所迷性状可通过单个基因进行确定,或其可通过两个或更多个基因进行确定.方法任选地包括选择至少一个靶植物群体的成员,所迷成员具有想要的预测的表型性状值,和任选地也包括将至少一个选择的靶植物群体的成员与至少一个其它的植物杂交(或自交至少一个选择的成员,例如,以建立近交系).笫一植物群体通常包含多个近交种、单交Fl杂种或其组合.例如,在一类实施方案中,笫一植物群体包含多个近交种,在另一类实施方案中,笫一植物群体包含多个单交F1杂种.在另一类实施方案中,笫一植物群体包含多个近交种和单交F1杂种的组合.笫一植物群体任选地由近交种、单交Fl杂种或其组合组成.近交种可来自相互之间相关和/或无关的近交系,而单交F1杂种可通过所述近交系和/或一个或多个另外的近交系的单交产生.如所指出的,笫一植物群体的成员可从已存在的、已建立的育种群体(例如,商业可购得的育种群体)取样.已建立的育种群体的成员通常是相对少量的建立者的后代,从而通常是高度相关的,除了建立者之外的各成员的祖先通常是已知的,因此,例如,已建立的育种群体可包含至少三个建立者和其后代,其中所述后代的祖先是已知的(例如,至少10个建立者,至少50个建立者,至少100个建立者,或至少200个建立者).例如,已建立的育种群体可包含大约IOO至大约200个建立者(例如,大约30-40个雌性建立者和80-150个雄性建立者)和其已知祖先的后代.育种群体通常跨越许多代和育种周期.例如,已建立的育种群体可跨越3、4、5、6、7、8、9或更多个育种周期).因此笫一植物群体的成员可具有相同的特征.在一些实施方案中,第一植物群体的成员可跨越至少3个育种周期(例如至少4、5、6、7、8或9个育种周期).在一类示例性实施方案中,第一植物群体包含多个近交种、单交F1杂种或其组合,各近交种和/或单交F1杂种的祖先是已知的,并且各近交种和/或单交Fl杂种是3个或更多个建立者(例如,10、50或IOO或更个建立者)中至少一个的后代。第一群体任选地包含一个或多个建立者,例如群体的其它成员所起源的建立者.第一植物群体基本上可包含任何数目的成员.例如,第一植物群体任逸地包舍大约50至大约5000个成员(例如,第一植物群体可包含50-5000个近交种和/或单交Fl杂种).在另外一个示例中,第一植物群体可包含至少大约50、100、200、500、1000、2000、3000、4000、5000或甚至6000或更多成员.仅作为一个特定的示例,笫一植物群体可包含大约1000个近交种和大约3000至5000个单交杂种.值得注意的是第一植物群体任选地具有上述特征的任何组合.仅作为一个示例,笫一植物群体可包含50至5000个成员,包括多个近交种和/或单交Fl杂种,其各自具有已知的祖先和起源于三个或更多个建立者中至少一个.困1是示意性地说明各种近交系和单交杂种之间相互关系的系谦,所述近交系和单交杂种可包含例如第一植物群体.在困1中,后接数字的SX表示单交杂种,而其它字母组合表示各种近交系(除了LANC,其表示近交系LNC1所起源的群体).在该困中,建立者包括例如MP1、FP3、FP1、MA1、FP2、MB5、LNC1和DRS.连接两个个体的线表示一个是另一个的祖先.例如,将近交系MFP2和MA21杂交,几代自交之后,产生近交系MA32,(在该示例中,连接MFP2和MA32或MA21和MA32的线表示一个育种周期的距离),在另一个实例中,将近交系F39和MA32杂交产生单交Fl杂种SX34。(在该实例中,连接F39和SX34或MA32和SX34的线表示少于一个育种周期的距离).困2示意性地说明示例性商业可购得的植物育种程序,在该实例中是玉米,例如,从两个群体(一个雄性和一个雌性)开发近交系,在顶交和杂交测试相中,用来自相反群体(TC1和TC2,笫一和笫二年顶交;MET,多环境测试)的试验者进行顶交.通常,笫一植物群体表现目的表型性状的变异性(例如,针对数童表型性状的数量变异性).第一植物群体中的表型性状值可通过例如估计笫一植物群体中的成员之间的表型性状(例如对所述群体成员之间的数量表型性状进行定量)获得.可在包含笫一植物群体的成员(例如,近交种和/或单交F1杂种)中估计表型.可选择地,通过在至少一个与至少一个测交亲本的顶交组合中估计笫一植物群体的成员之间的表型性状可获得第一植物群体中的表型性状值(例如,对于只能在杂种中估计的表型性状).表型性状基本上可以是任何数量或质量表型性状,例如,农艺学和/或经济上重要的表型性状.例如,表型性状可以选自产重、谷粒含水重、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、林高、谷穗髙、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量、視觉或美学外观和穗轴颜色.这些性状和用于估计(例如,定量)所述性状的技术在本领域是熟知的.例如,谷粒产量是作物性能的常规测量.试验重量是针对质重的测量.谷粒含水量对于贮存非常重要,而根和茎杆抗倒伏性影响直立能力(standabiUty)并且在收获中非常重要.所迷方法类似地可用于其它表型性状,例如谷粒肌醇六裤酸含量.成套遣传标记基本上可包含任何方便的遣传标记.例如,成套的遣传标记可包含一个或多个单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸的插入或缺失(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP).对于本领域技术人员来说很明显的是所需要的标记数目可以变化,例如依赖于目的植物物种中的连锁不平衡降低的速率和/或依赖于进行的关联分析类型而变化.成套遣传标记可包括例如1至50,000个标记(例如,I至IO,OOO个标记),在一类实施方案中,成套的遣传标记可以包含大约50至大约2500个标记.例如,成套遗传标记可包含至少大约50、100、250、500、1000、2000或甚至2500或更多个遗传标记.在某些实施方案中,成套遣传标记包含1至IO个标记(例如,在候选基因研究中,需要相对少的标记).在其它实施方案中,成套的遣传标记包含500至50,000个标记(例如,对于全基因组扫描).第一植物群体中成套的遣传标记的基因型可通过实验确定、预测或其組合。例如,在一类实施方案中,通过实验确定存在于植物群体中的各近交种基因型,并预测存在于第一植物群体中各单交F1杂种的基因型(例如,通过实验确定各单交杂种的两个近交亲本的基因型).基本上可通过任何方便的技术经实验确定植物基因型.许多用于发现和/或确定遣传标记基因型的应用技术在本领域是已知的(例如,在下列标題为"遣传标记"的部分描迷的技术).在一类优选的实施方案中,对来自各近交种的成套DNA片段进行测序以通过实验确定各近交系的基因型.因为序列的多态性(例如,遗传标记)通常在非编码区域(例如,内含子和非翻译区域)中更普遍,所以在一类实施方案中,进行测序的成套DNA片段包含一个或多个(例如,两个或更多个)基因的5'非翻译区域和/或3'非翻译区域.测序技术(例如,PCR扩增子直接测序)是熟知的(参见例如,Ching等人(2002)"SNPfrequency,haplotypestructureandlinkagedisequilibriuminelitemaizeinbredlines"BMCGenetics3:19),在一些实施方案中,单个遣传标记与表型性状相关,而在其它实施方案中,两个或更多个遗传标记(和/或染色体区域)与表型性状相关.因此,在一类实施方案中,提供包含两个或更多个遣传标记的单元型和表型性状之间的关联.包含单元型的遣传标记可以是不连锁的(例如,可鉴定两个或更多个影响表型性状的QTL,各QTL与其中一个标记相关),或遣传标记可以是物理连锁的(例如,遗传标记可包含与表型性状相关的单元型区,例如SNP单元型标记的单元型区).如所指出的,根据统计学模型估计第一植物群体中的关联,所迷统计学模型合并有关笫一植物群体的基因型和表型信息.通过合并笫一植物群体的成员之间的家系关系和遣传标记及表型性状数据,所述统计学模型通常也利用第一群体中植物之间的关系.通过例如包含确定特定等位基因是来自母本还是父本的标志,或通过任何其它允许使用系谦关系信息追踪在不同个体中血源同一的等位基因的方法,所述模型可合并家系关系.在一类优选的实施方案中,通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析,来估计至少一个遗传标记和表型性状之间的关联.可通过例如可逆的跳跃马尔可夫链MonteCarlo算法、A方法或特征似然算法(profilelikelihoo"lgorithm)进行Bayesian分析.例如,在一类这样优选的实施方案中,通过使用线性模型进行Bayesian分析(通过可逆的跳跃马尔可夫链MonteCarlo算法进行的Bayesian分析)来估计关联.通常,估计关联包括(和/或允许)确定一个或多个相关近交种和杂种的系详中的至少一个遗传标记的建立者等位基因的血缘同一信息,和允许在整个这样的系谗中追踪至少一个遣传标记.通常,通过计算机程序或系统进行Bayesian分析(例如,通过可逆的跳跃马尔可夫链MonteCarlo算法进行的),Bayesian方法、MonteCarlo算法等在本领域是熟知的,用于理解相关概念的普通文献包括Gibas和Jambeck(2001)Bioinfor咖ticsComputerSkills,(KReilly,SebasUpol,CA;Pevzner(2000)ComputationalMolecularBiologyandAlgorithmicApproach,TheMITPress,CambridgeMA;Durbin等人(1998)BiologicalSequenceAnalysis:ProbabilisticModelsofProteinsandNucleicAcids,CambridgeUniversityPress,Cambridge,UK;Hinchliffe(1996)ModelingMolecularStructuresJohnWileyandSons,NY,NYj和Rashidi和Buehler(2000)BioinformaticBasics:ApplicationsinBiologicalScienceandMedicineCRCPressUX,BocaRaton,FL,在各种来源中提供了MonteCarlo统计学分析的详细讨论,所述来源包括,例如,Robert等人(1999)MonteCarloStatisticalMethods,Springer-Verlag;Chen等人(2000)MonteCarloMethodsinBayesianComputation,Springer-Verlag;Sobol等人(1994)APrimerfortheMonteCarloMethod,CRCPress,LLC;Manno(1999)IntroductiontotheMonte-CarloMethod,AkademiaiKiado;和Rubinstein(1981)SimulationandtheMonteCarloMethod,JohnWiley&Sons,Inc..有关这些统计学方法的另外的详细内容参见,例如,Carlin等人(1995)"Bayesian迈odelchoiceviaMarkovchainMonteCarlomethods"J.RoyalStat,Soc.SeriesB,57:473-84',Carlin等人(199""AniterativeMonteCarlomethodfornonconjugateBayesUnanalysis"StatisticsandComputing1:119-28;和Pillardy等人(2001)"Confor迈aticm-familyMonteCarlo:Anewmethodforcrystalstructureprediction"Proc.Natl.Acad.Sci.USA98(22):12351-6.特别地,用于QTL作困(即,用于估计成套遣传标记和表型性状之间的关联)的Bayesian方法在本领域是已知的.例如,Bink等人(2002)"MultipleQ1Xmappinginrelatedplantpopulationsviaapedigree—analysisapproach"Theor.Appl,Genet.104:751—762以及Yi和Xu(2001)"Bayesianmappingofquantitativetraitlociundercomplicatedmatingdesigns"Genetics157:1759-1771描迷了通过可逆的跳跃马尔可夫链MonteCarlo算法和使用线性模型进行的Bayesian分析,并且以其全文在此引用作为参考.例如,Bink等人提出的模型合并了两抹或更多林植物成套遗传标记的基因型、在所述植物中观察到的表型性状值和植物之间的家系关系(通过使用表明母本或父本来源的分离标志,例如,遣传标记和因此连锁的QTL等位基因的分离标志).该模型也包括影响性状的非遣传因素(例如,环境效应).Bayesian分析、QTX作困等也描迷于例如,Sorensen和Gianola(2002)Likelihood,BayesianandMCMCmethodsinquantitativegenetics,Springer,NewYork;Jannink和Fernando(2004)"Onthemetropolis-hastingsacceptanceprobabilitytoaddordropaquantitativetraitlocusinmarkovchainmontecarlo—basedbayesiananalyses"Genetics166:641—643;Wu和Jaimink(2004)"OptimalsamplingofapopulationtodetermineQTLlocation,variance,andallelicnumber"TheorApplGenet108:1434—42;Jannink(2003)"Selectiondynamicsandlimitsunderadditive-by-additiveepistaticgeneaction"CropSci43:489-497;H和Xu(2000)"Bayesianmappingofquantitativetraitlociundertheidentity-by-descent-basedvariancecomponentmodel"Genetics156:"1-422;Berry等人(2002)"Assessingprobabilityofancestryusingsimplesequencerepeatprofiles:Applicationsto迈aizehybridsandinbreds"Genetics161:813-824;Berry等人(2003)"Assessingprobabilityofancestryusingsimplesequencerepeatprofiles:Applicationstomaizeinbredlinesandsoybeanvarieties"Genetics165:331-342;以及Jannink和Wu(2003)"EstimatingallelicnumberandidentityinstateofQTLsininterconnectedfamilies"GenetRes81:133-44,可在www.public.iastate.edu/~jjanninlc/Research/Software.htm上公开获得用于在相互联系的群体中进行QTL的Bayesian分析的示例性软件包.在另一类优选的实施方案中,通过进行传递不平衡检验来估计关联(参见,例如,此处的实施例和参考文献).在另一类实施方案中,通过最大似然混合线性或非线性分析来估计关联(参见,例如,Lynch和Walsh(1998)GeneticAnalysisofQuantitativeTraits,SinauerAssociates,Inc.,SunderlandMA,pp746-755)在另一类实施方案中,通过人工神经网络在笫一植物群体中估计关联.该网络在本领域中是已知的;参见,例如,Gurney(1999)AnIntroductiontoNeuralNetworks,UCLPress,1GunpowderSquare,UmdonEC4A3DE,UKjBishop(1995)NeuralNetworksforPatternRecognition,OxfordUnivPress;ISBN:0198538642;Ripley,Hjort(1995)PatternRecognitionandNeuralNetworks,CambridgeUniversityPress(Short);和Masters(1993)PracticalNeur&lNetworkRecipesinC++(Book&Diskedition)AcademicPress,靶植物群体基本上可包含任何数目的成员,所述成员相互之间和与笫一植物群体的成员之间相关和/或不相关,靶植物群体的成员通常自身不包含第一植物群体.因此,靶植物群体可包含,例如近交植物、杂交植物或其组合.杂交植物可包含,例如,单交杂种、双杂交杂种、三交杂种后代或基本上任何其它杂种.在一类优选的实施方案中,靶植物群体包含含有由近交系之间单交产生的Fl后代的杂交植物.这些Fl后代可通过例如包含第一植物群体(其中杂种植物不包含笫一植物群体)的近交种之间的单交产生,通过新的近交种之间的单交产生,所迷新的近交种包含优选的等位基因(遗传标记和/或QTL等位基因),所述等位基因与用于关联作困分析的近交种血源同一或状态同一,或通过其组合产生.类似地,在一类实施方案中,靶植物群体包含后生世代,所述后生世代由包含至少一个笫一植物群体的成员的育种杂交产生(即,把植物群体包含至少一个第一植物群体的成员的F2或更晚期后代).值得注意的是靶植物群体可包含实际活的植物和/或假定的植物(例如,假定的通过杂交给定的具有已知遣传标记基因型的成对近交系产生的单交杂种).通常,如果将所述方法用于假定的靶植物群体中时,那么至少一抹真实的植物(例如,具有最想要的预测的表型性状值的植物)实际上作为活的植物产生,可通过实验确定和/或预测靶植物群体成员的至少一个与表型性状相关的遣传标记的基因型.因此,在一类实施方案中,可通过例如高通量的筛选经实验确定至少一个靶植物群体的成员的至少一个遗传标记的基罔型.在另一类实施方案中,预测了至少一个靶植物群体的成员的至少一个遣传标记的基因型.例如,如果知道其近交亲本的基因型,就可预测靶群体的单交Fl杂种成员的基因型.例如,通过合并系谱和遣传标记信息(例如,遣传标记基因型和遣传标记等位基因的血源同一和/或状态同一信息)两者的方法可预测靶植物群体的至少一个成员的表型性状值.在优选种类的实施方案中,使用最佳线性无偏预测方法预测把植物群体的至少一个成员的表型性状值.最佳线性无偏预测方法在本领域是已知的;参见,例如Gianola等人(2003)"OnMarker-AssistedPredictionofGeneticValue:BeyondtheRidge7*Genetics163:347-365和Binlc等人(2002)"MultipleQTLmappinginrelatedplantpopulationsviaapedigree—analysisapproach"Theor.Appl.Genet.104:751-762.可选择地,可使用其它方法预测靶植物群体的至少一个成员中的表型性状值,例如,多重回归方法、选择指数技术、脊回归方法、线性最优化方法或非线性最优化方法.这些方法是众所周知的;参见,例如,Johnson,B.E.等人(1988)"Amodelfordeterminingweightsoftraitsinsimultaneousmultitraitselection"CropSci.28:723-728。笫一和靶植物群体基本上可包含任何类型的植物.例如,在优选种类的实施方案中,第一和靶植物群体包含二倍体植物(例如,由二倍体植物组成).如前面指出的,所述方法特别地适用于杂交作物植物,因此,在优选的实施方案中,第一和靶植物群体逸自玉米(例如,玉蜀黍)、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、绵花和栗.由此处的方法鉴定的QTL(例如,与至少一个与表型性状相关的遗传标记连销的QTL)可任选地被克隆和表达,例如,以产生具有想要的表型性状值的转基因植物.因此,在一类实施方案中,所述方法包括克隆与至少一个与表型性状相关的遣传标记连锁的基因,其中所迷基因的表达影响所述表型性状.所述方法任选地也包括构建在宿主植物中表达克隆的基因的转基因植物。数字系统一般地,可使用各种自动化的系统进行一些或所有此处提到的方法步骤.除了实践一些或所有此处的方法步骤外,数字或模拟系统(例如,包含数字或棋拟计算机)也可控制各种其它功能,例如用户可视显示(例如,以允许用户观看方法结果)和/或输出特征的控制(例如,以帮助标记辅助的选择或自动化田间设备的控制),例如,通过计算机程序或程序(例如,进行或帮助进行传递不平衡检验、Bayesian分析和/或表型预测的程序)任选地(且一般地)进行上述方法中的某些方法.因此,本发明提供了数字系统,例如,计算机、计算机可阅读介质和/或包含用于进行此处的方法的指令(例如,包含在合适的软件中的)的集成系统.例如,如此处所描述的,包含估计笫一植物群体中至少一个遗传标记和表型性状之间的关联和预测第二靶植物群体的至少一个成员中表型性状值的指令的数字系统,是本发明的特征.数字系统也可包括对应于成套遗传标记的植物基因型、表型值和/或家系关系的信息(数据).所迷系统也可帮助用户根据此处的方法进行标记辅助的选择,或可控制自动进行选择、收获和/或育种方案的田间设备.标准的台式应用例如文字处理软件(例如,MicrosoftWord1"或CorelWordPerfect,和/或数据库软件(例如,电子制表软件例如MicrosoftExcel、CorelQuattroPro"1或数据库程序例如MicrosoftAccess或Paradox)可适用于本发明,其中通过输入装入数字系统的存储器内的数据,和对所迷数据进行如此处提到的操作.例如,系统可包括前述的软件,所述软件使合适的系谦数据、表型信息、表型和系谱之的关联等,例如,与用户界面(例如,在标准搮作系统例如Windows,Macintosh和LINUX系统中的GUI)结合使用以进行任何此处提到的分析,或简单地获取用于此处的方法中的数据(例如,在电子制表软件中).用于进行统计学分析的软件也可包括在数字系统中,例如,可使用软件,例如描述于Bink等人(2002)"MultipleQTLmappinginrelatedplantpopulationsviaapedigree—analysisapproach"Theor.A卯l.Genet.104:751-762,或其经修饰的版本中的软件进行Bayesian分析.困3示意性地描述了对复杂系详中QTLs进行该Bayesian分析的软件执行.系统通常包括,例如数字计算机,所述计算机具有如下软件和输入软件系统的数据集,所述软件用于进行关联分析和/或表型值预测,或用于进行Bayesian分析,例如,通过可逆的跳跃马尔可夫链MonteCarlo算法等进行,所述数据集包括植物的成套遗传标记的基因型、表型值、家系关系等.所述计算机可以是,例如,PC(Intelx86或Pentium芯片兼容的D0S、TM0S2、T"WIND0WS、"WINDOWSNT、WIND0WS95、WIND0WS98、TMLINUX、Apple-兼容的、MACINTOSH兼容的、PowerPC兼容的或UNIX兼容的(例如,SUN"工作站)机器)或本领域技术人员已知的其它商业上通用的计算机.根据此处的方法,通过使用标准的编程语言例如Visualbasic、Fortran、Basic、Java等,本领域技术人员可编制用于进行关联分析和/或表型值预测的软件,任何系统控制器或计算机任选地包括监視器,所述监视器可包括例如,阴极射线管("CRT")显示器,平板显示器(例如,活性基质液晶显示器、液晶显示器)等.计算机电路通常装入包含大量臬成电路芯片例如微处理器、存储器、接口电路等的盒子中.所迷盒子任选地也包含硬盘驱动器、软盘驱动器、高容量抽取式驱动器例如可写CD-ROM和其它普通的外周元件.输入设备例如鍵盘或鼠标任选地提供来自用户的输入和在相关的计算机系统中为用户提供对遗传标记基因型、表型值等的选择.所述计算机通常包括合适的软件,所迷软件用于接受用户指令,其形式为用户输入指定参数字段的形式,例如,在GUI中,或预编程序的指令的形式,例如用于各种不同特定操作的预编程序的指令,然后软件将这些指令转化成合适的用于指导系统执行任何想要的操作的语言.例如,除了进行统计学分析外,数字系统可指导包含某些标记的植物的选择或控制用于根据此处相关的方法收获、选择、杂交或保存作物的田间机器.本发明也可具体化在应用特异性集成电路(ASIC)或可编程逻辑设备(PLD)的电路中.在这种情况下,本发明被具体化在可用于建立ASIC或PLD的计算机可阅读描述符语言中,本发明也可被具体化在各种其它数字设备,例如PDA、膝上型计算机系统、显示器、困象编辑设备等的电路或逻辑处理器中.鉴定新的等位基因变体本发明也提供了可用于姿定新的影响表型性状的QTL的等位基因变体的方法.可进行关联分析以鉴定至少一个与表型性状相关的遣传标记.可在非适应的生殖质中鉴定新的遣传标记等位基因,并且因此可能是与遣传标记相关的QTL,然后可将该新的等位基因变体,例如,培育到适应的生殖质(例如,商业育种群体)中.因此,一类普通的实施方案提供了选择植物的方法.在所迷方法中,提供了至少一个遣传标记和表型性状之间的关联.在第一植物群体中估计所述关联,所述笫一植物群体是已建立的育种群体或其部分.根据合并笫一植物群体的一套遗传标记的基因型和所述第一植物群体中的表型性状值的统计学模型在笫一群体中估计关联.所述统计学模型也合并所述笫一植物群体的成员之间的家系关系。然后提供一个或多个来自一个或多个非适应系的植物。就选择的包含至少一个与表型性状相关的遣传标记的基因型选择一个或多个植物.所选择的基因型可包含例如,至少一个与表型性状相关的遣传标记的至少一个等位基因,所述等位基因对于在所迷第一群体中发现的遣传标记等位基因来说是新的等位基因.一个或多个植物的至少一个遣传标记的基因型通常是通过任何便利的技术通过实验进行确定的,新的遣传标记基因型可指示与遣传标记(和与表型性状)相关的QTL的新等位基因的存在.为确定该假定的新QTL等位基因是否是有利地影响所述表型性状的基因,所迷方法可包括在一个或多个具有所述选择的基因型的植物中估计所述表型性状(例如,对数量表型性状进行定量).至少一个具有所述选择的基因型和想要的表型性状值的植物可被选择出来.此外,可将至少一个具有所述选择的基因型和想要的表型性状值的所选择的植物与至少一个其它植物进行育种(例如,以将所述遣传标记等位基因导入、从而将假定的新QTL等位基因导入适应的生殖质中).笫一植物群体通常包含多个近交种、单交F1杂种或其组合。例如,在一类实施方案中,笫一植物群体包含多个近交种.在另一类实施方案中,所述第一植物群体包含多个单交F1杂种.在另一类实施方案中,所迷笫一植物群体包含多个近交种和单交F1杂种的组合.第一植物群体任选地由近交种、单交F1杂种或其组合组成.所述近交种相互之间可以是相关的和/或不相关的,且所迷单交F1杂种可以从所迷近交系和/或一个或多个另外的近交系单交产生.如所提到的,第一植物群体的成员是从已建立的育种群体(例如,商业育种群体)中取样的.困l是示意性地说明各种近交系和单交杂种之间的相互关系的系谦,所述近交系和单交杂种可例如包含第一植物群体.也将已建立的育种群体和/或上述实施方案提到的第一植物群体的特征应用到这些实施方案中.因此,例如,在一类实施方案中,所述第一植物群体包含多个近交种、单交F1杂种或其组合,各近交种和/或单交Fl杂种的祖先是已知的,并且各近交种和/或单交F1杂种是三个或更多个建立者(例如,10、50或100个或更多个建立者)中至少一个的后代.类似地,在一些实施方案中,第一植物群体的成员跨越至少三个育种周期(例如,至少4、5、6、7、8或9个育种周期).在一类实施方案中,所述已建立的育种群体包含至少3个建立者和其后代(例如,至少10个建立者、至少50个建立者、至少100个建立者、或至少200个建立者,例如大约100至大约200个建立者和其后代),其中所述后代的祖先是已知的.所述已建立的育种群体可跨越例如3、4、5、6、7、8、9个或更多个育种周期.第一植物群体基本上可包含任何数目的成员.例如,第一植物群体任选地包舍大约50至大约5000个成员(例如,第一植物群体可包含50-5000个近交种和/或单交Fl杂种)。如另一个示例,第一植物群体可包含至少大约50、100、200、500、1000、2000、3000、4000、5000或甚至6000或更多个成员.值得注意的是第一植物群体任选地具有上述特征的任何組合组合.仅作为一个示例,笫一植物群体可包含50至5000个成员,包括多个近交种和/或单交Fl杂种,其各自具有已知的祖先和来自三个或更多个建立者中至少一个.表型性状可以是数重性状,例如,可提供数重值的性状.可选择地,表型性状可以是质量性状,例如,可提供质量值的性状,通过单个基因可确定所述性状,或其可通过两个或更多个基因确定.通常,第一植物群体表现目的表型性状的变异性(例如,数量表型性状的数量变异性).笫一植物群体中的表型性状值可通过例如估计笫一植物群体成员中的表型性状来获得(例如,对数量性状进行定量).可在包含第一植物群体的植物(例如,近交种和/或单交杂种)中估计表型.可选择地,笫一植物群体中的表型性状值可通过在至少一个和至少一个测交亲本的顶交组合中估计笫一植物群体的成员中的表型性状和任选地计算目的基因型的表型的最佳线性无偏预测值来获得,表型性状基本上可以是任何数量或质量表型性状,例如,农艺学和/或经济上重要的表型性状.例如,表型性状可以选自产量、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、林高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重重、视觉和/或美学外观和穗轴颜色.这些性状和用于定量所述性状的技术在本领域是熟知的.例如,谷粒产量是作物性能的常规测量.试验重重是针对质量的测量.谷粒含水量对于贮存非常重要,而根和茎杆抗倒伏性影响直立能力并且在收获中非常重要.所迷方法类似地可用于其它表型性状,例如谷粒肌醇六裤酸含量.成套遣传标记基本上可包含任何方便的遣传标记.例如,成套的遗传标记可包含一个或多个单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸的插入或缺失(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、EST序列或用作探针的20-40个碱基的独特核脊酸序列(寡核普酸)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP).对于本领域技术人员来说很明显的是所需要的标记数目可以变化,例如依赖于目的植物物种中的连锁不平衡降低的速率和/或依赖于进行的关联分析类型而变化,成套遗传标记可包括例如1至50,000个标记(例如,1至10,000个标记).在一类实施方案中,成套的遣传标记可以包含大约50至大约2500个标记.例如,成套遣传标记可包含至少大约50、100、250、500、1000、2000或甚至2500或更多个遣传标记。在某些实施方案中,成套遣传标记包含1至IO个标记(例如,在候选基因研究中,需要相对少的标记).在其它实施方案中,成套的遣传标记包舍500至50,000个标记(例如,对于全基因组扫描).第一植物群体中成套的遣传标记的基因型可通过实验确定、进行预测或其组合.例如,在一类实施方案中,通过实验确定存在于第一植物群体中的各近交种的基因型,并预测存在于笫一植物群体中各F1杂种的基因型(例如,通过实验确定各单交杂种的两个近交亲本的基因型).基本上可通过任何方便的技术经实验确定植物基罔型.许多用于发现和/或确定遣传标记基因型的应用技术在本领域是已知的(例如,在下列标題为"遣传标记"的部分描述的技术).在一类优选的实施方案中,对来自各近交种的成套DNA片段进行测序以通过实验确定各近交系的基因型。因为序列的多态性(例如,遣传标记)通常在非编码区域(例如,内含子和非翻译区域)中更普遍,所以在一类实施方案中,进行测序的成套DNA片段包含一个或多个(例如,两个或更多个)基因的5'非翻译区域和/或3'非翻译区域.如上文所指出的,测序技术(例如,PCR扩增子直接测序)是熟知的。在一些实施方案中,单个遗传标记与表型性状相关,而在其它实施方案中,两个或更多个遣传标记与表型性状相关.因此,在一类实施方案中,提供包舍两个或更多个遣传标记的单元型和表型性状之间的关联.包含单元型的遣传标记可以是不连锁的(例如,可鉴定两个或更多个影响表型性状的QTL,各QTL与其中一个标记相关),或遣传标记可以是物理连锁的(例如,遗传标记可包含与表型性状相关的单元型区,例如SNP单元型标记的单元型区).在一类优选的实施方案中,通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析,来估计至少一个遣传标记和表型性状之间的关联.可通过例如可逆的跳跃马尔可夫链MonteCarlo算法、A方法或特征似然算法进行Bayesian分析.例如,在一类这样优选的实施方案中,通过使用线性模型进行Bayesian分析来估计关联,所迷Bayesian分析通过可逆的跳跃马尔可夫链MonteCarlo算法进行.通常,通过计算机程序或系统进行Bayesian分析(例如,通过可逆的跳跃马尔可夫链MonteCarlo算法进行的).如上面所提到的,Bayesian方法、MonteCarlo算法等在本领域是已知的.特别地,用于QTL作困(即,用于估计一套遗传标记和表型性状之间的关联的)的Bayesian方法是已知的参见,例如Bink等人以及Yi和Xu,两者同见上文。在另一类优选的实施方案中,通过进行传递不平衡检验来估计关联。在另一类实施方案中,通过最大似然混合线性或非线性模型分析来估计关联.在另一类实施方案中,通过人工神经网络在第一植物群体中估计关联.如所提到的,这种网络在本领域是已知的;参见,例如,上面的参考文献.笫一植物群体和一个或多个非适应系基本上可包含任何种类的植物.例如,在优选种类的实施方案中,笫一植物群体和一个或多个非适应系包含二倍体植物(例如,由二倍体植物组成)在优选的实施方案中,笫一植物群体和一个或多个非适应系选自玉米(例如,玉蜀黍〉、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、绵花和栗.由此处的方法鉴定的QTL(例如,与至少一个与表型性状相关的遣传标记连锁的QTL)可任选地被克隆和表达,例如,以产生具有想要的表型性状值的转基因植物.因此,在一类实施方案中,所述方法包括从具有选择的基因型和想要的表型性状值的至少一个所选择的植物中克隆基因,所述基因与至少一个与表型性状相关的遣传标记连锁,其中所述基因的表达影响所迷表型性状(即,从非适应植物中克隆新QTL等位基因).所述方法任选地也包括构建在宿主植物中表达克隆的基因的转基因植物.此处也可在它们相关的程度上使用上述实施方案中提到的所有各种任选的构型和特征.植物如通过此处方法的任一方法产生的转基因植物一样,通过此处的方法的任一方法选择、提供或产生的植物形成本发明的另一个特征.遗传标记在下面的讨论中,短语"核酸"、"多核苷酸"、"多核苷酸序列"或"核酸序列"是指脱氧核糖核苷酸或核糖核苷酸和以单链或双链形成存在的其多聚体.除非特别指出,所迷术语包括含有已知的天然核苷酸的类似物的核酸,所迷类似物具有类似于参照核酸的结合特性.通过其基因组表征个体的能力归因于遣传信息的固有的变异性,通常,遣传标记是基因组的多态区域和与这些区域结合的互补寡核苷酸,多态位点通常位于DM的非编码区域(例如,5'或3'非翻译区,基因间区域等)也在编码区域发现多态位点,其中,例如,核苷酸的改变可以是沉默的并且在编码的蛋白中不导致氨基酸的替代、导致保守的氨基酸替代或导致非保守氨基酸替代.如所预期的,在编码功能关鍵的蛋白质的区域中,多态位点(特别是插入、缺失和导致非保守替代的核苷酸改变)相对不普遍.通常,特定遣传标记的存在或不存在通过其独特的核酸序列鉴定个体;在其它例子中,遣传标记发现于所有个体中,但个体通过基因组中所述遣传标记所在的位置进行鉴定.遗传变异性的主要原因,和因此遣传标记的主要来源是插入(添加)、缺失、核苷酸替代(点突变)、重组事件和在植物群体中在个体的基因组内的转座因子.作为一个示例,点突变可由DNA复制的错误或对DM的损害造成.作为另一个示例,插入和缺失可由不精确的重组事件造成.在另一个示例中,变异性可由转座因子(具有自主地或非自主地转移或跳越到基因组中新的位点上的能力的DNA序列)的插入或切除造成。这些DNA序列中可遗传的改变的净结果就是个体具有不同的序列.包含多态位点(在个体之间或在给定的个体的两条染色体之间DNA序列不同的位点)的区域可用作遣传标记.可根据改变的类型(例如,一个或多个核苷酸的插入或缺失,或一个或多个核苷酸的替代)和/或根据检测改变的方法(例如,RFLP和AFLP可各自由插入、缺失或替代造成)对遣传标记进行分类,各种遣传标记的发现、检测和基因型确定已描述于文献中.参见,例如,Henry,ed.(2001)PlantGenotyping.TheDNAFingerprintingofPlantsWallingford:CABIPublishing;Phillips和Vasil,eds.(2001)DNA-basedMarkersinPlantsDordrecht:KluwerAcademicPublishers^Pejic等人(1998)"Comparativeanalysisofgeneticsimilarityamong迈aizeinbredlinesdetectedbyRFLPs,RAPDs,SSRsandAFLPs"Theor.App.Genet.97:1248-1255;Bha"ra肌fcki等人(2002)"Insertion—deletionpolymorphismsin3'regionsofmaizegenesoccurfrequentlyandcanbeusedashighlyinformativegeneticmarkers"PlantMol.Biol.48:539-47;Nickerson等人(1997)"PolyPhred:automatingthedetectionandgenotypingofsinglenucleotidesubstitutionsusingfluorescence-basedresequencing"NucleicAcidsRes,25:2745-2751;Underhil1等人(1997)"DetectionofnumerousYchromosomebiallelicpolymorphismsbydenaturinghigh—performanceliquidchromatography"GenomeRes.7:996-1005jShi(2001)"Enablinglarge-scalepharmacogeneticstudiesbyhigh—throughput迈utationdetectionandgenotypingtechnologies"Clin.Chem.47:164-172jKwok(2000)"High-throughputgenotypingassayapproaches"Pharmacogenomics1:95-100;Rafalski等人(2002)"Thegeneticdiversityofcomponentsofryehybrids"CellMolBiolLett7r471-5jChing和Rafalski(2002)"RapidgeneticmappingofestsusingSNPpyrosequencingandindelanalysis"CellMolBiolLett.7:803-10;和Powell等人(1996)"ThecomparisonofRFLP,RAPD,AFLPandSSR(迈icrosatellite)markersforgermplasmanalysis"Mol.Breeding2:225-238,SNPs在DNA序列中个体在单个DNA碱基上不同的位点称作单核苷酸多态性(SNPs).SNP可由例如点突变造成.通过许多本领域已知的技术中的任一个可发现SNPs.例如,可通过从几个个体直接测序DNA片段(例如,通过PCR扩増的)来检测SNPs(参见,例如Ching等人(2002)"SNPfrequency,haplotypestructureandlinkagedisequilibriuminelitemaizeinbredlines"BMCGenetics3:19).在另一个示例中,通过可获得的来源于多个基罔型的序列(例如,ESTs、STSs)的计算机分析可发现SNPs(参见,例如Marth等人(1999)"Ageneralapproachtosingle-nucleotidepolymorphismdiscovery"NatureGenetics23:452—456和Beutow等人(1999)"ReliableidentificationoflargenumbersofcandidateSNPsfrompublicESTdata"NatureGenetics21:323-325).(Indels,一个或多个核苷酸的插入或缺失,也可通过测序和/或计算机分析被发现,例如在SNP发现的同时).类似地,通过测序可确定SNPs的基因型.也可通过各种其它本领域已知的方法(包括高通量方法),例如通过使用DM芯片、等位基因特异性杂交、等位基因特异性PCR和引物延伸技术确定SNPs的基因型。参见,例如,LUdblad-Toh能量(2000)"Large-scalediscoveryandgenotypingofsingle—nucleotidepolymorphismsinthemouse"NatureGenetics24:381-386;Bhattramakki和Rafalski(2001)"Discoveryandapplicationofsinglenucleotidepolymorphismmarkersinplants"inPlantGenotypingrTheMAFingerprintingofPlants,CABIPublishing;Syvanen(2001)"Accessinggeneticvariation:genotypingsinglenucleotidepolymorphisms"Nat.Rev.Genet.2:930-942;Kuklin等人(1998)"Detectionofsingle-nucleotidepolymorphismswiththeWAVETMDNAfragmentanalysissystem"GeneticTesting1:201-206jGut(2001)"Automationingenotypingsinglenucleotidepolymorphisms"Hum.Mutat.17:475-492;Lemieux(2001)"Plantgenotypingbasedonanalysisofsinglenucleotidepolymorphismsusingmicroarrays"inPlantGenotyping:TheDNAFingerprintingofPlants,CABIPublishing;Edwards和Mogg(2001)"Plantgenotypingbyanalysisofsinglenucleotidepolymorphisms"inPlantGenotyping:TheDNAFingerprin"ngofPlants,CABIPublishing;Ahmadian等人(2000)"Single-nucleotidepolymorphismanalysisbypyrosequencing"Anal.Biochem.280:103-110;Useche等人(2001)"High-throughputidentification,databasestorageandanalysisofSNPsinESTsequences"GenomeInformSerWorkshopGenomeInform12:194-203;Pastinen等人(2000)"Asystemforspecific,high-throughputgenotypingbyallele-specificprimerextensiononmicroarrays"GenomeRes.l(h1031-1042',Hacia(1999)"Determinationofancestralallelesforhumansingle—nucleotidepolymorphismsusinghigh-densityoligonucleotidearrays"NatureGenet.22:164-167j和Chen等人(2000)"Microsphere—basedassayforsingle—nucleotidepolymorphismanalysisusingsinglebasechainextension"GenomeRes.10:549-557,通过类似的方法可发现和检测多核苷酸多态性.RFLPs如上面所提到的,不同个体具有不同的基因组DNA序列.因此,当用一个或多个识別特异性限制位点的限制性内切核酸酶消化这些DNA序列时,一些所得的片段具有不同的长度.所得的片段就是限制性片段长度多态性.短语限制性片段长度多态性或RFLPs是指在限制醉位点上固有的不同(例如,由于在靶位点上的碱基突变造成的)或在側翼连接限制酶位点的区域内的添加或缺失,所述添加或缺失导致在通过用相关的限制酶切割产生的片段的长度上的不同.点突变导致更长的片段(如果突变在限制位点之内)或更短的片段(如果突变产生限制位点).插入和转座因子整合导致更长的片段,而缺失导致更短的片段.最初,通过DNA印迹和杂交进行RFLP.目前更通常通过PCR进行RFLP分析.成对的连接包含RFLP区域的寡核苷酸引物用于扩增来自基因组DNA的片段.可直接地分析PCR产物的大小,且如杲片段包舍多态性限制位点,那么可用睐消化PCR产物并且可分析消化产物的大小.用于发现和确定RFLPs基因型的技术已在文献中详细地描述.参见,例如,Gauthier等人(2002)"RFLPdiversityandrelationshipsamongtraditionalEuropeanmaizepopulations"Theor.AppLGenet.105:91-99;Ramalingam等人(2003)"Candidatedefensegenesfromrice,barley,andmaizeandtheirassociationwithqualitativeandquantitativeresistanceinrice"MolPlantMicrobeInteract16:14-24;Guo等人(2002)"RestrictionfragmentlengthpolymorphismassessmentoftheheterogeneousnatureofmaizepopulationGT-MAS:gkandfieldevaluationofresistancetoaflatoxinproduction-byAspergillusflavus"JFoodProt65:167-71jPejic等人(1998)"ComparativeanalysisofgeneticsimilarityamongmaizeinbredUnesdetectedbyRFLPs,RAPDs,SSRsandAFLPs"Theor,App.Genet.97:1248-1255j和Powell等人(1996)"ThecomparisonofRFLP,RAPD,AFLPandSSR(microsatellite)markersforgermplas迈analysis"Mol.Breeding2:225-238.RAPDs为鉴定随机扩增多态DNAUAPD)标记,随机选择寡核苷酸(例如,八核苷酸、十核苷酸).植物基因组DNA的复杂性高到足以使与寡核苷酸互补的一对位点可随机地以正确的方向存在并且相互之间可以足够接近以允许PCR扩增被该对位点划定界限的片段.对于一些随机选择的寡核苷酸,没有扩增出序列.对于其它的寡核苷酸,相同长度的产物产生自不同个体的基因组DNA.然而,对于其它的寡核苷酸,在群体中对于每一个个体而言产物长度都不相同,从而提供了有用的RAPD标记.RAPD标记已描述于,例如,Pejic等人(1998)"Co迈parativeanalysisofgeneticsimilarityamongmaizeinbredlinesdetectedbyRFLPs,RAPDs,SSRsandAFLPs"Theor.App.Genet.97:1248-1255;和Powell等人(1996)"ThecomparisonofRFLP,RAPD,AFLPandSSR(microsatellite)markersforgermplasmanalysis"Mol.Breeding2:225-238,AFLPs任意片段长度多态性(AFLPs)也可用作遣传标记(Vos,P.等人,Nucl.AcidsRes.23:4407(1995)).短语"任意片段长度多态性"是指在被限制性内切核酸酶切割前或切割后经扩增的选择的限制片段。所述扩增步骤允许更容易的检测特异性限制片段,而不是确定所有限制片段的大小和与已知对照比较大小。AFLP允许检测大t多态标记(参见,同上)和已用于植物的遗传作困(Becker等人(1995)Mol.Gen.Genet.249:65;和Meksem等人(1995)Mol.Gen.Genet.249:74)和区别紧密相关的细菌物种(Huys等人(1996)Int'1J.SystematicBacteriol.46:572)。SSRs简单序列重复(SSRs)是短的串联重复(例如,二-、三-或四核苷酸串联重复)在基因组中SSRs可以以高水平发生.例如,已报道在人基因組中二核苷酸重复发生多达50,000次,具有10至60的n(在给定的SSR区域内二核苷酸序列串联重复的次数)变化(Jacob等人(199DCell67:213).在高等植物中也已发现SSRs;参见,例如Taramino和Tingey(1996)"Simplesequencerepeatsforgermplasmanalysisandmappinginmaize"Geno鹏e39:277-287;Condit和Hubbell(1991)Genome34:66;Peakall等人(1998)"Cross-speciesamplificationofsoybean(Glycinemax)simplesequencerepeats(SSRs)withinthegenusandotherlegumegenera:implicationsforthetransferabilityofSSRsinplants"MolBiolEvol15:1275-87;Morgante等人(1994)"Geneticmappingandvariabilityofsevensoybeansimplesequencerepeatloci"Genome37:763-9;和Zietkiewicz等人(1994)"Genomefingerprintingbysimplesequencerepeat(SSR)-anchoredpolymerasechainreactionamplification"Genomics20:176-83.简而言之,可通过例如将引物与植物基因组的保守区域杂交来产生SSR数据,所述区域側翼连接SSR区域.然后利用PCR扩增引物之间的核苷酸重复.然后对扩增的序列进行电泳以确定所述扩增片段的大小,并从而确定二、三和四核苷酸重复的次数,其它标记其它检测序列多态性的遣传标记和方法在本领域是已知的并且可用于本发明的实践中,包括,但不限于,单链构象多态性(SSCPs)、扩増的可变序列、同工酶标记、等位基因特异性杂交和自动维持序列扩増,参见,例如,0rita等人(1989)"Detectionofpolymorphismsofhu迈anDNAbygelelectrophoresisassingle-strandconformationpolymorphisms"Proc.Natl.Acad.Sci.USA86:2766-2770;授予Beavis的USPN6,399,855,标题为"QTLmappinginplantbreedingpopulations"j和上述参考文献,在其它研究中,例如,在基因功能研究、影响目的表型、目的性状的生理学等的生物化学途径的研究中鉴定的候选基因也可在笫一群体和把群体中用作标记,单元型区在给定的染色体上的成套相邻遣传标记可在区内遗传.在一些情况下,这种区的单元型(例如,单元型标记,例如,包含代表区内更多多态性的少数SNPs的单元型)可比区内单个遣传标记(例如,单一SNP)的单元型具有更多的信息.参见,例如,Rafalski(2002)"Applicationsofsinglenucleotidepolymorphismsincropgenetics"Curr.Opin.PlantBio,5:94-100和Johnsonet(2001)"Haplotypetaggingfortheidentificationofcommondiseasegenes"Nat.Genet.29:233-237中的单元标记描述.分子生物學技术在实践本发明过程中,任选地使用许多分子生物学和重组DNA技术中的常规技术.这些技术是熟知的并且在下述文献中说明,例如Berger和Kimmel,GuidetoMolecularCloningTechniques,MethodsinEnzymologyvolume152AcademicPress,Inc.,SanDiego,CA("Berger");Sambrook等人,MolecularCloning-ALaboratoryManual(3rdEO,l-3巻,ColdSpringHarborLaboratory,ColdSpringHarbor,NewYork,2000("Sambrook")和CurrentProtocolsinMolecularBiology,F.M.Ausubel等人,eds.,CurrentProtocols,ajointventurebetweenGreenePublishingAssociates,Inc.和JohnWiley£Sons,Inc.,(supplementedthrough2004)("Ausubel")).其它有关细胞分离和培养(例如,随后的核酸分离)的有用参考资料包括,例如,Freshney(1994)CultureofAni迈alCells,aManualofBasicTechnique,thirdedition,Wiley-Liss,NewYork,和在其中引用的参考文献;Payne等人(1992)PlantCellandTissueCultureinLiqudSystemsJohnWiley&Sons,Inc.NewYork,NY;Gamborg和Phillips(Eds.)(1995)PlantCell,TissueandOrganCulture;FundamentalMethodsSpringerLabManual,Springer-Verlag(BerlinHeidelbergNewYork)和Atlas和Parks(Eds.)TheHandbookofMicrobiologicalMedia(1993)CRCPress,BocaRaton,FL。可通过许多熟知的方法获得寡核苷酸(例如,用作PCR引物,用于遣传标记检測方法等)例如,可根据Beaucage和Caruthers(1981),TetrahedronLetts.,22(20):1859-1862中描述的固相亚鳞酰胺三酯方法化学地合成寡核苷酸,例如使用商业可购的自动化合成仪,例如Needha加-VanDevanter等人在(1984)NucleicAcidsRes.,12:6159-6168中描述的.也可从各种本领域技术人员已知的商业来源订购寡核苷酸(包括,例如,标记的或经修饰的寡核苷酸).有许多寡核苷酸合成服务的商业提供商,因此,这是广泛可获得的技术.任何核酸都可从任何各种商业来源订购,例如TheMidlandCertifiedReagentCompany(www.mere,com)、TheGreatAmericanGeneCompany(www,genco.com)、ExpressGenInc.(www.expressgen.com)、QIAGEN(http:〃oligos,qiagen.co迈)和许多其它公司.定位克隆定位基因克隆使用至少一个遣传标记的邻近在物理上限定克隆的染色体片段,所述片段与使用此处的统计学方法确定的QTL连锁.这些连锁的核酸的克隆具有多种用途,包括用作在随后的标记辅助的选择方案中鉴定连锁的QTLs的遣传标记,和在重组植物中提高想要的特性,其中转基因植物中克隆的序列的表达影响目的表型性状.想要克隆的共同连锁的序列包括可读框,例如编码提供观察到的QTL的分子基础的蛋白.如果一个或多个标记与可读框邻近,那么其可与给定的DNA克隆杂交,从而鉴定所述可读框所位于的克隆.如果侧翼连接的标记较远,那么含有所迷可读框的片段可通过构建重叠克隆的重叠群来进行鉴定.在某些应用中,制备或克隆用于鉴定更远地与给定标记连锁的核酸、或分离与此处鉴定的QTLs连锁或负责所述QTL的核酸的大核酸是有利的.要认识到遣传上与多态核苷酸连锁的核酸任选地位于离所述多态核酸最高达约50厘摩的位置,尽管精确的距离将依赖于特定染色体区域的交换频率而变化.通常距离多态核苷酸的距离在1-50厘摩的范围内,例如通常小于1厘摩、小于大约1-5厘摩、大约1-5、1、5、10、15、20、25、30、35、40、45或50厘摩等,已知许多制备大重组RM和DNA核酸的方法,所述核酸包括重组质粒、重组入噬菌体、粘粒、酵母人工染色体(YACs)、Pl人工染色体、细菌人工染色体(BACs)等,对作为人工染色体的YACs、BACs、PACs和MACs的一般介绍描述于MonacoftLarin(1994)TrendsBiotechnol.12:280-286,用于制备大核酸的合适的克隆技术的示例和足以指导本领城技术人员进行许多克隆练习的说明书也在Berger、Sambrook和Ausubel(同上)中找到,在一个方面,与遣传标记杂交的核酸被克隆入大核酸例如YACs中,或在克隆自选择的作物的YAC基因组文库中被检测到,所述遣传标记与上述方法鉴定的QTLs连锁.YACs和YAC文库的构建是已知的.参见,例如,Berger(同上),Ausubel(同上),Burke等人(1987)Science236:806-812,Anand等人(1989)NucleicAcidsRes.17:3425-3433,Anand等人(1990)NucleicAcidsRes.18:1951-1956,和Riley(1990)NucleicAcidsRes.18:2887-2890,已构建了包含大豆DNA大片段的YAC文库(参见,Funke&Kolchinsky(1994)CRCPress,BocaRaton,Fla.pp.125-308;MarekftShoemaker(1996)SoybeanGenet.Newsl.23..126-129;Danish等人(1997)SoybeanGenet.Newsl.24:196-198).许多其它商业上重要的作物的YAC文库是可获得的或可使用已知的技术构建.类似地,粘粒或其它分子栽体例如BAC和Pl构建体也用于分离或克隆与遣传标记连锁的核酸.粘粒克隆也是已知的.参见,例如Ausubel;Ish-Horowitz&Burke(1981)NucleicAcidsRes.9:2989-2998;Murray(1983)LAMBDAII(Hendrix等人,eds.)pp.395-432,ColdSpringHarborLaboratory,N.Y.jFrischauf等人(1983)J.Mol.Biol.170:827-842;和Dunn&Blattner(1987)NucleicAcidsRes.15:2677-2698,以及在其中引用的参考文献,BAC和PI文库的构建是已知的,参见,例如,Ashworth等人(1995)Anal.Biochem.224:564-571;Wang等人(1994)Genomics24(3):527-534;Kim等人(1994)Genomics22:336-9;Rouquier等人(1994)Anal,Biochem.217:205-9jShizuya等人(1992)Proc.NatlAcad.Sci.USA89:8794-7;Kim等人(1994)Genomics22:336-9;Woo等人(1994)NucleicAcidsRes.22(23):4922-31;Wang等人(1995)Plant3:525-33;Cai(1995)Genomics29(2):"3-25;Schmitt等人(1996)Genomics33:9-20;Kim等人(1996)Genomics34(2):213-8;Ki边等人(1996)Proc,NatlAcad.Sci.USA13:6297-301;Pusch等人(1996)Gene183(1-2):29-33;和Wang等人(1996)GenomeRes.6(7):612-9.用于扩增与此处的多态核酸连锁的大核酸的改进的体外扩增方法概述于Cheng等人(1994)Nature369:684-685以及其中引用的参考文献,此外,任何此处描述的克隆或扩增策略可用于建立重叠克隆的重叠群,从而提供了在分子水平上显示遣传上连锁的核酸的物理关系的重叠核酸.该策略的普通示例发现于整个生物测序项目中,在所述项目中对重叠克隆进行测序以提供完整的染色体序列.在该过程中,根据标准的方法(描述于例如上述参考资料中的)制备生物的cDNA或基因组DNA文库.分离单个克隆并测序,将重叠序列信息排序以提供生物的序列,也参见,Tomb等人(1997)Nature388:539-547,其描述了全基因组随机测序和装配完整的幽门螺杆菌(Helicobacterpylori)基因組序列;Fleisch麵n等人(1995)Science269:496-512,其描述了全基因组随机测序和装配完整的流感嗜血菌(Haemophilusinfluenzae)基因組;Fraser等人(1995)Science270:397-403,其描述了全基因组随机测序和装配完整的生殖道枝原体(Mycoplasmagenitalium)基因组;和Bult等人(1996)Science273:1058-1073,其描述了全基因组随机测序和装配完整的唐氏甲烷球菌(Methanococcusjannaschii)基因组.Hagiwara和Curtis,NucleicAcidsRes.24:2460-2461(1996)开发了用于从非常大的克隆产生重叠核酸的"长距离测序仪"PCR方案,和扩增和标记重叠核酸形成合适的测序模板的方法.所述方法可与鸟枪测序技术结合使用以提高通常用于全生物测序项目的乌枪法的效率.如本发明所用的,所述技术可用于鉴定与QTLs以及负责QTL表达的"候选"基因遗传上连锁的基因组核酸和对其进行测序,所迷"候选"基因是由此处的方法鉴定的.如上面提到的,可将包含QTL的等位基因序列克隆和插入转基因植物中.产生转基因植物的方法在本领域是已知的并且在下面进行了简述.转基因植物来源于与遣传标记和/或由此处统计学方法鉴定的QTL连锁的核酸的核酸可被导入培养物或植物器官(例如,叶、茎、果实、种子等)中的植物细胞.通过可操作地将目的核酸连接至启动子,将所述构建体整合入表达栽体并将所述栽体导入合适的宿主细胞中,可获得天然的或合成的核酸的表达.一般的栽体(例如,质粒)包含转录和翻译终止子、转录和翻译起始序列和/或用于调控特定核酸表达的启动子.所迷栽体任选地包含基因表达盒,所述表达盒包含启动子、基因和终止子序列、允许所述表达盒在真核生物或原核生物或两者(例如穿梭栽体)中复制的序列和用于原核和真核系统中的选择标记.栽体适合在真核生物、原核生物或优选地在两者中复制和整合.参见,例如,Berger;Sambrook;和Ausubel-将QTL等位基因序列克隆入细菌宿主中细菌细胞可用于增加含有本发明的DNA构建体的质粒数目.可通过本领域已知的许多方法的任意一种(例如,电穿孔或氯化鈣)将质粒导入细菌宿主细胞.培养细菌,并通过各种本领域已知的方法(参见,例如,Sambrook)分离细菌内的所述质粒.此外,用于从细菌中纯化质粒的大量试刑盒可商业获得(例如,来自Stratagene的StrataClean或来自Qiagen的QIAprepT"),然后进一步搮作分离和纯化的质粒以产生用于转染植物细胞的其它质粒,或整合入根癌土壌杆菌(Agrobacteriumtumefaciens)中以感染植物的质粒.可选择地,可在细菌例如大肠杆菌(E.coli)中表达克隆的植物核酸和可分离和純化所得的蛋白.转染植物细胞重組栽体的制备为在上述技术中使用分离的序列,制备了适合植物细胞转化的重组DNA栽体.用于转化多种高等植物物种的技术是熟知的并且描述于技术和科学文献中,参见,例如,Weising等人(1988)Ann.Rev.Genet.22:421-477.编码想要的多肽的DNA序列(例如,编码全长蛋白的cDNA序列)优选地与指导来自基因的序列转录的转录和翻译起始调节序列組合.可通过分析与QTL相关的等位基因的编码序列上游的5,序列鉴定启动子.启动子序列的序列特征可用于鉴定启动子.已经详尽地研究了控制真核基因表达的序列.例如,启动子序列元件包括TATA框共有序列(TATAAT),所述序列通常位于转录起始位点上游20至30个碱基对处.在大多数情况下,TATA框是精确转录起始所必需的.在植物中,TATA框的更上游,在-80至-100位置,通常存在具有一系列围绕三核苷酸G(或T)NG的腺噪呤的启动子元件.参见,例如,J.Messing等人(1983)inGeneticEngineeringinPlants,pp.221-227(Kosage,Meredith和Hollaender,eds.)许多用于在植物基因组DNA中鉴定和表征启动子区域的方法对于本领域技术人员来说是熟知的(参见,例如,Jordano等人(1989)PlantCell1:855-866;Bustos等人(1989)PlantCell1:839-854;Green等人(1988)EMB0J.7:4035-4044;Meier等人(1991)PlantCell3:309-316;和Zhang等人(1996)PlantPhysiology110:1069-1079).在本发明的重组表达盒的构建中,可使用指导基因在再生的植物的所有组织中表达的植物启动子片段.这类启动子在此处称作"组成型"启动子并且在大多数环境条件下和发育或细胞分化状态下具有活性.组成型启动子的示例包括花耶菜花叶病毒(CaMV)35S转录起始区域、遍在蛋白启动子、来源于根癌土壤杆菌的T-DNA的l,-或2,-启动子,和其它来源于各种本领域技术人员已知的植物基因的转录起始区域.可选择地,植物启动子可指导本发明的多核苷酸在特定的组织中表达(组织特异性启动子)或可在更精确的环境控制下表达(诱导型启动子).在发育控制下的组织特异性启动子的示例包括只在某些组织,例如果实、种子或花中启动转录的启动子.例如,来自烟革的组织特异性E8启动子可用于指导基因表达以使想要的基因产物位于果实中.其它合适的启动子包括来自编码胚胎贮存蛋白的基因的启动子.可通过诱导型启动子影响转录的环境条件的示例包括厌氣性条件、提高的温度或光的存在.如果想要正确的多肽表达,则应当在编码区的3,末端包含聚腺苷酰化区域.聚腺苷酰化区域可来源于天然的基因、来源于多种其它植物基因或来自T-DNA.包含来自本发明的QTL等位基因的序列(例如,启动子或编码区)的栽体通常包含赋予植物细胞可选择的表型的标记基因.例如,所述标记可编码杀生物剂抗性、特别是抗生素抗性(例如对卡那審素、G418、博来審素、潮審素的抗性)或除草剂抗性(例如对chlorosluforon或草馁聘的抗性),将核酸导入植物细胞通过各种常规技术可将本发明的DNA构建体导入培养物或植物器官中的植物细胞.例如,使用例如电穿孔和植物细胞原生质体的显微注射可直接地将DNA构建体导入植物细胞中,或可使用生物弹射击方法例如DNA粒子轰击将DNA构建体直接导入植物细胞.可选^r地,将DNA构建体与合适的T-DNA側翼区域组合并导入常规的根癌土壤杆菌宿主栽体.当通过用细菌感染植物细胞时,根癌土壌杆菌宿主的侵入性功能指导构建体和相邻的标记插入植物细胞DNA中.显微注射技术在本领域是已知的并且在科学和专利文献中详细地描述.使用聚乙二醇沉淀导入DNA构建体的方法描述于Paszkowski等人(1984)EMB0J.3:2717.电穿孔技术描迷于Fromm等人(1985)Proc.Nat'lAcad.Sci.USA82:5824中。生物弹射击转化技术描述于Klein等人(1987)Nature327:70-73.根癌土壤杆菌介导的转化技术,包括二元栽体的消除(disarming)和使用,也详细地描迷于科学文献中.参见例如Horsch等人(1984)Science233:496-498和Fraley等人(1983)Proc.Nat'1Acad.Sei.USA80:4803中,转基因植物的产生可培养经转化的植物细胞(例如,来源于任何上迷转化技术的植物细胞)以再生完整的植物,所述完整的植物具有转化的基因型,并从而具有想要的表型.该再生技术依赖于组织培养生长培养基中某些植物激素的操作,所述搮作通常依赖于和想要的核普酸序列一起导入的杀生物剂和/或除草剂标记,来自培养的原生质体的植物再生描述于Evans等人(1983)"ProtoplastsIsolationandCulture"intheHandbookofPlantCellCulture,pp.124-176,Macmi11ianPublishingCompany,N.Y.j和Binding(1985)RegenerationofPlants,PlantProtoplasts,pp.21-73,CRCPress,BocaRaton,也可从植物愈伤组织、外植体、体细胞胚(例如Dandekar等人(1989)J.TissueCult.Meth.12:145和McGranahan等人(1990)PlantCellRep.8:512)、器官或其部分获得再生.这些再生技术通常描述于Uee等人(1987)Ann.Rev.ofPlantPhys.38:467-486,本领域技术人员认识到在表达盒穗定地整合入转基因植物中并确定有效后,其可通过有性杂交导入其它植物中.可使用许多标准育种技术中的任一种,这依赖于要杂交的物种.实施例下列提供一系列证明确定和利用玉米中穗轴颜色和遣传标记单元型之间的关联的实施例.要理解此处描述的实施例和实施方案是仅用于说明目的并且其各种修饰或改变对于本领域技术人员是可以想到的,并且包括在本申请的精神和范围和所附的权利要求的范围之内.因此,提供下列实施例说明但不限于请求保护的本发明.通过果皮颜色1(Pl)基因部分地确定玉米中的穗轴颜色(例如,红或白),参见,例如,Neuffer,Coe和Wessler(1997)MutantsofMaize,ColdSpringHarborLaboratoryPress,其第107页描述pl-wr,笫363页描述所述基因和其作用模式,和笫35页描述其图上的位置.下列实施例描述穗轴颜色和与pi连锁的遗传标记之间关联的确定.连锁图为产生遣传标记信息,横跨一套选自多代系谱的近交种(先锋的已建立的玉米育种群体),对大量选自EST数据库的基因座进行测序,基本上如下所述使用这些标记产生多点连锁困.成套的遣传标记包含5741个单元型(单元型区),所述单元型通过对5741个来自各近交种的EST序列的大约450个碱基对进行测序产生。例如,通过对使用下列引物扩增的嵌套式PCR产物进行测序来确定标记MZA6914单元型的基因型外部引物taggtgctttgcggaccttg(SEQIDNO:1)和tctgaacagcaaatcgttgttg(SEQIDNO:2),和内部引物IDNO:4).成套的的遣传标记也可包括505个SSR标记,所述标记的基因型已在B73/Mol7中得以确定并通过作困定位在公开的IBM2图上.成套的选自已建立的育种群体的近交种包括320个三生儿(triplet),各三生儿舍有两个近交系,而笫三近交系来源于这两个系的杂交,其对应于总共大约600个近交种.使用系谦信息和含有具有不同标记等位基因的近交亲本的三生儿,通过将标记分配到染色体上并将所迷标记在染色体上排序产生了包含6246个标记(5741个单元型和505个SSRs)的多点连锁困.(很明显并不是每一个三生儿对每一个标记都能提供信息,例如,如果亲本具有相同的标记等位基因).所述连锁困使用公开的IBM2图(http://www.maizegdb.org)作为骨架.针对5741个测过序的基因座的绝大部分设计overgo探针并与物理困详杂交,从而帮助结合物理和遗传困谬和允许对相邻太近而不能遣传作困的标记进行排序.似然比率TDT测试用于产生连锁困谦的近交系的表型数据(红或白色穗轴颜色)已被收集作为先锋正在进行的(Pioneer,songoing)育种程序的部分。使用来自三生儿的第三近交种进行关联分析,在所述三生儿中,对于穗轴颜色而言两个亲本近交系具有不同的表型(即,一个红色亲本和一个白色亲本);选自已建立的育种群体、来自这些三生儿的笫三近交种包含第一植物群体.成套的遣传标记在1号染色体上包含511个标记(488个单元型和23个SSRs),其基因型已通过上述测序得以确定,(所迷分析限于第一染色体,因为Pl基因座位于1号染色体上).此外,很明显并不是每一个三生儿对每个标记都提供信息;只有其中两个近交亲本具有不同标记单元型的三生儿提供信息。将遣传标记和表型信息以及第一植物群体中的近交种之间的系谦关系一起用于TDT分析(参见,例如,Gutin等人UOOl)"Allelicassociationinlargepedigrees"GenetEpidemiol.21Suppl1:S571-575和Spielman等人(1993)"Transmissiontestforlinkagedisequilibrium:Theinsulingeneregionandinsulin-dependentdiabetesmellitus(IDDM)"AmericanJournalofHumanGenetics52:506-516).基于TDT的关联测试转化成似然比率测试,所述测试称为似然比率TDT测试(LR-TDT),基于TDT的关联测试使用可从针对多个等位基因的TDT測试计算出来的数据,其中各单元型可具有超过两个等位基因(最初由Spielman和Ewens(1996)"TheTDTandotherfamily—basedtestsforlinkagedisequilibriumandassociation"AmericanJournalofHumanGenetics59:983-989提出).我们首先简要地描述用于双等基因标记数据的测试,然后将所述方法扩展到多个等位基因数据的分析.对于双等位基因数据,我们定义在给定的亲本基因型M浙中传递等位基因浙而不传递等位基因趙的条件概率为-户(浙,浙lg浙^),和传递等位基因趙但不传递浙的条件概率为/21-戶(浙,浙lgfu和^的最大似然估计值分别是+和""/(""+对于目的标记存在fl个具有提供信息的亲本的个体;这些中的化2遣传笫一标记等位基因和笫二性状表型,这些中的""遣传笫二标记等位基罔和笫一性状表型.罔此,将标记等位基因从杂合亲本传递到受影响的子代的对数似然函数为InA-to(&)+1n&,)=to^^.在零假设时相应的对数似然函数为似然比率测试统计学值为其具有(df表示自由度)的卡方分布.为将上式推广到多等位基因标记数据,我们假设针对各标记基因座(在该实施例中为各标记单元型)的i"个等位基因.我们指定一个等位基因,妖为浙等位基因.所有其它的等位基因一起作为等位基因浙来处理,并且将其等位基因计数合并以使多个等位基因数据转化成i"个双等位基因数据集.于是针对f个等位基因的对数似然比率测试统计学值(i^rk)是i个独立的对数似然比率测试(力i;;)的总和上迷多等位基因对数似然比率测试统计学值具有自由度W^-J的渐近卡方分布.闺4困示了针对511个按染色体位置顺序排列的标记的穗轴颜色TDT似然比率统计学值.似然曲线(困4)上的水平虚线是在针对多基因座测试ab"o7迈的Bonferroni调整后的阈值或显著性Zi7;值,其中迈是染色体上标记的数目,且"豕O.01.箭标表示pl基因座的位置,给出了关于上述的多点连锁闺的困谦位置.表1提供了关于LR-TDT测试的類外细节.对于几个遣传标记单元型(由MZA数字表示)的每一个,该表显示样品的大小(在笫一植物群体中第三近交种的数目,对应于为特定标记提供信息的三生儿的数目)、自由度(df,等于标记单元型数目减1)、TDT测试的卡方值、与卡方值相关的概率、连锁群(对应于公开的玉米遣传困详)和以厘摩为单位的困谦位置(cm,关于上述的多点连锁困谱).要注意具有频率低于5X的遣传标记单元型不包括在所述分析中.例如,对于MZA6914,三种单元型各具有低于5X的频率,从而不予考虑,而当三种单元型各具有大于5X的频率时,加予考虑.表i.针对穗轴颜色的LR-TDT结果<table>tableseeoriginaldocumentpage55</column></row><table>如闺4和表1中所表明的,在标记MZA6914和穗轴颜色之间观察到高度显著的关联.基于来自物理困谦的信息,MZA6914不是pl基因,但却是与pl紧密连锁的序列.应用根据MZA6914和如上所述在近交种笫一群体中确定的穗轴颜色之间的关联,在其它植物中基于其MZA6914基因型可预测穗轴颜色,并且该信息可用于选择和培貫想要的表型,例如,具有想要的MZA6914基因型(例如,与白色穗轴相关的MZA6914单元型)的植物可在授粉前被鉴定并用作白色玉米产品开发程序中的亲本,例如,其中其子代(包含靶植物群体)经预测具有白色穗轴.例如,在具有白色种子的杂种中,白色穗轴是想要的,因为红色颖片难以去除并且可将不想要的颜色加到产生自种子的玉米片(cornchip)、玉米粉圃饼(tortillas)等中.在授粉前选择植物可导致在开发过程中明显地节省劳力.因此,在植物授粉前预测子代的穗轴颜色表型可增加开发近交系和/或具有白色穗轴和白色种子的功效.如果想要,在用于在育种程序中选择亲本和预测子代表型之前在分离杂交中可答定关联.上述的关联分析和表型性状预测的示例使用穗轴颜色,但该类型的分析和预测同样可用于任何质重性状或以单基因为条件的任何简单性状.例如,针对许多植物疾病的单基因条件性抗性,和在本实施例中提出的策略可用于预測、培育和/或选择对这些疾病具有抗性的子代,在MutantsofMaize(同上)提供了许多其它的简单性状的示例.也如此处所提到的,通过使用设计用于鉴定与连续性状相关的遗传区域的统计学分析,可使用相关的策略确定关联和预测具有连续表型分布和可由多个基因座控制的性状的表型.尽管为了阐明和理解的目的,已对前述的发明进行了一些详细的描迷,但通过阅读该公开容,领域技术人员清楚可产生各种形式和细节上的变化而不背离本发明的真实范闺.例如,所有的上述技术和组合物可以以各种组合使用.所有出版物、专利、专利申请和/或其它本申请中引用的文献以其全文在此引用作为参考,就如同每一单个出版物、专利、专利申请和/或其它文献被单独地说明被引用作为参考一样.权利要求1.预测靶植物群体中表型性状值的方法,所述方法包括(a)提供至少一个遗传标记和表型性状之间的关联;其中估计第一植物群体中的所述关联,所述第一植物群体是已建立的育种群体或其部分;其中根据统计学模型估计第一植物群体中的所述关联,所述统计学模型合并所述第一植物群体的一套遗传标记的基因型和所述第一植物群体中的表型性状值;和,(b)提供至少一个靶植物群体成员的表型性状值,其中所述提供包括根据(a)的关联和根据至少一个与所述表型性状相关的遗传标记的至少一个成员的基因型预测所述值。2.权利要求l的方法,其中所迷笫一植物群体包含多个近交种、单交F1杂种或其组合.3.权利要求2的方法,其中所述笫一植物群体由近交种、单交Fl杂种或其组合组成.4.权利要求2的方法,其中所述各近交种和/或单交Fl杂种的祖先是已知的,且其中各近交种和/或单交Fl杂种是三个或更多个建立者中至少一个的后代.5.权利要求1的方法,其中所述已建立的育种群体包含至少三个建立者和建立者的后代,其中所述后代的祖先是已知的.6.权利要求5的方法,其中所述已建立的育种群体包含大约100至大约200个建立者和建立者的后代,其中所迷后代的祖先是已知的,7.权利要求1的方法,其中所述笫一植物群体的成员跨越至少3个育种周期.8.权利要求7的方法,其中所述笫一植物群体的成员跨越至少4个育种周期.9.权利要求7的方法,其中所述第一植物群体的成员跨越至少7个或至少9个育种周期.10.权利要求l的方法,其中所述表型性状是数量表型性状.11.权利要求l的方法,其中所迷表型性状是质量表型性状.12.权利要求l的方法,进一步包括选择至少一个把植物群体的具有想要的表型性状预测值的成员.13.权利要求12的方法,进一步包括将至少一个选择的所述靶植物群体的成员与至少一上其它植物进行育种,14.权利要求l的方法,其中所述第一植物群体包含大约50至大约5000个成员.15.权利要求1的方法,其中所述笫一植物群体包含多个近交系.16.权利要求1的方法,其中所述笫一植物群体包含多个单交F1杂种.17.权利要求l的方法,其中所述笫一植物群体包含多个近交种和单交F1杂种的组合.18.权利要求l的方法,其中通过在至少一个与至少一个测交亲本的顶交组合中估计所述第一植物群体的成员之间的表型性状来在所述第一植物群体中获得表型性状值.19.权利要求l的方法,其中所述表型性状选自产量、谷粒含水重、谷粒含油重、根抗倒伏性、茎杆抗倒伏性、抹高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量和穗轴颜色.20.权利要求l的方法,其中所述成套的遣传标记包含一个或多个单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸插入、至少一个核苷酸的缺失、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP).21.权利要求1的方法,其中所述成套的遗传标记包含1至10个标记。22.权利要求1的方法,其中所述成套的遣传标记包含500至50,000个标记.23.权利要求l的方法,其中通过实验确定各近交种的基因型和预测存在于所迷笫一植物群体中的各单交Fl杂种的基因型来获得所述笫一植物群体的成套遣传标记的基因型.24.权利要求23的方法,其中通过实验确定各近交种的基因型包括对来自各近交种的成套DNA片段进行测序.25.权利要求24的方法,其中所述成套DNA片段包含两个或更多个基因的5,非翻译区和/或3,非翻译区。26.权利要求l的方法,其中提供至少一个遣传标记和表型性状之间的关联包括提供包含两个或更多个遣传标记的单元型和表型性状之间的关联.27.权利要求l的方法,其中所述统计学模型合并所述笫一植物群体的成员之间的家系关系.28.权利要求l的方法,其中根据所迷统计学模型估计关联包含使用线性模型、混合线性模型或非线性模型进行Bayesian分析.29.权利要求28的方法,其中通过可逆的跳跃马尔可夫链MonteCarlo算法、厶方法或特征似然算法进行Bayesian分析.30.权利要求l的方法,其中根据所述统计学模型估计所述关联包括使用线性模型进行Bayesian分析,所述Bayesian分析通过可逆的跳跃马尔可夫链MonteCarlo算法进行.31.权利要求l的方法,其中根据所述统计学模型估计所述关联包括进行传递不平衡检验.32.权利要求1的方法,其中估计所述关联包括和/或允许确定一个或多个相关近交种和/或单交Fl杂种的系谱中的至少一个遗传标记的建立者等位基因的血缘同一信息,和允许在整个这样的系谦中追踪至少一个遣传标记.33.权利要求l的方法,其中通过实验确定所迷靶植物群体的至少一个成员的至少一个遣传标记的基因型,34.权利要求33的方法,其中通过高通量筛选经实验确定所述基因型。35.权利要求l的方法,其中预测所述把植物群体的至少一个成员的至少一个遣传标记的基因型,36.权利要求l的方法,其中所迷靶植物群体包含近交植物.37.权利要求l的方法,其中所迷靶植物群体包含杂交植物.38.权利要求37的方法,其中所述杂交植物包含从近交系之间单交产生的Fl后代。39.权利要求38的方法,其中所述F1后代从包含所述第一植物群体的近交种之间的单交产生,所述杂交植物不包含所述笫一植物群体.40.权利要求l的方法,其中所述靶植物群体包含从包含至少一个所述笫一植物群体的成员的育种杂交产生的后生世代。41.权利要求l的方法,其中在所述靶植物群体的至少一个成员中预测表型性状值包括使用最佳线性无偏预测方法预测所述值.42.权利要求l的方法,其中在所述靶植物群体的至少一个成员中预测表型性状值包括通过使用多重回归方法、选择指数技术、脊回归方法、线性最优化方法或非线性最优化方法预测所迷值.43.权利要求l的方法,其中所述笫一和靶植物群体由二倍体植物组成.44.权利要求1的方法,其中所述第一和靶植物群体选自玉米、大豆、高梁、小麦、向曰葵、水稻、低芥酸芥子、棉花和粟.45.权利要求44的方法,其中所述第一和靶植物群体包含玉米,46.权利要求45的方法,其中所述笫一和靶植物群体包含玉蜀黍.47.权利要求l的方法,进一步包括克隆与至少一个与表型性状相关的遣传标记连锁的基因,其中所述基因的表达影响所述表型性状,48.权利要求47的方法,进一步包括通过在宿主植物中表达克隆的基因构建转基因植物.49.通过权利要求12的方法选择的植物.50.通过权利要求13的育种方法产生的植物.51.通过权利要求48的方法产生的转基因植物.52.选择植物的方法,所述方法包括(a)提供至少一个遗传标记和表型性状之间的关联;其中估计第一植物群体中的所述关联,所述第一植物群体是已建立的育种群体或其部分;其中根据统计学模型估计第一植物群体中的所述关联,所述统计学模型合并所述笫一植物群体的一套遗传标记的基因型和所述第一植物群体中的表型性状值;和,(b)提供一个或多个来自一个或多个非适应系的植物,其中所述提供包括,就选择的包含至少一个与表型性状相关的遣传标记的基因型选择一个或多个植物.53.权利要求52的方法,其中所述第一植物群体包含多个近交种、单交F1杂种或其组合.54.权利要求53的方法,其中所述第一植物群体由近交种、单交F1杂种或其组合組成。55.权利要求53的方法,其中所述各近交种和/或单交Fl杂种的祖先是已知的,且其中各近交种和/或单交Fl杂种是三个或更多个建立者中至少一个的后代.56.权利要求52的方法,其中所述已建立的育种群体包含至少三个建立者和建立者的后代,其中所述后代的祖先是已知的.57.权利要求56的方法,其中所述已建立的育种群体包含大约100至大约200个建立者和建立者的后代,其中所述后代的祖先是已知的.58.权利要求52的方法,其中所述笫一植物群体的成员跨越至少3个育种周期.59.权利要求58的方法,其中所述第一植物群体的成员跨越至少4个育种周期.60.权利要求58的方法,其中所述第一植物群体的成员跨越至少7个或至少9个育种周期.61.权利要求52的方法,其中所迷表型性状是数量表型性状,62.权利要求52的方法,其中所迷表型性状是质量表型性状,63.权利要求52的方法,进一步包括在一个或多个具有所选择的基因型的植物中估计所述表型性状.64.权利要求63的方法,进一步包括选择至少一个具有所选择的基因型和想要的表型性状值的植物.65.权利要求64的方法,进一步包括将至少一个选择的具有所选择的基因型和想要的表型性状值的植物与至少一个其它植物进行育种.66.权利要求52的方法,其中通过在至少一个与至少一个测交亲本的顶交组合中估计所述笫一植物群体的成员之间的表型性状来在所述第一植物群体中获得表型性状值.67.权利要求52的方法,其中所述表型性状选自产重、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、林高、谷穗高、抗病性、抗虫性、抗早性、谷粒蛋白含量、试验重量和穗轴颜色.68.权利要求52的方法,其中所述成套的遣传标记包含一个或多个单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸插入、至少一个核苷酸的缺失、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性UFLP).69.权利要求52的方法,其中通过实验确定各近交种的基因型和预测存在于所述笫一植物群体中的各单交Fl杂种的基因型来获得所述第一植物群体的成套遣传标记的基因型.70.权利要求69的方法,其中通过实验确定各近交种的基因型包括对来自各近交种的成套DNA片段进行测序.71.权利要求70的方法,其中所述成套DNA片段包含两个或更多个基因的5,非翻译区和/或3,非翻译区.72.权利要求52的方法,其中提供至少一个遣传标记和表型性状之间的关联包括提供包含两个或更多个遣传标记的单元型和表型性状之间的关联.73.权利要求52的方法,其中所述统计学模型合并所述第一植物群体的成员之间的家系关系.74.权利要求52的方法,其中根据所述统计学模型估计关联包含使用线性模型、混合线性模型或非线性模型进行Bayesian分析.75.权利要求74的方法,其中通过可逆的跳跃马尔可夫链MonteCarlo算法、A方法或特征似然算法进行Bayesian分析.76.权利要求52的方法,其中根据所述统计学模型估计所述关联包括使用线性棋型进行Bayesian分析,所迷Bayesian分析通过可逆的跳跃马尔可夫链MonteCarlo算法进行.77.权利要求52的方法,其中根据所述统计学模型估计所述关联包括进行传递不平衡检验,78.权利要求52的方法,其中所迷第一植物群体和一个或多个非适应系由二倍体植物组成.79.权利要求52的方法,其中所述第一植物群体和一个或多个非适应系选自玉米、大豆、髙梁、小麦、向日葵、水稻、低芥酸芥子、棉花和栗.80.权利要求79的方法,其中所述第一植物群体和一个或多个非适应系包含玉米.81.权利要求80的方法,其中所述第一植物群体和一个或多个非适应系包含玉蜀黍.82.权利要求64的方法,进一步包括从具有选择的基因型和想要的表型性状值的至少一个所选择的植物中克隆基因,所述基因与至少一个与表型性状相关的遣传标记连锁,其中所迷基因的表达影响所述表型性状。83.权利要求82的方法,进一步包括通过在宿主植物中表达克隆的基因构建转基因植物.84.通过权利要求52的方法提供的植物.85.通过权利要求64的方法选择的植物.86.通过权利要求65的育种方法产生的植物.87.通过权利要求83的方法产生的转基因植物.全文摘要提供了用于使用遗传标记基因型(例如,基因序列多样性信息)提高开发具有改进的表型性能的植物品种(例如,单交杂种)的方法。提供了用于在植物中预测表型性状值的方法。所述方法使用第一植物群体的基因型、表型和任选地家系关系信息鉴定至少一个遗传标记和表型性状之间的关联,然后使用所述关联在一个或多个具有已知标记基因型的第二靶群体的成员中预测所述表型性状值。也提供了用于鉴定影响所述性状的新等位基因变体的方法。也提供了通过此处方法中的任一种方法选择的、提供的或产生的植物、通过此处方法中的任一种方法产生的转基因植物和用于进行此处方法的数字系统。文档编号A01H1/00GK101410008SQ200480021989公开日2009年4月15日申请日期2004年5月27日优先权日2003年5月28日发明者A·J·拉法尔斯基,M·库珀,O·S·史密斯,R·吕德特克,S·V·廷吉,W·S·尼布尔申请人:先锋高级育种国际公司;纳幕尔杜邦公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1