用于识别用于植物育种的杂交物种的方法与流程

文档序号:16851077发布日期:2019-02-12 22:44
用于识别用于植物育种的杂交物种的方法与流程

本申请要求2016年6月8日提交的美国临时申请No.62/347,344的权益和优先权。上述申请的整个公开内容以引用的方式并入本文。

技术领域

本公开通常涉及用于植物育种以及用于相关育种程序的方法,并且具体来说涉及用于识别用于产生用于植物育种以及用于相关植物育种程序中的新杂交物种的亲本的方法。



背景技术:

此部分提供本公开相关的背景信息,而并非必需是现有技术。

在植物发育过程中,通过选择性育种或基因操作对植物进行改性。而且,当达到理想的改进时,通过种植来自选定植物的种子并在经历过数代后收获得到的种子来发展商业规模的量。在整个过程中,基于被育种植物的特征和/或特点,并且类似地基于其亲本的特征和/或特点进行多项决定,尽管并不保证所有得到的杂交物种都继承或展现需要的特点。传统上,作为选择特定植物进一步发育的一部分,从植物和/或其得到的种子中取样,并进行试验以便只有具有所需特征和/或特点的植物和/或种子得到进展。植物发育涉及到大量可能的杂交物种,必须从中做出最终的育种决定。

附图说明

本文所述的图仅为关于选定的实施方案而非所有可能的实施方式的说明性目的,而且并非打算限制本公开的范畴。

图1是本公开的一种适用于识别用于植物育种的植物杂交物种的示例性系统的框图;

图2是一种可用于图1的示例性系统中的计算装置的框图;

图3A-3F说明对适合与图1的系统一起使用的一种示例性杂交物种数据结构的摘录;

图4是一种适合与图1的系统一起使用的用于识别用于植物育种的植物杂交物种的示例性方法;

图5是对群聚潜在杂交物种的亲本的图示;

图6是在某些育种群体中使用亲本的一种示例性分布的另一图示;

图7是在某些育种系统的育种群体中使用亲本的一种假设分布的图示;

图8说明涉及从四个潜在亲本中进行选择的一种示例性育种情形;并且

图9是基于历史数据(如某些年的杂交物种数据结构中所见),关于传统育种和图4的示例性方法的实例近交使用指数(IUI)的示例性图示对比。

在附图的数个视图中,相应的附图标记表示相应的部件。

具体实施方式

现将参考附图更全面地描述示例性的实施方案。本文中包括的描述和具体实施例仅打算用于说明目的,而且并非打算限制本公开的范畴。

农业产业中通常采用各种育种技术来产生需要的后代。育种程序常常实施所述技术来获得具有所需特征或特征组合(例如,产量、抗病性等)的后代。然而,在为所述程序选择一组育种开始或起始点时,难以准确确定对于杂交育种而言最佳的亲本,尤其是当有多种选择可用时。例如,给与1,000个以上雄性和/或雌性亲本品系的育种者可识别数百个、否则数千个具有生产商品的高潜能的杂交物种。另外,具有所需特征或特征组合的杂交物种尽管在田地中种植时可能表现良好,但出于各种原因并非必然在商业上取得成功。本文的系统和方法特别地配置成基于如由商业上成功的亲本(和/或所述亲本的亲本,和/或亲本品系中的其它成员)同与给定杂交物种相关的相关性和/或风险组合所确定的并且进一步取决于所述亲本(和/或所述亲本的亲本,和/或亲本品系中的其它成员)的个别特点和/或特征的亲本之间的潜在杂交物种的预测商业价值来选择用于育种管道的亲本。以此方式,提供关于所述亲本的潜在杂交物种的更完整画面,由此可以获得有效地选择用于植物育种管道的杂交物种群体。

现参考附图,图1说明一种用于识别用于育种植物的杂交物种的示例性系统100,其中可实施本公开的一个或多个方面。尽管在所述实施方案中,系统100的部件呈现为一种配置,但其它实施方案可包括例如根据被育种的具体植物、所关注的具体特征和/或特点、实施的具体育种技术等而以其它方式配置的相同或不同部件。

如图1中所示,系统100通常包括育种管道102,提供所述育种管道102通过杂交现有的一批亲本来产生新的植物。在某些实施方案中,采用育种管道102通过首先杂交亲本植物产生后代种子(和/或植物)来产生商品。管道102通常限定了金字塔形的进展,其中由来自亲本的大量潜在杂交物种开始,并且持续缩小来选择优选的和/或需要的杂交物种。管道102常涵盖由此大量的潜在杂交物种中识别表现优选的群体,通常涵盖使用本领域中已知的多种方法使后代群体经历严格的测试。在某些育种管道(例如,大型工业育种管道等)中,此方法可涵盖在多个位置、经历数年分多个阶段测试数百、数千或更多的杂交物种,最终达成选择减少的杂交物种集合用于商品发展。简单来说,育种管道102包含多种设计成用于将大量的杂交物种减少至相对少量的表现优越的商品的方法。

在此示例性实施方案中,参考玉米来描述育种管道102,并且通常指的是玉米。然而应了解,本文公开的方法不局限于玉米,并且可用在与其它植物相关的植物育种管道/程序中,例如用来改进任何水果、蔬菜、草、树或观赏植物,包括(但不限于)玉米(玉蜀黍)、大豆(Glycine max)、棉花(陆地棉,Gossypium hirsutum)、花生(Arachis hypogaea)、大麦(Hordeum vulgare)、燕麦(Avena sativa)、野茅(Dactylis glomerata)、水稻(Oryza sativa,包括籼稻和粳稻品种)、高粱(Sorghum bicolor)、甘蔗(Saccharum sp)、高羊茅(Festuca arundinacea)、草坪草物种(例如,物种:匍匐翦股颖(Agrostis stolonifera)、草地早熟禾(Poa pratensis)、偏序钝叶草(Stenotaphrum secundatum)等)、小麦(Triticum aestivum)和紫花苜蓿(Medicago sativa);芸苔属成员,包括花椰菜、卷心菜、菜花、油菜和油菜籽;胡萝卜、大白菜、黄瓜、成熟菜豆、茄子、茴香、四季豆、葫芦、韭菜、生菜、甜瓜、秋葵、洋葱、豌豆、胡椒、南瓜、萝卜、菠菜、瓜类蔬菜、甜玉米、番茄、西瓜、哈密瓜、硬皮甜瓜和其它瓜类;香蕉、蓖麻、椰子、咖啡、黄瓜、杨树(Poplar)、南方松(Southern pine)、辐射松(Radiata pine)、花旗松(Douglas Fir)、桉树(Eucalyptus)、苹果树和其它树物种;橙、葡萄、柠檬、酸橙和其它柑橘属植物;三叶草、亚麻籽、橄榄树、棕榈树、辣椒(Capsicum)、黑胡椒(Piper)和甘椒(Pimenta pepper);甜菜、向日葵、枫香树、茶叶、烟叶和其它水果、蔬菜、块茎和块根农作物。本文的方法也可结合非农作物物种使用,尤其用作模型系统的那些物种,诸如拟南芥(Arabidopsis)等。

如图1中所示,育种管道102包括亲本选择和杂交阶段104以及测试和选择阶段106,它们一起产生一种或多种商品108(广义上为选择杂交)。一般来说,管道102包括本领域技术人员已知的多种传统方法,如下文所述用于不同的阶段104、106来最终实现商品108。如下文将更详细描述,所说明的系统100包括育种引擎112,所述育种引擎112结合杂交物种数据结构114进行特别配置用来制备并为育种管道102,并且尤其是为其亲本选择和杂交阶段104提供亲本选择(由此有利于提高提供成功商品108的可能性,并且在阶段104中可能比在传统操作中使用更少的亲本/杂交物种)。

在管道102的阶段104中,亲本一经选择/识别,所述亲本即实际上杂交(仍在阶段104中)而从规定的亲本中获得植物(例如,种子)。还应了解,如本文所述一经选择亲本,即可采用杂交植物的任何传统方法来实际上产生植物群体。具体来说,本领域技术人员将了解,本文中在两个亲本之间可采用各种不同类型的受精,常取决于所选择的亲本类型,来产生植物。本领域中已知的复杂杂交流程的其它方式可进一步用于在选择和杂交阶段104中产生植物群体,例如包括杂交、近交、杂种优势的名称、种族、倍性水平(例如,单倍体、二倍体、双单倍体、三倍体、多倍体等)、物种等不同群组内部以及之间的3重杂交、4重杂交、5重杂交等。另外,也可以结合产生杂交物种群体来使用在两种植物或植物细胞之间产生植物的多种不同方式。

一旦在管道102的阶段104中产生杂交物种群体,则将其引向测试和选择阶段106,所述测试和选择阶段106包括生长空间,诸如温室、苗圃、育种小区、田地等。一旦从杂交物种长出植物(在阶段104中),基于一种或多种传统方法(如上文所述),将植物种植在,或更通常是使其经历阶段106的生长空间,由此使植物生长。在此阶段106中,在生长后或作为生长的一部分,可使杂交物种经历任意次测试。通常采用测试来确定群体中的哪种杂交物种应继续进行后续测试/评估(作为测试和选择阶段106的一部分)和/或哪种应进展为商品108,其中根据各种标准来进行所述选择/进展,所述标准包括(但不限于)对某些疾病的抗性、对某些害虫的抗性、视觉观察、与杂交物种相关的商品成本、杂交物种产生单倍体后代的倾向性、杂交物种产生双单倍体后代的倾向性、杂交物种诱导的倾向性和/或杂交物种在其将要加倍的至少一个细胞中具有大量染色体的倾向性。

在测试和选择阶段106,通过植物育种领域中已知的一种或多种技术来测试杂交物种(例如,由亲本杂交物种得到的种子、由亲本杂交物种得到的植物等)中是否存在至少一个特点。所述技术可包括任意数量的已知适用于评估植物性能的测试、试验或分析,包括本领域中已知的任何表型或基因分型分析。可进行评估的种子表型的常见实例包括化学物质在种子的至少一种组织中,例如花青素、蛋白质、脂质、碳水化合物等在胚芽、胚乳或其它种子组织中的大小、形状、表面积、体积、质量和/或量。当植物(例如,由种子进行培养的等)已选定或另外经过改性而产生特定的化学物质(例如,药品、毒素、香料等)时,可对种子进行分析来对所需的化学物质进行定量。基于所述测试的结果,育种者或其它用户接着可选择显现出含有一种或多种所需特点的那些种子或种子群体用于在管道102中进展。遗传分析的实例可包括任何形式的核酸检测和/或表征,包括测序、通过测序进行基因分型、检测和表征与某些等位基因和/或定量特点基因座相关的序列、种子群体中的等位基因频率、转基因或用户感兴趣的RNA序列等。

关于所述测试,也可以使用适用于育种者的任何方法来对(例如,得到的种子、得到的植物等的)杂交物种的组织进行基因分型(与测试完整的种子或植物截然相反)。常见的实例包括以不杀死种子或植物或不以其它方式防止种子或植物在经受考验时存活的方式收获胚芽和/或胚乳材料/组织的样品。例如,可以采用种子削片从杂交物种中获得种子样品以用于确定种子中和/或可能在样品种子所来源的群体中含有特定的核酸序列。收集种子组织样品进行分析的任何其它方法都可用于基因分型,以及直接对不需要除去组织样品的种子组织进行基因分型分析的目的。在某些实施方案中,胚芽和/或胚乳与种子的其它组织仍保持连接。在某些其它实施方案中,胚芽和/或胚乳与种子的其它组织分离(例如,胚芽挽救、胚芽切除等)。

此外,可以通过多种用于对杂交物种进行基因分型的方法中的一种或多种来获取种子(或植物)的组织。常用方法例如包括使用至少一种分子标记(例如,单核苷酸多态性(SNP)标记等)和/或至少一种基于测序的方法(例如,通过测序进行基因分型(GBS)等)来检测种子或植物的胚芽或胚乳中是否存在某些核苷酸序列。应了解,视情况而定(例如,植物种类、待进行基因分型的植物数量、育种程序的规模等),其它适用于对种子的植物胚芽或胚乳组织中的核苷酸序列进行检测、定量和/或对比的方法可与本文所述的方法结合使用。一般来说,可使用用户用来辅助选择种子或植物(或胚芽、或胚乳)的方法的任何基因分型方法(或表型方法)以便进展到测试和选择阶段106和/或育种管道102中的下一阶段。

照此而言,应了解,在所说明的实施方案中,育种管道102的测试和选择阶段106在分析杂交物种(和/或杂交物种上和/或内的组织)时不局限于某些或特定的基因分型或表型方法或技术,因为可使用适合有助于确定杂交物种的细胞在生命周期的任何阶段的基因分型和/或表型的任何方法和/或技术。在一种实施例中,植物研究者可以使种子从杂交物种发芽和/或将植物从胚芽培育至稍后的发育阶段以完成适用于对植物进行选择的测试。相反,在某些实施例中,有利的是基于可无需使种子发芽或另外培育植物孢子体即可进行分析来测试和选择植物。

育种管道102的测试和选择阶段106也可包括多次重复,如图1中箭头所示,其中使杂交物种生长和/或进行测试和选择,并且由此使潜在杂交物种群体减小。可以在不同次的所述重复之间改变在测试和选择阶段106的不同部分进行的测试,以基于任何需要的标准来减小杂交物种群体。另外,对杂交物种群体的进一步改性可以作为测试和选择阶段106的一部分来完成,其中对杂交物种增加不同的特点,诸如对一种或多种害虫、疾病等的抗性。

最后在育种管道102中,基于测试和选择阶段106的结果,使种子或种子群体进展成为商品108。种子和/或杂交物种接着通常进行散装以提供种子进行商业销售和/或可能用于对选定种子进行其它进一步的最终测试。

继续参考图1,系统100的育种引擎112配置成通过计算机可执行的指令来选择杂交物种提供给育种管道102(尤其是提供给亲本选择和杂交阶段104)以如上文所述用于其中。例如,一旦提供给亲本选择和杂交阶段104,选定/识别的亲本(如由育种引擎112提供)即实际上杂交(在阶段104)。

尤其在系统100中,育种引擎112配置成访问杂交物种数据结构114,并基于其中的数据针对数据结构114中的每一个杂交物种产生群体预测分值(尤其基于与待杂交的亲本相关的杂交物种数据结构114中的数据)。育种引擎112配置成接着由数据结构114产生和/或检索群体中选定的(或所有)杂交物种的群体预测分值。另外,育种引擎112配置成基于与群体预测分值相关的阈值选择(例如,过滤等)杂交物种子群,并基于所述子群中亲本的相关性从所述子群中进一步选择(例如,过滤等)一批目标杂交物种(例如,有助于实现通常可控数量的潜在杂交物种以供在育种管道102等中实施)。

接下来,将育种引擎112配置成基于一种或多种预定规则和相关阈值(如由规则所定义)的集合从含有不利特点的那批目标杂交物中放弃(即,不选择进展到管道102中)亲本(并因此除去来自这些亲本的不利杂交物种)。任何数量的规则和阈值都可结合放弃不想要的/不利的杂交物种(且因此放弃其亲本)来使用(例如,十项规则、小于十项规则、十八项或十八项以下的规则、二十项或二十项以下的规则、二十项以上的规则、任何其它数量的规则等)。所述规则和相关阈值可存储在杂交物种数据结构114中,或可在与育种引擎112相关的存储器中单独存储。另外,所述规则和阈值可视需要由育种者(或系统100的其它用户)产生,和/或可基于历史数据(例如,数据结构114中包括的历史数据、其它历史数据等)产生。照此而言,应了解,例如基于亲本的特点值,育种引擎112可采用各种不同的规则以有助于改进在初始选择后仍留在系统100中的杂交物种的总体质量。

表1说明育种引擎112基于不利的表型特点和/或特征可结合从一批目标杂交物种(或目标亲本)中滤出或剔除亲本(或杂交物种)来使用的五种实例规则和相应阈值。具体而言,表1中的规则涉及茎秆倒伏(STLP)、根倒伏(RTLP)、戈斯枯萎(GW)、亲本相似性(相似性)以及两个亲本的预期相对成熟度(ERM)之间的差异(即,dERM)。

表1

在从杂交物种数据结构114中选择所需的杂交物种(和亲本)并建立一批潜在杂交物种(和亲本或来源)后,育种引擎112配置成接着基于产生商用后代的可能性以及基于用另一批品系占据育种管道102来从剩余的那批杂交物种中选择至少一种杂交物种(从那批中选择两个亲本来杂交)。用另一批品系占据育种管道102可包括以下中的一种或多种:为对数种疾病展示抗性的杂交物种选择亲本、为在管道102中测试数年的杂交物种选择亲本以及引导管道102包括所需的产品组合以满足目前和/或预测的市场需要。一旦进行选择,育种引擎112即配置成将选定的亲本(或选定的杂交物种)引向育种管道102以进行实际杂交。

应了解,在整个育种管道102中,并且对于多个先前的管道(未显示)而言,将与亲本和/或亲本的杂交物种相关的数据汇编到来自育种管道102的杂交物种数据结构114中(如图1中的虚线所示)。另外,数据结构114包括关于所需种子、植物等(例如,在本文的各个实施例中为玉米,等)的1-N年的历史数据116。因此,数据结构114包括多个不同种子亲本的数据和与种子亲本相关以及与种子亲本潜在的杂交物种相关的各种实例指标、特征和/或特点等以供育种引擎112使用。例如,数据结构114可包括与特定近交玉米的后代中的穗骨架化相关的数据。另外,数据结构114可包括与对特定大豆或棉花植物的后代中的根结线虫感染的耐受性发生率相关的数据。类似地,数据结构114可包括与玉米的其它特征或其它农作物的其它特征相关的数据。

图2说明可用于系统100中的一种示例性计算装置200,例如关于育种管道102的各个阶段、关于育种引擎112、杂交物种数据结构114等。例如,在育种管道102的不同部分,育种者或其它用户与计算装置互动、与计算装置200一致地输入数据和/或访问杂交物种数据结构114中的数据来支持由所述育种者或其它用户完成/实现的育种决定和/或测试。此外,育种引擎112包括至少一个与计算装置200相一致的计算装置。与此相关的,计算装置200可配置成通过可执行的指令来实施本文所述的各种算法和其它操作。应了解,如本文所述的系统100可包括与计算装置200相一致或不同于计算装置200的各种不同的计算装置。

示例性的计算装置200可包括例如一个或多个服务器、工作站、个人电脑、笔记本电脑、平板电脑、智能手机、其它合适的计算装置、其组合等。另外,计算装置200可包括单个计算装置,或其可包括紧密安置或分布在一定地理区域且通过一个或多个网络相互耦接的多个计算装置。所述网络可包括(不限于)因特网(Internet)、内联网、个人或公共场所局域网(LAN)、广域网(WAN)、移动网络、远程通信网络、其组合或其它合适的网络等。在一个实施例中,系统100的杂交物种数据结构114包括至少一个服务器计算装置,而育种引擎112包括至少一个单独的计算装置,所述单独的计算装置直接和/或通过一个或多个LAN等耦接至杂交物种数据结构114。

照此而言,所说明的计算装置200包括处理器202和与处理器202耦接(且连通)的存储器204。处理器202可包括(不限于)一个或多个处理单元(例如,在多核配置中,等),包括中央处理单元(CPU)、微控制器、精简指令集计算机(RISC)处理器、专用集成电路(ASIC)、可编程逻辑装置(PLD)、门阵列和/或具备本文所述功能的任何其它电路或处理器。以上清单只是示例性的,且因此并非打算以任何方式限制处理器的定义和/或含义。

如本文所述的存储器204是能够存储和检索信息(诸如可执行指令和/或其它数据)的一种或多种装置。存储器204可包括一个或多个计算机可读存储介质,诸如(不限于)动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、固态装置、闪存驱动器、CD-ROM、拇指驱动器、磁带、硬盘、和/或任何其它类型的易失性或非易失性物理性或实体的计算机可读介质。存储器204可配置成用于存储(不限于)杂交物种数据结构114、亲本和/或杂交物种选择/剔除规则、如本文中所用的各种阈值、如本文中所用的各种分值、育种决定、与商品相关的数据和/或如本文所述适合使用的其它类型的数据(和/或数据结构)等。在各种实施方案中,计算机可执行指令可存储在存储器204中由处理器202来执行以致使处理器202执行本文所述的一种或多种功能,以便存储器204是物理性的有实体的且非瞬时性的计算机可读存储介质。应了解,存储器204可包括各种不同的存储器,每个实施本文所述的一种或多种功能或方法。

在示例性的实施方案中,计算装置200还包括与处理器202耦接(且连通)的表示单元206。表示单元206例如通过展示和/或另外输出信息向计算装置200的用户(例如,育种者等)输出或表示,所述信息诸如(但不限于)选定用于杂交物种中的亲本、选定用于进展成商品的杂交物种和/或任何其它类型的数据。进一步应了解,在一些实施方案中,表示单元206可包含显示装置以便可在计算装置200上,并且尤其在显示装置上显示各种界面(例如,应用(基于网络或其它方式)等)来显示所述信息和数据等。而且在一些实施例中,计算装置200可导致界面在另一计算装置(包括例如作为具有多个网页的网站的主机的服务器)的显示装置上显示或与另一计算装置中采用的网络应用相互作用,等。表示单元206可包括(不限于)液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、“电子墨水”显示器、其组合等。在一些实施方案中,表示单元206可包括多个单元。

计算装置200还包括接收用户输入的输入装置208。输入装置208与处理器202耦接(且连通),并且可包括例如键盘、定点装置、鼠标、触笔、触敏控制板(例如,触摸板或触摸屏等)、另一计算装置和/或音频输入装置。另外,在一些示例性实施方案中,诸如在平板电脑或类似装置中所包括的触摸屏可同时充当表示单元206和输入装置208。在至少一个示例性实施方案中,表示单元206和输入装置208可省略。

另外,所说明的计算装置200包括与处理器202(并且在一些实施方案中,也与存储器204)耦接(且连通)的网络界面210。所述网络界面210可包括(不限于)有线网络适配器、无线网络适配器、远程通信适配器或能与一个或多个不同网络通信的其它装置。在至少一个实施方案中,采用网络界面210来接收对计算装置200的输入。例如,网络界面210可与现场数据收集装置耦接(且连通),诸如2015年8月14日提交的标题为“Apparatus And Methods For In-Field Data Collection And Sampling”的PCT申请No.PCT/US2015/045301和2014年8月15日提交的相应美国临时申请No.62/037,968中所述的那些数据收集装置(各自的公开内容以全文引用的方式并入本文),从而收集如本文中所述使用的数据。在一些示例性实施方案中,计算装置200包括处理器202和一个或多个并入处理器202中或与处理器202仪器并入的网络界面。

应了解,育种引擎112可配置成用于提供(例如,产生或导致在育种者的计算装置上显示)和/或对用户界面作出响应,通过育种引擎112育种者(广义上为用户)能够作出选择并且提供关于亲本和杂交物种的输入。用户界面可直接在育种者的采用育种引擎112的计算装置(例如,计算装置200等)中提供,或通过一个或多个基于网络的应用来提供,远程用户(再次可能是育种者)通过所述基于网络的应用能够与如本文所述的育种引擎112互动。

图3A-3F说明一种示例性的摘录300,其构成系统100的杂交物种数据结构114的一部分。因此,摘录300中所含的数据存储在存储器(例如,存储器204等)中,并由育种引擎112访问来执行如本文所述的操作。所说明的摘录300通常包括用于识别玉米的多个不同杂交物种的表格以及各个不同杂交物种的亲本P1、P2(图3A)以及与杂交物种和/或所述亲本P1、P2相关的各种实例指标、特征和/或特点(图3A-3F)。如图3A和3B中所示(D-O列),摘录300包括实例指标、特征和/或特点,诸如且不限于亲本的选择指数的线性无偏预测值(P1_SELIN_blup、P2_SELIN_blup)、亲本的产量的最佳线性无偏预测值(P1_YLD_BE_blup、P2_YLD_BE_blup)、亲本的水分含量(P1_MST_blup、P2_MST_blup)、亲本的选择测试方式(P1_SELTM_blup、P2_SELTM_blup)、亲本的测试重量(P1_TWT_blup、P2_TWT_blup)以及亲本的根倒伏(P1_RTLP_blup、P2_RTLP_blup)。此数据通常由每年的田间试验获得。另外,图3B(P-S列)说明本文中可用的各种指标,诸如在某一阶段测试的亲本可进展至下一阶段的可能性(P1_AVG_SCORE_PS1、P2_AVG_SCORE_PS1、P1_PR_ADV、P2_PR_ADV)。这些指标由经过训练用于预测亲本在经过识别进展到育种管道的各个阶段的杂交物种中的可能性的机械学习模型获得。

应了解,摘录300本身是示例性的,并且在本文中提供仅用于说明目的。本领域技术人员将易于了解,可包括与杂交物种和/或其亲本P1、P2的各种指标、特征和/或特点相关的其它和/或不同数据。另外,摘录300可包括其它和/或不同指标,例如分值、范围、阈值和/或其它原理等,由此可通过本文所述的系统和方法来识别和/或(不)选择杂交物种。

图4说明一种选择某些亲本在植物育种过程中的杂交物种的示例性方法400。示例性方法400在本文中结合系统100来描述,并且可由系统100的育种引擎112来实施。另外,为说明目的,示例性方法400也参考图2的计算装置200和图3A-3F的摘录300,由系统100的杂交物种数据结构114来描述。然而应了解,方法400或本文所述的其它方法不局限于系统100、计算装置200或摘录300。而且反过来,本文所述的系统、数据结构和计算装置也不局限于示例性方法400。

最初,育种者(或其它用户)初始识别可能与进展所需的一种或多种特征和/或特点一致的育种所需植物类型,或所需的性能。例如,对于美国中部、南部的区域而言,目标为玉米的育种者可选择繁殖不易受戈斯枯萎病影响而且也符合预定的多样性标准(例如,有助于保持育种程序的完整性,等)的抗旱玉米。一经识别,育种者向育种引擎112提供一个或多个与所需植物类型和/或所需特征和/或特点一致的输入(例如,通过使用基于网络的应用或其它应用等的计算装置200)。在以上实施例中,育种者提供的输入可包括识别玉米作为所需植物的输入以及限定抗旱特征、抗戈斯枯萎特征和多样性要求的相对重要性的三个权重输入。

反过来在方法400中,在接收来自育种者的所需输入后,育种引擎112在402处访问杂交物种数据结构114并开始识别用于育种的潜在亲本(基于所述输入),由此导致识别一组潜在的杂交物种。关于所述识别,数据结构114中的亲本(和杂交物种)可限制为以一种或多种高级方式与来自育种者的一种或多种用户输入相一致,例如包括选择与指定的具体植物类型(例如,玉米等)一致的亲本(和杂交物种)、预测性能(例如,产量等)、预期生长的区域(例如,美国中部、南部;等)、生长环境(例如,干旱等)、在预期生长区域的市场需求、某些基因型或表型特征(例如,对疾病和/或诸如干旱的逆境的耐受性、使杂交物种具有成本效益地商品化和/或在工业规模上生产的特点等)、在所需育种区域所需的产品组合、或可能由育种者输入(或另外需要)的任何其它特点、特征或结果。

在访问数据结构114并且基于育种者最初的输入初始识别潜在的亲本/杂交物种后,育种引擎112在404处产生对包含选定潜在亲本的选定杂交物种的群体预测分值。可通过育种引擎112产生关于识别的杂交物种的群体预测分值,每次育种引擎112都选择或识别它们可能用于植物育种管道102中(与图4一致)。或,群体预测分值或者可由育种引擎112间歇性地产生(例如,周期性地或以一个或多个规则或不规则的间隔)(例如,作为基于提供给杂交物种数据结构114的新数据的更新,等),并存储在杂交物种数据结构114中以限制在育种引擎112后续使用所述分值后再生。

应了解,群体预测分值通常是对每种选定杂交物种的商业成功性的预测。商业成功性可由任何所需的性能指标来定义。杂交物种商业成功的常见实例包括选择进展到育种系统100的某一点,在此所述杂交物种被“编码”进行商品化和/或杂交物种实际上作为商品发放。另外或或者,商业成功可代表杂交物种作为商品的性能(例如,一定数量单位的产品在市场上出售、杂交物种在市场上存在多年等)。

关于确定具体的群体预测分值,育种引擎112采用一个或多个不同的有监督、无监督或半监督算法/模型,诸如(但不限于)随机森林、支持向量机、逻辑回归、树形算法、朴素贝叶斯(Bayes)、线性/逻辑回归、深度学习、最近邻方法、高斯过程回归(Gaussian process regression)和/或各种形式的推荐系统算法(参考Kevin P.Murphy的“Machine learning:a probabilistic perspective”(MIT出版社,2012),其以全文引用的方式并入本文),来确定每个选定杂交物种的群体预测分值(并由此估量商业成功性)。接着可使用诸如(但不限于)以下的方法来合并由各种方法产生的分值:装袋与提升(bagging and boosting)、融合、集成方法、贝叶斯模型组合(Bayesian model combination,BMC)、简单平均、加权平均等。参考例如“Ensemble Methods in Data Mining:Improving Accuracy Through Combining Predictions,”Giovanni Seni和John Elder,2010(Morgan and Claypool Publishers);“Popular ensemble methods:An empirical study,”Opitz&Maclin(1999),Journal of Artificial Intelligence Research 11:169-98;以及“Ensemble-based classifiers,”Rokach(2010),Artificial Intelligence Review 33(1-2):1-39(其各自以全文引用的方式并入本文)。

举例而言,育种引擎112可使用方程式(1)表示的BMC的变化形式来产生潜在杂交物种的群体预测分值。所述分值则包括应用于方程式(1)中使用的每个标识符/特征的加权以及在一些实施方案中反映特征化亲本和/或其后代的数据的某些方面的权重。例如,方程式(1)可使用与杂交物种数据结构114中的潜在杂交物种的亲本相关的历史数据来构建,并视需要由育种引擎112从数据结构114中来访问。

在方程式(1)中,si表示本文预测的新杂交物种成功(或失败)。因此,p(si|xi,D)通常表示杂交物种成功的可能性。此外,xi对应于预测的给定杂交物种的特征(参考下文关于所述特征的进一步论述),D指的是用于训练给定模型的历史数据(而且其中含有所述杂交物种在相关管道中的特征和进展信息),并且m指的是标识符模型本身。

关于图3A-3F中由杂交物种数据结构114说明的摘录300,育种引擎112对于来自亲本P1、P2的每个识别的杂交物种(尤其)可采用以下特征用于对潜在杂交物种产生群体预测分值:图3C的Y-Z列的BLUP(最佳线性无偏预测值)一般配合力(P1_BlupModel、P2_BlupModel)、图3B的T列的基于标记的遗传相似性(相似性)以及在试商用管道中的性能(图3B的P-S列)以及一些形式的遗传数据(例如,标记数据或单倍型数据)。接着将每个杂交物种得到的群体预测分值包括在图3C的X-Z列和图3D的II-MM列的摘录300中。最终的预测分值(即,“advScore”)(使用方程式(1)计算)包括在图3D的NN列中。此最终的预测分值通常是将每个中间群体预测分值合并。而且,亲本P1、P2的预测进展可能性包括在图3B的R-S列中。

应了解,在依赖任何具体方法或方法组合之前,育种引擎112可评估方法的性能并在必要时选择例如为指定农作物和/或指定区域提供最佳性能的方法。为了评估方法和/或模型的性能,可收集历史数据并接着分成训练集和测试集用于每种方法。接着基于不同方法,使用用于使用各种特点的几个特征预测商业成功性的训练数据,以及使用亲本在育种管道102中的历史进展/成功性来创建模型。模型创建后,通过模型预测测试数据的商业成功性,并与杂交物种的实际商业成功性进行对比来确定模型的准确性(例如,对于每个不同方法而言,等)。

再次参考图4,育种引擎112接下来在406处基于与群体预测分值相关的阈值来选择杂交物种子群。例如,可采用顶部40%的阈值,这由历史数据来确定以获取前面几年80%的商品,而且是商品的地理区域所特有的。因此,可选择群体中具有顶部40%群体预测分值的亲本。所述40%阈值在其它实施方案中可不同,例如用以调整子群中的大量潜在杂交物种,同时维持所需数量的在商业上取得成功的杂交物种(当针对历史数据得以证实时)等。在各种实施例中,其它阈值可包括(不限于)10%、15%、20%、25%、31%等,可对应于获取60%、70%、74%等的历史上商业成功的杂交物种。应了解,可基于各种其它因素(由育种者)选择其它阈值,例如包括所用算法的性能、算法的置信度、开始时的大量潜在杂交物种等。

选择子群后,育种引擎112在408处基于子群中杂交物种亲本的相关性从子群中选择目标杂交物种。在此示例性实施方案中,育种引擎112采用亲本的相关性来抑制最终选择的杂交物种关系过于亲近,即促进遗传多样性和/或避免在大量最终选定的杂交物种中选择相同亲本的风险。具体来说,例如当亲本出于一种或多种原因优选时(例如基于可能性预测分值等),可为子群中的多个杂交物种选择亲本。然而,如果亲本或其亲本(广义上来说,亲本品系)存在缺陷,则可将包括所述亲本的杂交物种在系统100中的商品108中取消资格。通过如本文所述促进亲本的多样性,方法400限制了某些有缺陷的亲本品系在育种管道102中的潜在影响。

尤其在方法400中,关于选择目标杂交物种,育种引擎112任选地(如图4中的虚线指示)通过使用相似性标记,基于亲本的相关性在410处群聚亲本。如此一来,例如育种引擎112特征化两个亲本之间的距离,其中在分开更大距离的两个亲本之间存在较小的相似性。除了方法400以外,通常使用(例如,如数据结构114中包括的)亲本的原始标记数据计算相似性标记,其中以简单的匹配系数作为对相似性的测量。具体来说,在此示例性实施方案中,在对两个亲本进行指纹识别后,对每个亲本中的相应标记进行比较,并且相似的位置数量除以标记的总数可提供两个亲本之间的相似性系数(或标记)。例如结合图3A-3F的摘录300,在图3B的T列(相似性)中显示其中识别的潜在杂交物种的相似性系数或标记。

举例来说,育种引擎112可通过使用方程式(2)和(3)基于亲本的相关性确定每种潜在杂交物种的距离指标。

lii:=-∑j,j≠ilij (3)

在方程式(2)和(3)中,sij是ith和jth亲本之间的相似性,且lij是拉普拉斯矩阵(Laplacian matrix)L的ijth交叉矩阵元。因此,在此示例性实施方案中,育种引擎112采用谱聚,接着采用本征分析(Eigen Analysis)来确定/评估大量集群,并且接着采用K-Means方法来群聚亲本。然而应了解,或者可使用多种其它已知的群聚技术。育种引擎112利用本征分析来以无监督方式评估集群的数量。

然后,一旦确定所需数量的集群,即由育种引擎112,例如通过下文的方程式(4)和(5)将拉普拉斯矩阵L映射到主要的本征模式上来进行降维。在方程式(4)中,L是由相似性距离sij产生的拉普拉斯矩阵,且是由对角矩阵D标准化的标准化拉普拉斯。对的本征分析提供集群的数量。在方程式(5)中,使用奇异值分解来分解标准化的拉普拉斯矩阵。矩阵∑含有根据谱聚来获取数据集的集群数量的本征值。如上文所述,育种引擎112接着使用K-Means算法来群聚亲本。由于K-Means算法是一种随机或随意的群聚机制,因此育种引擎112可通过K-Means算法的多种不同实现方式来群聚亲本,选择最大或更高的群间距离。尽管本文使用谱聚,但应了解,在410处可采用其它群聚算法,例如包括分级群聚、贝叶斯群聚、C-均值群聚等。

在由育种引擎112形成集群后,潜在的杂交物种视其亲本所属的集群在通用集群中进行分类。对于亲本的每种杂交物种而言,育种引擎112计算性能分值,这是基于亲本的商业进展以及由亲本的商业活动、测试等收集的数据。结合图3A-3F的摘录300,例如在图3E的VV-WW列中提供杂交物种的集群性能分值(即,后代集群分值,Cluster_Scores)。另外,图5中说明对于潜在杂交物种群聚亲本的实例(对应于由上述降维产生的假设二维空间),其中每个亲本以原点说明,尤其包括亲本502a-c。所述亲本群聚成两个不同的集群504、506。在此群聚实施例中,杂交物种在亲本502a、502b之间的性能分值例如可高于杂交物种在亲本502b、502c之间的性能分值,因为它们是不同集群的一部分和/或因为502c比502a具有更多进展。

再次参考图4,在群聚亲本后,育种引擎112接着再次任选地(如由虚线表示)基于杂交物种(尤其是其亲本)是否满足相关性阈值而在412处选择目标杂交物种。具体来说,育种引擎112基于相关性阈值过滤杂交物种,所述相关性阈值由属于个别集群的杂交物种亲本的百分比导出。基于来自每个集群的亲本,将选择的杂交物种的数量例如与遗传集群的大小和集群的分值成正比。

具体来说,例如在此实施方案中,育种引擎112利用后代集群分值(使用来自由给定集群产生的后代的数据计算的集群分值),例如摘录300中的VV列,和集群分值(使用来自给定集群的亲本的数据计算的集群分值),例如摘录300中的WW列,基于相关性来过滤潜在杂交物种。后代集群分值和集群分值在此实施方案中各自经标准化来提供相同规模,并且接着由育种引擎112以一种或多种方式(例如,相加、相乘等)合并。接着使用集群分值来确定是否将在408处选择杂交物种(如在下文更详细描述),并且因此保留在潜在杂交物种群体中以继续进行下文所述的操作414。具体来说,在此示例性实施方案中,由每个集群选择的大量杂交物种可与集群分值和/或集群的大小成正比。在确定从每个集群选择的杂交物种的数量之后,根据性能指标(例如,摘录300中TT列的“perfMetric”)挑选集群中的亲本并选择最佳的杂交物种(例如,高于杂交物种“阈值”的数量,等)。通过/未通过结果的实例展示在图3E的摘录300的XX列中(PASS_CLUSTER_FILTERING)。此处,潜在杂交物种中的九个包括“真”符号,并被选择且因此保留,而潜在杂交物种中的其它四个包括“假”符号并且被排除。在此实施例中,注意到识别为L2/L1434的杂交物种未通过(即,杂交物种包括图3E的XX列中的“假”符号),而识别为L3/L1434的杂交物种通过(即,杂交物种包括图3E的XX列中的“真”符号),尽管基于选择的杂交物种的数量和相对perfMetric分值(摘录300中的TT列)而言,两者具有相同的集群分值。

应了解,集群中杂交物种的分布可能均匀或不均匀,因为可以从每个或一些集群中选择不同数量的杂交物种。例如,可选择包括来自具有更高集群分值的集群的亲本的更多杂交物种。在任何情形下,在确定从每个集群中选择多少杂交物种后,从每个集群中选择相应数量的顶级杂交物种并根据性能分值(例如,摘录300的TT列中所示的perfMetric分值,等)进行挑选。例如,结合摘录300,在获得VV-WW列中显示的集群分值后,育种引擎112根据TT列中的perfMetric分值来在每个遗传集群中挑选杂交物种。被挑选的集群展示在摘录300的W列(ORIGIN_CLUSTER_INDEX)中。此处,集群的实例包括M_1_3、M_3_3(雄性集群)和F_2_2,F_1_2(雌性集群)。在每个这些集群中,由育种引擎112挑选杂交物种,并选择杂交物种的数量(例如,基于相对等级,等)。如前文所示,每个集群中将选择杂交物种的数量通常可与集群的大小和平均集群分值成线性比例。一般来说,预期具有更高平均分值的集群将含有更高的遗传值。

接下来在方法400中,育种引擎112基于至少一种规则在414处过滤由规则数据结构访问或检索的,例如与杂交物种数据结构114等相关的目标杂交物种。规则可包括任何需要的规则,例如上文关于表1等所述的规则。一般来说,规则通常是标准化的并且基于亲本、杂交物种和/或其品系的特征和/或特点来构建,而且可以是育种者所希望使用的任何标准,包括任何基因型、表型或可用于描述和/或区别植物或商业农作物产品和/或其性能的任何其它特点或特征。规则的常见实例基础包括茎秆强度、根强度、产量、抗病性、抗逆性、发展为商品的成本、商品成本、测试重量、植物高度、穗高度以及本文其它章节中关于区别组织和/或性能所述的那些标准和/或技术。

结合图3A-3F的摘录300,例如育种引擎112可基于以下三种规则来选择亲本(或潜在杂交物种)(例如,结合方法400中的操作414等):亲本倾倒、根强度和茎秆强度。在某些实施方案中,当应用倒伏规则时,亲本满足规则的杂交物种将进展到方法400的后续操作,而剩余部分将被去除或不被选择(或反之亦然)。在某些实施方案中,当应用根强度规则时,例如育种引擎112将只选择根强度分值高于(或低于)育种者或其它用户设定的阈值的那些杂交物种(和其亲本);根强度分值不满足或超过阈值(或反之亦然)的那些杂交物种(和其亲本)将不被选择进展至商品化。在某些其它实施方案中,此方法可通过数次重复来运行,直到针对育种者希望使用的所有规则和/或性能阈值和/或标准评估每种杂交物种,从而来选择用于进展的优选杂交物种。参考图3E,摘录300中的YY列(PASS_RULE_FILTER)代表对亲本P1、P2的实例数据集应用各种规则(例如,上文确认的三种规则等)的育种引擎112的累积性/重复性结果(例如,结合方法400的操作414等)。具体来说,如A列、B列中指定的亲本L_592、L_349、L_1460和L_638在YY中表示为满足育种者设定的所有阈值(而所有其它亲本/杂交物种不满足)。

在方法400的416处,育种引擎112任选地(如图4中的虚线所示)基于与所述经过过滤的目标杂交物种相关的某些风险来选择选定的经过过滤的杂交物种。举例来说,育种引擎112可使用诸如由方程式(6)表示的二次算法来寻找一组将要使用的所需亲本,其中考虑到与所选亲本集合相关的风险和多样性。

导出的约束条件是∑xi=1,且

方程式(6)求解出亲本分布的最佳集合,这将由决策变量x来获取。在方程式(6)中,xi表示ith亲本的比例;ci表示ith亲本的性能;pij表示杂交物种在ith亲本与jth亲本之间的性能指数;rij表示杂交物种在ith亲本与jth亲本之间的风险指数;并且sij表示ith亲本与jth亲本之间的相似性。另外,λ性能、λ风险和λ多样性分别是性能、风险和多样性的权重。在方程式(6)中,cTx+xTPx术语表示性能;xTRx是风险(R是术语rij的矩阵表示(在摘录300的VV列中计算的风险值,例如品系之间)并如下文所示针对可能的亲本组合对或杂交物种对中的每一者进行计算);并且xTSx是相似性。育种引擎112因此尝试通过方程式(6)改善(若非最大化)性能、限制(若非最小化)风险以及限制(若非最小化)相似性。方程式(6)中的约束条件强制要求x是概率分布,并且通过性别来平衡分布。图6接着展示实例系统中的亲本使用602的图示600(其中选择604识别早些年更常使用的亲本,而选择606识别近些年较少使用的亲本)。通过求解方程式(6)中所述的二次程序,育种引擎112通常抑制使用具有类似遗传背景的亲本,由此解释(并且潜在地改善)群体多样性。

图7是育种系统中亲本使用分布的假设图示700,这提供了对于考虑多样性术语(即,λ多样性xT Sx)在方程式(6)中的影响的说明,与不并入和/或考虑所述术语进行比较。具体来说,如所示,第一组条形图702显示杂交物种群体基于传统方法的亲本假设分布(即,不考虑多样性),而第二组条形图704显示杂交物种群体可能由本文的系统和方法所实现的亲本假设再分布(即,假设考虑多样性)。然而应了解,图7的表示仅用于说明目的来提供且不应认为限制本文的公开内容或表明本文的方法相对于传统方法的必需和/或一致影响。

再次参考图4,关于在416处过滤风险,例如使用方程式(6)求解亲本分布,育种引擎112可任选地通过确定亲本和/或杂交物种是否与某些特定风险相关来优化(广义上为过滤)杂交物种群体。在一种实施例中,育种引擎112可确定与杂交物种相关的特定风险作为亲本的风险乘积,即rij=ri rj。此处,对于每种个别亲本(或亲本品系)所关注的特定风险包括可通过拟合由亲本品系的年龄、测试亲本品系的次数以及根和茎秆倒伏的标准偏差(广义上全部是风险)作为参数表示的指数曲线来建模的五种风险,如由下文的方程式(7)-(11)所表示。具体来说,方程式(7)表示基于年龄的风险(例如,假定在育种管道102中的寿命,相对较老的品系将相关通常较小的风险,等)(取决于摘录300的AA列和BB列);方程式(8)表示基于杂交种测试次数的风险(例如,基于品系在育种管道102中经历测试的次数,使用某些亲本品系的风险,等)(依赖于摘录300的EE列,这又是CC列和DD列的总和(亲本的测试杂交种的数量));方程式(9)表示基于使用具有更高根倒伏的品系的风险(依赖于摘录300的FF列);方程式(10)表示基于使用具有更高茎秆倒伏的品系的风险(依赖于摘录300的GG列);并且方程式(11)表示基于戈斯枯萎易感性的风险(依赖于摘录300的HH列)。

r年龄=e-α年龄 (7)

rN=e-βN测试 (8)

然而应了解,对应于杂交物种的风险可使用其它方法和/或其它特征来计算,例如取决于植物类型和可用的数据。

采用历史数据来确定方程式(7)-(11)的各种参数(即,α1、α2、α3、β1、β2、β3、)。然而应了解,所述风险可通过本领域技术人员已知的多种不同方法来解释,并视需要在本文中使用。另外,尽管方程式(7)-(11)通常针对与玉米相关的风险,但应了解可视需要(例如,通过其它方法等)来解释其它植物的风险。

表2结合年龄、测试次数、根倒伏、茎秆倒伏和戈斯枯萎来说明亲本的假设平均风险值。具体来说,表2说明通过解释风险可如何影响各种属性。表2中的第一列确定各种属性。第二列说明通过建模,如使用方程式(7)-(11)计算的对于给定具体属性的平均风险值。并且,第三列说明不建模时计算的平均风险值。具体来说,例如,当不应用上述建模时,表2中选择的亲本的平均产量BLUP的风险值可能更佳;如所示,当不应用建模时,根倒伏、茎秆倒伏和戈斯枯萎的风险值更佳。然而,对于基于上述建模选择的亲本的年龄和测试次数的风险值表明亲本在系统的相应育种管道中经过更频繁测试并且已经历更长时间。因此,在此假设应用中,通过建模选择的亲本的某些属性可具有略微较低的平均风险分值,但尽管如此,由于其已证明被选择且用于育种管道的历史而仍被选择,由此可能降低与使用其相关的总体风险。

表2

如所示,风险计算考虑到与杂交物种相关的几种属性(例如,表2中的年龄、测试次数、根倒伏、茎秆倒伏和戈斯枯萎;直立能力;病理特征;等)。如此一来,风险计算在此示例性实施方案中有助于避免某些属性具有不利的风险值,与其它属性相比,例如由于较少测试属性(使得对于新的亲本品系而言,所述属性可能升高)等而严重影响某些亲本在对杂交物种的最终选择中的使用。在表2中,例如“建模时的平均风险值”展示如果在方程式(6)中包括风险建模时属性的可能值,并且“不建模时的平均风险值”展示如果省略风险建模时的可能值。两种情形表明,在不存在风险建模时,尽管尝试增加和/或最大化性能(诸如,对于根倒伏、茎秆倒伏和戈斯枯萎而言),但选定群体的几种属性可能无法达到理想的值,所述属性如亲本的年龄以及测试亲本的次数等。本文所述的风险计算因此抑制选择关于所述属性而言具有不利值的杂交物种,尽管例如可能具有高产量特征。

接着,例如使用方程式(7)-(11)由个别因素确定亲本的风险后,可使用方程式(12)将每个亲本的总风险合并成单一值。接着以个别亲本的风险乘积或rij=ri rj来计算与基于亲本产生杂交物种相关的风险,其中ri和rj由方程式(12)来计算。并且,接着使用杂交物种等级的风险rij来构建杂交物种等级的风险矩阵,例如方程式(6)中的矩阵R,由此促使完成操作416。

r=r年龄+rN+rRTLP+rSTLP+rGW (12)

进一步在方法400中,关于操作416,育种引擎112采用方程式(13)来确定应选择哪个使用通过方程式(6)获得的亲本的杂交物种集合。在方程式(13)中,λ是多样性的权重,是从杂交物种到亲本的关联矩阵(包括0和1),xopt是由方程式(6)计算的亲本分布,c是育种引擎112采用方程式(1)(或本文所述的用于确定杂交物种的性能指数的其它方法,并且其依赖于其特点的BLUP、使用亲本的商品数量、亲本之间的相似性、亲本的标记数据以及由预测亲本进入育种管道的可能性的模型分配给亲本品系的分值)计算的群体预测分值,并且z是初始的选择决定向量。

导出的约束条件是zT1=N

z∈{0,1}N

PRM最小≤SRMz≤PRM最大

P性别最小≤S性别Z≤P性别最大

P特点最小≤S特点Z≤P特点最大

矩阵SRMM将初始值映射到相对成熟度(RM)组,且因此SRMz是从不同相对成熟度对亲本使用的投影。向量PRM最小和PRM最大限制了各个RM分组的最小和最大亲本使用。含有矩阵S性别以及向量P性别最小和P性别最大的约束条件对于性别组和杂种优势组保持相似的平衡,并且S特点、P特点最大和P特点最小有助于维持各种所需组合的特点。鉴于以上,应了解也可(或者)例如通过构建合适的投影矩阵,以相似的方式包括与某种QTL或特点的频率以及所需的产品组合有关的其它约束条件。

在某些实施方案中,以上操作的重复方法可应用于连续缩小对亲本的可能选择(例如,如图3E-3F在ZZ-DDD列中所示的五层优化所表示),例如通过初始选择相对大的第一组潜在杂交物种,接着应用上述模型解释遗传多样性和/或风险来从第一组中选择较小的第二组,接着再应用所述模型从第二组中选择甚至更小的第三组杂交物种等等,直到杂交物种的数量视需要足够缩小(例如,如摘录300中所示为五次,等)。在使用所述重复方法时,方程式(6)中定义的分值矩阵P和R和方程式(13)中定义的分值向量c可使用下文的方程式(14)、(15)和(16)来标准化。

最终在方法400中,在选择所需的指定亲本后,育种引擎112在418处将选定的亲本及其潜在杂交物种引向植物育种管道102,并且具体来说引向初始的生长阶段104。举例来说,在摘录300中,将基于图3F的DDD列中所示的第五优化层的结果来进行选择。此处不选择杂交物种,因为全都包括“假”标记(关于“假”标记的进一步解释随后在EEE列中提供)。

现应了解,以上系统和方法提供优于传统植物育种技术的实质性效率。对于潜在杂交物种群体而言,育种者通常依赖于各种亲本参数来过滤潜在的杂交物种,最终回到提供给育种管道(例如,育种管道102等)的大量种子来源(或亲本)。具体来说,例如在本文的系统和方法的历史应用中,有120种潜在杂交物种可适合被育种者通过传统方法从关于亲本的可用历史数据中进行选择,从而在最近几年进入育种管道,接下来消耗其它资源来加工、测试并培育120种杂交物种中的每一种,以实现将进展成商品的杂交物种子集。通过使用本文所述的育种引擎112,在120种潜在杂交物种中,识别并选择24种(例如,方法400中的416处,等)进入育种管道。如此一来,24种杂交物种包括在历史上已由育种者使用传统技术选择的约69%的商业上成功的杂交物种,因此提供实质性的效率增益(即,24种杂交物种代替120种杂交物种进入育种管道)。

此外,本文的系统和方法与历史特点信息组合采用亲本(和亲本品系)的商业成功历史来选择将引入育种管道的种源。对多种不同类型数据(包括商业成功性、亲本的相关性以及风险)的依赖性提供了关于种源在育种管道中将如何发展的更完整图像。因此,育种者的期望、倾向性和/或设想的作用在方法中减少,导致从大量潜在种源中更有效地获取有利可图的种源。通过本文公开的系统和方法,育种者可极大程度上改进其管道来识别和选择在使用传统操作时可能排除的那些杂交种进行发展。

此外,本文的系统和方法不受地理方面的限制或不另外以任何方式受限。例如,如果农作物可在给定区域生长,则本文的育种引擎可用于推荐最佳的杂交物种集合,通过对影响所述环境中的农作物性能和/或商业/市场成功性的某些特点所对应的数据进行加权来促进特定的市场/环境。所述环境可全球性或区域性地来表示,或可如同田地里的特定位置般为颗粒状的(以便确定相同田地具有不同的所述环境)。另外,本文的育种引擎可用于靶向某些市场、地理位置、土壤类型等所特有的或具有指向性的产品的发展,从而最大化收益、最大化客户满意度、最小化生产成本等。

图8提供上文关于四种亲本802(即,n=4),A1、A2、A3和A4的给定样品集合的示例性说明。也就是说,应了解通常将向育种者提供数百、数千、成千上万等的亲本,从所述亲本中可选择杂交物种用于大型工业育种管道中。

与此相关,图表804提供对于四种亲本802的所有潜在杂交物种的表示,其中由每个连接线来表示杂交物种。接着将所述亲本802的潜在杂交物种列举在矩阵806中,其中N=6。除每个杂交物种的两个亲本(P1和P2)的清单以外,矩阵806还包括与所述亲本和/或杂交物种相关的某些数据,类似于摘录300中所包括的数据,例如每个杂交物种的预期产量以及每个杂交物种的年龄,所述年龄表示所述亲本802的平均年龄。矩阵806还包括所述亲本802的“SIM”或遗传相似性。在育种过程中,其中产量是玉米的目标表型,并且只向植物育种管道提供三个杂交物种(r=3),显而易见一些(若非全部)传统的育种方法可能选择矩阵806中最佳的三个杂交物种,即产量最高的杂交物种。通过以此方式(即,以传统方式)选择,育种者将选择三个杂交物种,其各自包括亲本A1。这为育种管道(例如,管道102等)提供了减少的遗传多样性,其中如果识别具有亲本A1的组织,那么管道中基于亲本A1的所有杂交物种都被浪费,在此实施例中是全部的三个。换句话说,如本文所证实,在育种过程中选择最佳的杂交物种,甚至当产量是所关注的表型时,并不总是意味着选择具有最佳预期产量的杂交物种(尤其当考虑到遗传多样性时)。

示范数值表示选择“最佳”杂交物种包括在育种管道中的可能性。具体来说,由以下方程式(17)提供对于给定亲本集合而言的潜在杂交物种数量:

因此对于n=4而言,在上述实施例中,如上文所示的潜在杂交物种的数量为6,即N=6(如图8中所示)。接着,由以下方程式(18)提供具有所需杂交物种数量(即,亲本的有序对)的可能数量的集合(也称为同期群):

接着,对于N=6且r=3而言(即,如以上实施例所提供,管道所需的杂交物种数量),潜在同期群的总数为20。

在一个更实际的实施例中,在工业育种过程的情况下,n可为1000,而r为100。通过以上方程式(17)和(18),亲本的可能总数将大约为10400。一般来说,与此相关地,由计算的复杂性和/或资源观点而言,可能难以和/或甚至不可能在多样性、特点分布等方面评估每种潜在杂交物种,由此可选择最佳的杂交物种(尽管传统上不这么做)。但是,在给定变量的情况下,通过人类选择或传统方法(例如,不考虑遗传多样性、商业成功性等)实现最佳同期群的可能性例如将为103/10400或1/10297。本文的系统和方法可解释整个潜在杂交物种集合(在本文所述变量的情形下),且因此并不人为地减少如可能由计算复杂性和/或可用资源在必要时实现的潜在杂交物种集合。

另外,参考图9,本文的系统和方法可通过提供亲本使用的群体水平分布(例如,遗传多样性等)来提供对传统方法的改进。具体来说,例如基于下文的方程式(19)来确定近交使用指数(或IUI)。

在此实施例中,100%的IUI将表示(潜在杂交物种集合中的)每个亲本在如上文所述选择经过过滤的目标杂交物种时或在其它方面(例如,通过传统手工方法等)只使用一次。相反,较低的IUI将表示一个亲本或多个亲本更普遍(即,IUI越低,亲本在选定的潜在杂交物种中的发生率越高(例如,育种管道102注定如此)。如图9中所示,例如关于传统育种方法的历史数据分别产生YYYY年和YYYY+1年(一年后)在902(IUI值为约18.86)和904(IUI值为约15.29)处表示的IUI值。相反,通过本文的系统和方法,基于那些年可用的数据,选定的经过过滤的目标潜在杂交物种将在906(IUI值为约31.38)和908(IUI值为约29.72)的每一处提供各年的IUI。也就是说,至少在此实施例的情形下,选定的经过过滤的目标杂交物种的IUI大于20、大于25和/或大于30,或其它合适值等。如所示,亲本使用的群体水平分布相比于手工传统育种方法而言实质上增加。

照此而言,应了解本文所述的功能在一些实施方案中可由存储在计算机可读介质上并且可由一个或多个处理器执行的计算机可执行指令来描述。计算机可读介质是非瞬时性的计算机可读介质。举例而言且不受限制,所述计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储,磁盘存储或其它磁性存储装置,或可用于以指令或数据结构的形式携带或存储所需程序代码并且可由计算机访问的任何其它介质。以上的组合也应包括在计算机可读介质的范畴中。

还应了解,本公开的一个或多个方面在配置成执行本文所述的功能、方法和/或过程时将通用的计算装置转变成专用的计算装置。

如基于以上说明应了解,本公开的上述实施方案可使用包括计算机软件、固件、硬件或其任意组合或子集在内的计算机编程或工程技术来实施,其中可通过执行以下操作中的至少一种来实现技术效果:(a)访问表示多个亲本的数据结构;(b)识别潜在杂交物种集合,所述潜在杂交物种集合中的每个潜在杂交物种包括所述数据结构中所包括的多个亲本中的至少两个;(c)通过至少一种计算装置,基于与所述潜在杂交物种集合的群体预测分值相关的一个或多个阈值来从所述潜在杂交物种集合中选择潜在杂交物种子群,每个群体预测分值与所述潜在杂交物种集合内的相关潜在杂交物种的商业成功性预测值相关;(d)通过所述至少一种计算装置,基于所述潜在杂交物种子群中的亲本的遗传相关性从所述潜在杂交物种子群中选择多个目标杂交物种;(e)通过所述至少一种计算装置,基于至少一种规则过滤所述目标杂交物种,所述至少一种规则限定以下中至少一者的至少一个特征和/或特点的至少一个阈值:所述多个目标杂交物种、所述目标杂交物种中所包括的所述多个亲本之一、以及所述目标杂交物种的亲本品系;(f)通过所述至少一种计算装置,基于与所述经过过滤的目标杂交物种相关的风险来选择选定的经过过滤的目标杂交物种;(g)将所述选定的经过过滤的目标杂交物种引向育种管道,由此至少部分地基于所述选定的经过过滤的杂交物种中所包括的亲本的商业成功性将杂交物种提供至所述育种管道;(h)通过所述至少一种计算装置,基于所述亲本的相关性来群聚所述子群中所包括的所述潜在杂交物种的亲本;(i)通过所述至少一种计算装置,将与所述子群中所包括的所述潜在杂交物种之一的至少一个亲本相关的集群分值和与所述潜在杂交物种之一相关的集群分值合并;以及(j)针对所述潜在杂交物种集合内的每个潜在杂交物种产生群体预测分值。

提供实例实施方案以便本公开是完整的,并且将向本领域技术人员全面表达其范畴。陈述多个具体细节,诸如具体组分、装置和方法的实施例,来提供对本公开的实施方案的完整理解。本领域技术人员将显而易见,无需采用具体细节,实例实施方案可通过多种不同形式具体化而且都不应解释为限制本公开的范畴。在一些实例实施方案中,不详细描述熟知的方法、熟知的装置结构和熟知的技术。另外,可通过本文公开的一个或多个示例性实施方案实现的优势和改进可提供上文提到的全部优势或改进,或完全不提供优势或改进,并且仍落在本公开的范畴内。

本文所用的术语只为描述具体实例实施方案的目的,且并不打算限制。如本文所用,单数形式的“一(a/an)”和“所述(the)”预期也可包括复数形式,除非上下文另外明确指示。术语“包含(comprises/comprising)”、“包括(including)”和“具有(having)”是涵盖性的且因此规定存在所述的特征、整数、步骤、操作、要素和/或组分,但并不排除存在或加入一种或多种其它特征、整数、步骤、操作、要素、组分和/或其组。本文所述的方法步骤、过程和操作不应解释为必然以所论述或说明的特定次序要求其性能,除非明确确认为某种性能次序。还应了解,可采用其它或替代性的步骤。

当某一特征称为在另一要素或层“上”、“与其啮合”、“与其连接”、“与其耦接”、“与其相关联”、“与其连通”或“包括于其中”时,其可直接位于另一特征上、与其啮合、与其连接或耦接、与其关联或连通、或包括于其中,或可存在中间特征。如本文所用,术语“和/或”包括一个或多个相关列举项目的任意或全部组合。

尽管本文中可使用术语第一、第二、第三等来描述各种特征,但这些特征不应受这些术语限制。这些术语可只用于将一种特征区别于另一特征。诸如“第一”、“第二”和其它数字术语的术语在本文中使用时不表示顺序或次序,除非上下文中明确指出。因此,在不偏离实例实施方案教导的情况下,本文中论述的第一特征可称为第二特征。

提供以上关于实施方案的描述用于说明和描述目的。并不打算是详尽性的或限制本公开。具体实施方案的个别要素或特征通常不局限于所述具体实施方案,而是在适用时可互换并且可用在选定的实施方案中,即使并不具体显示或描述。同样也可以通过多种方式改变。这些变化并不认为偏离了本公开,而且所有这些改变都打算包括在本公开的范畴内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1