基于亚临床遗传因子评估生育的方法和系统与流程

文档序号:18873140发布日期:2019-10-14 20:00阅读:214来源:国知局
本申请要求于2016年10月14日提交的美国临时申请序列号62/408,632的权益和优先权,其内容通过引用整体并入本文。
背景技术
::有大约七分之一的夫妇妊娠困难。不育可能是由于伴侣任一方的单一原因,或由于可能阻止妊娠发生或持续的因素(例如,遗传因子、疾病或环境因素)的组合。从一对夫妇针对妊娠困难寻求医疗援助时起,这对夫妇会被建议经历一系列诊断程序,以确定其妊娠困难的潜在原因。通常,该程序可能是高度侵入性的、昂贵的且耗时的。此外,即使在一对夫妇经历了这些诊断程序并且已经被告知其实现活产(lb)的预后,并且随后基于该预后做出治疗决定之后,结果也可能与原始预后不一致。对于试图妊娠的夫妇来说,关于预后的不确定性对于生育专家来说是一个重大挑战。尤其是会有良好预后患者由于不明原因治疗失败,或尽管困难重重但不良预后患者仍实现活产的案例。技术实现要素:本发明涉及用于评估生育和告知治疗过程的方法和系统。本发明提供了用于使用临床数据和基因组数据的组合来产生实现妊娠的可能性的方法。在一个实施方案中,本发明提供了用于在多个体外受精周期中评估妊娠的累积概率的方法。在优选的实施方案中,本发明的方法基于由基因组分类数据覆盖的已知临床指标提供关于实现妊娠的概率的个性化数据。因此,实现妊娠的概率的临床指标,如年龄、bmi等,提供了经n个体外受精ivf周期的初始概率集。根据本发明,将分类数据(例如,与卵子发生或卵巢储备、基因组标志物等相关)应用于临床指标,以得到更精确的实现妊娠的可能性。在一个方面,经n个ivf周期的过程确定实现妊娠的概率。图1描绘了典型结果,其中标记为bb的阶梯式曲线是基于临床指标(例如,与妊娠可能性相关的表型标志物)的概率曲线,cc曲线是基于阴性基因组分类数据的示例性位移曲线,而dd曲线是基于阳性基因组分类数据的示例性位移曲线。本发明的方法提供优于先前研究的优点,先前研究要么关注于特定生殖条件的遗传学,要么是关注于由临床诊断和/或预后所限定的患者组中的等位基因频率的病例对照研究。本发明的方法不限于离散的确定和分类,并且因此提供用于评估实现持续妊娠/活产的可能性的更准确、稳健和个性化的模型。附图说明图1描绘了基于临床指标确定并针对基因组分类数据进行了调整的实现持续妊娠的累积概率。图2描绘了女性生殖/生育相关的功能性生物学分类。图3描绘了男性生殖/生育相关的功能性生物学分类。图4描绘了精子发生功能生物学分类。图5描绘了用于确定遗传特征对实现持续妊娠的累积概率的影响的方法。图6描绘了基于参考数据集的临床特征的实现持续妊娠的累积概率。图7描绘了用于确定遗传特征对实现持续妊娠的累积概率的影响的序列核关联性检验(skat)方法的一般概述。图8描绘了基于参考数据集的临床特征并针对skat分析结果进行了调整的实现持续妊娠的累积概率。图9描绘了针对多个基因集(基因或生物学分类)上的有害突变负荷进行了调整的实现持续妊娠的累积概率。图10描绘了用于过滤全基因组测序中检测到的变体以鉴别与不育相关的遗传区域的方法。图11描绘了fertilometm数据库的一些组件,该数据库是一种将遗传区域与不育风险相关联的工具(fertilometm分数)。图12是用于鉴别不育患者中的生物学感兴趣且统计学显著的遗传变体的生物信息学路径。图13描绘了用于将临床数据与基因组数据整合以预测依赖和独立于治疗的生育结果的方法。图14代表本发明的系统的图。具体实施方式本发明涉及用于评估实现妊娠和/或活产(lb)的可能性以及用于治疗性干预以实现妊娠的方法和系统。本发明提供了用于通过将临床数据和遗传数据二者组合来产生在个体中实现持续妊娠的可能性的方法。这些方法涉及从参考数据集确定临床特征与已知的妊娠和不育相关结果之间的一种或多种相关性,以提供代表持续妊娠的累积概率的模型。所述方法进一步涉及从所述参考数据集确定遗传特征与已的知妊娠和不育相关结果之间的一种或多种相关性,以调整所述模型。然后所述模型可应用于输入数据以产生在受试者中实现持续妊娠的可能性。遗传数据在本发明的一个方面,遗传数据包括遗传生物标志物和遗传分类。这些生物标志物和分类可用于提供更准确的预后,该预后可以告知可能使受试者受益的下游诊断测试和治疗。用于本发明方法的生物标志物可以是与不育/实现持续妊娠的时间相关的任何标志物。示例性生物标志物包括基因(例如编码功能性产物的dna的任何区域)、遗传区域(例如包括基因和基因间区域在内的区域,特别关注于在胎盘哺乳动物的整个进化过程中保守的区域)和基因产物(例如rna和蛋白质)。在某些实施方案中,生物标志物是不育相关的基因或遗传区域。不育相关的遗传区域是其中变异与生育的变化相关的任何dna序列。生育变化的实例包括但不限于以下:不育相关基因的纯合突变导致生育的完全丧失;不育相关基因的纯合突变是不完全外显的并导致生育能力下降(因个体而异);杂合突变是完全隐性的,对生育没有影响;以及不育相关基因是x连锁的,因此生育的潜在缺陷取决于该基因的非功能性等位基因是否位于无活性的x染色体(巴氏小体)或表达的x染色体上。在特定的实施方案中,所评估的不育相关遗传区域是母体效应基因。已发现母体效应基因是编码哺乳动物卵母细胞中的关键结构和功能的基因(yurttas等人,reproduction139:809-823,2010)。母体效应基因于例如christians等人(molcellbiol17:778-88,1997);christians等人(nature407:693-694,2000);xiao等人(emboj18:5943-5952,1999);tong等人(endocrinology145:1427-1434,2004);tong等人(natgenet26:267-268,2000);tong等人(endocrinology,140:3720-3726,1999);tong等人(humreprod17:903-911,2002);ohsugi等人(development135:259-269,2008);borowczyk等人(procnatlacadsciusa.,2009);以及wu(humreprod24:415-424,2009)中有述。母体效应基因也描述于u.s.12/889,304中。这些文献中的每一个的内容均通过引用整体并入本文。在特定的实施方案中,不育相关的遗传区域是选自下表1中所示基因的一个或多个基因(包括所述基因任一侧侧翼的外显子、内含子和10kbdna)。在表1中,在有omim参考编号可用时提供了omim参考编号。表1-人不育相关基因(omim编号)表1中列出的基因可以涉及生殖/生育相关过程的不同方面。此外,表1中列出的母体效应基因之外的其他基因也可以影响生育。影响生育的基因可以涉及许多男性和女性特异性过程,或功能性生物学分类,如图2-图4中所示的功能性生物学分类。如图2所示,女性生殖/生育相关过程或分类包括性腺发生、神经内分泌轴、卵泡发生、卵子发生、卵母细胞-胚胎转变、胎盘形成、植入后发育、肥胖、(女性)生殖解剖学、免疫应答、受精和其他过程。如图3和4所示,男性生殖/生育相关过程或分类包括性腺发生、神经内分泌轴、植入后发育、肥胖、(男性)生殖解剖学、免疫应答、精子发生、精子成熟和获能、受精、有丝分裂、减数分裂、精子形成和其他过程。下文更详细地描述这些过程。性腺发生包括调节卵巢和睾丸发育的过程,并且涉及但不限于原始生殖细胞的特化和增殖。神经内分泌轴包括例如调节人体中许多不同组织(包括脑和性腺)中激素的产生和活性的生理途径和结构。卵泡发生包括调节卵巢中原始卵泡发育成囊性卵泡的生理机制。卵子发生包括调节原始卵母细胞发育成准备受精的成熟减数分裂ii期卵母细胞的生理机制,因此这些生理机制对女性生殖生物学具有特异性。卵母细胞-胚胎转变包括调节早期胚胎发育的生理机制,并且包括与卵子质量相关的机制,如卵母细胞胞质网格形成和父本效应机制。胎盘形成(胚胎)包括调节胎盘的植入和发育的胚胎特异性生理机制。胎盘形成(子宫)包括调节胚胎植入和胎盘发育的子宫特异性生理机制。植入后发育包括调节植入后胚胎发育的生理机制,特别是其破坏可导致人的异常发育或流产的生理机制。肥胖包括调节脂肪组织和体重的生理机制,已知该生理机制在哺乳动物的生育力和不育中起重要的间接作用。生殖解剖学包括与可能影响生殖、生育力或生育的解剖学变化相关的任何表型。免疫应答包括对免疫应答机制的方面具有特异性的表型,该表型已知其在哺乳动物繁殖和生育中起重要作用。精子发生包括在成熟精子的产生或发育中涉及的过程,因此这些过程对男性生殖生物学具有特异性。成熟包括使得精子能够让卵子受精的过程,因此这些过程对男性生殖生物学具有特异性。获能包括对精子在阴道和子宫中的功能性获能具有特异性的过程。受精包括与人卵子与精子结合相关的过程。有丝分裂包括涉及细胞分裂过程的变化的过程,该变化使得细胞分裂过程不以两个具有与亲本细胞相同的染色体组的子细胞结束。有丝分裂过程的这样的变化可影响例如与生育有关的细胞增殖或组织维持。减数分裂包括调节减数分裂的过程,使得例如在配子发生期间,减数分裂产生四个子细胞,每个子细胞正好具有亲本细胞的染色体组的一半。精子发生包括调节单倍体细胞形态分化为精子的过程。表2列出了与多种生物学分类相关的基因的实例,即基因集。基因也可以用其他方式分类。例如,基因可以根据其所执行的细胞功能来细分,即转录因子、信号分子、配体、受体、细胞骨架组分。或者,基因可以根据其在组织水平上所起的作用(例如,增殖、分化、凋亡)来分类。从表2中可以看出,基因可以与超过一种生物学分类相关联。使用生物信息学路径和相关数据库确定该基因集,如下文更详细描述的。表2.与这些不同过程相关的基因的突变导致含有这些突变的男性和/或女性的生育困难。获取遗传数据例如,可通过对来自男性或女性的样品进行测定来获得遗传数据,该测定检测不育相关遗传区域中的变体或不育相关遗传区域的异常表达(过表达或表达不足)。这些遗传区域中某些变体的存在或这些遗传区域的异常表达水平指示生育结果,即,是否可实现持续妊娠或活产。示例性变体包括但不限于单核苷酸多态性、单核苷酸变体、缺失、插入、倒位、遗传重排、拷贝数变异、染色体微小缺失、遗传镶嵌、核型异常或其组合。样品可以包括人组织或体液,并且可以以任何临床上可接受的方式收集。组织是衍生自例如人或其他哺乳动物的一块连接的细胞和/或细胞外基质物质,例如皮肤组织、毛发、指甲、鼻通道组织、cns组织、神经组织、眼组织、肝组织、肾组织、胎盘组织、乳腺组织、胎盘组织、乳腺组织、胃肠组织、肌肉骨骼组织、泌尿生殖组织、骨髓等,并且包括与细胞和/或组织关联的连接物质和液体物质。体液是衍生自例如人或其他哺乳动物的液体物质。这样的体液包括但不限于粘液、血液、血浆、血清、血清衍生物、胆汁、血液、母体血液、粘痰、唾液、痰、汗液、羊水、月经流体、乳腺流体、卵巢的卵泡液、输卵管液、腹膜液、尿液、精液和脑脊液(csf)如腰椎或心室的脑脊液。样品还可以是细针吸出物或活检组织,例如,子宫内膜吸出物、乳房组织活检物等。样品还可以是含有细胞或生物材料的培养基。样品还可以是血凝块,例如,在去除血清后从全血获得的血凝块。在某些实施方案中,样品可包括生殖细胞或组织,如配子细胞(gameticcell)、性腺组织、受精胚胎和胎盘。在某些实施方案中,样品是从受试者收集的血液、唾液或精液。来自样品的遗传信息可以通过从样品中提取核酸而获得。用于从样品中提取核酸的方法是本领域已知的。参见例如,maniatis,等人,molecularcloning:alaboratorymanual,coldspringharbor,n.y.,pp.280-281,1982,其内容通过引用整体并入本文。在某些实施方案中,从受试者收集样品,然后富集感兴趣的基因或基因片段,例如通过与包含感兴趣的生育相关的遗传区域或遗传片段的核苷酸阵列杂交。可以使用本领域已知的方法如杂交捕获富集样品中的感兴趣的遗传区域(例如,不育相关的遗传区域)。参见例如lapidus(美国专利号7,666,593),其内容通过引用整体并入本文。在特定实施方案中,对生育相关基因或含有该基因或其部分的遗传区域进行测定,该基因是如表1和/或表2中可见的基因。常规方法(如用于制备和使用核酸阵列、扩增引物、杂交探针等的方法)的详细描述可以在标准实验室手册中找到,如:genomeanalysis:alaboratorymanualseries(第i-iv卷),coldspringharborlaboratorypress;pcrprimer:alaboratorymanual,coldspringharborlaboratorypress;以及sambrook,j等人,(2001)molecularcloning:alaboratorymanual,第二版(第1-3卷),coldspringharborlaboratorypress。定制核酸阵列可购自例如affymetrix(santaclara,ca)、appliedbiosystems(fostercity,ca)和agilenttechnologies(santaclara,ca)。检测变异(例如,突变)的方法是本领域已知的。在某些实施方案中,在特定位置的已知单核苷酸多态性可通过与邻近该位置的样品dna结合的引物的单碱基延伸来检测。参见例如shuber等人(美国专利号6,566,101),其内容通过引用整体并入本文。在其他实施方案中,可采用杂交探针,其与感兴趣的snp重叠并选择性地与在该位置含有特定核苷酸的样品核酸杂交。参见例如shuber等人(美国专利号6,214,558和6,300,077),其内容通过引用整体并入本文。在特定实施方案中,对核酸进行测序以与该序列的野生型和/或非突变形式相比检测核酸中的变体。核酸可包括衍生自多种遗传元件的多种核酸。检测序列变体的方法是本领域已知的,并且可以通过本领域已知的任何测序方法检测序列变体。dna测序技术包括使用标记的终止子或引物的经典双脱氧测序反应(sanger方法)和平板或毛细管中的凝胶分离、使用可逆终止的标记核苷酸进行的合成测序、焦磷酸测序、与标记的寡核苷酸探针文库的等位基因特异性杂交、使用与标记克隆文库等位基因特异性杂交进行的合成测序并然后进行连接、在聚合步骤中实时监测标记核苷酸的掺入、聚合酶克隆(polony)测序,以及solid测序。最近通过使用聚合酶或连接酶的连续或单一延伸反应以及通过与探针文库的单个或连续差异杂交呈现了单独分子的测序。一种进行测序的常规方法是通过链终止和凝胶分离,如sanger等人,procnatl.acad.sci.usa,74(12):546367(1977)所述。另一常规测序方法涉及核酸片段的化学降解。参见,maxam等人,proc.natl.acad.sci.,74:560564(1977)。最后,已基于通过杂交的测序开发了方法。参见例如,harris等人(美国专利申请号2009/0156412)。每个参考文献的内容均通过引用整体并入本文。可在所提供的发明的方法中使用的测序技术包括,例如,helicos真单分子测序(tsms)(harrist.d.等人(2008)science320:106-109)通过引用并入本文;还参见例如lapidus等人(美国专利号7,169,560)、lapidus等人(美国专利申请号2009/0191565)、quake等人(美国专利号6,818,395)、harris(美国专利号7,282,337)、quake等人(美国专利申请号2002/0164629)以及braslavsky,等人,pnas(usa),100:3960-3964(2003),这些参考文献中的每一个的内容均通过引用整体并入本文。可在所提供的发明的方法中使用的dna测序技术的另一实例是454测序(roche)(margulies,m等人2005,nature,437,376-380)。可在所提供的发明的方法中使用的dna测序技术的另一实例是solid技术(appliedbiosystems)。可在所提供的发明的方法中使用的dna测序技术的另一实例是iontorrent测序(美国专利申请号2009/0026082、2009/0127589、2010/0035252、2010/0137143、2010/0188073、2010/0197507、2010/0282617、2010/0300559、2010/0300895、2010/0301398和2010/0304982),这些申请中的每一个均通过引用整体并入本文。可在所提供的发明的方法中使用的测序技术的另一实例是使用illuminahiseq测序仪的下一代测序,如illumina测序。illumina测序基于使用折回pcr(fold-backpcr)和锚定引物在固体表面上的dna扩增。将基因组dna片段化,并将衔接子添加到片段的5’和3’端。附接于流动池通道表面的dna片段被延伸并桥式扩增。片段变成双链,并且使该双链分子变性。固相扩增随后变性的多个循环可以在流动池的每个通道中产生大约1,000个拷贝的相同模板的单链dna分子的数百万个簇。引物、dna聚合酶和四种荧光团标记的可逆终止核苷酸用于进行连续测序。在核苷酸掺入后,使用激光激发荧光团,并且捕获图像并记录第一碱基的身份。去除每个掺入的碱基的3’终止子和荧光团,并重复掺入、检测和鉴别步骤。可在所提供的发明的方法中使用的测序技术的另一实例包括pacificbiosciences的单分子实时(smrt)技术。在smrt中,四种dna碱基中的每一种与四种不同荧光染料中的一种附接。这些染料是磷酸连接的(phospholinked)。单个dna聚合酶在零模波导(zmw)的底部用单分子的模板单链dna固定。zmw是一种限制结构,其能够相对于荧光核苷酸背景观察到单核苷酸由dna聚合酶的掺入,该荧光核苷酸快速扩散进出zmw(以微秒计)。将核苷酸掺入生长链中需要几毫秒。在此期间,荧光标记被激发并产生荧光信号,并且荧光标签被切除。检测染料的相应荧光指示掺入了哪种碱基。重复该过程。可在所提供的发明的方法中使用的测序技术的另一实例是纳米孔测序(sonigv和mellera.(2007)clinchem53:1996-2001,通过引用并入本文)。可在所提供的发明的方法中使用的测序技术的另一实例涉及使用化学敏感的场效应晶体管(chemfet)阵列对dna进行测序(例如,如美国专利申请公开号20090026082中所述并且其通过引用并入)。可在所提供的发明的方法中使用的测序技术的另一实例涉及使用电子显微镜(moudrianakise.n.和beerm.procnatlacadsciusa.1965年3月;53:564-71,其通过引用并入本文)。在某些方面,本发明提供了一种微阵列,其包括在离散的可寻址位置处附接于基底的多个寡核苷酸,其中至少一个寡核苷酸与疑似影响男性或女性生育的基因的一部分杂交。构建微阵列的方法是本领域已知的。参见例如yeatman等人(美国专利申请号2006/0195269),该申请的内容通过引用整体并入本文。如果来自样品的核酸被降解或者仅可以从样品中获得很少量的核酸,则可以对核酸进行pcr以获得足够量的核酸用于测序(参见例如,mullis等人,美国专利号4,683,195,该专利的内容通过引用整体并入本文)。通过上述和本领域已知的方法中的任一种进行测序产生序列读取。可以通过本领域已知的任何一些方法来分析序列读取以判定变体。变体判定可以包括将序列读取与参考物(例如hg18)比对以及报告单核苷酸(snp)等位基因。用于分析序列读取和判定变体的方法的实例包括标准基因组分析工具包(gatk)方法。参见thegenomeanalysistoolkit:amapreduceframeworkforanalyzingnext-generationdnasequencingdata,genomeres20(9):1297-1303,其内容通过引用并入。gatk是一种用于分析高通量测序数据且能够鉴别变体(包括snp)的软件包。snp等位基因可以以诸如序列比对图(sam)或变体判定格式(vcf)文件的格式报告。一些背景可见于li和durbin,2009,fastandaccurateshortreadalignmentwithburrows-wheelertransform.bioinformatics25:1754-60和mckenna等人,2010。变体判定产生结果(“变体判定”),其可以存储为序列比对图(sam)或二元比对图(bam)文件-包括比对串(sam格式于例如li,等人,thesequencealignment/mapformatandsamtools,bioinformatics,2009,25(16):2078-9中有述)。另外地或备选地,变体判定的输出可以以例如在报告中的变体判定格式(vcf)文件提供。典型的vcf文件将包括标题部分和数据部分。标题包含任意数目的每行以字符“##”开头的元信息行和以单个“#”字符开头的tab分隔字段定义行。字段定义行命名八个必填列,并且主体部分包含填充由字段定义行限定的列的数据行。vcf格式于danecek等人,2011,thevariantcallformatandvcftools,bioinformatics27(15):2156-2158中有述。进一步的讨论可见于美国公开2013/0073214;美国公开2013/0345066;美国公开2013/0311106;美国公开2013/0059740;美国公开2012/0157322;美国公开2015/0057946和美国公开2015/0056613,各自通过引用并入。此外,本发明的方法包括对来自受试者的样品进行测定,该测定检测不育相关基因(例如差异或异常表达的基因)的异常表达(过表达和表达不足)。差异或异常表达的基因是指相对于其在正常或对照受试者中的表达,其在罹患诸如不育症等病症的受试者中的表达被激活至更高或更低水平的基因。该术语还包括其在相同病症的不同阶段的表达被激活至更高或更低水平的基因。还应理解,差异表达的基因可以在核酸水平或蛋白质水平上被激活或抑制,或者可以使其经历可变剪接以产生不同的多肽产物。例如,这样的差异可以通过多肽的mrna水平、表面表达、分泌或其他分配的变化来证明。差异的基因表达可包括两个或更多个基因或其基因产物之间的表达比较,或两个或更多个基因或其基因产物之间表达比率的比较,或甚至同一基因的两种不同加工产物的比较,该产物在正常受试者和罹患病症(例如不育症)的受试者之间或在相同病症的各个阶段之间有所不同。差异表达包括基因或其表达产物中的时间或细胞表达模式的定量及定性差异。差异的基因表达(表达的增加和减少)基于相对于正常细胞中表达的百分比或倍数变化。增加可以是相对于正常细胞中的表达水平增加1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、120%、140%、160%、180%或200%。或者,倍数增加可以是相对于正常细胞中的表达水平增加1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍。减少可以是相对于正常细胞中的表达水平减少1%、5%、10%、20%、30%、40%、50%、55%、60%、65%、70%、75%、80%、82%、84%、86%、88%、90%、92%、94%、96%、98%、99%或100%。检测基因产物(例如,rna或蛋白质)水平的方法是本领域已知的。本领域已知的用于定量样品中mrna表达的常用方法包括rna印迹法和原位杂交(parker和barnes,methodsinmolecularbiology106:247283(1999),其内容通过引用整体并入本文);rna酶保护测定(hod,biotechniques13:852854(1992),其内容通过引用整体并入本文);以及基于pcr的方法,如逆转录聚合酶链反应(rt-pcr)(weis等人,trendsingenetics8:263264(1992),其内容通过引用整体并入本文)。或者,可以采用可以识别特定双链体的抗体,该特定双链体包括rna双链体、dna-rna杂合双链体或dna-蛋白质双链体。本领域已知的用于测定基因表达(例如,rna或蛋白质的量)的其他方法示于yeatman等人(美国专利申请号2006/0195269),其内容通过引用整体并入本文。在某些实施方案中,逆转录酶pcr(rt-pcr)用于测定基因表达。rt-pcr是一种定量方法,其可用于比较不同样品群体中的mrna水平,以表征基因表达模式、区分密切相关的mrna并分析rna结构。多种方法在本领域中是公知的。参见例如,ausubel等人,currentprotocolsofmolecularbiology,johnwileyandsons(1997);rupp和locker,labinvest.56:a67(1987)和deandres等人,biotechniques18:42044(1995);held等人,genomeresearch6:986994(1996),其各自的内容均通过引用整体并入本文。进一步的基于pcr的技术包括,例如,差异显示(liang和pardee,science257:967971(1992));扩增片段长度多态性(iaflp)(kawamoto等人,genomeres.12:13051312(1999));beadarraytm技术(illumina,sandiego,calif.;oliphant等人,discoveryofmarkersfordisease(supplementtobiotechniques),2002年7月;ferguson等人,analyticalchemistry72:5618(2000));用于检测基因表达的beadsarray(badge),其使用市售的luminex100labmap系统和多个颜色编码的微球(luminexcorp.,austin,tex.)进行基因表达的快速测定(yang等人,genomeres.11:18881898(2001));以及高覆盖表达谱分析(hicep)分析(fukumura等人.,nucl.acids.res.31(16)e94(2003))。其各自的内容通过引用整体并入本文。在另一实施方案中,基于massarray的基因表达谱分析方法用于测量基因表达。进一步的细节请参见例如,ding和cantor,proc.natl.acad.sci.usa100:30593064(2003),其通过引用并入本文。在某些实施方案中,还可以使用微阵列技术鉴别或确认差异基因表达。在该方法中,将感兴趣的多核苷酸序列(包括cdna和寡核苷酸)铺板或排列在微芯片基底上。然后将排列的序列与来自感兴趣的细胞或组织的特定dna探针杂交。用于制备微阵列和确定基因产物表达(例如,rna或蛋白质)的方法示于yeatman等人(美国专利申请号2006/0195269)中,其内容通过引用整体并入本文。已示出这样的方法具有检测罕见转录物(以每个细胞几个拷贝表达)所需的灵敏度,并且具有可再现地检测表达水平至少约两倍的差异的灵敏度(schena等人,proc.natl.acad.sci.usa93(2):106149(1996),其内容通过引用整体并入本文)。可以通过市售的设备,遵循制造商的方案,诸如通过使用affymetrixgenchip技术或incyte的微阵列技术来进行微阵列分析。在另一方面,蛋白质水平可通过构建抗体微阵列来确定,其中结合位点包含对由细胞基因组编码的多个蛋白质种类具有特异性的固定的优选单克隆的抗体。优选地,存在针对大部分感兴趣的蛋白质的抗体。用于制备单克隆抗体的方法是公知的(参见例如,harlow和lane,1988,antibodies:alaboratorymanual,coldspringharbor,n.y.,其引用整体并入用于所有目的)。在又一方面,许多组织样本中的标记物基因的转录物水平可以使用“组织阵列”来表征(kononen等人,nat.med4(7):844-7(1998))。在组织阵列中,在同一微阵列上评估多个组织样品。阵列允许原位检测rna和蛋白质水平;连续的部分允许同时分析多个样品。在其他实施方案中,使用基因表达的系列分析(sage)来测量基因表达。基因表达的系列分析(sage)是一种允许同时且定量地分析大量基因转录物而无需为每个转录物提供单独的杂交探针的方法。进一步的细节请参见例如,velculescu等人,science270:484487(1995);和velculescu等人,cell88:24351(1997),其各自的内容均通过引用整体并入本文。在其他实施方案中,使用大规模平行签名测序(mpss)来测量基因表达。进一步的细节请参见例如,brenner等人,naturebiotechnology18:630634(2000)。免疫组织化学法也适用于检测本发明的基因产物的表达水平。在这些方法中,使用对每种标志物具有特异性的抗体(单克隆或多克隆的)或抗血清(如多克隆抗血清)来检测表达。免疫组织化学方案和试剂盒是本领域公知的并且是可商购的。在某些实施方案中,使用蛋白质组学方法来测量基因表达。蛋白质组是指在某个时间点存在于样品(例如组织、生物体或细胞培养物)中的蛋白质的总数。蛋白质组学包括对样品中蛋白质表达的全局变化的研究(也称为表达蛋白质组学)及其他。蛋白质组学通常包括以下步骤:(1)通过2-d凝胶电泳(2-dpage)分离样品中的各种蛋白质;(2)鉴别从凝胶回收的各种蛋白质,例如,通过质谱或n-末端测序,以及(3)使用生物信息学分析数据。蛋白质组学方法是对其他基因表达谱分析方法的有价值的补充,并且可以单独使用或与其他方法组合使用,以检测本发明的预后标志物的产物。在一些实施方案中,质谱(ms)分析可单独使用或与其他方法(例如,免疫测定或rna测量测定)组合使用以确定生物样品中本文公开的一种或多种生物标志物的存在和/或量。在一些实施方案中,ms分析包括基质辅助激光解吸/电离(maldi)飞行时间(tof)ms分析,如定点(direct-spot)maldi-tof或液相色谱maldi-tof质谱分析。在一些实施方案中,ms分析包括电喷雾电离(esi)ms,如液相色谱(lc)esi-ms。可以使用市售的光谱仪完成质量分析。利用ms分析(包括maldi-tofms和esi-ms)检测生物样品中生物标志物肽的存在和量的方法是本领域已知的。参见例如美国专利号6,925,389;6,989,100;以及6,890,763,其各自的内容通过引用整体并入本文。定义基因集根据本发明的方法,基因集(如表2中列出的基因)在评估实现持续妊娠的累积概率的模型中使用,如下文更详细地描述的。使用由多种数据源组成的不育数据库(fertilome数据库)限定基因集,如图5所说明的。如图5所示,数据库中包含的信息从私人和公共生育相关数据中获得。私人和/或公共生育相关数据可包括植入基因、特发性不育基因、多囊卵巢综合征(pcos)基因、卵子质量基因、子宫内膜异位症基因和卵巢早衰基因。虽然这里未示出,但数据还可包括涉及男性和女性功能性生物学分类的基因。然后使私人和/或公共生育相关数据经历算法,以提供感兴趣的基因组区域和变异,其可以连同其他生育相关的信息一起引入生育数据库证据矩阵。在一个实施方案中,可以使用通过对从私人和/或公共生育相关数据中获得的一个或多个基因进行进化保守分析来鉴别感兴趣的生育区域的算法(abcore算法)。其他生育相关的信息包括,例如,蛋白质-蛋白质相互作用、途径相互作用、基因直向同源物和旁系同源物、基因组“热点”、基因蛋白表达和元分析,以及来自基因组研究的数据。在操作中,将全基因组测序数据与生育数据库证据矩阵中的编译数据进行比较,以便于鉴别对生育重要的潜在遗传区域。生育数据库证据矩阵过滤wgs变体以鉴别具有生育显著性的变体。在某些实施方案中,可以使全基因组测序数据经历算法,该算法将每个遗传区域从对男性和女性生育的不同方面而言最重要到最不重要进行排序。在一个实例中,也如图5所示,算法用于将每个遗传区域从对女性生育的不同方面而言最重要到最不重要进行排序(sesme算法),但可以扩展到包括男性生育的不同方面。可以使用本领域中已知的任何一些排序方案和/或在共同拥有的美国专利申请号14/605,452(其内容以其整体并入本文)中更详细描述的一个或多个排序方案。图6说明了根据某些实施方案用于过滤wgs数据以鉴别与不育相关的生物标志物的生物信息学路径,其数据最终用作图5中所示的不育相关数据库(fertilome数据库)的输入。全基因组测序(wgs)允许表征个体基因组的完整核酸序列。利用从wgs获得的数据量,可获得个体遗传变异的全面集合,这为遗传生物标志物发现提供了巨大的潜力。从wgs获得的数据可以有利地用于扩展鉴别和表征男性和女性不育生物标志物的能力。然而,在巨大的wgs数据集中鉴别具有生育显著性的未知变化的能力是一项类似于大海捞针的挑战性任务。如图6所示,使样品经历全基因组测序、映射和组装。然后分析wgs数据以发现遗传变体,如snp、较小插入缺失、可动因子、拷贝数变异和结构变异。然后评估所鉴别的变异的统计学显著性。这包括人群分层的校正、变异水平显著性测试和基因水平显著性测试。另外,使用例如snpeff和变体影响预测器(www.ensembl.org)引擎确定wgs变体的生物学显著性。snpeff能够对全基因组序列中的snp和其他变体的影响进行快速分类。参见,cingolani等人,aprogramforannotatingandpredictingtheeffectsofsinglenucleotidepolymorphisms,snpeff:1118snpsinthegenomeofdrosophilamelanogasterstrainw1118;iso-2;iso-3;landesbioscience,6:2,1-13;2012年4月/5月/6月,其通过引用并入本文。然后将具有生物学和统计学显著性的变体输入不育知识库,以便将这些变体分类为生育生物标志物并限定基因集。图7大体说明了使用不育知识库来过滤从wgs测序数据获得的变异以鉴别具有不育显著性的变异的能力。如图7所示,典型的全基因组可包括至多四百万种变体。根据本发明的方法,首先滤除对于女性生育而言的感兴趣区域之外的变体(其总计约一百万个变体)。接下来,过滤方法分离对女性生育而言的感兴趣区域内的变体。在一个实施方案中,控制卵子质量和生育的人基因组区域可以描述为fertilome核酸。位于fertilome核酸内的变异可能在100,000种内。可以进一步过滤fertilome核酸内的变异,以对具有不育显著性的变异进行鉴别和评分。特别地,具有不育显著性的变异包括预测会影响生物学功能或者会显示出与不育或治疗失败有统计学相关性的区域内的变异。应当理解,可以扩展和/或修改所示方法以包括男性生育和/或组合的男性和女性生育的感兴趣区域。临床信息对实现持续妊娠和活产的可能性的评估和分析还包括使用临床生育相关信息,如表型和/或环境特征。示例性临床信息提供于下表3中。可以通过本领域已知的任何方法获得关于临床信息的信息,如表3中列出的信息。在许多情况下,这样的信息可以从受试者完成的问卷中获得,该问卷包含关于某些临床数据的问题。额外的信息可以从受试者的伴侣和血亲所完成的问卷中获得。问卷包括有关受试者临床特征的问题,如其年龄、吸烟习惯或饮酒频率。还可以从受试者的病史以及血亲和其他家庭成员的病史获得信息。额外的信息可以从受试者的伴侣的病史和家族病史中获得。可以通过分析电子病历、纸质病历、问卷中包含的一系列有关病史的问题,以及其组合中获得病史信息。在其他实施方案中,使用对感兴趣的表型性状或环境暴露具有特异性的测定。这样的测定是本领域技术人员已知的,并且可以与本发明的方法一起使用。例如,可以从尿液或血液测试中检测激素。venners等人(hum.reprod.21(9):2272-2280,2006)报告了用于检测尿液和血液样品中的雌激素和孕酮的测定。venner还报告了用于检测生育治疗中使用的化学物质的测定。类似地,可以从组织或体液(例如毛发、尿液、汗液或血液)中检测非法药物使用,并且存在许多用于进行这类测试的市售测定(labcorp)。标准药物测试查找十种不同类别的药物,并且该测试在商业上称为“10组尿液筛选(10-panelurinescreen)”。10组尿液筛查由以下各项组成:1.苯丙胺(包括甲基苯丙胺)2.巴比妥酸盐3.苯二氮杂卓4.大麻素(thc)5.可卡因6.美沙酮7.甲喹酮8.阿片剂(可待因、吗啡、海洛因、羟可酮、维柯丁等)9.苯环利定(pcp)10.丙氧芬。通过这样的测试也可以检测到酒精的使用。可以使用许多测定来测试患者的塑料暴露(例如,双酚a(bpa))。bpa最常见于聚碳酸酯的组分(占生成的总bpa的约74%)和环氧树脂的生产(约20%)中。除了见于许多包括塑料食品和饮料容器(包括奶瓶和水瓶)在内的产品中之外,bpa还常见于多种家用电器、电子器件、运动安全设备、粘合剂、收银机收据、医疗设备、眼镜镜片、供水管和许多其他产品。用于测试血液、汗液或尿液中bpa存在的测定于例如genuis等人(journalofenvironmentalandpublichealth,2012卷,文章id185731,10页,2012)中有述。用于评估实现妊娠/活产的可能性的方法本发明提供了用于通过将临床数据和遗传数据二者组合来产生在个体中实现持续妊娠的可能性的方法。图8中提供了用于执行这些方法的数据分析路径的一般概述。用于产生实现持续妊娠的可能性的方法通常涉及从参考数据集确定临床特征与已知的妊娠和不育相关结果之间的一种或多种相关性,以提供代表经“n”个ivf周期的持续妊娠的累积概率的模型。该方法进一步涉及从参考数据集确定遗传特征与已知的妊娠和不育相关结果之间的一种或多种相关性,以调整该模型。然后将模型应用于输入数据以产生在受试者中实现持续妊娠的可能性。图9说明了用于确定遗传特征对实现持续妊娠的累积概率的影响的方法。首先,鉴别基因和遗传区域内的变体,包括上述那些。在优选的实施方案中,使用illuminahiseq平台对从全血样品中提取的dna进行全基因组测序。如上所述,可以使用标准基因组分析工具包(gatk)方法判定变体。一旦判定变体,则使用定制的路径来鉴别患者遗传特征中的有害变体。可以使用例如snpeff和变体影响预测器(www.ensembl.org)引擎来确定有害变体。snpeff能够对全基因组序列中的snp和其他变体的影响进行快速分类。参见,cingolani等人,aprogramforannotatingandpredictingtheeffectsofsinglenucleotidepolymorphisms,snpeff:snpsinthegenomeofdrosophilamelanogasterstrainw1118;iso-2;iso-3;landesbioscience,6:2,1-13;2012年4月/5月/6月,其通过引用并入本文。然后选择使用诸如snpeff等程序预测为具有高影响或“中度错义变体”(中度由snpeff定义为导致氨基酸改变)的变体。在鉴别出这些高度和中度影响变体后,使变体然后通过基于多种注释工具的评分系统。本领域普通技术人员将理解,分子方法和计算方法均可用于注释变体(例如,经由与已知数据库进行比较、通过使用anova技术、通过使用多变量分析)。示例性注释工具包括用于注释、可视化和集成发现的数据库(david)。natureprotocols302009;4(1):44;以及nucleicacidsres.2009;37(1):1,其通过引用并入。然后对被至少两个注释工具认为是有害的变体进行关联分析,以确定从受试者获得的遗传变体特征是否与其持续妊娠的累积几率相关。关联分析涉及使用多个模型中的任何一个来计算一组受试者(如患者队列)经n个ivf周期的持续妊娠累积几率,如图10所示。该模型包括并调整从受试者组获得的临床信息,如表3中列出的表型和环境特征。例如,可以根据受试者的年龄、bafc、amh、移植胚胎数、pgs、第3天lsh、第3天fsh、第3天e2等调整模型。合适的方法包括但不限于逻辑斯蒂回归、序数逻辑斯蒂回归、线性或二次判别分析、聚类、主成分分析、最近邻分类器分析和比例风险模型。逻辑斯蒂回归分析可用于生成每个特征的优势比和相对风险。逻辑斯蒂回归的方法于例如ruczinski(journalofcomputationalandgraphicalstatistics12:475-512,2003);agresti(anintroductiontocategoricaldataanalysis,johnwiley&sons,inc.,1996,newyork,第8章);以及yeatman等人(美国专利申请号2006/0195269)中有述,其各自的内容均通过引用整体并入本文。本发明的一些实施方案提供了处理多类别(多分类)响应的逻辑斯蒂回归模型的概括。这样的实施方案可用于将生物体划分至一个或多个预后组(例如,良好预后、不良预后)。这样的回归模型使用同时涉及所有类别对的多类别logit模型,并描述一个类别而非另一类别的响应几率。一旦模型为某些(j-1)类别对指定了logit,则其余类别是冗余的。参见,例如,agresti,anintroductiontocategoricaldataanalysis,johnwiley&sons,inc.,1996,newyork,第8章,其通过引用并入本文。线性判别分析(lda)尝试基于某些对象属性将主题分类为两个类别之一。换言之,lda对在实验中测定的对象属性是否预测对象的分类进行检验。lda通常需要连续的自变量和二分类类别因变量。在一个实施方案中,所选的生育相关的表型性状作为必要的连续自变量。训练群体中每个成员的预后组分类用作二分类类别因变量。有关线性判别分析的更多信息请参见duda,patternclassification,第二版,2001,johnwiley&sons,inc;以及hastie,2001,theelementsofstatisticallearning,springer,newyork;venables和ripley,1997,modernappliedstatisticswiths-plus,springer,newyork,其通过引用并入本文。二次判别分析(qda)采用相同的输入参数并返回与lda相同的结果。qda使用二次方程而非线性方程来产生结果。lda和qda是可互换的,而使用哪个是偏好和/或支持该分析的软件的可用性的问题。逻辑斯蒂回归采用相同的输入参数并返回与lda和qda相同的结果。在本发明的一些实施方案中,决策树用于使用本发明的一组选定分子标志物的表达数据对患者进行分类。决策树算法属于监督学习算法类。决策树的目的是从真实世界的示例性数据中引出分类器(树)。该树可用于对未用于推导该决策树的未见实例进行分类。通常,存在许多不同的决策树算法,其中许多于duda,patternclassification,第二版,2001,johnwiley&sons,inc中有述。决策树算法通常需要考虑特征处理、不纯性度量、终止条件和剪枝。具体决策树算法包括但不限于分类与回归树(cart)、多变量决策树、id3和c4.5。在一些实施方案中,生育相关特征用于将训练集聚类。额外的信息和实例于duda和hart,patternclassificationandsceneanalysis,1973,johnwiley&sons,inc.,newyork;kaufman和rousseeuw,1990,findinggroupsindata:anintroductiontoclusteranalysis,wiley,newyork,n.y.;duda,patternclassification,第二版,2001,johnwiley&sons,inc;以及hastie,2001,theelementsofstatisticallearning,springer,newyork;everitt,1993,clusteranalysis(第3版),wiley,newyork,n.y.;以及backer,1995,computer-assistedreasoninginclusteranalysis,prenticehall,uppersaddleriver,n.j.中有述。可以在本发明中使用的特定示例性聚类技术包括但不限于分层聚类(使用最近邻算法、最远邻算法、平均连锁算法、质心算法或平方和算法的凝聚聚类)、k均值聚类、模糊k均值聚类算法和jarvis-patrick聚类。用于分析关联性的其他算法是已知的。例如,随机梯度提升用于生成多重累加回归树(mart)模型以预测一系列结果概率。一种称为广义线性模型的不同方法将结果表示为预测器变量的函数的加权和。基于最小二乘法或贝叶斯法计算权重,以使训练集上的预测误差最小。预测器的权重揭示了改变该预测器同时保持其他各项不变对结果的影响。在一个或多个预测器高度相关的情况下,在称为共线性的现象中,它们的权重的相对值意义不大;必须采取措施去除该共线性,如从模型中排除几乎冗余的变量。因此,当正确解释时,权重表示预测器的相对重要性。广义线性模型的较不通用的公式化包括线性回归、多元回归和多因素逻辑斯蒂回归模型,并且在医学界被广泛用作临床预测器。在优选实施方案中,比例风险模型,如cox比例风险模型,用于确定一组受试者中持续妊娠的累积概率,如图10所示。参见例如,cox,davidr(1972)."regressionmodelsandlife-tables".journaloftheroyalstatisticalsociety,seriesb.34(2):187-220,其通过引用并入本文。比例风险模型将一些事件发生之前经过的时间与可能与该时间量相关联的一个或多个协变量相关联,其中协变量的单位增加的独特效应相对于危险率是乘法的(例如,实现持续妊娠/活产的几率)。为了进一步增强分析的预测能力,还可以并入来自受试者的遗传信息。用于确定遗传信息对持续妊娠的累积几率的影响的一种方法包括序列核关联性检验(skat)方法。参见wumc,lees,cait,liy,boehnkem,linx.rare-variantassociationtestingforsequencingdatawiththesequencekernelassociationtest.americanjournalofhumangenetics.2011;89(l):82-93.doi:10.1016/j.ajhg.2011.05.029,其通过引用并入本文。skat是单核苷酸多态性集(snp集)或基因集水平方法,用于检验snp集是否与感兴趣的表型(连续或离散)相关联,如图11所示。snp集可包括基因、功能性生物学分类、基因组区域等。需要在进行skat分析之前定义这些集。可以以任何数目的方式定义基因集,如通过使用以生育为中心的数据库,如下面更详细描述的。skat方法通过减少校正多重比较的负荷提供了相对于snp水平分析的改进,从而增加了检测真实关联性的能力。skat将snp集内的snp水平评分检验统计数据聚集以计算snp集水平显著性的p值。另外地,skat允许并入协变量,这使得该方法即使在调整其他变量之后也能够鉴别snp集是否与感兴趣的表型相关。skat没有假设单个变体对表型的影响方向,因此是在一个类别中的单个snp可对感兴趣的表型产生不同影响的情况下检测snp集水平关联性的有效方法。skat假设snp对表型的影响遵循平均值为零(即对表型没有影响)的分布和方差σ2。skat采用snp影响的方差不为零(即,σ2≠0)的假设的方差分量检验,其提供了存在snp集水平关联性的证据。由于skat仅提供了snp集与感兴趣的表型之间的关联性的证据的p值,却没有测定该影响的大小或方向,如图12所示,因此可以完成负荷检验(burdentesting)以增强skat分析的结果。负荷检验将个体变体水平遗传信息折叠(collapse)到snp集水平(例如,基因或功能性分类水平)。例如,通过计算在每个分类中每名患者具有的有害突变总数的总分,可以为每个患者分配给定功能性分类中的遗传负荷评分。负荷评分可以被视为连续的或被分类为离散的二分类指标,用于指示患者相对于样本内的其余患者是否具有超过平均数或小于或等于平均数的该类别内的突变。然后可以将负荷评分并入标准回归模型,该模型还可以控制已知与感兴趣的表型相关的临床指标。例如,除了已知的ivf成功的临床预测因素之外,直到患者实现持续妊娠之前的ivf治疗周期数的离散时间比例风险模型可以并入遗传负荷。在控制与ivf成功的已知临床相关因素之后,来自这种模型的系数将会指示遗传负荷对ivf治疗期间实现持续妊娠的影响。在一个实施方案中,在skat至后进行负荷检验以阐明遗传信息对实现持续妊娠的几率的影响的方向,如通过cox比例风险方法确定的。例如,通过计算在每个基因类别中每名患者具有的有害突变总数的总分来进行负荷检验。然后将这些评分转化为二分类指标,用于指示患者相对于该样本内的其余患者是否具有超过平均数或小于或等于平均数的该类别内的突变。然后将这些指标并入直到患者实现持续妊娠之前的ivf治疗周期数的离散时间比例风险模型中,如图13所示。因此,通过根据skat分析结果调整模型,可以看出是否存在统计证据表明,在类别水平(例如功能型生物学分类水平)下的基因组信息提供了足以显著影响模型并因此与实现持续妊娠的几率相关的已知临床指标之外的额外信息。系统本文所述的本发明的方面可以使用包含处理器(例如中央处理单元)的任何类型的计算设备如计算机来执行,或使用计算设备的任何组合来执行,其中每个设备执行过程或方法的至少一部分。在一些实施方案中,本文所述的系统和方法可以用手持设备执行,例如智能平板电脑,或智能电话,或为系统生产的专用设备。可以使用软件、硬件、固件、硬连线或任何这些的组合来执行本发明的方法。也可将实现功能的特征物理地定位在多个位置,包括被分布开,使得功能的各部分在不同的物理位置处实现(例如,成像设备在一个房间中而主机工作站在另一房间中,或者在单独的建筑物中,例如,采用无线或有线连接)。举例来说,适合于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任一种或多种处理器。通常,处理器将会从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦合至一个或多个用于存储数据的大容量存储设备(例如磁盘、磁光盘或光盘),以从该存储设备接收数据或将数据传输到该存储设备,或两者兼有。适用于体现计算机程序指令和数据的信息载体包括所有形式的非易失性存储器,举例来说包括半导体存储器设备(例如,eprom、eeprom、固态驱动器(ssd)和闪存设备);磁盘(例如,内部硬盘或可移动磁盘);磁光盘;以及光盘(例如cd和dvd盘)。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。为了提供与用户的交互,本文所述的主题可以在具有i/o设备(例如,用于向用户显示信息的crt、lcd、led或投影设备)以及输入或输出设备如键盘和定点设备(例如,鼠标或轨迹球)(通过该输入设备,用户可以向计算机提供输入)的计算机上实现。其他类型的设备也可用于提供与用户的交互。例如,提供给用户的反馈可以是任何形式的感觉反馈(例如,视觉反馈、听觉反馈或触觉反馈),并且可以以任何形式接收来自用户的输入,包括声学、语音或触觉输入。本文所述的主题可以在包括后端组件(例如,数据服务器)、中间件组件(例如,应用服务器)或前端组件(例如,具有图形用户界面或网络浏览器的客户端计算机,用户可以通过该计算机与本文所述的主题的实现进行交互),或者这样的后端、中间件和前端组件的任何组合的计算系统中实现。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)经由网络互连。例如,数据参考集可以存储在远程位置,并且计算机通过网络进行通信以访问参考集,从而将来源于女性受试者的数据与参考集进行比较。然而,在其他实施方案中,参考集本地存储在计算机内,并且计算机访问cpu内的参考集以将受试者数据与参考集进行比较。通信网络的实例包括蜂窝网(例如,3g或4g)、局域网(lan)和广域网(wan)例如因特网。本文所述的主题可以实现为一个或多个计算机程序产品,如有形地体现在信息载体中(例如,非暂时性计算机可读介质中)的一个或多个计算机程序,用于由数据处理设备(例如,可编程处理器、计算机或多台计算机)执行或用于控制数据处理设备的操作。计算机程序(也称为程序、软件、软件应用程序、应用程序、宏或代码)可以用任何形式的编程语言编写,该编程语言包括编译或解释语言(例如,c、c++、perl),并且其可以以任何形式部署,该形式包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。本发明的系统和方法可以包括用本领域已知的任何合适的编程语言编写的指令,该编程语言包括但不限于c、c++、perl、java、activex、html5、visualbasic或javascript。计算机程序不一定对应于文件。程序可以存储在保存其他程序或数据的文件或文件的一部分中,存储在专用于所讨论的程序的单个文件中,或存储在多个协调文件(例如,存储一个或多个模块、子程序或代码的一部分的文件)中。可以部署计算机程序以在一个计算机上或在多个计算机(在一个站点,或分布在多个站点并通过通信网络互连)上执行。文件可以是例如存储在硬盘驱动器、ssd、cd或其他有形的非暂时性介质上的数字文件。文件可以通过网络从一个设备发送到另一设备(例如,作为从服务器发送到客户端的数据包,例如,通过网络接口卡、调制解调器、无线卡或类似物)。写入根据本发明的文件涉及例如通过添加、去除或重新排列粒子(例如,通过读/写头将净电荷或偶极矩转变成磁化模式)来转变有形非暂时性计算机可读介质,然后,该模式代表关于用户所期望的并对用户有用的客观物理现象的信息的新配置。在一些实施方案中,写入涉及物理地转变有形非暂时性计算机可读介质中的材料(例如,具有某些光学特性,使得光学读/写设备随后可以读取新的有用信息配置,例如刻录cd-rom)。在一些实施方案中,写入文件包括转变物理闪存设备(如nand闪存设备)并通过转变由浮栅晶体管制成的存储单元阵列中的物理元件来存储信息。写入文件的方法在本领域中是公知的,例如,可以通过程序或通过来自软件的保存命令或来自编程语言的写入命令手动或自动调用。合适的计算设备通常包括大容量存储器、至少一个图形用户界面、至少一个显示设备,并且通常包括设备之间的通信。大容量存储器表明了一类计算机可读介质,即计算机存储介质。计算机存储介质可以包括用于存储信息(如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实现的易失性、非易失性、可移动和不可移动的介质。计算机存储介质的实例包括ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字通用盘(dvd)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、射频识别标签或芯片,或可用于存储所需信息并且可由计算设备访问的任何其他介质。如本领域技术人员将认识到的对于执行本发明的方法必要或最适合的,本发明的计算机系统或机器包括一个或多个处理器(例如,中央处理单元(cpu)、图形处理单元(gpu)或这两者)、主存储器和静态存储器,它们通过总线相互通信。在图14所示的示例性实施方案中,系统401可包括计算机433(例如,膝上型计算机、台式计算机或平板计算机)。计算机433可被配置为通过网络415进行通信。计算机433包括一个或多个处理器和存储器以及输入/输出机构。在本发明的方法采用客户端/服务器体系结构的情况下,可以使用服务器409来执行本发明的方法的任何步骤,服务器409包括处理器和存储器中的一个或多个,能够获得数据、指令等或经由接口模块提供结果或提供文件形式的结果。服务器409可以通过网络415接通计算机433或终端467,或者服务器415可以直接连接到终端467,终端467包括一个或多个处理器和存储器以及输入/输出机构。在一些实施方案中,系统包括用于获得测序数据的仪器455,仪器455可以耦合到测序仪计算机451以用于序列读取的初始处理。根据本发明的存储器可以包括机器可读介质,在该机器可读介质上存储有体现本文所述的任何一个或多个方法或功能的一组或多组指令(例如,软件)。在计算机系统执行期间,软件还可以完全或至少部分地驻留在主存储器内和/或处理器内,主存储器和处理器也构成机器可读介质。可进一步经由网络接口设备通过网络发送或接收软件。其他实施方案在本发明的范围和精神内。例如,由于软件的性质,可以使用软件、硬件、固件、硬连线或任何这些的组合来实现上述功能。也可将实现功能的特征物理地定位在多个位置,包括被分布开,使得功能的各部分在不同的物理位置处实现。实施例1在该实施例中,使用专有的生物信息学路径和统计分析来鉴别影响实现活产的能力的亚临床遗传因子。研究设计和方法研究受试者:研究受试者由2012年至2015年间在美国四个生育诊所经历ivf治疗的227名女性组成。从每名研究受试者取得全血样品。从全血中提取基因组dna。使用illuminahiseq平台生成全基因组序列(平均读取深度为30x)。然后使用gatk标准方法分析所生成的序列以判定变体。使用变体影响预测工具snpeff来鉴别变体,如预测会破坏基因功能的单核苷酸多态性(snp)。然后将具有由snpeff预测的高影响或者为“中度错义变体”(由snpeff定义为引起氨基酸变化)的变体通过基于六种不同变体注释工具的评分系统。然后将被这些工具中的至少两种视为有害的变体传递至关联分析。统计分析:使用来自美国12个诊所的超过80,000个ivf治疗周期的回顾性数据,采用cox比例风险模型计算活产的可能性(lb)。该模型用于根据预后和结果将患者分为四组:1)良好预后(gp,上四分位数)和较短时间实现lb(1个周期实现lb):gp-so2)良好预后和较长时间实现lb(>1个周期实现lb):gp-lo3)不良预后(pp,下四分位数)和较短时间实现lb(<2周期实现lb):pp-so4)不良预后和较长时间实现lb(>2个周期实现lb):pp-lo。结果gp组与pp组中的患者之间的平均年龄显示出显著差异:29.7比35.8(p<0.001)。pp组中的大多数患者被诊断为dor(约57%),而gp组中的大多数患者是特发性的(约49%)。在gp-so组与gp-lo组之间,年龄或bmi没有统计学显著的差异。在与生殖功能相关的超过25种不同的生物学分类中,卵子发生是其破坏与gp和pp患者中的较长时间实现lb或缺乏lb显著相关的唯一分类。结论:该研究表明,卵母细胞质量的亚临床遗传标志物可具有独立于生育潜力的表型生物标志物(如年龄和激素水平)的诊断价值。该信息可使目前无法解释的不孕病例变得清晰,并为不孕护理和治疗带来更高的效率。实施例2在该实施例中,使用专有的生物信息学路径和统计分析来鉴别影响实现持续妊娠的能力的亚临床遗传因子。研究设计和方法研究受试者:研究受试者由2012年至2016年间在美国四个生育诊所经历ivf治疗的261名女性组成。该队列的关键指标如下:年龄33.3bafc14.22第3天fsh7.41平均ivf周期数1.85持续妊娠比率54%dna测序分析:从每名研究受试者取得全血样品。从全血提取基因组dna。使用illuminahiseq平台生成全基因组序列(平均读取深度为30x)。然后使用gatk标准方法分析所生成的序列以判定变体。使用变体影响预测工具snpeff鉴别变体,如预测会破坏基因功能的单核苷酸多态性(snp)。然后将具有由snpeff预测的高影响或者为“中度错义变体”(由snpeff定义为引起氨基酸变化)的变体通过基于六种不同变体注释工具的评分系统。然后将被这些工具中的至少两种视为有害的变体传递至关联分析。统计分析:使用序列核关联性检验(skat)检验以下假设——在控制临床指标后,特定变体组与实现持续妊娠的几率相关。具体地,将skat用于直到患者实现持续妊娠之前的体外受精(ivf)治疗周期数的离散时间比例风险模型框架。通过计算每个基因类别中每名患者具有的有害突变总数的总分来进行负荷检验。然后将这些评分转化为二分指标,用于指示患者相对于样本内的其余患者是否具有超过平均数或小于或等于平均数的该类别内的突变。然后将这些指标并入直到患者实现持续妊娠之前的ivf治疗周期数的离散时间比例风险模型中,如图8所示。skat和负荷检验模型控制了与ivf治疗成功的已知临床相关因素,包括年龄、基础窦卵泡计数(bafc)、抗苗勒管激素(amh)、移植胚胎数、植入前遗传筛查(pgs),以及第3天黄体生成素(第3天lh)、促卵泡激素(第3天fsh)和雌二醇(第3天e2)的水平。模型的结果指示是否存在统计证据表明,在基因类别水平下的基因组信息提供了关于在ivf治疗中实现持续妊娠的几率的已知临床指标之外的额外信息。结果skat分析的结果示于表4中。列出的p值指示变体类别与在ivf中实现持续妊娠的几率之间的关联性的显著性水平。根据患者年龄、pgs、bafc、amh、移植胚胎数、第3天lh、第3天fsh和第3天e2调整模型。在控制已知的临床指标后,卵子发生分类中的遗传变体与实现持续妊娠的几率之间存在显著关联性(p=0.020)。卵泡发生、植入后发育和神经内分泌轴与持续妊娠几率在趋势水平上相关。表4.序列核关联性检验(skat)结果。类别p值卵子发生0.020*卵泡发生0.051植入后发育0.073神经内分泌轴0.091性腺发生0.107胎盘形成(胚胎)0.156胎盘形成(子宫)0.273卵母细胞-胚胎转变0.276相对于具有小于或等于平均数的有害变体的患者,在基因类别中具有超过平均数的有害变体的患者之间实现持续妊娠的几率的调整优势比(aor)示于表5中。该模型的结果指示,相对于具有小于或等于平均数的突变的患者,在卵子发生分类中具有超过平均数的突变的患者在给定周期中实现持续妊娠的几率是0.48倍(aor=0.48,95%ci[0.27,0.86],p=0.014)。其他基因类别都没有统计学显著性。表5.实现持续妊娠的几率的调整优势比类别aor95%cip值卵子发生0.48[0.27,0.86]0.014卵母细胞-胚胎转变1.71[1.00,2.96]0.052卵泡发生1.40[0.87,2.24]0.163胎盘形成(子宫)0.78[0.51,1.02]0.258植入后发育1.24[0.76,2.01]0.388性腺发生1.22[0.73,2.03]0.452胎盘形成(胚胎)1.03[0.63,1.69]0.901神经内分泌轴1.00[0.64,1.55]0.998结论:与实施例1类似,该研究表明,卵母细胞质量的亚临床遗传标志物可具有独立于生育潜力的表型生物标志物(如年龄和激素水平)的诊断价值。该信息可使目前无法解释的不孕病例变得清晰,并为不孕护理和治疗带来更高的效率。援引并入整个公开内容中参考和引用了其他文件,例如专利、专利申请、专利公开、期刊、书籍、论文、网页内容。所有这些文件均通过引用整体并入本文用于所有目的。等同物在不脱离本发明的精神或基本特征的情况下,本发明可以以其他特定形式体现。因此,前述实施方案的所有方面都应被视为是说明性的,而非限制本文所述的发明。因此,本发明的范围由所附权利要求而非前述说明书指定,并且因此本文旨在包括落入权利要求的含义和等同范围内的所有变化。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1