遗传分析系统和方法

文档序号:6518878阅读:198来源:国知局
遗传分析系统和方法
【专利摘要】本发明提供了通过评估个体的基因型与至少一种疾病或状态之间的相关性确定遗传综合指数评分的方法。该评估包括将个体的基因组图谱与已确认为与至少一种疾病或状态相关的医学相关遗传变异的数据库相比较。
【专利说明】遗传分析系统和方法
[0001]本申请是申请日为2007年11月30日和发明名称为“遗传分析系统和方法”的200780050019.5号发明专利申请的分案申请。
【背景技术】
[0002]人类基因组测序和人类基因组学的其它最新进展已经揭示出,任何两个人之间的基因组组成具有超过99.9%的相似性。不同个体间DNA中相对较少量的变异是导致表型性状差异的原因,并且与许多人类疾病、对各种疾病的易感性和对疾病治疗的反应有关。个体间DNA的变异发生在编码区和非编码区,并且包括基因组DNA序列中特定位点上碱基的变化,以及DNA的插入和缺失。发生在基因组中单个碱基位置上的变化称为单核苷酸多态性,或者“SNP”。 [0003]虽然在人类基因组中SNP相对稀少,但是其占到个体间DNA序列变异的大部分,在人类基因组中大约每1,200个喊基对发生一个SNP (参见International HapMap Project,www.hapmap.0rg) 0由于可获得更多的人类遗传信息,SNP的复杂性开始为人所了解。随之,基因组中SNP的发生与多种疾病和状态的存在和/或易感性发生关联。
[0004]由于获得这些相关性和人类遗传学上的其它进展,一般而言医疗和个人保健正向着个性化的途径发展,其中患者将在其它因素以外考虑他或她的基因组信息的情况下作出适当的医疗选择和其它选择。因此,就需要向个人和他们的保健提供者提供特定于该个体的个人基因组的信息,从而提供个性化医疗和其它决策。

【发明内容】

[0005]本发明提供了一种评估个体的基因型相关性的方法,该方法包括:a)获得该个体的遗传样品,b)生成该个体的基因组图谱,c)通过将该个体的基因组图谱与人类基因型和表型的相关性的当前数据库相比较,确定该个体基因型与表型的相关性,d)向该个体或该个体的保健管理者报告由步骤c)得到的结果,e)当已知附加的人类基因型相关性时,用该附加的人类基因型相关性更新人类基因型相关性数据库,f)通过将由步骤c)得到的该个体的基因组图谱或其一部分与附加的人类基因型相关性相比较而更新该个体的基因型相关性,并确定该个体的附加基因型相关性,和g)向该个体或该个体的保健管理者报告由步骤f)得到的结果。
[0006]本发明进一步提供了一种评估个体的基因型相关性的商业方法,该方法包括:a)获得该个体的遗传样品;b)生成该个体的基因组图谱,c)通过将该个体的基因组图谱与人类基因型相关性数据库相比较确定该个体的基因型相关性;d)以加密的方式向该个体提供确定个体的基因型相关性的结果;e)当已知附加的人类基因型相关性时,用该附加的人类基因型相关性更新人类基因型相关性数据库;f)通过将该个体的基因组图谱或其一部分与附加的人类基因型相关性相比较而更新该个体的基因型相关性,并确定该个体的附加基因型相关性;和0向该个体或该个体的保健管理者提供更新该个体的基因型相关性的结果。[0007]本发明的另一方面是一种生成个体的表型谱的方法,该方法包括:a)提供包括规则的规则集(rule set),各条规则表明至少一种基因型与至少一种表型之间的相关性,b)提供包括多个个体中各个个体的基因组图谱的数据集,其中各个基因组图谱包括多种基因型;c)用至少一条新规则定期更新该规则集,其中该至少一条新规则表明先前在规则集中未彼此关联的基因型与表型之间的相关性;d)将各条新规则应用于至少一个个体的基因组图谱,从而使该个体的至少一种基因型与至少一种表型相关联,并且任选地,e)生成包括该个体的表型谱的报告。
[0008]本发明还提供了一种系统,该系统包括:a)包括规则的规则集,各条规则表明至少一种基因型与至少一种表型之间的相关性;b)用至少一条新规则定期更新该规则集的代码,其中该至少一条新规则表明先前在规则集中未彼此关联的基因型与表型之间的相关性;c)包括多个个体的基因组图谱的数据库;d)将该规则集应用于个体的基因组图谱以确定个体的表型谱的代码;和e)生成各个体的报告的代码。
[0009]本发明的另一方面是在上述的方法和系统中以加密或不加密的方式通过网络进行传输。
[0010]引入的参考内容
[0011 ] 在说明书中提及的所有出版物和专利申请在此引入作为参考,正如各单个出版物或专利申请特别地和单独地说明引入作为参考一样。
[0012]具体地,本发明涉及以下各项:
[0013]1.一种评估个体的基 因型相关性的方法,该方法包括:
[0014]a)获得所述个体的遗传样品;
[0015]b)生成所述个体的基因组图谱;
[0016]c)通过将所述个体的基因组图谱与当前人类基因型与表型的相关性数据库相比较而确定所述个体的基因型与表型的相关性;
[0017]d)向所述个体或所述个体的保健管理者报告由步骤c)得到的所述结果;
[0018]e)当知道附加的人类基因型相关性时,用所述附加的人类基因型相关性而更新所述人类基因型相关性数据库;和
[0019]f)通过将步骤c)的所述个体的基因组图谱或其一部分与所述附加的人类基因型相关性相比较更新所述个体的基因型相关性,并确定所述个体的附加基因型相关性;和
[0020]g)向所述个体或所述个体的保健管理者报告由步骤f)得到的所述结果。
[0021]2.第I项所述的方法,其中,第三方获得所述遗传样品。
[0022]3.第I项所述的方法,其中,所述生成基因组图谱由第三方进行。
[0023]4.第I项所述的方法,其中,所述结果基于GCI或者GCI Plus评分。
[0024]5.第I项所述的方法,其中,所述报告包括通过网络传输所述结果。
[0025]6.第I项所述的方法,其中,所述结果的所述报告是通过在线入口。
[0026]7.第I项所述的方法,其中,所述结果的所述报告是通过纸件或者通过电子邮件。
[0027]8.第I项所述的方法,其中,所述报告包括以加密的方式报告所述结果。
[0028]9.第I项所述的方法,其中,所述报告包括以非加密的方式报告所述结果。
[0029]10.第I项所述的方法,其中,所述个体的基因组图谱存储至加密数据库或保险库中。[0030]11.第I项所述的方法,其中,所述个体为注册用户。
[0031]12.第I项所述的方法,其中,所述个体为非注册用户。
[0032]13.第I项所述的方法,其中,所述遗传样品为DNA。
[0033]14.第I项所述的方法,其中,所述遗传样品为RNA。
[0034]15.第I项所述的方法,其中,所述基因组图谱为单核苷酸多态性基因组图谱,所述人类基因型相关性数据库为人类单核苷酸多态性相关性,并且所述附加的人类基因型相关性为单核苷酸多态性相关性。
[0035]16.第I项所述的方法,其中,所述基因组图谱包括平截、插入、缺失或重复,所述人类基因型相关性数据库为人类平截、插入、缺失或重复相关性,并且所述附加的人类基因型相关性为平截、插入、缺失或重复相关性。
[0036]17.第I项所述的方法,其中,所述基因组图谱为所述个体的全基因组。
[0037]18.第I项所述的方法,其中,所述方法包括评估2个或更多的基因型相关性。
[0038]19.第I项所述的方法,其中,所述方法包括评估10个或更多的基因型相关性。
[0039]20.第I项所述的方法,其中,所述人类基因型相关性数据库包括列于表1的一个或多个基因中的遗传性变型和与所述遗传变型相关的表型。
[0040]21.第I项所述的方法,其中,所述人类基因型相关性数据库包括列于图4、5、6、22或25的一个或多个基因中的遗传性变型和与所述遗传性变型相关的表型。
[0041]22.第I项所述的方`法,其中,所述人类基因型相关性数据库包括由所述个体的所述基因组图谱确定的遗传性变型和由所述个体显露的预先确定的表型。
[0042]23.第I项所述的方法,其中,所述人类基因型相关性数据库包括在表1或图4、5、6、22或25所列的所述基因中的单核苷酸多态性和与所述单核苷酸多态性相关的表型。
[0043]24.第I项所述的方法,其中,所述遗传样品来自选自血液、头发、皮肤、唾液、精液、尿、粪便物质、汗液和口腔样品的生物样品。
[0044]25.第15项所述的方法,其中,所述基因型相关性为单核苷酸多态性与疾病和状态的相关性。
[0045]26.第15项所述的方法,其中,所述基因型相关性为单核苷酸多态性与非医学状态的表型的相关性。
[0046]27.第I项所述的方法,其中,所述基因组图谱使用高密度DNA微阵列生成。
[0047]28.第I项所述的方法,其中,所述基因组图谱使用基因组DNA测序生成。
[0048]29.第24项所述的方法,其中,所述遗传样品为基因组DNA并且所述生物样品为唾液。
[0049]30.—种方法,该方法包括:
[0050]a)提供包括规则的规则集,各条规则表明至少一种基因型与至少一种表型之间的相关性;
[0051]b)提供包括多个个体中各个个体的基因组图谱的数据集,其中各个基因组图谱包括多种基因型;
[0052]c)定期地使用至少一条新规则更新所述规则集,其中所述至少一条新规则表明先前在所述规则集中彼此不相关的基因型和表型之间的相关性;和
[0053]d)将各条新规则应用于至少所述个体之一的所述基因组图谱,从而对于所述个体使至少一种基因型与至少一种表型相关联。
[0054]31.第30项所述的方法,该方法进一步包括:
[0055]e)生成包括所述个体的所述表型谱的报告。
[0056]32.第30项所述的方法,该方法进一步包括:在步骤b)之后
[0057]i)将所述规则集的所述规则应用于所述个体的所述基因组图谱以确定所述个体的一套表型谱;和
[0058]ii)生成包括所述个体的初始表型谱的报告。
[0059]33.第31或32项所述的方法,其中,提供所述报告包括通过网络传输所述报告。
[0060]34.第31或32项所述的方法,其中,所述报告以加密方式提供。
[0061]35.第31或32项所述的方法,其中,所述报告以非加密方式提供。
[0062]36.第31或32项所述的方法,其中,所述报告通过在线入口提供。
[0063]37.第31或32项所述的方法,其中,所述报告以纸件或电子邮件提供。
[0064]38.第30项所述的方法,其中,所述新规则使未关联的基因型与表型相关联。
[0065]39.第30项所述的方法,其中,所述新规则使已关联的基因型与先前未在所述规则集中与之关联的表型相关联。
[0066]40.第30项所述的方法,其中,所述新规则改变所述规则集中的规则。
[0067]41.第30项所述的方法,其中,所述新规则通过来自所述个体的所述基因组图谱的基因型和所述个体的预先确定的表型的相关性生成。
[0068]42.第30项所述的方法,其中,所述规则使多种基因型与一种表型相关联。
[0069]43.第30项所述的方法,其中,应用所述新规则进一步包括至少部分基于选自种族、家系、地理、性别、年龄、家族史和预先确定的表型的所述个体的特征确定所述表型谱。
[0070]44.第30项所述的方法,其中,所述基因型包括核苷酸重复、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或拷贝数变异。
[0071]45.第44项所述的方法,其中,所述拷贝数变异为微卫星重复、核苷酸重复、着丝粒重复或端粒重复。
[0072]46.第30项所述的方法,其中,所述基因型包括单核苷酸多态性。
[0073]47.第30项所述的方法,其中,所述基因型包括单体型和双体型。
[0074]48.第30项所述的方法,其中,所述基因型包括与表型相关的单核苷酸多态性连锁不平衡的遗传标记。
[0075]49.第30项所述的方法,其中,所述表型谱表明所述定量性状是否存在或者产生所述定量性状的风险。
[0076]50.第30项所述的方法,其中,所述表型谱表明具有基因型的个体具有或者将具有表型的概率。
[0077]51.第50项所述的方法,其中,所述概率基于GCI或者GCI Plus评分。
[0078]52.第50项所述的方法,其中,所述概率为估计的终生风险。
[0079]53.第30项所述的方法,其中,所述相关性是经过验证的。
[0080]54.第30项所述的方法,其中,所述规则集包括至少20条规则。
[0081]55.第30项所述的方法,其中,所述规则集包括至少50条规则。
[0082]56.第30项所述的方法,其中,所述规则集包括基于表1中的所述基因型相关性的规则。
[0083]57.第30项所述的方法,其中,所述规则集包括基于图4、5、6、22或25中的所述基因型相关性的规则。
[0084]58.第30项所述的方法,其中,所述表型包括定量性状。
[0085]59.第58项所述的方法,其中,所述定量性状包括医学状态。
[0086]60.第59项所述的方法,其中,所述表型谱表明所述医学状态是否存在、产生所述医学状态的风险、所述医学状态的预后、所述医学状态的治疗效果或者对于所述医学状态的治疗的反应。
[0087]61.第58项所述的方法,其中,所述定量性状包括非医学状态的表型。
[0088]62.第58项所述的方法,其中,所述定量性状选自身体性状、生理性状、精神性状、情绪性状、种族、家系或年龄。
[0089]63.第30项所述的方法,其中,所述个体为人类。
[0090]64.第30项所述的方法,其中,所述个体为非人类。
[0091]65.第30项所述的方法,其中,所述个体为注册用户。
[0092]66.第30项所述的方法,其中,所述个体为非注册用户。
[0093]67.第30项所述的方法,其中,所述基因组图谱包括至少100,000种基因型。
[0094]68.第30项所述的方法,其中,所述基因组图谱包括至少400,000种基因型。
[0095]69.第30项所述的方法,其中,所述基因组图谱包括至少900,000种基因型。
[0096]70.第30项所述的方法,其中,所述基因组图谱包括至少1,000, 000种基因型。
[0097]71.第30项所述的方法,其中,所述基因组图谱包括基本上完全的全基因组序列。
[0098]72.第30项所述的方法,其中,所述数据集包括多个数据点,其中各数据点涉及个体并且包括多个数据元,其中所述数据元包括选自所述个体的独特标识物、基因型信息、微阵列SNP识别号、SNPrs识别号、染色体位置、多态性核苷酸、质量度量、原始数据文件、图像、提取的强度得分、物理数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴露数据、生活方式数据和行为数据的至少一个元素。
[0099]73.第30项所述的方法,其中,定期更新和应用一年发生至少一次。
[0100]74.第30项所述的方法,其中,提供所述数据集包括通过以下步骤获得多个个体中的各个个体的基因组图谱:
[0101]i)对由所述个体得到的遗传样品进行遗传分析,和
[0102]ii)以计算机可读形式对所述分析进行编码。
[0103]75.第30项所述的方法,其中,所述表型谱包括单基因表型。
[0104]76.第30项所述的方法,其中,所述表型包括多基因表型。
[0105]77.第30项所述的方法,其中,所述报告包括初始表型谱。
[0106]78.第30项所述的方法,其中,所述报告包括更新的表型谱。
[0107]79.第30项所述的方法,其中,所述报告进一步包括关于所述表型谱的所述表型的信息,该信息选自以下所述的一种或多种:预防对策、健康信息、疗法、症状认识、早期检测方案、介入方案和 所述表型谱中所述表型的精确鉴别及细分类。
[0108]80.第30项所述的方法,该方法进一步包括:
[0109]e)将新个体的新基因组图谱加入到所述个体数据集中;[0110]f)将所述规则集应用于所述新个体的所述基因组图谱;和
[0111]g)生成所述新个体的表型谱的初始报告。
[0112]81.第30项所述的方法,该方法包括:
[0113]e)添加所述个体的新基因组图谱;
[0114]f)将所述规则集应用于所述个体的所述新基因组图谱;和
[0115]g)生成所述个体的表型谱的新 报告。
[0116]82.一种系统,该系统包括:
[0117]a)包括规则的规则集,各条规则表明至少一种基因型与至少一种表型之间的相关性;
[0118]b)使用至少一条新规则定期更新所述规则集的代码,其中所述至少一条新规则表明先前在所述规则集中未彼此相关的基因型和表型之间的相关性;
[0119]c)包括多个个体的基因组图谱的数据库;
[0120]d)将所述规则集应用于个体的所述基因组图谱以确定所述个体的表型谱的代码;和
[0121]e)生成各个体的报告的代码。
[0122]83.第82项所述的系统,其中,所述报告通过网络传输。
[0123]84.第82项所述的系统,其中,所述报告以加密方式提供。
[0124]85.第82项所述的系统,其中,所述报告以非加密方式提供。
[0125]86.第82项所述的系统,其中,所述报告通过在线入口提供。
[0126]87.第82项所述的系统,其中,所述报告通过纸件或电子邮件提供。
[0127]88.第82项所述的系统,该系统进一步包括向所述个体通告新的或修正的相关性的代码。
[0128]89.第82项所述的系统,该系统进一步包括向所述个体通告能够应用于所述个体的所述基因组图谱的新的或修正的规则的代码。
[0129]90.第82项所述的系统,该系统进一步包括向所述个体通告有关所述个体的所述表型谱的所述表型的新的或修正的预防和健康信息的代码。
[0130]91.一种试剂盒,该试剂盒包括:
[0131]a)至少一种样品收集容器;
[0132]b)用于从个体得到样品的使用说明;
[0133]c)用于通过在线入口访问由所述样品获得的所述个体的基因组图谱的使用说明;
[0134]d)用于通过在线入口访问由所述样品获得的所述个体的表型谱的使用说明;和
[0135]e)用于将所述样品收集容器递送至所述样品处理机构的包装。
[0136]92.一种在线入口,该在线入口包括个体能够访问所述表型谱的网站,其中所述网站允许所述个体进行如下所述的至少一种操作:
[0137]a)选择所述规则以应用于所述个体的基因组图谱;
[0138]b)在所述网站上查看初始的和更新的报告;
[0139]c)从所述网站打印初始的和更新的报告;
[0140]d)将来自所述网站的初始的和更新的报告保存至所述个体的计算机上;[0141] e)获得有关所述个体的表型谱的预防和健康信息;
[0142]f)获得在线的或者电话连接的遗传咨询;
[0143]g)提取信息以与医生/遗传顾问共享;和/或
[0144]h)获取搭配的服务和提供的产品。
[0145]93.第92项所述的在线入口,其中,所述信息通过网络传输。
[0146]94.第92项所述的在线入口,其中,所述网站是加密的。
[0147]95.第92项所述的在线入口,其中,所述网站是不加密的。
[0148]96.第92项所述的在线入口,其中,所述个体具有涉及该个体的信息或其一个或多个部分的所述保密等级的一种或者多种选项。
[0149]97.第92项所述的在线入口,其中,所述表型谱包括可处置的医学状态。
[0150]98.第92项所述的在线入口,其中,所述表型谱包括不具有现行预防措施或者现行疗法的医学状态。
[0151]99.第92项所述的在线入口,其中,所述表型谱包括非医学状态。
[0152]100.一种评估个体获得一种状态的风险的方法,该方法包括:
[0153]a)获得个体的基因型;
[0154]b)由所述基因型确定GCI或者GCI Plus评分;
[0155]c)由所述GCI或者GCI Plus评分生成报告;和
[0156]d)将所述报告提供给所述个体或者所述个体的保健管理者。
[0157]101.一种评估个体获得一种状态的风险的方法,该方法包括:
[0158]a)获得个体的基因型;
[0159]b)生成所述个体的基因组图谱;
[0160]c)由所述基因组图谱和基因型相关性数据库确定个体获得状态的风险;
[0161]d)由c)生成报告;
[0162]e)从所述个体获得新的信息;
[0163]f)通过引入所述新的信息确定获得状态的新的风险;
[0164]g)由f)生成报告;和
[0165]h)将所述报告提供给所述个体或者所述个体的保健管理者。
[0166]102.一种评估个体获得一种状态的风险的方法,该方法包括:
[0167]a)获得个体的基因型;
[0168]b)生成所述个体的基因组图谱;
[0169]c)由所述基因组图谱和基因型相关性数据库确定个体获得状态的风险,其中所述风险基于多于一种的SNP ;
[0170]d)由c)生成报告;
[0171]e)将所述报告提供给所述个体或者所述个体的保健管理者。
[0172]103.第100、101或102项所述的方法,其中,所述个体的基因型直接从所述个体获得。
[0173]104.第100、101或102项所述的方法,其中,所述个体的基因型从第三方获得。
[0174]105.第100、101或102项所述的方法,其中,所述提供是通过网络传输。
[0175]106.第101项所述的方法,其中,所述新的信息从所述个体的生物样品获得。[0176]107.第101项所述的方法,其中,所述新的信息从个体的身体测量获得。
[0177]108.第101或102项所述的方法,其中,所述风险由GCI或者GCI Plus评分得到。
[0178]109.第100或108项所述的方法,其中,所述GCI或者GCI Plus评分包括所述个体的家系。
[0179]110.第100或108项所述的方法,其中,所述GCI或者GCI Plus评分包括所述个体的性别。
[0180]111.第100或108项所述的方法,其中,所述GCI或者GCI Plus评分包括特定于所述个体的因素,其中所述因素不是源自所述基因型。
[0181]112.第111项所述的方法,其中,所述因素选自:个体的出生地、父母和/或祖父母、亲缘家系、居住地位置、祖先的居住地位置、环境条件、已知健康状况、已知药物相互作用、家庭卫生条件、生活方式情况、饮食、锻炼习惯、婚姻状态和身体测量。
[0182]113.第107或112项所述的方法,其中,所述个体的身体测量选自:血压、心率、葡萄糖水平、代谢物水平、离子水平、体重、身高、胆固醇水平、维生素水平、血细胞计数、体重指数(BMI)、蛋白水平和转录物水平。
[0183]114.一种评估个体获得一种状态的风险的方法,该方法包括:
[0184]a)获得个体的基因型;
[0185]b)生成所述个体的基因组图谱;
[0186]c)确定个体获得阿尔茨海默氏病(AD)、结肠直肠癌(CRC)、骨关节炎(OA)或者剥脱性青光眼(XFG)的风险,`其中,所述风险对于AD是基于rs4420638、对于CRC是基于rs6983267、对于 OA 是基于 rs4911178 和对于 XFG 是基于 rs2165241 ;
[0187]d)由c)生成报告;
[0188]e)将所述报告提供给所述个体或者所述个体的保健管理者。
[0189]115.第102项所述的方法,其中,所述风险由至少3、4、5、6、7、8、9、10或11个SNP确定。
[0190]116.第102项所述的方法,其中,所述风险由至少2个SNP确定。
[0191]117.第116项所述的方法,其中,所述风险是针对肥胖(BMIOB)并且所述至少2个SNP 中的至少一个为 rs9939609 或 rs9291171。
[0192]118.第116项所述的方法,其中,所述风险是针对格雷夫斯氏病(⑶)并且所述至少 2 个 SNP 中的至少一个为 rs3087243、DRBl*0301DQAl*0501 或者与 DRB1*0301DQA1*0501的连锁不平衡。
[0193]119.第116项所述的方法,其中,所述风险是针对血色沉着症(HEM)并且所述至少2个SNP中的至少一个为rsl800562或者rsl29128。
[0194]120.第116项所述的方法,其中,所述风险是针对心肌梗死(MI)并且所述至少2个 SNP 中的至少一个为 rsl866389、rsl333049 或者 rs6922269。
[0195]121.第116项所述的方法,其中,所述风险是针对多发性硬化症(MS)并且所述至少 2 个 SNP 中的至少一个为 rs6897932、rsl2722489 或者 DRB1*1501。
[0196]?22.第116项所述的方法,其中,所述风险是针对牛皮癣(PS)并且所述至少2个SNP 中的至少一个为 rs6859018、rsll209026 或者 HLA00602。
[0197]123.第116项所述的方法,其中,所述风险是针对多动腿综合征(RLS)并且所述至少 2 个 SNP 中的至少一个为 rs6904723、rs2300478、rsl026732 或者 rs9296249。
[0198]124.第116项所述的方法,其中,所述风险是针对乳糜泻(CelD)并且所述至少2个 SNP 中的至少一个为 rs6840978、rsll571315、rs2187668 或者 DQA1*0301DQB1*0302。
[0199]125.第116项所述的方法,其中,所述风险是针对前列腺癌(PC)并且所述至少2个 SNP 中的至少一个为 rs4242384、rs6983267、rsl6901979、rsl7765344 或者 rs4430796。
[0200]126.第116项所述的方法,其中,所述风险是针对狼疮(SLE)并且所述至少2个SNP 中的至少一个为 rsl2531711、rsl0954213、rs2004640、DRBl*0301 或者 DRB1*1501。
[0201]127.第116项所述的方法,其中,所述风险是针对黄斑变性(AMD)并且所述至少2 个 SNP 中的至少一个为 rsl0737680、rsl0490924、rs541862、rs2230199、rsl061170 或者rs9332739。
[0202]128.第116项所述的方法,其中,所述风险是针对类风湿性关节炎(RA)并且所述至少 2 个 SNP 中的至少一个为 rs6679677、rsll203367、rs6457617、DRB*0101、DRB1*0401或者 DRB1*0404。
[0203]129.第116项所述的方法,其中,所述风险是针对乳腺癌(BC)并且所述至少2 个 SNP 中的至少一个为 rs3803662、rs2981582、rs4700485、rs3817198、rsl7468277、rs6721996 或者 rs3803662。
[0204]130.第116项所述的方法,其中,所述风险是针对克罗恩病(⑶)并且所述至少2 个 SNP 中的至少一个为 rs2066845、rs5743293、rsl0883365、rsl7234657、rsl0210302、rs9858542、rsll805303、rsl000113、rsl7221417、rs2542151 或者 rsl0761659。
[0205]131.第116项所述的方法,其中,所述风险是针对2型糖尿病(T2D)并且所述至少 2 个 SNP 中的至少一个为 rsl3266634、rs4506565、rsl0012946、rs7756992、rsl0811661、rsl2288738、rs8050136、rsllll875、rs4402960、rs5215 或者 rsl801282。
【专利附图】

【附图说明】
[0206]图1为举例说明本发明的方法方面的流程图。
[0207]图2为基因组DNA质量控制措施的实例。
[0208]图3为杂交质量控制措施的实例。
[0209]图4为来自具有测试的SNP和效应评价的公开文献的典型基因型相关性的表。A-1)表不单个基因座的基因型相关性;J)表不两个基因座的基因型相关性;K)表不二个基因座的基因型相关性;L)为A-K中使用的种族和国家缩写的索引;Μ)为A-K中的表型名称缩写(Short Phenotype Name)缩写的索引、遗传率和遗传率的参考文献。
[0210]图5A-J为具有效应评价的典型基因型相关性的表。
[0211]图6A-F为典型基因型相关性和估计的相对危险度的表。
[0212]图7为示例报告。
[0213]图8为用于分析和通过网络传输基因组图谱和表型谱的系统的图解。
[0214]图9为举例说明本发明的商业方法方面的流程图。
[0215]图10:流行度(prevalence)评价对相对风险评估的效应。假定哈迪-温伯格平衡(Hardy-Weinberg Equilibrium)的情况下,各曲线对应于群体中等位基因频率的不同数值。两条黑线对应于9和6的优势比,两条红线对应于6和4的优势比,以及两条蓝线对应于3和2的优势比。
[0216]图11:等位基因频率评价对相对风险评估的效应。各曲线对应于群体中流行度的不同数值。两条黑线对应于9和6的优势比,两条红线对应于6和4的优势比,以及两条蓝线对应于3和2的优势比。
[0217]图12:不同模型的绝对值的配对比较。
[0218]图13:基于不同模型的等级值(GCI评分)的配对比较。表2中给出了不同对之间的Spearman相关性。 [0219]图14:流行度报告对GCI评分的效应。任何两个流行度值之间的Spearman相关性为至少0.99。
[0220]图15:为来自个人入口的示例网页的图。
[0221]图16:为说明个人患前列腺癌的风险的来自个人入口的示例网页的图。
[0222]图17:为说明个人患克罗恩氏病的风险的来自个人入口的示例网页的图。
[0223]图18:为使用2个SNP的基于HapMAP的多发性硬化症的GCI评分的柱状图。
[0224]图19:为使用GCI Plus的多发性硬化症的个体终生风险。
[0225]图20:为克罗恩氏病的GCI评分的柱状图。
[0226]图21:为多基因座相关性的表。
[0227]图22:为SNP和表型相关性的表。
[0228]图23:为表型和流行度的表。
[0229]图24:为图21、22和25中缩写的词汇表。
[0230]图25:为SNP和表型相关性的表。
【具体实施方式】
[0231]本发明提供基于个体或个体组的存储基因组图谱生成表型谱,以及基于存储的基因组图谱方便地生成原始的和更新的表型谱的方法和系统。通过由得自个体的生物样品确定基因型而生成基因组图谱。从个体获得的生物样品可以是可由其得到遗传样品的任何样品。样品可以来自口腔拭子、唾液、血液、头发或者任何其它类型的组织样品。然后可以由生物样品确定基因型。基因型可以是任何遗传性变型或者生物标志物,例如,单核苷酸多态性(SNPs)、单体型(haplotype))或者基因组的序列。基因型可以是个体的全部基因组序列。基因型可以由产生数千或者数百万的数据点的高流通量分析得到,例如,用于大多数或所有已知SNP的微阵列分析。在其它实施方式中,基因型也可以由高流通量测序确定。
[0232]基因型形成个体的基因组图谱。基因组图谱进行数字存储并且很容易在任何时间点进行访问以生成表型谱。通过应用使基因型与表型相关联或结合的规则生成表型谱。规则可以基于表明基因型与表型之间的相关性的科学研究制定。相关性可以由一个或多个专家组成的委员会进行验证(curate)或者确认。通过将规则应用于个体的基因组图谱,可以确定个体的基因型和表型之间的关联。个体的表型谱将具有这种确定性。该确定可以是个体的基因型与给定的表型之间的正相关,从而该个体具有给定的表型或者将产生该表型。或者,可以确定个体不具有或者将不产生给定的表型。在其它实施方式中,该确定可以是危险因子、估计值或者个体具有或将产生表型的概率。
[0233]可以基于多种规则进行确定,例如,可以将多种规则应用于基因组图谱以确定个体基因型与特定表型的关联。确定过程也可以包括特定于个体的因素,例如种族、性别、生活方式(例如,饮食和锻炼习惯)、年龄、环境(例如,居住位置)、家族病史、个人病史和其它已知表型。特定因素的并入可以通过修正现有的规则来包括这些因素。或者,可以由这些因素生成单独的规则并且在已经应用现有规则之后将其应用于个体的表型确定。
[0234]表型可以包括任何可测定的性状或者特性,例如对于某种疾病的易感性或者对于药物治疗的反应。可以包括的其它表型是躯体和精神性状,例如,身高、体重、头发颜色、目艮睛颜色、晒斑敏感性、尺码、记忆力、智力、乐观程度、整体性情。表型也可以包括与其他个体或生物体的遗传比较。例如,个体可能对他们的基因组图谱与名人的基因组图谱之间的相似性感兴趣。他们也可能使他们的基因图谱与其它有机体(例如细菌、植物或其它动物)进行比较。
[0235]总之,对于个体所确定的相关表型的集合组成该个体的表型谱。表型谱可以通过在线入口访问。或者,表型谱可以按照在特定时间存在的形式以纸件形式提供,后续的更新也以纸件形式提供。表型谱也可以通过在线入口提供。该在线入口可以任选地为加密的在线入口。表型谱的访问权可以提供给注册用户,该注册用户为订制生成表型与基因型之间的相关性的规则、确定个体的基因组图谱、将规则应用于基因组图谱和生成个体的表型谱的服务的个体。访问权也可以提供给非注册用户,其中他们可以具有访问他们的表型谱和/或报告的有限权限,或者可以允许生成初始报告或表型谱,但是只有通过付费订制才生成更新的报告。保健管理者和提供者,例如护理人员、医生和遗传顾问也可以具有表型谱的访问权。 [0236]在本发明的另一方面中,可以为注册用户和非注册用户生成基因组图谱,并且进行数字存储,但是对于表型谱和报告的访问可以限于注册用户。在另一变型中,注册用户和非注册用户都可以访问其基因型和表型谱,但是非注册用户具有受限制的访问权限或者允许生成有限的报告,然而注册用户具有完整的访问权限并且可以允许生成完整报告。在另一实施方式中,注册用户和非注册用户最初可以具有完全的访问权限或者完整的初始报告,但仅注册用户可以访问基于其存储的基因组图谱更新的报告。
[0237]在本发明的另一方面中,组合并分析了关于多种遗传标记与一种或多种疾病或状态的关联的信息以获得遗传综合指数(genetic composite index) (GCI)评分。这一评分包括了已知的危险因子以及其它信息和假设,例如,等位基因频率和疾病的流行度。GCI可以用于定量评估疾病或者状态与一系列遗传标记的综合效应的关联。GCI评分可以用于基于现有科学研究向未受过遗传学训练的人提供有关与相关群体相比其个体患病风险的可靠的(例如,稳固的)、可理解的和/或直观的认识。GCI评分可以用于生成GCI Plus评分。GCI Plus评分可以包括所有GCI假设,该假设包括状态的风险(例如,终生风险)、年龄限定的流行度和/或年龄限定的发病率。然后个体的终生风险可以计算为与个体GCI评分除以平均GCI评分成比例的GCI Plus评分。平均GCI评分可以由具有相似家系背景的个体组确定,例如一组高加索人、亚洲人、东印度人或者其他具有共同家系背景的组。所述组可以由至少5、10、15、20、25、30、35、40、45、50、55或60个个体组成。在某些实施方式中,平均GCI评分可以由至少75、80、95或100个个体确定。GCI Plus评分可以通过确定个体的GCI评分,用平均相对风险去除该GCI评分,并乘以状态或表型的终生风险来确定。例如,使用来自图22和/或图25的数据以及图24中的信息计算GCI Plus评分,例如图19中。[0238]本发明包括使用在此描述的GCI评分,并且本领域技术人员很容易认识到GCIPlus评分或其变型取代在此描述的GCI评分的用途。
[0239]在一个实施方式中,对于各感兴趣的疾病或者状态生成GCI评分。可以集中这些GCI评分以形成个体的风险分布图(risk profile).可以对该GCI评分进行数字存储以便它们可以在任何时间点方便地进行访问以生成风险分布图。风险分布图可以按照大的疾病分类进行分解,例如,癌症、心脏病、代谢紊乱、精神紊乱、骨病或者老年病(age on-setdisorder)。大的疾病分类可以进一步被分解成子类。例如,对于如癌症的大的分类,可以例如按类型(肉瘤、癌瘤或者白血病等)或者按组织特异性(神经、乳腺、卵巢、睾丸、前列腺、骨、淋巴结、胰腺、食道、胃、肝、脑、肺、肾等)列出癌症的子类。
[0240]在另一实施方式中,生成个体的GCI评分,其提供容易理解的关于个体获得至少一种疾病或状态的风险或对于至少一种疾病或状态的易感性的信息。在一个实施方式中,对于不同的疾病或状态生成多项GCI评分。在另一实施方式中,可以通过在线入口访问至少一项GCI评分。或者,可以以纸件形式提供至少一项GCI评分,后续的更新也以纸件形式提供。在一个实施方式中,向注册用户提供对于至少一项GCI评分的访问,该注册用户是预订服务的个体。在一个替代的实施方式中,向非注册用户提供访问权限,其中他们可以具有访问他们的GCI评分中的至少一项的受限的访问权限,或者他们可以允许生成他们的GCI评分中的至少一项的初始报告,但是仅通过付费订制才生成更新的报告。在另一实施方式中,保健管理者和提供者,例如护理人员、医生和遗传顾问,也可以具有访问个体GCI评分中的至少一项的权限。
[0241]这里也可以有基本注册模式。基本注册可以提供表型谱,其中注册用户可以选择将所有现有规则应用于他们的基因组图谱,或者将现有规则的子集应用于他们的基因组图谱。例如,他们可以选择仅应用可处置(actionable)的疾病表型的规则。基本注册可以在注册等级内具有不同水平。例如,不同的水平可以取决于注册用户想要与他们的基因组图谱关联的表型数目,或者取决于可以访问他们的表型谱的人员的数目。基本注册的另一水平可以将特定于个体的因素,例如早已知道的表型(如年龄、性别或者病史)并入他们的表型谱。基本注册的再另一个水平可以允许个体生成对于疾病或状态的至少一项GCI评分。如果由于用于生成至少一项GCI评分的分析中的变化而导致至少一项GCI评分的任何变化,这一水平的变型形式可以进一步允许个体指定生成对于疾病或者状态的至少一项GCI评分的自动更新。在一些实施方式中,可以通过电子邮件、语音信息、文本信息、邮递或传真向个体通告自动更新。
[0242]注册用户也可以生成具有他们的表型谱以及关于表型的信息(例如关于表型的遗传和医疗信息)的报告。例如,报告中可以包括群体中表型的流行度、用于相关性的遗传性变型、引起表型的分子机制、对于表型的治疗方法、对于表型的治疗选择和预防性行动。在其它实施方式中,报告还可以包括例如个体的基因型与其他个体(如名人或者其他知名人士)的基因型之间的相似性的信息。关于相似性的信息可以是,但不限于同源性百分比、相同变异的数目和可能相似的表型。这些报告可以进一步包括至少一项GCI评分。
[0243]如果在线访问报告,则报告也可以提供连接到具有关于表型的进一步信息的其他位置的链接、连接到具有相同表型或者一个或多个相似表型的人的在线支持小组和留言板的链接、联系在线遗传顾问或医生的链接或者连接到安排遗传顾问或医师的电话或现场预约的链接。如果报告是纸件形式,则信息可以是上述链接的站点位置或者遗传顾问或医生的电话号码和地址。注册用户也可以选择哪些表型包括在他们的表型谱中和哪些信息包括在他们的报告中。表型谱和报告也可以被个体的保健管理者或提供者取得,例如护理人员、医生、精神病医生、心理学家、治疗专家或者遗传顾问。注册用户也能够选择是否表型谱和报告或者其部分内容由个人的保健管理者或提供者得到。
[0244]本发明也可以包括注册的高级水平(premium level)。注册的高级水平在生成初始表型谱和报告之后数字化地保持其基因组图谱,并且注册用户能够利用由最近的研究得到的更新的相关性生成表型谱和报告。在另一实施方式中,注册用户能够利用由最近的研究得到的更新的相关性生成风险分布图和报告。由于研究揭示出基因型与表型、疾病或者状态之间的新的相关性,基于这些新的相关性将产生新的规则,并且新的规则能够应用于已经存储和保持的基因组图谱。新的规则可以关联先前未与任何表型关联的基因型、使基因型与新的表型相关联、修正现有的相关性或者基于新发现的基因型与疾病或状态之间的关联提供调整GCI评分的基础。可以通过电子邮件或者其它电子方式告知注册用户新的相关性,并且如果是感兴趣的表型,他们可以选择用新的相关性更新他们的表型谱。注册用户可以选择为每次更新付费、为在指定时间期限(例如,3个月、6个月或者I年)内的多次更新或无限次更新付费的注册方式。另一注册水平可以是,无论何时基于新的相关性产生了新的规则,注册用户使他们的表型谱或者风险分布图自动地更新,而不是个体选择何时更新他们的表型谱或风险分布图。
[0245]在注册的另一方面,注册用户可以向非注册用户介绍以下服务:生成表型与基因型之间的相关性规则,确定个体的基因组图谱,将规则应用于基因组图谱,并且生成个体的表型谱。注册用户通过介绍可以使注册用户提到优惠的服务订制价格或者使其现有的注册升级。被介绍的个体可以在有限时间内免费访问或者享受折扣注册费用。
[0246]可以对于人类和非人类个体生成表型谱和报告以及风险分布图和报告。例如,个体可以包括其它哺乳动物,例如牛、马、羊、犬或者猫。如在此所使用的,注册用户是通过购买或支付一项或多项服务而订制服务的人类个体。服务可以包括,但不限于以下一种或者多种:确定他们自己或另一个体(例如注册用户的孩子或宠物)的基因组图谱;获得表型谱;更新表型谱和获得基于他`们的基因组图谱和表型谱的报告。
[0247]在本发明的另一方面中,可以从个体聚集得出“区域部署(field-cbployed)”机制以生成个体的表型谱。在优选实施方式中,个体可以具有基于遗传信息生成的初始表型谱。例如,生成包括对于不同表型的危险因子以及建议的治疗或预防措施的初始表型谱。例如,表型谱可以包括对于关于某一状态的可利用的药物治疗的信息和/或对于饮食变化或锻炼方案的建议。个体可以选择去看医生或遗传顾问或者通过网络入口或电话接触医生或遗传顾问以讨论他们的表型谱。个体可以决定采取某种行动路线,例如,采用特定的药物治疗、改变他们的饮食等。
[0248]而后,个体可以随后提交生物样品以评估其身体状态的变化和危险因子的可能变化。个体可以通过直接将生物样品提交给生成基因组图谱和表型谱的机构(或者相关机构,例如由生成遗传分布图和表型谱的实体定约的机构)确定该变化。或者,个体可以利用“区域部署”机制,其中个体可以将他们的唾液、血液或者其它生物样品提交到其家庭处的检测装置中,由第三方进行分析,且数据经传输以包括在另一表型谱中。例如,个体可以接收基于其遗传数据的初始表型报告从而向具有增大的心肌梗死(MI)终生风险的个体报告。该报告也可以具有预防措施的建议以降低MI的风险,例如降胆固醇药物和饮食改变。个体可以选择接触遗传顾问或医生以讨论该报告和预防措施并且决定改变他们的饮食。在采用新的饮食一段时间之后,个体可以去看他们的个人医生以测量其胆固醇水平。可以将新的信息(胆固醇水平)传送(例如,通过Internet)给具有基因组信息的实体,并且新的信息用于生成个体的新的表型谱,以及心肌梗死和/或其它状态的新的危险因子。
[0249]个体也可以使用“区域部署”机制或者直接机制以确定其对于具体药物治疗的个体反应。例如,个体可以测量其对于药物的反应,并且该信息可以用于确定更有效的治疗。可测定的信息包括,但不限于代谢产物水平、葡萄糖水平、离子水平(例如,钙、钠、钾、铁)、维生素、血细胞计数、体重指数(BMI)、蛋白质水平、转录物水平、心率等,这些信息能够通过容易利用的方法确定并且能够包括在算法中以与初始基因组图谱结合来确定修正的整体风险评估评分。
[0250]术语“生物样品”是指任何能够从个体分离的生物样品,其包括可以从中分离遗传物质的样品。正如在这里所使用的,“遗传样品”是指从个体得到的或源自个体的DNA和/或 RNA。
[0251]正如这里所使用的,术语“基因组”用来表示在人体细胞的细胞核中发现的整套染色体DNA。术语“基因组DNA”是指自然存在于人体细胞的细胞核中的一个或多个染色体DNA分子,或者染色体DNA分子的一部分。
[0252]术语“基因组图谱”是指关于个体基因的一组信息,例如特定SNP或突变是否存在。基因组图谱包括个体的基因型。基因组图谱也可以是个体的基本完整基因组序列。在一些实施方式中,基因组图谱可以是个体完整基因组序列的至少60%、80%或95%的。基因组图谱可以是大约100%的个体完整基因组序列。在说到基因组图谱时,“其一部分”是指全基因组的基因组图谱的子集的基因组图谱。
[0253]术语“基因型”是指个体DNA的特定遗传组成。基因型可以包括个体的遗传性变型和遗传标记。遗传标记和遗传性变型可以包括核苷酸重复、核苷酸插入、核苷酸缺失、染色体易位、染色体重复或者拷贝数变异。拷贝数变异可以包括微卫星重复、核苷酸重复、着丝粒重复或者端粒重复。基因型也可以是SNP、单体型或者双体型(diplotype)。单体型可以指基因座或者等位基因。单体型也可以称为统计学上关联的单个染色单体上的一组单核苷酸多态性(SNP)。双体型为一组单体型。
[0254]术语单核苷酸多态性或者“SNP”是指在染色体上相对于存在于人类种群中一基因座上的含氮胆碱的同一性表现出变异(例如至少1个百分点(1%))的特定基因座。例如,在一个个体在给定基因的特定核苷酸位置上可能具有腺苷(A)的情况下,另一个体可能在这一位置上有胞嘧啶(C)、鸟嘌呤(G)或者胸腺嘧啶(T),从而在这个特定位置上存在SNP。
[0255]正如在这里所使用的,术语“SNP基因组分布图”是指整个个体全基因组DNA序列的SNP位置上给定的个体DNA的碱基含量。“SNP分布图”是指完整的基因组分布图,或者是指其一部分,例如可能与特定基因或者特定的一组基因有关的更局部的SNP分布图。
[0256]术语“表型”用于描述个体的定量性状或者特征。表型包括,但不限于医学和非医学状态。医学状态包括疾病和紊乱。表型也可以包括身体性状,例如发色、如肺容量的生理性状、如记忆保持的精神性状、如愤怒控制能力的情绪性状、如种族背景的种族特征、如个体出身位置的家系特征以及如年龄期待或不同表型的发病年龄的年龄特征。表型也可以是单基因的,其中据认为一个基因可能与表型相关联;或者是多基因的,其中一个以上的基因与表型相关联。
[0257] “规则”用于定义基因型与表型之间的相关性。规则可以通过数值定义相关性,例如通过百分率、危险因子或者置信度评分。规则可以包括多个基因型与表型的相关性。“规则集”包括一个以上的规则。“新规则”可以是表明其规则目前尚不存在的基因型与表型之间的相关性的规则。新规则可以将未关联的基因型与表型相关联。新规则也可以将已经与表型相关联的基因型与先前不关联的表型相关联。“新规则”也可以是由其它因素(包括另一规则)修正的现有规则。现有规则可以由于个体的已知特征,例如种族、家系、地理、性另O、年龄、家族史或其它先前确定的表型,而进行修正。
[0258]如在此所使用的,“基因型相关性”指个体基因型(例如某一突变或多个突变的存在)之间的统计相关性,以及倾向于发生一种表型(例如特定疾病、状态、身体状态和/或精神状态)的可能性。在特定基因型存在下观察到特定表型的频率决定了基因型相关性的程度或者出现特定的表型的可能性。例如,正如在此所详述的,导致载脂蛋白E4同种型的SNP与诱发早发型阿尔茨海默氏病相关。基因型相关性也可以指其中不倾向于产生表型的相关性或者负相关性。基因型相关性也可以表示个体具有表型或者倾向于发生表型的评估。可以由数值表示基因型相关性,例如百分数、相对风险因子、效应评价或者置信度评分。
[0259]术语“表型谱”是指与个体的一个基因型或者多个基因型相关的多个表型的集合。表型谱可以包括通过将一条或多条规则应用于基因组图谱所产生的信息或者有关应用于基因组图谱的基因型相关性的信息。可以通过应用多个基因型与表型关联的规则生成表型谱。概率或评估可以表示为数值,例如百分数、数字的危险因子或者数字的置信区间。概率也可以表示为高、中或低。表型谱也可以表明表型是否存在或者产生表型的风险。例如,表型谱可以表明蓝眼睛的存在或者发生糖尿病的高风险。表型谱也可以表明预测的预后、治疗效果或者对医学状态的治疗的反应。
[0260]术语风险分布图是指对于一种以上的疾病或状态的GCI评分的集合。GCI评分基于对个体基因型与一种或多种疾病或状态之间的关联的分析。风险分布图可以显示按疾病分类分组的GCI评分。进一步,风险分布图可以显示如何随个体年龄或者多种危险因子的调整而预测GCI评分的变化的信息。例如,对于特定疾病的GCI评分可以考虑饮食变化或者采取的预防措施(停止吸烟、服药、双侧根治性乳房切除术、子宫切除术)的效应。GCI评分可以显示为数值计量、图形显示、听觉反馈或者任何前述方式的组合。
[0261]正如在此所使用的,术语“在线入口 ”是指个体通过计算机和互联网网站、电话或者允许对信息进行类似访问的其它方式方便地访问的信息源。在线入口可以是加密网站。该网站可以提供与其它加密和非加密网站的链接,例如连接具有个体的表型谱的加密网站的链接或者连接非加密网站(如共有特定表型的个体的留言板)的链接。
[0262]除非另外指明,本发明的实施可以利用本领域技术人员能力范围内的分子生物学、细胞生物学、生物化学和免疫学的常规技术和使用说明。这些常规技术包括核酸分离、聚合物阵列合成(polymer array synthesis)、杂交、连接(ligation)和使用标记物的杂交检测。本发明举例说明了适当技术的具体例证并给出了参考文献。但是,也可以使用其它等效的常规方法。其它常规技术和使用说明可以在以下标准实验室手册和文献中找到:例如,基因组分析:实验室手册系列(卷1-1v) (Genome Analysis:A Laboratory ManualSeries (Vols.1-1V))、PCR 引物:实验室手册(PCR Primer:A Laboratory Manual)、分子克隆法:实验室手册(Molecular Cloning:A Laboratory Manual)(全部源自冷泉港实验室出版社(Cold Spring Harbor Laboratory Press))、Stryer, L.(1995)生物化学(第四版)Freeman,纽约、Gait, “低聚核苷酸合成:实践方法(Oligonucleotide Synthesis:APractical Approach) ” 1984, IRL 出版社,伦敦,Nelson 和 Cox (2000)、Lehninger,生物化学原理,第三版,W.H.Freeman Pub.,纽约,N.Y.;以及Berg等(2002)生物化学,第五版,W.H.Freeman Pub.,纽约,N.Y.,上述所有文献的全部内容在此并入作为参考。
[0263]本发明的方法包括分析个体基因组图谱以向个体提供关于表型的分子信息。正如在此所详述的,个体提供生成个人基因组图谱的遗传样品。通过使基因组图谱与已确立和验证的人类基因型相关性的数据库相比较,查询个体基因组图谱有关基因型相关性的数据。已确立和验证的基因型相关性的数据库可以来自同行评议(peer-reviewed)的文献,并且由本领域中一个或多个专家(例如遗传学家、流行病学家或者统计学家)的委员会进一步评判,并进行验证。在优选实施方式中,规则基于经验证的基因型相关性制定,并应用于个体的基因组图谱以生成表型谱。个体基因组图谱的分析结果(表型谱)与解释和支持性信息一起提供给个体或个人的保健管理者,从而给予对个体保健进行个性化选择的能力。
[0264]本发明的方法在图1中详细描述,其中首先生成个体的基因组图谱。个体基因组图谱将包括有关基于遗传变异和遗传标记的个体基因的信息。遗传变异是基因型,其组成基因组图谱。这些遗传变异或者遗传标记包括,但不限于单核苷酸多态性、单和/或多核苷酸重复、单和/或多核苷酸缺失、微卫星重复(通常具有5~1,000重复单元的小量核苷酸重复)、二核苷酸重复、三核苷酸重复、序列重排(包括易位和重复)、拷贝数变异(在特定基因座上的缺失和增加)等。其它遗传变异包括染色体重复和易位以及着丝粒重复和端粒重复。
[0265]基因型也可以包括单体型和双体型。在一些实施方式中,基因组图谱可以具有至少100,000、300,000、500,000或者1,000,000个基因型。在一些实施方式中,基因组图谱可以是基本上个体的完整基因组序列。在其它实施方式中,基因组图谱为至少60%、80%或者95%的个体完整基因组序列。基因组图谱可以为大约100%的个体完整基因组序列。包含靶物质的遗传样品包括,但不限于未扩增的基因组DNA或RNA样品或者扩增的DNA (或cDNA)。靶物质可以为包含特别感兴趣的遗传标记的基因组DNA的特定区域。
[0266]在图1的步骤102中,个体的遗传样品从个体的生物样品中分离。这些生物样品包括,但不限于血液、头发、皮肤、唾液、精液、尿、粪便物质、汗液、口腔(buccal)和各种身体组织。在一些实施方式中,组织样品可以从个体直接采集,例如口腔样品可以通过个体用拭子拭抹其颊部内侧而获得。例如唾液、精液、尿、粪便物质或者汗液的其它样品也可以由个体本人提供。其它生物样品可以由保健专业人员(例如抽血者、护士或者医生)提取。例如,血液样品可以由护士从个体抽取。组织活检可以由保健专业人员进行,并且保健专业人员也可以利用试剂盒以有效地获得样品。可以移取小的柱面皮肤样品或者使用针移取小的组织或流体样品。
[0267]在一些实施方式中,向个体提供具有用于个体生物样品的样品采集容器的试剂盒。试剂盒也可以提供个体直接采集其自身样品的说明书,例如需提供多少头发、尿、汗液或者唾液。试剂盒也可以包括个体要求由保健专业人员提取组织样品的说明书。试剂盒可以包括可由第三方采集样品的场所,例如可以将试剂盒提供给随后从个体采集样品的保健机构。试剂盒还可以提供用于将样品递送至样品处理机构的返回包装,在该机构中遗传物质从生物样品中分离(步骤104)。
[0268]可以按照几种已知生物化学和分子生物学方法中的任何一种方法从生物样品中分离DNA或RNA的遗传样品,参见例如Sambrook等人,分子克隆:实验室手册(MolecularCloning:A Laboratory Manual)(冷泉港实验室,纽约)(1989)。也有几种用于从生物样品中分离DNA或RNA的可商购的试剂盒和试剂,例如可从DNA Genotek、Gentra Systems、QiageruAmbion和其它供应商获得的试剂盒和试剂。口腔样品试剂盒是很容易商购得到的,例如得自 Epicentre Biotechnologies 的 MasterAmp? Buccal Swab DNA提取试剂盒,同样还有从血液样品中提取DNA的试剂盒,例如得自Sigma Aldrich的Extract-N-Amp?。源自其它组织的DNA可以通过用蛋白酶消化组织和进行热处理、离心样品和使用苯酚-氯仿抽提不需要的物质、将DNA留在水相中而获得。然后可以用乙醇沉淀法进一步分离DNA。
[0269]在优选的实施方式中,从唾液中分离基因组DNA。例如,使用可从DNA Genotek获得的DNA自采集试剂盒技术,个体采集唾液试样用于临床处理。样品可以在室温下方便地储存和运送。在将样品递送到进行处理的适当的实验室之后,通过对样品进行热变性和蛋白酶消化(通常利用由采集试剂盒供应商提供的试剂在50°C下进行至少I小时)来分离DNA。接着离心样品,并对上层清液进行乙醇沉淀。将DNA沉淀悬浮在适于后续分析的缓冲液中。
[0270]在另一实施方式中,可以使用RNA作为遗传样品。特别地,可以从mRNA鉴定表达的遗传变异。术语“信使RNA”或“mRNA”包括,但不限于前mRNA转录物、转录物加工中间体、准备用于一个基因或多个基因的翻译和转录的成熟mRNA或者源自mRNA转录物的核酸。转录物加工可以包括剪接、编辑和降解。如在此所使用的,源自mRNA转录物的核酸是指mRNA转录物或其子序列最终充当其合成模板的核酸。因此,由mRNA反转录的cDNA、从cDNA扩增的DNA、从扩增的DNA转录的RNA等都是源自mRNA转录物。可以使用本领域已知的方法从几种身体组织中的任意一种分离RNA,例如使用从PreAnalytiX获得的PAXgene?血液RNA系统从未分级的(unfractionated)全血中分离RNA。典型地,mRNA将用于反转录cDNA, cDNA随后被使用或进行扩增以用于基因变异分析。
[0271]在基因组图谱分析之前,通常由DNA或RNA反转录的cDNA扩增遗传样品。可以通过多种方法扩增DNA,这些方法中的许多使用了 PCR。参见例如,PCR技术:DNA扩增机理和应用(PCR Technology:Principles and Applications for DNA Amplification) (Ed.H.A.Erlich,Freeman Press,NY,N.Y.,1992) ;PCR 方案:方法和应用指南(PCR Protocols:A Guide to Methods and Applications) (Eds.1nnis 等人,Academic Press, San Diego,Calif., 1990) ;Mattila 等人,Nucleic Acids Res.19,4967 (1991) ;Eckert 等人,PCR 方法和应用(PCR Methods and Applications) 1,17 (1991) ;PCR(Eds.McPherson 等人,IRLPress, Oxford);和美国专利第 4,683,202,4, 683,195,4, 800,159,4, 965,188 和 5,333,675号,上述各文献在此以其全部内容并入作为参考。
[0272]其它适合的扩增 方法包括连接酶链反应(LCR)(例如,Wu和Wallace,基因组学,4,560 (1989),Landegren 等人,科学,241,1077 (1988)以及 Barringer 等人,基因,89:117(1990))、转录扩增(Kwoh 等人,Proc.Natl.Acad.Sc1.USA86:1173-1177(1989)和 W088 / 10315)、自主序列复制(Guatelli 等人,Proc.Nat.Acad.Sc1.USA, 87:1874-1878 (1990)和W090 / 06995)、靶多核苷酸序列的选择性扩增(美国专利第6,410,276号)、共有序列引物聚合酶链式反应(CP-PCR)(美国专利第4,437,975号)、随机引物聚合酶链式反应(AP-PCR)(美国专利第5,413,909,5, 861,245号)、基于核酸的序列扩增(nucleic acid based sequence amplification) (NABSA)、滚环扩增(RCA)、多重置换扩增(multiple displacement amplification) (MDA)(美国专利第 6, 124, 120 和 6, 323, 009号)和环至环扩增(circle-to-circle amplification) (C2CA) (Dahl 等人,Proc.Natl.Acad.ScilOl:4548-4553 (2004))。(参见美国专利第 5,409,818,5, 554,517 和 6,063,603号,上述各文献在此并入作为参考)。在美国专利第5,242,794,5, 494,810,5, 409, 818、4,988,617、6,063,603和5,554,517号以及美国专利申请第09 / 854,317号中描述了可以使用的其它扩增方法,上述各文献在此并入作为参考。
[0273]使用几种方法中的任意一种完成步骤106的基因组图谱的生成。本领域已知用以鉴定遗传变异的几种方法,并且这些方法包括,但不限于通过几种方法中的任意一种进行的DNA测序、基于PCR的方法、片断长度多态性分析(限制性片段长度多态性(RFLP)、裂解片段长度多态性(CFLP))、使用等位基因特异性寡核苷酸作为模板的杂交方法(例如,TaqMan PCR方法、侵入物方法(invader method)、DNA芯片法)、使用引物延伸反应的方法、质谱分析法(MALD1-T0F / MS法)等。
[0274]在一个实施方式中,高密度DNA阵列用于SNP鉴定和分布图生成。这些阵列可从 Affymetrix 和 Illumina 购得(参见 Affymetrix GeneChip? 500K Assay Manual,Affymetrix, Santa Clara, CA(并入作为参考);Sentrix? humanHap650Y 基因分型微珠芯片(genotyping beadchip),Illumina, San Diego, CA)。
[0275]例如,可以使用Affymetrix Genome Wide Human SNP Array6.0 通过对超过900,000的SNP进行基因分型以生成SNP分布图。或者,可以通过使用Affymetrix GeneChipHuman Mapping500K Array Set确定经过完全基因组采样分析的超过500,000个SNP。在这些分析方法中,人类基因组的子集使用限制性内切酶消化的、接头连接的人基因组DNA通过单引物扩增反应进行扩增。如图2中所示,然后可以确定连接的DNA的浓度。而后扩增的DNA断裂,并且在继续步骤106前确定样品的质量。如果样品符合PCR和片段化标准,则对样品进行变性、标记和随后与涂覆的石英面上特定位置的小DNA探针组成的微阵列进行杂交。监测随扩增的DNA序列变化的与各探针杂交的标记物的量,从而产生序列信息和最终的SNP基因分型。
[0276]Affymetrix GeneChip 500K Assay的使用按照制造商的指导进行。简要地说,首先用NspI或StyI限制性内切核酸酶消化分离的基因组DNA。然后消化的DNA与分别与NspI或StyI限制酶切DNA退火的NspI或StyI接头寡核苷酸连接。然后连接后的包含接头的DNA通过PCR进行扩增以产生在约200至1100碱基对之间的扩增DNA片段,这由凝胶电泳所证实。符合扩增标准的PCR产物进行纯化和定量以进行片段化。PCR产物用DNase I进行断裂以达到最佳的DNA芯片杂交。断裂之后,DNA片段应小于250碱基对,并且平均为180碱基对,这通过凝胶电泳证实。然后使用末端脱氧核苷酸转移酶以生物素化合物标记符合片段化标准的样品。接着将标记的片段变性,而后杂交到GeneChip 250K阵列中。杂交之后,在扫描前按三步的处理过程对阵列进行染色,所述的三部处理过程由下列步骤组成:抗生蛋白链菌素藻红蛋白(SAPE)染色,随后是利用生物素化的抗抗生蛋白链菌素抗体(山羊)的抗体扩增步骤,和用抗生蛋白链菌素藻红蛋白(SAPE)的最终染色。在标记之后,阵列用阵列保持缓冲液覆盖,然后用例如Affymetrix GeneChip Scanner3000的扫描仪进行扫描。
[0277]在Affymetrix GeneChip Human Mapping500K Array Set 扫描后,按照制造商的指导进行数据分析,如图3所示。简要地说,使用GeneChip操作软件(GCOS)获得原始数据。也可以通过使用Affymetrix GeneChip Command Console?获得数据。获得初始数据后用GeneChip基因分型分析软件(GTYPE)进行分析。为了本发明的目的,排除GTYPE调用率(call rate)小于80%的样品。然后用BRLMM和/或SNiPer算法分析对样品进行检验。排除BRLMM调用率小于95%或者SNiPer调用率小于98%的样品。最终,进行关联分析,并且排除SNiPer质量指数小于0.45和/或哈迪-温伯格p-值小于0.00001的样品。
[0278]作为DNA微阵列分析的替代或者附加,可以通过DNA测序检测遗传变异,例如SNP和突变。也可以使用DNA测序对个体的主要部分或者全部基因组序列进行测序。通常,常用的DNA测序是基于聚丙烯酰胺凝胶分级分离以解析链端片段群(Sanger等人, Proc.Natl.Acad.Sc1.USA74 =5463-5467 (1977))。已经开发出来的和继续进行开发的替代方法提高了 DNA测序的速度和简便性。例如,高通量和单分子测序平台可从454Life Sciences (fcanford,CT) (Margulies 等人,自然,(2005)437:376-380(2005))、Solexa(Hayward, CA)、Helicos BioSciences 公司(Cambridge, MA)(于 2005 年 6 月 23 日提交的美国申请第 11 / 167046 号)和 L1-Cor Biosciences (Lincoln,NE)(于 2005 年 4月29日提交的美国申请第11 / 118031号)商购得到,或者正由它们进行开发。
[0279]在步骤106中生成个体的基因组图谱之后,在步骤108中数字化存储该图谱,这一图谱可以以加密方式数字化存储。以计算机可读格式对该基因组图谱进行编码以存储为数据集的部分,并且可以存储为数据库,其中基因组图谱可以被“储蓄”,并且能够以后再次存取。数据集包括多个数据点,其中每个数据点涉及一个个体。每个数据点可以具有多个数据元。一个数据元是用以识别个体的基因组图谱的唯一识别符。其也可以是条形码。另一数据元是基因型信息,例如个体基因组的SNP或核苷酸序列。对应于基因型信息的数据元也可以包括在数据点中。例如,如果基因型信息包括由微阵列分析鉴定的SNP,那么其它数据元可以包括微阵列SNP识别号、SNPrs号和多态性核苷酸(polymorphic nucleotide)。其它数据元可以是基因型信息的染色体位置、数据的质量量度、原始数据文件、数据图像和提取强度得分。
[0280]个体的特异性因素,例如身体数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴 露数据(exposure data)、生活方式数据、行为数据和其它已知表型,也可以作为数据元包括在内。例如,这些因素可以包括,但不限于个体的:出生地、父母和/或祖父母、亲缘家系、居住地位置、祖先的居住地位置、环境条件、已知健康状况、已知药物相互作用、家庭卫生条件、生活方式条件、饮食、锻炼习惯、婚姻状态和身体测量数据(例如,体重、身高、胆固醇水平、心率、血压、葡萄糖水平和本领域已知的其它测量数据)。个体的亲戚或者祖先(例如,父母和祖父母)的上述因素也可以引入作为数据元并且用于确定个体的表型或状态的风险。
[0281]特定因素可以从调查表或者从个体的保健管理者处获得。然后,可以访问来自“储蓄”的图谱的信息并且按所需要进行使用。例如,在个体的基因型相关性的初始评估中,将分析个体的全部信息(通常在整个基因组上的或者从整个基因组取得的SNP或其它基因组序列)用于确定基因型相关性。在后续的分析中,可以按需要或适当地访问来自存储的或储蓄的基因组图谱的全部信息或者其一部分。
[0282]基因组图谱与基因型相关性数据库的比较 [0283]在步骤110中,基因型相关性从科学文献中获得。遗传变异的基因型相关性由已经对是否存在一种或多种感兴趣的表型性状和对基因型谱进行了测试的个体的群体所进行的分析中确定。然后对基因型谱中各遗传变异或多态性的等位基因进行检测以确定是否特定的等位基因的存在与感兴趣的性状相关联。可以通过标准统计方法进行相关性分析,并记录遗传变异与表型特征之间的统计学显著的相关性。比如,可能确定,多态性A的等位基因Al的存在与心脏病相关。作为进一步的例子,可能发现在多态性A的等位基因Al和多态性B的等位基因BI的组合存在与癌症风险的增大相关。分析的结果可以在同行评议文献中公布,由其它研究组进行确认,和/或由专家委员会(例如,遗传学家、统计学家、流行病学家和医生)进行分析,并且也可以进行验证。
[0284]图4、5和6中为基因型与表型之间的相关性的实例,其中应用于基因组图谱的基因型与表型之间的规则基于这些相关性。例如,图4A和B中,各行对应于表型/基因座/种族,其中图4C至I包括这些行中各行的相关性的进一步的信息。作为例子,在图4A中BC的“表型名称缩写”如图4M表型名称缩写的索引中所注明的为乳腺癌的缩写。在BC_4(其为基因座的类名)这一行中,基因LSPl与乳腺癌相关。如图4C中所示,对于这一相关性确认的公开的或者功能性的SNP为rs3817198,而公开的风险等位基因为C,非风险等位基因为T。公开的SNP和等位基因通过出版物(例如,图4E-G中的基本的公开文献)确认。在图4E的LSPl的实例中,基本的公开文献为Easton等人,自然,447:713-720 (2007)。图22和25进一步列出了相关性。可以使用图22和25中的相关性计算个体对于一种状态或表型的风险,例如,计算GCI或GCI Plus评分。GCI或GCI Plus评分也可以引入例如状态的流行度的信息,如在图23中。
[0285]或者,可以由存储的基因组图谱形成相关性。例如,具有存储的基因组图谱的个体也可能存储了已知的表型信息。对存储的基因组图谱和已知的表型的分析可以形成基因型相关性。作为例子,250个具有存储基因组图谱的个体也具有先前诊断为患有糖尿病的存储信息。对他们的基因组图谱进行分析并与无糖尿病个体的对照组进行比较。然后确定先前诊断为患有糖尿病的个体与对照组相比具有特定的遗传性变型的比率较高,因而可以在特定的遗传性变型与糖尿病之间得出基因型相关性。
[0286]在步骤112中,基于已证实的遗传性变型与特定表型之间的相关性形成规则。例如可以基于表1所列的相互关联的基因型和表型生成规则。基于相关性的规则可以引入其它因素,例如,性别(如,图4)或者种族(图4和5)以产生如图4和5中的效应评价。由规则产生的其它量度可以评估如图6中的相对风险增加。效应评价和估计的相对风险增加可以来自公开的文献,或者由公开的文献进行计算。或者,规则可以基于由存储的基因组图谱和先前已知的表型产生的相关性。在一些实施方式中,规则可以基于图22和25中的相关性。
[0287]在优选的实施方式中,遗传性变型是SNP。虽然SNP发生在单位点上,但是携带在一个位点上的特定SNP等位基因的个体通常可预测在其它位点上携带特殊的SNP等位基因。SNP与使个体易发疾病或状态的等位基因的相关性通过连锁不平衡(linkagedisequilibrium)产生,其中在群体中两个或多个基因座上的等位基因发生非随机关联的频率大于或者小于预计通过重组随机形成而得到的频率。
[0288]其它遗传标记或变型(例如核苷酸重复或插入)也可以与已经显示为与特定的表型相关的遗传标记发生连锁不平衡。例如,核苷酸插入与表型相关,并且SNP与核苷酸插入发生连锁不平衡。基于SNP与表型之间的相关性形成规则。也可以形成基于核苷酸插入与表型之间的相关性的规则。可以将任一规则或者两个规则应用于基因组图谱,因为一个SNP的存在可以给出某一危险因子,另一规则可以给出另一危险因子,并且当它们结合时可以增大风险。
[0289]通过连锁不平衡,易发疾病的等位基因与SNP的特定等位基因或者SNP的特定等位基因的组合共分离(cosegregate)。沿染色体的SNP等位基因的特定组合称为单体型,并且其中它们发生组合的DNA区域可以称为单体型段。虽然单体型段可以由一个SNP组成,但是典型的单体型段表示在个体之间表现出低的单体型多样性且通常具有低重组频率的2个或多个邻近的SNP的系列。可以通过鉴定位于单体型段中的一个或多个SNP进行单体型的鉴定。这样,通常SNP分布图可以用于鉴定单体型段而不是必须鉴定给定的单体型段中的所有SNP。
[0290]在SNP单体型模式与疾病、状态或身体状态之间的基因型相关性逐渐变得为人所知。对于给定的疾病,将已知具有该疾病的一组人的单体型模式与无该疾病的一组人相比较。通过分析许多个体,可以确定在群体中多态性的频率,并且随后这些频率或基因型可以与特定的表型(例如疾病或者状态)相关联。已知的SNP-疾病相关性的实例包括在与年龄相关性黄斑变性中补体因子H的多态性(Klein等人,科学,308:385-389, (2005))和与肥胖相关的靠沂INSIG2某闵的夺型(Herbert等人,科学,312:279-283 (2006))。其它已知SNP相关性包括例如,包括⑶KN2A和B的9p21区域中的多态性(例如与心肌梗死有关的rsl0757274、rs2383206、rsl3333040、rs2383207 和 rsl0116277 (Helgadottir 等人,科学,316: 1491-1493 (2007) ;McPherson 等人,科学,316: 1488-1491 (2007))。
[0291]SNP可以是功能性的或者非功能性的。例如,功能性SNP对细胞功能有影响,从而导致表型,然而非功能性SNP在功能上是静默的,但可以与功能性SNP发生连锁不平衡。SNP也可以是同义的或者非同义的。同义的SNP是其中不同形式导致相同多肽序列的SNP,且为非功能性SNP。如果SNP导致不同多肽,那么SNP是非同义的并且可以是功能性的或非功能性的。用于鉴定双体型(其为2个或多个单体型)中的单体型的SNP或者其它遗传标记也可以用于关联与双体型相关的表型。关于个体的单体型、双体型和SNP分布图的信息可以在个体的基因组图谱中。
[0292]在优选的实施方式中,对于基于与表型关联的另一遗传标记形成连锁不平衡的遗传标记产生的规则,该遗传标记可以具有大于0.5的r2或D’得分,该得分通常在本领域中用于确定连锁不平衡。在优选的实施方式中,得分大于0.6、0.7、0.8、0.90、0.95或0.99。结果,在本发明中,用于将表型与个体的基因组图谱关联的遗传标记可以相同或者不同于与表型相关的功能性的或公开的SNP。例如,使用BC_4,测试SNP和公开的SNP是相同的,正如测试的风险和非风险等位基因与公开的风险和非风险等位基因是相同的(图4A和C)。但是,对于BC_5,CASP8及其与乳腺癌的相关性,测试SNP与其功能性的或公开的SNP不同,正如测试的风险和非风险等位基因对于公开的风险和非风险等位基因一样。测试的和公开的等位基因相对于基因组的正链定向,并且从这些列中可以推断纯合型风险或非风险基因型,这可以生成用于例如注册用户的个体的基因组图谱的规则。在一些实施方式中,也可以不鉴定测试SNP,而是使用公开的SNP信息,可以基于另一分析方法(例如TaqMan)鉴定等位基因差异或SNP。例如,图25A中的AMD_5,公开的SNP为rsl061170,但没有鉴定测试SNP。可以通过公开的SNP的LD分析鉴定测试SNP。或者,可以不使用测试SNP,而是用TaqMan或其它相当的分析方法评价具有该测试SNP的个体基因组。
[0293]测试SNP可以为“直接(DIRECT) ”或“标签(TAG) ” SNP (图4E-G,图5)。直接SNP为与公开的或功能性SNP相同的测试SNP,例如对于BC_4。使用欧洲人和亚洲人的SNP rsl073640,直接SNP也可以用于乳腺癌的FGFR2相关性,其中次要等位基因为A且其它等位基因为G (Easton等人,自然,447:1087-1093 (2007))。也是在欧洲人和亚洲人中的乳腺癌的FGFR2相关性的另一公开的或功能性的SNP为rsl219648 (Hunter等人,Nat.Genet.39:870-874(2007))。标签SNP为测试SNP与功能性的或公开的SNP不同的情况,如BC_5的情况。标签SNP也可以用于其它遗传性变型,例如,对于CAMTAl (rs4908449)、9p21 (rsl0757274、rs2383206、rsl3333040、rs2383207、rsl0116277)、COLlAl(rsl800012)、FVL (rs6025)、HLA-DQAl(rs4988889、rs2588331)、eNOS(rsl799983)、MTHFR(rsl801133)和APC(rs28933380)的 SNP。
[0294]SNP的数据库可以从以下地方公开获得:例如,International HapMapProject(参见 www.hapmap.0rg, The International HapMap Consortium, 自然,426.789-796 (2003),和 The International HapMap Consortium,自然,437:1299-1320 (2005))、人类基因突变数据库(the Human Gene Mutation Database) (HGMD)公开数据库(参见冊w.hgmd.0r`g)和单核苷酸多态性数据库(the Single NucleotidePolymorphism database) (dbSNP)(参见 www.ncb1.nlm.nih.gov / SNP / )。这些数据库提供了 SNP单体型,或者使得能够确定SNP单体型模式。因此,这些SNP数据库使得能够检测作为大范围的疾病和状态(例如癌症、炎性疾病、心血管病、神经变性疾病和传染病)的基础的遗传危险因子。这些疾病或状态可以是可处置的,其中当前存在其处理和治疗方法。处理可以包括预防处理和改善症状和状态的处理,包括改变生活方式。
[0295]也可以检测许多其它表型,例如身体性状、生理性状、精神性状、情绪性状、种族、家系和年龄。身体性状可以包括身高、发色、眼睛颜色、躯体或者例如精力、耐力和敏捷性的性状。精神性状可以包括智力、记忆能力或者学习能力。种族和家系可以包括家系或种族的鉴定,或者个体的祖先源于哪里。年龄可以是确定个体的实际年龄,或者是个体的遗传学特征使其相对于总的群体所处的年龄。例如,个体的实际年龄为38岁,但是其遗传学特征可以确定其记忆能力或身体健康状态可能为平均28岁。另外的年龄性状可以是个体的预计寿命。
[0296]其它表型也可以包括非医学状态,例如“娱乐”表型。这些表型可以包括与知名个体的对比,例如,外国贵族、政治家、名人、发明家、运动员、音乐家、艺术家、商业人士和声名狼藉的个体(例如罪犯)。其它“娱乐”表型可以包括与其它生物体的对比,例如,细菌、昆虫、植物或者非人类的动物。例如,个体可能感兴趣看看其基因组图谱与其宠物狗或前任总统的基因组图谱对比会如何。[0297]在步骤114中,将规则应用于存储的基因组图谱以生成步骤116的表型谱。例如,在图4、5或6中的信息可以形成规则或测试的基础以应用于个体的基因组图谱。规则可以包括图4中关于测试SNP和等位基因以及效应评价的信息,其中,效应评价的UNITS为效应评价的单位,例如0R,或优势比(95%置信区间)或者平均值。在优选实施方式中效应评价可以是基因型风险(图4C-G),例如对于纯合子的风险(homoz或RR)、风险杂合子(heteroz或RN)和非风险纯合子(homoz或NN)。在其它实施方式中,效应评价可以为携带者风险(carrier risk),其是RR或RN对NN。在再另外的实施方式中,效应评价可以基于等位基因、等位基因风险,例如R对N。这里也存在两个基因座(图4J)或三个基因座(图4K)的基因型效应评价(例如,对于两个基因座效应评价的9种可能的基因型组合:RRRR、RRNN等)。在图4H和I中还记录了公共HapMap中的测试SNP频率。
[0298]在其它实施方式中,来自图21、22、23和/或25的信息可以用于生成信息以应用于个体的基因组图谱。例如,信息可以用于生成个体的GCI或GCI Plus评分(例如,图19)。评分可以用于生成在个体的表型谱中一种或多种状态的遗传风险(例如估计的终生风险)的信息(例如,图15)。该方法允许计算如图22或25所列的一个或多个表型或者状态的估计终生风险或者相对风险。单个状态的风险可以基于一个或者多个SNP。例如,对于表型或状态的估计风险可以基于至少2、3、4、5、6、7、8、9、10、11或12个SNP,其中用于估计风险的SNP可以为公开的SNPJHi SNP或以上两者(例如,图25)。
[0299]对于状态的估计风险可以基于图22或25所列的SNP。在一些实施方式中,状态的风险可以基于至少一个SNP。例如,个体对于阿尔茨海默症(AD)、结肠直肠癌(CRC)、骨关节炎(OA)或者剥脱性青光眼(XFG)的风险的评估可以基于I个SNP(例如,对于AD是rs4420638、对于 CRC 是 rs6983267、对于 OA 是 rs4911178 和对于 XFG 是 rs2165241)。对于其它状态,例如肥胖(BMIOB)、格雷夫斯氏病(⑶)或者血色素沉着症(HEM),个体的估计风险可以基于至少I个或2个SNP (例如,对于BMIOB是rs9939609和/或rs9291171 ;对于GD 是 DRB1*0301DQA1*0501 和 / 或 rs3087243 ;对于 HEM 是 rsl800562 和 / 或 rsl29128)。对于例如,但不限于心肌梗死(MI)、多发性硬化症(MS)或牛皮癣(PS)的状态,1、2或3个SNP可以用于评估个体对于这些状态的风险(例如,对于MI是rsl866389、rsl333049和/或rs6922269 ;对于MS是rs6897932、rsl2722489和 / 或DRB1*1501 ;对于PS是rs6859018、rsll209026和/或HLA00602)。为了评估多动腿综合症(RLS)或乳糜泻(CelD)的个体风险,可以使用 1、2、3 或 4 个 SNP (例如,对于 RLS 是 rs6904723、rs2300478、rsl026732 和 / 或rs9296249 ;对于CelD是rs6840978、rsll571315、rs2187668和 / 或DQA1*0301DQB1*0302)。对于前列腺癌(PC)或狼疮(SLE),1、2、3、4或5个SNP可以用于评估个体对于PC或者SLE的风险(例如,对于PC是rs4242384、rs6983267、rsl6901979、rsl7765344和 / 或rs4430796 ;对于 SLE 是 rsl2531711、rsl0954213、rs2004640、DRBl*0301 和 / 或 DRB1*1501)。为了评估黄斑变性(AMD)或类风湿性关节炎(RA)的个体终生风险,可以使用1、2、3、4、5或6个SNP(例如,对于 AMD 是 rsl0737680、rsl0490924、rs541862、rs2230199、rsl061170 和 /或 rs9332739 ;对于 RA 是 rs6679677、rsll203367、rs6457617、DRB*0101、DRB1*0401 和 /或DRB1*0404)。为了评估乳腺癌(BC)的个体终生风险,可以使用1、2、3、4、5、6或7个SNP(例如,rs3803662、rs2981582、rs4700485、rs3817198、rsl7468277、rs6721996 和 / 或rs3803662)。为了评估克罗恩氏病(⑶)或2型糖尿病(T2D)的个体终生风险,可以使用1、2、3、4、5、6、7、8、9、10 或 11 个 SNP (例如,对于 CD 是 rs2066845、rs5743293、rsl0883365、rsl7234657、rsl0210302、rs9858542、rsll805303、rsl000113、rsl7221417、rs2542151和 /或 rsl0761659 ;对于 T2D 是 rsl3266634、rs4506565、rsl0012946、rs7756992、rsl0811661、rsl2288738、rs8050136、rsllll875、rs4402960、rs5215 和 / 或 rsl801282)。在一些实施方式中,用作风险确定的基础的SNP可以与上述的或者列于图22或25中的SNP形成连锁不平衡。
[0300]个体的表型谱可以包括许多表型。特别地,无论在有症状、症状前或无症状的个体(包括一种或多种疾病/状态的易感等位基因的携带者)中,通过本发明的方法评估病人患疾病或其它状态(例如,可能的药物反应,包括代谢、功效和/或安全性)的风险使得能够对多种不相关的疾病和状态的易感性进行预后或者诊断分析。因此,这些方法提供了对于疾病或状态的个体易感性的总评价而不需要预先设想任何特定疾病或状态的测试。例如,本发明的方法使得能够基于个体基因组图谱对表1、图4、5或6中所列的多种状态中的任何一种的个体易感性进行评价。而且,这些方法允许评价一种或多种表型或状态的个体估计终生风险或相对风险,例如图22或25中的那些表型。 [0301]所述评价优选提供有关这些状态中的2种或多种的信息,并且更优选这些状态中的3、4、5、10、20、50、100或者甚至更多种状态的信息。在优选实施方式中,将至少20条规则应用于个体的基因组图谱而得到表型谱。在其它的实施方式中,将至少50条规则应用于个体的基因组图谱。表型的单一的规则可以应用于单基因的表型。多于一条的规则也可以用于单一表型,例如多基因的表型或单一基因中的多个遗传性变型影响出现该表型的概率的单基因的表型。
[0302]在对个别患者基因组图谱进行初始扫描之后,当知道附加的核苷酸变型时,通过与这些附加的核苷酸变型(例如,SNP)的比较进行(或采用)个体基因型相关性的更新。例如,步骤110可以由搜索科学文献以寻找新基因型相关性的遗传学领域的一名或多名普通技术人员定期地进行,如,每天、每周或每月进行。然后,新基因型相关性可以进一步由本领域中的一位或多位专家的委员会确认。而后,步骤112可以以基于新的确认有效的相关性的新规则定期地更新。
[0303]新规则可以包括在现有规则之外的基因型或者表型。例如,未与任何表型关联的基因型被发现与新的或现有的表型相关。新规则也可以用于先前无基因型与其关联的表型间的相关性。新规则也可以确定用于已具有现有规则的基因型和表型。例如,现有基于基因型A与表型A之间的相关性的规则。新的研究揭示了基因型B与表型A相关,因而产生基于这一相关性的新规则。另一个例子为发现表型B与基因型A相关,并因此制定新规则。
[0304]可以在发现基于已知的但没有在公开的科学文献中进行初始确认的相关性时制定规则。例如,可能有人报道,基因型C与表型C相关。另外的出版物报道,基因型D与表型D相关。表型C和D是相关的症状,例如表型C可以是呼吸急促,而表型D是较小的肺容量。利用现有存储的具有基因型C和D以及表型C和D的个体的基因组图谱通过统计学方法,或者通过进一步的研究可以发现和确认基因型C与表型D或者基因型D与表型C之间的相关性。然后,可以基于新发现的和确认的相关性生成新规则。在另一实施方式中,可以研究存储的具有特定或相关表型的多个个体的基因型谱来确定这些个体共有的基因型,并且确定相关性。基于这一相关性可以生成新规则。
[0305]也可以制定规则以修正现有规则。例如,基因型与表型之间的相关性可能部分地由已知个体特征确定,例如,种族、家系、地理、性别、年龄、家族史或者个体的任何其它已知表型。可以制定基于这些已知个体特征的规则并且引入现有规则中以提供修正的规则。应用修正的规则的选择将取决于个体的特定个体因素。例如,规则可能基于当个体具有基因型E时个体具有表型E的概率为35%。但是,如果个体为特定的种族,所述概率是5%。新规则可以基于这一结果制定并且应用于具有该特定种族特性的个体。或者,可以应用确定值为35%的现有规则,然后应用基于该表型的种族特征的另一规则。基于已知个体特征的规则可以由科学文献确定或者基于对存储的基因组图谱的研究确定。在产生了新规则时,可以在步骤114中添加新的规则并将其应用于基因组图谱,或者可以定期地应用它们,例如一年至少一次。
[0306]疾病的个体风险的信息也可以随着更高分辨率SNP基因组图谱的技术进步得到扩展。如上所述,使用用于扫描500,000个SNP的微阵列技术可以很容易地生成初始SNP基因组分布图。假定单体型段的情况,这一数字可用于个体基因组中所有SNP的典型分布图。虽然如此,在人类基因组中估计通常发生大约1000万个SNP (the International HapMapProject ;www.hapmap.0rg)。随着能够以更高细节水平对SNP进行实用和经济的解析(例如I, 000,000、1,500,000,2, 000,000,3, 000,000或更多SNP的微阵列)的或者全基因组测序方面的技术进步,可以生成更详细的SNP基因组分布图。同样地,通过计算机分析方法技术的进展将使得更精细的SNP基因组分布图的经济分析和SNP-疾病相关性主数据库的更新成为可能。
[0307]在步骤116生成表型谱之后,注册用户或者其保健管理者可以如步骤118中通过在线入口或网站访问他们的基因组图谱或表型谱。也可以将包括表型谱和其它关于表型谱和基因组图谱的信息的报告提供给注册用户或其保健管理者,如步骤120和122中所述。可以将报告打印出来、存储在注册用户的电脑里或者在线察看。
[0308]图7示出了示例的在线报告。注册用户可以选择显示单一表型或者多于一个的表型。注册用户也可以具有不同的察看选项,例如,如图7中所示“Quick View”选项。表型可以是医学状态并且在快速报告中的不同处理和症状可以链接至其它包含有关处理的进一步信息的网页。例如,通过点击药物,会导向包括关于剂量、费用、副作用和功效的信息的网站。也可以将药物与其它治疗进行比较。网站也可以包括导向药物制造商的网站的链接。另一链接可以向注册用户提供生成药物性基因组学(pharmacogenomic)图谱的选项,这将包括基于其基因组图谱他们对于药物的可能反应的信息。也可以提供对于药物的替代方案的链接,例如预防性行为(如康体(fitness)和减轻体重);并且也可以提供对于饮食补充、饮食计划的链接及对于附近的健身俱乐部、健康诊所、保健及康复提供者、都市型spa (day spa)等的链接。也可以提供教育和情报视频、可利用的治疗的概要、可能的疗法和一般建议。
[0309]在线报告也可以提供安排个人医生或遗传咨询预约的链接或者访问在线遗传顾问或医生的链接,从而为注册用户提供询问更多关于其表型谱的信息的机会。在线报告上也可以提供在线遗传咨询和医师询问的链接。
[0310]也可以以其它形式观看报告,例如对于单一表型的综合观察,其中提供了对于各个类别的更多详情。例如,可以存在关于注册用户出现表型的可能性的更详细的统计;关于典型症状或表型的更多信息,例如医学状态的代表症状或者身体非医学状态(如身高)的范围;或者关于基因和遗传性变型的更多信息,例如群体流行度,如在世界上或者在不同国家中,或者在不同年龄范围或性别中的群体流行度。例如,图15显示了许多状态的估计终生风险的总结。个体可以察看特定状态(例如前列腺癌(图16)或者克罗恩氏病(图17))的更多信息。
[0311]在另一实施方式中,报告可以是“娱乐”表型的报告,例如,个体基因组图谱与知名个体(如阿尔伯特?爱因斯坦)的基因组图谱的相似性。报告可以显示个体基因组图谱与爱因斯坦的个体基因组图谱之间的百分比相似性,并且可以进一步显示爱因斯坦的预测IQ和该个体的预测IQ。进一步的信息可以包括总群体的基因组图谱和其IQ与该个体和爱因斯坦的基因组图谱和IQ比较的情况。
[0312]在另一实施方式中,报告可以显示已与注册用户的基因组图谱相关联的所有表型。在其它的实施方式中,报告可以仅显示确定与个体的基因组图谱正相关的表型。个体可以选择以其它形式显示表型的特定亚类,例如仅医学表型或者仅可处置的医学表型。例如,可处置的表型及其相关的基因型可以包括克罗恩氏病(与IL23R和CARD15相关)、1型糖尿病(与HLA-DR / DQ相关)、狼疮(与HLA-DRBl相关)、牛皮癣(HLA-C)、多发性硬化症(HLA-DQAl)、格雷夫斯病(HLA-DRBl)、类风湿性关节炎(HLA-DRBl)、2型糖尿病(TCF7L2)、乳腺癌(BRCA2)、结肠癌(APC)、情景记忆(KIBRA)和骨质疏松症(COLlAl)。个体也可以选择在报告中显示表型的子类,例如,仅医学状态的炎性疾病或仅非医学状态的身体性状。在一些实施方式中,个体可以选择通过突出显示计算了估计风险的那些状态(例如,图15A,D)、仅具有较高风险的状态(图15B)或仅具有较低风险(图15C)的状态而显示对该个体计算了估计风险的所有状态。
[0313]交付并传送至个体的信息可以是加密的和保密的,并且可以控制个体对这些信息的访问。由复杂基因组图谱得到的信息可以提供给个体作为管理部门批准的、可理解的、医疗相关的和/或具有高度影响的数据。信息也可以是具有一般的重要性,而与医疗无关。可以通过几种方式向个体加密地传送信息,所述方式包括,但不限于入口界面和/或邮寄。更优选地,信息通过入口界面加密地(如果个体如此选择)向个体提供,其中个体对该入口界面具有安全和保密的访问权限。这一界面优选通过在线的、互联网站入口提供,或者可选择地,通过电话或允许提供私密、安全和易于使用的访问的其它方式。基因组图谱、表型谱和报告通过网络的数据传输向个体或其保健管理者提供。
[0314]因此,图8为显示了可以通过其生成表型谱和报告的代表性示例逻辑设备的框图。图8显示了计算机系统(或者数字设备)800,其用于接收和存储基因组图谱、分析基因型相关性、基于基因型相关性生成规则、将规则应用于基因组图谱和产生表型谱和报告。计算机系统800可以理解为能够从介质811和/或网络端口 805读取指令的逻辑设备,该网络端口 805能够任选地与具有固定介质812的服务器809相连。图8中显示的系统包括CPU801、磁盘驱动器803、任选的输入设备(例如键盘815和/或鼠标816)以及任选的监视器807。与本地或远方位置的服务器809的数据通信可以通过所示的通信媒介完成。通信媒介可以包括传送和/或接收数据的任何手段。例如,通信媒介可以是网络连接、无线连接或者互联网连接。这一连接可以提供环球网(World Wide Web)上的通信。可以预想,本发明有关的数据可通过这些手段以用于一方822接收和/或检验的网络或连接进行传送。接收方822可以为个体、注册用户、保健提供者或保健管理者,但不限于此。在一个实施方式中,计算机可读的介质包括适于传送生物样品或基因型相关性的分析结果的介质。所述介质可以包括关于个体对象的表型谱的结果,其中使用在此所描述的方法得到这一结果。
[0315]个人入口将优选用作接收和评价基因组数据的个体的基本界面。入口将使个体能够跟踪其样品从收集到测试的过程并能够跟踪结果。通过入口访问,基于其基因组图谱向个体介绍常见遗传病的相对风险。注册用户可以通过入口选择将哪些规则应用于其基因组图谱。
[0316]在一个实施方式中,一个或多个网页将具有表型的列表和靠近每个表型有一个方框,注册用户可以选择方框以将其包括在他们的表型谱中。表型可以链接至与该表型有关的信息,以帮助注册用户明智地选择关于他们希望包括在其表型谱中的表型。网页也可以具有按疾病分组(例如可处置的疾病或不可处置的疾病)组织的表型。例如,注册用户可以仅选择可处置的表型,例如HLA-DQAl和乳糜泻。注册用户也可以选择显示表型的症状前或症状后治疗。例如,个体可以选择具有症状前治疗的可处置表型(在进一步筛查以外),对于乳糜泻为无谷蛋白饮食的症状前治疗。另一实例可以是阿尔茨海默氏病,症状前治疗为他汀类药物、锻炼、维生素和精神作用。血栓形成是另一实例,症状前治疗是避免口服避孕药和避免常时间久坐。具有经批准的症状后治疗的表型的实例为与CFH有关的湿性AMD,其中个体可以进行对其状态的激光治疗。
[0317]表型也可以按疾病或状态的类型或种类进行组织,例如神经学、心血管、内分泌、免疫等等。表型也可以分组为医学和非医学表型。在网页上的表型的其它分类可以按照身体性状、生理性状、精神性状或情绪性状进行。网页可以进一步提供通过选择一个方框而选择一组表型的分区。例如,选择所有表型、仅与医学相关的表型、仅非医学相关的表型、仅可处置的表型、仅不可处置的表型、不同的疾病组或者“娱乐”表型。“娱乐”表型可以包括与名人或其他知名个体的对比,或者与其它动物或甚至其它生物体的对比。可用于对比的基因组图谱的列表也可以在网页上提供以用于由注册用户选择与注册用户的基因组图谱对比。
[0318]在线入口也可以提供搜索引擎,以帮助注册用户浏览入口、检索特定表型或者检索由其表型谱或报告所揭示的特定术语或信息。也可以由入口提供访问搭配的服务和提供的产品的链接。也可以提供连接到支持小组、留言板和具有共同或相似表型的个体的聊天室的另外的链接。在线入口也可以提供连接到具有更多与注册用户表型谱中表型有关的信息的其它地址的链接。在线入口也可以提供允许注册用户与朋友、家人或保健管理者分享其表型谱和报告的服务。注册用户可以选择在表型谱中显示他们希望与其朋友、家人或保健管理者分享的表型。
[0319]表型谱和报告提供了个体的个人化基因型相关性。向个体提供的基因型相关性能够用于确定个人保健和生活方式选择。如果发现了在遗传性变型与可进行治疗的疾病之间的强相关性,遗传性变型的检测可以帮助决定开始疾病治疗和/或个体监测。在存在统计学上显著的相关性但不认为是强相关性的情况下,个体可以与个人医生讨论该信息并决定适当、有益的行动方案。就特定基因型相关性而言可能有益于个体的潜在行动方案包括进行治疗处理、监测潜在的治疗需要或治疗效果或者在饮食、锻炼和其它个人习惯/活动等方面改变生活方式。例如,可处置表型(如乳糜泻)可以进行无谷蛋白饮食的症状治疗。同样,通过药物基因组学,基因型相关性信息可应用于预测必须用特定药物或药物疗程进行治疗的个体的可能反应,例如特定药物治疗的可能的效力或安全性。
[0320]注册用户可以选择将基因组图谱和表型谱提供给其保健管理者,例如医生或遗传顾问。基因组图谱和表型谱可以由保健管理者直接访问,由注册用户打印出一份以交给保健管理者,或者通过在线入口(例如通过在线报告上的链接)将其直接发送给保健管理者。
[0321]这一相关信息的传递将使患者进行与其医生协调的行动。特别是,在患者与其医生间的讨论可以通过个人入口和连接到医学信息的链接以及使患者的基因组信息结合到其医学记录中而成为可能。医学信息可以包括预防和健康信息。通过本发明提供给个体患者的信息将能够使患者作出对于其保健的明智选择。在这一方式中,患者能够选择可以帮助他们避免和/或延迟其个体基因组图谱(遗传的DNA)更可能导致的疾病。另外,患者将能够采用适合其个人本身的特定医疗需要的治疗方案。个体也将具有访问其基因型数据的能力,如果他们发生疾病并需要这一信息帮助其医生形成治疗对策。
[0322]基因型相关性信息也可与遗传咨询结合以用于向考虑生育的夫妇提出建议,以及提出对于母亲、父亲和/或孩子的潜在遗传关注。遗传顾问可以向具有显示增加的特定状态或疾病的风险的表型谱的注册用户提供信息和支持。他们可以解释关于该病症的信息、分析遗传模式和复发风险并与注册用户讨论可用选择。遗传顾问也可以提供支持性咨询以向注册用户推荐社区或国家支持服务。遗传咨询可以包括特定注册计划。在一些实施方式中,遗传咨询可以安排在所请求的24小时内且可在如晚上、星期六、星期日和/或假目的时间内利用。
[0323]个体的入口也将便于传递初始筛查以外的附加信息。个体将被告知有关其个人遗传图谱的新的科学发现,例如关于其目前或潜在状态的新的治疗或预防对策的信息。新发现也可以传递给其保健管理者。在优选实施方式中,通过电子向邮件注册用户或其保健提供者通告关于注册用户的表型`谱中的表型的新基因型相关性和新研究。在其它实施方式中,将“娱乐”表型的电子邮件发送给注册用户,例如电子信件可以告知他们其基因组图谱的77%与阿伯拉罕.林肯的基因组图谱相同以及进一步的信息通过在线入口提供。
[0324]本发明也提供了一种用于生成新规则、修正规则、组合规则、定期用新规则更新规则集、安全地维持基因组图谱数据库、将规则应用于基因组图谱以确定表型谱和用于生成报告的计算机代码系统。计算机代码告知注册用户新的或者修正的相关性和新的或者修正的报告,例如具有新的预防和健康信息、关于开发中的新治疗方法的信息或可获得的新治疗的报告。
[0325]商业方法
[0326]本发明提供了一种商业方法,该方法基于患者的基因组图谱与已确立的医学相关核苷酸变型的临床数据库的比较来评估个体的基因型相关性。本发明进一步提供了一种商业方法,该方法使用存储的个体基因组图谱评估初始未知的新的相关性以生成个体的更新表型谱,而无需个体提交另外的生物样品。图9为举例说明该商业方法的流程图。
[0327]在个体因为多种常见人类疾病、状态和身体状态的基因型相关性而最初请求和购买个人基因组图谱时,在步骤101中部分地产生本发明的商业方法的收入流。请求和购买可以通过许多来源进行,包括但不限于在线网络入口、在线健康服务和个体的个人医生或者类似的个人医疗关注的来源。在替代的实施方式中,基因组图谱可以免费提供,并且可以在随后的步骤(例如步骤103)中生成收入流。
[0328] 注册用户或者消费者作出购买表型谱的请求。响应于需求和购买向消费者提供采集试剂盒以用于采集在步骤103中进行遗传样品分离的生物样品。当在线、通过电话或其它消费者不易于亲身获得采集试剂盒的来源作出请求时,通过快递提供采集试剂盒,例如提供当日或隔夜交付的速递服务。采集试剂盒中包括的是样品的容器以及用于将样品快速递送至生成基因组图谱的实验室的包装材料。试剂盒也可以包括将样品送至样品处理机构或实验室的说明和访问其基因组图谱和表型谱的说明,这可以通过在线入口进行。
[0329]正如以上所详细说明的,可以从多种类型的生物样品中的任何一种类型获得基因组DNA。优选地,使用商购的采集试剂盒(例如从DNA Genotek购得的试剂盒)从唾液中分离基因组DNA。唾液和这一试剂盒的使用使得能够进行无损伤样品采集,因为消费者很方便在来自采集试剂盒的容器中提供唾液样品,然后密封该容器。另外,唾液样品可以在室温下储存和运输。
[0330]在将生物样品存放在采集或标本容器中后,在步骤105中消费者把样品递送至进行处理的实验室。典型地,通过例如同日或隔夜快递服务的快速递送,消费者可以使用在采集试剂盒中提供的包装材料将样品递送/寄送至实验室。
[0331]处理样品并生成基因组图谱的实验室可以遵循适当的政府机构指导和规定。例如,在美国,处理实验室可以被例如食品与药品管理局(FDA)或医疗保险和医疗补助服务中心(Centers for Medicare and Medicaid Services) (CMS)的一个或多个联邦机构和/或一个或多个州立机构管理。在美国,可以依照1988年的Clinical LaboratoryImprovement Amendments (CLIA)授权或批准临床实验室。
[0332]在步骤107中,如先前描述的实验室对样品进行处理以分离DNA或RNA的遗传样品。然后,在步骤109中,对分离的遗传样品进行分析和生成基因组图谱。优选地,生成基因组SNP分布图。如上所述,可以使用几种方法生成SNP分布图。优选地,高密度阵列(例如来自Affymetrix或Illumina的商购平台)用于SNP鉴定和分布图生成。例如,如以上更详细地描述的,使用Affymetrix GeneChip assay生成SNP分布图。随着技术发展,可能会有能生成高密度SNP分布图的其它技术供应商。在另一实施方式中,注册用户的基因组图谱将是注册用户的基因组序列。
[0333]在生成个体的基因组图谱之后,在步骤111中,优选对基因型数据进行加密、输入,并且在步骤113中将该数据存放在加密数据库或者保险库中,其中信息存储以备将来使用。基因组图谱和有关信息可以是机密的,按照个体和/或者他或她的个人医生的指令对访问这一私有信息和基因组图谱进行限制。其他人(例如个体的家人和遗传顾问)也可以由注册用户许可访问。
[0334]数据库或保险库可以就地位于处理实验室处。或者,数据库可以位于独立的场所。在这一情况下,在步骤111中可以将由处理实验室生成的基因组图谱数据输送到包括数据库的单独的机构。
[0335]在生成个体的基因组图谱之后,随后在步骤115中将个体的遗传变异与已确定的医学上相关的遗传性变型的临床数据库相对比。或者,基因型相关性可以不是医学相关的但仍包括在基因型相关性数据库中,例如,如眼睛颜色的身体性状,或者如与名人基因组图谱的相似性的“娱乐”表型。
[0336]医学上相关的SNP可以通过科学文献和相关来源建立。也可以建立非SNP遗传性变型以与表型相关联。通常,通过将已知己具有疾病的一组人的单体型模式与没有疾病的一组人相比较来建立给定疾病的SNP相关性。通过分析许多个体,可以确定在群体中多态性的频率,并且随之这些基因型频率可以与特定表型(例如疾病或状态)相关联。或者,表型可以是非医学状态。
[0337]也可以通过分析存储的个体基因组图谱确定相关的SNP和非SNP遗传性变型,而不是通过可利用的公开文献确定。具有存储的基因组图谱的个体可以揭示先前已经确定的表型。可以将对个体的基因型和揭示的表型的分析与没有该表型的个体相对比以确定而后可以用于其它基因组图谱的相关性。确定其基因组图谱的个体可以填写关于先前已经确定的表型的调查表。调查表可以包括有关医学和非医学状态的问题,例如先前诊断的疾病、医学状态的家族史、生活方式、身体性状、精神性状、年龄、社会生活、环境等。
[0338]在一个实施方式中,如果个体填写了调查表,他们就可以免费确定其基因组图谱。在一些实施方式中,个体定期填写调查表以免费访问其表型谱和报告。在其它实施方式中,填写了调查表的个体可以给予注册升级,以便他们具有比其先前的注册水平更高的访问权限,或者他们可以以较低的价格购买或更新注册。
[0339]为了保证科学精确性和重要性,在步骤121中存放在医学相关的遗传性变型数据库中的所有信息首先由研究/临床顾问组核准,同时如果在步骤119中被授权的话,由适当的政府机构检查和监督。例如在美国,FDA可以通过核准用于确认遗传性变型(通常为SNP、转录物水平或突变)相关数据的算法进行监督。在步骤123中,为了附加的遗传性变型-疾病或者状态相关性,对科学文献和其它相关来源进行监控,并且在确认它们的精确性和重要性后,以及经过政府机构的检查和批准,这些附加的基因型相关性步骤125中加入主数据库中。
[0340]经核准和验证的医学相关遗传性变型的数据库与全基因组个体图谱相结合将有利地允许对大量疾病或状态进行遗传风险评估。在汇编个体的基因组图谱之后,可以通过将个体的核苷酸(遗传)变型或遗传标记与已经与特定表型(例如疾病、状态或身体状态)相关联的人类核苷酸变型的数据库相比较而确定个体基因型相关性。通过将个体基因组图谱与基因型相关性的主数据库相比较,可以告知个体是否发现他们对于遗传危险因子是阳性或阴性的以及程度如何。个体将收到有关大范围的经科学验证的疾病状态(例如,阿尔茨海默氏病、心血管病、凝血)的相对风险和/或患病体质数据。例如,可以包括表1中的基因型相关性。另外,数据库中的SNP疾病相关性可以包括,但不限于图4中所示的那些相关性。也可以包括图5和6中的其它相关性。本发明的商业方法因此提供了对于大量疾病和状态的风险分析而无需预先了解那些疾病和状态可能导致什么风险。
[0341]在其它实施方式中,与全基因组个体图谱相结合的基因型相关性为非医学相关表型,例如“娱乐”表型或例如发色的身体性状。在优选的实施方式中,如上所述,将规则或规则集应用于个体的基因组图谱或SNP分布图。将规则应用于基因组图谱生成对于个体的表型谱。
[0342]因此,当发现和验证新的相关性时,用附加的基因型相关性扩展人类基因型相关性的主数据库。在需要时或适当时,可以通过访问来自存储在数据库中的个体基因组图谱中的相关信息进行更新。例如,获知的新基因型相关性可以基于特定的基因变型。然后,可以通过仅仅获取和比较个体的完整基因组图谱中仅该基因的部分而确定个体是否可能受该新的基因型相关性的影响。
[0343]优选对基因组查询的结果进行分析和解释以便以可以理解的形式呈递给个体。然后,在步骤117中,如上面详细描述的通过邮寄或通过在线入口界面以安全、机密的方式向患者提供初始筛查的结果。
[0344]报告可以包括表型谱以及关于表型谱中表型的基因组信息,例如,关于所涉及的基因的基本遗传学信息或者遗传性变型在不同群体中的统计学信息。可以包括在报告中的基于表型谱的其它信息是预防对策、健康信息、治疗方法、症状认识、早期检测方案、介入方案以及表型的进一步鉴定和分类。在个体基因组图谱的初始筛查之后,进行或可以进行可控的、适度的更新。
[0345]当新的基因型相关性出现并且被验证和核准时,结合主数据库的更新,对个体基因组图谱进行更新或者可获得更新。基于新的基因型相关性的新规则可以应用于初始基因组图谱以提供更新的表型谱。在步骤127中通过将个体的基因组图谱的相关部分与新的基因型相关性相比较,可以生成更新的基因型相关性分布图。例如,如果基于特定基因中的变异发现新的基因型相关性,则可以就新的基因型相关性对个体基因组图谱的该基因部分进行分析。在这一情况下,可以将一条或多条规则应用于生成更新的表型谱,而不是用具有已经应用的规则的整个规则集更新表型谱。在步骤129中,以加密的方式提供个体的更新基因型相关性的结果。
[0346]初始的和更新的表型谱可以 是提供给注册用户或消费者的服务。可以提供基因组图谱分析的不同注册水平及其组合。同样地,注册水平可以发生变化以向个体提供他们希望接受的具有其基因型相关性的服务量的选择。这样,提供的服务等级将随着个体购买的服务注册水平发生改变。
[0347]注册用户的入门级注册可以包括基因组图谱和初始表型谱。这可以是基础注册水平。在基础注册水平内可以有不同的服务等级。例如,特定的注册水平可以提供对于遗传咨询、在治疗或预防特定疾病方面具有特别专业知识的医生和其它服务选项的介绍。可以在线或通过电话获得遗传咨询。在另一实施方式中,注册的价格可能取决于个体选择用于其表型谱的表型的数量。另一选项可能为是否注册用户选择访问在线遗传咨询。
[0348]在另一情况中,注册可以提供初始的全基因组的基因型相关性,同时在数据库中维持个体的基因组图谱;如果个体如此选择的话,这一数据库可以是加密的。在这一初始分析之后,后续分析和附加的结果可以在个体请求和另外付款时完成。这可以是高级注册。
[0349]在本发明商业方法的一个实施方式中,进行个体风险的更新并且在注册基础上可以向个体提供相应信息。购买高级注册的注册用户可以获得更新。对于基因型相关性分析的注册可以根据个体偏好提供新基因型相关性的特定类型或亚类的更新。例如,个体可能仅希望获悉存在已知治疗或预防过程的基因型相关性。为了帮助个体决定是否进行另外的分析,可以向个体提供关于已可利用的另外的基因型相关性的信息。这一信息可以方便地邮寄或发送电子邮件给注册用户。
[0350]在高级注册中,可以存在更多的服务等级,例如在基础注册中所提及的那些。可以在高等级中提供其它的注册模式。例如,最高等级可以向注册用户提供无限制的更新和报告。当确定新的相关性和规则时,可以更新注册用户的分布图。在这一等级中,注册用户也可以允许无限制数目的个体进行访问,例如家庭成员和保健管理者。注册用户也可以无限制地访问在线遗传顾问和医生。
[0351]在高等级内的下一注册水平可以提供更多限制的方面,例如有限次数的更新。注册用户可以在注册期间内对其基因组图谱进行有限次数的更新,例如,一年4次。在另一注册水平中,注册用户可以一周一次、一月一次或一年一次对其存储的基因组图谱进行更新。在另一实施方式中,注册用户仅可以具有可以选择更新其基因组图谱的有限数目的表型。
[0352]个人入口也将方便地使个体能够维持对于风险或相关性更新和/或信息更新的注册,或者请求更新的风险评估和信息。如上所述,可以提供不同的注册水平以使个体能够选择各种水平的基因型相关性结果和更新,并且注册用户可以通过其个人入口选择不同注册水平。
[0353]这些注册选项中的任一项将对本发明商业方法的收入流作出贡献。本发明商业方法的收入流也通过添加新的消费者和注册用户而增加,其中新的基因组图谱加入到数据库中。
[0354]表1:具有与表型相关的遗传性变型的典型基因。
[0355]
【权利要求】
1.一种评估个体的基因型相关性的方法,该方法包括: a)获得所述个体的遗传样品; b)生成所述个体的基因组图谱; c)通过将所述个体的基因组图谱与当前人类基因型与表型的相关性数据库相比较而确定所述个体的基因型与表型的相关性; d)向所述个体或所述个体的保健管理者报告由步骤c)得到的所述结果; e)当知道附加的人类基因型相关性时,用所述附加的人类基因型相关性而更新所述人类基因型相关性数据库;和 f)通过将步骤c)的所述个体的基因组图谱或其一部分与所述附加的人类基因型相关性相比较更新所述个体的基因型相关性,并确定所述个体的附加基因型相关性;和 g)向所述个体或所述个体的保健管理者报告由步骤f)得到的所述结果。
2.权利要求1所述的方法,其中,第三方获得所述遗传样品。
3.权利要求1所述的方法,其中,所述生成基因组图谱由第三方进行。
4.权利要求1所述的方法,其中,所述结果基于GCI或者GCIPlus评分。
5.权利要求1所述的方法,其中,所述报告包括通过网络传输所述结果。
6.权利要求1所述的方法,其中,所述结果的所述报告是通过在线入口。
7.权利要求1所述的方法,其中,所述结果的所述报告是通过纸件或者通过电子邮件。
8.权利要求1所述的方法,其中,所述报告包括以加密的方式报告所述结果。
9.权利要求1所述的方法,其中,所述报告包括以非加密的方式报告所述结果。
10.权利要求1所述的方法,其中,所述个体的基因组图谱存储至加密数据库或保险库中。
【文档编号】G06F19/00GK103642902SQ201310565723
【公开日】2014年3月19日 申请日期:2007年11月30日 优先权日:2006年11月30日
【发明者】D·A·斯坦芬, M·F·菲利普庞, J·韦塞尔, M·卡吉尔, E·哈尔佩里恩 申请人:纳维哲尼克斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1