用于进行生物测定的合并样本的方法

文档序号:571321阅读:389来源:国知局
专利名称:用于进行生物测定的合并样本的方法
技术领域
本发明涉及对生物样品进行测量的具有分类结果的测量领域,更特别的是涉及用 于具有分类结果的生物测定的样本制备方法。本发明提供了合并样本的方法和所述方法在 等位基因变量的基因分型中的应用。本发明还提供了对多个样品进行分析的方法、将多个 样本合并成合并样本的合并装置、包含用于对一系列合并样本进行分析的处理器的分析装 置、实施合并样本方法的计算机程序产品和实施对多个样本进行分析的方法的计算机程序产品。
背景技术
生物测定是测定样本中的生物分析物的特性、浓度或存在的方法。生物测定是所 有科学领域研究中的固有部分,最显著的是在生命科学领域,尤其是分子生物学领域。分子生物学中的一种特定类型的分析涉及基因分型和测序。基因分型和测序是指 利用生物测定确定个体基因型的过程。目前的方法包括PCR、DNA和RNA测序、以及杂交至 固定于各种载体(如玻璃片或珠)上的DNA或RNA微阵列。该技术对于父亲/母亲身份的 检验、研究疾病相关基因的临床研究和旨在研究任意物种特性的遗传控制(例如扫描整个 基因组搜寻QTL(数量性状基因座))的其他研究是必需的。由于目前技术所限,几乎所有的基因分型只是部分的。也就是说,只确定了个体基 因型的一小部分。在许多情况下,这并不是问题。例如,当检验父亲/母亲身份时,只研究 10至20个基因组区域来确定是否具有亲缘关系,这10至20个基因组区域只是人类基因组 的一小部分。单核苷酸多态性(SNP)是基因组中最丰富类型的多态性。随着高密度SNP标记图 谱和高通量SNP基因分型技术的并行发展,SNP已经成为许多遗传研究所选用的标记。在 绘制图谱和关联研究或基因组筛选实验中都需要大量的样本。为了提供高通量基因分型能力,已经开发了阵列技术。这样的技术可由供 应商处获得,例如Affymetrix (基于微阵列的基因芯片(GeneChip )映射阵列)、 Illumina (BeadArray )、Biotrove (OpenArray )和 Sequenom (MassARRAY )。现在能够获 得或在不远的将来能够获得许多物种(人、牲畜、植物、细菌和病毒)的大量的SNP。创新的 技术已经能够完成全基因组的基因分型或关联研究和用于植物和动物育种的相关全基因 组筛选程序。但这样的方法的费用仍然非常高,如果样本单独地进行基因分型,则需要高达 数百万美元的预算。因此,旨在确定任意物种的SNP的研究目前只涉及有限数量个体的分 析。因此,由于本发明可使基因分型的费用明显降低,因此本发明非常重要。为了全面了解基因多变性,必须知道基因组(相关部分)的完整序列。但是,确定 完整序列的费用甚至要高于前面段落所描述的基因分型的费用。除了费用以外,测序将取 代基因分型从而提供个体基因型的全基因组或其特定区域还是期望的。本发明还提供了降 低测序费用的方法。样本合并(pooling)经常作为减少分析费用的方法被用于分类性状(categorical traits)的研究。由几个样本的混合物构成的池(pool)中的特性的存在表 明该池中至少一个样本具有该特性。例如,DNA池被用于-估算群体中的等位基因频率。通过从该群体选取适合的个体样本,等位基因1的粗略等位基因频率被计算为池 中的等位基因1的结果与等位基因1的结果和等位基因2的结果之和的比值。-事件(case)-对照关联研究,其中事件和对照被分为不同的池,以及-在少数个体和少数SNP上重新构建单倍体型。根据在池中测量的等位基因频率,可通过不同的算法(如最大似然法)来估计单 倍体型。术语“单倍体型频率”与术语“标记的联合分布”含义相同。样本合并的一个重要缺点是被测量的特性仅仅在作为整体的池中被确定,而不是 在该池中的任意个体样本中被确定。一个例外是当建立了分别由两个个体(父亲+孩子和 母亲+孩子)构成的两个池时的用于三个个体(父亲、母亲和孩子)基因分型的DNA池。在 每个池中观察到的等位基因频率显示了所有3个个体的基因型。这种类型的样本合并使费 用降低了 33 %,但是只有是这样的三个个体时才是可能的。在所有的其他情况下,为了获得 个体样本的结果,必须对合并样本中的个体进行重新分析。因此,提供三个个体以外的样本类型的样本池,并且仍能提供该池中的个体样本 的测试结果是有利的。

发明内容
现在,本发明的发明人已发现可合并随机个体,并且当该池中的每一个体样本的 贡献对于每一其他样本的贡献是固定的比例时,即,当样本量不是以等摩尔(equimolar) 而是以特定的比例提供时,能够从该池得到个体基因型。如果测试涉及分类变数的定量测 量,即,该测试涉及被定量测量的分类或离散性状,可从合并的测试结果推断个体样本的结果。事实上,本发明的发明人已发现,对于二倍体动物中的某一位点处的某一等位基 因存在的研究,以1 3的比例混合在单个位点处具有2个可能的等位基因(A或B)的第 一二倍体动物的DNA样本和在相同位点处也具有2个可能的等位基因(A或B)的第二二 倍体动物的DNA样本,这导致该混合物中的任一等位基因存在(2) + (2+2+2) = 8种可能 性,其中单个等位基因(例如A)的预期定量仪器信号是最大样本信号强度的12.5%。这 表明,当测量的信号强度是最大样本信号强度的37.5%,则该样本包含3倍(3x)的该等 位基因A,这表示该信号不可能是来源于第一二倍体动物,而只能来源于第二二倍体动物, 这表示第一二倍体动物具有基因型BB,而第二二倍体动物具有基因型AB。同样,当测量的 信号强度是最大样本信号强度的50%时,所有的样本都具有基因型AB。当测量的信号强 度是最大样本信号强度的0%时,则所有的样本都具有基因型BB。该池中的两个个体总共 具有3*3种可能的基因型。如果测量的精确度是至少6. 25%,每一测量可被分配100% 的八分之一(1/8)的值或其倍数的值。一般来说,每一种可能的测量结果可被分配1/ (y* ((P+l) (P+l)(P+l)2+ (P+l) H))) *100% 的值,其中 y = 2 (等位基因 A 在一个位置上 的两种可能的结果,等位基因存在或不存在),P是倍性水平,η是样本的数量,100%是最大 样本信号强度。总体上,会有(倍性水平+1)η种可能的基因型。
现在,当合并样本是比例为1 3 9 (也就是合并因子分别为3)的3种动物(χ、 y和ζ)的合并样本时,理论上对于该混合物中的任一等位基因总共有26种可能,其中单个 等位基因(例如A)的预期定量信号是最大样本信号强度的3. 85%。这表示测量信号强度 是最大样本信号强度的12%,包含3倍(3x)等位基因A的样本显示动物χ具有基因型BB, 动物y具有基因型AB,且动物ζ具有基因型BB。同样,当测量的信号强度是最大样本信号 强度的96%时,样本χ具有基因型AB,而样本y和ζ具有基因型ΑΑ。如果测量的精确度是 至少1. 9%,每一测量可被分配100%的二十六分之一(1/26)或其倍数的值。(这样的合并 实验的可能结果的综述请参见以下的实施例)。本发明的发明人已经示出了该法则可被用于涉及样本中的分析物的定量测量的 大量分析,其中分析的结果是根据所述样本中的分析物的性质来分类的。在第一方面,本发明现提供了合并样本以分析分类变数的方法,其中该分析涉及 分析物的定量测量,所述合并样本的方法包含提供η个样本的池,其中该池中的个体样本 的数量是这样的使得样本中的分析物以χ° χ1 χ2 Xilri)的摩尔比存在,其中χ代表 分类变数(或合并因子)的类别数,χ是2或更大的整数,如3、4、5、6、7或8,优选为2或 3,η是样本的数量。χ° χ1 χ2 Xfo-1)应被理解为表示χ° χ1 χ2 ... Xfo-1)或 X0 X1 X2 Xi ;^1"1),其中η是样本数目,i是其值在2和η之间的逐渐递增的整数。对于合并多倍体个体,χ等于(倍性水平+1),所以对于在一个位置具有两个可能 的等位基因的单倍体而言X = 2,对于二倍体而言X = 3,对于四倍体而言X = 5,X也等于 可能的基因型的数目。假定具有三个可能的等位基因,则单倍体具有3种可能的基因型(χ = 3),二倍体 具有6种可能的基因型(χ = 6),三倍体具有10种可能的基因型(X = 10)。在一个二倍体个 体中,第一等位基因可出现0、1或2次,第二和第三等位基因也是如此。这使得以如具有两 个等位基因(χ也是多倍性水平+1)相同的比例(x° χ1 χ2 Χ(η_ )合并成为可能。3个 等位基因的信号强度被四舍五入至最接近的结果点(l/^Gp+ir+b+DWp+DWp+l) k^RlOOK其中y = 2(等位基因1、2或3存在或不存在),ρ =倍性水平,n =样本数 量)从而得到合并样本中的等位基因数目。因此,池中的两个个体样本之间的比例(作为一个实施例)是这样的,使得其中的 分析物以1 χ的摩尔比存在,其中χ是分类性状的类别的最大数目。其中池中的个体样本数量规定为公比为3的等比数列的方法尤其适合于二倍体 个体中的等位基因变量的基因分型,其中每个个体具有三种可能的基因型。该基因型是具 有三种可能的变量(AA、AB和BB)的分类性状。其中池中个体样本数量规定为公比为2的等比数列的方法尤其适合于单倍体个 体中的等位基因变量的基因分型。对于其实施例,参考以下的实验部分。在另一方面,本发明涉及以上所描述的本发明的方法在单倍体或多倍体个体中的 等位基因变量的基因分型中的应用,其中分类变数(X)的类别数目等于P+1,其中P代表所 述个体的倍性水平。例如,这样的应用可以用于进行二倍体或单倍体个体中的等位基因变 量的基因分型。另一方面,本发明涉及对多个样本进行分析的方法,其包含根据以上所述的本发 明的方法合并所述样本从而提供合并样本,并对所述的合并样本进行所述分析。然后将得
5到的量化结果四舍五入至最接近的结果点(由理论区间的数目确定,其中最大样本信号强 度根据每个可能的结果来划分,见下文),信号强度被分配为合并样本的分类变数的类别总 数。由此,考虑到池中各种个体样本的比例,确定池中的每一个体样本分类变数。在另外一个方面,本发明提供了对多个样本进行分析的方法,其包含对通过本文 以上所确定的合并样本的方法获得的一系列(或一组)合并样本进行分析,其中分析所述 样本的分类变数,并且涉及所述样本中的分析物的定量测量。在本方法的一种优选实施方案中,进行分析的方法还包含从测量推导所述样本池 中的个体样本的贡献的步骤。在另外一个方面,本发明提供了将多个样本合并成为合并样本的合并装置,其包 含提供合并样本的样本吸出器(aspirator),还包含进行以上所述合并样本方法的处理器。在另外一个方面,本发明提供了分析装置,其包含用于对通过以上所述的合并样 本的方法获得的一系列合并样本进行分析的处理器,其中所述的装置被设置用于分析所述 样本的分类变数并进行所述样本中的分析物的定量测量。在该分析装置的一种优选实施方案中,该装置还包含合并装置,最优选是上文中 所披露的合并装置。在另外一个方面,本发明提供了在计算机程序产品自身或在载体上的计算机程序 产品,当该程序产品在计算机、编程的计算机网络或其他可编程设备中被加载(load)并且 执行时,实施上文所述的合并样本的方法。在另外一个方面,本发明提供了在计算机程序产品自身或在载体上的计算机程序 产品,当该程序产品在计算机、编程的计算机网络或其他的可编程设备中被加载并且执行 时,实施以上所述的对多个样本进行分析的方法,所述方法包含对通过上文所述的合并样 本的方法获得的一系列合并样本进行分析,其中分析所述样本的分类变数,并且涉及所述 样本中的分析物的定量测量。在该计算机程序产品的一种优选实施方案中,所述方法还包含根据以上所述的合 并样本的方法合并的步骤。通过利用本发明的方法,分析费用可大幅降低,S卩,一般降低50%,甚至降低66% 或更多。


图1示出了基于合并数据的等位基因频率(Y轴)与基于个体测量的等位基因频 率(X轴)之间相关性的曲线图。图2示出了个体测量的等位基因频率(Y轴)与池中的预测的等位基因频率(X轴) 之间关系的曲线图。图3示出了池中的校正的等位基因频率(Y轴)与个体分型后测量的个体的等位 基因频率(X轴)之间的关系的曲线图。图4示出了实验1中的预期的(基于个体分型)与对池1的预测的等位基因频率 之间的差异的曲线图。图5示出了实验2中的预期的(基于个体分型)与对所有池的预测的等位基因频 率之间关系的曲线图。
图6表示了实验2中的预期的(基于个体分型)和对所有池预测的等位基因频率 之间的差异的曲线图。
具体实施例方式本文中使用的术语“分类变数”是指例如性质或性状的离散变数,例如分析物或其 性质是否存在,或等位基因性状在分析物中是否以纯合或杂合的形式存在。“离散的”与“分 类的”具有相同的含义,是指非线性的或不连续的。“变数”通常是指测量样本特性的(分 类)性状。分类变数可以为二元的(由两类构成)。“类”是指可进行测量的组或类别。因 此,纯粹的分类变数是可以分配类别的,分类变数取几个可能的类别(类)之一的值。尤其 是,分类变数可能涉及遗传标记的存在,如单核苷酸多态性(SNP)或任意其他的遗传标记、 等位基因、免疫反应、疾病、抗性能力、发色、性别、疾病感染状态、基因型或样本或生物体的 任意其他性状或特性。虽然它们能够被量化地测量,例如作为可被分析装置接收、读取和 /或记录的所产生的分析物信号,分类变数本身不具有数量意义而且类别不具有固有的排 序。例如,性别是具有两个类别(男性或女性,通常被编码为0和1)的分类变数,优选地代 表了无序的类别。基因型也是具有多个优选无序的类别的分类变数(AA、Aa和aa,有时候 被编码为2、1和0)。在本发明的一些方面,样本可以为测量了分类变数的任意样本。该样本可以为生 物样本如动物(包括人)或植物的组织或体液样本,环境样本如土壤、空气或水样本。样本 可以为(部分)纯化的或未经处理的(原始)样本。样本优选为核酸样本,例如DNA样本。在定量测试中测量其存在或形式的分析物可以为化学物质或生物体。在优选的实 施方案中,分析物是生物分子,分类变数是所述生物分子的变体(variant)。优选地,该生物 分子是核酸,尤其是多核苷酸,如RNA、DNA,并且该变量可以例如为所述多核苷酸中的核酸 多态性,例如等位基因变量,最优选为SNP,或特定核苷酸位置的碱基一致性。因此,本文定义的分析物可以是表现出一定分类变数的DNA分子(例如,该核酸分 子中的特定核苷酸位置的碱基特征(identity,同一性),具有A、T、C或G的分类值)。可 利用定量测试来测量特定核苷酸位置的碱基特征,例如根据来自整合了荧光类似物的所述 核苷酸的cDNA拷贝的荧光,如DNA测序领域中已知的。DNA特定位置中的类似物放射出的、 并通过分析装置进行测量的定量水平的荧光,为该核苷酸位置分配分类值,例如该位置为 腺嘌呤。在确定特定核苷酸位置的碱基特征中,本发明涉及合并待确定其特定核酸的核苷 酸序列的个体样本。当认识到序列测定涉及确定四种可能碱基中的任一种的信号(其中在 例如测序凝胶中存在或不存在特定位置的任一特定碱基的信号对应于所述核酸中的特定 核苷酸位置中存在或不存在该碱基特征)时,就能够理解本发明的方法适合用于序列测定 (分析)。在运行测序凝胶(sequence gel)之前,以本文中所述的比例合并两个样本使得 能够确定任意特定信号的来源,并由此确定每个个体核酸的序列。“分析物”可以是多肽,例如蛋白质、肽或氨基酸。该分析物还可以为核酸、核酸探 针、抗体、抗原、受体、半抗原和受体的配体或其片段,(荧光)标记、色原体、放射性同位素。 事实上,分析物可以由可定量测量并且可用于确定分类变数的类别的任何化学或物理物质 形成。
本文中所使用的术语“核苷酸”是指包含连接糖(一般为核糖(RNA)或脱氧核糖 (DNA))的C-I碳的嘌呤(腺嘌呤或鸟嘌呤)或嘧啶(胸腺嘧啶、胞嘧啶或尿嘧啶)碱基的 化合物,并且进一步包含一个或多个连接于该糖的C-5-碳的磷酸基。该术语包括核酸或多 核苷酸的个体构建体(building block),其中个体核苷酸的糖单元通过磷酸二酯桥相连从 而形成具有待定的嘌呤或嘧啶碱基的磷酸糖骨架。本文中所使用的术语“核酸”包括单链或双链形式的脱氧核糖核苷酸或核糖核苷 酸的聚合物,即多核苷酸,除非另有限定,该术语包含具有天然核苷酸的必要特性的已知类 似物(例如,肽核酸),因为它们以与天然存在的核苷酸相似的形式与单链核酸杂交。多核 苷酸可以为天然的或异源结构或调控基因的全长序列或子序列。除非另外指出,该术语包 括特定的序列以及其互补序列。因此,具有为了稳定或其他原因而经修饰的骨架的DNA或 RNA就是本文中的该术语意指的“多核苷酸”。此外,包含独特碱基,如次黄嘌呤核苷,或修 饰的碱基,如三苯甲基化的碱基(只是定义了两个实例)的DNA或RNA是如本文所用的术 语意指的多核苷酸。术语“定量测量”是指确定样本中的分析物的量。术语“定量”是指该测量可表达 为数值的事实。该数值可涉及度量、尺寸、程度、数量、容量、浓度、高度、深度、宽度、广度、长 度、重量、体积或面积。定量测量可涉及测量信号的强度、峰高或峰面积,例如显色或荧光信 号,或任何其他的定量信号。一般来说,当确定分析物的存在或形式时,测量会涉及仪器信 号。例如,当确定SNP的存在时,测量会涉及杂交信号,该测量通常会提供由荧光计测量的 荧光强度。当确定免疫响应的存在时,该测量会涉及抗体效价的测量,该测量通常也可以以 荧光强度提供。测量不需要提供连续的测量结果,但是会涉及离散区间或类别。测量也可 为半定量的。只要能够在Z1^dlri或Xlri偏微分(partial)中确定该测量,并且优选是最大 样本信号强度(取决于该池是否分别以公比2、3或χ的等差数列提供,其中η是池中样本 的数量)的比例区间,该测量理论上就是合适的。本文中所使用的术语“合并(pooling) ”是指为了最有利于使用者而将样本组合或 汇合在一起。尤其是,术语“合并”是指制备多个样本的集合来代表一个具有加权值的样本。 通常通过混合样本而将多个样本合并成一个单一样本。在本发明中,混合要求仔细称重单 个样本的量,其中每个样本中存在的分析物的量是明确的。当样本A中的分析物的量为2g/ L,样本B中的分析物的量为lg/L时,以1 6的体积比将这些样本合并从而提供1 3的 分析物比例。当以例如1 3的比例将两个样本合并,或当样本以本发明的实施方案中描述的 以1 3 9的比例将三个样本合并时,分别由12. 5%和3. 85%的区间端点来设定池中变 量的可能频率。这些区间的端点在本文中被称为“结果点”,并且相当于定量测量值的逐步 增加(st印increments),直到达到最大样本信号强度。术语“等比数列”是指其中任意两个连续项之间的比为相同的数列。换句话说,通 过每次将前一项乘以相同的数字可获得数列中接下来的项。这个固定的数字被称为该数列 的公比。在本发明的等比数列中,第一项为1,根据样本的类型,公比为2或3。术语“最大样本信号强度”是指当合并的所有样本产生阳性信号时(即,当100% 的个体样本对于测试的分析物均为阳性时),从该池中得到的信号。可通过任意合适的方法 来确定最大样本信号强度。例如,可以分别测量50个个体样本从而根据离散事件的数目来确定它们在这些样本中存在的组成,随后可在合并实验中测量这些样本,其中所测量的合 并样本的信号强度以相同的比例示出,通过累加所有的个体样本的信号强度获得。本发明的方法可以以任意数目的η个样本来进行。但是,在实践中,最大数目η根 据测量方法的精确度而设定,也就是说,能够确定两个连续的结果点之间的合理的统计学 差异的精确度。本方法的精确度(标准偏差)必须与此相符。本发明的方法的应用包括,但不限于,基因分型方法。基于合并DNA的基因分型具 有多种应用。基因型可被用于所有物种的图谱绘制、关联和诊断。具体的基因分型的实例包 括a)人类的基因分型,如医学诊断,以及病例-对照研究合并之后的追踪个体分型;b)候 选基因方法和基因组广泛筛选应用中的牲畜的基因分型,如QTL研究中的个体分型,和c) 植物的基因分型,例如,为了绘制图谱和关联研究。当对人类、牲畜、植物、细菌、病毒进行序列测定时也可以使用合并。更具体而言, 当想要比较两个或多个个体的序列时,合并个体样本进行测序是合适的。本发明的合并样本的方法包含从至少一个第一样本取子样本和从至少一个第二 样本取子样本,其中所述第一和第二子样本被混合到同一容器中从而提供合并样本形式的 两个子样本的混合物,其中根据本文所述的分析物的浓度,所述的合并样本中的所述的第 一子样本和第二子样本的比例为1 3或3 1。类似地,当三种样本被合并时(该说法是 指混合三个子样本的事实),所得的合并样本中的第一、第二和第三子样本(任意顺序)的 比例为如本文中所描述的为1 3 9。根据12. 5%和3. 85%的区间端点分别设定池中 的变量的可能频率。这些区间的端点在本文中是指“结果点”,并且相当于逐步增加(st印 increment),直到达到最大样本信号强度。本文定义的合并方法可通过(使用)合并装置来进行。这样的装置应当包含用于 收集和递送确定量(例如以确定(但是可变的)体积的形式)的样本的样本收集器。合适 的样本收集器是移液管操纵器(pipettor),如通常实验室中常用的自动样本递送和处理系 统。这样的自动系统通常是台式设备,其应当包含微孔板处理器台、试剂操作台、过滤板吸 气器和基于气体力学的自动移液器模块和一次性吸头中的一个或多个。这些样本自动系统 非常适合于实施本发明的方法,因为它们从根本上被设计用于从不同样本将不同的液体体 积合并到一个或多个反应管中。因此,它们是在技术人员的技能范围内的,从而将这样的自 动移液管系统应用于执行从不同样本将不同液体体积合并成一个单一的合并样本的任务。 但是,这样的自动移液管系统只是将多个样本合并为合并样本的样本合并装置中的一个合 适的实施方案,所述的装置包含用于从多个样本瓶收集样本并且用于将样本递送到单个合 并瓶中从而提供合并样本的样本收集器,并且还包含用于执行本文所定义的合并样本方法 的处理器。本文中所使用的术语“处理器”意指包括任意的计算机设备,其中使用一个或多 个执行单元(例如包含移液管装置和在样本瓶和自动移液管系统的合并瓶之间移动所述 移液管装置的机械臂的部件)来执行存储的指令和从存储器或其他的存储设备检索的指 令。术语“瓶(vial) ”应该是泛指,并可包括指阵列上的分析点。因此,本发明的处理器可 包括,例如个人计算机、大型计算机、网络计算机、工作站、服务器、微处理器、DSP、专用集成 电路(ASIC),以及其部分或组合和其他类型的数据处理器。设置所述处理器以用于接收上 文中限定的合并装置上实施本发明的合并样本的方法的计算机程序的指令。合并样本以用于分析分类变数的方法,其中该分析涉及分析物的定量测量,所述合并样本的方法包含提供η个样本的池,该池中的个体样本的量为样本中的分析物以 X0 X1 X2 X(H)的摩尔比存在,其中X是2或更大的整数,其表示分类变数的类别数。虽然合并方法是非常直接的,并且能够以相对简单的公式表达,但本文所描述的 分析合并样本的方法较为复杂。如本文所述,分类变数(例如基因型)可以取几个可能的类别(ΒΒ、ΑΒ、ΑΑ)中的 一个类别的值。这些类别与结果区间的类相一致。通过对分析物(DNA)的参数(例如,荧 光)实施定量测量可确定类别,并且根据分析结果的分类为这些参数分配类别,每一类代 表了所述分类变数的一个变量(见图7)。总的来说,可能的分析结果(输出)的总数取决于分类变数的性质。例如,在二倍 体生物基因型的情况下,倍性水平决定了可能的分析结果的数目。一般来说,分类变数的性 质可包括样本中存在不同数目的变量或系列分析物(仍参见图7)。可能的分析结果的总数 还取决于能够采用一次重复的可能的不同分类值。表1提供了可能的分析结果的数目的实 施例。表1.当测量是由相同事件的重复构成时,其可能的分析结果(结局)的总数 N代表一次重复的可能的分类值或变量的数目,k是样本内的重复数目。该表中提 供的值是根据公式(n+kk+1)计算的。例如,二倍体个体(一个样本中一个等位基因有2个重复)的基因型为3种(AA、 AB和BB),因为一个等位基因只能有两种不同的变量(A或B)。三倍体(一个等位基因有3 个重复)可具有4种不同的基因型(AAA、AAB、ABB和BBB)个体的血型是具有四种不同的变量的一种重复(A、B、AB或0)。表1中的公式对于测量的变量重复是不重要的情况来说是成立的。例如,对于基 因型而言,基因型AB和基因型BA之间没有差异。但是,在重复的特征(identity)是重要 的情况下,计算可能的分析结果的总数的公式为nk。则该公式替代了表1的公式(n+kk+1)。 而且表中的所有的值随之相应地发生改变。对于有2个重复并且每个重复有2种可能的结 果的情况,会有四种结果。对于有3个重复而且每个重复有3种可能的结果,则会有9种不 同的结果。可能的分析结果的总数在本文中被用作合并比例(例如,1 3 9),并且直接称 为“合并因子”而被提供(在1 3 9的情况下为3)。例如,当合并单倍体个体用于基因 分型时,具有一个重复,每个重复有2种可能的变量。在这种情况下,合并因子等于2 (是表 1中的结果数目)。
合并4个个体则需要以2° 21 22 23的比例进行。当合并二倍体个体时,合并因子是3。合并3个个体需要以3° 31 32的比例进 行。池中的结果的总数则等于以下公式总合并结果=合并因子#$ 目。则信号强度的增加(increment,或增量)等于增加=1/(合并因子#^^目_1) * 100%或l/(y * ((合并因子)°+(合并因子)、(合并因子)2+.........+(合并因子)(η_ ))
女 100%,其中η是样本数目,y =合并因子-1。如果测量强度对于一次重复的所有变量是存在的(为所有的值减去一,因为减少 的一随后会被计算为1减去另外一个的强度),可遵循表1中的首行,因为这可以被视为该 重复的每个值的存在或不存在,其对应于该重复的2个可能的结果。参见以上的实施例,其 中假设有3种可能的等位基因而不是2个,并且可测量3种不同的光强度而不是2个(红 和绿)。如果只进行单次测量,则可遵循表1。如本文所述,本发明的用于分析合并样本的方法包含对所述合并样本上的所需的 分析物实施测量。在记录测量结果(例如仪器信号)后,该分析包含一系列的步骤,在下文 中提供的实施例中会详细解释这些步骤。对通过本发明的方法获得的一系列合并样本进行分析(其中分析所述样本的分 类变数)涉及所述样本中分析物的定量测量。该分析物是化学或物理物质或实体,其参数 显示所述分类变数的至少一个变量存在与否。例如,当具有变量等位基因A或B的生物基 因型确定为分类变数时,分析物是生物体的DNA、DNA探针或遗传标记,该分析物的参数的 绝对值与变量的存在(或不存在)直接相关。分析物的定量测量通常包括荧光强度、放射 性同位素强度、或作为分析物参数的值的任意定量测量。超过一定阈值或分类值的测量值 通常显示了变量的存在。因此,样本中分析物的定量测量是指分析物发出了在所述的样本 中被分析的分类变数的变量存在或不存在的信号。基本上,在分析通过本文所述的合并样本的方法获得的合并样本的方法中,所述 池中的个体样本的比例(即池中的个体样本的结果)确定如下。首先确定对η个样本的池进行的特定分析“Α”的最大样本信号强度,并且设定 为100%信号。最大样本信号强度是当池中的η个样本的100%样本对于分类变数为正 (positive)的时候达到的信号强度。可通过提供η个阳性参考样本的测试池并且确定测 量信号来确定最大样本信号强度,其中所述阳性参考样本对于分类变数为正,并且其中η 是在其上进行分析“Α”的池中的样本数目。记录分析“A”的最大样本信号强度或存储在 计算机存储器中备用。接下来,通过分析“A”,在本发明的方法获得的合并样本中测量感 兴趣的分析物,从而确定分析物的合并样本信号强度。记录合并样本中的分析物得到的信 号强度,四舍五入至上文中确定的最接近的结果点,并且根据情况进行存储,然后与最大信 号强度进行比较。该比较适合于这样进行。一般而言,为每个可能的测量结果分配值1/
11(y* α+β^Υ+β^))) *100 %,其中η是合并样本的数目,y是代表“A”存在与否的整数2, 100%是最大样本信号强度。y* (AsWM(H))应被理解为表示,其 中η是样本的数量,i是具有2和η之间的值的递增的整数。例如,对于y = 2个类别的分 类变数(不存在或存在标记),以及具有4个样本的池,使用4种阳性参考样本将最大样本 信号强度设定为100%,总共有2*(3°+3、32+33) = 2+6+18+54 = 80个结果点,其中每个可 能的测量结果可被分配1/80*100%= 1. 25%的值或其倍数。可从一个简单的结果表(其以计算机可读取的形式存储在计算机存储器中)中读 取样本池中的每个样本的结果,该表为最大样本信号强度的0%至100%之间的递增步骤 Ι/^α+β^^^^ΜΟΟΧ的每一结果点分配了池中每个个体样本对应的值。例如,这 样的结果表是以下的表2中提供的表。通过对所述合并样本中的各个子样本分配分类变数来完成分析。可通过分析装置来实施本文中定义的分析合并样本的方法。本发明的分析装置包 含用于对通过以上所述的合并样本的方法获得的一系列合并样本进行分析的处理器,其中 所述装置用于分析所述样本的分类变数并对所述样本中的分析物实施定量测量。如上文 中所提到的,该分析装置的独特性质在于其用于分析所述池中的每个个体样本中的合并样 本的分类变数,并对所述样本中的分析物实施定量测量。基本上,该分析装置用于测量和分 析从合并样本获得的测量结果,并且从该结果推导出池中每个个体样本的分类变数。这样 的装置应该包含用于测量合并样本中的分析物信号的信号读取单元。该分析装置还应当包 含用于存储测量结果和以上所述的结果表的存储器。该分析装置还应包含用于从存储器和 /或读取单元检索信息,并用于进行计算和进行迭代过程的处理器,其中使用上文中提到的 结果表来将合并样本的测量结果与所述池中的个体样本的对应结果进行比较,并将合并样 本的测量结果分配给个体样本的相应结果;将样本信息输入到存储器或处理器中的输入/ 输出界面;和连接于所述的处理器的显示器。处理器用于从计算机接收程序指令,其实施上 文中所述的分析装置上的本发明的分析样本的方法。本文中所使用的术语“处理器”指包 括其中使用一个或多个执行单元来执行从存储器或其他的存储装置检索到的指令的任何 计算设备,例如接收合并样本并且通过确定样本或合并样本中分析物的信号进行所述分析 物的测量的信号读取单元。本发明的分析装置还可包括本发明的合并装置。本发明还提供了在其自身或载体上的计算机程序产品,当该程序产品在计算机、 编程计算机网络或其他可编程设备上加载并且执行时,可实施上文中所述的合并样本的方 法。基本上,该计算机程序产品可被存储在本发明的合并装置的存储器中,并且所述处理器 可通过为所述装置的处理器提供一系列对应于合并方法各处理步骤的指令来执行该程序。本发明还提供了在其自身或载体上的计算机程序产品,当该程序产品在计算机、 编程计算机网络或其他可编程设备上加载并且执行时,可实施对多个样本进行分析的方 法,所述方法包含对通过上文中所述的合并样本的方法获得的一系列合并样本进行分析, 其中分析所述样本的分类变数,并且涉及对所述样本中的分析物实施定量测量。基本上,该 计算机程序产品可被存储在本发明的合并装置的存储器中,并且所述处理器可通过为所述 装置的处理器提供一系列对应于分析方法各处理步骤的指令来执行该程序。在用于进行分 析的计算机程序产品中,嵌入到软件指令中的方法还可以包含如上文所述的合并样本的步马聚ο现在通过以下的非限制性实施例来说明本发明。实施例实施例1使用标准化的一个50个个体的池对于存在SNP的二倍体个体样本进行基因分型 的实施例步骤1)单独检测50个个体对于每一 SNP和每一个体,我们以微阵列形式使用两种不同的荧光染料,获得了 红色荧光(存在等位基因)和绿色荧光(不存在等位基因)的强度。红色和绿色强度之间 的比对于是纯合体动物不一定总为1 (或0)或对于杂合体动物不一定总为0. 5。个体分型的数据被用于计算所有被分型的SNP的信号强度的校正系数。为了获得最重要的校正因子(K),通常使用校正因子来校正代表等位基因中的任 意的不等效率的数据,我们使用来自杂合基因型的信号。如果不存在杂合基因型,我们就假 定被研究的SNP在所研究的群体中是不分离的,因此应该忽略池中该SNP的结果。由于50个个体样本中不存在杂合型而忽略SNP会造成具有低MAF (少数等位基因 频率)的SNP上的信息丢失。对于许多应用(如基因组广泛选择)来说这是没有影响的, 因为具有非常低的少数等位基因频率的SNP不会对精确性造成非常大的影响,因此可决定 不使用这些SNP上的数据或者不采用校正系数。我们使用的第一校正因子⑷为;K = avg (Xraw/Yraw)其中&aw是所测量的红色强度,Yraw是所测量的绿色强度。该值是由具有基因 型AB的个体基因分型的样本确定的。不使用一个基因型的所有微珠的平均结果,我们也可使用所有单独的微珠的结 果。因此,我们使用来自一个样本的和Yraw或X和Y的平均结果,或者我们使用该样 本的所有单独微珠的结果。其他的校正因子是AAavg和BBavg。AAavg是AA基因型的未校正等位基因频率的 平均值。预期该值接近1。BBavg是BB基因型的未校正等位基因频率的平均值。预期该值 接近0。使用以下的公式来计算AAavg和BBavg AAavg = (avg (Xraw/ (Xraw+Yraw)))禾口BBavg = (avg(Xraw/(Xraw+Yraw)))步骤2)构建一个测试池,其包括以上步骤1)的所有50个个体。为此,使用 NanoDrop分光光度计(NanoDrop Technologies,USA)测量每个个体样本中的DNA浓度(ng/ μ 1)。然后,在合并成单一样本之前,将所有的DNA样本稀释到标准浓度50ng/y 1。在这样 获得的测试池中,我们估算了未校正的或根据第一步骤得到的校正因子的等位基因频率。等位基因A的未校正等位基因频率被计算为红色强度除以两种强度之和的比值, 如下未校正等位基因频率=Xraw/ (Xraw+Yraw)我们采用的等位基因频率的第一校正值为
13
校正了的等位基因频率=Xraw/(Xraw+K * Yraw)我们采用的第二校正值为归一化。归一化的等位基因频率=(校正的等位基因频率-BBavg)/AAavg对于校正和归一化,我们都使用了分别来自个体样本的每个SNP的所有3个基因型。估计的等位基因频率的准确性的顺序为归一化的(最准确)、校正的(两者之 间)和未校正的(准确性最低)这表示,如果在步骤1中没有杂合个体,就将校正因子K设定为0. 5,如果没有纯合 个体,就将校正因子AAavg和BBavg分别设定为1和0。步骤3)我们比较了根据个体分型计算的和基于测试池中的结果的等位基因频 率。由此我们估算了四次多项式,其中实际结果在X轴上。从图1可见单独测试的个体中 和具有将近18000个SNP的池中的基因分型结果。使用SNP均勻分布在整个鸡基因组中 (vanAs 等,2007)的 18K Chicken SNP iSelect Infinium 检测(Illumina Inc, USA)来进 行基因分型。可在 Illumina 的网站(http://www. illumina. com/pages, ilmn ? ID = 12) 找到检测、操作流程和芯片的详细信息。当个体的已知频率为0,0. 05,0. 1,0. 15------0. 9、0· 95和1时,我们通过这个多
项式计算了测试池中的预计的等位基因频率。参见图2,将第二幅图中的这些结果与Y轴上的实际频率放在一起,我们得到了第 三校正步骤的校正因子。参见图3,在应用这些校正因子之后,测试池中的等位基因频率表现出与实际频率 的线性关系。在这个约18,000个SNP的实验中,与个体分型的结果相比,50个个体的测试池中 测量的超过96%的等位基因频率(并且如上被校正)在+6. 25%或-6. 25%的范围内。对于本发明的应用,前面3个步骤优选在作为“校准”的实际分析之前进行,从而 提高分析的精确性。但并不是每次都需要进行这些步骤。然后,(如果进行的话)测量校 准随后实施以下步骤步骤4)以1 3、1 3 9或1 31 32 3(n_D的比例构建2、3或η个个体 的DNA池,并且测量该池从而进行基因分型,其中使用18Κ Chicken SNP iSelect Infinium 检测(见上文)在芯片上确定红色和绿色的信号强度。步骤5)通过步骤1和步骤3得到的校正因子,可从得到的池中的信号强度来计算
等位基因频率。对于具有两个个体的池,预计的校正后的频率得到了 0 %、12. 5 %、2 5. 0 %、 37. 5%,50.0%,62. 5%,75.0%,87. 5%和100%的结果点。四舍五入至最接近的结果点。 两个个体的基因型可从表2中显示的结果得到。对于具有3个个体的池,四舍五入至最接近的结果点,其中结果点之间的区间是 3. 85% (100/(33-1))等。连续的结果点之间的间隔越小,读取强度需要的精确度就越高,从而将特定的结 果合理地分配于结果点之一。随着基因分型技术的进一步发展,更精确的读取会变得可行。对于一个池中具有2个个体的情况,可以决定只使用SNP,其中池中的估计的和校
14正的等位基因频率落在个体的实际频率的士6. 25%的范围内(见图3中的红线)。表2.合并样本的等位基因频率的结果点和对于具有A和C等位基因的SNP在池 中的两个个体的推导基因型 如果没有其他的信息来推导个体基因型,就应该省略合并结果和个体结果之间显 示出差异大于6. 25 %的SNP (步骤3)。推导个体基因型的其他信息可以来自于个体的谱系或该个体隶属的家族(或科, family)或群体(或种群,population)中的单倍体型的信息。根据校准因子的可重复性,已知检测条件相同的新的分析可完全跳过步骤1、2和 3。当遵循实例1的方法时,通过减少需要被分析的样本的总数,取得显著的节约,同 时仍可得到原始个体样本的可靠结果。被分析样本的一般减少的总数在表3中示例性地示
出ο表3.当根据本发明的方法合并2或3个个体时,节约的被分析的样本数目 实施例2使用标准化的2个个体的25个池的基因分型二倍体个体样本的实施例步骤1)如实施例1的步骤1单独测试50个个体。步骤2)以1 3比例构建25个池,每个池中有2个样本,其包括以上的步骤1) 的所有50个个体。在这些池中,估计未校正的或基于第一个步骤中得到的校正因子的等位
基因频率。步骤3)将2个个体分型的等位基因频率的总和与具有2个个体样本的池中的估 计频率进行比较。从这25个点计算回归线。然后可将回归系数和截距用于校正其他池的 估计频率。步骤4)然后以1 3、1 3 9或1 !S1IS2: 3(n_D的比例构建2、3或η个 样本的DNA池。步骤5)以步骤1和步骤3中得到的校正因子,计算池中得到的信号强度的等位基 因频率。减少的样本数目与用于二倍体个体测序的表8中提到的减少数目一致。实施例3对单倍体个体样本进行基因分型的实施例当合并两个单倍体样本并且测量等位基因A在基因组的某些位置的存在时,预期 测量(峰高、表面积、强度)中的比例为;表4.合并样本的等位基因频率的结果点和具有A和C等位基因的SNP的池中的 两个个体的推导的基因型
合并样本的等位 基因A的频率个体1的推导基因型 (在池中占1份)个体2的推导基因型 (在池中占3份)0. 00CC0. 33AC0. 67CA
16 如果只使用两个样本的池,可以不需要校正因子。当合并更多的样本时,可能需要 校正因子。则其可以通过具有相等量的分析物的模拟杂合和纯合二倍体个体的2个样本的 池来计算。当以1 2 4的比例合并3个样本时,预期测量中的比例如下;表5.合并样本的等位基因频率的结果点和具有A和C等位基因的SNP的池中的 三个个体的推导的基因型 实施例4本发明在测序试验方案中的应用本发明中描述的合并方法可被应用于需要确定2个或多个个体的序列的情况。对合并个体、模板或PCR产物进行测序不是惯常操作,因为当分析双峰图(double trace,双迹)时的重要问题是,在每一个位置都存在两个碱基,通过仅示例峰图(the trace,踪迹)来辨别每一个碱基是来自哪个模板是不可能的。除了慎重地合并产生双峰图的模板之外,已知几种生物或生物技术情况会产生双 峰图。在通过RT-PCR扩增的转录产物的选择性剪接区域、直接测序(未克隆)和随机插入 突变实验中可观察到这些情况。已描述了几种追溯合并序列或双峰图的单倍体型的方法。Flot等(2006)描述了 提出用于找出个体的单倍体型的几种分子方法。例如,测序克隆的PCR产物(例如,Muir 等,2001)、SSCP (单链构象多态性)(Surmucks等,2000)、变性梯度凝胶电泳(DGGE) (Knapp 2005)、极端稀释DNA至单个分子水平(Ding & CantOr2003)和等位基因特异性PCR引物的应用(Pettersson等,2003)。此外还提出了几种用于序列混合物的单倍体型重建的计算方法。但是,所述的所有方法都是非常昂贵和消耗时间的,只适用于特定目的(例如,重 新测序、选择性剪接、序列长度不同的两种产物的模板或PCR扩增混合物、参考基因组序列 的可用性),而不是用于单倍体或二倍体样本的标准直接测序或完全未知序列的重新测序。遵循本发明描述的合并的序列模板的合并可应用于可在个体和合并样本中都获 得相同的序列片段的情况。这表明,例如鸟枪测序(随机剪切片段)不适合用于合并。在以上所提到的所有应用中,如果基于一定目的应用合并,则合并等量的模板 (样本、DAN、RNA或PCR产物)。在本文中,我们描述了合并不等量的模板。对于该实施例,只描述了池由2 个模板构成的情况,但是可以使用本发明以便对于二倍体生物以1 3、1 3 9、 1 31 32 3(n-D的比例和对于单倍体生物以1 2、1 2 4、1 21 22 2(n_1)的 比例构建2、3或η个个体的DNA(或PCR后产物)的池的情况。需要满足的一般条件是测序设备扫描模板(例如,荧光)并且得到的色谱图将DNA 模板的序列表示为间隔规律、高度相似的一系列峰。步骤1)单独对50个个体进行测序反应个体测序反应的数据被用于从所有碱基(或核苷酸)位置的峰面积和峰高度计算 校正因子。步骤2)对2个合并个体的25个池进行测序反应峰面积比被用于区别碱基和噪声峰处的第一峰和第二峰。第二峰是第一峰的一部 分,并且阈值被用于区别峰和噪声峰。合并测序反应的数据被用于从所有碱基(核苷酸)位置处的峰面积和峰高度计算 校正因子。步骤3)将步骤1和2的结果作图并建立回归线(计算回归系数和截距)。步骤4)构建DNA (或PCR后产物)的池对于二倍体生物以1 3、1 3 9、1 31 32 3(n_D的比例和对于单倍体生 物以1 2、1 2 4、1 21 22 2(n_D的比例构建2、3或η个个体的DNA的池。步骤5)以步骤1、步骤2和步骤3得到的校正因子,能够由池中得到的信号强度来 计算碱基判定(basecalling)。在该实施例中,显示了在每个碱基位置只有2个可能的核苷酸(A和C),但是相同 的原则可应用于作为遗传密码基础的4个可用的核苷酸中的2个的其他组合。“A”核苷酸 的平均峰高度被设定为100,而“C”核苷酸的平均峰高度被设定为75。基于这些峰高度,表 6中列出了对于两个单倍体样本池中的核苷酸的每一种可能的组合的相对峰高度。表7中 提供了由两个二倍体模板构成的池的相对峰高度。表6.合并的和未合并的单倍体个体的等位基因频率的结果点和核苷酸序列中的 随机位置的推导基因型 表7.合并的和未合并的二倍体个体的等位基因频率的结果点和核苷酸序列中的 随机位置的推导基因型 比较了本发明的合并方法与未合并情况,表8示出了减少的测序反应的数目。表8.当遵循本发明的方法合并2个个体时,减少的样本或测序反应的数目 实施例5使用可选的校正方法使用标准的1个50个个体的池和25个2个个体的池对二倍 体个体样本进行基因分型的实施例。该实施例描述了几个实验。步骤1)单独测试50个个体。与实施例1的步骤1相同,但是校正方法不同使用归一化的强度X和Y,而不是 Xraw 禾口 Yraw0使用X和Y计算第一校正因子⑷。K = avg (Χ/Υ)其中X是等位基因A(红色)的归一化强度,Y是等位基因B (绿色)的归一化强 度。由基因型为AB的个体基因分型的样本来确定该值。其他的校正系数AAavg和BBavg也是基于X和Y。AAavg是AA基因型的未校正的 等位基因频率的平均值。预期该值接近1。BBavg是BB基因型的未校正的等位基因频率的 平均值。预期该值接近0。使用以下的公式计算AAavg和BBavg:AAavg = (avg (X/ (X+Y)))和BBavg = (avg (X/ (X+Y)))也可根据实施例1的步骤1中的和Yraw计算所有的校正因子K、AAavg和 BBavg0如果50个个体中没有基因型AA,则AAavg被设定为1。同样,如果没有基因型BB, 则BBavg被设定为0。接下来的步骤是根据其中所有的50个个体都有结果的那些SNP的个体分型来计
算等位基因频率。步骤2)如实施例1中的步骤2来构建一个来自步骤1的所有50个个体的池。等位基因A的未校正等位基因频率被计算为归一化的红色强度(X)除以两个归一 化的强度(X+Y)之和的比。未校正的等位基因频率=X/(X+Y)(称为Raf)我们应用的等位基因频率的第一校正为校正的等位基因频率=X/ (Χ+Κ女Y)(称为Rafk)如果没有杂合基因型,可不计算K。在这种情况下,可应用以下的法则如果Raf <0.1,则Rafk被设定为0。
如果Raf > 0.9,则Rafk被设定为1。在所有其他的缺省K的情况下,Rafk被设定为等于Raf。当以归一化的强度X和Y开始时,不总是需要使用AAavg和BBavg进行归一化校 正。如果以)Craw和Yraw开始,可如实施例1的步骤2 —样应用使用AAavg和BBavg的归一化。如果应用归一化,则使用以下的公式;归一化的等位基因频率=(校正的等位基因频率-BBavg)/AAavg(称为Rafn)步骤3)我们比较了在步骤1中对个体分型计算的预期(expected)等位基因频率 和根据步骤2中对50个的池中的结果的观察(校正或未校正的)频率。我们使用以下模 型计算了回归系数;预期的等位基因频率=bl *观察到的频率+b2 *观察到的频率2+b3 *观察到的 频率3+b4 *观察到的频率4,无截距校正的频率(Rafk和Rafn)或未校正的频率(Raf)被用作以上公式中的观察到的频率。通过比较预期的与从该模型预计的等位基因频率,可得到最佳的校正方法(Rafk、 Rafn 或 Raf)。此后,最佳校正方法的回归系数会被用于校正步骤5a中的2个个体的池的等位基 因频率。步骤4)由50个个体以1 3的比例建立25个2个个体的DNA池。应注意,池中 的哪个个体使用了一次,而哪个个体使用了 3次。步骤5a)基于50个个体的池的结果的校正。以步骤1 (K,AAavg和BBavg)和步骤3 (回归系数bl、b2、b3和b4)中的得到的校 正因子,可从步骤4中构建的池中得到的信号强度来计算等位基因频率。首先使用步骤1 的校正因子K、AAavg和BBavg(根据步骤3得到的最佳校正方法)来计算Raf或Rafk或 Rafn0使用步骤3得到的多项回归系数来计算Rafc或Rafkc或Rafnc为预期的等位基因频率=bl ^观察到的频率+b2 ^观察到的频率2+b3 ^观察到的 频率3+b4女观察到的频率4,其中观察到的频率=Raf或Rafk或Rafn。以池中的两个个体,预测的校正的频率应该提供结果点0 %、12. 5 %、2 5. 0 %、 37. 5%、50. 0%、62. 5%、75. 0%、87. 5%和100%。四舍五入至最接近的结果点。两个个体 的基因型可来自于实施例1的表2中示出的结果。步骤5b)基于2个个体的池的结果的校正根据步骤4构建的池的信号强度和步骤1中得到的校正因子K、AAavg和BBavg来 计算 Raf、Rafk 和 Rafn。使用与步骤3相同的模型的多项回归系数,可根据20个池来计算实施例5。该模 型可被分别应用于每一个SNP或应用于所有的SNP。根据这些回归因子来预测另外5个池中的等位基因频率为Rafkc = bl * Rafk+b2 * Rafk2+b3 * Rafk3+b4 * Rafk4 (来自于 Rafk 的回归模 型)
21
Rafn = bl * Rafn+b2 * Rafn2+b3 * Rafn3+b4 * Rafn4 (来自于 Rafn 的回归模 型)Rafc = bl * Raf+b2 * Raf2+b3 * Raf3+b4 * Raf4 (来自于 Raf 的回归模型)。这可以以所有的样本用于预测一次的方式重复5次。然后将这些池中的预期等位 基因频率与预测的等位基因频率进行比较,从而发现最好的校正方法。以具有两个个体的池,预测的校正的频率应该提供结果点0 %、12. 5 %、25. 0 %、 37. 5%、50. 0%、62. 5%、75. 0%、87. 5%和100%。四舍五入至最接近的结果点。两个个体 的基因型可来自于实施例1的表2中示出的结果。步骤5c)基于2个个体的池的结果的校正。可通过使用基于以下模型的对于光强度的SNP (X或和Y和Yraw)的多元线 性回归系数来进行另一种方式的预测。预期的等位基因频率=bl * X+b2 * Y或预期的等位基因频率=bl * Xraw+b2 * Yraw。可以使用以下的公式利用这些多元线性回归因子来预测等位基因频率预测的等位基因频率=截距+bl * X+b2 * Y或预测的等位基因频率=截距+bl * Xraw+b2 * Yraw。如上所述,基于20个池来计算多元线性回归系数。然后根据这些回归系数来预测另外5个池的等位基因频率。这可以以所有的样本 用于预测一次的方式重复5次。然后将这些池中的预期等位基因频率与预测的等位基因频 率进行比较,从而发现最好的校正方法。例如在步骤5a和步骤5b中,两个个体的基因型可来自于实施例1的表2中示出 的结果。步骤6)由其他的个体样本以1 3的比例建立2个个体的DNA池。如步骤4需 注意,池中的哪个个体使用了一次,哪个个体使用了 3次。我们能够利用如所述的预测等位基因频率的最佳校正方法并利用实施例1的表2 从这些池得到基因型。实验1使用Infinium检测珠芯片技术(Illumina,Inc. USA)将实施例5中描述的方法应 用于全基因组SNP分析。使用18K Chicken SNP iSelect Infinium检测(Illumina Inc,USA)(其中 SNP均 勻分布在整个鸡基因组中)对50个个体进行基因分型(van As等,2007)。在Illumina的网 站上可找到检测、操作流程和芯片的详细信息(http://www. illumina. com/paRes. ilmn ? ID = 12)。为了检查频率是否被精确估算,将8个等位基因组合成一个池(来自50个独立基 因分型的个体中的4种不同动物)。除了不使用表2将预测的等位基因翻译成基因型之外, 进行实施例5中的步骤1至步骤3和步骤5。在步骤4中,合并4个个体的等摩尔量的DNA,而不是以1 3的比例合并2个个体的DNA。如果使用的是来自2种不同动物的1 3比例,我们就可以认为这是将8个等位 基因组合在一个池中。通过使用等摩尔量的4个个体,也可以组合8个等位基因。这样,就组成了 12个池,以及如步骤1中的一个50个动物的池(在4个池中使用 相同的样本加上2个额外的样本)。然后使用第二批infinium芯片对这13个池进行基因 分型。如实施例5的步骤1来计算每一 SNP的K、AAavg和BBavg。然后如实施例5的步骤2,计算50个动物的池的未校正和校正的等位基因频率。还如实施例5的步骤3计算多项回归系数。此外,如步骤5b和5c描述的,计算多项回归系数和多元线性回归系数。这是基于 11个池进行的,然后使用回归因子来预测其余的池中的等位基因频率。在该实验中,对X和Y(红色和绿色强度)的多元线性回归产生了最佳结果。最终 结果参见图4和表9。总共4. 6%的等位基因频率落入错误类别(wrong class)内。在以1 3的比例合并2个个体的池的情况下,会产生3. 0%的基因分型误差。表9.与预期等位基因频率按类别进行比较的预测等位基因频率的数目。对角线 上的数字会产生正确的基因型。对角线外但是在框中的等位基因频率会产生一个基因型误 差。其他的结果会产生2个基因型误差。 实验2使用Veracode检测技术(Illumina,Inc. USA)将实施例5中描述的方法应用于 SNP分析。使用96Chicken SNP Veracode,Golden Gate 检测(Illumina Inc,USA)(其中 SNP 均勻分布于整个鸡基因组中)(步骤1)来对50个个体进行基因分型。在Illumina的网站 上可找到检测、操作流程和芯片的详细信息(http://www. illumina. com/pages, ilmn ? ID =6)。还构建了一个所有样本的池(如步骤2)和比例为1 3的24个具有2个个体的 池(如步骤4)。以第二批的化学物质来基因分型这25个池。如实施例5的步骤1至步骤3描述的进行所有的校正。使用在步骤3中得到的多项回归因子,将步骤5a的校正应用于所有24个2个个体的池。对于步骤5b和5c,我们每次使用23个池来计算回归因子(步骤5b中的多项回归 因子和步骤5c中的多元线性回归因子)从而能够预测其余池的等位基因频率。我们总共 进行了 24次,所有的池都被使用了一次从而来预测等位基因频率。使用Rafk(根据归一化值X和Y计算)得到了最佳结果,然后使用得到Rafkc的 步骤5b的多项回归因子进行校正。在个体中总计召集(call) 了 84个SNP。而在某些个体上未召集某些SNP。我们 总计有1906个完整的池*SNP组合。表10.通过与预期等位基因频率按类别进行比较的预测等位基因频率的数目。对 角线上的数字会产生正确的基因型。对角线外但是在框中的等位基因频率会产生一个基因 型误差。其他的结果会产生2个基因型误差。 总共有 138(138/1906*100 ==7.2%)个错配(表10)。因为每次观察由2个个体
样本构成,这产生了 174个基因型误差(170/1906*2*100 = 4. 46% ),参见见表11、图5和 图6。确定该实施例中的最佳校正方法(如步骤3 (实施例5)和步骤5a、5b或5c (实施 例5)所进行的)的过程也提供了由于SNP错配数目的信息。这使得可以从系列中去除SNP 从而以降低检出率为代价降低了错误的风险。表11.校正的预计基因型的数目 实验3使用其他基因型分型方法将实施例5的方法应用于SNP分析。实施例5中描述的方法也可以用于任何其他基因分型方法中,除了实验1和实验 2中描述的方法,也可以使用如Affymetrix基因芯片(Affymetrix Inc, USA)或Agilent Technologies。实施例6本发明应用于如实施例4的测序方案,但使用其他的校正方法步骤1)单独对50个个体进行序列反应。使用等位基因1的峰高度和等位基因2的峰高度作为和Yraw值,或使用相 对峰高度作为χ和Y。等位基因1的相对峰高度为X = X/(X+Y),等位基因2的相对峰高度为Y = Y(Χ+Υ)。然后以与实施例5的步骤1的基因分型相同的方法来计算K、AAavg和Bbavg。步骤2)在一个所有50个个体的池中进行序列反应。如实施例5的步骤2来计算未校正和校正的等位基因频率。步骤3)从个体测序以及从池来计算频率。使用与实施例5的步骤3相同的模型得到多项回归系数。步骤4)进行25个具有2个合并个体的池的序列反应。步骤5a)将经校正的频率与基于所有50个个体的池的预期频率进行比较,从而得 到最佳方法。步骤5b)使用利用以下模型的其他20个池中得到的多项回归因子来计算具有2 个个体的5个池中的Rafnc、Rafkc和Rafc。预期的等位基因频率=bl女观察到的频率+b2女观察到的频率2+b3女观察到的 频率3+b4 *观察到的频率4,无截距步骤5c)使用利用以下模型的其他20个池中得到的多元线性回归系数来计算具 有2个个体的5个池的预测等位基因频率。预测的等位基因频率=截距+bl * X+b2 * Y或预测的等位基因频率=截距+bl * Xraw+b2 * Yraw
通过以所有的池被用于预测等位基因频率(确认)的方式通过重复步骤5b和5c 几次由步骤3和步骤5来确定最佳校正方法。如果需要的话,可使用用于确认的其他数目。例如,能够使用24个池来获得回归 因子,然后使用这些因子来进行预测。总共需要重复25次。通过最佳的校正方法和所需的校正因子和回归因子,可以预测新的池的频率并读 取表2中得到的等位基因。
权利要求
一种合并样本以分析分类变数的方法,其中,所述分析涉及分析物的定量测量,所述合并样本的方法包括提供n个样本的池,其中所述池中的个体样本的量为这样的,使得所述样本中的所述分析物以x0∶x1∶x2∶x(n 1)的摩尔比存在,并且其中x代表所述分类变数的类别数,其为2或更大的整数。
2.根据权利要求1所述的方法,其中,所述分析物是生物分子,而所述分类变数是所述 生物分子的变量。
3.根据权利要求2所述的方法,其中,所述生物分子是核酸。
4.根据权利要求3所述的方法,其中,所述变量是所述核酸的核苷酸多态性。
5.根据权利要求4所述的方法,其中,所述核苷酸多态性是SNP。
6.根据权利要求3所述的方法,其中,所述变量是特定核苷酸位置的碱基特征。
7.根据前述权利要求中任一项所述的方法,其中,所述定量测量包含仪器信号的强度、 峰高度或峰面积的测量。
8.根据权利要求7所述的方法,其中,所述仪器信号是荧光信号。
9.根据权利要求1-8中任一项所述的方法用于单倍体或多倍体个体的等位基因变量 的基因分型的应用,其中,所述分类变数的类别数(X)等于Ρ+1,其中P代表倍性水平。
10.根据权利要求9所述的应用,其中,对于二倍体个体中的等位基因变量的基因分 型,χ是3。
11.一种对多个样本进行分析的方法,包含根据权利要求1-8中任一项所述的方法合 并所述样本,从而提供合并样本并对所述合并样本进行所述分析。
12.—种对多个样本进行分析的方法,包括对通过权利要求1-8中任一项所述的方法 获得的一系列合并样本进行分析,其中对所述样本的分类变数进行分析,并涉及所述样本 中的分析物的定量测量。
13.根据权利要求12所述的方法,还包括从所述测量推断所述样本池中的所述个体样 本的贡献。
14.一种用于将多个样本合并为一个合并样本的合并装置,包括用于提供合并样本的 样本收集器,还包括实施根据权利要求1-8中任一项所述的方法的处理器。
15.一种分析装置,包括用于对通过权利要求1-8中任一项所述的方法获得的一系列 合并样本进行分析的处理器,其中,所述装置用于分析所述样本的分类变数以及用于实施 所述样本中的分析物的定量测量。
16.根据权利要求15所述的装置,还包括权利要求14所述的合并装置。
17.一种在其自身或载体上的计算机程序产品,当所述程序产品在计算机、编程计算机 网络或其他可编程设备上被加载并执行时,实施权利要求1-8中任一项所述的合并样本的 方法。
18.一种在其自身或载体上的计算机程序产品,当所述程序产品在计算机、编程计算机 网络或其他可编程设备上被加载并执行时,实施对多个样本进行分析的方法,所述方法包 括对通过权利要求1-8中任一项所述的方法获得的一系列合并样本进行分析,其中分析所 述样本的分类变数并涉及所述样本中的分析物的定量测量。
19.根据权利要求18所述的计算机程序产品,其中,所述方法还包括根据权利要求1-8 中任一项所述的合并步骤。
全文摘要
本发明涉及一种合并样本以分析分类变数的方法,其中该分析涉及分析物的定量测量,所述合并样本的方法包括提供n个样本的池,其中该池中的个体样本的量是这样的使得该样本中的分析物以x0∶x1∶x2∶x(n-1)的摩尔比存在,其中x代表分类变数的类别数,其为2或更大的整数。
文档编号C12Q1/68GK101910413SQ200880123442
公开日2010年12月8日 申请日期2008年10月31日 优先权日2007年10月31日
发明者安内米克·波拉·容格乌斯, 赫拉尔杜斯·安东尼厄斯·阿诺尔德斯·阿尔贝斯, 阿德里安乌斯·拉姆贝图斯·约翰纳斯·韦雷吉肯 申请人:亨德里克斯基因有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1