用于重复序列的核酸大小检测的方法与流程

文档序号:15234697发布日期:2018-08-21 20:18阅读:1514来源:国知局

发明领域

本公开涉及用于核酸分析的数据处理和计算注释系统和装置以及相应的方法。具体而言,本公开涉及对核酸的重复区测定大小的方法。

发明背景

包含核苷酸重复区(例如同聚物区、二核苷酸重复、三核苷酸重复、六核苷酸重复等)的遗传基因座在人或动物基因组中是常见的。富集gc(鸟嘌呤-胞嘧啶)含量的遗传基因座也是常见的,而已经报告和研究了具有at(腺嘌呤-胸腺嘧啶)富含含量的基因座。在一些情况下,富含gc或a/t的区域的扩充,或核苷酸重复的扩充可以与各种疾病状态有关。例如,位于x染色体上的脆性x智力低下-1基因(fmr1)的5’非翻译区(utr)中的cgg重复的扩充与脆性x综合征(fxs)和多种病症和表型有关。在大多数人中,三核苷酸cgg在fmr1基因的5’非翻译区(utr)中重复约5-44次(“cgg重复区”)。此区域中扩充至大于约45个cgg重复序列,特别是大于约200个cgg重复序列已经与fxs相关联。fxs表型可以包括智力低下、孤独症、焦虑和其它认知或行为状况。(j.mol.diag.10(6):496-501(2008))。同样,fmr2基因的5’utr中ccg三核苷酸重复区(“ccg重复区”)的扩充与x连锁智力障碍相关,特别是与脆性x综合征e(fraxe)相关。fraxe是x连锁智力低下的常见形式。在其它情况下,重复长度多态性与疾病状态有关。例如,tomm40基因的内含子6含有多聚-t重复区,并且已经报告在群体中显显示重复长度多态性(rs10524523)。已经报告tomm40多聚t大小与迟发型阿尔茨海默氏病以及老年人的认知表现有关(参见thepharmacogeneticsjournal10:375-3840(2010);andalzheimer’sanddementia9:132-136(2013))。此外,c9orf72基因中的内含子(g4c2)n六核苷酸重复扩充已经以约1/600频率在普通人群中观察到,,并且存在于全部肌萎缩侧索硬化(als)和额颞叶痴呆(ftd)病例的约10%中。少于30个重复认为是正常的,而致病性c9orf72扩充可以包括数百到数千个重复。因此,用于对患者基因型进行准确测量、测定大小和重建的方法可以有益于这些疾病和其它疾病的诊断和治疗。

用于评估包含核苷酸重复(例如fmr1和fmr2中的cgg和ccg重复序列)的序列的方法包括限制酶消化和聚合酶链式反应(pcr)策略。限制性消化分析可以提供重复区大小的粗略测量。然而,限制性消化分析在分辨率上可能受到限制,不容易检测到短中断(如cgg重复区内的agg中断),并且不能确定甲基化状态。

pcr策略可以在对重复区测定大小和重建各种基因型中提供更高的准确性。然而,在包含长重复序列的遗传基因座或含有富含gc或a/t的序列的遗传基因座的扩增和测序中存在限制,所述富含gc或a/t的序列阻碍重建这些基因座的基因型的能力。例如,已经尝试努力优化用于分析fmr1中cgg重复的pcr程序,并且包括对常规pcr测定的修改。(参见genomeres.6(7):633-8,(1996);j.mol.diag.8:544-550,(2006);和am.j.med.genet.51(4):527-34,(1994))。最近,已经开发了pcr技术,其允许具有超过200个cgg或ccg重复的基因组基因座的更可靠的扩增。

目前的工作流策略通常使用pcr与大小分辨技术,例如毛细管电泳。毛细管电泳改善了基于pcr的测定法的定量能力,以允许将dna产物的精确分辨率降至单碱基分辨率。为了便于dna产物的大小测定(sizing),通常使用外部标准校准品,例如使用合并的经染料标记的已知大小的dna片段,其跨越特定毛细管电泳应用的感兴趣的大小范围。然而,尽管通过应用这些标准品实现了使能(enable)能力,但此种方法有几个缺点,包括但不限于:i.商品化染料标记的dna梯的高成本;ii.通过对标准品梯使用专用染料通道导致的毛细管电泳多路复用降低,iii.大小测定不准确,其源自由pcr扩增分析物与标准dna之间的碱基组成或序列差异所致的电泳迁移率偏斜,从而需要使用定制的dna梯,其在大小测定,特别在重复无序pcr产物的大小测定的使用中可能是费力或使用无效的。此外,fmr1pcr和ce产物的片段大小分析由经过培训的操作人员手动进行,这对于大型样品集是费力的,并且会将不明确性和主观性引入其它方面简化的工作流中。

因此,本领域需要对重复区测定大小并重建与那些重复区有关的基因型的改善的方法,所述重复区也可以是富含gc或a/t的。本文公开的方法涉及在用于对一个或多个核苷酸重复区测定大小并从中重建基因型的基于扩增的方法中的,单独或与外部标准品组合的内部标准品的产生和使用。

附图简述

附图不一定按比例或详尽。相反,重点通常放在例示本文中所述的发明的原理上。并入本说明书并构成本说明书的一部分的附图显示了与本公开一致的几个实施方案,并且与说明书一起用来解释本公开的原理。在附图中:

图1描绘了用于基因型峰大小测定的系统的示例性高级表示。

图2描绘了用于自动分析基因组重复区的示例性过程。

图3a描绘了用于生成外部大小测定标准品的示例性外部大小测定梯。

图3b描绘了示例性外部大小测定标准品。

图4a描绘扩增产物梯的示例性通道。

图4b描绘了使用重复概况来生成内部大小测定标准品。

图5描绘了用背景模型和动态阈值注释的示例性重复概况。

图6a描绘了显示(n,n+1)基因型的杂合女性的示例性重复区。

图6b描绘了示例性扩充重复区。

图7a-7c描绘具有不同质量控制问题的样品。图7a描绘了具有较差的rox梯的样品。图7b描绘了具有较差的pcr扩增的样品。图7c描绘了具有污染峰的样品。

图8描绘了用于基因型峰大小测定的示例性计算系统。

图9描绘了根据实施例1中描述的某些实施方案的实验设计的示意图。

图10描绘了重复峰定位用于对基因特异性产物测定大小的过程的图示。可以使用每个重复的预期位置产生用于大小测定的校正曲线,作为独立的大小测定梯或者作为对外部大小测定标准品的片段迁移率校正。

图11描绘了与深灰色的1106份样品的验证数据集中的基因型分布相比浅灰色的一般群体中fmr1基因型的分布。

图12描绘了使用内部衍生的大小测定梯和从称为rox梯(rox100大小梯,asuragenp/n:145194)的外部大小测定标准品衍生的大小测定梯测定的重复区长度之间的一致性。

图13描绘了在临床组中评估的主要等位基因的手动和自动化大小测定之间的比较。

图14a和14b描绘了详述算法对基因特异性产物的分析灵敏性的图。箭头指示通过自动化大小测定生成的呼叫(calls)。图14a描绘了另外的基因特异性产物的检测。图14b描绘了低丰度扩充等位基因的检测。

图15a和15b描绘了详述fmr1基因型范围间的测定法的分析灵敏性的图。箭头指示通过自动化大小测定生成的呼叫。图15a描绘了正常样品。图15b描绘了具有次要等位基因的前突变(premutation)样品。

图16显示了示例性测定法和软件组件的图。

图17描绘了外部梯,描绘了某些测定法的rox概况(profile)。

图18a和18b描绘了测试大的(n=1106)临床样品组的自动大小测定分析的结果。

图19a和19b描绘了多仪器rush输入量测试的结果。

图20a和20b描绘了人工次要等位基因输入滴定测试的结果。

图21a和21b描绘了rush样品滴定测试的结果。

图22a和22b描绘了具有正常基因型的样品的自动大小测定分析的示例性结果。

图22c和图22d描绘了具有前突变基因型的样品的自动大小测定分析的示例性结果。

图23a和23b描绘了扩充样品的自动大小测定分析的示例性结果。

图23c和23d描绘了低级次要等位基因鉴定和大小测定的示例性结果。

图24描绘了具有贯穿正常、排列(permutation)和扩充基因型范围的基因型混合物的对照样品的自动大小测定分析的示例性结果。

图25a和图25b描绘了对照样品的自动大小分析的示例性结果,所述对照样品包含95%排列样品(permutationsample)的背景中5%完全突变样品的混合物。图25a描绘了包括所有呼叫的基因型的完全样品,而图25b描绘了显示完全突变呼叫的放大形式。

发明详述

现在将详细参考根据本公开的某些示例性实施方案,其中的某些实例在附图中显示。

本文中使用的章节标题仅用于组织目的,并且不应解释为限制所描述的主题。本申请中引用的所有文件或文件的部分,包括但不限于专利、专利申请、文章、书籍和论文在此明确通过引用完整并入用于任何目的。在通过引用并入的出版物和专利或专利申请与包含在说明书中的发明相矛盾的情况下,说明书将取代任何矛盾的材料。

为了帮助理解本发明,首先定义了某些术语。贯穿整个说明书提供了另外的定义。

当在权利要求书和/或说明书中与术语“包含”一起使用时,使用词语“一个”、“一种”或“该/所述”可以指“一个/种”,但是它也与“一个/种或多个/种”、“至少一个/种”和“一个/种或超过个/种”的意义一致。

在本申请中,除非另有特别说明,否则单数的使用包括复数。还有,在本申请中,除非另有说明,否则使用“或”意味着“和/或”。此外,术语“包括”以及其它形式的使用不是限制性的。本文中所描述的任何范围应当理解为包括端点和端点之间的所有值。

如本文所用,术语“富含a/t”、“a/t丰度”和“富含a/t的重复区段”指以下定义的同聚物区段或包含(tna)m、(atn)m、(tan)m、或(ant)m的区段,其中n为2或更大并且m使得富含a/t的重复区段的长度为10个或更多个残基。n的数值不需要在整个区段中是恒定的。因此,富含a/t的重复区段的实例包括aataataataat、aataaataat、aaataaaaat、aataaaaaat等。关于包含(tna)m、(atn)m、(tan)m或(ant)m的区段,在一些实施方案中,n是范围为2到10的值。在一些实施方案中,n是范围为3到10的值。在一些实施方案中,n是范围为4到10的值。在一些实施方案中,n是范围为2到8的值。在一些实施方案中,n是范围为3到8的值。在一些实施方案中,n是范围为4到8的值。在一些实施方案中,n是范围为2到6的值。在一些实施方案中,n是范围为3到6的值。在一些实施方案中,m是范围为2到20的值。在一些实施方案中,m是范围为3到20的值。在一些实施方案中,m是范围为4到20的值。在一些实施方案中,m是范围为2到15的值。在一些实施方案中,m是范围为3到15的值。在一些实施方案中,m是范围为4到15的值。在一些实施方案中,m是范围为2到10的值。在一些实施方案中,m是范围为3到10的值。在一些实施方案中,m是范围为4到10的值。在一些实施方案中,m是范围为2到8的值。在一些实施方案中,m是范围为3到8的值。在一些实施方案中,m是范围为4到8的值。在一些实施方案中,富含a/t的重复区段的长度在约10至约60个残基的范围中。在一些实施方案中,富含a/t的重复区段的长度在约10至约40个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约15至约40个连续残基的范围内。在一些实施方案中,重复的富含a/t的区段的长度在约20至约40个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约5至约50个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约10至约50个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约15至约50个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约20至约50个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约5至约60个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约10至约60个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约15至约60个连续残基的范围内。在一些实施方案中,富含a/t的重复区段的长度在约20至约60个连续残基的范围内。除非另有说明,否则如下段解释,富含a/t的重复区段可以包含中断(interruption)。在一些实施方案中,富含a/t的重复区段不包括中断。

如本文所用,当荧光标记的pcr产物以足够强度发荧光以在重叠荧光频率发射带中产生显著信号时发生“渗出(bleed-over)”,所述重叠荧光频率发射带在逻辑上归属于不同标记的pcr产物。当不同通道的荧光检测器具有重叠的光谱灵敏性时可以出现此种渗出。此种渗出可以卷积多重反应中检测特定通道的天然产物的过程。例如,hex通道中的pcr产物可以以足够强度发荧光以影响rox通道中记录的信号强度。

如本文所用,“富含gc”、“gc丰度”和“富含gc的重复区段”指包含g或c核苷酸的以下定义的同聚物片段,或包含g和c核苷酸的重复模式的区段。包括cgg重复、ccg重复、ggggcc重复和任选的散在的agg中断。核酸或该核酸的片段中作为鸟嘌呤残基、胞嘧啶残基或其类似物的总核碱基残基的分数或百分比定义丰度。例如,含有恰好30个胞嘧啶、恰好30个鸟嘌呤、恰好1个胞嘧啶类似物和恰好1个鸟嘌呤类似物的100个核苷酸的序列具有62%的gc丰度。在一些实施方案中,“富含gc的”核酸或核酸区域是含有超过约50%鸟嘌呤残基、胞嘧啶残基或其类似物(例如,超过约50、51、55、60、65、70、75、80、85、90、95、96、97、98、99、或99.5%鸟嘌呤残基、胞嘧啶残基或其类似物,或其间的任何百分比)的。

如本文所用,术语“同聚物区段”指包含串联重复的核苷酸如g、c、a、t或u的核酸区段。

除非另外指明,否则同聚物区段、富含gc的重复或富含a/t的重复可以包含其它方面连续或重复的一系列核苷酸中的中断。中断可以是与构成该系列的其它核苷酸不同的任何数目的核苷酸。在一些实施方案中,中断是单核苷酸。包含中断的同聚物区段的实例是第一数目的t残基,然后是1个c残基,然后是第二数目的t残基。

包含中断的同聚物区段的实例是第一数目的u残基,然后是1个c残基,然后是第二数目的u残基。包含中断的同聚物区段的另一个实例是第一数目的a残基,然后是1个g残基,然后是第二数目的a残基。前述实例中a、t或u残基的第一和第二数目可以在例如5至10的范围内。在一些实施方案中,前述实例中a、t或u残基的第一和第二数目在6至10的范围内。在一些实施方案中,前述实例中的a、t或u残基的第一和第二数目在7至10的范围内。在一些实施方案中,上述实例中a、t或u残基的第一和第二数目在8至10的范围内。在一些实施方案中,上述实例中a、t或u残基的第一和第二数目在9到10的范围内。或者,同聚物区段可以包含连续的一系列核苷酸(其不被中断)。

如本文所用,“核酸”是已经从受试者分离和/或为其寻求重复区的大小测定的任何连续核碱基残基或类似物。核酸可以包含从受试者分离的基因、基因片段或基因组区域。如本文所用,“基因型”是或包含核酸的核碱基序列。

如本文所用,“峰位置”可以是斜率将符号从正改变为负的信号的指数。可以在不背离所设想的系统和方法的情况下使用峰位置的其它定义。例如:

f(x,c)=δ1sgn(δ1s(x,c))

p(c)={x|x,f(x,c)=-2∧s(x,c)>50}

这里,s(x,c)表示仪器通道c的指数x处的信号强度,f(x,c)是信号强度的一阶导数的符号的导数,并且p(c)代表通道c中的所有指数的组,对此f(x,c)等于-2。

如本文所用,“峰肩”可以是距信号强度超过幅度阈值的峰位置最近的点。此幅度阈值可以是高于平均值的两个标准差。在一些实施方案中,可以在包括峰肩的信号区间内计算标准差和平均值。左峰肩可以是具有比峰位置更低的指数的峰肩,而右峰肩可以是具有比峰位置更高的指数的峰肩。在其它实施方案中,可以通过将统计分布拟合到峰来鉴定峰肩,其中将肩归入分布的尾端(由百分位数截留定义)处的位置。在其它实施方案中,可以使用峰区域的一阶导数来鉴定峰肩,其中将肩归入一阶导数的绝对值低于阈值的位置。

如本文所用,“重复区”或“核苷酸重复区”指包含长度为1-20个核碱基残基的重复序列的核酸或核酸区域(例如同聚物、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸序列等),其中短序列重复2次或更多次(例如,2、3、4、5、10、15、20、50、100、200、500或更多次重复)。例如,核苷酸重复将包括核酸区域,其中短序列诸如cgg、ccg、ggggcc重复两次或更多次。重复区可以是同聚物,例如a或t核苷酸段,并且重复区可以包括中断或重复变体。核酸或核酸区域可以(但不需要)是重复和富含gc的区域两者,或者重复和富含at的区域两者。例如,核酸或核酸区可以包含鸟嘌呤残基、胞嘧啶残基或其类似物的二、三、四、五或六核苷酸重复。

核酸可以包含含有一个或多个中断的一个或多个核苷酸重复区、富含a/t的区域或富含gc的区域。如本文所用,核酸中的“中断”指核酸中与重复模式不一致,或者在富含gc的区域中包含除g或c(或其类似物)以外的核碱基的一个或多个核碱基残基或类似物的存在。例如,富含gc的核苷酸重复区可以涵盖包含40个cgg三核苷酸重复的序列,其中两个agg序列散布在40个cgg重复序列内。

如本文所用,“信号强度”在本文中以“相对荧光单位”或rfu表示,但是可以在不背离所设想的系统和方法的情况下使用其它荧光测量。

如本文所用,术语“模板”指与引物相互作用以在核酸合成反应中延伸的核酸。

i.对重复区测定大小并重建基因型

图1描绘了用于基因型峰大小测定的系统100的示例性高级表示。系统100可以包括pcr装置110、毛细管电泳(ce)装置120、注释装置130和实验室信息管理系统140。pcr装置110可以包括本领域技术人员熟悉的pcr仪器。例如,pcr装置可以包括热循环。作为非限制性实例,可以使用abi型号9700热循环仪。pcr装置110可以配置为扩增核酸样品的重复区。

ce装置120可以包括本领域技术人员熟悉的ce装置。例如,可以使用abi型号3100、3130、3730或3500ce装置。ce装置120可以配置为进行高分辨率片段分析。在一些实施方案中,ce装置可以用于通过大小分离扩增片段。在一些实施方案中,ce装置可以用于生成扩增产物梯。在其它实施方案中,ce装置可用于通过按大小分离扩增片段来产生扩增产物梯度。在某些实施方案中,ce装置用于获得重复区大小测定信息。ce装置120可以配置为提供指示此扩增产物梯度的输出。在一些实施方案中,此输出可以包括文件中的一个或多个通道。文件可以是.fsa文件,或者本领域技术人员已知的类似文件。

注释装置130可以包括专门建立的计算装置、桌面(desktop)、工作站、一体式系统(all-in-onesystem),计算机簇(computercluster)、终端、主机、移动计算装置或其它计算装置。注释装置130可以是独立的;或者可以是子系统的一部分,所述子系统可以是更大系统的一部分。例如,注释装置130可以包括远程定位的分布式服务器并且通过公共网络或专门的专用网络进行通信。在一些实施方案中,注释装置130可以至少部分作为云计算基础设施上的虚拟系统实现。与所公开的实施方案一致,注释装置130可以包括配置为存储数据和/或软件指令的一个或多个存储装置或与该存储装置通信。存储的数据和/或软件指令可以包括一个或多个软件程序。例如,存储的数据和/或软件指令可以包括分析软件。注释装置130可以进行该分析软件以进行与所公开的实施方案一致的一个或多个方法。在某些方面,注释装置130可以从注释装置130远程地执行该分析软件。例如,注释装置130可以访问一个或多个远程装置以执行存储的分析软件。在某些实施方案中,注释装置130可以基于分析软件的存储、执行和/或实现而配置为特定装置或系统。注释装置130可以配置为与系统100的其它组件,诸如ce装置120和实验室信息管理系统140通信。注释装置130可以使用以太网、firewire、usb、rs-232、scsi、wlan、蓝牙或类似的接口与系统100的这些组件进行通信。

注释装置130可以配置为对重复基因组区域测定大小。此大小测定可以自动进行。例如,注释装置130可以配置为生成fmr1大小测定结果。注释装置130可以采用信号处理、统计学和机器学习技术的组合来对重复基因组区域测定大小,和/或鉴定基因产物位置。注释装置130可以配置为输出此分析的结果,和/或此分析的中间步骤。注释装置130可以配置为将这些指标输出到实验室信息管理系统140或显示器、打印机、存储装置或另一系统。

实验室信息管理系统140可以包括专用计算装置、桌面、工作站、一体式系统、计算机簇、终端、主机、移动计算装置或其它计算装置。实验室信息管理系统140可以是独立的;或者可以是子系统的一部分,所述子系统可以是更大系统的一部分。例如,实验室信息管理系统140可以包括远程定位的分布式服务器,并通过公共网络或专门的专用网络进行通信。在一些实施方案中,实验室信息管理系统140可以至少部分地作为云计算基础设施上的虚拟系统实现。与所公开的实施方案一致,实验室信息管理系统140可以包括配置为存储数据和/或软件指令的一个或多个存储装置或与该存储装置通信。存储的数据和/或软件指令可以包括一个或多个软件程序。实验室信息管理系统140可以执行存储的一个或多个软件程序以进行与所公开的实施方案一致的一个或多个方法。在某些方面,实验室信息管理系统140可以从实验室信息管理系统140远程地执行存储的一个或多个软件程序。例如,实验室信息管理系统140可以访问一个或多个远程装置以执行存储的一个或多个软件程序。在某些实施方案中,实验室信息管理系统140可以基于软件指令的存储、执行和/或实现而配置为特定装置或系统。实验室信息管理系统140可以配置为与系统100的其它组件诸如ce装置120和注释装置130通信。实验室信息管理系统140可以使用以太网、firewire、usb、rs-232、scsi、wlan、蓝牙或类似的接口与系统100的这些组件进行通信。

实验室信息管理系统140可以配置为管理样品和相应的数据。在其它方面,实验室信息管理系统140可以用于使工作流自动化。在一些实施方案中,实验室信息管理系统140可以配置为执行样品管理器实验室信息管理系统、watson实验室信息管理系统、nautilus实验室信息管理系统或临床实验室信息管理系统。本领域的技术人员容易知道适当的实验室信息管理系统。实验室信息管理系统140可以配置为接收关于基因组样品的信息。实验室信息管理系统140可以从注释装置130、存储装置或另一系统接收该信息。实验室信息管理系统140可以配置为安排该信息以供存储和显示给相关的临床从业人员。

如本领域技术人员将认识到的,图1中描绘的装置的特定布置不旨在是限制性的。例如,系统100可以包括额外的装置或更少的装置。类似地,系统100的各个装置的功能可以在多个装置间分布,并且由系统100的不同装置进行的多个功能可以由单个装置进行。

系统100可以配置为进行对重复区测定大小以及任选地重建基因型的以下方法。在一些实施方案中,重复区的大小分析可以包括扩增重复区并使用扩增产物来测定重复区大小。在某些实施方案中,扩增核酸的重复区,获得扩增产物梯度。扩增产物梯可以在对重复区测定大小中用作内部标准品。在一些实施方案中,使用内部标准品而没有任何外部标准品。在其它实施方案中,内部标准品与外部标准品结合使用。在一些实施方案中,外部标准品可以是荧光标记的dna梯,例如rox大小标准品。在更具体的实施方案中,rox大小标准品可以是rox1000大小梯(asuragenp/n:145194)。重复区的扩增模式可以用于对重复区测定大小。熟练技术人员将理解扩增产物梯具有可用于对重复区测定大小的某些特征,如重复概况、重复元件周期性、第一扩增产物、扩增产物计数和/或恒定元件长度。在某些实施方案中,大小测定信息可以用于产生重建基因型、诊断患者的病症、或诊断患者后代的病症风险,或用于治疗患有与扩充重复区有关的病症的患者。

在各种实施方案中,对重复区测定大小的方法包括扩增包含重复区的核酸或部分以产生一系列扩增片段。扩增片段可以具有对应于在特定片段中扩增的重复单元的数目的不同长度。在其它实施方案中,未扩增包含重复区的核酸或部分,而是直接分离和片段化以用于进一步分析。在一些实施方案中,通过大小分开扩增片段(或未扩增的片段),例如使用大小分辨率技术,如高分辨率片段分析,例如使用基因分析仪、微芯片分析仪(如生物分析仪)、毛细管电泳或用于分析梯的扩增片段的另一种高分辨率方法的分析。例如,可以使用毛细管电泳。在某些实施方案中,可以使用微芯片电泳,例如生物分析仪。在各种实施方案中,使用高分辨率片段分析来产生扩增产物梯度,例如通过评估对应于毛细管电泳电泳图中不同重复数目的扩增产物的峰。在一些实施方案中,可以使用单独的重复单位的已知长度来将重复单位的梯转化为指示核苷酸碱基对(bp)长度的梯。例如,包含重复单元的核酸区域的扩增和毛细管电泳将导致长度相差三个核苷酸的单位的扩增片段的梯,允许使用扩增产物梯的参数信息将梯转化为核苷酸长度的量度。在一些实施方案中,使用梯来对感兴趣的核酸中重复区测定大小。在一些实施方案中,使用梯来测定包含重复区的核酸的其它部分的大小或在产生梯的相同反应中扩增的其它感兴趣核酸的大小。在一些实施方案中,使用重复区大小来重建基因型。在某些实施方案中,也鉴定额外的参数,如距重复区中任何中断的正向和反向方向上的距离(例如,自毛细管电泳电泳图)并与重复区大小一起用于重建基因型。在某些实施方案中,在扩增产物梯中检测到重复序列中的中断。

在各种实施方案中,本文公开了用于对重复区,例如富含gc或富含a/t的区域测定大小和/或表征的方法和/或重建包含重复区的基因型的方法。例如,可以使用本文公开的方法来对来自包含cgg重复或ccg重复的核酸或其片段中的重复区测定大小。可以使用本文公开的方法来对来自包含富含a/t区段诸如同聚物区段的核酸或其片段的重复区测定大小。可以将大小测定方法与测定重复区中的中断的方法,以及基于大小测定(单独或与其它参数结合,诸如距重复区中的任何中断的正向和反向方向上的距离)重建基因型的方法结合使用。

在一些实施方案中,可以使用方法来对从受试者分离的fmr1或fmr2基因或其片段或fmr1或fmr2的5’utr或其片段的重复区测定大小。在某些实施方案中,使用本文公开的方法来帮助重建来自受试者的样品中的fmr1基因的基因型,包括cgg重复模式以及fmr1的5’utr内的agg中断和/或甲基化的位置和构造。在其它实施方案中,可以使用本文公开的方法来帮助重建fmr2的基因型,包括ccg重复模式,如同fmr1。在其它实施方案中,使用本文公开的方法来帮助对tomm40的重复区测定大小。在其它实施方案中,使用方法来帮助对c9orf72的重复区测定大小。

在一些实施方案中,使用本文公开的方法来测定来自患者样品的核酸或其片段的重复区的大小,其中核酸具有至少一个重复区或富含gc或a/t的区域,以及其中来自患者父母中至少一名的相关基因型是未知的。在一些实施方案中,从患者样品分离包含重复区的感兴趣核酸或部分。各种分离和纯化方法是已知的并且可以使用。在某些实施方案中,使用本文公开的方法来测定cgg或ccg重复区(例如来自患者样品的fmr1或fmr2的)的大小。在某些实施方案中,使用本文公开的方法来测定六聚体重复,例如来自患者样品的c9orf72的ggggcc重复的大小。在某些实施方案中,使用本文公开的方法来测定同聚物重复,例如来自患者样品的tomm40的多聚-t重复区的大小。在一些实施方案中,来自患者父母中的至少一名的相关基因型,例如fmr1、fmr2、c9orf72、或tomm40基因型是未知的。

在某些实施方案中,用于对核酸样品的重复区测定大小的方法包括提供来自患者的样品,其中所述样品含有具有一个或多个重复区或富含gc或富含at的区域的核酸或其片段。在一些实施方案中,收集表征核酸的信息(即“参数信息”)。在一些实施方案中,参数信息包括从扩增产物梯度获得的特征,包括重复概况、重复元件周期性、第一扩增产物、扩增产物计数和/或恒定元件长度。在一些实施方案中,重复概况是在电泳图中观察到的峰的模式。在一些实施方案中,扩增产物是通过使用所选引物扩增重复区产生的片段的伸展。在一些实施方案中,从参数信息计算重复区的总长度。在一些实施方案中,生成附加参数信息,例如关于感兴趣区域的gc丰度或a/t丰度的百分比的信息,和/或距重复或富含gc或富含a/t的区域中的任何中断的正向和反向方向上的距离。在一些实施方案中,使用包括编程为进行自动化分析的处理器的装置来自动分析所收集的信息。在某些实施方案中,可以通过手动分析基因型以确认其与参数信息一致或通过进行任何其它确认测定(例如限制酶消化、sanger测序或其它高通量测序形式)评估大小测定解析(sizingsolution)或解析基因型(solutiongenotype)的准确性。在一些实施方案中,大小测定解析或解析基因型可以电子显示或存储在计算机上或可以打印用于随后的诊断和治疗目的。

在某些实施方案中,可以使用重复区的大小测定来检测突变或基因型,或诊断或辅助诊断与重复区中的突变相关的病症或该病症的风险,例如fmr1、fmr2、c9orf72或tomm40相关的突变、基因型或病症。

在各种实施方案中,可以使用任何合适的方法(例如扩增和高分辨率片段分析)获得表征核酸的重复区的大小测定信息。在某些实施方案中,大小测定信息(例如,参数信息的亚组,表征核酸的信息)包括涉及扩增产物梯的重复概况、重复元件周期性、第一扩增产物、扩增产物计数和/或恒定元件长度。在一些实施方案中,参数信息中包括重复区的总长度以及从重复区的开始到第一个或后续中断的正向和反向反向上的距离。在一些实施方案中,提供了装置,其包括处理器,该处理器编程为分析参数信息并对重复区测定大小,并且任选地从信息中重建基因型。在某些实施方案中,使用装置以从表征核酸的信息重建核酸的基因型。在一些实施方案中,装置评估扩增产物梯中的每种产物的大小。在一些实施方案中,所有可能的基因型重建基于重复区的长度以及正向或反向方向的中断来选择满足所有参数信息的重建(例如,在正向和反向方向两者上以正确位置放置中断的基因型)。在某些实施方案中,装置提供重建基因型的报告,该报告可以显示在显示器上,以数字方式保存以供将来使用,或以纸记录打印。

在各种实施方案中,可以使用本领域已知的任何方法获得关于核酸的参数信息,只要其包括关于适合于对核酸测定大小的扩增产物梯的信息。在一些实施方案中,参数信息包括涉及扩增产物梯的重复概况、重复元件周期性、第一扩增产物、扩增产物计数和/或恒定元件长度。可以使用位点特异性切割核酸的限制酶来分析重复区,从而生成参数信息。例如,可以通过用限制酶ecii(newenglandbiolabsinc.,ipswich,ma,usa)消化核酸来检测fmr1的cgg重复段内agg中断的存在。可以使用限制酶来产生消化产物的梯,其可以用于大小测定。在其它实施方案中,可以使用扩增方法来产生必要的信息。例如,限制性消化和/或pcr方法可以与从患者分离的fmr1或fmr2基因或其片段一起用于测定一个或多个cgg或ccg重复区。

国际公开号:wo/2014/015273中公开的方法通过引用整体并入本文,包括在出版物中公开的pcr和毛细管电泳方法,用于分析重复区,获得参数信息,包括重复大小和距重复区中的任何中断的正向和反向方向上的距离。

在一些实施方案中,适合于扩增重复区以产生扩增产物的方法包括聚合酶链式反应(pcr)、实时pcr(rt-pcr)、核酸序列-碱基扩增(nasba)、连接酶链式反应、多重可连接探针扩增、入侵技术(thirdwave)、滚环扩增、体外转录、链置换扩增、转录介导扩增(tma)、rna(例如eberwine)扩增、环介导等温扩增或任何其它本领域技术人员已知的方法。例如,可以使用cgg接头引物和人fmr1pcr试剂盒(asurageninc.,austin,tx,usa)的双层pcr方法产生fmr1重复区扩增。参见tassoneetal.,jmoldiagn.10(1):43-49(2008);chenetal.,jmoldiagn.12(5):589-600(2010);yrigollenetal.,plosone6(7):e21728(2011)。例如,可以如下分析包含至少一个富含gc的区域的核酸:(a)提供至少两种pcr引物,所述pcr引物包括包含cgg、ccg、gcg、cgc、gcc、或ggc重复的第一引物和与富含gc的区域外的位置退火的第二引物;(b)用至少两种不同的引物对核酸进行pcr,其中pcr产生一组pcr产物;(c)用高分辨率技术(如毛细管电泳)解析pcr产物组以产生pcr产物大小和丰度的表示;(d)从pcr产物大小和丰度信息中推导出富含gc的区域的长度以及富含gc的区域内是否或者在哪里存在中断。

在各种实施方案中,分析pcr扩增的核酸以获得重复区大小测定信息,例如使用高分辨率片段分析仪,诸如本领域技术人员熟悉的毛细管电泳(ce)仪器,诸如abi型号3100、3130、3730或3500ce仪器(appliedbiosystems,carlsbad,ca)。也可以使用其它实施方式,包括能够电泳或以其它方式对扩增的核酸进行大小测定和/或测序的任何仪器。也可以使用任何其它收集大小测定和其它参数信息的方法(例如,sanger测序或其它形式的高通量测序)。用于分析fmr1基因或其片段的各种技术(如美国公开号2010/0209970、2010/0243451、和2012/0107824中描述的pcr法)常常产生在长度上以重复间隔分开的扩增产物梯。例如,可以使用美国专利公开号2010/0243451中描述的方法来产生重复区大小测定和基因型重建以表征fmr1和fmr2或其片段的5’utr中的cgg和ccg重复基因座,包括在[0040]-[0051]、[0056]-[0060]、[0065]-[0067]、[0089]、[0094]和[0104]段中公开的引物、聚合酶、试剂和反应条件,其在此通过引用并入。另外,美国公开号2010/0209970、2010/0243451、和2012/0107824描述了用于分析富含gc的区域的pcr方法和试剂其在此通过引用整体并入。

例如,在一些实施方案中,可以使用在重复区外退火的引物以及与序列(gcg、ccg、cgc、gcc或ggc)的重复序列、序列排列或反向互补序列退火的引物产生fmr1和fmr2参数信息。可以在重复区外(上游或下游)退火的引物可以是正向或反向引物。引物可以与重复区侧翼的序列退火。正向引物的实例包括cggtggagggccgcctctgagc(seqidno:1),caggcgctcagctccgtttcggttt(seqidno:2),cagtcaggcgctcagctccgtttcg(seqidno:3),tccggtggagggccgcctctgagc(seqidno:4),ggttcggcctcagtcaggcgctcagctccgtttcg(seqidno:5),gggttcggcctcagtcaggcgctcagctccgtttcg(seqidno:6),gcgggccgggggttcggcctcagtca(seqidno:7),cagcgggccgggggttcggcctcag(seqidno:8),gcagcgggccgggggttcggcctca(seqidno:9),gggccgggggttcggcctcagtcag(seqidno:10),ggggttcggcctcagtcaggcgctca(seqidno:11),ggggttcggcctcagtcaggcgctcag(seqidno:12),ggcgctcagctccgtttcggtttcacttcc(seqidno:13),tcaggcgctcagctccgtttcggtttca(seqidno:14),cacttccggtggagggccgcctctga(seqidno:15),ttccggtggagggccgcctctgagc(seqidno:16),和tcaggcgctcagctccgtttcggtttcacggcggcggcggcgga(seqidno:44)。反向引物的实例包括cgcacttccaccaccagctcctcca(seqidno:17),ggagcccgcccccgagaggtg(seqidno:18),gggagcccgcccccgagaggt(seqidno:19),cgcacttccaccaccagctcctccat(seqidno:20),cgggagcccgcccccgagaggtg(seqidno:21),ccgggagcccgcccccgagaggt(seqidno:22),ccgggagcccgcccccgagaggtg(seqidno:23),cgccgggagcccgcccccgagaggtg(seqidno:24),gcgccgggagcccgcccccgagaggt(seqidno:25),cgccgggagcccgcccccgagaggt(seqidno:26),gcgccattggagccccgcacttccacca(seqidno:27),gcgccattggagccccgcacttcca(seqidno:28),agcgccattggagccccgcacttcc(seqidno:29),cgccattggagccccgcacttccac(seqidno:30),ttggagccccgcacttccaccacca(seqidno:31),agccccgcacttccaccaccagctcctc(seqidno:32),gagccccgcacttccaccaccagctcct(seqidno:33),cattggagccccgcacttccaccaccag(seqidno:34),cccgcacttccaccaccagctcctccatct(seqidno:35),tagaaagcgccattggagccccgcacttcc(seqidno:36),aagcgccattggagccccgcacttcc(seqidno:37),aagcgccattggagccccgcacttccccgccgccgccgccg(seqidno:43),和aagcgccattggagccccgcacttccccgccgccgccgcct(seqidno:45)。

在一些实施方案中,fmr1和fmr2测定法可以使用引物tcaggcgctcagctccgtttcggtttcacttccggt(seqidno:38),agcgtctactgtctcggcacttgcccgccgccgccg(seqidno:39),tcaggcgctcagctccgtttcggtttca(seqidno:40),和tcaggcgctcagctccgtttcggtttcacggcggcggcggcgg(seqidno:41)。方法可以另外涉及使用引物,所述引物包含seqidno1-38或40中任一的序列,并且包含附加于3’端的cgg或其排列和反向互补物(例如,gcg、ccg、cgc、gcc或ggc)的额外重复。在一些实施方案中,引物中cgg重复或排列的数目是4或5。在一些实施方案中,引物含有延伸12-15个核苷酸或更多的cgg重复(或其排列)的序列。在一些实施方案中,引物含有范围为3到10个重复的cgg重复(或其排列)的序列。引物可以含有3、4、5、6、7、8、9或10个重复,并且任选地含有1或2个c和/或g残基的额外部分重复。

在一些实施方案中,与重复区或富含gc的区域退火的引物对于包含中断物(interruptor)元件的区域中的位点具有优先结合活性。优先结合至中断物元件的位点可以导致至少一种包含中断物元件的产物的选择性扩增,例如,通过使用pcr反应中的引物与反向定向的第二引物,所述第二引物在重复区或富含gc的区域外结合。例如,对于包含cgg和agg元件,或其排列和/或反向互补物的位点,诸如包含(1)一个agg元件或agg元件中包含a的部分,和(2)3、4、5或6个cgg元件以及任选地另外的部分cgg元件的位点,优先结合活性可以是特异性的。

在一些实施方案中,与重复区或富含gc的区域退火并优先结合包含中断物元件的一个位点或多个位点的引物可以包含与重复或富含gc的序列退火的引物部分内或末端处的a、t或u残基。例如,引物可以在cgg、ccg、gcg、cgc、gcc、或ggc重复段间或末端具有a、t或u;参见例如上面的seqidno44和45。a、t或u残基可以出现在引物的3’末端。当cgg、ccg、gcg、cgc、或gcc、ggc末端出现a、t或u残基时,在a、t或u残基与最后一个完整的cgg、ccg、gcg、cgc、ggc、或ggc重复之间可以有或可以没有部分cgg、ccg、gcg、cgc、gcc、或ggc重复。可以用相对于其它天然核苷酸残基优先与t/u或a残基碱基配对的非天然核苷酸残基取代a、t、或u残基。同样地,还可以用相对于其它天然核苷酸残基优选与c或g残基碱基配对的一个或多个非天然核苷酸残基取代构成cgg、ccg、gcg、cgc、gcc、或ggc重复的一个或多个g和/或c残基。在其它情况下由cgg、ccg、gcg、cgc、gcc、或ggc重复构成的序列(任选地如上讨论,具有a、t、u或相应的非天然残基)内存在一个或多个此类非天然残基未消除本公开的上下文内所述序列作为cgg、ccg、gcg、cgc、gcc、或ggc重复序列的身份。非天然核苷酸残基是包含除腺嘌呤、胸腺嘧啶、鸟嘌呤、胞嘧啶和尿嘧啶(分别为a、t、g、c和u)以外的核碱基的核苷酸残基。优先与a或t/u残基碱基配对的非天然核苷酸残基的实例包括但不限于相对于其它天然残基(例如5-取代的尿嘧啶类似物)优选与a或t/u残基碱基配对的t、u或a残基的加合物;和包含核碱基诸如例如假尿嘧啶和二氨基嘌呤的残基。

在一些实施方案中,可以使用在重复区外退火的引物和序列的重复序列、序列排列或反向互补物退火的引物来产生c9orf72参数信息。在适当时,可以在重复区外(上游或下游)退火的引物可以是正向或反向引物。这些序列可以与重复区侧翼的序列退火。正向引物的实例包括tgcgcctccgccgccgcgggcgcaggcaccgcaaccgca(seqidno:46)。反向引物的实例包括cgcagcctgtagcaagctctggaactcaggagtcg(seqidno:47),tgcgcctccgccgccgcgggcgcaggcaccgcaaccgcaccccggccccggccccgg(seqidno:48),cgcagcctgtagcaagctctggaactcaggagtcgccggggccggggccgggg(seqidno:49)。

在一些实施方案中,可以使用在重复区外退火的引物和与序列的重复序列、序列排列或反向互补物退火的引物来产生tomm40参数信息。可以与重复区外(上游或下游)退火的引物可以是正向或反向引物。这些序列可以与重复区侧翼的序列退火。正向引物的实例包括ccaaagcattgggattactggc(seqidno:50)。反向引物的实例包括gattgcttgagcctaggcattc(seqidno:51)。

在一些实施方案中,第一引物在生成扩增产物梯时使用并且对不包含中断物元件的重复区或富含gc的区域中的位点具有优先结合活性。在该方法的结果中,可以通过相对较低水平的产物发信号表示中断物元件的存在,所述产物的合成将涉及将与包含中断物元件的位点结合的第一引物延伸。这些低水平可以在电泳图中以由较高峰围绕的缺口或一组低峰出现。在一些实施方案中,提供第一引物,其对包含中断物元件的重复区或富含gc的区域中的位点具有优先结合活性。在锚定测定法中通过相对较高水平的产物发信号表示中断物元件的存在,所述产物的合成涉及将与包含中断物元件的位点结合的第一引物延伸。高水平可以在电泳图中以由较低峰和/或基线信号围绕的尖峰出现。

生成参数信息的方法可以涉及扩增反应,其包括提供至少两种或至少三种不同的引物。在一些实施方案中,提供至少三种不同的引物,并且引物之一是优先在重复或富含gc的区域外结合的引物,第二引物优先在重复区或富含gc的区域内结合,并且第三引物是第一或第二引物的亚序列。在一些实施方案中,一个引物是包含cgg重复和5’瓣序列的嵌合引物,并且另一个引物具有嵌合引物的5’瓣序列的序列。应当注意,具有嵌合引物的5’瓣序列的序列的引物可以但不一定具有嵌合引物的全部非重复序列。换言之,一个引物的部分或全部的序列可以由另一个引物的序列包含;例如,嵌合引物包含5’瓣序列,并且另一引物可包含5’瓣的部分或全部的序列。在一些实施方案中,引物含有cgg重复序列的12-15个核苷酸。5’瓣序列可以对应于与cgg重复区相邻或接近的序列,或者它可以与cgg重复区内和周围的序列无关。在一些实施方案中,嵌合引物的长度可以是约35、40、45、50或55个核苷酸。在一些实施方案中,一种或多种引物具有范围为60℃至75℃,例如约60℃,65℃、70℃或75℃的解链温度。

在一些实施方案中,提供至少三种不同的引物,并且以比另一种引物的浓度低的浓度提供一种引物。例如,任选地,以比具有嵌合引物的5’瓣片序列的序列的引物更低的浓度提供嵌合引物。表示为倍数差异的浓度比率的范围可以为2至10,000或更多,例如10,20,50,100,200,500,1,000,2,000,5,000,或10,000(或其间的任何值)。在此类实施方案中,可以在扩增反应的早期循环中消减以较低浓度存在的引物,使得延伸一般完全或几乎完全来自仍然存在的引物(其最初以相对较高的浓度存在)。

在一些实施方案中,产生参数信息的方法包括以大于1的gc/at比率和以有助于合成包含重复或富含gc的模板的dna的总dntp浓度提供dntp。参见美国公开号2010-0209970。gc/at比率可以是约1.1、1.2、1.4、1.6、2、2.5、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25或更高。gc/at比率可以是1.1-20、1.1-15、1.1-10、1.1-8、1-15、1.1-7、1.1-6、1.1-5、1.2-25、1.4-25、1.6-25、2-25、3-25、4-25、5-25、2-15、2.5-10、或4-10。总dntp浓度可以是约0.4、0.5、0.6、0.7、0.8、0.9、1、1.2、1.5、2或3mm。dntp浓度可以是0.4-3mm、0.5-3mm、0.6-3mm、0.7-3mm、0.8-3mm、0.9-3mm、1-3mm、0.4-2mm、0.4-1.5mm、0.4-1.2mm、0.4-1mm、0.4-0.9mm、0.4-0.8mm、0.4-0.7mm、0.5-2mm、0.5-1mm、或0.6-0.9mm。“gc/at比率”指给定溶液或混合物中dctp、dgtp及其所有核苷酸类似物总和的浓度与datp、dttp、dutp及其所有核苷酸类似物总和的浓度的比率。“dntp”代表脱氧核苷酸三磷酸,并且指datp、dctp、dgtp、dttp、dutp及其类似物。“核苷酸类似物”是包含除天然碱基腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)或尿嘧啶(u)以外的碱基部分、与脱氧核糖相同或类似的糖部分和至少一种磷酸盐或多磷酸盐(例如二磷酸盐或三磷酸盐)部分的分子或离子。核苷酸类似物当其包含三磷酸盐和糖部分和碱基时是特定核苷酸,特别是datp、dctp、dgtp、dttp、或dutp的类似物,所述三磷酸盐和糖部分两者的结构和构型适合于通过聚合酶掺入核酸双螺旋中,所述碱基的在核酸双螺旋中的碱基配对性质和通过dna聚合酶掺入核酸双螺旋中的基因座与先前列出的五种核苷酸之一最相似,只是dttp通常也是dutp的类似物,反之亦然。与包括但不限于“核苷”、“碱基”、“核碱基”或“残基”的术语一起使用的术语“类似物”应当以与其与“核苷酸”结合使用的相同方式来解释。

在一些实施方案中,产生参数信息的方法可以进一步包括提供用于pcr扩增反应的缓冲液。缓冲液可包含例如但不限于三(羟甲基)氨基甲烷(tris)、双tris丙烷(bis-trispropane)、碳酸氢盐、磷酸盐、甘氨酸、组氨酸、4-(2-羟乙基)-1-哌嗪乙磺酸(hepes)、3-(n-吗啉代)丙磺酸(mops)、以及各种共轭碱/酸及其盐。

在一些实施方案中,产生参数信息的方法可以包括提供至少一种dna聚合酶以从dntp以模板依赖性方式合成dna。dna聚合酶可以包括野生型、经修饰的、嗜热性、嵌合、工程化聚合酶、和/或超过一种聚合酶的混合物。dna聚合酶可以包括exact聚合酶(5primegmbh)、accusuretmdna聚合酶(bioline)、phusiontmaccuprimetmpfx(invitrogen)、铂taqdna聚合酶高保真性(invitrogen)、phiretm热启动dna聚合酶(newenglandbiolabs)、热启动高保真性dna聚合酶(newenglandbiolabs)、jumpstarttmredtaqtmdna聚合酶(sigma-aldrich)、pfuultratmhotstartdna聚合酶(stratagene)、cxhotstartdna聚合酶(stratagene)、primestartmhsdna聚合酶(takara)、extensorhi-fidelitypcr酶(abgene)、accuzymetmdna聚合酶(bioline)、saharatmdna聚合酶(bioline)、velocitydna聚合酶(bioline)、accupoltmdna聚合酶(genechoice,inc.)、unipoltmdna聚合酶(genechoice、inc.)、延长酶酶混合物(elongaseenzymemix)(invitrogen)、pfx50tmdna聚合酶(invitrogen)、phusiondna聚合酶(newenglandbiolabs)、kodhifidna聚合酶(novagen)、kodxldna聚合酶(novagen)、expand20kbplus热稳定性dna聚合酶混合物(rocheappliedscience)、扩充高保真性plus热稳定性dna聚合酶混合物(rocheappliedscience)、扩充高保真性热稳定性dna聚合酶混合物(rocheappliedscience)、扩充长模板热稳定性dna聚合酶混合物(rocheappliedscience)、easy-atm高保真性pcr克隆酶(stratagene)、exltmdna聚合酶(stratagene)、增强型dna聚合酶(stratagene)、iifusiondna聚合酶(stratagene)、kapalongrangetmdna聚合酶(kapabiosystems)、kapahifitmdna聚合酶(kapabiosystems)、kapa2gtmrobustdna聚合酶(kapabiosystems)、kapa2gtmrobusthotstartdna聚合酶(kapabiosystems)、kapa2gtmfastdna聚合酶(kapabiosystems)、kapa2gtmfasthotstartdna聚合酶(kapabiosystems)、lataqdna聚合酶(takara)、optimasedna聚合酶(transgenomic、inc.)、exo-pfudna聚合酶(stratagene)、hotmastertaqdna聚合酶(5primegmbh)、hottaqdna聚合酶(abnovacorporation)、amplitaqdna聚合酶(appliedbiosystems)、bstdna聚合酶lgfrag(newenglandbiolabs)、masteramptmtfldna聚合酶(epicentrebiotechnologies)、redhotdna聚合酶(abgene)、thermoprimeplusdna聚合酶(abgene)、taq-reddna聚合酶(applichemgmbh)、bio-x-acttm长dna聚合酶(bioline)、bio-x-acttm短dna聚合酶(bioline)、biolinehybripoltmdna聚合酶(bioline)、biothermtaqdna聚合酶(eenzymellc)、eu-taqdna聚合酶(eenzymellc)、synergytaqdna聚合酶(eenzymellc)、redpoltmdna聚合酶(genechoice、inc.)、accuprimetmgc-richdna聚合酶(invitrogen)、3173dna聚合酶、exominus(lucigen)、9degreesnorth(modified)dna聚合酶(newenglandbiolabs)、therminatordna聚合酶(newenglandbiolabs)、pwodna聚合酶(rocheappliedscience)、paq5000tmdna聚合酶(stratagene)、yieldacetmdna聚合酶(stratagene)、e2taktmdna聚合酶(takara)、或例如来自以下的天然存在的dna聚合酶:p.kodakaraensis、激烈焦球菌(p.furiosus)、t.gorgonarius、t.zilligii、海滨热球菌(t.litoralis)“venttm”、p.gb-d“deepvent”、t.9n-7、聚集热球菌(t.aggregans)、t.barossii、t.fumicolans、速生热球菌(t.celer)、焦球菌属种(pyrococcussp.)st700株、太平洋热球菌(t.pacificus)、p.abysii、深栖热球菌(t.profundus)、t.siculi、热水热球菌(t.hydrothermalis)、热球菌属种(thermococcussp.)ge8株、t.thioreducens、p.horikoshii或t.onnurineusna1、热球菌属种9°n-7、热球菌属种gi-j、热球菌属种mar-13、热球菌属种gb-c、热球菌属种gi-h、水生栖热菌(thermusaquaticus)、嗜热栖热菌(thermusthermophiles)、thermuscaldophilus、丝状栖热菌(thermusfiliformis)、黄栖热菌(thermusflavus)、海栖热袍菌(thermotogamaritime)、嗜热脂肪芽孢杆菌(bacillusstearothermophilus)或热坚芽孢杆菌(bacilluscaldotenax)。

在一些实施方案中,至少一种引物包含放射学或电磁可检测部分。放射学可检测部分包括发射可检测颗粒的放射性同位素,例如β或γ颗粒,例如14c、3h、32p、33p、35s、和125i。电磁可检测部分包括以可检测的方式与电磁辐射(包括吸光度,发射或二者)相互作用的化学实体,如发色团和荧光团,例如荧光素、fam、花青染料、若丹明染料等。示例性荧光团包括famtm(荧光素)、hextm、tettm、joetmnedtmroxtm、tamratm、和texas

在另一个实例中,可以使用美国临时申请no.62/196,239(通过引用并入)中描述的方法(包括引物、聚合酶、试剂和反应条件)产生重复区大小测定和基因型重建以表征tomm40或其片段的富含a/t的区段基因座。

ii.扩增产物梯

在各种实施方案中,将从感兴趣核酸(或包含重复区的所述核酸的部分)的扩增产生的扩增产物(本文也称为扩增片段)进行电泳,优选毛细管电泳,和使用由电泳产生的扩增产物的梯来测定重复区的大小。在一些实施方案中,扩增产物的梯单独用作内部标准品以测定重复区长度。内部标准品可以从扩增产品梯计算,例如使用内部大小测定梯度校准。在其它实施方案中,扩增产物的梯用作内部标准品以测定核酸的大小并与外部标准品结合使用。在某些实施方案中,可以使用外部大小测定梯校准来计算外部标准品。在另外的实施方案中,内部大小测定梯校准(扩增产物梯)可以与外部大小测定梯校准(外部标准品)结合使用。如下面详细描述的,内部标准品的拟合优度、外部标准品的拟合优度、内部标准品与外部标准品之间的一致性也可以用于样品质量控制。

在本文提供的方法中,可以通过扩增包含重复区的核酸区域和进行高分辨率片段分析方法如毛细管电泳获得扩增产物梯。在一些实施方案中,电泳(例如毛细管电泳)可以区分仅相差1个重复单位的扩增产物(例如,在cgg重复区中,可以区分仅相差3个核苷酸的扩增产物)。在一些实施方案中,重复单位的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸。在一些实施方案中,重复单位的长度是2个核苷酸。在一些实施方案中,重复单位长度为3个核苷酸。在一些实施方案中,重复单位长度为6个核苷酸。在一些实施方案中,电泳可以区分3个核苷酸或更少的扩增产物。在一些实施方案中,电泳可以区分1bp的扩增产物。在一些实施方案中,重复区是同聚物区段并且电泳区分长度差异1个核苷酸的扩增产物。

在各种实施方案中,从通过电泳产生的扩增产物梯产生重复概况。在一些实施方案中,使用重复概况来测定大小,例如对患者样品中评估的核酸中的重复区或任何其它感兴趣区域测定大小。在一些情况下,重复概况包括检测重复信号的开始。在其它实施方案中,重复概况包括电泳图中的开始长度。在另外的实施方案中,重复概况包括重复数目。

在各种实施方案中,用于重复峰鉴定的算法分几个阶段工作。在某些实施方案中,首先基于仪器的取样频率使用关于重复信号开始的窗的信息检测重复信号的开始。在其它实施方案中,然后使用基于分位数的分析来测定重复信号开始和结束的范围。在一些实施方案中,使用基于频率的分析来测定取样单位中的重复周期性。在某些实施方案中,使用重复周期性来通知呼叫重复峰的窗大小。在其它实施方案中,使用基于分位数的方法来导出应当呼叫重复峰的阈值。在一些实施方案中,使用滑动窗来呼叫单一重复峰,其中每个窗的呼叫峰定义为具有该范围中最大幅度的负二阶导数。在某些实施方案中,若没有找到峰或者信号降到阈值以下,其中使用重复周期性来通知呼叫重复峰的窗大小,则可以外推窗中心处的重复峰的位置。在某些实施方案中,当呼叫峰时,可以调整基于以取样单位计的重复峰之间的差异的窗大小。

在各种实施方案中,用于重复峰鉴定的算法通过以下方式工作:首先基于仪器的取样频率使用关于重复信号开始的窗的信息来检测重复信号的开始。在某些实施方案中,用于峰鉴定的算法首先通过以下方式工作:基于仪器的取样频率使用关于重复信号开始的窗的信息检测重复信号的开始,然后使用基于分位数的分析测定重复信号开始和停止的范围。在其它实施方案中,用于峰鉴定的算法首先通过以下方式工作:基于仪器的取样频率使用关于重复信号开始的窗的信息检测重复信号的开始;第二,使用基于分位数的分析来测定重复信号开始和停止的范围;第三,使用基于频率的分析来测定取样单位中的重复周期性。在一些实施方案中,用于峰鉴定的算法首先通过以下方式工作:基于仪器的取样频率使用关于重复信号开始的窗的信息检测重复信号的开始;第二,使用基于分位数的分析来测定重复信号开始和停止的范围;第三,使用基于频率的分析来测定取样单位中的重复周期性;第四,使用重复周期性来通知将呼叫重复峰的窗大小。在某些实施方案中,用于峰鉴定的算法首先通过以下方式工作:基于仪器的取样频率使用关于重复信号开始的窗的信息检测重复信号的开始;第二,使用基于分位数的分析来测定重复信号开始和停止的范围;第三,使用基于频率的分析来测定取样单位中的重复周期性;第四,使用重复周期性来通知将呼叫重复峰的窗大小;第五,使用基于分位数的方法来导出将呼叫重复峰的阈值。在一些实施方案中,用于峰鉴定的算法首先通过以下方式工作:基于仪器的取样频率使用关于重复信号开始的窗的信息检测重复信号的开始;第二,使用基于分位数的分析来测定重复信号开始和停止的范围;第三,使用基于频率的分析来测定取样单位中的重复周期性;第四,使用重复周期性来通知将呼叫重复峰的窗大小;第五,使用基于分位数的方法来导出将呼叫重复峰的阈值;第六,使用滑动窗呼叫单一重复峰,其中每个窗的呼叫峰定义为具有范围中最大幅度的负二阶导数。在一些实施方案中,若未找到峰或者信号降至第四阶段中测定的阈值以下,则可以外推重复峰作为窗中心的位置。在其它实施方案中,当呼叫峰时,可以调整基于取样单位中的重复峰之间的差异的窗大小。

在某些实施方案中,测定重复元件周期性。在其它实施方案中,使用基于频率的分析,例如傅立叶变换分析来测定重复元件大小。在一些实施方案中,方法包括从仪器取样域转换到碱基对重复域。在其它实施方案中,使用该信息来测定扩增产物梯中的每个扩增产物的大小。在一些实施方案中,使用从测定梯中重复元件的核苷酸长度得到的信息来生成校正曲线以测定重复区的大小。在更具体的实施方案中,相对于扩增产物梯对重复区毛细管电泳进行标准化以对重复区测定大小。在某些实施方案中,使用整个重复概况来生成校正曲线。在其它实施方案中,例如基于峰高和/或峰形状,选择峰以用于校正曲线。在其它实施方案中,基于重复概况周期性的一致性的质量选择峰。在另外的实施方案中,通过将阈值应用于重复峰位置信号的转换形式,例如作为熵滤器或频率滤器来测定重复概况周期性的一致性。

在某些实施方案中,注释装置130可以配置为使用整个重复概况来生成大小测定标准品。在各种实施方案中,注释装置130可以基于峰特性来选择峰来生成大小测定标准品。峰特征可以是峰高和/或峰形状。在各种实施方案中,注释装置130可以基于重复概况周期性特征(诸如重复概况周期性的一致性)来选择峰来生成大小测定标准品。例如,通过对重复峰位置信号的变换版本应用阈值,或者作为峰之间的差异的熵滤器,或者作为频率滤器,通过注释装置130来确定重复概况周期的一致性。

在某些实施方案中,重复元件周期性反映重复基序或重复序列的频率,例如,重复元件周期性是fmr1遗传基因座的三个碱基对。根据遗传基因座中的重复长度,重复元件周期性可以是1、2、3、4、5或6或更多。在某些实施方案中,第一扩增产物是梯内扩增产物组中最短扩增产物的长度。在某些实施方案中,扩增产物计数是不同长度产物的数目。在某些实施方案中,可以根据预期的周期性来校正扩增数目计数。在某些实施方案中,每个模板的恒定元件长度是由引物和模板决定的固定片段。

在进一步的实施方案中,方法涉及校正信号伪像。此类信号伪像可以包括污染峰、缺少峰、气泡、闪耀信号(flareupsignal)或来自其它荧光通道的信号的渗过(bleed-through)。

本领域技术人员将容易认识到重复区的大小测定涉及在各种实施方案中使用用于测定大小的扩增产物梯而不是外部标准品。

在各种实施方案中,从电泳电泳图获得另外的参数信息,例如距重复区中的任何中断的正向和反向方向上的距离。在一些实施方案中,使用与另外的参数信息组合的重组区域大小来重建基因型。在一些实施方案中,在运行机器可读介质的装置上完成重建,所述机器可读介质评估满足一些参数信息的所有潜在基因型,并鉴定满足所有参数信息的解析基因型。在一些实施方案中,用于基因型的此种自动化重建的装置、方法和机器可读介质是国际公开no.wo/2014/015273中描述的那些,其通过引用完整并入。

iii.自动化大小测定分析

在各种实施方案中,提供了用于自动对重复区测定大小的方法。在一些实施方案中,重复区的自动化大小测定首先鉴定并限定样品中的重复引物峰和基因特异性引物峰。在某些实施方案中,考虑峰形状、峰幅度或局部窗中峰之间的距离。在其它实施方案中,可以使用重复引物峰中的至少3个产生标准曲线。在更具体的实施方案中,可以用所有重复引物峰产生标准曲线。在某些实施方案中,通过测定一组变量的值,使用所有重复引物峰来生成标准曲线。在一些实施方式中,变量可以包括但不限于例如重复元件大小、第一峰前的碱基对、重复引物中的重复元件的数目减1乘以重复元件大小、峰计数、和用于互补引发(complimentarypriming)的恒定元件长度。在某些实施方案中,通过测定以下变量的值来产生标准曲线:-z=重复元件大小(以bp计),-x=第一峰前的碱基对(x=[rp引物中重复元件的数目-1]*z),-n=峰计数(从1到n的总和峰)和anc=用于互补引发的恒定元件长度(以bp计)。在更具体的实施方案中,使用30cgg重复正常男性产生标准曲线。在一些实施方案中,使用30cgg重复男性,计算以下变量:-z=重复元件大小(以bp计)(对于amplidexfmr1:3bp重复),-x=在第一峰前的碱基对,x=[rp引物中重复元件的数目-1])(对于amplidexfmr1:x=[5xcggs-1]*3=12bp),-n=峰计数(从1到n的总和峰)(对于30cgg正常fxs男性样品中的最后一个峰,n=26(存在的26个延宕(stutter)峰)),-anc=用于互补引发的恒定元件长度(以bp计)(对于amplidexfmr1实例,恒定元件长度为127bp)。在一些实施方案中,一旦已经生成标准曲线,自动化过程以延宕模式计算每个n峰的确切大小:例如,n峰的大小(bp)=[x+zn+anc]。在某些实施方案中,自动化过程通过将缺口(以bp计)+x外推到总体大小来说明重复概况的序列中断。例如,对于fmr1和agg中断:=3bp+12bp=15bp。在某些实施方案中,自动化过程通过将对峰观察到的ce大小(或其时间戳)与计算大小(如上所述)绘图从重复引物峰创建校正曲线,并且使用导出的线性回归函数进行基因特异性大小计算。

在某些实施方案中,可以使用大小测定标准品来生成重复概况内的片段的大小。在其它实施方案中,可以使用大小测定曲线通过插入生成重复区外的片段的大小。

在某些实施方案中,可以使用重复引发pcr(rp-pcr)进行重复区评估。rp-pcr可以使用简并引物来产生大量与基因型一致的重复片段。使用rp-pcr的一些实施方案可以规避大小测定,并且使用延宕峰的直接计数作为用于重复评估的方法。此直接计数可以使用公式:r(重复区计数)a=n+x/z。例如,对于fmr1,26+12/3=30个cgg。

在各种实施方案中,可以使用包括处理器(例如计算机)的装置来进行该方法,该处理器编程为进行大小测定分析。在一些实施方案中,处理器编程为接收关于核酸的信息(参数信息),然后重建核酸的解析基因型。在一些实施方案中,参数信息是重复区大小信息。在一些实施方案中,参数信息可以进一步包括距重复区中的任何中断的正向和反向方向上的距离。在一些实施方案中,装置使用重复区大小以及任选地距任何中断的正向和反向方向上的距离来自动化重建基因型。在一些实施方案中,装置还包括显示输入信息和/或解析基因型的监视器。在一些实施方案中,解析基因型以电子方式储存在装置上,和/或能够印刷用于进一步的诊断或治疗用途。

如下面实施例中更详细描述的,在一些实施方案中,方法可以用于对fmr1基因中cgg重复区的基因型测定大小。fmr1的5’utr可以包含一个或多个cgg重复区,其中的每一个可以在该区域内包含一个或多个agg中断。在存在超过一个agg中断的情况下,这些中断通常不连续发生(即,找到包含(agg)n的cgg重复区是罕见的,其中n大于或等于2)。

iv.样品

包含感兴趣核酸的各种样品可以在对重组区或核酸测定大小的公开方法中。在各种实施方案中,样品获自人或非人动物。例如,样品可以是患者样品。“患者样品”是来自患者的任何生物样品。术语样品包括但不限于生物流体,如血液、血清、血浆、尿液、脑脊髓液、眼泪、唾液、淋巴、透析液、灌洗液、精液和/或其它液体样品,以及生物来源的细胞和组织。细胞和组织可以包括颊细胞、漱口水收集物或皮肤细胞,包括毛囊。术语还包括从人分离的细胞或由其衍生的细胞,包括培养的细胞、细胞上清液和细胞裂解物。其进一步包括器官或组织培养物衍生的流体、组织活组织检查样品、肿瘤活组织检查样品、粪样品和从生理组织提取的流体、以及从实体组织、组织切片和细胞裂解物解离的细胞。它也可能包括验尸实体组织样品,如来自脑的样品。术语样品还包括从包含感兴趣核酸的人或非人动物获得的任何其它细胞或非细胞样品。在一些实施方案中,样品含有小于约80、100、150、200、500、1,000、1,500、2,000、2,500、3,000、4,000、或5,000ng的感兴趣核酸。

在一些情况下,样品包含一种或多种感兴趣的核酸。感兴趣的核酸可以是基因组dna。在进行本发明的方法之前,可以将基因组dna或其它感兴趣的核酸与样品的其它dna和非dna组分分离。dna纯化和分离的许多方法是本领域已知的并且可以与所公开的方法一起使用。在一些实施方案中,感兴趣的核酸可以包含体外合成的核酸。体外核酸合成的实例包括扩增反应如pcr、体外转录、体外逆转录、体外引物延伸、测序反应、基于亚磷酰胺的核酸合成及其组合。

在一些实施方案中,样品中感兴趣的核酸可以包含重复区,例如一个或多个富含gc的重复区段。在某些实施方案中,样品中感兴趣的核酸可以包含fmr1和/或fmr2基因或其片段,或fmr1和/或fmr2的5’utr的至少一部分(例如,包含fmr1的5’utr的cgg重复或fmr2的5’utr的ccg重复的部分)。在某些实施方案中,核酸的大小可以是约50、100、200、300、500、或700bp、or1、1.5、2、2.5、3、4、5、7、或10kb,或者其间的任何值。在一些实施方案中,核酸的大小可以是50bp-10kb、100bp-10kb、200bp-10kb、300bp-10kb、500bp-10kb、700bp-10kb、1kb-10kb、1.5bp-10kb、2bp-10kb、3bp-10kb、50bp-7kb、50bp-5kb、50bp-4kb、50bp-3kb、50bp-2kb、50bp-1.5kb、100bp-7kb、200bp-5kb、或300bp-4kb。

在各种实施方案中,样品中感兴趣的核酸可以包含一个或多个的富含a/t的重复区段,例如同聚物区段。在某些实施方案中,富含a/t的区段是:(i)包含至少10个a残基、至少10个t残基或至少10个u残基的同聚物区段,其中所述至少10个a、t、或u残基是连续的或被1至3其它核苷酸中断一次;或(ii)包含(tna)m、(atn)m、(tan)m或(ant)m的片段,其中n为2或更大并且m使得富含a/t的重复区段的长度是10个或更多个残基。在一些实施方案中,可以已知核酸模板包含一个或多个富含a/t的重复区段,例如同聚物区段。可以怀疑核酸模板包含一个或多个富含a/t的重复区段,例如同聚物区段。在某些实施方案中,核酸的大小可以是约50、100、200、300、500、或700bp、或1、1.5、2、2.5、3、4、5、7、或10kb,或者其间的任何值。在一些实施方案中,核酸的大小可以为50bp-10kb、100bp-10kb、200bp-10kb、300bp-10kb、500bp-10kb、700bp-10kb、1kb-10kb、1.5bp-10kb、2bp-10kb、3bp-10kb、50bp-7kb、50bp-5kb、50bp-4kb、50bp-3kb、50bp-2kb、50bp-1.5kb、100bp-7kb、200bp-5kb、或300bp-4kb。

在各种实施方案中,多重测定法可以用于超过一个核酸区域的平行分析。在一些实施方案中,可以使用多重pcr反应来对核酸的至少一个重复区测定大小。在某些实施方案中,扩增第一和第二核酸区域。在具体的实施方案中,扩增第二核酸区域。在其它实施方案中,扩增第一、第二和第三核酸区域。在其它实施方案中,扩增第二和第三核酸区域。在其它实施方案中,扩增第二核酸和任选地第三核酸区域。在某些实施方案中,核酸区域与梯扩增产物的模板不同。在一些实施方案中,扩增至少一个核酸区域、至少两个核酸区域、至少三个核酸区域、至少四个核酸区域或至少五个核酸区域。在一些实施方案中,可以使用多重测定来对两个或更多个遗传基因座测定大小。在一些实施方案中,可以使用多重测定法来对三个或更多个遗传基因座测定大小。在一些实施方案中,可以使用多重测定来对fmr1和fmr2的至少一个重复区测定大小。在其它实施方案中,可以使用多重测定来对fmr1和c9orf72的至少一个重复区测定大小。在一些实施方案中,可以使用多重测定来对fmr2和c9orf72的至少一个重复区测定大小。在某些实施方案中,可以使用多重测定法来对fmr2和c9orf72的至少一个重复区测定大小。在其它实施方案中,多重测定法可以用于与扩充重复区相关的病症,例如脊髓小脑性共济失调、强直性肌营养不良或亨廷顿氏病。在某些实施方案中,多重测定法可以与两种或更多种荧光标记物一起使用。

v.重复区大小测定装置和机器可读介质

在各种实施方案中,公开了用于对一个或多个重复区测定大小以及任选地重建含有重复区的核酸的基因型的装置。在一些实施方案中,将关于核酸重复区的大小或特征的信息提供给用于重建基因型的装置。在一些实施方案中,重复区还包括中断,例如cgg重复区中的agg中断。在一些实施方案中,将参数信息,包括重复区大小和距任何中断的在正向和反向方向上的距离提供给用于重建基因型的装置。

在不同的实施方案中,例如,公开了用于对核酸样品的重复区测定大小以及任选地产生重建基因型的装置。在一些实施方案中,装置包括通信耦合到存储器装置的处理器。在一些实施方案中,机器可执行指令存储在存储器装置上,其当由处理器执行时使处理器进行重复区大小测定和基因型重建分析。在某些实施方案中,机器可执行指令使处理器:(a)扩增重复区;(b)进行高分辨率片段分析;(c)获得扩增产物梯;以及(d)使用扩增产物梯作为内部标准品来测定重复区长度。在某些实施方案中,装置还包括通信地耦合到处理器和存储器装置的监视器,其中存储在存储器装置上的机器可执行指令指示处理器在监视器上显示解析基因型。在一些实施方案中,该装置还包括通信地耦合到处理器和存储器装置的打印机,其中存储在存储器装置上的机器可执行指令指示处理器在打印机上打印解析基因型。

在各种实施方案中,用于对重复区测定大小的装置能够接受关于核酸的参数信息的输入(例如,重复概况、重复元件周期性、第一扩增产物、扩增产物计数、和/或与扩增产物梯有关的恒定元件长度)。在一些实施方案中,装置编程为使用参数信息来测定扩增产物梯度中每种扩增产物的大小和/或核酸的总大小。装置可以编程以显示和/或归档结果。在一些实施方案中,装置包括用于显示和/或归档结果的手段。

在各种实施方案中,本文公开的装置包括处理器和存储器装置,其中存储器装置包含机器可读指令,其指示处理器接受关于核酸的参数信息的输入并进行大小分析,其可以以公式来表示以生成标准曲线:-z=重复元件大小(以bp计),-x=第一峰前的碱基对,x=[重复引物中重复元件的数目-1]*z,-n=峰计数(从1到n的总和峰)-anc=用于互补引发的恒定元件长度(以bp计)。在一些实施方案中,为了测定延宕模式中每个n峰的确切大小,可以使用以下公式:n峰的大小(碱基对)=[x+zn+anc]。因此,此公式提供了重复区的大小。

在一些实施方案中,装置进一步包含显示解析基因型的手段(例如视觉显现基因型的监测器、以数字格式保存基因型的数据存储介质、和/或用于将解析基因型传输至打印机或其它电子存储或显示装置的连接)。

在一些实施方案中,装置是计算机,其中计算机包括处理器和具有存储在其上的计算机代码的存储器装置,其中计算机代码指示处理器接受关于核酸的参数信息的输入,然后测定重复扩充产物梯的概况,从而对重复区测定大小。在一些实施方案中,计算机还包括监视器以显示输入信息和/或重建基因型。在一些实施方案中,重建基因型以电子方式储存在计算机上和/或能够被打印用于进一步的诊断或治疗用途。在各种实施方案中,计算机包括允许用户交互的装置。例如,计算机可以包括允许用户(诸如患者、医生或其它健康护理工作者)输入参数信息和/或访问和操作重建基因型的键盘和/或指向装置(例如,鼠标或轨迹球)。

在各种实施方案中,用于进行重复区的大小测定和基因型的任选重建的指令可以存储在机器可读介质中的装置上(例如机器可执行指令、软件、计算机代码、计算机程序等)。例如,机器可读介质可以包括以c++、c#、java、perl、python、julia、r、go、ruby、scala、javascript或用于计算机代码的任何其它合适格式存储的计算机代码。机器可读介质可以向装置提供指令,以使用关于核酸的参数信息来进行重复区的大小测定。在各种实施方案中,机器可读介质上的指令可以指示装置:(a)扩增重复区;(b)进行高分辨率片段分析;(c)获得扩增产物梯;和(d)使用扩增产物梯度作为内部标准品来测定重复区长度。

在一些实施方案中,机器可读介质上的指令指示装置在监视器上显示大小结果。在一些实施方案中,机器可读介质上的指令指示装置在打印机上打印大小结果。

存储在机器可读介质上的指令可以是提供可以由装置(例如由计算机中的处理器)使用的指令、信息和/或数据的任何代码、符号或其它信号。在一些实施方案中,存储在机器可读介质上的指令编码程序,该程序指示装置接收关于核酸的参数信息,进行分析以对重复区测定大小,并存储或传输核酸的大小。

在一些实施方案中,存储在机器可读介质上的指令指示装置执行重复区大小测定分析程序。在一些实施方案中,程序包括显示和/或存档核酸大小的指令(例如,在监视器上显示大小,将大小保存到数据存储介质,和/或将大小传送到打印机或其它电子存储或显示装置)。

在一些实施方案中,存储在机器可读介质上的指令进一步编码在监视器上提供图形显示的用户界面。在一些实施方案中,界面允许用户输入关于核酸的参数信息(例如,通过允许用户上传数据文件或通过允许用户将信息输入到显示在用户界面上的显示字段中)。在一些实施方案中,用户界面向用户提供用于分析参数信息的选项,诸如用于显示和/或保存输入数据和/或大小结果的各种方法(例如,通过在用户的监视器上显示数据,将数据发送到指定的电子装置或电子地址,将数据打印和/或保存到特定位置)。

在各种实施方案中,可以将核酸大小作为数据存储在物理连接到装置的存储介质中(例如,在诸如计算机上的硬盘驱动器的内部存储器装置上)和/或存储在远程存储装置上,该远程存储装置以通信连接到装置(例如,通过有线或无线内部网或因特网连接等)。在一些实施方案中,用户界面向用户提供用于将大小自动存储在特定位置、打印大小和/或将大小发送到指定的电子装置或电子地址(例如,发送到请求核酸大小的医疗专业人员的电子邮件地址)的选项。

vi.使用方法

在各种实施方案中,可以使用上文公开的方法来检测扩充重复区,例如富含gc的区域或富含a/t的重复区,和/或诊断患者中的病症或诊断患者后代中的病症风险。在一些实施方案中,可以使用方法诊断与重复区相关的遗传病症,诊断与重复区相关的遗传病症的风险或治疗与重复区相关的遗传病症,包括例如(1)获得来自患者的样品;(2)从样品中分离具有一个或多个重复区的核酸,例如包含cgg或ccg重复或富含a/t的重复区段的区域;(3)扩增具有一个或多个重复区的核酸区域;(4)进行毛细管电泳;(5)获得扩增产物梯;(6)使用扩增产物梯作为内部标准品来测定重复区长度。在一些实施方案中,方法可以进一步包括检测重复区中的任何中断,并且测定距中断的正向和反向方向上的距离。在一些实施方案中,使用重复区大小和任选地距中断的正向和反向方向上的距离来重建基因型。在一些实施方案中,使用重复区大小和任选地重建基因型来检测扩充重复区或诊断与扩充重复区相关的遗传病症,例如富含gc或富含a/t的区域,如同聚物区段。在一些实施方案中,使用重复区长度和/或重建基因型来预测患者或患者后代中遗传病症的风险。在一些实施方案中,使用重复区长度和/或重建基因型来检测患者的遗传病症。在一些实施方案中,使用重复区长度和/或重建基因型来检测患者后代中遗传病症的风险。在某些实施方案中,方法包括基于重复区长度和/或重建基因型来做出合适的治疗决定(例如,提供妊娠咨询和/或生育治疗)。在一些实施方案中,方法包括基于重复区长度和/或重建基因型向鉴定为患有遗传病症的患者施用合适的治疗。

例如,方法可以包括从患者样品中分离fmr1或fmr2核酸或其片段,扩增富含cgg或ccg的重复区,进行毛细管电泳以获得扩增产物梯,并使用扩增产物梯来测定富含cgg或ccg的重复区大小,以便诊断扩充的fmr1或fmr2等位基因相关的病症和/或预测与扩充的fmr1或fmr2等位基因相关的病症的风险和/或做出治疗决定。例如,可以使用大于200个cgg或ccg重复的大小来检测患者中的脆性x综合征或脆性x(fraxe)智力低下,或者可以使用大于35-45个cgg或ccg重复的大小范围来检测患者后代中脆性x综合征或脆性x(fraxe)智力低下的风险。在一些实施方案中,方法还包括检测距富含cgg或ccg的重复区中的任何中断的正向和反向方向上的距离,使用重复大小和中断信息重建fmr1或fmr2等位基因的基因型,并使用重建基因型检测与扩充fmr1或fmr2等位基因相关的病症。

许多基因和基因组区域包含重复区,包括那些包含与遗传疾病相关的富含gc或富含a/t的区域的,使其成为潜在的诊断和治疗靶物。因此,在各种实施方案中,本文公开的对重复区测定大小的方法可以用于这些遗传基因座并且可以用于诊断、预后、治疗相关遗传病症和/或指导相关遗传病症的治疗决定。在一些实施方案中,可以使用本文公开的对重组区测定大小的方法来分析fmr1或fmr2基因。在一些实施方案中,这些方法可以帮助诊断fxs、fraxe、fxtas、fxpoi、和多巴胺响应性帕金森症,其与fmr1的5’utr中的cgg重复区和fmr2的5’utr中的ccg重复区的长度有关。例如,在5’utr中具有大于约45个cgg重复的重建fmr1基因型,特别是具有大于约200个cgg重复的基因型可以用于诊断fxs和相关病症,以及诊断患者后代的病症的风险。

在另外的实施方案中,可以使用对重复区测定大小的方法来检测与扩充重复区的与其它病症有关的基因型,诸如脊髓小脑性共济失调1型、脊髓小脑性共济失调2型、脊髓小脑性共济失调3型、脊髓小脑性共济失调6型、脊髓小脑性共济失调7型、脊髓小脑性共济失调8型、弗里德赖希氏共济失调、进行性肌阵挛性癫痫、强直性肌营养不良i、强直性肌营养不良ii、亨廷顿氏病、脊髓延髓肌萎缩、齿状核红核苍白球丘脑下核萎缩、脊髓小脑性共济失调、肌萎缩侧索硬化(als)、额颞叶痴呆(ftd)、和阿尔茨海默氏病。与这些状况有关的遗传基因座是本领域中已知的,并且包括但不限于sca1、sca2、sca3、cacna1a、sca7、sca8、x25、cstb、c9orf72、dmpk、znf9、htt、ar、atn1、atxn1-3、atxn7、atxn10、cacna1a、sca8、ppp2r2b、cnbp、tbp和tomm40。参见例如natgenet.1996may;13(1):105-8;natgenet.1996may;13(1):109-13。这些基因座上富含gc的区域和/或重复区的超扩充和/或高甲基化与疾病相关,并且使用本文公开的方法检测这些突变和扩充可以作为治疗一部分使用或用于指导检测状况的治疗。

表1显示了可以与本文公开的方法一起使用的遗传基因座的实例,以及那些基因座中的重复区与疾病基因型或表型之间的关系。在某些实施方案中,方法检测重复区等位基因内的大于20、30、35、40、50、100、110、或200个重复的重复长度。

表1:可以与本文公开的方法一起使用的遗传基因座,以及那些基因座中的重复区与疾病基因型或表型之间的关系。

例如,可以使用对重复区测定大小和/或重建基因型来检测与sca1或sca2的病症,诸如脊髓小脑性共济失调1和2型相关的基因型,它们与其cag重复区扩充相关。例如,对重复区测定大小可以提供关于sca1或sca2基因中一个或多个cag重复的总长度的信息,以及距cag重复中cat或caa中断的正向和反向方向上的距离的信息。使用一个或多个cag重复的总长度以及距任何中断的正向和反向方向上的距离来对重复区测定大小可以应用于生成sca1或sca2基因的一组潜在基因型。对重复区测定大小可以用于检测突变或基因型,或诊断或帮助诊断sca1或sca2相关突变、基因型或病症,以及治疗病症和指导病症的治疗决定。

在其它实施方案中,对重复区测定大小和/或重建基因型的方法可以用于检测与扩充重复区有关的其它病症,诸如与富含a/t的重复区段相关的病症。在一些实施方案中,病症是神经变性性疾病。在一些实施方案中,神经变性性疾病是阿尔茨海默氏病。阿尔茨海默氏病可以迟发性阿尔茨海默氏病。与富含a/t的重复区段相关的其它遗传基因座是本领域已知的,例如基因tomm40。在一些实施方案中,评估的重复基因座是tomm40的内含子6的全部或一部分。在一些实施方案中,所评估的tomm40基因的内含子6的部分包含多聚-t重复多态性(re10524523)。

自动大小测定分析

图2显示了用于自动分析基因组重复区的示例性过程。该过程可以包括信号预处理201、生成大小测定标准品203和基因产品大小测定205的步骤。如本领域技术人员将理解的,在不偏离所设想的实施方案的情况下,可以进行额外的步骤,可以除去步骤,并且步骤的顺序可以变化。注释装置130可以配置为进行这些步骤,与公开的实施方案一致。

在步骤201中,注释装置130可以配置为接收并预处理原始数据。原始数据可以从ce装置120或从另一个装置接收。例如,注释装置130可以配置为从存储装置检索原始数据。原始数据可以在存储用于ce实验的每个通道的信号强度的数据文件中接收。这些数据文件可以以基于json的格式存储信号强度。

在一些实施方案中,pcr测定法可以与appliedbiosystems系列遗传分析仪仪器(3130/3500/3700)一起运行,所有仪器都以由appliedbiosystems维护的专有格式输出数据。此种格式称为片段序列分析(fsa)格式,并且含有来自毛细管电泳(ce)实验的荧光数据,其根据专有规格集编码。注释装置130可以配置为直接访问此文件格式。例如,注释装置130可以使用分析程序(parser),该分析程序设计为将文件中的信息解码并组织成基于json的格式以用于编程访问和操作。此分析程序可以使用称为bio::trace::abif(许可为自由软件)的perl编程语言的开源模块。该分析仪已经在不同遗传分析仪仪器(3130/3500/3700)间运行的大于1000个样品上得到验证,并且已经显示了与通过genemapper(用于访问fsa格式的当前标准)观察到的未处理荧光数据完全一致。分析程序的输出可以包括数据文件,它可以存储ce实验的多个通道的信号强度。这些数据文件可以以基于json的格式存储信号强度。

数据文件的至少一个通道可以对应于扩增产物梯。此通道可以包含重复概况。在一些实施方案中,数据文件的另一个通道可以对应于具有已知大小的产物梯。例如,数据文件的此另一个通道可以对应于外部梯,如rox梯。

在一些实施方案中,注释装置130可以配置为检测数据文件中存在重复概况的感兴趣区域。注释装置130可以使用基于频率的分析动态测定重复概况的周期性。注释装置130可以动态测定用于呼叫重复概况中的重复峰的阈值。阈值可以是幅度阈值。注释装置130可以使用滑动窗来呼叫重复概况中的重复峰。注释装置130可以插入低于阈值的重复概况中的重复峰。此插入可以改善由注释装置130产生的大小测定标准品的准确性。注释装置130可以使用重复概况中评估的开始峰位置和随后的峰位置来生成大小测定标准品,其从取样单位定位到碱基对单位。

预处理可以标准化解析的数据,调节使用不同配置运行的样品之间的差异。例如,pcr测定法使用基于ce的读出来进行数据解读,并且可以受到ce仪器上系统性存在的信号伪像的卷积。解析的数据的每个通道可以由注释装置130过滤以简化和增加下游数据处理的稳健性。在一些方面,可以将低通滤器或带通滤器应用于一个或多个通道以使数据平滑。低通滤器可以是butterworth、savitzky-golay、移动平均值或其它类似的滤器。由于ce装置中的每个通道的基线荧光值必须在装置的整个寿命中连续校正,可以通过注释装置130对每个通道进行标准化,以说明不合适的仪器校正和/或实验室间的仪器配置的可变性。注释装置130可以配置为通过从通道中减去数值来再校准通道。此数值可以是通道信号强度的统计量。例如,数值可以是通道的信号强度的第10个百分位数。第10个百分位数可以强力表示信号中的较低值,而不受通常遇到的信号强度的剧烈负波动的影响。在下面的等式中,使s(x,c)表示仪器通道c的位置x处的信号强度:

b(c)=q10(s(x,c))

sn。rm(x,c)=s(x,c)-b(c)

注释装置130可以配置为在信号预处理期间除去由诸如气泡或污染物的伪像引起的伪像。ce实验期间毛细管中存在的气泡可以产生信号强度的大尖峰(spike)。这些尖峰可能被错误地解释为基因特异性产物或rox通道大小测定峰,产生不正确的结果。然而,来自气泡的荧光以相似的幅度程度影响所有通道,使注释装置130能够鉴定并除去气泡伪像。

在第一步中,注释装置130可以配置为寻找解析数据中所有通道间超过50rfu的所有峰的位置。注释装置130可以配置为将候选气泡伪像位置确定为在多个通道间发生的峰指数的交集。例如,通道({fam,hex,ned,rox})中的峰指标的交集可以如下表示:

c=p(fam)∩p(hex)∩p(ned)∩p(rox)

注释装置130可以配置为测定气泡伪像是否存在于每个候选位置处。作为第一步,注释装置130可以配置为鉴定包括潜在气泡位置的通道中的窗。在一些实施方案中,注释装置130可以配置为测定候选位置处信号强度峰的左和右肩[hil,hir]。在下述等式中,s(i,c)可以是通道c的左和右肩之间的信号强度的函数,并且i可以表示候选峰位置。

s(i,c)=s([hil,hir],c)

作为第二步,注释装置130可以配置为测定窗内的多个通道间的信号强度之间的相关性。此种相关性可以是成对秩相关性显著性检验(pairwiserankcorrelationsignificancetest)或比较通道间的信号强度的任何其它相似性测量:

这里,测试的仪器通道的组是ch,并且pc(i)是候选峰位置i的成对秩相关性值的组。

注释装置130可以配置为当秩相关性显著性检验在所有成对比较间生成小于显著性阈值的显著性值时确定候选位置处存在气泡伪像:

b={i|i,maxpc(i)<t}

这里,b指示具有气泡伪像的候选位置,并且t是显著性阈值。t可以是0.0001-0.01,例如已经使用独立的训练数据集凭经验验证0.005的显著性阈值。

注释装置130可以配置为替换气泡伪像。在一些方面,可以通过注释装置130用模拟噪音替换窗内的通道的信号强度。模拟噪音可以是高斯噪音,其中使用气泡周围的区域的信号强度通过注释装置130测定均值和标准差:

bkg(i,c)=s([hil-d,hil],c)∪s([hir,hir+d],c)

μ(i,c)=平均值bkg(i,c)

σ(i,c)=stdbkg(i,c)

这里,bkg(i,c)是气泡周围的区域的数值组。在此实例中,区域从左和右峰肩延伸d个位置单位。作为非限制性实例,d可以是5-50。

注释装置130可以配置为扩展数据文件中的通道的动态范围。在一些实施方案中,通道可以配置为检测第一电磁可检测部分。例如,通道可以是fam通道。注释装置130可以通过在信号饱和区域内外推峰形状来扩展通道的动态范围。可以发生饱和,电磁可检测部分以比仪器rfu传感器的收集限更大的发光发荧光,导致峰形状信息丢失。然而,由于收集的波长谱允许通道间的渗出,可以从捕捉类似波长的荧光的通道外推出饱和区域的峰形状。

在第一步中,注释装置130可以配置为鉴定通道中的窗。窗可以包括通道的饱和区域。例如,注释装置130可以确定信号强度超过幅度阈值的通道的区域。此幅度阈值可以是经验导出的,并且可以是仪器特异性的。在下面的等式中,使s(x,c)代表仪器通道c的指数x处的信号强度,使l代表满足饱和标准的所有位置指数的组,并且使t为某个仪器特异性阈值:

l={x|x,s(x,c)>t}

在一些方面,c可以包括fam通道。在各个方面,t可以介于1000和40000rfu之间,其中t描述发生饱和的rfu水平。注释装置130可以配置为修改l中指数处的信号强度。例如,注释装置130可以使用通道的窗内的信号强度和数据文件中的一个或多个其它通道的窗内的信号强度来确定组合的信号强度。这些其它通道可以配置为检测其它电磁可检测部分。例如,这些其它通道可以是ned通道或hex通道。可以线性或非线性组合信号强度。在一些实施方案中,测定组合信号强度包括外推第一通道中计算的峰的形状。例如,组合信号强度可以包括通道的窗内的信号强度的线性组合。组合信号强度还可以包括偏移(offset)。作为非限制性实例,注释装置130可以配置为将rfu值从ned通道组合到fam通道中:

如在前面的实例中所示,注释装置130可以配置为用组合的信号强度替换窗内的通道的信号强度。

注释装置130可以配置为在步骤203中生成大小测定标准品,与公开的实施方案一致。注释装置130可以配置为使用此大小测定标准品从信号中的位置单位(类似于在pop7凝胶中行进的距离)转换为碱基对大小。大小测定标准品可以包括存储在非瞬时存储器中的数据或指令。如下所述,注释装置130可以配置为使用内部大小测定标准品和外部大小测定标准品中的至少一个来生成此总体大小测定标准品。在一些实施方案中,注释装置130可以配置为将大小测定标准品输出到显示器、打印机、系统100的另一组件(例如实验室信息管理系统140)或另一系统。

注释装置130可以配置为在步骤205中对基因型峰鉴定并测定大小,与公开的实施方案一致。在此步骤中,注释装置130可以生成补偿测定中的各种引物组对测量信号的不同作用的背景模型。注释装置130可以使用该背景模型来鉴定测量信号中的至少一个基因特异性产物峰。

注释装置130还可以配置为使用大小测定标准品来对重复区和至少一个基因特异性产物峰中的至少一个测定大小。注释装置130可以使用在步骤203中生成的大小测定标准品。此大小测定标准品可以是内部大小测定标准品、外部大小测定、或者由内部大小测定标准品和内部大小测定标准品或另一种大小测定标准品两者生成的组合大小测定标准品。例如,注释装置130也可以配置为使用从存储装置检索的、从系统100的另一个组件接收的、或者从另一个系统接收的大小测定标准品。在一些实施方案中,注释装置130可以配置为向显示器、打印机、系统100的的另一组件(例如,实验室信息管理系统140)或其它系统输出至少一个基因特异性产物峰和/或重复区的大小的指示。此输出可以包括提供初始基因组样品的患者基因型的指示。

图3a描绘了用于生成外部大小测定标准品的示例性外部大小测定梯。如上所述,注释装置130可以配置为在步骤203中生成大小测定标准品。ce实验中用于片段大小测定的当前黄金标准品需要使用外部添加的已知大小的染料标记分子,其在下述的带中产生荧光峰,所述带在由pcr测定法中使用的其它电磁可检测部分(例如fmr1pcr产物)产生的频谱外。可以不依赖于由测定法产生的靶产物鉴定这些荧光峰。在一些方面,注释装置130可以使用这些峰来生成将fsa信号中的位置(以取样单位计)与片段大小(以碱基对计)相关联的外部大小测定标准品。注释装置130可以配置为自动鉴定和标记rox荧光峰,同时检测在其它情况下可以导致错误标记的峰的伪像(例如,当使用基于genemapper的工作流或类似软件时)。注释装置130所使用的标记系统和方法可以延伸设想用于未来测定法的任意大小测定梯(例如,rox1000或rox200)。

在第一步中,注释装置130可以配置为鉴定数据文件中的通道中出现的伪像。此通道可以与已知大小的外部添加的染料标记的大小测定梯分子相关联。伪像可以是“渗出”伪像。

当对应于pcr产物的通道中的信号强度超过幅度阈值时,pcr产物可以以足够强度发出荧光以影响其它通道。因此,注释装置130可以配置为基于与pcr产物对应的通道中的信号强度来首先鉴定潜在的渗出位置。这些位置可以具有超出仪器特异性阈值的信号强度。可以凭经验确定此仪器特异性阈值。可以以其它方式评估它。在下面的等式中,使s(x,c)表示仪器通道c的指数x处的信号,使t(仪器)是仪器特异性阈值,并且使b表示c中设置的渗出位置指数。

f(x,c)=δ1sgn(δ1s(x,c))

b{x|f(x,c)=-2∧s(x,c)>t(仪器)

在某些方面,c可以是fam通道。上面列出的rfu值和仪器是示例性的,而并不意图是限制性的。类似的值可以用于相同的指令,并且可以为类似的仪器确定另外的值。

在第二步中,注释装置130可以配置为测定从第一通道渗出到第二通道的程度。在一些实施方案中,注释装置130可以测定包括渗出位置的窗。这些窗可以由注释装置130基于第一通道中的信号强度来确定。例如,注释装置130可以将窗定义为围绕渗出位置的左和右峰肩位置之间的区域。可以由注释装置130如下测定左和右峰肩位置,即通过评估峰左和右区域中的噪声概况,然后使用来自噪声概况的参数来测定峰信号明显偏离噪音的阈值。在一些实施方案中,假设噪声概况遵循高斯分布,并且将峰肩标记为信号偏离高于均值数值的2个标准差的点。如本领域技术人员会理解的,可以使用其它幅度阈值或噪声分布模型。在一些方面,可以独立参数化左和右噪声概况。下面的等式描述了用于渗出位置i的该过程的非限制性实例:

bkgl(i)=s([i-60,i-30],c)

bkgr(i)=s[(i+30,i+60],c)

μl(i)=均值bkgl(i),μr(i)=均值bkgr(i)

σl(i)=stdbkgl(i),σr(i)=stdbkgr(i),

hil=min({x,x∈[i-d,i]∧s(x,c)>μl(i)+2σl(i)})

hir=max({x,x∈[i,i+d]∧s(x,c)>μr(i)+2σr(i)})

这里,c是第一通道,并且可以是fam通道或另一通道,并且d可以是30-100个取样单位。

在第三步中,注释装置130可以配置为模拟左和右峰肩之间的区域里的噪声。此模拟噪音可以是具有由注释装置130选择以模拟第二通道中的信号背景的参数的高斯噪音。下面的等式描述了用于渗出位置i的该过程的非限制性实例:

bkg(i)=s([hil-d2,hil],rox)∪s([hir,hir+d2],c2)

μ(i)=均值bkg(i)

σ(i)=stdbkg(i)

这里,c2是第二通道,并且可以是rox通道或其它通道,并且d2可以是5-50个取样单位。在第四步中,注释装置130可以配置为用模拟噪音替换用于其它通道的窗内的信号强度。

图3a描绘了通道300,渗入(bleed-in)位置除去的输出,其可以包括在取样单位的范围内的信号强度301(以rfu计)。通道300可以对应于roxpcr产物。如所示,信号强度301可以包括实际峰和伪像(例如伪像315和317)。注释装置130可以配置为当峰超过局部噪音阈值时鉴定通道300中的峰。此鉴定可以包括除去可能是假阳性峰呼叫的峰伪像。

在第一步中,注释装置130可以配置为测定超过使用滑动窗计算的幅度阈值的通道中的潜在峰。此滑动窗可以由注释装置130在信号强度301间运行,并且可以宽250-750个取样单位。例如,滑动窗可以宽500个取样单位。注释装置130可以测定窗内的信号强度301的统计量,诸如平均值和标准差。注释装置130可以基于测定的统计量将潜在峰测定为超过幅度阈值的那些。例如,注释装置130可以鉴定高于平均噪声水平的3个标准差内的峰。

在第二步中,注释装置130可以配置为鉴定由“肩”伪像引起的假阳性峰。为了鉴定假阳性峰,注释装置130可以仅选择最大的邻近峰。例如,注释装置130可以比较包括潜在峰的区间内的峰高度。注释装置130可以测定潜在峰小于区间中的另一个潜在峰。因此,注释装置130因此可以测定潜在峰是假阳性峰,并且对于后续分析,可以从通道中的峰排除此潜在峰。区间可以宽25-75个取样单位。

注释装置130可以配置为将通道中的峰与片段大小相关联以生成外部大小测定标准品,与公开的实施方案一致。在一些实施方案中,注释装置130可以使用迭代方法来选择通道中用于与片段大小关联的最可能的峰。例如,注释装置130可以使用第一组片段大小和第一组相应的第一组对应的峰位置,利用通道的第一区域中鉴定的峰迭代再评估峰位置和片段大小之间的线性关系。此方法利用与较大片段大小相关的低噪声概况来选择初始条件。如本领域技术人员将认识到的,注释装置130可以备选配置为使用根据应用于数据的模型最小化残差(residuals)的优化程序(optimizationroutine)来将峰与片段大小相关联。此优化程序可以基于量化模型的拟合优度的标准在模型中迭代包括和除去供考虑的峰。

在第一步中,注释装置130可以配置为自动地将大于预定碱基对长度的预期片段大小与通道中最远(通过毛细管中的距离)峰相关联。例如,最后的峰位置(例如,峰位置321)可以自动与最大预期片段大小(例如,片段大小323)相关联。下一个最大峰可以与下一个最大预期片段大小相关联。预定的碱基对长度可以是约500个碱基对。

在第二步中,注释装置130可以配置为将模型拟合到预定范围的碱基对内的标记峰。如本领域技术人员将理解的,按碱基对表示的值也可以按重复数目表示,并且按碱基对计的值的表达不意图是限制性的。例如,线性大小测定梯可以由注释装置130通过将1阶最小二乘回归(1storderleast-squaresregression)拟合到预定范围内的标记峰来生成。预定范围可以在350和550个碱基对之间开始,并且可以在650到750个碱基对之间结束。模型可以使注释装置130能够将取样单位转换为碱基对长度和/或重复数目。

在第三步中,注释装置130可以配置为使用通道300的第一区域310中鉴定的峰来迭代再评估此模型。在一些实施方案中,取样单位与碱基对之间的关系可以在第一区域310内呈线性。通道的此区域可以包括对应于少于预定数目的碱基对的峰。注释装置130可以配置为使用第一组片段大小和第一组对应的峰位置迭代再评估峰位置和片段大小之间的线性关系。注释装置130可以从较大的片段大小到较小的片段大小进展,包括逐渐更小的片段大小到用于再评估线性关系的片段大小组以及相应峰位置组。例如,当片段大小313是下一个最大片段大小时,注释装置130可以配置为将片段大小313和相应的峰位置311添加到第一组片段大小和第一组相应的峰位置。注释装置130然后可以使用片段第一区域310中的大小313和更大片段大小以及第一区域310中的峰位置311和更大峰位置来再评估峰位置和片段大小之间的线性关系。

在每次迭代中,在一些实施方案中,注释装置130可以配置为使用当前线性关系来测定对应于下一片段大小的峰位置。在一些实施方案中,注释装置130可以使用下一片段大小和当前线性关系来测定预测的峰位置。此下一片段大小可以是逐渐更小的片段大小之一,而当前的线性关系可以是上面讨论的再评估的线性关系之一。注释装置130然后可以测定包括预测的峰位置的窗。此窗可以包括预测的峰位置的任一侧的5-50个取样单位。注释装置130可以测定包括预测的峰位置的窗内的通道中的实际峰位置。可以如上所述使用信号强度301的导数的符号的导数来测定此实际峰位置。注释装置130可以配置为将实际峰位置纳入第一组相应的峰位置。以此种方式,随着实际峰位置变化,可以适当更新当前线性关系。此外,此种方法可以提供另外的方式来鉴定数据中的伪像。例如,伪像317不落入窗(例如,窗319)内,并且因此当再评估线性关系时,注释装置130可以跳过此伪像317。因此可以改善线性关系的评估。

以此种方式,注释装置130可以以增加凝胶的噪声区域中的峰关联的准确性的方式用新数据点连续更新线性关系。此种迭代方法已经显示比当前方法(genemapper,genemarker)在忽略rox通道中的信号伪像中更为特异,所述信号伪像可以促成不正确的大小测定梯参数化,并且对于将引物-二聚体峰错误视为rox片段峰也是稳健的。

注释装置130可以配置为测定第二区域320的峰位置和片段大小之间的非线性关系。在一些实施方案中,此非线性关系可以包括样条模型(splinemodel),诸如一阶、二阶或三阶样条模型或二阶或三阶多项式模型。注释装置130可以使用第二区域320中的片段大小组和相应的鉴定峰位置组(诸如片段大小323和峰位置321)来测定非线性关系。在一些方面,如在图3a中所示,第一区域310和第二区域320可以不重叠。例如,第二区域320的下界可以等于第一区域310的上界。第二区域320可以包括大于650到750个碱基对的片段。

如图3b所示,注释装置130可以配置为通过组合第一区域330的线性关系331和第二区域340的非线性关系341来生成外部大小测定标准品350。为了生成外部大小测定标准品350,注释装置130可以通过再取样线性关系331和非线性关系341来生成另外的点。单变量样条模型适合这些另外的点以生成外部大小测定标准品350。在一些实施方案中,另外的点可以沿着外部大小测定标准品均匀间隔,例如相差恒定数目的碱基对。另外的点的数目可以实质性大于片段大小的初始数目。例如,可以比片段大小的初始数目产生多2至10倍的另外的点。例如,可以使用40-200个另外的点。

在一些备选实施方案中,注释装置130可以配置为评估满足最优性标准的大小测定标准品。在一些方面,注释装置130可以使用根据应用于数据的模型最小化残差的优化程序来将峰与片段大小相关联。此优化程序可以基于量化模型的拟合优度的标准在模型中迭代纳入和除去供考虑的峰。

例如,注释装置130可以配置为产生通道中潜在峰的两个或更多个亚组。此生成可以是确定性的,或者可以至少是部分随机的。作为非限制性实例,每个亚组可以包括第一峰。注释装置130可以配置为测定每个亚组的大小测定标准品。这些大小测定标准品可以包含线性关系或非线性关系,如样条模型或二阶或三阶多项式模型。在一些方面,注释装置130可以配置为再取样大小测定标准品以生成比较点。注释装置130可以配置为基于再取样的大小测定标准品与参考模型之间的比较,为至少一些再取样的大小测定标准品计算代价函数。参考模型可以包括预期的大小测定标准品。如本领域技术人员将理解的,使用包括伪像的亚组生成的大小测定标准品可以与参考模型大大不同。这些模型的代价函数的值可能会大于包含很少的伪像或不含伪像的对象的代价函数的值。代价函数可以包括l1范数(norm)、l2范数或本领域技术人员已知的其它代价函数。因此,注释装置130可以配置为使用在对重复区和至少一个基因特异性峰中的至少一个测定大小时将代价函数最小化的大小测定标准品。有利地,此方法可以不需要鉴定潜在峰中的伪像,因为此类伪像可以导致更高的成本。如本领域技术人员将理解的,此方法可以用于评估内部大小测定标准品或外部大小测定标准品。

图4a描绘了与公开的实施方案一致的数据文件的示例性通道。在一些情况下,由于外部添加的已知大小的染料标记的pcr产物与基因组区域的pcr片段之间的组成差异,上述外部大小测定标准品可能不准确。例如,由于fmr1片段的富含gc的性质相对于rox片段的核苷酸平衡性质,毛细管电泳中的rox片段迁移率与fmr1片段迁移率不同。由于这些不准确性,注释装置130可以配置为生成内部大小测定标准品。在一些实施方案中,注释装置130可以配置为使用内部大小测定标准品和外部大小测定标准品来生成迁移率校正的大小测定标准品。外部大小测定标准品可以从上面关于图3a和3b所述的rox通道中导出。由注释装置130生成内部大小测定标准品可以包括鉴定数据文件的通道中的重复概况并且评估重复峰位置和重复片段大小之间的线性关系。

如图4a所示,数据文件的通道可以包括重复概况410。重复概况可以包括以最小的检测到的pcr片段峰开始并且以最大的检测到的pcr片段峰或基因产物峰结束的通道部分。例如,重复概况410可以在2000个取样单位后开始,并且可以在4500-5000个取样单位之间结束。如图4a所示,重复概况410可以表现出对应于逐渐增大的片段的峰的重复序列。根据基因组样品,重复概况410也可以表现出一个或多个基因产物峰,如4500个取样单位周围的峰。

注释装置130可以配置为鉴定数据文件的通道中的重复概况410。在一些实施方案中,注释装置130可以使用诸如rox梯的外部大小测定标准品来预测和接近重复概况410开始的位置。当注释装置130不能生成满足质量控制标准(下面描述)的外部大小测定标准品时,或者当仅使用内部模型时,注释装置130可以使用以下过程来测定重复概况410的开始。

在第一步中,注释装置130可以配置为测定重复概况的大致开始位置。注释装置130可以使用第一窗大小w来进行通道的求和变换:

因此,对于非重叠的第一窗,t(i)变换数据可以包括通道的第一窗内的信号强度之和。如本领域技术人员将认识到的,另外/或者,注释装置130可以对通道进行低通过滤。通道c可以是fam通道,并且并且第一窗大小w可以是50-1000个取样单位。对于该变换信号中的最大峰(其可以由引物-二聚体扩增事件引起),根据上面提供的峰肩的讨论,注释装置130可以找到至少最右边的峰肩。

在使用t(i)来测定最右峰肩的位置后,注释装置130可以配置为将通道的第二窗内的信号强度转换为频域,并且确定何时在第二窗内的信号强度的优势频率满足频率标准。例如,注释装置130可以在此位置开始计算第二窗内的通道的优势频率。第二窗可以宽100-200个取样单位。注释装置130可以将重复概况的近似开始确定为其中信号的优势频率与预定频率之间的差满足经验导出的差异标准的初始第二窗。

在第二步中,注释装置130可以配置为测定重复概况的精确开始位置。注释装置130可以使用第三窗内的信号强度的统计测量来测定此精确的开始位置。例如,确切的重复开始位点可以由注释装置130确定为大于第三窗内的信号强度的预定百分位数的第一位置。在一些实施方案中,第三窗可以在大致的开始位置处开始。在下面的等式中,使a表示信号开始位点的近似位置并使c为通道:

w=[a,a+1000]

开始=min({x,x∈w∧s(x,c)>q85(s(w,c))})

在此实例中,统计测量是第85个百分位数,但百分位数可以是第70-第99百分位数。同样,第三窗的宽度是1000个取样单位,但第三窗可以宽50-5000个取值单位。也可以使用从其它统计测量(例如平均值和标准差)导出的幅度阈值。通道c可以是fam通道。

在第二步中,注释装置130可以配置为测定重复概况的结束位置。在一些实施方案中,注释装置130可以过滤通道以测定重复概况的结束位置的结束。例如,注释装置130可以使用第四窗在通道间应用百分位数滤器。在应用变换之后,信号结束位置可以由注释装置130选择为超过幅度阈值的最后变换区域:

t(i)=q90(s([ix,ix+100],c)),ix=(100x|x=1,2,3...)

结束=100*max({i,t(i)>100})

因此,t(i)经变换的数据可以包括第四窗里的通道c的经百分位数过滤的值。在本实例中,百分位数是第90百分位数,但百分位数值的范围为第70-第99百分位数。同样,第四窗的宽度是100个取样单位,但是第三窗可以宽50-5000个取样单位。也可以使用从其它统计测量(诸如平均值和标准差)导出的幅度阈值。通道c可以是fam通道。这里,结束(end)可以是重复概况410中最终值的指数。幅度阈值可以是仪器特异性的,并且可以是凭经验导出的。这里,数值是100个rfu,但是此值不是限制性的。

图4b描绘了使用重复概况来生成内部大小测定标准品,与公开的实施方案一致。注释装置130可以配置为鉴定由重复引物引起的通道中的扩增峰。注释装置130可以将这些峰与预期片段大小关联以生成内部大小测定标准品。在一些方面中,如下面更详细讨论的,注释装置130可以使用从重复概况的周期性导出的窗来迭代呼叫重复峰。注释装置130可以根据重复概况中的周期性移动来调整此窗,并且可以插入重复峰受到抑制的峰位置(例如,在agg中断位点处)。

在第一步中,在鉴定信号的开始和结束位置之后,注释装置130可以配置为测定初始区间数值和初始幅度阈值。如上所述,注释装置130可以使用基于频率的分析来动态地确定重复概况的周期性。例如,注释装置130可以对重复概况的初始部分进行傅立叶变换以鉴定重复概况的优势频率。初始部分可以在开始位置处开始。注释装置130可以使用优势频率的倒数来计算初始区间数值以测定预测的峰位置:

这里,frp是初始部分内通道c的优势频率。在此实例中,初始部分宽1000个样品单位,但初始部分可以宽500-5000个取样单位。通道c可以是fam通道。

注释装置130可以动态地测定用于呼叫重复概况中的重复峰的阈值。阈值可以是幅度阈值。例如,注释装置130可以配置为使用在重复概况的初始部分内计算的统计测量来测定用于鉴定重复位置的初始幅度阈值。初始部分可以在开始位置处开始,并且统计测量可以是百分位数:

trp=q25(s([开始,开始+2000]),c)

这里,trp是初始幅度阈值。在本实例中,第25百分位数是统计测量,但百分位数的范围可以是第5-第50百分位数。同样,初始部分宽2000个取样单位,但可以宽100-5000个单位。通道c可以是fam通道。注释装置130可以使用诸如平均值和标准差的其它统计测量来测定初始幅度阈值。

在第三步中,注释装置130可以配置为迭代生成一组重复峰位置。在各个方面,注释装置130可以为每次迭代测定重复概况410中的预测的峰位置425位置。预测的峰位置425可以取决于先前的峰位置421和区间数值423。在一些方面中,注释装置130可以使用滑动窗呼叫重复概况中的重复峰。在一些实施方案中,可以自初始区间数值导出区间数值423。注释装置130可以鉴定包括预测的峰位置425的窗427内的重复峰位置。在一些实施方案中,用于选择峰的窗可以是区间数值423的25-100%。在某些实施方案中,窗是区间数值423的50-100%或80-100%。注释装置130可以配置为测定窗427内的最大峰的位置。当在此鉴定的峰位置处的信号强度超过幅度阈值429时,可以将此实际峰431添加到该组复位峰位置。在一些实施方案中,幅度阈值429可以从初始幅度阈值导出。在下一次迭代中,先前的峰位置可以是本次迭代期间鉴定的实际峰431。

在一些实施方案中,注释装置130可以配置为更新幅度阈值429和区间数值423中的一个或多个。例如,幅度阈值429可以是用于两次或更多次先前迭代的实际峰处的信号强度的平均值。同样,区间数值423可以是用于两次或更多次先前迭代的实际峰和先前峰之间的位置差异的平均值。在一些实施方案中,这些平均值可以在3-50次先前迭代内。以此种方式,注释装置130可以适应重复概况过程中重复峰的周期性和幅度的转变:

这里,x下一次是窗内最大峰的位置,并且当通道c(其可以是fam通道)的信号强度超过幅度阈值时将此峰添加到重复峰位置组中。在一些实施方案中,注释装置130可以插入低于阈值的重复概况中的重复峰。例如,当信号强度不超过幅度阈值时,将预测的峰位置添加到重复峰位置组。以此种方式,注释装置130可以插入重复峰幅度减小的区域中的峰。此插入可以改善由注释装置130产生的大小测定标准品的准确性。

在第四步中,注释装置130可以配置为生成描述重复峰位置和重复片段大小之间的关系的内部大小测定标准品。在一些实施方案中,注释装置130可以使用重复概况中的评估开始峰位置和随后的峰位置来生成从取样单位定位到碱基对单位的校正曲线(即大小测定标准品)。例如,注释装置130可以使用重复峰位置组和相应的片段大小组来生成内部大小测定标准品。注释装置130可以通过将第一重复峰位置与最小片段大小、第二重复峰位置与下一最小片段大小等相关联来建立重复峰位置与片段大小之间的对应性。在一些实施方案中,每个另外的重复峰位置可以与片段大小有关,所述片段大小是比先前的片段大小大一个额外的重复的片段大小。注释装置130可以通过针对重复峰位置组来回归相应片段大小组来产生关系。

如上关于图2所述,注释装置可以配置为使用内部大小测定标准品、外部大小测定模式或组合大小测定标准品。例如,注释装置130可以配置为使用内部大小测定标准品和外部大小测定标准品来生成迁移率校正的大小测定标准品。注释装置130可以通过使用内部大小测定标准品和外部大小测定标准品生成仿真变换来生成迁移率校正的大小测定标准品。此种仿真变换可以确保外部大小测定梯的线性和非线性组分两者都促成迁移率校正的大小测量标准品。仿射变换可以通过下面的等式来描述:使lrp(x)表示内部大小测定标准品,lrox(x)表示外部模型,lnl(x)表示外部模型的非线性区域的单变量样条模型:

lrp(x)=mrpx+brp

在本实例中,迁移率校正的大小测定标准品的灵敏性取决于外部大小测定标准品lrox(x)与内部大小测定标准品lrp(x)的灵敏性的比率,而迁移率校正的大小测定标准品的偏移取决于内部大小测定标准品和外部大小测定标准品的偏移,以及外部大小测定标准品和内部大小测定标准品的灵敏性比率。注释装置130可以配置为将仿射变换应用于外部大小测定标准品以获得迁移率校正的大小测定标准品。例如,注释装置130可以使用上述等式来计算迁移率校正的大小测定标准品。

如以上关于图11所描述的,注释装置130可以配置为对基因型峰鉴定并测定大小。通道可以表现出重复片段和基因特异性扩增两者,因此注释装置130可以在鉴定基因型峰前分离信号强度的这两个组分。另外,注释装置130也可以配置为鉴定异常基因型峰,如下面更详细描述的。

在第一步中,注释装置130可以配置为生成背景模型,用于分开重复扩增事件的信号贡献与基因特异性扩增事件的信号贡献。创建背景模型可以解决由重复区中断创建的重复概况中的缺口,例如由fmr1重复区中的agg中断引起的缺口。背景模型的创建也可以解决与重复概况的重复峰组分偏离的基因特异性产物峰,但没有允许基于频率的过滤方法解卷积的特征。

图5描绘了用背景模型520和动态阈值530注释的示例性重复概况510。在一些实施方案中,背景模型可以取决于给定窗内的重复概况的大小。在重复概况中的缺口源自重复区中的序列中断570的情况下,背景模型可以取决于接近中断的局部重复峰的幅度。基因特异性产物峰540、扩展峰550和嵌合峰560期间的背景模型也可以取决于接近中断的局部重复峰的幅度。

在第一步中,注释装置130可以配置为通过过滤重复概况510来生成背景模型520。在一些实施方案中,注释装置130可以使用配置为基于输入数据的滑动窗的至少一个统计测量输出数值的滤器来过滤重复概况510。例如,滤器可以输出窗内的重复概况510的中值和四分位范围的总和。窗可以宽3-30个重复,例如宽11个重复。此设计可以使注释装置130能够捕获窗中的重复峰的高度,而拒绝由agg中断和基因特异性产物引起的重复信号的大波动。如本领域技术人员将认识到的,可以备选使用其它滤器类型,诸如中值平滑滤器和线性滤器(例如,butterworth滤器)。

在第二步中,注释装置130可以配置为使用配置为减弱背景模型的高频分量的滤器来进一步过滤背景模型520。在一些实施方案中,注释装置130可以使用savitzky-golay滤器来减弱背景模型520的高频分量。savitzky-golay滤器可以宽3-30个重复,例如宽7个重复。可以对savitzky-golay滤器进行调谐以匹配重复概况动力学,从而防止峰和谷在其它滤器设计的输出中可见。

在第三步中,注释装置130可以配置为根据上述方法测定所得到的背景模型520中的峰肩。在一些实施方案中,注释装置130可以用在峰肩值之间线性插入的值替换峰肩内的信号强度。

注释装置130可以配置为从背景模型生成动态阈值。注释装置130可以使用动态阈值来鉴定基因特异性产物峰。通过动态放缩背景模型以生成动态阈值,注释装置130可以增加较低片段大小范围中的特异性,而增加较高片段大小范围中的灵敏性。在一些实施方案中,注释装置130可以配置为测定对应于具有高于第一片段大小且低于第二片段大小的大小的扩增产物的背景模型的第一区域。注释装置130还可以测定与具有高于第二片段大小的大小的扩增产物对应的背景模型的第二区域。注释装置130可以将背景模型的第一区域乘以第一放缩因数,该第一放缩因数从初始放缩因数变化到小于初始放缩因数的第二放缩因数。例如,第一放缩因数可以从初始放缩因数线性地变化到第二放缩因数。注释装置130还可以将背景模型的第二区域乘以第二放缩因数。

在下面的等式中,使mbg表示背景模型520,使mg表示动态阈值530,使r1表示与第一片段大小对应的指数,并且使r2表示与第二片段大小对应的指数:

在此实例中,第一放缩因数是3,而第二放缩因数是1.5,但是这些值不意图是限制性的。第一放缩因数可以在1.25和10之间变化,并且第二放缩因数可以在1.25和10之间变化。在一些方面,第一片段大小可以对应于0重复,或者多达20个重复。在各个方面中,第一片段大小可以对应于70-190个重复,例如120个重复。在该实例中,注释装置130可以将分段放缩因数应用于背景模型520,其在0-120次重复的区域中从3降低到1.5,并且然后在120次重复之后保持恒定于1.5,以获得动态阈值530。

注释装置130可以配置为使用动态阈值530来测定基因型峰组。如上所述,注释装置130可以基于信号强度的导数的符号的导数来鉴定重复概况中的潜在位置。当潜在峰位置处的重复概况的值超过该位置处的动态阈值的值时,注释装置130可以包括基因型峰组中的潜在峰位置。

注释装置130可以配置为使用大小测定梯和基因特异性产物峰位置将重复大小与基因特异性产物峰相关联。注释装置130使用的大小测定标准品可以包括内部大小测定标准品、外部大小测定标准品和迁移率校正的大小测定标准品之一。在一些方面,注释装置130可以使用下面的等式来将重复大小与产物峰位置相关联:

在此实例中,使l大小测定(x)为大小测定标准品,使sp为以碱基对计的基因特异性产物引物的大小,使sr为以碱基对计的重复的大小,使g为使用动态阈值鉴定的基因型峰组。作为非限制性实例,sp的范围可以为20-1000个碱基对,例如240个碱基对,尽管其它值也是可能的。同样,sr可以是3个碱基对,尽管其它值也是可能的。这些和其它参数中的基因特异性或重复特异性变化在所述配置的范围内。

注释装置130可以配置为在测定基因型峰组后解析不以正常基因特异性产物峰(即纯合女性样品,n/n+1基因型,扩充样品)存在的基因特异性产物峰。可以使用提供的性别信息来解析纯合的女性峰。例如,可以将单独呼叫的基因特异性产物峰解析为女性样品的纯合基因型。

如图6a所示,注释装置130可以配置为对具有近端基因型(n/n+1)的基因组样品测定基因特异性产物峰位置。鉴定此类样品可以是挑战性的问题,并且此类样品可以包含10%的女性样品。注释装置130可以通过鉴定第一峰631旁边的第二峰633来鉴定此类样品。例如,注释装置130可以在与第一峰631相邻的第二位置处鉴定重复概况610a中的第二峰633。第二峰633在幅度上可以与第一峰631相似。例如,注释装置130可以测定第二位置处的重复概况的第二值满足基于第一值的幅度标准。例如,第二位置处的重复概况的第二值可以超过第一值的70%-90%的幅度阈值。在一些实施方案中,第一峰631和第二峰633都可以超过动态阈值620。

如图6b所示,注释装置130可以配置为当未鉴定基因型峰时将样品标记为扩充样品,但是重复概况610b显示了扩充。如本领域技术人员将认识到的,当重复区为fmr1时,对于具有扩充远远超过200个重复的重复概况的样品,可以出现此类样品。

与任何复杂的基于pcr的工作流一样,由于操作员或仪器误差,产物可以有时无法扩增。因为这可以使样品不可解释,所以注释装置130可以配置为标记样品以用于再分析。注释装置130可以进行多种质量控制测量以保护用户免于误解结果。在一些实施方案中,注释装置130可以包括这些质量控制标准的两种类别:三种标准(大小测定标准品标准、重复概况信噪比标准、和重复概况污染标准)明确地使样品失败并且不产生基因型呼叫,并且一种标准(次要等位基因灵敏性标准)产生应当被用户更加怀疑地解释的基因型呼叫。此种“有风险”的qc类别设计为保护用户免于将基因型呼叫的阈值设置为低于其数据可以可靠产生的水平。

图7a-7c描绘具有不同质量控制标准的样品。图7a描述了具有较差的rox梯的样品。此样品可能不满足大小测定标准品标准。大小测定标准品标准确保正确衍生大小测定标准品,并且它就内部校准品而言匹配预期。注释装置130可以使用三种不同的标准来确保这点,并且可以需要满足样品通过的至少一个标准。例如,可以需要满足所有三个标准。标准的第一项可以是相对于外部梯峰的外部模型拟合的测定系数(r2)大于0.98。第二项标准可以是相对于内部梯峰的内部模型拟合的测定系数大于0.98。最后的标准可以是将内部大小测定标准品与外部大小测定标准品进行比较的一致性标准。可以当对于贯穿拟合的均匀间隔的点相对于内部模型拟合的外部模型拟合大于0.98时满足此一致性标准。从独立训练组中凭经验确定上述测定系数阈值,通过选择准确地区分产生不正确大小测定的样品和产生正确大小测定的样品的水平进行。在其它实施方案中,基于频率的分析可以测定重复概况是否具有足够的周期性以用于大小测定。

图7b描绘了具有差的pcr扩增的样品。此样品可能不满足重复概况信噪比标准。此标准可以保护用户免于解释具有较差扩增的样品的结果。具有较差扩增的样品可以违反处理期间的算法假设,并且可以潜在导致报告/错过的不正确或假阴性基因型。在高水平上,算法可以验证相对于重复概况开始近端的仪器的噪音水平,存在对于重复概况的开始的足够的信噪比。此qc的snr阈值可以从独立训练组中凭经验确定,通过选择准确地区分产生不正确大小测定的样品和产生正确大小测定的样品的水平进行。

ln=q75(s([irp(1)-200,irp(1)-50],c))

lrp=中值({s(lrp(i),c),i=(1,2,3,4,5)})

在这些示例性等式中,通道c可以是fam通道。在该实例中,可以由注释装置130在重复概况的加窗部分(windowedportion)内计算第75百分位数。本领域技术人员将认识到可以使用其它百分位数,例如第60至第95百分位数,或其它统计测量,诸如平均值和标准差。类似地,在此限制性实例中,重复概况的加窗部分从开始位置前的200个取样单位延伸到开始位置之前的50个单位。但是,也可以使用通道的其它窗。

图7c描绘了具有污染峰的样品。此样品可以不满足重复概况污染标准。可以使用重复概况污染标准来鉴定与不正确样品制备有关的脱靶扩增或扩增伪像的情况,其具有促成报告的不正确的基因型的潜力。此qc的失败标准可以定义为在不可能由基因特异性引物产生的范围内鉴定的基因特异性产物峰。例如,若对基因特异性产物峰导出的重复数目小于0个重复(即在一些情况下小于240bp),则可以将样品标记为具有污染。

次要等位基因灵敏性标准可以警告用户免于设置低于下述水平的次要等位基因呼叫阈值,所述水平就仪器的背景噪声与样品中最大基因型峰之间的比率而言对于测定法是可能的。若噪音水平(如上解释)与最大基因型峰之间的比率超过次要等位基因频率,则不能准确鉴定所述水平的次要等位基因,并且将样品标记为用户应当更严格解读的“有风险”的qc。在下面的等式中,使g代表基因型峰位置的组,c代表通道,tma代表由用户规定的次等位基因阈值,并且ln代表为次要等位基因灵敏性标准计算的信号的背景噪声水平:

图8描绘了用于基因型峰大小测定的示例性计算系统。在一些实施方案中,计算系统800包括处理器801、存储器803、显示器805、i/o接口807和网络适配器809、这些单元可以经由总线811或以无线方式彼此通信。图8中所示的组件可以驻留于单个装置或多个装置中。

与所公开的实施方案一致,处理器801可以是微处理器、中央处理单元(cpu)、图形处理单元(gpu)或类似装置。存储器803可以包括包含非暂时性指令的非暂时性存储器诸如计算机硬盘、随机存取存储器(ram)、可移动存储器或远程计算机存储器。在一些方面,存储器803可以配置为存储软件程序。在一些方面,处理器801可以配置为执行存储在存储器803上的非暂时性指令和/或程序,以配置计算系统800进行所公开的系统和方法的操作。在各个方面中,如本领域技术人员将认识到的,处理器801可以配置为执行存储在远程存储器上的非暂时性指令和/或程序以进行所公开的系统和方法的操作。显示器805可以是提供视觉输出的任何装置,例如计算机监视器、lcd屏等。i/o接口807可以包括用于从计算系统800的用户向计算系统800传送信息的装置,诸如键盘、鼠标、轨迹球、音频输入装置、触摸屏、红外输入接口或类似装置。网络适配器809可以包括用于使计算系统800能够与外部网络交换信息的装置。例如,网络适配器809可以包括无线广域网(wwan)适配器、蓝牙模块、近场通信模块、或局域网(lan)适配器。

本文还提供了用于进行本文公开的测定的试剂盒、分析软件和大分子。在某些实施方案中,用于对样品中的重复区测定基因型的试剂盒包含用于扩增重复区的一个或多个引物、缓冲液和分析软件或软件密钥,如本文所述。在其它实施方案中,用于基因型-峰大小测定的试剂盒包含用于扩增重复区的一个或多个引物、缓冲液和非暂时性介质分选分析软件和/或软件密钥。在某些方面,试剂盒包含与如本文所述的遗传基因座的重复区的部分相同或互补的引物。在其它方面,试剂盒进一步包含扩增引物组或多个扩增引物组,其中至少一个引物包含与如上文所述的遗传基因座的重复区的部分相同或互补的序列。如本文所述的分析软件可以包括存储在非暂时性计算机可读介质诸如cd-rom或其它数据存储装置上的数据和/或指令。术语“软件密钥”指配置为使得能够下载或访问本文描述的分析软件的软件许可密钥、密码密钥、url、url和/或密码。此“软件密钥”可以显示在诸如纸张、卡片纸(cardstock)、贴纸或类似介质的非暂时性介质上;或者可以存储在诸如cd-rom或其它数据存储装置(例如,位于“自述”文件)中的非暂时性计算机可读介质上。试剂盒具体考虑包括例如进行本说明书的权利要求1-83中任一项的数据处理和计算方法的分析软件。

试剂盒进一步任选地包含用于进行本文所述测定的酶,包括但不限于聚合酶如dna聚合酶或逆转录酶。在某些方面,试剂盒包括外部大小测定梯。大小梯可以是如本文所述的rox梯或大小测定梯。在某些方面,试剂盒包括阳性对照样品,例如模板对照样品或合并的细胞系对照样品。

试剂盒还可以包含用于扩增重复区的试剂,包括引物、dntp、聚合酶和/或缓冲液。例如,此类试剂盒可以包括一种或多种缓冲液,诸如反应、扩增和/或聚合酶缓冲液、用于制备dna样品的化合物,以及用于分离和/或检测扩增产物的组分,例如探针或标记物。

在一些实施方案中,本发明的试剂盒包括以下中的一种或多种(与上文讨论的方法、试剂和组合物一致):用于样品纯化的组分,包括具有离液剂的裂解缓冲液;玻璃纤维滤器或柱;洗脱缓冲液;清洗缓冲液;醇溶液;和核酸酶抑制剂。例如,试剂盒的组分可以以水性介质或冻干形式包装,并且将提供在合适的容器中。试剂盒的组分可以作为干粉提供。当试剂和/或组分以干粉形式提供时,可以通过添加合适的溶剂来重建粉末。可以设想溶剂也可以在另一个容器中提供。容器通常包括至少一个装有(任选地等分取样有)溶剂的小瓶、试管、烧瓶、瓶、注射器和/或其它容器或等同物。当试剂盒的组分以一种和/或多种液体溶液提供时,液体溶液是水溶液,特别优选无菌水溶液。试剂盒还可以包含用于容纳无菌的药学上可接受的缓冲剂和/或其它溶剂的第二容器或等同物。

此类试剂盒还可以包括保存或维持dna或rna的组分,诸如防止核酸降解的试剂。例如,此类组分可以是核酸酶或无rna酶或防止rna酶。本文所述的任何组合物或试剂可以是试剂盒中的组分。其它材料可以包括合适的反应容器、屏障组合物、用于扩增和/或pcr的反应混合物(包括缓冲液和试剂如dntp)、不含核酸酶或rna酶的水、rna酶抑制剂和/或任何额外的缓冲液、化合物、辅因子、离子成分、蛋白质、酶、聚合物和可用于反应中的类似物质。

实施例

以下实施例用于例示而绝不限制本公开。

实施例1:重复区的扩增

可以使用amplidextmfmr1pcr测定(asuragen目录号49402;美国公开号2010/0209970)完成用于cgg-重复区大小分析的基于pcr的工作流。参见图9和16。

实施例2:使用内部标准品对核酸的重复区测定大小的工作流

开发了大小测定方法来利用与沿着fmr1基因中富含cgg的区域的引发事件相关的重复概况。由于毛细管电泳图“重复峰”中的每个峰对应于相邻的引发事件,即长度上一个额外重复的扩增产物,可以如下评估核苷酸中峰的长度:通过假设第一重复峰的大小(以碱基对计)(考虑到引物序列长度),然后假设第一个之后的每个重复峰比前一个峰长3个碱基对。该信息用于生成将片段序列分析(fsa)信号中的位置(以取样单位计)与片段大小(以碱基对计)相关联的校正曲线。

详细地,用于重复峰鉴定的算法分几个阶段工作。首先,基于仪器的取样频率使用关于重复信号开始的窗的信息来检测重复信号的开始。第二,使用基于分位数的分析测定重复信号开始和结束的范围。第三,使用基于频率的分析来测定取样单位中的重复周期性。第四,使用重复周期性来通知将呼叫重复峰的窗大小。第五,使用基于分位数的方法来导出应当呼叫重复峰的阈值。第六,使用滑动窗呼叫单一重复峰,其中将每个窗的呼叫峰定义为具有范围中最大幅度的负二阶导数。若未找到峰或者信号降至第四阶段中测定的阈值以下,则可以外推重复峰作为窗中心的位置。当呼叫峰时,可以调整基于取样单位中的重复峰之间的差异的窗大小。图10描绘了利用峰位置来对基因特异性产物测定大小的过程的图。使用每个重复峰的预期位置生成用于大小测定的校正曲线。图10是使用amplidex试剂与定制引物的fmr2组(p/n49541)组合生成的。

在鉴定重复峰之后,软件可以产生针对重复峰的预期片段长度(以核苷酸计)使用所有峰指数(以取样单位计)的三次样条插入(cubicsplinesinterpolation)测定大小的模型。在一些实施方案中,大小测定标准品可以分段,将一阶多项式拟合应用于凝胶的线性区域,并且将单变量样条拟合应用到凝胶的非线性区域。

实施例3:主要等位基因的自动基因特异性产物鉴定

开发的用于自动生成此测定法的fmr1基因型的算法可以与大小测定方法结合使用。该算法采用基于幅度的方法来鉴定基因特异性产物,并且对向下到规定阈值的所有等位基因峰标记。此算法的工作流涉及鉴定具有峰样形状的区域,具有0的一阶导数和负二阶导数,并且通过相对荧光单位(rfu)大小对区域进行排序。任选的步骤可以涉及提供性别作为输入,返回每个性别所需要的峰数目并自动解析等位基因(即对于纯合女性样品)数目。对于全突变分析,使用基于分位数的方法分析扩充的重复概况,以评估通过呼叫的重复的当前的重复峰。若发生扩增,则报告扩充的等位基因。使用内部衍生的梯在amplidex软件中测定基因特异性重复基因型。

实施例4:次要等位基因的自动基因特异性产物鉴定

除了主要的等位基因基因分型之外,还建立了用于次要等位基因检测的过程,该过程实现对次要等位基因截留的实验室特异性定义。由于次要等位基因和嵌合通常仅在临床相关类别中出现现象时才是临床相关的,算法专门设计用于在前至全突变范围内搜索次要等位基因。具体地,用于次要等位基因检测的算法可以采取以下步骤:(1)从算法的主要等位基因基因分型阶段中检测到的峰的排序表中,测定任何过量峰是否长>54个cgg重复,以及(2)对于那些峰,测定那些(若有的话)具有高于信号中鉴定的最大基因特异性产物的用户定义的阈值百分比的rfu幅度。阈值当前默认为10%,但是可以规定为算法的输入。

实施例5:使用用于对重复区测定大小的工作流的应用

针对跨越整个fmr1基因型范围的500个随机选择的且先前注释的临床样品的综合组来评估以上讨论的算法的性能。通过qc标准的样品使用前节中描述的方法进行基因分型,并且以预期的和观察的峰大小之间的差异(以重复单位计)测量准确性。此外,使用样品分组间的相关性分析评估rox梯,例如rox1000大小梯,p/n:145194(外部参考标准)和内部大小测定方法之间的一致性。也使用具有操作者鉴定的嵌合的7个样品的选定分组检测次要等位基因检测能力。为此,将算法参数化以呼叫下至5%次要等位基因灵敏性,并将结果与手动大小测定的次要等位基因进行比较。最后,使用5%灵敏性对照(asuragen,p/n145303)测试算法,以评估重复概况对于标记扩展(flaggingexpansion)的分析灵敏性和效用。此灵敏性对照由95%短的女性正常和前突等位基因(cgg=30,56)和5%的扩充等位基因(>200cgg)组成。

图11显示了研究中测试的患者fmr1基因型的分布,以及普通群体中发表的fmr1基因型分布(tassone等,2012)。测试组中患者的分布在较宽的大小范围内较密,以评估算法对具有更大临床相关性的基因型的灵敏性。总体上,500个样品中的472个通过信号完整性的qc阈值,并使用前节中描述的方法进行基因分型。嵌入的qc步骤准确地鉴定28个失败的样品(5.6%),其在目测检查后确认具有完全信号丢失(signaldropout)(9个样品)或重复峰高的明显损失(19个样品)。

此外,发现重复峰大小测定方法与先前使用的方法(使用rox梯)相关,其中r^2>0.95,提示了外部校准组分(rox梯和对照样品)作为amplidexfmr1工作流的部分的最小化需求。图12描绘了rox和内部大小测定方法之间一致性的实例。

对于通过嵌入qc的472个样品,算法成功鉴定所有主要(非嵌合)等位基因(855),标记大于>200个重复的等位基因为全突变。使用内部大小测定方法将具有大于200个重复的等位基因准确定位到其先前报告的大小的±1个cgg内(使用手动分析独立测定)。表2详述了就临床突变类别而言的基因分型准确性。总体地,除2个以外的所有样品都在其预期类别中得到正确鉴定,2个不正确标记的样品基因分型为其先前报告的大小的±1个cgg内。图13更详细地显示了基因分型的准确性,描绘了分组中所有非嵌合峰的预期的对观察的fmr1基因型。图13描绘了可行性研究中所有主要等位基因(855)的手动和自动化大小测定之间的相关性。图13显示自动化fmr1基因分型工作流与基于手动分配的工作流产生一致的结果。

表2:就临床突变类别而言的基因分型准确性。

*在手动注释的大小的+1个cgg内。

此外,用于次要等位基因鉴定的过程正确地将7个手动注释的次要等位基因的所有次要等位基因鉴定为其手动衍生大小的+1个cgg内。图14a显示了详述次要等位基因检测能力的图。图中的所有次要等位基因均由fmr1软件自动检测,并与人工分析一致地进行了标记。图还描绘了功能上针对用户特异性次等位基因检测开发的灵敏性调节。

最后,将灵敏性对照样品精确基因分型并标记为扩展的等位基因。图14b描绘了算法对基因特异性产物的标记。

图15a和15b显示了详述算法在fmr1基因型范围间的分析灵敏性的图。箭头指示通过自动化大小测定进行的呼叫。图8描绘了高度精确的自动化fmr1分析引擎amplifyxpcr/cefmr1报告物,并设计软件界面,其例如改善靶向fmr1基因的cgg-重复区的基于毛细管电泳的测定法的效率和一致性。在使用fmr1pcr试剂加工的>1000个临床样品上测试此软件,并且与手工基因分型证明100%一致性。软件还表明检测低丰度基因特异性产物的高灵敏性。此软件有可能将fmr1测定工作流的分析时间改善大于两个数量级,并且具有改善解决ce概况模糊中的操作者间一致性的潜力。

实施例6:检测失败的样品

标记用于再分析的样品的自动化策略开发用于通过使用基于分位数的分析以下述方式检测信号丢失,所述方式对于可以朝着信号的开始发生的信号伪像(例如小的第一峰,agg中断)是稳健的。该算法通过计算rfu幅度(信号)的第95分位数和rfu幅度(背景)的第5分位数来工作,并且使在那些值之间的差低于200rfu的样品失败。使样品失败的200rfu阈值是使用从正常输入量向下滴定至12.4pg基因组dna输入量的一组对照样品凭经验确定的。阈值通过考虑导致正确基因型呼叫的最后的输入量测定,并且以那些样品的信号和噪声之间的平均分开计算。除了鉴定信号丢失之外,还开发了算法以通过识别较高大小范围内rox梯峰的缺乏来鉴定过早停止的运行。若鉴定的rox峰数目低于预期值,则算法将样品标记为具有不完整的数据。这可以潜在防止可能导致具有临床相关性的不正确基因分型的样品的错误。

实施例7:鉴定错误标记的rox峰

与自动化检查信号完整性一起,还开发了算法来鉴定rox通道中的错误标记问题,这可以潜在造成较小的大小测定错误。参见图17,描绘了错误标记问题如何可以造成不正确的大小测定。图中的点表明信号中预期的rox梯峰的位置,并且黑线表明使用二阶多项式的大小插入。这些实际点和插入点之间的相关性充当凝胶完整性的良好指标,并且可以用于鉴定错误标记问题。尽管这些小的错误标记问题可以通过rox梯影响插入大小测定,但它们对通过重复概况进行的大小测定的影响不大,因为还存在多个点以用于通过重复概况插入大小测定梯。将通过对数据的二阶多项式拟合预测的大小与实际大小相关联来计算r^2值。与>=0.98r^2的偏离指示可以已经存在错误标记问题,其可以造成不正确的大小测定。

实施例8:fmr1大小测定分析

8.1.工作流概述

通过从毛细管电泳数据解释基因型的点来简化目前用于fmr1cgg分析的工作流。手动解释是高容量测试的重要瓶颈,并且自动化算法具有大幅改善整个过程的潜力。在这项研究中,开发了fmr1分析的自动化解决方案,以生成高度准确的fmr1大小测定结果。本部分内详细描述了算法组分的概述。在高水平上,该算法分几个阶段工作。算法的第一阶段从片段序列分析文件中提取原始数据,并进行预处理以对不同配置下运行的样品之间的差异进行标准化。第二阶段涉及使用每个样品内部的组分,参数化大小测定梯以从信号中的位置单位(类似于pop7凝胶中行进的距离)转换为碱基对大小。算法的最后阶段涉及参数化模型,用于去卷积来自测定法中不同引物组的扩增,并使用该模型鉴定基因型峰。

8.1.1.片段序列分析(fsa)文件分析

fmr1pcr测定法设计为与appliedbiosystems系列遗传分析仪仪器(3130/3500/3700)一起运行,所有仪器均以appliedbiosystems维护的专有格式输出数据。该格式称为片段序列分析格式,并包含来自毛细管电泳实验的荧光数据,其根据在“appliedbiosystems遗传分析数据文件格式,2009”中描述的专有的一组规范进行编码,并且通过引用完整并入本文。为了直接访问此种文件格式,专门的分析程序设计为将信息解码并组织成基于json的格式,该格式易于以编程方式访问和操作。该分析程序大量利用称为bio::trace::abif的perl编程语言的开放源模块。分析软件已在不同遗传分析仪器仪器(3130/3500/3700)间运行的>1000个样品上得到验证,并且已显示与通过genemapper(用于访问片段序列分析格式的当前标准)查看的未处理的荧光数据完全一致。

8.1.2.fmr1大小测定分析中的预处理

8.1.2.1.信号平滑化

由于fmr1pcr测定法依赖于基于毛细管电泳的数据读取以进行数据解读,因此测定法受到ce仪器上系统存在的信号伪像的卷积。作为处理的第一步,将savitzky-golay滤器应用于每个通道以使数据平滑化。这允许简化下游过程中由算法所做出的假设以及还允许后处理操作的增加的稳健性。

8.1.2.2基线标准化

平滑化后,将每个通道标准化以说明不正确的仪器校准。为了标准化每个通道,由信号中的rfu值的第10百分位数扣除信号。第10百分位数是凭经验选择的,因为它强力地代表信号中较低的值,而不受通常遇到的急剧负波动的影响。交替的合适数值将类似地代表信号中较低的值,而不受急剧的负波动的影响。

8.1.2.3.气泡污染除去

作为fmr1算法的预处理步骤,鉴定并除去气泡伪像。此类气泡可以产生信号强度的大尖峰,其可以以产生不正确的结果的方式解释为基因特异性产物或rox通道大小测定峰。但是,在ce运行期间气泡毛细管的存在导致荧光以相似的幅度程度影响所有通道。通过利用噪声峰的此种多通道存在来鉴定和除去气泡伪像。

对于发现气泡的每个地点,通过模拟峰肩之间的高斯噪声来除去气泡。从气泡周围的区域测定噪音的平均值和标准差。

8.1.2.4.信号饱和分辨率

另一个预处理步骤涉及在fam通道中发生信号饱和的区域外推峰形状。当产品发出的荧光大于仪器rfu传感器的收集极限时发生饱和,导致峰形状信息丢失。然而,由于收集的波长谱允许通道间渗出,可以从捕获类似波长的荧光的通道外推饱和区域的峰形状。在鉴定的饱和区域中,将来自ned通道的rfu值添加到hex通道上:

8.1.3.自动化大小测定梯校准

目前用于毛细管电泳实验中片段大小测定的黄金标准要求使用外部添加的已知大小的染料标记的pcr产物,其在由fmr1pcr产物产生的频谱之外的带中产生荧光峰。可以不依赖于由测定法产生的靶产物鉴定这些荧光峰,并用于产生将片段序列分析信号中的位置(以取样单位计)与片段大小(以碱基对计)相关联的校正曲线。尽管在genemapper软件中自动处理鉴定这些荧光峰的过程,但它通常需要手动检查来校正错误标记的峰,这可能显著增加进行分析所需要的时间。为了改善这点,开发了算法来以下述方式自动鉴定和标记rox荧光峰,所述方式对于阻碍基于genemapper的工作流的错误标记现象是稳健的。此外,开发算法以容易扩展至任意大小测定梯(rox1000,rox200),以用于将来的测定法开发。

8.1.3.1.渗出伪像除去

第一阶段分析涉及包括从hex通道中除去渗出伪像,所述hex通道可以卷积预期大小对rox片段峰的分配。为了检测这些渗出伪像,算法鉴定hex通道中高于经验导出的仪器特异性阈值的位置,然后模拟高斯噪声,其模拟高于所述区域内的信号背景。

8.1.3.2.rox片段峰呼叫

第二阶段分析涉及包括呼叫一组候选rox片段峰,并且除去可能是假阳性峰呼叫的峰伪像。为了鉴定rox片段峰的候选组,运行宽500个位置单位的数据间的滑动滤器。对于每个窗:(a)采用在该范围内的信号的平均值和标准差并且(b)呼叫高于平均噪声水平的3个标准差(假设ce仪器的噪声概况遵循高斯分布)内的峰。在检测这些候选峰后,通过在选定峰周围的窗中选择最大峰来解决由“肩”伪像引起的近端假阳性峰。

8.1.3.3.rox片段峰关联

第三阶段分析包括使用迭代方法选择与标记片段峰相关的最可能峰。此种方法利用与较大的片段大小相关的低噪声概况来选择初始条件。简言之,将大于500bp的所有预期的rox片段大小自动与候选峰的最远(按毛细管中的距离)组相关联。然后,使用一阶最小二乘回归拟合500-700bp的所有标记的rox峰的线性大小测定梯,并用于预测下一个(低于500bp)片段峰的位置。然后将与该预测位置最接近的候选峰用该片段大小标记,并且重新拟合线性大小测定梯以包括该数据点。算法以此种方式用rox峰片段大小迭代标记候选峰,以下述方式连续用新数据点训练,所述方式提高凝胶的更噪的区域中峰关联的准确性。已经显示了此种迭代方法在忽略rox通道中的信号伪像中比当前的方法(genemapper,genemarker)更为特异,所述信号伪像可以造成不正确的大小测定梯参数化,并且对于将引物二聚体峰错误视为rox片段峰也是稳健的。

8.1.3.4.大小测定梯参数化

然后使用最终大小测定梯生成分段大小测定标准品。分段模型采用低于650bp的梯峰的线性模型和高于650的梯峰的单变量样条模型(类似于局部southern方法(参见analyticalbiochemistry100(2):319-323(1979))。为了参数化最终的平滑化的大小测定梯,使用分段模型来再取样具有位置单位与片段大小关联的100个均匀间隔的点,使用单变量样条模型将这些再取样点拟合到这些数据,以生成梯的平滑化的最终版本。

8.1.4.大小测定梯迁移率校正

由于fmr1片段的富含gc的性质相对于rox片段的核苷酸平衡性质,毛细管电泳中的rox片段迁移率与fmr1片段迁移率不同。为了说明这些差异,从fmr1重复信号对迁移率校正因子进行了参数化,并将其应用于从rox通道导出的大小测定梯。该过程中涉及几个步骤:1)重复信号开始和结束位置的鉴定,2)所有重复片段峰的标记,3)迁移率校正的应用。

8.1.4.1.fmr1信号窗参数化

作为标记重复峰的前体,测定信号的感兴趣区域。使用rox梯来预测重复概况开始的大致位置。若rox梯参数化失败或所得的拟合不匹配roxqc标准(见第8.1.6节),则采用以下步骤。

使用对具有窗大小200个位置单位的数据的求和变换。对于该变换信号中的最大峰(由引物-二聚体扩增事件引起),鉴定峰肩。从最右的肩,应用计算100个位置单位窗内信号的优势频率的变换。信号的优势频率在经验导出的公差内的第一个窗的位置用作重复概况的大致开始。

一旦鉴定重复区的大致位置,通过测定在距离大致重复开始位点的1000个位置单位的窗内大于信号的第85百分位数的第一位置测定确切的重复开始位点。

使用变换鉴定重复区的结束位置,所述变换在具有100个位置单位的窗大小的信号间应用第90百分位数滤器。应用变换后,选择信号结束位置作为落在经验导出的仪器特异性阈值上的最后一个变换区域。

8.1.4.2.重复引物峰呼叫

在鉴定信号的开始位置和结束位置后,通过测定由重复引物组产生的信号中的所有扩增峰来进行分析。然后,将这些峰与源自预期引发事件的大小相关联,并产生线性梯拟合。在高水平上,呼叫重复峰,使用从信号的周期性导出的窗迭代呼叫重复峰,并且随信号的周期性转变调节窗,并且将峰位置插入重复性峰受到抑制的位置(即agg中断位点)。

使用对距开始位点的1000个位置单位的窗的傅立叶变换来鉴定重复概况的周期性。使用周期性的倒数计算峰之间的预期开始距离。使用距离开始位点的2000个位置单位的窗的第25个百分位数导出用于插入峰位置的阈值。

为了测定重复概况的长度(在上述测定的开始位置和结束位置之间),通过预测包含大致峰位置的窗并选择该范围中的最大峰来迭代选择高于重复阈值的下一峰呼叫峰。用于选择峰的窗计算为峰之间的距离的大小的1/2(如由信号的周期性测定)。

8.1.4.3.大小测定梯迁移率校正

在鉴定重复概况的所有峰之后,它们用预期的片段大小标记,并用于生成线性大小测定梯。此线性大小测定梯充当大小校正的梯,可以使用仿射变换将rox梯映射到所述大小校正的梯。通过仿射变换进行映射确保大小测定梯的线性和非线性组分具有对它们应用的迁移率校正。

8.1.5.基因型峰鉴定和大小测定

大小测定分析的重要部分是基因型峰鉴定和大小测定。由于信号表现出重复区段和基因特异性扩增两者,基因型峰的鉴定是非平凡的,并且涉及对信号的这两个组分去卷积的步骤。此外,贯穿整个过程鉴定不以正常基因型峰存在的具有挑战性的基因型。

8.1.5.1.重复概况背景评估

鉴定基因特异性扩增事件的第一步涉及参数化背景模型以从基因特异性扩增事件的信号贡献中去卷积重复扩增事件的信号贡献。在使此过程变得困难的信号伪像中,最重要的是:(1)fmr1重复区中的agg中断,其显著降低了重复概况的幅度,在概况中创建“缺口”,所述缺口在创建背景模型时必须忽略;(2)基因特异性产物峰,其显著偏离信号的重复组分,但缺乏允许基于频率的过滤方法去卷积的特征。

去卷积过程将重复概况的“背景”建模为给定窗内重复信号的高度。对于agg中断,“背景”处于agg中断近端的局部重复峰的水平。对于基因特异性产物峰,“背景”类似地处于信号中基因特异性偏离近端的局部重复峰的水平。

分析包括以下步骤来生成背景模型。对于重复信号中的所有峰,滤器添加11个重复的窗大小内的数据的中值和四分位数范围。此滤器设计用于捕获窗中重复峰的高度,但对由agg中断和基因特异性产物引起的重复信号的大幅波动是稳健的。对于所得的信号,使用具有7个重复的窗大小以使数据平滑化的savitzky-golay滤器。通过峰肩线性地插入所得信号中的任何“峰”。

8.1.5.2.使用动态阈值的基因型峰鉴定

通过应用动态放缩方法从上面的去卷积模型中导出动态阈值,该动态放缩方法使较小大小范围中的呼叫变得更特异性,并且使较高大小范围中的呼叫变得更灵敏。在高水平上,放缩方法对去卷积模型应用分段标度因子(piecewisescalefactor),其在0-120个重复的区域中从3降低到1.5,然后在120个重复之后保持恒定于1.5。根据上述用于鉴定具有峰样形状的区域的方法使用该阈值测定基因型峰组。

使用前面章节中导出的大小测定梯将基因特异性产物峰变换为重复大小,并使用来自基因特异性扩增产物的非重复组分的已知片段大小变换为重复数目(在此种情况下240bp)。

8.1.5.3.挑战性的基因型的解析

在测定基因型峰组g处初始通过后,解析不以正常基因特异性产物峰(即纯合女性样品,n/n+1基因型,扩充样品)存在的挑战性的基因型。使用所提供的性别信息解析纯合女性峰,并且将单一呼叫的峰解析成女性样品的纯合基因型。通过使用与基因型峰接着的重复峰来解析具有正常范围内的近侧基因型(n/n+1)的样品。当在基因型峰附近发生重复峰,并且重复峰的信号强度在相邻基因型峰高度的90%内时,也将重复峰标记为基因型峰。最后,当对样品鉴定不到基因型峰,但重复概况显示扩充时,则将样品标记为扩充样品。这通常对缺乏基因特异性产物峰的男性样品发生,其中重复概况扩充完全超过200个重复。

8.1.6.自动化嵌入质量控制

使用几项质量控制措施来防止结果的错误解读。有两类质量控制措施。没有从落入第一类质量控制措施(大小测定梯qc、信号幅度qc和污染qc)的样品产生基因型呼叫。以更大的怀疑解读落入第二类质量控制措施(次要等位基因灵敏性qc)的样品的基因型呼叫。这第二类应当防止用户产生得不到其数据可靠支持的基因型呼叫。

8.1.6.1.大小测定梯qc

大小测定梯qc验证大小测定梯就内部校准品而言是正确导出且匹配的预期。此测量组合三种不同的标准,每种标准对于通过的样品必须得到满足。第一,相对于rox梯峰的rox梯拟合的测定系数(r2)必须大于0.98。第二,相对于内部梯峰的内部梯拟合的测定系数必须大于0.98。第三,相对于贯穿拟合均匀间隔点的内部梯拟合的rox梯拟合的测定系数必须大于0.98。根据经验从独立训练组中测定这些测定系数阈值,通过选择能够准确区分产生不正确大小测定的样品和产生正确大小测定的样品的水平进行。

8.1.6.2.信号幅度qc

信号幅度qc验证了样品经历了充分的扩增。具有较差扩增的样品违反了加工期间算法的假设,并可以潜在导致报告/丢失的不正确或假阴性基因型。在高水平上,算法验证相对于重复概况开始近端的仪器的噪音水平,重复概况的开始具有足够的信噪比。根据经验从独立训练组中测定此qc的snr阈值,通过选择准确地区分产生不正确大小测定的样品和产生正确大小测定的样品的水平进行。

8.1.6.3.污染qc

污染qc验证样品未经历脱靶扩增,或包含与不正确样品制备相关的扩增伪像,这可以造成不正确的基因型报告。当在不能使用基因特异性引物产生的范围内鉴定基因特异性产物峰时,样品不能通过此qc。例如,当基因特异性产物峰得出的重复数目小于0重复(或等同地小于240bp)时,则将样品标记为具有污染。

8.1.6.4.次要等位基因灵敏性qc

污染qc验证样品对选定的次要等位基因呼叫阈值具有足够低的背景噪音。此qc取决于仪器的背景噪声与样品中最大的基因型峰之间的比率。当信号中的噪声水平与最大基因型峰之间的比率超过次要等位基因频率时,不能准确鉴定则所述频率的次要等位基因,并且用用户应当更严格解读的“有风险”的qc标记样品。

8.2.fmr1大小测定性能

在多个仪器间的几个大分组间测试fmr1大小测定分析上的性能。对于这些研究中的每个,算法正确标记预期的qc失败,并按照测定准则对100%的qc通过样品测定大小。测定大小的指导准则定义为基因型<70个重复为+/-1重复,基因型<120个重复为+/-3个重复和基因型>=120个重复为+/-5%的重复数目。此外,对于操作者鉴定具有嵌合峰的大量样品,检测到低水平嵌合峰。经培训的手动操作者将未通过qc的样品独立验证为应得失败状态。经培训的操作者通过genemapper软件经由手动大小测定生成本研究中的真实数据。此外,研究中测试的基因型分布仅与正常人群中预期的基因型略有不同。本研究中基因型的分布有目的地用中间、排列和全突变范围内的临床相关等位基因富集,以便对基因分型准确性具有更大临床影响的病例进行应激测试(stress-test)。

8.2.1.sallynolan性能研究

以正常的输入和条件在3500ce仪器上生成sallynolan样品组。这设计为在外部实验室测试算法,其中输入量与测定的正常使用一致。本研究共评估了1040个样品,并且根据测定准则精确地对通过qc的样品的100%基因型测定大小。图18a显示研究中样品的基因型分布。图18b显示了对测定结果产生的自动化和手动基因型之间的比较,并且表3详述了手动和自动化类别呼叫之间的比较。

表3:sallynolan样品组的分类性能表。独立的操作者将临床类别的手动和自动化分配之间的所有差异解析为接近突变边界,但是在测定法的大小测定准则内,或者解析为具有最初正在真实组中未标记的低水平嵌合峰。

8.1.2.多仪器rush输入量研究

对于这项性能研究,以不同的输入量运行rush样品组(通常用于测试基因型和样品特征的独特分布的测定法),以测试测定法对操作者错误的稳健性。另外,每个输入水平在三个不同的仪器上运行以测试该测定的多仪器能力。输入水平分别为100ng/μl、20ng/μl、4ng/μl、和0.8ng/μl,其跨越高末端和低末端上的测定法的正常输入量(20ng/μl)。本研究共评估了31个样品,并且通过qc的样品的100%基因型根据测定准则准确测定大小。图19a显示研究中样品的基因型分布。图19b显示了为测定结果产生的自动化和手动基因型之间的比较,并且表4详述了手动和自动化分类呼叫之间的比较。

表4:研究的分类性能表。研究中每个独特的样品/输入量在不同的仪器(3130、3730、3500)上运行三次。

8.2.3.人工次要等位基因输入滴定研究

此分析可以在整个基因型谱间标记低水平次要等位基因。为了证明此种能力,研究模拟了前突变样品(30和56个重复)背景中低水平次要等位基因的存在。将76、96和119处的次要等位基因在不同输入水平下独立混合到前突变背景中(20ng/μl)中。本实验中次要等位基因的输入水平谱包括20ng/μl、10ng/μl、5ng/μl、2.5ng/μl、和1ng/μl。评估在对样品中的前突变峰测定大小中以及在对混合嵌合峰测定大小中的分析性能。本研究中共评估了40个样品,并且根据测定准则将通过qc的样品(包括次要等位基因)的100%基因型准确测定大小。图20a显示了研究中样品的基因型分布。图20b显示了针对测定结果产生的自动化和手动基因型之间的比较,并且表5详述了手动和自动化分类呼叫之间的比较。

表5:人工次要等位基因研究的分类性能表。所有基因型都是排列基因型,因为每个样品都掺有排列次要等位基因。

8.1.2.rush样品滴定研究

对于此性能研究,rush样品组从正常输入量进行5次2倍连续稀释,以测试应激测试低样品输入水平的算法的稳健性。在该实验中测试的输入水平包括100%(20ng/μl)、50%(10ng/μl)、25%(5ng/μl)、12.5%(2.5ng/μl)、6.2%(1.25ng/μl)、和3.1%(0.75ng/μl)。本研究共评估了66个样品,并且按照测试准则对通过qc的样品的100%基因型准确测定大小。图21a显示研究中样品的基因型分布。图21b显示了对测定结果产生的自动化和手动基因型之间的比较,并且表6详述了手动和自动化分类呼叫之间的比较。

表6:用于滴定研究的分类性能表

8.2.5.qc失败模式模拟研究

为了测试研究中的roxqc失效模式,生成样品组以具有样品基因型范围间的两种不同类型的rox失败。第一种失败模式包括没有标记的rox片段的rush样品组的ce分析。第二种失效模式包括用rox400梯(rox1000为此测定所需要)对rust样品组的ce分析。分析了总共不具有rox的13个样品和具有rox400的12个样品,并且在大小测定梯qc状态上通过算法正确地未通过。

8.2.6.结果周转时间的改善

注释装置130大大改善了产生fmr1结果的周转时间(turn-aroundtime)。对于1000个样品的分组,假设手动操作者需要每个样品1分钟,产生需要的16.6小时来处理整个分组。与之相比,注释装置130在1分24秒内产生整个分组(在使用2个核心的机器上)的结果,证明了结果时(intimetoresult)的>700倍增加。

8.2.7.分析能力

为了进一步例示测定法的分析灵敏性,图22a到25b描绘了算法能够正确说明根据手动操作者产生大小测定的一系列不同的基因型和极端情况(corner-cases)。例如,图22a和22b描绘了具有正常基因型的样品的自动大小测定分析的结果。图22c和图22d描绘了具有排列基因型的样品的自动大小测定分析的结果。图23a和23b描绘了扩充样品的自动大小测定分析结果。图23c和23d描绘了低水平次要等位基因鉴定和大小测定。图24描绘了具有贯穿正常、排列和扩充基因型范围的基因型混合物的对照样品的自动大小测定分析的结果。图25a和25b描绘了针对包含在95%排列样品的背景下5%完全突变样品的混合物的对照样品的自动大小测定分析的结果。图25a描绘了包括所有呼叫的基因型的完全样品,而图25b描绘了显示完全突变呼叫的放大版本。

8.3.讨论

开发了fmr1pcr计算机上cgg片段大小分析工具。此种新型工具将实现完全范围的临床相关fmr1基因型的快速且准确鉴定和大小测定,支持高容量样品处理和自动化数据分析。

前面实施例中汇总的研究证明了用于fmr1pcr片段大小分析的高性能注释装置,其具有几个重要特征。其中包括:(1)对整个临床相关范围的fmr1cgg重复大小进行准确的基因分型;(2)对低水平嵌合性(低至1%)准确鉴定和大小测定的能力;(3)与abi家族遗传分析仪(3130、3500、3730)的多仪器兼容性;(4)对由毛细管电泳仪器(气泡、不正确校准、渗出伪像、信号饱和度和收集噪声)产生的信号伪像的稳健性;(5)与人工处理样品(>500倍)相比,分析时间显著缩短,和/或(6)自动化qc分析和样品标记以保护用户免受较差的扩增、污染伪像、质量差的rox梯或预期的等位基因检测能力与经样品推断的等位基因检测能力的差异。

前面的实施例意图例示而绝不限制本公开。考虑到本文公开的装置和方法的说明和实践,所公开的装置和方法的其它实施方案对于本领域技术人员将是显而易见的。

前面公开的实施方案仅出于例示的目的而呈现。本公开不是穷尽的,并且不将所要求保护的主题限制到所公开的精确实施方案。本领域的技术人员将从前面的描述中认识到,根据上述教导,修改和变化是可能的,或者可以通过实施本发明而获得。在一些方面,与公开的实施方案一致的方法可以排除所公开的方法步骤,或者可以改变所公开的方法步骤的顺序或公开的方法步骤之间的分离程度。例如,方法步骤可以在必要时省略、重复或组合,以实现相同或相似的目标。在各个方面,非暂时性计算机可读介质可以存储进行与所公开的实施方案一致的方法的指令。这些指令可以排除所公开的方法步骤,或者改变所公开的方法步骤的顺序或公开的方法步骤之间的分离程度。例如,非暂时性计算机可读介质可以存储进行与所公开的实施方案一致的方法的指令,其在必要时省略、重复或组合方法步骤以实现相同或类似目标。在某些方面,系统不需要一定包括每个公开的部分,并且可以包括其它未公开的部分。例如,系统可以在必要时省略、重复或组合以实现相同或类似的目标。因此,要求保护的主题不限于所公开的实施方案,而是由所附权利要求书根据其全部等同方案的范围来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1