鉴别并区分遗传样品的系统及方法与流程

文档序号:15303869发布日期:2018-08-31 20:41阅读:234来源:国知局

本申请要求于2015年11月16日提交的美国临时申请号62/256,049和2016年3月10日提交的美国临时申请号62/306,597的权益,其每一个均通过引用以其全文并入于此用于所有目的。



背景技术:

通常使用dna微阵列(或生物芯片)来探测样品是否存在靶核酸。微阵列涉及固定在固体支持物上的探针阵列。探针阵列可被组织为探针簇,每个探针簇均可单独寻址。每个簇可包括多个探针,在每个簇中每个探针与其他探针相同,并且每个均能够与相同的靶核酸序列结合。在样品与微阵列杂交后,可以确定存在与探针结合的靶核酸。微阵列可以提供以下优点:成本效益好,在能够确定样品中存在数千至数百万个序列方面高度可放大,并且提供比其他类似放大方法更快的响应时间。

然而,与其他技术如dna测序相比,微阵列可表现出较低的灵敏度和特异性。探针必须经过精心设计,以确保对感兴趣的靶标的特异性。这在检查复杂样品时可能会产生问题,该复杂样品包括不止一个遗传物质源,诸如环境样品。此外,区分共有高水平遗传相似性的两个或更多个受试物的能力可能难以使用微阵列技术进行区分。本文的方法和系统描述了用于鉴别和区分复杂样品中的受试物的新型微阵列或生物芯片。



技术实现要素:

在一些方面,公开了包含多个受试物特异性特征的生物芯片,其中每个受试物特异性特征包含多个不同探针,其中所述多个不同探针能够结合能从样品中的多个受试物中区分受试物的靶标。在一些实施方案中,所述受试物为细胞类型。在一些实施方案中,样品中的受试物为不同的细胞类型。在一些实施方案中,所述受试物为生物体。在一些实施方案中,样品中的受试物为不同的生物体。在一些实施方案中,所述探针为核酸。在一些实施方案中,所述靶标为基因组区域。

在一些方面,公开了包括以下步骤的方法:(a)获得包含多个受试物的样品;(b)从该样品中提取核酸并对其进行片段化;(c)使提取和片段化的核酸与生物芯片杂交,其中该生物芯片包含含有多个独特探针的受试物特异性特征;(d)对生物芯片进行成像以鉴别具有杂交的探针的受试物特异性特征;以及(e)提供报告,其列出使用生物芯片从所述多个受试物中鉴别的受试物。在一些实施方案中,所述核酸未得到扩增。在一些实施方案中,所述生物芯片具有超过100个受试物特异性特征。在一些实施方案中,所述受试物为细胞类型。在一些实施方案中,所述受试物为生物体。在一些实施方案中,所述受试物为细菌。在一些实施方案中,所述受试物为基因。在一些实施方案中,所述受试物为保守区。在一些实施方案中,所述受试物为与致病性、毒力或抗生素抗性相关的区域。

在另一方面,提供了一种生物芯片,其包含:一组或多组探针,其中所述一组或多组探针中的每一组包含多个探针,其中所述多个探针中的每一个包含一个或多个受试物特异性特征,并且其中所述一组或多组探针中的每一组与来自多个不同受试物的不同受试物的靶核酸结合。在一些情况下,一组探针内的所述多个探针中的每一个是相同的。在一些情况下,一组探针内的所述多个探针中的每一个是不同的。在一些情况下,所述多个探针中的每一组包含多个独特探针。在一些情况下,所述多个探针中的每一组包含所述多个独特探针的预定平均表现度(representation)。在一些情况下,所述多个独特探针的所述平均表现度是通过以下方式控制的:限制所述一组或多组探针中的每一组内的探针总数目,以预定比例混合所述多个独特探针,或者两者的组合。在一些情况下,所述一组或多组探针中的每一组包含约2-1000个独特探针。在一些情况下,所述平均表现度包含所述探针组内的所述多个独特探针中的每一个的约2-1000个表现度。在一些情况下,每一组探针内的受试物特异性特征是相同的。在一些情况下,所述一组或多组探针中的每一组包含不同的受试物特异性特征。在一些情况下,所述一组或多组探针中的每一组均可单独寻址。在一些情况下,一组探针内的所述多个探针中的每一个与存在于所述靶核酸上的相同核酸序列互补。在一些情况下,一组探针内的所述多个探针中的每一个与存在于所述靶核酸上的不同核酸序列互补。在一些情况下,所述一组或多组探针中的每一组与受试物的基因组的独特区域互补。在一些情况下,受试物的基因组的所述独特区域未在不同受试物的基因组中表现。在一些情况下,所述多个不同的受试物包含多种不同的细胞类型。在一些情况下,所述一组或多组探针中的每一组与来自所述多种不同细胞类型的不同细胞类型的靶核酸结合。在一些情况下,所述多个不同的受试物包含多个不同的生物体。在一些情况下,所述多个不同的受试物包含多个不同的个体。在一些情况下,所述多个不同的受试物包含多个不同的株。在一些情况下,所述多个不同的受试物包含多个不同的基因。在一些情况下,所述多个不同的受试物包含多个不同的基因组区域。在一些情况下,所述一组或多组探针中的每一组与来自所述多种不同生物体的不同生物体的靶核酸结合。在一些情况下,所述多个探针包含核酸分子。在一些情况下,所述多个探针被固定到固体支持物(solidsupport)上。在一些情况下,所述固体支持物为珠子。在一些情况下,所述受试物特异性特征包含一个或多个遗传特征。在一些情况下,所述一个或多个遗传特征选自:代表物种的基因组、代表物种内的株的基因组、染色质、染色体、染色体基因座、染色体材料、等位基因、基因、基因簇、基因座、遗传多态性、基因突变、核苷酸、单核苷酸多态性(snp)、限制性片段长度多态性(rflp)、可变串联重复序列(vtr)、拷贝数变体(cnv)、微卫星序列、遗传标记、序列标记、序列标志位点(sts)、质粒、转录单位、转录产物、基因表达状态、保守区、致病岛(pia),其任意组合。在一些情况下,所述一组或多组探针包含超过100组探针。在一些情况下,所述一组或多组探针中的每一组包含约50-1000个探针。

在另一方面,提供了一种方法,其包括:a)提供包含来源于多个不同受试物的多种核酸的样品,其中所述多种核酸包含来自所述多个不同受试物中的至少两个的至少一种靶核酸;b)使所述多种核酸与生物芯片杂交(hybridize),其中所述生物芯片包含一组或多组探针,其中所述一组或多组探针中的每一组包含多个探针,其中所述多个探针中的每一个包含一个或多个受试物特异性特征,并且其中所述一组或多组探针中的每一组与来自所述多个不同受试物的所述多个不同受试物中的至少两个的所述至少一种靶核酸结合;c)检测与所述至少一种靶核酸与所述多个探针中的探针结合相关的信号;以及d)根据所述样品中存在所述至少一种靶核酸来鉴别所述多个不同的受试物。在一些情况下,该方法进一步包括在步骤a)之前从所述多个不同的受试物中提取所述多种核酸。在一些情况下,该方法进一步包括在步骤b)之前对所述多种核酸进行片段化。在一些情况下,该方法进一步包括在步骤b)之前使所述多种核酸扩增。在一些情况下,所述多种核酸未得到扩增。在一些情况下,该方法进一步包括提供鉴别所述多个不同受试物的一个或多个报告。在一些情况下,所述多个不同的受试物包含多种不同的细胞类型。在一些情况下,所述多个不同的受试物包含多种不同的生物体。在一些情况下,一组探针内的所述多个探针中的每一个是相同的。在一些情况下,一组探针内的所述多个探针中的每一个是不同的。在一些情况下,所述多个探针中的每一组包含多个独特探针。在一些情况下,所述多个探针中的每一组包含所述多个独特探针的平均表现度。在一些情况下,所述多个独特探针的所述平均表现度是通过以下方式控制的:限制所述一组或多组探针中的每一组内的探针总数目,以预定比例混合所述多个独特探针,或者两者的组合。在一些情况下,所述一组或多组探针中的每一组包含约2-1000个独特探针。在一些情况下,所述平均表现度包含所述探针组内的所述多个独特探针中的每一个的约2-1000个表现度。在一些情况下,每一组探针内的受试物特异性特征是相同的。在一些情况下,所述一组或多组探针中的每一组包含不同的受试物特异性特征。在一些情况下,所述一组或多组探针中的每一组均是可单独寻址的。在一些情况下,一组探针内的所述多个探针中的每一个与存在于所述靶核酸上的相同核酸序列互补。在一些情况下,一组探针内的所述多个探针中的每一个与存在于所述靶核酸上的不同核酸序列互补。在一些情况下,所述一组或多组探针中的每一组与受试物的基因组的独特区域互补。在一些情况下,受试物的基因组的所述独特区域未在不同受试物的基因组中表现。在一些情况下,所述多个探针包含核酸分子。在一些情况下,所述多个探针被固定到固体支持物上。在一些情况下,所述固体支持物为珠子。在一些情况下,所述一个或多个受试物特异性特征包含一个或多个遗传特征。在一些情况下,所述一个或多个遗传特征选自:物种的基因组、株的基因组、染色质、染色体、染色体基因座、染色体材料、等位基因、基因、基因簇、基因座、遗传多态性、基因突变、核苷酸、单核苷酸多态性(snp)、限制性片段长度多态性(rflp)、可变串联重复序列(vtr)、拷贝数变体(cnv)、微卫星序列、遗传标记、序列标记、序列标志位点(sts)、质粒、转录单位、转录产物、基因表达状态、保守区、致病岛(pia),及其任意组合。在一些情况下,所述一组或多组探针包含超过100组探针。在一些情况下,所述一组或多组探针中的每一组包含约50-1,000个探针。在一些情况下,所述至少一种靶核酸用可检测标记物进行标记。在一些情况下,所述可检测标记物包含荧光染料。在一些情况下,所述多个探针中的第一探针包含第一受试物特异性特征,并且所述多个探针中的第二探针包含第二受试物特异性特征,并且其中所述第一探针和所述第二探针与所述至少一种靶核酸杂交。

在另一方面,提供了产生标记的核酸片段的方法,该方法包括:(a)提供靶核酸,其中所述靶核酸是双链的;(b)使所述靶核酸与转座体接触,该转座体包含(i)转座子和(ii)用标记物标记的寡核苷酸;以及(c)用所述转座体从所述靶核酸产生核酸片段,其中所述核酸片段是双链的,并且其中所述核酸片段包含(i)所述靶核酸的一部分和(ii)所述标记物。根据权利要求60所述的方法,该方法进一步包括使所述核酸片段变性以产生标记的单链片段。在一些情况下,该方法进一步包括使所述标记的单链片段与阵列杂交。在一些情况下,所述核酸片段进一步包含所述寡核苷酸的至少一部分。在一些情况下,所述标记物为荧光标记物。在一些情况下,所述核酸片段在5’端包含所述标记物。

另一方面,提供了一种组合物,其包含:靶核酸的双链片段,其包含第一链和第二链;与所述第一链共价结合的第一寡核苷酸;与所述第一寡核苷酸结合的第一标记物;与所述第二链共价结合的第二寡核苷酸;以及与所述第二寡核苷酸结合的第二标记物。在一些情况下,所述第一寡核苷酸与所述第一链在所述第一链的5’端共价结合,并且其中所述第二寡核苷酸与所述第二链在所述第二链的5’端共价结合。在一些情况下,所述第一标记物和所述第二标记物包含荧光标记物。

另一方面,提供了一种生物芯片系统,其包含:光学检测器,其特征在于光学分辨率;和生物芯片,其光学地连接至所述光学检测器,其中所述生物芯片包含:(i)包含第一多个相同探针的第一特征,和(ii)包含第二多个相同探针的第二特征,其中所述第一多个相同探针和所述第二多个相同探针彼此不同;其中所述第一特征和所述第二特征包含在小于或约等于所述光学分辨率的区域中。在一些情况下,所述光学分辨率由所述光学检测器的像素尺寸决定。在一些情况下,所述第一多个相同探针靶向受试物的第一受试物特异性特征,并且所述第二多个相同探针靶向所述受试物的第二受试物特异性特征。在一些情况下,所述第一受试物特异性特征和所述第二受试物特异性特征是不同的。在一些情况下,所述第一受试物特异性特征和所述第二受试物特异性特征各自包含核酸序列。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示细胞类型。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示生物体类型。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示物种。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示物种的个体成员。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示抗性性状。在一些情况下,所述第一多个相同探针和所述第二多个相同探针为核酸。

在另一方面,提供了一种装置,其包含:生物芯片,该生物芯片包含(i)包含第一探针和第二探针的第一特征,和(ii)包含所述第一探针和所述第二探针的第二特征,其中所述第一探针不同于所述第二探针。在一些情况下,所述第一探针靶向受试物的第一受试物特异性特征,并且所述第二探针靶向所述受试物的第二受试物特异性特征。在一些情况下,所述第一受试物特异性特征和所述第二受试物特异性特征是不同的。在一些情况下,所述第一受试物特异性特征和所述第二受试物特异性特征各自包含核酸序列。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示细胞类型。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示生物体类型。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示物种。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示物种的个体成员。在一些情况下,所述第一受试物特异性特征或所述第二受试物特异性特征指示抗性性状。在一些情况下,所述第一多个相同探针和所述第二多个相同探针为核酸。在一些情况下,从所述第一特征产生的信号指示存在所述第一探针和所述第二探针两者的靶标。在一些情况下,从所述第一特征和所述第二特征产生的信号以置信度值指示存在特定物种、株、基因或基因组特征。

附图说明

图1a-图1f图示了生物芯片系统的实施方案。图1a描绘了四个示例性特征,每个特征包含相同的探针和来自样品中的单个受试物的四个未结合的标记靶标。图1b描绘了受试物特异性特征,其具有四个探针和来自样品中的单个受试物的四个未结合的标记靶标。图1c描述了与四个不同特征结合的四个靶标。图1d描述了与单个受试物特异性特征结合的四个靶标。比较图1c与图1d证明了当使用针对多个受试物靶标的多个不同探针时可以在单个特征上发生的信号放大。图1e描绘了其中独特探针有序汇集在一个不同的特征内的特征。图1f描绘了特征之间的独特探针随机汇集的特征。

图2描绘了可通过增加每个特征结合的荧光团的数目获得的相对信号。

图3描绘了适用于进行本文公开的方法的示例性计算机系统。

图4描绘了在m13mp18噬菌体载体序列上鉴别的22个独特区域。

图5描述了使用本文所述的方法针对m13mp18噬菌体载体序列设计的独特探针的实例。

图6描绘了使用转座体复合物的双链dna一步片段化和标记的示例性示意图。

图7a描绘了通过在分开的捕获和检测序列处杂交而对靶核酸的杂交和检测。

图7b描绘了通过在分开的捕获和检测序列处杂交而对靶核酸的fret信号检测。

图7c描述了通过多个杂交序列使靶核酸与阵列杂交。

图8描绘了在过滤器基底上的寡核苷酸阵列处浓缩的核酸的示例性示意图。

图9a描绘了示例性计算机系统。

图9b描绘了计算机系统的示例性结构。

图9c描绘了计算机系统的示例性网络。

图9d描绘了示例性多处理器计算机系统。

图10示出了针对病毒与非病毒结核病的测定的结果。

具体实施方式

定义

除了本领域技术人员对这些术语的理解之外,还讨论以下术语来说明该说明书中使用的术语的含义。如本说明书和权利要求中所用的,除非上下文另外明确说明,否则单数形式“一个”、“一种”和“该”可以包括复数形式。例如,术语“一个细胞”可以包括多个细胞,包括其混合物。

如本文所用的,术语“表观基因组”是指遗传物质的变化或遗传物质的蛋白质表达,其不反映在序列水平上,诸如dna甲基化和染色质重组或重塑。“转录物组”是指在某些环境条件下由生物体合成的全部基因转录物(mrna)。转录物组数据集包括但不限于关于感兴趣的基因表达的激活或失活的定性和定量信息。转录物组还包括不编码包括微rna、piwirna、结构rna、与蛋白质结合的rna、端粒酶rna和转座子rna在内的蛋白质(非编码rna或ncrna)的rna转录物。“外显子组”是指由外显子形成的基因组部分,当转录时,这些序列保留在成熟rna内。“微生物组”是指生物样品中的全部基因组,不管是何种类,通常来源于微生物。

如本文所用的,术语“遗传特征”是指任何基因组、基因型、单元型、染色质、染色体、染色体基因座、染色体材料、脱氧核糖核酸(dna)、等位基因、基因、基因簇、基因座、遗传多态性、基因突变、基因突变速率、核苷酸、核苷酸碱基对、单核苷酸多态性(snp)、限制性片段长度多态性(rflp)、可变串联重复序列(vtr)、拷贝数变体(cnv)、微卫星序列、遗传标记、序列标记、序列标志位点(sts)、质粒、转录单位、转录产物、基因表达水平、基因表达(例如,转录)状态、核糖核酸(rna)、互补dna(cdna)、保守区和致病岛,包括与上述任意一项相关的核苷酸序列和编码的氨基酸序列。表观遗传学特征是遗传物质——所有基因组、载体和质粒dna以及染色质——的任何特征,该特征以在体细胞分裂期间可遗传并且有时在种系传递中可遗传的方式影响基因表达,但该特征对dna序列是非突变的,因此是基本可逆的,包括但不限于dna核苷酸的甲基化和染色质相关组蛋白的乙酰化。因此,如本文所用,遗传序列数据可包括但不限于核苷酸序列、脱氧核糖核酸(dna)序列和核糖核酸(rna)序列。

如本文所用的术语“受试物特异性特征(subject-specificfeature)”可以指能够区分一个受试物与另一受试物的任何特征或属性。在一些情况下,受试物特异性特征是遗传特征。如上所述,遗传特征可存在于从受试物分离的核酸上。在一些情况下,受试物特异性特征可能与区分一组功能的一个或多个特征有关。例如,这可以通过设计探针以靶向单个基因、多个基因或具有已知表观基因组功能的基因组区域如启动子区域来完成。受试物特异性特征可以表现为生物芯片上的探针。代表受试物特异性特征的探针可以能够与从受试物获得的一种或多种靶核酸序列结合。在一些情况下,受试物特异性特征包含多个不同的探针,每个探针能够区分一个受试物与另一个受试物。在一些情况下,特定受试物如微生物株可以通过生物芯片上的一个或多个特征来区分,包括对目标株而言独特的、对包含该株的物种而言独特的、在该株中存在的保守区中包含的或识别在该株内包含的致病岛的特征。在一些情况下,简单地鉴别致病岛可能是有价值的,因为这可以表明受试物需要更多的测试。

术语“装配”可以是任何计算过程,其中由测序仪或质谱仪产生的序列串彼此合并,以重建原始序列串为目标,从中导出所有序列串的集合。在一些情况下,装配体来自单独的生物体。在一些情况下,可以使用多个个体来创建装配体。在一些情况下,在不使用参考序列的情况下从头创建装配体。在一些情况下,使用参考序列创建装配体。参考序列可以是来自相同物种的基因组。参考基因组可以是来自密切相关物种的基因组。

如本文所用的术语“受试物(subject)”通常是指遗传物质的特定来源。受试物可以是生物实体。该生物实体可以是植物、动物或微生物,包括例如细菌、病毒、真菌和原生动物。受试物可以是器官、组织或细胞。受试物可以在体内获得或在体外培养。受试物可以是细胞系。受试物可以在培养中繁殖。受试物可以是疾病细胞。受试物可以是癌细胞。受试物可以是哺乳动物。该哺乳动物可以是人。受试物可以意指遗传物质的特定来源的个体代表(例如,受试物可以是特定的人类个体或特定的细菌菌株)。或者,受试物可以是遗传物质的一种特定来源的一般代表,例如,受试物可以是单个物种的任意成员及所有成员。例如,如果样品不含全基因组,那么受试物也可以是基因组的一部分。

“样品”或“核酸样品”可以指含有或假定含有核酸的任何物质。样品可以是从受试物获得的生物样品。核酸可以是rna、dna,例如基因组dna、线粒体dna、病毒dna、合成dna或从rna逆转录的cdna。核酸样品中的核酸可以用作延伸杂交引物的模板。在一些情况下,生物样品是液体样品。该液体样品可以是例如全血、血浆、血清、腹水、精液、脑脊液、汗液、尿液、泪液、唾液、口腔样品、腔体冲洗液或器官冲洗液。该液体样品可以是基本无细胞的液体样品(例如,血浆、血清、汗液、尿液、泪液等)。在其他情况下,生物样品是固体生物样品,例如粪便、毛发、指/趾甲或组织活检物,例如肿瘤活检物。样品还可以包含体外细胞培养成分(包括但不限于由细胞培养基中的细胞生长产生的条件培养基、重组细胞和细胞成分)。样品可以包含或来源于癌细胞。样品可以包含微生物组。

如本文所用的“复杂样品”是指包含两个或更多个受试物或包含来自两个或更多个受试物的物质(例如,核酸)的样品。复杂样品可以包含来自两个或更多个受试物的遗传物质。复杂样品可以包含来自两个或更多个受试物的核酸分子。复杂样品可以包含来自两种或更多种细菌、病毒、真菌等株的核酸。复杂样品可以包含两个或更多个可分辨的受试物(即,两个或更多个彼此可区分的受试物)。在一些情况下,复杂样品可以从环境中获得。例如,复杂样品可以是空气样品、土壤或尘土样品或水样品(例如,河流、湖泊、海洋、废水等)。环境样品可以包含细菌、病毒、原生动物、藻类、真菌等的一个或多个物种。

“核苷酸”可以是可形成核酸的生物分子。核苷酸可以具有不仅包含已知的嘌呤和嘧啶碱,而且包含已经被修饰的其他杂环碱的部分。这类修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、烷基化的核糖或其他杂环。另外,术语“核苷酸”包括含有半抗原、生物素或荧光标记物的那些部分,并且不仅可以含有常规的核糖和脱氧核糖,而且也含有其他糖。修饰的核苷或核苷酸还包括对糖部分的修饰,例如,其中一个或多个羟基用卤素原子或脂族基团取代,被官能化为醚、胺等。

“核苷酸”还可以包括锁定核酸(lna)或桥接核酸(bna)。bna和lna通常是指修饰的核糖核苷酸,其中核糖部分用连接2′氧和4′碳的桥修饰。通常,该桥在3'-内(北)构象中锁定核糖,这通常在a型双链体中发现。术语“锁定核酸”(lna)通常是指一类bna,其中核糖环用连接2'-o原子与4'-c原子的亚甲基桥“锁定”。根据标准watson-crick碱基配对规则,含有出现在dna和rna中的六种常见核碱基(t、c、g、a、u和mc)的lna核苷能够与其互补核苷形成碱基对。因此,只要需要,bna和lna核苷酸可以与寡核苷酸中的dna或rna碱基混合。锁定的核糖构象增强了碱基堆积和骨架预组织化。碱基堆积和骨架预组织化可以引起双链体的热稳定性(例如,增加的tm)和辨别力增加。lna可以在其他核酸无法做到的情况下区分单碱基错配。

术语“多核苷酸”、“核酸”、“核苷酸”和“寡核苷酸”可以互换使用。它们可以指任意长度的核苷酸(脱氧核糖核苷酸或者核糖核苷酸)的聚合形式,或其类似物。多核苷酸可以具有任何三维结构,并且可以行使已知或未知的任何功能。以下是多核苷酸的非限制性实例:基因或基因片段的编码或非编码区、由连锁分析定义的一个或多个基因座、外显子、内含子、信使rna(mrna)、转移rna、核糖体rna、核酶、cdna、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的dna、任何序列的分离的rna、核酸探针和引物。多核苷酸可以包含修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物。如果存在的话,可以在聚合物装配之前或之后赋予对核苷酸结构的修饰。核苷酸序列可以被非核苷酸组分打断。聚合后可以诸如通过与标记组分偶联来进一步修饰多核苷酸。

“变体”可以是核酸序列(例如,基因)的正常序列的改变。在一些情况下,基因型和相应的表型与变体相关联。在其他情况下,变体没有已知的功能。变体可以是snp。变体可以是snv。变体可以是多个核苷酸的插入。变体可以是多个核苷酸的缺失。变体可以是突变。变体可以是拷贝数变异。变体可以是结构变体。变体可以是群体中两个或更多个个体之间的核酸偏差。

如本文所用的术语“靶多核苷酸”或“靶核酸”通常是指处于研究之中的感兴趣的多核苷酸。在某些情况下,靶多核苷酸含有一个或多个感兴趣并处于研究之中的序列。靶多核苷酸可以包含例如基因组序列。靶多核苷酸可以包含期望确定其存在、量和/或核苷酸序列或它们的变化的靶序列。靶多核苷酸可以包含基因组的非编码区。

术语“基因组”可以指生物有机体的遗传互补体,并且术语“基因组数据”和“基因组数据集”包括生物有机体的染色体、基因或dna的序列信息。

如本文所用的术语“基因组数据”是指可以是以下一种或多种的数据:以下一种或多种的基因组或外显子序列,或以下一种或多种的任意组合或混合物:线粒体,细胞,包括卵子和精子,组织、赘生物、肿瘤、器官、生物体、微生物、病毒、个体或无细胞dna,并且进一步包括但不限于核酸序列信息、基因型信息、基因表达信息、遗传数据、表观遗传信息(包括dna甲基化、乙酰化或类似dna修饰数据),rna转录、剪接、编辑或加工信息,或医学、健康或表型数据,或任何微生物、病毒、细胞、组织、赘生物、肿瘤、器官、器官系统、无细胞样品(例如血清或培养基)、单个的或成组的样品或个体的营养、饮食或环境条件或暴露信息或其他属性数据。因此,如本文所用的术语“基因组序列”是指在基因组中出现的序列。因为rna是从基因组转录的,该术语包括存在于生物体的核基因组中的序列,以及存在于从这种基因组转录的rna(例如,mrna)的cdna拷贝中的序列。“基因组序列”也可以是出现在细胞质上或线粒体中的序列。

术语“确定”、“测量”、“评价”、“评估”、“测定”和“分析”在本文中可互换使用,是指任何形式的测量,并且可以包括确定元素是是否存在。这些术语可以包括定量和/或定性测定。评估可以是相对的或绝对的。“评估…的存在”可以包括确定存在的事物的数目,以及确定它是存在还是不存在。

如本文所用的术语“基因组片段”可以指基因组的区域,该基因组例如是动物或植物基因组,诸如人类、猴、大鼠、鱼或昆虫或植物的基因组。基因组片段可以是或可以不是衔接子连接的。基因组片段可以是衔接子连接的(在这种情况下,它具有连接至片段的一端或两端、连接至分子的至少5'端的衔接子)或是非衔接子连接的。

如本文所用的术语“条形码”通常是指可以编码关于测定的信息的核苷酸序列。在一些情况下,条形码是独特的。条形码序列可以编码涉及被探询的等位基因的身份,靶多核苷酸或基因组基因座的身份,样品、受试物的身份或其任意组合的信息。条形码序列可以是引物、报道基因探针或两者的一部分。条形码序列可以位于寡核苷酸的5'端或3'端,或者可以位于寡核苷酸的任何区域。条形码序列可以是非天然存在的,例如,在所研究的样品中不存在的序列。在其他情况下,天然存在的序列可以用作条形码或作为条形码序列的一部分。在一些情况下,核酸已经连接处的接头(junctions)可以用作条形码。在一些情况下,测序衔接子可以用作条形码或作为条形码的一部分。在一些情况下,条形码相对于靶分子,例如感兴趣的基因组序列是过量的。在一些情况下,条形码随机或半随机地与靶分子相关联。在一些情况下,条形码通过设计与靶分子相关联。

如本文所用的术语“突变”通常是指基因组的核苷酸序列的改变。突变可以涉及dna的大片段(例如,拷贝数变异)。突变可以涉及整个染色体(例如,非整倍性)。突变可以涉及dna的小片段。涉及dna小片段的突变的实例包括例如点突变或单核苷酸多态性、多核苷酸多态性、插入(例如,一个或多个核苷酸在基因座处的插入)、多核苷酸改变、缺失(例如,一个或多个核苷酸在基因座处的缺失)和倒位(例如,一个或多个核苷酸的序列的逆转)。

如本文所用的术语“基因座”可以指染色体上的基因、核苷酸或序列的位置。如本文所用的,基因座的“等位基因”可以指基因座处的核苷酸或序列的替代形式。“野生型等位基因”通常是指在受试物群体中具有最高频率的等位基因。“野生型”等位基因通常并不与疾病相关联。“突变等位基因”通常是指比“野生型等位基因”频率更低并且可能与疾病相关联的等位基因。“突变等位基因”可能不一定与疾病相关联。术语“被探询的等位基因”通常是指设计试验以便检测的等位基因。

如本文所用的术语“单核苷酸多态性”或“snp”通常是指由序列内的单核苷酸置换产生的一种类型的基因组序列变异。“snp等位基因”或“snp的等位基因”通常是指特定基因座处的snp的替代形式。术语“被探询的snp等位基因”通常是指设计试验以便检测的snp等位基因。

本文公开了用于新型生物芯片的方法和系统,该生物芯片具有鉴别样品中的一个或多个受试物或鉴别关于受试物的重要特性如致病性、毒力或抗生素抗性的能力。该生物芯片可以包含含有一个或多个受试物特异性特征的多个探针。如本文所用的术语“受试物特异性特征”是指可以区分和鉴别一个受试物与另一个受试物的多个探针。在本发明的一些方面,可以利用受试物特异性特征来鉴别存在于复杂样品中的受试物。复杂样品可以是含有来自超过一个受试物(即,两个或更多个受试物)的物质的任何(生物或其他)样品。在一些情况下,受试物为生物体,如病毒、细菌、原生动物、真菌等。在其他情况下,受试物是组织、器官或源自前者的细胞。该组织、器官或细胞可以来源于动物,诸如人。复杂样品可以包括多种细胞类型。在一些情况下,复杂样品可以包括组织活检物,如肿瘤活检物。在一些实例中,复杂样品包括微生物(例如,细菌、病毒、真菌等)的两种或更多种株。在其他实例中,复杂样品包括微生物的两个或更多个物种。在一些情况下,复杂样品包含来自两个或更多个受试物的物质,如核酸。受试物特异性特征可用于确定复杂样品中存在的一个或多个受试物的身份。本文的方法和系统不限于任何一种类型的复杂样品。重要的方面是复杂样品包括超过一个具有至少一个区别特征的受试物。

复杂样品可以包括核酸的混合物。该核酸可以来源于超过一个受试物。生成核酸样品的任何方法均是本公开内容允许的。在一些情况下,获得包含生物细胞的复杂样品,并且随后裂解该生物细胞以从细胞中释放核酸。核酸也可以通过物理方法从生物细胞中释放出来。在其他情况下,获得无细胞核酸。无细胞核酸可以从人或动物中(例如,从血液中)获得。无细胞核酸也可以从环境获得,例如从生物体释放到环境中的核酸。无细胞核酸可以例如来源于病毒的衣壳或来自包含在孢子内的病原体。

复杂样品内的核酸可以包含靶核酸序列。靶核酸序列可以是区分一个受试物与另一个受试物的核酸序列。例如,靶核酸序列可以是在受试物b中未发现的受试物a的多个基因组序列。可以利用这些靶核酸序列来鉴别包含受试物a和受试物b的复杂样品中受试物a的存在。同样,靶核酸序列可以是在受试物a中未发现的受试物b的多个基因组序列。可以利用这些靶核酸序列来鉴别包含受试物a和受试物b的复杂样品中受试物b的存在。在一些情况下,所述生物芯片可以能够从受试物b中鉴别出受试物a(即,具有仅识别受试物a的探针)、能够从受试物a中鉴别出受试物b(即,具有仅识别受试物b的探针),或者鉴别出受试物a和受试物b二者(即,具有识别受试物a的探针和识别受试物b的探针)。

在一些情况下,本文的方法和系统能够区分2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、10000个或超过10000个受试物。在一些情况下,所述生物芯片包含2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、10000个或超过10000个受试物特异性特征。在一些情况下,本文的方法和系统能够区分至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、10000个或超过10000个受试物。在一些情况下,所述生物芯片包含至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、10000个或超过10000个受试物特异性特征。

靶核酸序列可以是存在于复杂样品内包含的核酸上的一个或多个核酸序列。靶序列可以被设计为与样品内的其遗传互补体结合(例如,化学结合)。所述一个或多个核酸序列可以与另一个核酸序列相区分,从而提供分辨样品内核酸起源的能力。例如,复杂样品可以包含两个或更多个受试物。每个单独的受试物可以含有核酸,因此,复杂样品可以包含来自每个单独的受试物的核酸。在一些情况下,本文的方法和系统用于鉴别样品中存在的单独的受试物。例如,以包含受试物a和受试物b的样品为例。该样品可以包含源自受试物a和受试物b二者的核酸。该核酸可以包括区分受试物a和受试物b的至少一种靶核酸序列,反之亦然。本文的方法和系统可用于鉴别至少一个靶核酸序列。然后可以使用此信息来确定复杂样品包含受试物a和受试物b二者。

靶核酸

靶核酸序列可以是区别一个受试物与另一个受试物或者区分靶标属性如抗生素抗性或致病性的任何核酸序列。在一些情况下,复杂样品中存在的一个或多个受试物具有基本上相同的基因组,并且使用标准微阵列技术可能难以解析。在一些情况下,所述一个或多个受试物具有90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、99.99%、99.999%相同的基因组。在一些情况下,所述一个或多个受试物是一种或多种不同的微生物株,例如细菌、病毒、真菌等的一种或多种株。

靶核酸序列可以包含一个或多个遗传特征。所述一个或多个遗传特征可以区分一个受试物与另一个受试物。遗传特征可以包含基因组、基因型、单元型、染色质、染色体、染色体基因座、染色体材料、等位基因、基因、基因簇、基因座、遗传多态性、基因突变、单核苷酸多态性(snp)、限制性片段长度多态性(rflp)、可变串联重复序列(vtr)、拷贝数变体(cnv)、微卫星序列、遗传标记、序列标记、序列标志位点(sts)、质粒、转录单位、转录产物、基因表达水平、基因表达状态。靶核酸序列可以包含基本上任何已知的遗传特征。

靶核酸可以包含脱氧核糖核酸(dna)或核糖核酸(rna)。dna可以是基因组dna或cdna。如本领域技术人员已知的,可以通过rna的逆转录产生cdna。靶核酸可以是单链或双链的。在一些情况下,靶核酸可以是修饰的。核酸修饰可以包括本领域已知的那些修饰,并且靶核酸可以包含基本上任何修饰。有用的修饰包括但不限于放射性和荧光标记物以及锚配体如生物素或洋地黄毒苷。修饰可以置于靶标内部或靶标的5'或3'端处。靶标修饰可以在合成后,通过化学或酶促反应如连接或聚合酶辅助延伸来进行。

靶核酸的长度可以变化。靶核酸大小可以从数十至数百或数千碱基对,或者甚至数万或数十万碱基对不等。在一些实例中,靶核酸的长度为约10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000个或更多个碱基对。在一些实例中,靶核酸的长度为至少约10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000个或更多个碱基对。在一些实例中,靶核酸的长度为至多约10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10000个碱基对。

在施加于生物芯片之前,靶核酸可以经历任意数目的样品制备步骤。这些步骤可以包括本领域技术人员已知的任意数目的片段化、扩增、修饰或纯化步骤。

靶核酸可以通过任何技术从生物样品中释放,这些技术包括化学裂解、声处理、均质化等。在任何进一步的处理步骤之前,靶核酸可以经历任意数目的本领域已知的纯化步骤(例如,以便去除细胞碎片、污染物或其他材料)。

在一些情况下,靶核酸可以在施加于生物芯片之前进行标记。在一些情况下,靶核酸可以在施加于生物芯片之后进行标记。靶核酸可以用多个标记物进行标记。核酸标记物可以是能够检测核酸的任何标记物。可以使用任意数目的标记物,包括放射性标记、荧光团、染料、生物素、酶(例如,辣根过氧化物酶(hrp)、碱性磷酸酶(ap))等。靶核酸可以在5’端、3’末端或两者处进行标记。在一些情况下,靶核酸是主体标记的。可以使用任何标记核酸的方法,包括酶促技术,诸如末端脱氧核苷酸转移酶(tdt)、t4rna连接酶、t4多核苷酸激酶(pnk)、dna聚合酶、rna聚合酶;或化学技术,诸如高碘酸盐氧化、5’-磷酸的1-乙基-3-[3-二甲基氨基丙基]碳化二亚胺盐酸盐(edc)活化或化学随机标记(例如,光反应性标记系统,可从kreatechdiagnostics商购获得的universallinkagesystem)。在一些情况下,不需要标记物,并且可以通过质子的释放、表面上的化学组成的变化、光路中的折射率的变化或者杂交事件的直接电检测来检测靶标的结合。

靶核酸可以用染料或染色剂进行标记。适用于标记核酸的染料可以包括本领域已知的那些染料。该染料可以是荧光染料。在一些情况下,该染料为cy3。在一些情况下,该染料为cy5。

靶核酸可以在5’端、3’端处进行标记或进行主体标记。关于使用哪种方法的决定可部分取决于所需标记的程度以及标记物是否可引起空间位阻并阻止与探针的相互作用。

在一些情况下,核酸标记物随机掺入核酸分子各处(即,主体标记)。可以使用多种方法来对靶核酸进行主体标记。主体标记方案可涉及使用酶将标记的核苷酸掺入靶核酸中。在一些情况下,用标准聚合酶链反应(pcr)方法生成主体标记的核酸。该方法可用于两个目的:1)将标记的核苷酸随机掺入生长的核酸链中;以及2)模板核酸的扩增。该方法可以涉及使用靶标特异性引物或随机引物。在一些情况下,靶核酸在施加于生物芯片之前通过pcr进行扩增。

在一些情况下,标记的核苷酸通过随机引物延伸随机掺入。在该实例中,使用多个随机引物(例如,六核苷酸)在单链dna模板上随机引发dna合成。标记的核苷酸的dna合成和随机掺入可涉及使用dna聚合酶i或dna聚合酶i的klenow片段。在一些情况下,可在靶核酸与探针杂交之后进行标记,例如通过使用双链dna标记方案。

在其他情况下,标记的核苷酸通过滚环扩增随机掺入。当靶核酸分子是环状的(例如,质粒、噬菌体的环状基因组、类病毒的环状rna基因组等)时,该方法可能特别适合。在滚环扩增中,在环状核酸分子的一条链中生成切口,从而产生不连续链和连续链。使用等温扩增反应扩增环状载体的连续链。在一些情况下,滚环扩增使用显示出高链置换活性的φ29dna聚合酶。

在一些情况下,靶核酸在与生物芯片杂交之前未进行扩增。

在一些情况下,靶核酸在施加于生物芯片之前进行剪切或片段化。剪切方法可以包括本领域已知的那些方法,并且可以包括声处理、针剪切、穿过弗氏压碎器(frenchpressurecell)、点汇剪切(point-sinkshearing)、声剪切、限制性消化、片段化酶或转座体介导的片段化。在一些情况下,靶核酸在剪切或片段化之前进行标记。如果标记方法涉及例如滚环扩增,则该方法可能是合适的。在其他情况下,在标记之前进行靶核酸的剪切。

转座体介导的片段化可用于同时生成片段并标记这些片段以供检测。转座酶(如tn5)可以切割合成dna序列并将其共价连接至其他dna分子的5’端。通过将例如5’标记的荧光团连接到合成dna上,可以同时对dna进行片段化和标记。在变性后,该片段化的和标记的(例如,荧光标记的)dna可以准备与阵列杂交。例如,图6显示了与含有带有标记物603(例如,荧光标记物)的寡核苷酸的转座体复合物602相互作用的双链dna(dsdna)601的示例性示意图。在温育604后,由转座体复合物产生带有标记物605的片段化dsdna。然后可以使用变性606来产生标记的单链dna(ssdna)607以供杂交。转座体介导的片段化可用于产生片段化的dna,无论是双链的还是单链的(例如,变性后),其也含有标记物和来自转座体的合成dna片段。与片段化和标记的两步法相比,这些技术可以提高产率和效率。

样品材料如核酸可以进行浓缩和/或纯化。这可以帮助分析样品材料。例如,不允许核酸通过但允许离子、蛋白质和其他细胞碎片通过的膜(例如分子量截留膜,如二乙基氨基乙基(deae)纤维素纸)可用于浓缩核酸。寡核苷酸捕获阵列在该膜上的点印和固定可以允许通过增加捕获探针附近的靶标浓度并将靶标带到捕获探针而加速与阵列的杂交。电场或流体流动的方向可以暂时逆转或呈脉冲形式以促进在平行于表面的平面中的流动,从而进一步提高杂交速率并缩短杂交时间。例如,图8显示了样品dna800靠近过滤器基底801上的寡核苷酸阵列的实例;当施加电场时(阴极802,阳极803),样品dna经历电泳并在阵列处集中。或者,如果短暂地逆转电流(例如使用简单的分子量截留过滤膜),可将核酸移出该膜并进入溶液中,并且用于例如与固定在二氧化硅、塑料、玻璃或另一基底上的阵列杂交。代替电泳运动或除电泳运动之外,还可以通过施加流体流动来相对于所述膜移动核酸来进行浓缩。

电极(例如,图8中的802和803)可以彼此间隔开,使得自由基或对核酸的其他氧化性损伤源的浓度降低。这种类型的设计可以减少核酸在例如浓缩步骤期间经历的氧化性损伤的量。

除了扩散之外,还可以通过多种手段使核酸接近生物芯片或其他阵列表面。如上所述,可以使用电泳和/或流体流动来在阵列表面处或附近浓缩核酸。也可以采用其他技术。例如,阵列表面可以在其全部或部分表面上具有疏水表面化学(例如,在探针特征处),并且靶核酸可以用疏水部分进行标记,从而导致核酸对表面疏水性区域具有能量偏好。在另一个实例中,靶核酸可以用磁性颗粒进行标记,并且可以利用磁场使靶核酸朝向阵列表面。

体积排除化合物也可用于有效浓缩样品材料,诸如样品dna。体积排除物可用于从体积排除物占据的液体体积中排除样品材料,从而将样品材料在剩余的液体体积中予以浓缩。该机制可以帮助加速样品材料的捕获或结合,诸如样品核酸与基底的杂交。例如,体积排除物可以包含在杂交缓冲液中以改善杂交动力学。体积排除物可以是例如珠子或聚合物,包括但不限于硫酸葡聚糖、ficoll和聚乙二醇。体积排除物可以是高分子量聚合物。体积排除物可以是带负电荷的,例如以减少核酸与所述体积排除物的结合。

探针

本文公开的生物芯片具有分布在表面上的多个探针。在一些情况下,所述多个探针被固定在生物芯片的表面上。在一些情况下,该表面是固体的(solid)。在其他情况下,该表面是半固体的。在一些情况下,该表面为玻璃或硅。可以使用表面化学将所述多个探针固定到表面。

在一个非限制性实例中,使用1-乙基-3-[3-二甲基氨基丙基]碳化二亚胺盐酸盐(edc)化学将所述多个探针固定到生物芯片的表面。在该方法中,生物芯片上的羧基基团用edc活化。活化的羧基基团可以与伯胺基团反应形成稳定的酰胺键。在该实例中,生物芯片可以是珠子,在一些情况下,生物芯片可以是二氧化硅珠或玻璃珠。所述多个探针在5’或3’端处进行氨基修饰。氨基修饰的非限制性实例包括一个或多个氨基修饰的核苷酸,包括5’-氨基烯丙基-dutp、5-炔丙基氨基-dctp、n6-6-氨基己基-datp和7-去氮-7-炔丙基氨基-datp。使用这种方法,可以在5’或3’端处将探针固定到生物芯片上。在一些情况下,利用两步法:1)用edc活化,随后2)用n-羟基琥珀酰亚胺(nhs)处理以提高效率或产生干燥稳定的(胺反应性)中间体。在一些情况下,采用两步edc处理来提高固定化效率。在该实例中,可以将第一浓度的edc施加到生物芯片上,接着是随后的第二浓度的edc。在一些情况下,edc的第一浓度低于edc的第二浓度。在一些情况下,这种两步edc处理提高了探针固定化的效率。

所述生物芯片可以包含多个探针。所述多个探针可以分布在生物芯片的表面上。该生物芯片可以包含多个不需要作为单个固体物理连接的表面。包含探针的表面可以是例如珠子或一系列珠子。所述珠子可以是相同的。所述珠子可以是微珠。所述珠子可以是可单独解析的。珠子可以包含珠子特异性条形码。珠子可以包含珠子特异性标记物。珠子可以包含珠子特异性结合位点。

微阵列的经济性和所需的杂交时间可以通过减小微阵列的活性或杂交区域来改善。在这种情况下,制造小型微阵列将节省成本,并且较小的活性区域将允许使用浓缩程度更高的样品提高杂交活性。

探针可以是能够与存在于核酸样品中的靶序列进行watson-crick碱基配对的寡核苷酸。探针的长度可以改变。在一些情况下,遗传特征内的探针长度变化小于20%、10%、5%或1%。在一些情况下,探针的长度是相同的。探针大小可以从数十到数百,或数千个碱基对,或者甚至数万或数十万个碱基对不等。在一些情况下,探针为约20个碱基长、约25个碱基长、约30个碱基长、约35个碱基长、约40个碱基长、约45个碱基长、约50个碱基长、约55个碱基长、约60个碱基长、约65个碱基长、约70个碱基长、约75个碱基长、约80个碱基长、约85个碱基长、约90个碱基长、约95个碱基长、约100个碱基长、约110个碱基长、约120个碱基长、约130个碱基长、约140个碱基长、约150个碱基长、约200个碱基长、约250个碱基长、约300个碱基长、约350个碱基长、约400个碱基长、约450个碱基长、约500个碱基长、约600个碱基长、约700个碱基长、约800个碱基长、约900个碱基长、约1000个碱基长或超过1000个碱基长。

可以将探针分布到生物芯片的表面上成为受试物特异性特征。受试物特异性特征可以包含多个探针。在一些情况下,受试物特异性特征包含10、100、1000、10,000个或超过100,000个单独的探针。受试物特异性特征可以包含多个相同的探针。在其他情况下,受试物特异性特征可以包含多个汇集的不同探针。不同的探针可以在不同区域与靶核酸结合。探针可以与靶标在非重叠区域结合。在一些情况下,不同的探针具有重叠的序列。受试物特异性特征可以包含至少10、100、1000、10,000、100,000个或更多个不同的探针。在一些情况下,生物芯片包含超过10、100、1000、10,000、100,000、1,000,000、10,000,000、100,000,000或1,000,000,000个单独的受试物特异性特征。

受试物特异性特征可以以单独可寻址的方式(例如,单独可寻址以供检测)分布在生物芯片上,诸如在非连续斑点或簇中。对应于受试物特异性特征的多个探针可以被布置成一组或多组探针。在每组探针内,所述多个探针可以是相同的或者它们可以彼此不同。在每组内,所述多个探针可以各自包含受试物特异性特征。每组内的多个探针可以包含一个或多个区分一个受试物与另一个受试物的受试物特异性特征。在一些情况下,受试物特异性特征可以是阵列上的斑点或区域,诸如圆形、正方形或矩形区域。在一些情况下,受试物特异性特征可以是珠子。在一些情况下,受试物特异性特征可以是一系列用特征特异性标签标记的探针。例如,特征特异性标签可以是特征特异性条形码或特征特异性标记物的结合位点。在一些情况下,特征具有复制特征。在一些情况下,复制特征是相同的。在一些情况下,复制特征被设计为鉴别相同的靶多核苷酸。在一些情况下,复制特征被设计为鉴别相同的基因组。在一些情况下,复制特征被设计为鉴别物种内的任何株。在一些情况下,复制特征被设计为鉴别个体。

图1a至图1f图示了示例性生物芯片系统。图1a描绘了四个示例性特征,其中每个特征包含相同的探针,以及来自样品中单个受试物的四个未结合的标记靶标。靶标与探针的结合将因此导致来自每个特征的一个单位信号。图1b描绘了受试物特异性特征,其具有四个探针和来自样品中单个受试物的四个未结合的标记靶标。靶标与探针的结合将因此导致来自一个特征的四个单位信号。图1c描绘了与四个不同特征结合的四个靶标,从而导致来自每个特征的一个单位信号。图1d描绘了与单个受试物特异性特征结合的四个靶标,从而导致来自一个特征的四个单位信号。比较图1c与图1d证明了当使用针对多个受试物靶标的多个不同探针时可以在单个特征上发生的信号放大。图1e描绘了其中独特探针有序汇集在不同特征中的特征,从而导致如图1a和图1c所示的阵列表现。图1f描绘了特征之间的独特探针随机汇集的特征,从而导致如图1b和图1d所示的排列。

探针组内的多个独特探针或受试物特异性特征可以位于在大小上小于或相当于检测系统的分辨率的区域中。由多个独特和有序的探针所包围的区域可能小于检测系统的分辨率、等于检测系统的分辨率,或者只要该组中至少2个随机排序的独特探针所包围的区域大致等于或小于该检测系统的分辨率,则由所有独特探针所包围的区域可以更大。在这样的情况下,来自多个独特探针或特征的信号可以收集或集成在一个或几个像素或其他分辨单元中。这样的方法可以获得与将不同探针汇集到单个特征中相似的结果。

作为参考,在微阵列光学检测中使用的成像系统可以具有每个像素或分辨单元1微米(μm)至5μm的分辨率。通常,直径或长度为5μm的光学检测微阵列特征将用能够有1μm至5μm光学分辨率的光学系统成像。另一个实例是由中心到中心间隔为2μm、直径为1μm的珠子组成的微阵列。该阵列可以用0.5μm至1μm分辨率的光学系统成像。

在一个实例中,单独的独特探针(例如,dna片段)在作为探针组沉积在基底上之前汇集,单独的独特探针可以附接至基底,独特探针之间的平均距离例如为从探针中心到探针中心10纳米(nm)到十几nm的数量级。包含该探针组的单个特征的尺寸可以是例如直径约1μm、2μm、3μm、4μm或5μm。然后具有例如大约1μm分辨能力的成像系统可以将来自该特征内的多个单独探针的信号收集或集成到一个像素或最多25个像素或其他分辨单元中。

在一些设计中,所述特征可以被布置为使得它们之间的空间不含信息,或者所述特征可以排序为边界接触,诸如特征的棋盘格图案,其中在特征之间不存在任何没有信号的区域。例如,在与其他特征直接相邻放置的5平方微米特征的情况下,可能需要1μm或2μm的分辨率来区分特征。另一方面,如果5μm珠子与其他5μm珠子的中心到中心间距为15μm,那么5μm或者大概10μm分辨率的成像系统可足以区分来自微阵列上的不同特征的信号。

在另一个实例中,将多个相同的探针一起分组在尺寸上小于成像系统的分辨率的第一特征中,并且该特征被定位为与靶向同一受试物的其他特征相邻,其中特征内的探针是相同的,但不同于第一个特征中的探针。如果所有探针都包含在大致等于或小于由检测系统分辨能力所定义的区域的区域内,则检测器可将来自所有探针的信号集成到单个像素或分辨单元中。这样在大小接近于或小于成像系统分辨率的区域中汇集相同探针类型的组可以实现与随机汇集探针组相同的益处。

所述生物芯片可以包含多个受试物特异性特征。在一些情况下,所述生物芯片包含超过10、100、1000、10,000个或超过100,000个受试物特异性特征。在一些情况下,所述多个受试物特异性特征被排列成多组探针,其中每组探针鉴别不同的受试物。

探针可以能够结合靶标。探针可以与靶标互补。探针可以对靶标具有亲和力。探针可以是所有三种的组合。针对不同受试物的特征可以包含不同的探针。在一些情况下,非复制特征不会与另一个特征共享任何探针。在一些情况下,非复制特征与另一个特征共享其探针的不到0.1%、1%、5%或不到10%。

在一些情况下,每组探针具有独特探针类型的平均表现度。在一些情况下,独特探针类型的平均表现度为约2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000或更大。

为了控制探针组的特异性和该探针组的动态范围,可以控制一组内的探针片段的总数以及一组内的单个、独特探针类型的平均表现度。在一个实例中,如果探针的总数限制为大约1000并且该组中的独特探针类型的数目为250,则单独的探针类型的平均表现度将为约4。在第一实例中,如果四个受试物细胞的dna存在于样品中,并且来自这四个受试物细胞的约90%的基因组dna在样品制备过程之后保留在样品中并且基本上与阵列结合,则信号强度将为最大强度的约95%。同样,如果来自两个受试物细胞的dna存在并以95%的效率处理及杂交,则信号强度可以为最大强度的约50%。在第二实例中,如果样品中不存在受试物细胞,但是非受试物生物体在样品中极为丰富,超过1000个细胞,并且来自非受试物生物体的dna含有匹配单个探针类型的单个区域,则从单一匹配的探头类型生成的信号平均可以小于最大信号的约1%。

相比之下,假设为上述相同的两个实例,如果将独特单个探针类型的数目设置为10并且探针片段的总数为10,000,那么平均探针表现度将为约1000。在这种情况下,假设为上述实例a,信号强度将小于最大信号的1%,可能导致假阴性测定。在相同的情况下,但是假设为上述的实例b,则信号强度将是最大信号的约10%,有可能导致假阳性测定。那么就可以检测到的靶细胞而言,可能会牺牲检测下限以便增加系统的特异性,即排除由于组内一个或多个探针的结合错误而导致的假阳性判定的能力。

在一些方面,控制受试物特异性特征中的探针的总数。控制受试物特异性特征中的探针总数的方法包括但不限于控制总特征大小以及控制受试物特异性特征内的单个探针间距。

在一些方面,探针可以被设计为检测假阳性。例如,可以通过设计探针组来设计探针,其中探针组内的单个探针被设计为具有与其他探针组中的单个探针不匹配的一个或多个碱基。在一些情况下,探针组是互补的。在其他情况下,探针组是不互补的。在另一个实例中,探针组可以设计为搜索具有多个相似株的受试物生物体。在这个实例中,可以添加探针组来检测包含在株中的单个序列,所述株并非靶标,但其基因组非常接近于具有一个或多个单个独特特性的靶标的基因组。

探针组的设计还可以包括经验筛选步骤以便更多地了解可能的假阳性行为。这可以基于添加针对各种类型的基因组dna的对照(control),该基因组dna可以在自然界中发现并且可以是杂交活动中包括的非受试物材料的一部分。这些探针组可以单独筛选或作为组进行筛选。

所述生物芯片上的特征(例如,阵列斑点)可以各自不同,包括但不限于含有不同数目的探针、不同类型的探针、不同的受试物特异性特征、独特探针的不同平均表现度等。在一个非限制性实例中,生物芯片可以包括多个受试物特异性特征的阵列。每个受试物特异性特征可以包括一组探针,其中每组包括多个独特的探针。在一些特征(或斑点)中,探针组可以包括针对可以用于测量阵列灵敏度的目标受试物的独特探针的低平均表现度。在同一阵列上的其他特征中,探针组可以包括针对可以用于测量样品中靶核酸丰度的相同目标受试物的独特探针的高平均表现度。可以在生物芯片上设计任意数目的灵敏度和/或丰度特征。

所述生物芯片可以经历多次探测实验,以供对不同来源(例如,来自两种不同微生物组样品)的杂交强度进行连续比较。例如,所述生物芯片可以经历多次连续杂交反应,并且可选地进行多次读取反应,每个反应针对不同探针组的特性进行优化。

所述探针可以设计为与靶多核苷酸(或靶标)杂交。靶多核苷酸可以是基因组序列。靶多核苷酸可以是基因组的非编码区。靶标可以是基因组特征。靶标可以是线粒体dna。靶标可以是来自质粒的dna。靶标可以是变体。靶标可以是基因组的保守区或与致病性相关的区域。

靶标可以是与另一基因组可区分开的基因组的区域。靶标可以是对于受试物群体内的受试物来说独特的多核苷酸。靶标可以是微生物组内的多核苷酸,其有别于在该微生物组中表现的特定物种。

用于探针设计的示例性方案如下。首先,为探针组选择长度标准(例如,35个碱基)。其次,通过顺序地经过受试物基因组,从靶标基因组创建一组选定长度的k-mer。第三,将k-mer与相同物种的其他基因组进行比较(例如,通过blasting)。第四,将k-mer与可公开获得的所有其他基因组(即不是同一物种)如人、细菌、病毒等基因组进行比较(例如,通过blasting)。在一些情况下,第三步和第四步可以一起进行,尽管这可能导致针对一些物种(例如,大肠杆菌)的极小的组。第五,创建独特的候选k-mer短列表。另外,这些独特探针的中间碱基可以改变为每个正交碱基(1个k-mer导致3个错配k-mer),并且所述错配k-mer也可以与所有其他可公开获得的基因组(例如,通过blasting)并且/或者与相同物种的其他基因组进行比较。第六,对候选物的自我互补性(即探针是否将与自身结合)进行检测。第七,根据单链的自由能评估解链温度。第八,基于独特性等级(例如,独特的序列的百分比)对k-mer进行排名。另外,可以针对其他性状如gc含量过滤k-mer。例如,在一些情况下,仅包括gc含量<60%的k-mer。第九,通过与相同物种的选定基因组杂交来凭经验检测候选物。第十,根据这些结果,选择最终候选物集合体。

可以将探针设计为与已知的核酸序列互补。在一些情况下,受试物多核苷酸可以在探针设计之前进行测序,以便确定多核苷酸的序列。一旦多核苷酸得到测序,则可以设计探针来靶向受试物多核苷酸。在一些情况下,受试物多核苷酸包含在受试物基因组中发现的序列。在这个实例中,可以对受试物基因组进行测序,并可以设计探针来靶向基因组内的多核苷酸。在一些情况下,可以通过确定两个或更多个受试物之间的非重叠基因组区域来生成靶标的列表。在一些情况下,通过比较装配体来鉴别靶标。测序方法可以包括毛细管测序、新一代测序、sanger测序、合成测序、单分子纳米孔测序、连接测序、杂交测序、纳米孔电流限制测序,或其组合。合成测序可以包括可逆终止子测序、进行性单分子测序、连续核苷酸流测序,或其组合。连续核苷酸流测序可以包括焦磷酸测序、ph介导的测序、半导体测序,或其组合。进行一个或多个测序反应包括非靶向测序(例如,全基因组测序)或靶向测序(例如,外显子测序)。

测序方法可以包括maxim-gilbert、链终止或高通量系统。备选地或另外地,测序方法可以包括helioscopetm单分子测序、纳米孔dna测序、lynxtherapeutics的大规模平行信号测序(mpss)、454焦磷酸测序、单分子实时(rnap)测序、illumina(solexa)测序、solid测序、iontorrenttm、离子半导体测序、单分子smrt(tm)测序、聚合酶克隆测序(polonysequencing)、dna纳米球测序,visigen生物技术方法,或其组合。备选地或另外地,测序方法可以包括一个或多个测序平台,包括但不限于由illumina提供的基因组分析仪iix、hiseq、nextseq和miseq,由pacificbiosciences(california)提供的单分子实时(smrttm)技术如pacbiors系统,和由helicosinc.(cambridge,ma)提供的真正单分子测序(tsmstm)技术如heliscopetm测序仪,由geniatechnologies,inc.开发的基于纳米孔的测序平台,以及oxfordnanoporeminion。

在一些情况下,查询序列或基因表达数据库以鉴别目标受试物的已知核酸序列。序列或基因表达数据库的非限制性实例包括ncbi的genbank、欧洲分子生物学实验室(embl)、日本的dnadatabank(ddbj)、ensembl、ashbya基因组数据库(agd)、biocyc、cleanex、cygd、dictybase、echobase、ecogene、euhcvdb、evotrace、flybase、genecards、genedb、genefarm、genolist、gramene、hgnc、hinv-db、hogenom、kegg、maizegdb、merops、mgd、nmpdr、ncbi核苷酸数据库、ncbirefseq、panther、pccdb、peroxibase、pfam、phosphositeplus、plasmodb、pptasedb、pseudocap、rgd、sgd、tair、tigr/scvi、unigene、vectorbase、wormbase和z-fin。

方法

在一些方面,本文所述的方法包括提供包含多个不同受试物的样品。在一些情况下,该样品包含来源于多个不同受试物的多种核酸。在一些情况下,所述多种核酸包括来自所述多个不同受试物中的至少两个或更多个的至少一种靶核酸。

在一些方面,所述方法进一步包括从所述多个受试物中提取核酸。在一些方面,该方法还包括对从所述多个受试物中提取的核酸进行片段化。在施加于生物芯片之前,可对该核酸进行任何另外的处理步骤。在一些情况下,该核酸可以在与生物芯片杂交之前进行修饰。例如,该核酸可以如本文所述进行标记。另外地或备选地,靶核酸可以例如通过使用捕获探针或扩增步骤来富集。在其他实例中,非靶核酸可以在杂交之前从样品中消耗。

在进一步的方面中,所述方法包括使所述多种核酸与生物芯片杂交。该生物芯片可以如本文所述进行设计。杂交后,该方法可进一步包括任意数目的洗涤步骤。例如,在核酸与生物芯片上的探针杂交后,可以用例如缓冲液或洗涤溶液洗涤该生物芯片一次或多次,以除去任何未杂交的核酸。可以丢弃未杂交的核酸或将其收集起来用于进一步处理。

在一些方面,可以例如通过电导率、电容或电阻的改变来检测杂交的核酸。在一些情况下,对生物芯片进行成像。在一些实例中,在检测之前将读取缓冲液添加到生物芯片。读取缓冲液可以包括在施加到杂交的核酸上时生成可检测信号的试剂。在其他实例中,可检测地标记该核酸分子。

在一些方面,可以添加另外的特异性步骤。在一个实例中,杂交后的连接步骤可以区分单碱基错配。也可以通过添加另外的杂交步骤以供捕获、检测或两者来提高特异性。例如,图7a显示了包含捕获序列702和相邻或附近的检测序列703的靶核酸701。可以使用具有捕获寡核苷酸705(例如,具有与捕获序列互补的序列)的阵列基底704来杂交并捕获707靶核酸。可以使用检测寡核苷酸706(例如,荧光标记的)来与靶核酸的检测序列杂交708,从而能够检测靶核酸。检测寡核苷酸可以与未标记的靶核酸一起处于游离溶液中。检测寡核苷酸与靶核酸的杂交可以在于阵列上捕获靶核酸之前、期间或之后发生。检测寡核苷酸可以与任何完全(或几乎完全)互补的序列杂交。可以在相对较高的浓度下进行检测,使得其可以快速杂交。由于捕获序列和检测到的序列邻近,因此这两个序列在dna的任何小片段上重合的可能性很低,因此降低了检测信号是非特异性的可能性。

在一些情况下,捕获序列和检测序列被足够紧密地放置在一起,以降低它们将位于靶核酸的不同片段上的机会。

如果捕获序列和检测到的序列相邻,则使用能量转移染料组合(例如,fret)可以减少背景。在一个实例中,如图7b所示,供体染料位于捕获寡核苷酸7153’端,并且受体染料位于检测寡核苷酸716上的5’端处。可以在阵列基底714上捕获包含捕获序列712和检测序列713的靶核酸711。捕获寡核苷酸717和检测寡核苷酸718两者与靶核酸的杂交可以使供体和受体染料进入彼此的fret距离。一旦在fret距离内,激发光719可以激发fret供体,fret供体继而可以通过共振能量转移激发fret受体,从而允许产生fret信号720。供体和受体染料的位置和定位可以改变。例如,供体染料可以在检测寡核苷酸上,而受体染料可以在捕获寡核苷酸上。染料可以在捕获寡核苷酸以外的位置处与阵列表面结合。这些想法可以扩展到同一个特征中的多个捕获座位。

对于单个靶核酸可以采用多个捕获和/或检测序列。例如,图7c显示了包含三个捕获序列732733734的靶核酸731的示例性示意图。阵列基底735类似地包含一个特征内的三个捕获寡核苷酸736737738。杂交739后,每个捕获序列与其相应的捕获寡核苷酸杂交。局部条件(例如,缓冲液组成、温度、ph)可被配置成使得少于全部的捕获序列的杂交不足以保持靶核酸与阵列结合,从而增加分析的特异性。如果存在正确的靶序列,则多个捕获序列可以协作起作用,但是如果相互作用是非特异性的,则独立起作用。一旦区域得到捕获,则可以快速捕获其他相邻区域并且其(例如,由于捕获序列的局部高浓度)相对难以去除。

类似地,可以采用多个检测序列和相应的检测寡核苷酸,使得对于阳性信号需要所有检测寡核苷酸的存在。在一个实例中,每个检测寡核苷酸具有不同的发射波长,并且针对每个不同的发射波长检测信号,以便记录阳性信号。在另一个实例中,可以使用检测寡核苷酸的fret对,并且与靶核酸上的检测序列的杂交可以使它们在彼此的fret距离内。不同的检测寡核苷酸可用于识别不同的性状。例如,可以使用一种检测寡核苷酸来指示受试物的身份(例如,物种、株或个体),而另一种检测寡核苷酸可以用于指示受试物的基因、突变或其他特性(例如,抗生素抗性、毒力)。

在一些方面,可以基于检测样品中核酸的存在来确定存在于原始样品中的受试物的身份。在一些情况下,可以设计特定受试物的靶标来检测特定的株。在一些情况下,靶标可以包括针对受试物物种的探针,或受试物内包含的在其他方面为独特的其他区域,诸如代表保守区或与致病性相关的区域。在一些情况下,靶标可以包括能够区分特定个体如特定人员的探针。单独的探针组可以唯一地鉴别特定的个体。在其他情况下,对个体的鉴别可能不是唯一的,但可以根据独特性等级提供有价值的判定置信度水平。在一些情况下,个体判定的置信度水平可以是约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、96%、98%、99%、99.9%、99.99%或99.999%。在一些情况下,个体判定的置信度水平可以是至少约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、96%、98%、99%、99.9%、99.99%或9.999%。在一些情况下,个体判定的置信度水平可以是至多约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、96%、98%、99%、99.9%、99.99%或99.999%。

在一些情况下,在报告上提供结果。该报告可以列出从原始样品中的多个受试物鉴别出的受试物。在受试物由多个特征如株特异性特征、物种特异性特征以及由该受试物内存在的保守区组成的特征代表的情况下,该报告可以列出是否也检测到这些其他特征。然后最终的阳性判定可以基于根据是否未检测到或检测到全部、一些与受试物相关的特征所计算出的置信度水平。

在一些方面,所述方法包括在检测之后存储完整样品的能力。这可以例如通过将样品制备过程中的时间点处的样品分离成a样品和b样品来完成。a样品可以在整个样品制备过程中继续进行,而b样品可以被转移到储存器以供后续处理。在另一个实例中,可以在杂交过程之后通过例如洗涤生物芯片以除去未杂交的核酸而将样品的未杂交部分转移到储存器。在又一个实例中,杂交的核酸可以进行去杂交并转移到储存器中以供后续查询。

本公开内容的技术可以使用针对一些或全部步骤的自动操作来进行。例如,在一些情况下,唯一由用户进行的步骤是样品加载,而所有其他步骤如样品制备、流体处理、测定、检测和结果报告都自动进行。在其他情况下,即使是样品加载也可以自动进行。例如,可以使用实验室自动化设备或环境采样设备向装置提供样品以进行分析。

检测

在本公开内容的一些方面,检测靶核酸与生物芯片上的探针的结合。检测可以包括本领域技术人员已知的任何方法。在一些情况下,检测涉及检测存在于靶核酸分子、探针或两者上的可检测标记物。在其他情况下,检测涉及检测基于靶核酸分子和探针的相互作用所生成的信号。

在一些情况下,所述信号是基于荧光共振能量转移(fret)的信号。在该实例中,靶核酸分子和探针均用一种或多种荧光标记物进行标记。所述一种或多种荧光标记物可以是一个或多个fret对。所述一个或多个fret对可以包含至少一个fret供体和至少一个fret受体。在一些情况下,将fret供体附接于靶核酸分子,而将fret受体附接于探针。在其他情况下,将fret受体附接于靶核酸分子,而将fret受体附接于探针。fret供体和受体可以附接于靶核酸分子和探针的任一端(3’或5’)。在一些情况下,fret供体为cy3,而fret受体为cy5。fret对的其他非限制性实例包括:fitc/tritc、egfp/cy3、cfp/yfp和egfp/yfp。

在其他情况下,检测涉及检测靶核酸上存在的可检测标记物。在该实例中,仅当可检测标记的靶核酸分子与探针结合时才可以检测到信号。在一些情况下,靶核酸分子用cy5进行5’-标记。在一些情况下,可以通过例如检测干涉式振荡器上的表面条件的差异、光路中的折射率差异或使用扫描电子显微镜检查(sem)技术的直接检测来检测未标记的杂交结合。

如果利用光学检测,则生物芯片可以是光学检测器如cmos照相机的表面,或者生物芯片可以在由外部光学系统探测的流动池内。在光学荧光检测的情况下,可以使用常规的荧光光学检测架构,包括荧光共聚焦显微术。如果探针直接固定在cmos检测器上,则cmos检测器可在探针与cmos检测器之间具有阻挡该系统的激发光并允许来自所选染料的光通过的层。

除了荧光标记物之外,还可以使用其他标记物。标记物本身可以是可检测的,或者可以允许结合另一种可检测种类。示例性标记物包括但不限于荧光团、纳米颗粒(例如,金纳米颗粒)、量子点、放射性标记、磁性颗粒、条形码(例如,核酸条形码)、活性位点、结合位点、具有fret能力的标记物、疏水性种类、亲水性种类、抗体、适体。随后可以将自身无法检测到的标记物与可检测的种类接触。例如,靶核酸可以用生物素予以标记,并随后与链霉亲和素缀合的荧光团结合以供检测。在另一个实例中,靶核酸可以用核酸条形码来标记;随后,可以扩增并检测核酸条形码序列。检测模式可以包括但不限于光学检测(包括fret、荧光寿命和其他光学性质)、电检测、磁性检测、放射性标记检测、测序、大小检测(例如,通过电泳分离)、表面等离子体共振(spr)、拉曼光谱法和质谱法。

特征之间的相对信号可以由每个特征结合的标记物的数目来决定。例如,如图2所示,每个特征可以结合不同数目的荧光团,从而导致不同的相对亮度。图2显示了每个特征1个荧光团(顶部)、每个特征10个荧光团(中间)和每个特征50个荧光团(底部)的相对亮度。

计算机系统

本公开内容的系统可包含一个或多个计算机系统。本公开内容的技术和装置可采用用于操作、自动化、样品处理、数据处理、数据传输、分析、结果呈现和其他功能的计算机系统。图3显示了被编程或以其他方式配置为实现本公开内容的方法的计算机系统301,诸如接收数据和鉴别样品中存在或不存在受试物。计算机系统301包括中央处理单元(cpu,本文也称为“处理器”和“计算机处理器”)305,其可以是单核或多核处理器或用于并行处理的多个处理器。计算机系统301还包括存储器310(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元315(例如,硬盘)、用于与一个或多个其他计算机系统通信的通信接口320(例如,网络适配器)以及外围设备125,如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器310、存储单元315、接口320和外围设备325通过通信总线(实线)如主板与cpu305通信。存储单元315可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统301借助于通信接口320可操作地耦合至计算机网络(“网络”)330。网络330可以是互联网、因特网和/或外联网,或与因特网通信的内联网和/或外联网。在一些情况下,网络330为电信和/或数据网络。网络330可包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下,网络330借助于计算机系统301可以实现对等网络,这可以使得耦合至计算机系统301的设备能够充当客户端或服务器。该计算机系统不必在物理上靠近所述设备;它可以通过有线或无线模式与该设备进行通信。

计算机系统301可与处理系统335通信。处理系统335可被配置为实施本文公开的方法,诸如鉴别一个或多个靶核酸序列的存在或者在报告上对多个受试物进行分类。处理系统335可通过网络330或通过直接(例如,有线、无线)连接与计算机系统301通信。处理系统335可被配置用于分析,诸如核酸序列分析。

如本文所述的方法和系统可通过存储在计算机系统301的电子存储位置上(例如存储在存储器310或电子存储单元315上)的机器(或计算机处理器)可执行代码(或软件)来实现。在使用期间,该代码可以由处理器305执行。在一些实例中,该代码可从存储单元315中检索并存储在存储器310上以备处理器305访问。在一些情况下,可不包括电子存储单元315,而将机器可执行指令存储在存储器310上。

所述代码可以被预编译并且被配置用于与具有适合于执行该代码的处理器的机器一起使用,该代码可以在运行时间期间进行编译或者可以在运行时间期间进行解译。该代码可以以编程语言来提供,可以选择编程语言以使该代码能够以预编译、正在编译或解译的方式执行。

本文提供的系统和方法的各方面可以在编程中体现。该技术的各个方面可以被认为是典型地为机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制造品”,该机器(或处理器)可执行代码和/或相关数据在一种类型的机器可读介质中携带或体现。机器可执行代码可以存储在电子存储单元中,诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘中。“存储”型介质可以包括计算机、处理器等的有形存储器或其相关模块(诸如各种半导体存储器、磁带驱动器、磁盘驱动器等)中的任何一个或全部,其可以在任何时间为软件编程提供非暂时存储。该软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,这类通信可以使软件能够从一台计算机或处理器加载到另一台,例如从管理服务器或主机加载到应用服务器的计算机平台。因此,能够承载软件元件的另一种类型的介质包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光学陆上线路网络以及各种空中链路所使用的。携带这类波的物理元件如有线或无线链路、光链路等也可以被认为是承载软件的介质。如本文所用的,除非限于非暂时性的有形“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此,机器可读介质如计算机可执行代码可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机等中的任何存储设备,诸如可用于实现数据库等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号,或者诸如在射频(rf)和红外(ir)数据通信期间生成的声波或光波的形式。因此,计算机可读介质的常见形式包括例如:软盘,柔性盘,硬盘,磁带,任何其他磁性介质,cd-rom、dvd或dvd-rom,任何其他光学介质,穿孔卡片纸带,具有孔图案的任何其他物理存储介质,ram,rom,prom和eprom,flash-eprom,任何其他存储器芯片或匣盒,传输数据或指令的载波,传输这类载波的电缆或链路,或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以参与将一个或多个指令的一个或多个序列携带到处理器以供执行。

计算机系统301可包括电子显示器或与电子显示器通信,该电子显示器包含用于提供例如可以通过本公开内容的方法进行分析的遗传变体的可定制菜单的用户界面(ui)。ui的实例包括但不限于图形用户界面(gui)和基于网络的用户界面。

在一些情况下,计算机系统301包括向用户提供视觉信息的显示器。在一些情况下,该显示器为阴极射线管(crt)。在一些情况下,该显示器为液晶显示器(lcd)。在进一步的实例中,该显示器为薄膜晶体管液晶显示器(tft-lcd)。在一些情况下,该显示器为有机发光二极管(oled)显示器。在各种进一步的实例中,oled显示器为无源矩阵oled(pmoled)显示器或有源矩阵oled(amoled)显示器。在一些情况下,该显示器为等离子体显示器。在其他情况下,该显示器为视频投影仪。在更进一步的情况下,该显示器为诸如本文公开的那些设备的组合。该显示器可以向最终用户提供一个或多个诸如通过本文所述的方法生成的生物医学报告。

在一些情况下,计算机系统301包括用于从用户接收信息的输入设备。在一些实例中,该输入设备为键盘。在一些实例中,该输入设备为定点设备,作为非限制性实例,其包括鼠标、轨迹球、跟踪板、操纵杆、游戏控制器或触控笔。在一些情况下,该输入设备为触摸屏或多点触摸屏。在其他情况下,该输入设备是用于捕捉语音或其他声音输入的麦克风。在其他情况下,该输入设备是用于捕捉动作或视觉输入的摄像机。在更进一步的实例中,该输入设备是诸如本文公开的那些设备的组合。

计算机系统301可包括或可操作地耦合至一个或多个数据库。该数据库可包含基因组学、蛋白质组学、药物基因组学、生物医学和科学数据库。该数据库可以是可公开获得的数据库。备选地或另外地,该数据库可包含专有数据库。该数据库可以是商购可得的数据库。该数据库包括但不限于mendeldb、pharmgkb、varimed、regulome、curatedbreakseqjunctions、在线人类孟德尔遗传数据库(onlinemendelianinheritanceinman)(omim)、人类基因组突变数据库(hgmd)、ncbidbsnp、ncbirefseq、gencode、go(基因本体)以及京都基因和基因组百科全书(kyotoencyclopediaofgenesandgenomes)(kegg)。

数据可以在包含与数据用户相同的国家的地理位置中产生和/或传输。数据可以例如从一个国家的地理位置产生和/或传输,并且数据的用户可以存在于不同的国家。在一些情况下,由本公开内容的系统访问的数据可以从多个地理位置中的一个传输到用户。数据可以在多个地理位置之间例如通过网络、安全网络、不安全网络、因特网或内联网来回传输。

整个系统可以以多种方式来设计,其可使用三个主要组件,每个主要组件具有单独的模块。这些组件可包括用户界面、硬件平台和消耗品。在一个实例中,可将用户界面并入允许与该系统直接交互的硬件中,并且可消耗组件可包括执行本公开内容的方法所必需的试剂。可使用如下项来设计更复杂的架构:远程无线连接的用户界面,该用户界面包含全部或不包含系统智能;通过自动化或人工交互连接的一个或多个硬件组件;以及完全包含的消耗品,其包括所有试剂;以及将试验中存在的生物信息转换为数字或模拟信息所需的全部或部分检测系统,这些信息可以传输至计算机进行处理和报告。该系统可包含多个附加模块,包括但不限于在由该系统串行或并行处理多个样品时控制多个样品的调度模块,以及通过内部功能检查或使用生物对照的测试确保系统正常运行的质量保证模块。

图9a图示的计算机系统900可被理解为能够从介质906和/或网络端口903读取指令的逻辑设备,其可任选地连接至具有固定介质907的服务器905。该系统,诸如图9a所示,可包括cpu901、磁盘驱动器902、可选的输入设备908如键盘和/或鼠标以及可选的监视器904。可通过所指示的通信媒介实现与本地或远程位置处的服务器的数据通信。该通信媒介可包括传输和/或接收数据的任何手段。例如,该通信媒介可以是网络连接、无线连接或因特网连接。这样的连接可提供经由万维网的通信。可以预期有关本公开内容的数据可通过这样的网络或连接而传输,以便如图9a所示由一方909接收和/或审阅。

图9b是示出可与本公开内容的示例实施方案结合使用的计算机系统910的第一示例架构的框图。如图9b所示,该示例计算机系统可包括用于处理指令的处理器911。处理器的非限制性实例包括:intelxeontm处理器、amdopterontm处理器、samsung32-bitriscarm1176jz(f)-sv1.0tm处理器、armcortex-a8samsungs5pc100tm处理器、armcortex-a8applea4tm处理器、marvellpxa930tm处理器或功能上等效的处理器。多个执行线程可用于并行处理。在一些实施方案中,也可以使用多个处理器或具有多核的处理器,无论是在单一计算机系统中,在集群中,还是通过网络分布在包含多个计算机、蜂窝电话和/或个人数据助理设备的系统中。如图9b所示,高速缓冲存储器912可连接至或并入处理器911,以提供由处理器911新近或频繁使用的指令或数据的高速存储器。处理器911通过处理器总线914连接至北桥913。北桥913通过存储器总线916连接至随机存取存储器(ram)915,并管理处理器911对ram915的访问。北桥913还通过芯片集总线918连接至南桥917。南桥917继而连接至外围总线919。该外围总线可以是例如pci、pci-x、pciexpress或其他外围总线。北桥和南桥通常被称为处理器芯片集,并管理在处理器、ram和外围总线919上的外围组件之间的数据传送。在一些备选的架构中,北桥的功能可以并入处理器中,而不是使用单独的北桥芯片。在一些实施方案中,系统910可包括附接至外围总线919的加速器卡922。加速器可包括现场可编程门阵列(fpga)或用于加速某个处理的其他硬件。例如,加速器可用于适应性数据重建或用来评估在扩展集处理中使用的代数表达式。软件和数据存储在外部存储器923中并可加载至ram915和/或高速缓冲存储器912中,以供处理器使用。系统910包括用于管理系统资源的操作系统;操作系统的非限制性实例包括:linux、windowstm、macostm、blackberryostm、iostm和其他功能上等效的操作系统,以及在操作系统顶部运行的、用于根据本公开内容的示例实施方案管理数据存储和优化的应用软件。在该实例中,系统910还可以包括与外围总线连接的网络接口卡(nic)920和921,以提供与外部存储如网络附加存储(nas)和可用于分布式并行处理的其他计算机系统的网络接口。

图9c是显示了具有多个计算机系统931和932、多个蜂窝电话和个人数据助理933以及网络附加存储(nas)934和935的网络930的示图。在示例实施方案中,系统931、932和933可管理数据存储并优化对存储在网络附加存储(nas)934和935中的数据的数据访问。数学模型可用于该数据并使用跨计算机系统931和932和蜂窝电话以及个人数据助理系统933的分布式并行处理进行评估。计算机系统931和932和蜂窝电话以及个人数据助理系统933也可提供对存储在网络附加存储(nas)934和935中的数据的适应性数据重建的并行处理。图9c仅示出了一个实例,而多种多样的其他计算机架构和系统可与本公开内容的各种实施方案一起使用。例如,刀片式服务器可用于提供并行处理。处理器刀片可通过背板连接,以提供并行处理。存储还可通过单独的网络接口连接至背板或作为网络附加存储(nas)。在一些示例实施方案中,处理器可维持单独的存储器空间并通过网络接口、背板或其他连接器传输数据以便由其他处理器并行处理。在其他实施方案中,部分或全部的处理器可使用共享的虚拟地址存储器空间。

图9d是根据示例实施方案使用共享虚拟地址存储器空间的多处理器计算机系统940的框图。该系统包括可访问共享的存储器子系统942的多个处理器941a-f。该系统在存储器子系统942中并入了多个可编程硬件存储器算法处理器(map)943a-f。每一个map943a-f可包含存储器944a-f和一个或多个现场可编程门阵列(fpga)945a-f。map提供了可配置的功能单元,并且可向fpga945a-f提供特定算法或算法的部分,以便与各自的处理器密切协调处理。例如,在示例实施方案中,map可用于评估与数据模型相关的代数表达式以及用来进行适应性数据重建。在该实例中,每一个map可被用于这些目的的所有处理器全局访问。在一种配置中,每一个map可使用直接存储器访问(dma)来访问相关联的存储器944a-f,使其独立于且异步于各自的微处理器941a-f而执行任务。在这一配置中,map可将结果直接提供给另一map以用于流水处理和并行执行算法。

以上计算机架构和系统仅为实例,并且多种多样的其他计算机、蜂窝电话和个人数据助理架构和系统可与示例实施方案结合使用,其包括使用普通处理器、协处理器、fpga和其他可编程逻辑设备、芯片上系统(soc)、专用集成电路(asic)和其他处理和逻辑元件的任意组合的系统。在一些实施方案中,全部或部分计算机系统可用软件或硬件来实现。任何种类的数据存储介质可与示例实施方案结合使用,其包括随机存取存储器、硬盘驱动器、闪速存储器、磁带驱动器、磁盘阵列、网络附加存储(nas)和其他的本地或分布式数据存储设备和系统。

在示例实施方案中,所述计算机系统可使用在任何上述或其他计算机架构和系统上执行的软件模块来实现。在其他实施方案中,该系统的功能可部分或完全地在固件、可编程逻辑设备如图9d所示的现场可编程门阵列(fpga)、芯片上系统(soc)、专用集成电路(asic)或其他处理和逻辑元件中实现。例如,集处理器和优化器可通过使用硬件加速器卡如图9b所示的加速器卡922用硬件加速方式实现。

报告

所述方法和系统进一步用于生成报告,其中该报告可以鉴别存在于复杂样品中的一个或多个受试物。或者,该报告可以提供关于微阵列上包含的所有特征的读出的详细信息。报告可以是通过其将本文所述方法的结果转发给最终用户的任何技术。该报告可以显示在屏幕或电子显示器上,或者可以打印在例如一张纸上。在一些情况下,该报告通过网络传输。在一些情况下,该网络为因特网。在一些情况下,该报告可以手动生成。在其他情况下,该报告可以自动生成。在一些情况下,该报告可以实时生成。在一些情况下,可将报告提供给移动设备、智能电话、平板计算机或其他支持网络的设备。

实施例

实施例1.生成受试物特异性探针

获得样品。该样品包含多个受试物。获得待鉴别的每个受试物的基因组。鉴别受试物基因组的非重叠区域。设计了对非重叠区域具有特异性的探针。

实施例2.构建受试物特异性特征

构建包含受试物特异性特征的生物芯片。每个特征包含对单独的受试物具有特异性的多个探针。

实施例3.使用生物芯片测定受试物的存在

获得含有多种类型受试物的测试样品。一起获得来自该样品的dna。在没有扩增的情况下,该dna与生物芯片杂交。多个靶标与生物芯片表面上的探针结合。当足够数目的探针结合在特征内时,信号是可检测的,并且受试物特异性特征被判定为阳性。阳性特征指示样品中存在受试物。在一些情况下,阳性信号表明存在特定的生物体或物种。在另一种情况下,阳性信号表明存在感兴趣的特定基因或性状。

实施例4.使用两步edc方案改进探针固定化

利用两步edc(1-乙基-3-(3-二甲基氨基丙基)碳化二亚胺盐酸盐)方案来改善探针向二氧化硅珠上的固定。用低浓度的edc处理二氧化硅珠,洗涤,并随后用较高浓度的edc处理。以下表1证明了不同edc浓度对探针固定效率的影响。

表1.两步edc方案改善了探针向二氧化硅珠上的固定。

实施例5.针对m13mp8序列的探针设计

针对衍生自m13噬菌体的m13mp8噬菌体载体设计探针。简言之,针对genbank病毒、细菌和人类数据库以及“天然”m13噬菌体序列查询m13mp8序列。确定m13mp8具有22个独特区域(参见例如图4)和380个独特的35-聚体。这些序列用于生成10个能够将m13mp8从复杂样品中区分出来的探针。探针被设计为具有多种gc含量/tm和发夹tm。在一些情况下,探针被修饰为包括:1.无修饰;2.氨基修饰(5’);3.氨基修饰(5’)+cy5(3’)。在一些情况下,生成靶核酸,其没有修饰或具有cy3(5’)修饰。图5描绘了使用本文提供的方法设计的探针的实例。

实施例6.肺结核样品的分析

使用基于珠子的探针测定两类结核病样品——病毒(tbv)和非病毒(tba)。选择探针放入不同的池中,创建探针的各种多重体(multiplex)。然后将探针置于1微米珠子上。然后使用tb株的特异性靶标(tbv)和探针不应结合的非特异性靶标(tba)使这些珠子杂交。

根据以下方案进行测定。表2中描述了杂交缓冲液和洗涤缓冲液。用1x杂交缓冲液将4μl的10mg/ml珠子稀释至200μl总体积。然后对珠子溶液进行声处理(在branson2510超声仪中1分钟),并将10μl的珠子溶液添加到最终杂交溶液中,终浓度为0.1mg/ml。最终杂交溶液在1x杂交缓冲液中包含20μl标记的dna和珠子。将10μldna以在1x杂交缓冲液中所需的细胞当量添加到最终杂交溶液。将样品混合并旋转沉降。然后将温度斜升至95℃,持续5分钟,然后以2℃/分钟的速率斜降至42℃。然后将样品再次旋转沉降,用箔覆盖,并在42℃下进行章动反应(nutatereaction)过夜(约16小时)。然后将样品在100μl1x杂交缓冲液中洗涤两次,每次洗涤步骤取出80μl,并在每次重悬浮后涡旋。然后将洗涤后剩余的最终20μl进行涡旋并声处理,并将整个体积添加到流动池中。将流动池中的样品温育10至15分钟。然后用150μl(3x50μl)1x洗涤缓冲液洗涤各泳道。然后通过显微镜观察来收集结果。每个杂交反应对至少30个珠子测量平均信号和平均背景。

表2.杂交和洗涤缓冲液。

图10显示了该实验的结果。x轴显示探针多重性(plexity)(1、4、9和12),其代表独特探针的数目,并且y轴显示高于背景的平均信号。特异性靶标信号(tbv,右)随着特异性靶标的多重因子(plexfactor)的每次增加而增加。此外,非特异性信号(tba,左)随着多重因子增加则是平坦的。

已经根据一个或多个优选实施方案对本发明进行了描述,并且应当理解,除了明确陈述的那些之外,可能有许多等同项、替换、变化和修改,并且它们在本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1