异常微阵列特征的识别的制作方法

文档序号：6369195阅读：145来源：国知局

专利名称：异常微阵列特征的识别的制作方法
异常微阵列特征的识别1U在阵列分析中，为了避免微阵列数据集合被不良品质的数据污染，识别和标记异常特征(即展现与众不同的统计学性质或形态性质的特征)是重要的。本公开涉及识别异常微阵列特征的方法。

发明内容
本文描述了一种识别核酸阵列中的异常特征的方法。概括地，本发明包括a)提供log变换的归一化值(log transformed normalized value),所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量山)利用所述log变换的归一化值和表示对照样品对多个参比阵列中的同一特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分；以及c)如果存在高于或低于规定的阈值的z得分，那么识别所述测试特征是异常的。

图I是表示本发明方法的一个实施方式的一些方面的流程图。图2是表示本发明方法的另一实施方式的一些方面的流程图。图3是高％ CV载玻片(slide)上的八个阵列的z得分图。图4是载玻片252665211142的z得分图。图5是载玻片252665211142的二元标记图。图6表示在被标记为具有低z得分的各个阵列中各特征分数的柱图。定义本文中使用的术语“样品”是指，含有感兴趣的一个或多个核酸(DNA或RNA)分析物的原料或原料混合物，其通常是液体形式，但并非必然是液体形式。本文中使用的术语“以生物学方式衍生的样品”是指，由活细胞制成或衍生得到的核酸样品。由生物体的组织(例如活体解剖等)或细胞系(包括其冷冻或贮藏形式)制成的样品是以生物学方式衍生的样品的实例。本文中使用的术语“以非生物学方式衍生的样品”是指，由预定的合成方式制备的寡核苷酸组成的核酸样品。美国专利申请公开号US20060121491中描述了以非生物学方式衍生的样品的实例。本文中使用的术语“测试样品”是指，研究中的样品。本文中使用的术语“对照样品”是指，可与测试样品比较的样品。正如以下更详细描述地，相对于测试样品，对照样品可以是例如同一样品的不同等分试样；可以来自同一组织；或者来自同一细胞系。术语“核苷酸”意欲包括如下这些片段，这些片段不仅包含已知的嘌呤和嘧啶碱基，还包含已被修饰的其他杂环碱基的片段。所述修饰包括甲基化的嘌呤或嘧啶、酰基化的嘌呤或嘧啶、烷基化的核糖或其他杂环。另外，术语“核苷酸”还包括如下这些片段，这些片段包含半抗原或荧光标记，而且还可以包含常规核糖和脱氧核糖糖类，以及其他糖类。经修饰的核苷酸或核苷酸还包括，在糖片段上的修饰，例如在羟基基团中的一个或多个被卤原子或脂族基团替代时，被功能化成醚类、胺类等等。核苷酸可以包括，当被掺入核酸的伸展链中时能够继续伸展的那些(非链终止核苷酸)和抑制随后伸展的那些(例如链终止剂)。术语“核酸”和“聚核苷酸”在本文可互換使用，用于描述由诸如脱氧核糖核苷酸或核糖核苷酸的核苷酸构成的并且具有例如大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、直至约10000或更多个碱基的任意长度的聚合物，其可以通过酶促方式或合成方式(例如在美国专利号5，948，902以及其中引用的參考文献中所描述的PNA)生产，其可以序列特异性方式与天然核酸杂交(类似于两种天然核酸那样杂交)，例如可以參与Watson-Crick碱基对相互作用。天然存在的核苷酸包括鸟嘌呤、胞核嘧啶、腺嘌呤、尿嘧啶和胸腺嘧啶(分别为G、C、A、U和T)。本文中使用的“寡核苷酸”表示，由约2至5000个核苷酸(例如2至200个核苷酸)构成的核苷酸的单链多聚体。寡核苷酸可以是合成的，或者可以以酶促方式制成，在一些实施方式中，其具有小于10至50个核苷酸的长度。寡核苷酸可以包含核糖核苷酸单体 (即可以是寡核糖核苷酸)或脱氧核糖核苷酸单体。寡核苷酸可以具有例如10至20个、11至30个、31至40个、41至50个、51至60个、61至70个、71至80个、80至100个、100至150个、或150至200个、直至500个或更多个核苷酸长度。本文中使用的术语“探针”是指，与感兴趣的核苷酸分析物互补的核酸。在某些情况中，目标分析物的探測需要探针对目标的杂交。在某些实施方式中，探针可以固定在底物的表面上，其中底物可以具有各种构造，例如片材结构、珠子结构或其他结构。在某些实施方式中，探针可以存在于平面底物的表面上，例如以阵列形式。“阵列”包括可设定地址的区域的任何ニ维或三维的排列，所述区域例如为带有核苷酸、特别带有寡核苷酸或其合成类似物等的可在空间上设定地址的区域或在可光学上设定地址的区域。在一些情况下，阵列的多个可设定地址的区域可以不是彼此物理相连的，例如多个彼此不同的珠子通过光学或其他装置可以构成阵列。在阵列是核酸阵列时，所述核酸可在沿着核酸链的任意一个或多个点上被吸附、被物理吸附、被化学吸附、或被共价连接到阵列上。阵列在原位制造的情况下可以利用液滴沉积由脉冲喷射前驱体单元(诸如核苷酸或氨基酸单体)制造，或者可以利用液滴沉积由脉冲喷射先前得到的核酸制造。例如在先前引用的參考文献(包括Caren等人的美国专利申请公开号20040203138和专利号US6, 242, 266,US 6，232，072、US6, 180, 35UUS 6, 171, 797,US 6，323，043，以及其中引用的參考文献)中详细描述了上述方法。正如已经提到过的，这些參考文献通过引用插入本文。也可以使用其他液滴沉积方法来进行制造，如本文先前所述。而且，可以使用照相平板印刷阵列制造方法替代液滴沉积方法。特征间区域不必存在，特别在阵列由那些专利中描述的照相平板印刷方法制成的时候。阵列还可以通过使与珠子(也被称为微球)连接的预先合成的核酸分布在固体支持物上来进行制造。在某些实施方式中，将独ー无ニ的光学信号(例如荧光染料)结合到珠子上，它们能用于识别在任意特定珠子上的化学官能性。因此，首先采用光学信号对珠子进行编码，所以阵列可以稍后进行解码，这样可以在阵列已经制成之后使单个位点在阵列中的位置与在特定位点的探针有相关性。例如在美国专利号6，355，431,7, 033，754和7，060, 431中详细描述了上述方法。阵列在具有多个不同片段(例如，不同的寡核苷酸序列)的区域时是“可设定地址的”，这样使得在阵列的特定预定位置(即“地址”)上的特征(即阵列的“单元”或“点”)包含特定序列。阵列特征通常通过居间间隔进行隔离，但这不是必要的。阵列还在阵列的每个特征具有能够识别存在于该特征上的片段的光学可探测信号的情况下是“可设定地址的”。阵列还在阵列的每个特征具有可通过非光学装置探测并且能够识别存在于该特征上的片段的信号的情况下是“可设定地址的”。本文中使用的术语“异常特征”是指，具有与众不同的统计学性质或形态性质的特征。异常特征可能由例如在例如阵列合成(例如不完善的偶联化学反应)、阵列储存、阵列处理、杂交或扫描期间发生的问题引起的。正如以下更详细描述的，在某些案例中，不同阵列中的特征会被描述成彼此“相应”。例如，数据可由一个阵列的第一特征得到，也可由其他阵列的相应特征得到。在这些案例中，彼此相应的特征具有同一探针序列。同样地，如果一个阵列上的第一特征具有其他阵列上的相应特征，那么所述第一特征和所述相应特征具有同一探针。术语“确定”、“测量”、“评估”、“估计”、“分析”和“检验”在本文中可互换使用，它们是指任何形式的测量并且包括确定是否存在要素。这些术语包括定量的和/或定性的确定。“估计”可以是相对的或绝对的。“估计...的存在”包括确定存在某物的量以及确定其是否存在。术语“使用”具有其常规含义，其原意指，利用方法或组合物(例如使方法或组合物工作)以达到目标。例如，如果使用程序来创建文件，那么执行程序来产生文件，该文件通常是该程序的输出结果。在另一实施例中，如果使用计算机文件，那么该文件通常被访问、被读取且信息被存储在所利用的文件中以达到目标。类似地，如果使用独一无二的标识符(例如表形码)，那么通常读取该独一无二的标识符来识别例如与该独一无二的标识符相关的对象或文件。本文中使用的术语“数据”是指，通常由在实验室或计算机模拟(in silico)中的实验结果衍生得到的有组织的信息的集合，或本领域技术人员可得到的其他数据。数据作为一组变量的测量结果或观测结果可以是数字形式、文字形式、注解形式、或图像形式。数据可以存储在各种形式的电子介质中以及可由辅助数据库获得。本文中使用的术语“获得”当在获得数据的上下文中使用时将进行广义解释，意指，用于取得数据的任何方式，包括访问存储数据的文件、接受数据和生成数据(例如进行实验)。本文中使用的术语“多个”是指，至少2个，例如至少5个、至少10个、至少20个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10000个或更多，直至50000个，或100000个或更多。正如以下更详细描述的，特征在具有“高于或低于规定的阈值的z得分”时可被称为异常。确定特征是否是异常的方法通常包括将该特征的z得分与另一数字(规定的阈值)相比较，从而确定所述z得分是否高于或低于规定的阈值。特征在如下情况下可以是异常的a)其具有低于规定的阈值的z得分(即，在规定的阈值是负数(例如-6)时，具有小于该负数的Z得分的特征是异常的)；b)其具有高于规定的阈值的Z得分(例如，在规定的阈值是正数(例如6)时，具有大于该数字的z得分的特征是异常的)。确定Z得分是否“高于或低于规定的阈值”包括，确定z得分是否在规定的范围内或规定的范围外，以及确定z得分是大于/小于规定的阈值还是等于规定的阈值。规定的阈值可以例如依经验、依照理论或者任意定义。
具体实施例方式在更详细地描述本发明之前，要理解本发明并不局限于所描述的特定实施方式，这些实施方式当然可以进行变化。还要理解，本文中使用的术语仅用于描述特定实施方式，不应构成限制，因为本发明的范围仅仅由所附权利要求限制。在提供数值范围的情况下，要理解到，该范围的上限和下限之间的每个中间数值(加减该下限的1/10単位，除非另有声明)以及在所记载范围内的任意其他记载的数值或中间数值都包含在本发明之内。
除非另有声明，本文中使用的所有技术术语和科学术语都具有与本发明领域的普通技术人员通常理解的相同含义。尽管与本文所述那些类似或等同的任意方法和原料也可以用在本发明的实践或测试中，但是现在描述优选的方法和原料。本说明书中引用的所有出版物和专利通过引用插入本文，就像每篇出版物或专利被具体或単独指出通过引用插入一祥，本说明书中引用的所有出版物和专利通过引用插入本文以公开且描述与所引用的出版物相关的方法和/或原料。申请日前的任意出版物的引用是为了公开，不应解释为由于在先发明而承认本发明迟于这样的出版物。此外，所提供的
公开日可以与实际
公开日不同，这可能需要単独确认。必须注意，本文中以及所附权利要求中使用的単数形式“一”、“一个”、“该”包括复数形式，除非另有声明。还应注意，权利要求书可被起草成排除任何可选要素。同样地，这个记载意欲作为使用与权利要求要素的记载相关的诸如“唯一地”、“仅仅”等排他术语或使用“否定”限制的引用基础对阅读了本公开的本领域技术人员来说，本文中描述和阐述的各个实施方式中的每ー个显然具有分散的组件和特征，可以容易地将这些组件和特征与其他若干实施方式的任意一个中的特征分离或组合，而并未脱离本发明的范围或精神。任意记载的方法可以以所记载的时间顺序执行或者可以以逻辑上合理的任意其他顺序执行。以下更详细描述的方法通常用在阵列数据(例如基因表达或CGH数据)的分析中，其中，对核酸样品中的特定核酸分析物(RNA或DNA)的量进行检验。一般而言，这些检验利用如下步骤a)标记核酸样品；b)使标记的样品与用于该样品的分析物的探针在足以使该探针和该分析物之间发生特异性结合的条件下进行接触；以及c)识别所得分析物/探针复合物中的标记的量，从而确定样品中的分析物的量。这样的方法通常是已知的。具体地，将经标记的样品应用到包含至少ー个探针的底物上，并且在适合于在探针和样品中的经标记分析物之间形成分析物/探针复合物(例如核酸双螺旋，即RNA/RNA、DNA/RNA、或DNA/DNA双螺旋)的条件(如果存在这样的经标记分析物)下进行培养。在某些实施方式中，包含探针的底物是探针的阵列，其中每个探针包含在该阵列的一个特征中，并且其中阵列包含至少约20个、至少约50个、至少约100个、至少约200个、至少约500个、至少约1000个、至少约2000个、至少约5000个、至少约10，000个、至少约20，000个、至少约50，000个、通常直至约100，000个或更多特征。培养之后，未与探针结合的经标记样品通常被从底物上洗掉，并且通过能够定量测量结合标记的仪器(例如扫描荧光仪)扫描现在包含经标记的分析物/探针双螺旋的底物。然后，确定与阵列的特征(各特征包含例如目标分析物/探针复合物或者在不存在目标分析物的情况下包含探针)相关的各标记的数量。在一些实施方式中，以相应于探针的区别特征的两个通道对底物进行扫描，从而以与其他标记独立地(即没有干扰地)的方式确定与各个特征相关的两个区别标记的量。在某些实施方式中，扫描得到两个扫描结果(一个通道一个)，其通常表示底物的像素化图像，从而反映了与底物的特征相关的标记的量。例如，图像的每一个像素被授予一个表示标记信号的亮度水平的信号水平。来自唯一一个通道的数据需要用在下面的方法中。如上所述，扫描方法是本领域已知的(例如DeRisi等人的 Science 278 :680-686,1997)，若干适当的扫描仪可由 Perkin-Elmer> Agilent 或Axon Instruments 等等商购，并且在美国专利号 5，091，652 ;5，760，951 ;6，320，196 和6，355，934有所描述，上述专利的公开内容通过引用插入本文。特征提取是这样的方法，由该方法从阵列获得数字数据。一般而言，特征提取方法包括识别经杂交阵列的扫描上的特征(通常相应于探针)，并且测量与该特征相关的标记(例如荧光)的量。在大多数实施方式中，特征提取方法提供用于阵列的各特征的数字图(numerical figure)。若干商购程序进行微阵列的特征提取，所述程序诸如 BioDiscovery (Marina Del Rey, CA)的 IMAGINE ，Stanford University 的“ScanAlyze” 软件包，Scanalytics (Fairfax, VA)的 Microarray Suite, “DeArray”(NIH)；Research Genetics(Huntsville, Ala.)的 PATHWAYS ; Incyte Pharmaceuticals,Inc. , (Palo Alto, Calif.)的 GEM tools ; Imaging Research(Amersham PharmaciaBiotech, Inc. , Piscataway, N. J. ) ；Rosetta (Kirkland, WA)的 RESOLVER 系统和 AgilentTechnologies (Palo Alto, CA)的 Feature Extraction Software。使用上述特征提取软件生成相应于与阵列的各特征相关的标记量的数值。数值可以以信号的定量(即绝对)数值的形式或者以信号的定性(例如相对)数值的形式进行测量，正如本领域已知的。本发明利用三种统计学技术以如下方式对来自特定阵列上的特定特征的信号进行重新调节，以这种方式，所有来自阵列组中的所有阵列的所有特征的信号以同一尺度进行测量。所述方法的可选第一步骤包括，识别“对照”阵列的子集。上述识别可以基于阵列数据品质的一些客观指标(例如％cv)或一些其他阵列性质(例如阵列制造时间段)进行。这个第一步骤不是必要的，如果缺陷影响不同阵列的不同区域，那么给定特征的数据在大多数阵列上将是“正常的”。然而，识别并且使用“正常”阵列的适当对照集合可以改善本发明的敏感性，特别用于具有一些异常特征的阵列。在本发明的第二步骤中，数值(即由特征获得的信号量)被归一化。信号归一化的标准方法是将来自给定阵列上的给定颜色通道中的非对照探针的所有信号除以对于该阵列上的该颜色通道中的非对照探针的例如第75%区间信号(75th percentile signal),但也可以使用其他方法。这个变换消除了由不同样品标记效率、不同杂交效率、微阵列扫描仪增益的差异等引起的阵列之间的成比例的信号差异。
例如，归ー化可以包括将ー个数据组中的每个数值乘以ー个数值，以使得那些量与第二数据组中的量可以直接进行比较。业已描述了多种归ー化策略(Quackenbush等人，Nat Genet. 32 Suppl :496-501,2002, Bilban 等人 Curr Issues Mol Biol. 4 57-64,2002，Finkelstein 等人，Plant Mol Biol. 48(1-2) :119_31，2002，和 Hegde 等人Biotechniques. 29 =548-554,2000)。适用于本发明方法的归ー化的具体实例包括线性归一化方法、非线性归一化方法(例如利用针对成对数据的Lowess局部衰减作为信号強度的函数)、信号依赖性非线性归一化、qspline归ー化和空间归ー化,正如Workman等人所述(Genome Biol. 20023，1-16)。在第三步骤中，使归ー化的数值进行log变换(例如利用log2,但也可以使用任意底数的log变换)。由重复的等同特征得到的数值通常不会产生正态(即高斯)分布的数值。然而，信号的对数几乎呈正态分布。将信号变换成几乎呈正态分布的形式使得在随后的步骤中有效使用分布性质的标准统计学量度，诸如平均值(均值)和标准偏差。可供选择地或者除此以外，在随后的步骤中可以使用并未假设正态分布的量度，诸如中值和四分 I'Bjfe Unter-quartile range) 在第四步骤中，计算对于对照阵列集合中的每个特征的归一化log变换信号而言的均值和标准偏差。这个计算量化了由一群完全功能化的阵列的每个特征得到的log变换的归一化信号的分布中心和宽度。请注意，如果log变换的归ー化信号的分布是高斯分布，那么均值和标准偏差參数完全决定了该分布。或者，可以计算稳健评级次序(robustrank-order)统计学量度，诸如中值(替代均值)和四分间距IQR(替代标准偏差)。在这种情况下，IQR应当成比例缩放，即应当使用0. 74*IQR，这是因为对于高斯分布，标准偏差=0.74*IQR。在下ー步骤中，计算测试阵列的每个特征的z得分统计量。z得分是表示数量与该数量的均值(或中值)之间差异的统计学度量(statistical metric)，以标准偏差(或IQR)的单位计
Sil 厂 AsZi i = ~i-'
リCfS其中，S是log变换的归ー化信号，μ s是S的均值(或中值)，O s是S的标准偏差(或0. 74*IQR)，指数i和j分别指阵列数和特征数。可以计算类似得分用于分布的其他度量。一般而言，所有信号都被转换成相同尺度，从而测量来自特定特征的信号的特定值位于由适当功能化阵列中的那些特征观察到的信号的分布中的哪个位置。向z得分统计量的变换使得能够通过可视或计算机辅助识别具有与众不同的正的或负的z得分的特征从而清楚地识别异常特征或这种特征组。z得分是具有标准解释的纯无量纲数字其衡量偏离由分布的ー些成员所设置的该分布的均值的标准偏差的个数。因此，可以使用来自统计学过程控制理论的标准方法来设定用于识别应当作为潜在缺陷被标记出的特征的阈值。最后，Z得分统计量可被用于改变沿着阵列表面的各特征图的顔色，从而使得能够快速可视识别异常特征组。对于将原始z得分变换成对展示异常信号的特征簇敏感的总度量，有利的是，首先以加重成簇的异常特征区域并且抑制孤立异常特征的方式对原始z得分图像进行加工。一种特别简单的用于实现这个的方法是，应用如下形式的“投票法则如果特定特征j的最近邻的特征中Z得分小于或等于某一阈值tz的分数(fraction)大于或等于某一阈值tf，那么将该特征标记为占据“低z”附近。如果该特征自己具有小于或等于阈值tz的z得分，那么额外地将该特征标记为“低z”特征。类似的法则可被写成用于“高z”或“界外值z”( SP不寻常地高或低)。对于六角网格诸如用于一些微阵列的那些来说，简单定义的内部特征的“最近邻”是包括讨论中的特征以及由直接围绕该特征的6个特征组成的六角形的集合(同样的通用定义用于边和角特征，不同之处在于缺少围绕近邻六角形的一些成员)。标记值还可用于产生对“黑袋”缺陷(下述)特别敏感的阵列可视化。一旦特征已被标记为“低z”或者位于“低z”附近，我们就可以基于该标记计算各种阵列宽的度量。特别有用的度量是阵列中被标记为展现低Z值或者被标记为位于低Z附近(或二者)的特征的百分比。这个量度与量度的“中值％CV”族非常相关。因此，提供了一种用于识别核酸阵列中的异常特征的方法。在这个实施方式中，所述方法包括a)提供log变换的归一化值，所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量山)利用i所述log变换的归一化值和ii表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分；以及c)如果存在高于或低于规定的阈值的z得分，那么识别所述测试特征是异常的。z得分可以以许多不同方式计算，例如利用a)分布的中值或均值，以及b)分布的标准偏差或四分间距。在特定实施方式中，z得分表示所述第一特征的log变换的归一化值高于或低于参比log变换的归一化值的均值多少个标准偏差。在这个实施方式中，可以利用如下公式计算z得分
X — μZ =-
π其中x是第一特征的所述log变换的归一化值；μ是参比log变换的归一化值的均值或中值；以及σ是参比log变换的归一化值的标准偏差。在可供选择的实施方式中，可以利用该分布的按比例缩放的四分间距计算z得分。在这些实施方式中，z得分表示所述第一特征的log变换的归一化值高于或低于参比log变换的归一化值的均值多少个按比例缩放的四分间距(0. 74*IQR)。取决于测试的严谨度(stringency),规定的阈值对于异常高的z得分可以在4. O至8. O的范围内，例如为5. O至7. 0，或5. 5至6. 5，或者对于异常低的z得分可以在-4. O至-8. O的范围内，例如为-5. O至-7. 0，或-5. 5至-6. 5。用于产生分布的对照样品的个数可以变化。然而，在一些实施方式中，参比log变换的归一化值通过如下获得使至少6个(例如至少8个、至少10个、至少15个、至少25个、至少100个、直至100个或更多个)对照样本与含有该特征的参比阵列杂交。对照样品应当来自与测试样品类似的来源，即预期产生与测试样品类似基因表达图样的来源。在一些实施方式中，对照和测试样品得自相同组织(例如大脑、肾上腺、皮肤、肺脏、脾脏、肾脏、肝脏、脾脏、淋巴腺、骨髓、膀胱、胃、小肠、大肠或肌肉等)，体液(包括血糖、血浆、唾液(saliva)、黏液、粘痰、脑脊髓液、胸膜液、泪液、Iactal管液、淋巴、唾液(sputum)、脑脊髓液、滑液、尿、羊水和精液等)，或者得自不同个体的同类型癌的活体解剖。如果核酸样品要由细胞系制成，那么可以利用含有相同细胞(例如肌肉细胞、肝脏细胞等)的细胞系。在特定情况下，可以将单一祥品分开并将它们用作对照样品和测试样本，同样在某些情况下，对照样品可以与测试样品相同。可以选择适当的对照数据集合满足某些标准，例如一致的特征形态，在适当范围内的信号(即过高的(饱和的)或过低的(不是统计学显著的)信号)，较少比例的界外值，以及由重复的相同特征的集合得到的信号的变化系数的平均百分比CV)低(參见例如van Hijum等人的BMC Genomics. 2005 6 :77,通过引用插入此处,等等)。在特定案例中，对照样品和测试样品都是以生物学方式衍生得到的样品。然而，在其他实施方式中，对照样品和测试样品包括对特征杂交的合成寡核苷酸。在特定实施方式中，核酸阵列和參比阵列可以来自相同批次或不同批次。本文所述方法可以在阵列的多个特征上进行。在这些实施方式中，阵列可被看做表示Z-得分的数量级的颜色图(即热量图)。在这个实施方式中，异常特征簇可以通过眼睛识别。在其他实施方式中，异常特征簇可以利用最近邻分析识别，即通过确定是否异常特征具有也是异常的邻近特征来识别。在这些实施方式中，所述方法包括a)提供多个log变换的归ー化值，所述log变换的归ー化值表示测试样品对核酸阵列中的多个特征的杂交量；b)利用i所述log变换的归ー化值和ii表示对照样品对多个參比阵列中的相应特征的杂交量的參比log变换的归一化值的分布来计算所述特征的z得分；以及c)如果存在高于或低于规定的阈值的z得分，那么识别所述多个特征中的任意ー个都是异常的。在一个实施方式中，对照和參比样品包括对特征杂交的寡核苷酸的混合物(參见，例如在美国专利申请公开US2006012491中描述的寡核苷酸)。在某些实施方式中，使用下式计算z得分~=ぞ其中，S是log变换的归ー化信号，μ s是S的均值或中值，σ s是S的标准偏差或0. 74*IQR，指数i和j分别指阵列数和特征数。正如以上所表明的，本方法还包括，提供所述阵列中的异常特征图，结果可以通过眼睛识别包含异常特征簇的所述核酸阵列的所述区域。本方法可以进一歩包括，在多个特征上进行最近邻分析，从而识别所述阵列中邻近异常特征的簇。示意性地阐述本发明的一个实施方式的流程图示于图I和图2中。该流程图的各个步骤中使用的数据变换是不言而喻的。在一个实施方式中，本方法可以通过计算机(ー种包含用于进行以上所述方法的指令(即程序)的有形计算可读介质)执行。程序可以提供在物理存储或传送介质中。接收该指令的计算机然后可以执行运算法则并且/或者加工由本发明的方法得到的数据。计算机可读存储介质的实例包括软盘、磁带、DVD、CD-ROM、硬盘驱动、ROM或集成电路、磁光盘或计算机可读卡诸如PCMCIA卡等,不论上述设备对计算机来说是内部的还是外部的。包含信息的文件可以“存储”在计算机可读介质上，其中“存储”意指记录信息，从而日后该信息可通过局域或远程网络中的计算机访问和获取。在计算机执行方法的上下文中，“获得”可以是访问存储数据的文件。
实施例I识别“黑袋”(DarkPocket)“黑袋”是阵列中这样的区域，其中制造问题可能损害了该区域中的特征的探针。这些缺陷可以以可视方式在具有窄信号动态范围的阵列(例如CGH阵列)上识别，但是难以在具有较宽信号动态范围的阵列(即多数其他阵列应用类型)上识别。在如下实施例中，使用来自六个“8-组合” “常态”(低％ CV)単色基因表达(GE)阵列和两个异常(高％ CV)阵列的数据。在阵列图像本身中未能见到黑袋的证据。没有黑袋可以通过对在常态(低％ CV)载玻片之一上的8个阵列的Z得分可视化观察到(数据未示出)。高％ CV载玻片的图示于图3中。这些载玻片的可视解释是相当明显的常态载玻片表示非常少的高或低z得分，并且所观察的几个异常得分并非剧烈成组。完全相反，在高％ CV载玻片上存在一些成簇的异常低Z得分的区域。受影响特征的个数容易地通过如下评估计算具有小于某ー阈值(例如-6)的z得分的特征的个数。请注意这种分析容易识别“黑袋”问题，不论对不同的阵列应用不同的样品与否，也不论在扫描的阵列图像中“黑袋”是否不可探測。这些结论表明，本方法是稳健的、敏感的。实施例2z得分图转化成ニ元“标记图”载玻片252665211142在对标记的部分简并寡聚物(參见美国专利申请号US20060121491)的样品杂交之后产生z得分图(图4)。这个图以及如下标记图的数据都通过计算机执行方法产生。所有阵列分别被认为是单ー组；中值和O. 74*IQR被用作归ー化的log信号分布中心和宽度的统计值。具有彡-5的z得分的特征被标记为低，具有> O. 3的低最近邻特征分数的特征被标记为占据“低z区域”。用干“低z”和“第z区域”的所得ニ元标记值的图示于图5中。最后，表6表示，各个阵列中被标记为具有低Z-得分、被标记为占据低z附近或被标记为二者的特征的分数的柱状图，以及来自3个其他载玻片的数值。左图中的两个载玻片展现“黑袋”；右侧的两个没有。实施例3Z得分度量和中值％ CV之间的相关性各个阵列中被标记为具有低Z-得分、被标记为占据低z附近或被标记为二者(z得分度量)的特征的分数与緑色通道加工信号的中值％ CV强相关(数据未示出)。这个数据通过如下获得使同时制成的阵列对寡核苷酸样品的混合物进行杂交，特征提取数据(这样产生中值％ CV度量的数值)，然后对低z特征和区域进行分析。还证实了阵列中的一些通过可视检查展现“黑袋”。本说明书中引用的所有出版物和专利通过引用插入本文，就像每篇出版物或专利被具体或単独指出通过引用插入一祥。申请日前的任意出版物的引用是为了公开，不应解释为由于在先发明而承认本发明迟于这样的出版物。虽然为了清楚理解的目的，通过说明性实施例对本发明进行了相当详细地描述，但对本领域技术人员来说明显的是，不离开所附权利要求的精神和范围的基础上可以进行某些改变和修正。
权利要求
1.一种识别核酸阵列中的异常特征的方法，其包括 a)提供log变换的归ー化值，所述log变换的归ー化值表示测试样品对核酸阵列中的第一特征的杂交量； b)利用i所述log变换的归ー化值和ii表示对照样品对多个參比阵列中的相应特征的杂交量的參比log变换的归ー化值的分布来计算所述第一特征的z得分；以及 c)如果所述测试特征具有高于或低于规定的阈值的z得分，那么识别所述测试特征是异常的。
2.权利要求I的方法，其中，所述z得分表示所述第一特征的所述log变换的归ー化值高于或低于所述參比log变换的归ー化值的均值或中值多少个标准偏差，其根据如下公式计算
3.权利要求I的方法，其中，所述z得分表示所述第一特征的所述log变换的归ー化值高于或低于所述參比log变换的归ー化值的均值或中值多少个按比例缩放的四分间距(O. 74*IQR)。
4.权利要求I的方法，其中，所述參比log变换的归ー化值通过如下得到使至少六个对照样品与包含所述特征的參比阵列杂交。
5.权利要求I的方法，其中，所述对照样品与所述测试样品相同。
6.权利要求I的方法，其中，所述对照样品和所述测试样品是以生物学方式衍生得到的样品。
7.权利要求I的方法，其中，所述方法包括 a)提供多个log变换的归ー化值，所述log变换的归ー化值表示测试样品对核酸阵列中的多个特征的杂交量； b)利用i所述log变换的归ー化值和ii表示对照样品对多个參比阵列中的相应特征的杂交量的參比log变换的归ー化值的分布来计算所述特征中每ー个的z得分；以及 c)如果所述多个测试特征中的任意测试特征具有高于或低于规定的阈值的z得分，那么识别它们是异常的。
8.权利要求7的方法，还包括提供所述阵列中的异常特征图，结果可以通过眼睛识别所述核酸阵列中包含异常特征簇的所述区域。
9.权利要求7的方法，进ー步包括，在所述多个特征上进行最近邻分析，从而识别所述阵列中邻近异常特征的簇。
10.ー种有形计算机可读介质，其包括用于执行权利要求I的方法的程序。
全文摘要
本发明涉及异常微阵列特征的识别。概括地，本发明公开了一种在核酸阵列中识别异常特征的方法，该方法包括a)提供log变换的归一化值，所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量；b)利用所述log变换的归一化值和表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分；以及c)如果所述测试特征具有高于或低于规定的阈值的z得分，那么识别所述测试特征是异常的。
文档编号G06F19/20GK102841986SQ201210140069
公开日2012年12月26日申请日期2012年5月3日优先权日2011年6月3日
发明者保罗·肯尼斯·沃伯, 罗伯特·佩吉申请人:安捷伦科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：保罗·肯尼斯·沃伯;罗伯特·佩吉
技术所有人：安捷伦科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。