设计寡核苷酸阵列的方法

文档序号:6593677阅读:266来源:国知局
专利名称:设计寡核苷酸阵列的方法
设计寡核苷酸阵列的方法发明领域本发明一般涉及寡核苷酸阵列验证领域。更具体地,本发明涉及方法,更具体涉及 计算机可读介质。
背景技术
寡核苷酸阵列是一种芯片,其中以特定模式固定了大量寡核苷酸序列如DNA序 列。根据希望研究何种机理,可以设计不同的寡核苷酸阵列。例如,可以用称作甲基化 寡核苷酸微阵列分析(MOMA)的一种特定类型的微阵列来研究的DNA甲基化是基因调节的 最充分研究的外遗传机理。已知存在于启动子区中的所谓富含CpG的区域的DNA甲基化可 以作为基因沉默的机理。CpG岛是基因组的富含核苷酸C和G的部分。本领域技术人员公知的用于实验发现差别甲基化的方法包括差别甲基化杂交、甲 基化特异性测序、HELP测定、亚硫酸氢盐测序、CpG岛阵列等。但是,存在更多的应用,它们可以用基因组表示法来查询基因组,以发现例如 DNA-蛋白相互作用、基因拷贝数多态性、差别甲基化基因座等等。当在阵列上进行分析时,总是存在选择哪些序列放置在阵列上的问题。优选尽可 能多,但即使采用高密度阵列,也没有最够的空间。现今的标准Agilent阵列含有M4,000 个探针,Nimblegen阵列涵盖395,000个探针。在Nimblegen上(其中探针长度是50个碱 基),存在20,000, 000个基因组序列。与人类基因组中的3,000, 000, 000个碱基相比,很明 显,必须选择哪些序列要优先放置于阵列上。选择要被阵列涵盖的序列的常规途径是通过 根据经验的猜测(educated guesses)或试验和误差。因此,用于设计阵列的改进的方法将是有利的,特别是,用于设计以下阵列的方法 将是有利的该阵列允许增加的灵活性、成本效益和/或验证设计的阵列的可能性。发明概述因此,本发明优选寻求通过提供所附专利权利要求的装置、方法、计算机可读介质 和数据库而单独或以任意组合减轻、缓解或消除一种或多种上文确定的本领域中的缺陷和 不利并且至少解决上文提到的问题。本发明的一个目的是提供设计和验证寡核苷酸阵列的方法。根据本发明的一个方面,提供了一种方法,根据该方法,将关于基因组注释和需要 的序列的信息存储在第一数据库中。然后,通过在存储于第一数据库中的信息上应用第二 数据库,构建查询序列(querysequence)的表示矩阵(representation matrix)。第二数据 库可以包含关于限制酶的信息。随后,从查询序列的表示矩阵构建限制酶列表和用于概况 分析的序列列表。最后,从序列列表设计寡核苷酸阵列。根据本发明的另一方面,公开了上述方法在设计用于验证寡核苷酸阵列的计算机 芯片上的方案中的用途,其中所述第二数据库进一步包含关于需要的限制酶和/或所述限 制酶要应用的顺序的信息。根据本发明的另一方面,公开了计算机可读介质。该计算机可读介质上编入了用于通过处理器进行处理的计算机程序。该计算机程序包含适于执行上述方法的代码段。此外,根据本发明的一个方面,公开了用于验证寡核苷酸阵列的装置。该装置包含 适于执行上述方法的部件。本发明相对于现有技术具有以下优点其允许酶的自动化选择用于甲基化概况分 析(methylation profiling)、芯片上的芯片(chip-on-chip)和比较基因组杂交实验的方 案中。本发明也使给定实验的微阵列上的空间最大化。这意味着来自微阵列的结果得到了 改进。本发明也改进了微阵列上的有意义图样的zero-in和焦距。这增强了区分两个分开 的样品类,如肿瘤与正常、恶性与非恶性、男性与女性样品等的能力。附图简述从本发明实施方案的以下描述,参照附图,能够明白和阐明本发明的这些和其它 方面、特征和能够达到的优点,在附图中,

图1是根据一个实施方案的阵列设计过程的示意图;图2是计算机可读介质的示意图,在所述计算机可读介质上编入了用于通过处理 器进行处理的计算机程序;图3是用于设计和验证寡核苷酸阵列的装置的示意图;图4是图1所示阵列设计过程的进一步、更详细的示意图;图5是根据另一实施方案的过程的示意图;图6是作为图4和图5所示实施方案的整体方法的第三实施方案的示意图;图7是根据另一实施方案的过程的示意图;图8显示柱状图,其中显现根据一个实施方案的蛋白MseI的片段的分布。图8A显 示大小分布。y轴代表频率81,χ轴代表大小82。图8B显示覆盖分布。y轴代表频率81, χ轴代表覆盖83;并且图9显示柱状图,其中显现根据一个实施方案的蛋白MspI的片段的分布。图9A显 示大小分布。y轴代表频率91,χ轴代表大小92。图9B显示覆盖分布。y轴代表频率91, χ轴代表覆盖93。实施方案的描述根据一个实施方案,提供了方法,使得酶的自动选择能够用于方案中。这些方案可 以是甲基化概况分析、芯片上的芯片(chip-on-chip)和比较基因组杂交实验。根据一个实 施方案,该方法也可以使用于给定实验的微阵列上的空间最大化。这表示来自微阵列的结 果得到了改进。该方法也可以改进微阵列上的有意义图样的zero-in和焦距。这增强了区 分两个分开的样品类,如肿瘤与正常、恶性与非恶性、男性与女性样品等的能力。下文将参照附图,更详细描述本发明的几个实施方案,以便本领域技术人员能够 实施本发明。但是,本发明可以用很多不同的形式实施,并且不应解释为限于本文阐述的实 施方案。相反,提供这些实施方案是为了使本公开内容彻底和完整,并且将本发明的范围完 整地传达给本领域技术人员。这些实施方案不限制本发明,而本发明仅仅受到所附专利权 利要求的限制。此外,附图中举例说明的特定实施方案的详述中使用的术语不意欲成为本 发明的限制。以下说明集中于可用于方法,特别是可用于设计阵列的方法的本发明的一个实施 方案。但是,应该理解,本发明不限于该应用,而是可以应用于很多其它应用,包括例如用于5设计基于PCR的实验的、在计算机芯片上的方案。在这种情况下,需要额外的验证,从而确 保最终产物中可以获得靶DNA序列,并且选择正确的探针用于扩增。在根据图4的一个实施方案中,提供了用于验证寡核苷酸阵列的方法100。寡核苷 酸的实例可以是DNA、RNA、cDNA等。根据一个实施方案,寡核苷酸阵列是DNA阵列。根据另外的实施方案,DNA阵列是 DNA甲基化阵列。根据另一实施方案,DNA阵列是基因表达概况。根据另一实施方案,DNA阵列是基因组表达概况分析阵列。基因组表达概况分析 阵列17可以根据一些实施方案是单核苷酸多态性阵列或基因拷贝数目多态性阵列。根据一个实施方案,方法100包括将关于基因组注释10和需要的序列11的信息 存储在第一数据库12中,所述第一数据库12包含需要在计算机芯片上设计的方案中覆盖 的感兴趣的序列。根据一个实施方案,关于基因组注释10的信息是例如关于基因组和/或基因启动 子中的CpG岛的信息。根据另一实施方案,关于需要的序列11的信息是感兴趣的区域。感 兴趣的区域可以是例如癌基因、肿瘤抑制物、微RNA、端粒酶、着丝粒和/或重复序列。进一步,构建了查询序列的表示矩阵14。这可以通过应用第二数据库13实现。数 据库13可以包含所有已知的酶和它们各自的识别和切割位点(序列)。数据库13也可以 包含关于哪些酶适合使用和/或要以什么顺序应用所述酶的信息。然后可以从查询序列的表示矩阵14构建酶列表15和适于甲基化概况分析的序列 列表16。步骤14可以包括图5中可以获得的内容的数字表示。理想的酶的所有片段都具 有100%覆盖(图中的左栏),而柱状图中没有位于0%的柱。同样,片段长度分布将落在 200-1000个碱基的范围。根据一个实施方案,这些条件可以在过程中动态设定和根据设计 的阵列类型而改变。这是因为阵列可以是固定长度阵列和可变长度阵列。因此,探针的长度 可以改变。这表示可以用计算机芯片上的消化来选择不同大小的片段和不同大小的探针。 然后可以从序列列表构建DNA甲基化阵列17。因此,根据图5,甲基化阵列17包含通过了 过滤器22的片段。然后根据每个片段的标准规范设计探针,并且根据本领域技术人员已知 的方法在阵列上合成。可以放置在阵列上的探针的数目仅仅受到阵列生产的技术限制的限 制。根据一个实施方案,方法100可以用于设计用于DNA阵列验证的、在计算机芯片上 的方案。得到查询序列的表示矩阵14的过程进一步在图5中说明。用存储在第二数据库 13中的第一限制酶21在计算机芯片上消化存储在第一数据库12中的DNA序列20。根据 一个实施方案,DNA序列20是完整的基因组。根据另一实施方案,DNA序列20是所有已知 基因的基因组序列。根据另一实施方案,DNA序列20是计算或实验得到的岛的序列。岛可 以是例如CpG岛或乙酰化岛。基于限制酶识别位点及其切割位点,第一次在计算机芯片上 的消化产生所有可能的片段。然后应用第一过滤标准22,以便从第一消化21分选片段。基于片段长度进行分 选,所述长度对于需要的范围可以是经验推导的值,例如200-1000。仅仅在该范围内的片段 通过过滤器,并且用于下一步。
基于经验推导的标准,过滤器22可以除去片段。例如,可以除去长度小于200bp 和大于2000bp的片段。然后基于存储在数据库13中的信息,使过滤后的片段进行第二次 在计算机芯片上的消化23。第二次在计算机芯片上的消化后,可以通过使用不同酶进行的 后续的在计算机芯片上的消化,将片段切割成更小的片段。可以进行第二次在计算机芯片 上的消化23,以便除去从第一次消化步骤21留下的特定序列。例如,可以优化第一次消化21,以便从完整基因组序列的数据库12得到大多数已 知基因加上一些额外的重复序列。在此情况下,需要第二次在计算机芯片上的消化步骤23。 因此,给出来自第一次消化21的序列输出,作为第二步骤23的输入。现在用限制酶的数据 库13进行另一个在计算机芯片上的消化步骤23,从而鉴定除去所有重复序列并且使已知 基因部分保持在需要的片段长度范围内的最佳的酶。根据另外的实施方案,如果必要,可以进行任何数目的额外的在计算机芯片上的 消化,其类似于第一次消化21和第二次消化23。在每一次之间,可以进行在计算机芯片上 的消化。过滤标准可以类似于第一过滤标准22。然后完成根据长度的片段分布M。片段分布M可以用分布柱状图25显现,和/ 或存储在查询序列的表示矩阵14中。表1.应用MspI、NotI和MseI后的基因组长度总覆盖
权利要求
1.用于设计和验证寡核苷酸阵列的方法(100),所述方法包括以下步骤将关于基因组注释(10)和需要的序列(11)的信息存储(101)在第一数据库(12)中;通过在所述第一数据库(1 中存储的所述信息上应用包含关于限制酶的信息的第二 数据库(13)而构建(102)查询序列的表示矩阵(14);基于所述表示矩阵而构建(103)限制酶列表(15)和用于概况分析的序列列表(16);和从用于概况分析的序列列表(16)设计(104)寡核苷酸阵列(17)。
2.权利要求1的方法,其中所述设计(104)寡核苷酸阵列(17)包括以下步骤通过应用得到适合在特定寡核苷酸阵列上使用的第二组序列的杂交模型^幻而对所 述序列列表的序列进行排序G2);和选择G4)用于所述寡核苷酸阵列(17)的需要的序列。
3.权利要求2的方法,其中所述排序02)是基于至少以下之一进行的核苷酸频率含 量;外显子;启动子;miRNAs ;CpG岛;3’ UTR ;(组蛋白)乙酰化岛;特定组蛋白修饰岛;和 LINES 或 SINES。
4.权利要求2或3的方法,其中所述寡核苷酸阵列(17)是包含作为探针的寡核苷酸的 微阵列。
5.权利要求1的方法,其中所述第二数据库(13)进一步包含关于适用于设计所述寡核 苷酸阵列(17)的限制酶和/或所述限制酶要应用的顺序的信息。
6.权利要求5的方法用于设计在计算机芯片上的方案的用途,所述方案用于验证寡核 苷酸阵列。
7.权利要求1或5的方法,其中所述寡核苷酸阵列(17)是寡核苷酸甲基化阵列。
8.权利要求1或5的方法,其中所述寡核苷酸阵列(17)是基因表达概况。
9.权利要求1或5的方法,其中所述寡核苷酸阵列(17)是基因组表达概况分析阵列。
10.权利要9的方法,其中所述基因组表达概况分析阵列(17)是单核苷酸多态性阵列 或基因拷贝数目多态性阵列。
11.计算机可读介质000),在其上编入了用于通过处理器处理的计算机程序,所述计 算机程序包含用于将关于基因组注释(10)和需要的序列(11)的信息存储在第一数据库(12)中的 第一代码段O01);用于通过在所述第一数据库(12)中存储的所述信息上应用包含关于限制酶的信息的 第二数据库(1 而构建查询序列的表示矩阵(14)的第二代码段Q02);用于基于所述表示矩阵而构建限制酶列表(15)和用于概况分析的序列列表(16)的第 三代码段O03);和用于从序列列表设计DNA阵列(17)的第四代码段004)。
12.用于验证寡核苷酸阵列的装置(300),所述装置包含配置用于将关于基因组注释(10)和需要的序列(11)的信息存储在第一数据库(12) 中的第一部件(301);配置用于通过在所述第一数据库(1 中存储的所述信息上应用包含关于限制酶的信 息的第二数据库(13)而构建查询序列的表示矩阵(14)的第二部件(302);配置用于基于所述表示矩阵而构建限制酶列表(15)和用于概况分析的序列列表(16) 的第三部件(303);和配置用于从序列列表设计寡核苷酸阵列(17)的第四部件(304)。
全文摘要
提供了一种方法,该方法允许酶的自动选择用于诸如甲基化概况分析、芯片上的芯片和比较基因组杂交实验的方案中。该方法也使给定实验的微阵列上的空间最大化。这意味着来自微阵列的结果得到了改进。该方法也改进了微阵列上的有意义图样的zero-in和焦距。这增强了区分两个分开的样品类,如肿瘤与正常、恶性与非恶性、男性与女性样品等的能力。此外,也提供了计算机可读介质和装置。
文档编号G06F19/24GK102047257SQ200980119398
公开日2011年5月4日 申请日期2009年5月14日 优先权日2008年5月27日
发明者N·迪米特罗瓦, R·卢西托, S·卡马拉卡兰 申请人:冷泉港实验室, 皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1