Dna序列的数据分析的制作方法

文档序号:6532994阅读:526来源:国知局
Dna序列的数据分析的制作方法
【专利摘要】提供了用于数据分析的系统和方法。在一实施方案中,提供了一种分析方法,包括:电子接收序列数据;电子接收一个或多个与至少一个表达载体相关的参比数据序列;将所述序列数据与所述参比数据序列中的至少一个关联以鉴定转基因侧翼序列;在基因组中搜索所述转基因侧翼序列的一个或多个插入位点;以及当在所述搜索步骤中找到一个或多个插入位点时,注释所述基因组及该基因组内的所述一个或多个插入位点。
【专利说明】DNA序列的数据分析
[0001] 对相关申请的夺叉榜引
[0002] 本申请要求2012年2月8日提交的美国临时专利申请流水号61/596,540以及 2012年2月21日提交的美国临时专利申请流水号61/601,090的权益。明确将它们的公开 内容全部通过提述并入本申请。
[0003] 公开领域
[0004] 本申请部分地涉及测序数据的计算机化分析。更具体地,本公开部分地涉及鉴定 和分析基因组修饰,例如转基因插入位点的计算机化方法。
[0005] 公开背景
[0006] 转基因侧翼序列的鉴定和表征对于含有转基因序列的广品的商品化和注册而g 可能是必需的。对于其他类型的活动,如通过EXZACT?Precision Technology牌基因组 修饰技术产生的事件的表征而言,转基因侧翼序列的鉴定和表征也可能是重要的。例如, EXZACT?Precision Technology牌基因组修饰技术是一项尖端、多用途而且鲁棒的基因组 修饰工具包。它以设计和使用锌指核酸酶("ZFN")为基础,锌指核酸酶是能够被设计为结 合序列特异性DNA序列的蛋白质。EXZACT?牌技术能够用来在生物体的基因组内产生ZFN 促使的双链断裂,从而导致转基因在DNA序列中感兴趣的特定座位处的靶向插入。
[0007] 转基因侧翼序列由基因组整合位点的染色体侧翼区域和整合的转基因组成。转基 因侧翼序列可包含由于转基因整合入染色体的特定位置而导致的缺失、倒位、或插入。在转 基因 DNA、测序中使用的克隆载体、用于分离转基因侧翼区域序列的引物和/或衔接子、已 经整合有转基因的染色体序列、以及已通过预料之外的重排而插入到基因组中的其他不相 关DNA片段之间,可能存在具有核酸相似性的区域。
[0008] 多种方法可以用来分离转基因侧翼区域序列。然后可以使用传统的双脱氧测序 法、链终止测序法,或通过下一代测序法(Next Generation Sequencing methods)对该转 基因侧翼区域序列进行测序。
[0009] 如Brautigma et al.,2010所述,可以使用DNA序列分析来确定经分离和扩增 的片段的核苷酸序列。可以分离经扩增的片段,亚克隆到载体中,并使用链终止法(又称 Sanger测序)或染料终止子测序法来加以测序。此外,扩增子可以使用下一代测序法进行 测序。NGS技术不需要亚克隆步骤,而且多个测序读段可以在一个反应中完成。市售有三 种 NGS 平台,即来自 454Life Sciences/Roche 的 Genome Sequencer FLX、来自 Solexa 的 Illumina Genome Analyser,以及 Applied Biosystems 的 SOLiD (寡聚物连接与检测测序 (Sequencing by Oligo Ligation and Detection)的首字母连词)。此外,有两种单分子测 序方法正在开发中。它们包括来自Helicos Bioscience的真实单分子测序(true Single Molecule Sequencing(tSMS)),和来自 Pacific Biosciences 的单分子实时测序(Single Molecule Real Time sequencing(SMRT))〇
[0010] 由 454Life Sciences/Roche 市场化的 Genome Sequencer FLX 是一种长读段 NGS(long read NGS),使用乳液PCR和焦磷酸测序(pyrosequencing)来产生测序读段 (reads)。可以使用300-800bp的DNA片段或者含有3-20kbp的片段的文库。反应每次运 行可以产生超过100万个大约250至400碱基的读段,总产量为250-400兆碱基。这种技 术产生的读段最长,但与其他的NGS技术相比每次运行的总序列输出不高。
[0011] 由Solexa市场化的Illumina Genome Analyser是一种短读段NGS,其利用合成 法测序,使用荧光染料标记的可逆性终止物核苷酸,并且以固相桥式PCR(bridge PCR)为基 础。可以利用含有最长达l〇kb的DNA片段的配对末端测序文库的构建。反应产生超过1 亿个长度为35-76个碱基的短读段。该数据每次运行可产生3-6千兆碱基。
[0012] 由Applied Biosystems市场化的通过寡聚物连接和检测的测序(SOLiD)系统是 一种短读段技术。此NGS技术使用长度上至10kbp的片段化双链DNA。该系统使用通过连 接经染料标记的寡核苷酸引物的测序和乳剂PCR来产生10亿个短读段,导致每次运行的总 序列输出多达30千兆碱基。
[0013] Helicos Bioscience 的 tSMS 和 Pacific Biosciences 的 SMRT 则应用另一不同 方法,使用单DNA分子进行序列反应。tSMS Helicos系统产生多至8亿个短读段,每次 运行产生21千兆碱基。使用经突光染料标记的虚终止物核苷酸(virtual terminator nucleotide)完成这些反应,其称为"合成测序(sequencing by synthesis)"方法。
[0014] 由Pacific Biosciences市场化的SMRT下一代测序系统使用实时合成测序(real time sequencing by synthesis)。此技术由于不受可逆终止物限制,可以产生长度高 达1000bp的读段。使用此技术每天可以产生相当于一个二倍体人类基因组的一倍覆盖 (one-fold coverage)的原始读取通量。
[0015] 分析DNA测序数据,其中将转基因 DNA序列与染色体DNA侧翼序列以及任何染色 体重排区分开来,如果用人力完成的话是费时的,对于大量数据集而言尤为如此。用人力鉴 定和注释转基因 DNA序列并将这些序列与基因组内由转基因整合导致的重排、缺失和插入 区分是费力而困难的任务,且其结果容易受到人为错误的影响。
[0016] 概要
[0017] 为了确认转基因整合入基因组,以及为了在转基因通过随机重组而插入或藉由同 源重组靶向位点特异性座位时鉴定转基因的具体染色体位置,需要高通量的方法。提供了 一种灵活、高通量的转基因侧翼序列分析系统来分析序列数据并界定生物体基因组内的转 基因插入位点。该方法在一个实施方案中包括在连续的DNA片段(例如而不限于完整基因 组的连续DNA片段)内鉴定和注释转基因及转基因侧翼序列、包括染色体侧翼序列的步骤。 该分析系统在一个实施方案中包括图形用户界面、分析管道(analysis pipeline)、以及输 入序列(input sequences)用的汇总展示(summary display)。
[0018] 在一个示例性的实施方案中,本公开包括一种分析方法。该方法包括:电子接收序 列数据,电子接收一个或多个至少与表达载体相关的参考数据序列,将所述序列数据与至 少一个所述参考数据序列关联以鉴定出转基因侧翼序列,对基因组搜索该转基因侧翼序列 的一个或多个插入位点,以及当找到一个或多个插入位点时,注释该基因组及该基因组内 的该一个或多个插入位点。
[0019] 在上述任何实施方案的一个进一步的实施方案中,所述序列数据还与至少一个引 物相关。在上述任何实施方案的至少一个进一步的实施方案中,所述序列数据还与至少一 个衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中,所述序列数据与至 少一个引物以及衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中,所述 序列数据还与至少一个克隆载体相关。在上述任何实施方案的至少一个进一步的实施方案 中,所述序列数据还与右克隆载体及左克隆载体相关。
[0020] 在上述任何实施方案的至少一个进一步的实施方案中,所述序列数据还与左克隆 载体、引物、衔接子、右克隆载体、以及转基因表达载体序列中的至少一者相关。
[0021] 在上述任何实施方案的另一个进一步的实施方案中,参考数据还与克隆载体、弓丨 物和衔接子相关。在上述任何实施方案的另一个进一步的实施方案中,参考数据还与左克 隆载体、右克隆载体、引物、以及衔接子相关。
[0022] 在上述任何实施方案的至少一个进一步的实施方案中,所述方法还包括对所述序 列数据搜索第一参考数据序列,以及当定位了所述第一参考数据序列时,对所述序列数据 搜索第二参考数据序列。在上述任何实施方案的至少一个进一步的实施方案中,所述第一 参考数据序列选自下组:表达载体、衔接子、引物、以及克隆载体序列。在上述任何实施方案 的至少一个进一步的实施方案中,所述第二参考数据序列选自下组:表达载体、衔接子、弓丨 物、以及克隆载体序列,第二参考数据序列的选择独立于所述第一参考数据序列。在上述任 何实施方案的至少一个进一步的实施方案中,所述第一参考数据序列是表达载体,且所述 第二参考数据序列是衔接子。在上述任何实施方案的至少一个进一步的实施方案中,所述 第一和第二参考数据序列独立地选自下组:引物和衔接子。
[0023] 在上述任何实施方案的至少一个进一步的实施方案中,将序列数据与参考数据序 列关联包括找到参考数据序列的确切序列。在上述任何实施方案的另一个进一步的实施方 案中,将序列数据与参考数据序列关联包括以参考数据序列的碱基对的百分之五以内的误 差限找到该序列。
[0024] 在又一个不例性的实施方案中,本公开包括用于分析的系统。在该实施方案中,该 系统包括用于接收数据的模块、用于接收一个或多个与至少表达载体相关的参考序列的模 块,以及计算模块,该计算模块可操作用以:将序列数据与至少一个参考数据序列关联以鉴 定转基因侧翼序列,对基因组搜索所述转基因侧翼序列的一个或多个插入位点、和当找到 一个或多个插入位点时,注释该基因组和该基因组内的该一个或多个插入位点。
[0025] 在上述任何实施方案的至少一个进一步的实施方案中,所述参考序列还与至少一 个引物相关。在上述任何实施方案的至少一个进一步的实施方案中,所述参考序列还与至 少一个衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中,所述参考序列 至少与引物和衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中,所述参 考序列还与至少一个表达载体序列相关。在上述任何实施方案的至少一个进一步的实施方 案中,所述参考序列还与至少一个克隆载体相关。在上述任何实施方案的至少一个进一步 的实施方案中,所述参考序列还与右克隆载体和左克隆载体相关。
[0026] 在上述任何实施方案的至少一个进一步的实施方案中,所述参考序列还与左克隆 载体、引物、衔接子、右克隆载体、以及表达载体序列中的至少一者相关。
[0027] 在上述任何实施方案的另一个进一步的实施方案中,所述参考序列还至少与克隆 载体、引物和衔接子相关。在上述任何实施方案的另一个进一步的实施方案中,所述参考序 列还至少与右克隆载体、左克隆载体、引物、以及衔接子相关。
[0028] 在上述任何实施方案的至少一个进一步的实施方案中,所述计算模块还可操作用 以:对所述序列数据搜索第一参考数据序列;并且当定位了所述第一参考数据序列时,对 该序列数据搜索第二参考数据序列。在上述任何实施方案的至少一个进一步的实施方案 中,所述第一参考数据序列选自下组:表达载体、衔接子、引物、和克隆载体序列。在上述任 何实施方案的至少一个进一步的实施方案中,所述第二参考数据序列选自下组:表达载体、 衔接子、引物、和克隆载体序列,所述第二参考数据序列的选择独立于所述第一参考数据序 列。在上述任何实施方案的至少一个进一步的实施方案中,所述第一参考数据序列是表达 载体,且所述第二参考数据序列是衔接子。在上述任何实施方案的至少一个进一步的实施 方案中,所述第一和第二参考数据序列独立地选自下组:引物和衔接子。
[0029] 在上述任何实施方案的至少一个进一步的实施方案中,将序列数据与参考数据序 列关联包括找到参考数据序列的确切序列。在上述任何实施方案的另一个进一步的实施方 案中,将序列数据与参考数据序列关联包括以参考数据序列的碱基对的百分之五以内的误 差限找到该序列。
[0030] 在考虑下面关于示例性实施方案的详细说明的基础上,本领域技术人员会容易想 到本公开的其他特点和优势,这些示例性实施方案例示了实施本发明的最佳模式。
[0031] 附图简要说明
[0032] 附图详细说明具体涉及随附的图,其中:
[0033] 图1A是一幅示例性的示意图,显示依照本公开的一个实施方案产生的典型序列, 其包含左克隆载体、引物、表达载体、转基因侧翼区域序列、衔接子、以及右克隆载体。
[0034] 图1B是一幅示例性的示意图,显示依照本公开的一个实施方案的基因组内转基 因插入,其包括表达载体、引物序列、以及转基因侧翼区域序列,插入在基因组序列的节段 之间。
[0035] 图2A显示依照本公开的一个实施方案的从样品输入到分析系统的数据及样品流 程。
[0036] 图2B显示一幅流程图,该图展示依照本公开的一个实施方案的数据分析方法。
[0037] 图3是依照本公开的一个实施方案的数据分析器的系统示意图。
[0038] 图4是展示依照本公开的一个实施方案的数据分析方法的流程图。
[0039] 图5A是一幅流程图,显示依照图4的流程图的侧翼序列鉴定处理序列或方法。
[0040] 图5B是一幅流程图,显示鉴定和标识转基因侧翼序列的方法。
[0041] 图5C是一幅流程图,显示依照图5A的流程图的鉴定转基因侧翼序列的方法的另 一个实施方案。
[0042] 图6是依照本公开的一个实施方案的一个示例性序列。
[0043] 图7是依照本公开的一个实施方案的鉴定系统的示例性输入屏幕。
[0044] 图8是依照本公开的一个实施方案的分析系统的示例性输出。
[0045] 图9A是显示表达载体、衔接子、引物、及转基因侧翼序列的位置的示例性屏幕。
[0046] 图9B是在图9A中图形鉴定的输入序列。
[0047] 图9C是在图9A中图形鉴定的转基因表达载体103序列。
[0048] 图9D是在图9A中图形鉴定的衔接子序列。
[0049] 图9E是在图9A中图形鉴定的引物序列。
[0050] 图9F是从图9B的输入序列鉴定出的侧翼于转基因的基因组序列。
[0051] 图10是一个示例性屏幕,显示有引物、但无右克隆载体的转基因侧翼序列。
[0052] 图11是一个示例性截屏,显示有表达载体序列,但无克隆载体的转基因侧翼序 列。
[0053] 在各个视图中相应的索引字符表示相应的部分。此处的示例是阐明说明本公开的 示例性实施方案,这样的示例不应解释为以任何方式限制本公开的范围。
[0054] 附图详细说明
[0055] 本文中描述的本公开的实施方案并不意在穷举或者将本公开限定到说公开的具 体形式。选择进行的描述的实施方案是为了使本领域技术人员有能力实施本公开的主题而 选择的。尽管本公开描述的是分析系统的具体构造,但应当理解的是,本文提出的构思可以 采用与本公开一致的多种多样的其他构造。此外,尽管讨论的是对转基因侧翼序列的分析, 但本文的教导可以应用于其他序列的分析。所描述的系统和方法可能可应用于来自任何用 于鉴定和表征转基因侧翼序列的分子方法的输出,且这些系统和方法提供了在基因组内定 位转基因插入位点的自动化途径。在一个实施方案中,这些方法和系统还提供插入位点周 围的邻近序列及局部环境,以便确定在插入位点处或附近的局部环境中是否有重排。
[0056] -种理想的分离的插入序列,根据图1A所示的实施方案,包括左克隆载体101、引 物105、转基因侧翼区域序列107、转基因表达载体序列103、衔接子109、和右克隆载体111。 左克隆载体101和右克隆载体111是克隆载体的一部分,克隆载体是第一 DNA序列,其中可 插入第二DNA序列。第二DNA序列的插入将克隆载体分为右(3'部分)克隆载体111和左 (5'部分)克隆载体101。在一个实施方案中,克隆载体的消化是由限制酶或通过另一种本 领域已知的方法完成的,从而产生被切割的DNA片段。在单个特定位点处消化克隆载体一 般产生已知的左克隆载体101和右克隆载体111序列。对于图1B示出了插入到基因组序列 中的插入序列。表达载体103是用于将基因导入靶细胞的序列。引物105是用于起始DNA 合成过程的短DNA序列。表达载体103 -般是用于将转基因整合到基因组中的序列。转基 因侧翼区域序列107是转基因插入位点直接上游或下游的基因组序列;在该实施方案中该 序列可以是已知的或者是未知的。衔接子109是短的寡核苷酸序列,其与转基因侧翼序列 107的末端连接或退火。在该实施方案中,衔接子109的序列是已知的,并被用来标识序列 的末端,而且还可以用来扩增或测序未知的转基因侧翼序列107。转基因侧翼序列107由 位于整合的转基因侧翼的基因组整合位点的染色体侧翼区构成。转基因侧翼序列可包含由 于该转基因整合到染色体的特定位置中而导致的缺失、倒位或插入。在一个实施方案中,该 分离的序列排序如下:左克隆载体101、引物105、表达载体序列103、转基因侧翼区域序列 107、衔接子109、以及右克隆载体111,如图1A所不,但是该序列的顺序不限于图1A和图1B 所示的顺序。
[0057] 如图1B中所示,引物105、表达载体103、转基因侧翼区域序列107被插入基因组 序列,并出现在基因组序列内。衔接子序列随后作为用于分离转基因侧翼序列的方法的一 部分被纳入。随后将所得的转基因侧翼序列,如图1A所示,利用下文所示的数据分析方法 进行分析。在该理想的序列中,左克隆载体101、表达载体103、引物105、衔接子109、以及 右克隆载体111的序列都是已知的。在实践中,该理想序列的一个或多个节段可以缺少或 者可以含有改变。
[0058] 图2A显示数据和样品从样品输入到分析系统207的流动。图2B显示流程图220, 其展示了根据本公开的一个实施方案的一种数据分析方法。在框221中,利用(例如但不 限于)ZFN引发的转基因插入规程制备输入样品201。在该规程中,一个或多个序列已知的 部分,例如引物105或衔接子109,被添加到靶基因组,靶基因组的序列也是已知的。样品也 可以通过其他转基因插入方法来制备。该转基因插入过程生成修饰的序列,其中在基因组 中的一个或多个位点处有插入。图1B中提供了一个示例性的修饰序列。
[0059] 在框223中,一个或多个测序器(sequencer) 205从一个或多个输入样品201产生 序列数据。测序器205确定用于鉴定基因组中的插入位置的转基因侧翼区域序列,并确认 转基因插入的具体序列。在该实施方案中,样品数据的形式是一个或多个包含序列数据的 文本文件。
[0060] 输入样品201根据测序器205的规程或操作说明被加载到测序器205中。例 如,可以使用Solexa ILLUMINA牌测序机或Roche 454牌测序机。测序器205产生与序 列201相关的数据。该数据可包括,但不限于,一个或多个文本文件、标准流程图格式 (Standard Flowgram Format(〃SFF〃))或类似文件、图像文件、或其他含有与输入样品201 中的DNA链的序列相关的信息的数据文件。在一个实施方案中,所述数据信息还包括置信 度(confidence)数据,使得序列中的每个碱基可具有与之相关的置信限,或者每个序列具 有与之相关的置信限。置信限是由所述测序器计算的数学计算结果,且可以包括测序器205 对特定碱基的读取的强度。在一个示例中,置信限是1-9的整数。在该例子中,置信限为1 表示测序器205对于"报道的碱基就是DNA链中的碱基"的置信度相对较低。置信限为9表 明测序器205对于"报道的碱基就是DNA链中的碱基"的置信度相对较高。在一个实施方 案中,除了置信限之外,测序器205还报道其他信息。例如,测序器205可以报道何时碱基 无法读取。
[0061] 来自测序器205的数据被提供给分析系统207。在一个实施方案中,数据是通过测 序器与分析系统207之间的网络或专用连接,或者是通过可移动存储器,从测序器提供给 分析系统207的。在一个实施方案中,测序器将数据打印到屏幕或打印机,且该数据被输入 到分析系统207,例如但不限于从键盘或扫描仪输入到分析系统207。在一个实施方案中, 分析系统207是测序器的一部分。
[0062] 在框225中,参考样品信息203被传输到分析系统207。所述参考样品信息203可 包括,但不限于,下述的序列:左克隆载体和右克隆载体(二者可作为单一序列提供)、表达 载体103、引物105、以及衔接子109。在一个实施方案中,序列信息通过网络被转移到分析 系统207。在另一个实施方案中,参考样品信息203与来自测序器205的序列信息一起被传 输到分析系统207。
[0063] 在框227中,分析系统207从一个或多个测序器205接收序列数据,并分析所述序 列数据,如下文更详细地说明的。分析系统207也将参考样品数据203作为输入。参考样 品数据203可包括,例如而不限于,衔接子109、引物105、左克隆载体103和/或右克隆载 体111、表达载体103的序列信息;或目标基因组序列信息。在一个实施方案中,将全部靶 基因组序列数据提供给分析系统207。在另一个实施方案中,将全部目标基因组序列的子集 提供给分析系统207。在又一个实施方案中,分析系统207将对靶基因组序列的全部或一 部分的请求发送给另一系统。匹配的序列数据以及该分析系统207产生的其他数据接受补 充处理。补充处理可包括,但不限于,可视化、定量化、与来自其他样品或其他试验的数据归 并、或者与目标基因组序列比较。在一个实施方案中,补充处理由另一系统实施。在另一实 施方案中,分析系统207实施所述补充处理的全部或一部分。补充处理在下文中描述。 [0064] 图3展示了依照本公开的一个实施方案的分析系统207的组件视图。分析系统 207可包括输入模块303、计算模块305、输出模块307、以及可视化模块311,在一个实施方 案中,它们驻留于分析系统207的存储器(mem 〇ry) 315中。这些模块可以由分析系统207的 控制器325来运行。在一个实施方案中,控制器325是一个或多个处理器,且控制器325包 括用于控制对控制器325及存储器315的访问的操作系统软件。存储器315包括计算机可 读介质。计算机可读介质可以是任何能够被分析系统207的一个或多个处理器访问的可用 介质,且包括易失性介质和非易失性介质。此外,计算机可读介质可以是可移动介质和/或 不可移动介质。举例而言,计算机可读介质可包括,但不限于RAM、R0M、EEPR0M、闪速存储器 或其他存储技术,CD-ROM、数字通用光盘(DVD)或其他光盘存储器,磁带盒、磁带、磁盘存储 器或其他磁存储设备、或任何能够用于存储期望的信息、且能够被分析系统207所访问的 其他介质。分析系统207可以是单一系统,或者可以是互相通信的两个或多个系统。在一 个实施方案中,分析系统207包括一个或多个输入设备、一个或多个输出设备、一个或多个 处理器、以及与所述一个或多个处理器关联的存储器。与一个或多个处理器关联的存储器 可以包括,但不限于:与模块的运行关联的存储器,以及与数据的储存关联的存储器。在一 个实施方案中,分析系统207与一个或多个网络关联,且通过该一个或多个网络与一个或 多个其他系统通信。模块可以由硬件或软件、或者硬件与软件的结合来实现。在一个实施 方案中,分析系统207还包括额外的硬件和/或软件以便容许分析系统207访问所述输入 设备、输出设备、处理器、存储器以及模块。所述模块,或者模块的组合,可以与另一不同的 (例如在不同的系统上的)处理器和/或存储器关联,且各系统的位置可以彼此分开。在一 个实施方案中,各模块在同一系统上作为一个或多个过程或服务来运行。各模块可操作以 彼此通信并分享信息。虽然将各模块描述为彼此分离且不同,但两个或更多个模块的功能 可以在同一过程中,或者在同一系统中运行。
[0065] 输入模块303从输入设备301接收数据。输入模块303还可以通过网络从另一系 统接收数据。例如但不构成限制,输入模块303通过一个或多个网络从计算机接收一个或 多个信号。输入模块303从输入设备301接收数据,并且可以将数据重排或重加工成计算 模块305可识别的格式,使得该数据能够被计算模块305所解释。输入设备301在一个实 施方案中可以是客户端304,使用者与其交互以向分析系统207发送信号和从分析系统207 接收信号。客户端304可通过一个或多个网络302与分析系统207通信。
[0066] 网络302可包括下述中的一个或多个:局域网络、广域网络、无线网络例如使用 IEEE 802. llx通信协议的无线网络、有线网络、光纤网络或其他光学网络、令牌环网络,或 者可以使用任何其他类型的包交换网络。网络302可包括互联网,或者可包括任何其他类 型的公用网络或私人网络。术语"网络"的使用并不将网络限定于单一形式或类型的网络, 也不暗示使用的是一个网络。可以使用任何通信协议或类型的网络的组合。例如,可以使 用两个或更多个包交换网络,或者包交换网络可以与无线网络通信。
[0067] 输入设备301可通过专用连接或任何其他类型的连接与输入模块303通信。例如, 但不限于,输入设备301可藉由通用串行总线("USB")连接、通过与输入模块303的串行 或并行连接,或可藉由与输入模块303的光学或无线联接与输入模块303通信。传输也可 藉由一个或多个物理对象发生。例如,测序器产生一个或多个文件,且测序器或使用者将该 一个或多个文件拷贝到可移动存储设备,例如USB存储设备或硬盘驱动器,且使用者可以 将该可移动存储设备从测序器移除并将其附接到分析系统207的输入模块303。可以使用 任何通信协议来在输入设备301和输入模块303之间通信。例如,但不限于,可以使用USB 协议或蓝牙协议。
[0068] 在一个实施方案中,输入设备301是测序器。测序器分析一个或多个样品并生成 关于该一个或多个样品的序列数据。测序器可以通过无线或有线连接将序列数据传送给输 入模块303。
[0069] 在一个实施方案中,数据是一个或多个文件的形式,或者测序器可以将数据打印 到屏幕或打印机,且该数据通过,例如或不限于,键盘、鼠标或扫描仪被输入分析系统207。 在一个实施方案中,测序器还包括额外的描述所述样品的数据。
[0070] 计算模块305从输入模块303接收输入,并基于该输入运行一个或多个处理序列。 例如,且不限于,计算模块305接收用于这些序列的序列信息和参考样品信息。样品数据包 括序列信息、例如但不限于,引物105、左和/或右克隆载体111、表达载体103、和/或目标 基因组。样品数据可以由使用者、测序器、第三方系统、与分析系统207关联的另一系统、这 些输入中两种或更多种的组合、或其他合适来源提供给分析系统207。样品数据可以作为标 准格式的文本文件提供给分析系统207。例如,但不限于,文本文件可以格式化为FASTA格 式。在另一个实施方案中,样品数据信息可以通过将数据打字或粘贴到一个或多个文本输 入域来输入分析系统207。信息可以格式化为FASTA格式,或者另一种标准化格式。在另一 种实施方案中,可以使用其他格式。例如,可以使用Genbank?格式,或另一种格式。分析 系统207可接收特定格式的样品数据,并且可将该数据重新格式化以供分析系统207分析。 [0071 ] 计算模块305应用一种或多种算法来鉴定输入序列内的载体和/或衔接子109,基 于输入序列内的载体和/或衔接子109来鉴定输入序列的朝向、定位输入序列内的转基因 侧翼序列,如果可能,接收与输入序列相关的基因组信息,并且尝试将转基因侧翼序列定位 到该基因组。这些算法生成额外的与输入序列相关的定性和定量数据。此外,在一个实施 方案中,输入序列被注释并分析和/或可视化。参考图4、5A、5B和5C中所示的流程图对用 于鉴定和注释输入序列的算法和过程加以说明。
[0072] 计算模块305提供,例如,关于序列及其在基因组中的位置的数据,和/或供可视 化模块使用来可视化一个或多个序列的额外数据,来作为输出。
[0073] 可视化模块311从计算模块305接收关于输入序列和注释的数据作为输入。可视 化模块311容许使用者可视化和/或操作序列和/或注释。在一个实施方案中,可视化模 块311可使用Gbrowse,或者Gbrowse的修改版本。在别的实施方案中可以使用其他序列可 视化软件程序。使用者可具有操作目标序列的视觉表示(visual representation),或目 标序列和基因组的视觉表不的能力。可视化|旲块容许使用者审视目标序列在基因组中的位 置,或者其他感兴趣的序列在基因组内的位置。可视化步骤允许使用者确定目标序列在基 因组内的位置,以及确定基因组的其他序列的位置或改变。该可视化可能有助于提供对转 基因侧翼序列的分析。
[0074] 输入模块307接收输入,并将该输入传输到输出设备309。在一个实施方案中,输 出模块307从计算模块305、可视化设备311、或计算模块305和可视化设备311二者接收输 入。接收到的数据可以是字母数字数据的形式,并将数据重新格式化为对输出设备309而 言可理解的格式,并将数据传输给输出设备309。输出模块307和输出设备309互相通信。 例如,但不限于,输出模块307和输出设备309通过网络互相通信,或者通过专用连接(如 有线或无线联接)互相通信。输出模块307也可以将从计算模块305接收的数据重新格式 化为输出设备309能够使用的格式。例如,输出模块307可生成一个或多个可以被输出设 备309读取的文件。
[0075] 在一个实施方案中,输出设备309是可视化系统、另一个分析系统207、或数据存 储系统。输出模块307通过传送一个或多个电子文件到输出设备309来与输出设备309通 信。该传输可通过专用联接,例如USB连接或串口连接发生,或可以通过一个或多个网络连 接发生。传输也可藉由一个或多个物理对象发生。例如,输出模块307可生成一个或多个 文件,并可以将一个或多个文件拷贝到可移动存储设备,例如USB存储设备或硬盘驱动器, 然后使用者可将该可移动存储设备从分析系统207移除,并将其附接到可视化系统、另一 个分析系统207、或数据存储系统。
[0076] 图4显示了一幅流程图,其显示依照本公开的一个实施方案的数据分析方法。在 框401中,根据一种或多种制备规程制备样品,产生具有转基因插入的未知样品。
[0077] 在框403中,未知样品被测序。测序可依照规程或测序器的操作说明来进行。例 如,可使用Solexa ILLUMINA牌测序机或Roche 454牌测序机。测序器生成与序列相关的 数据。数据可包括,但不限于,含有与样品中的DNA链的序列相关的信息的一个或多个文本 文件或其他数据文件。在一个实施方案中,所述序列信息还包括置信度数据,使得序列中的 每个碱基可具有与之关联的置信限,或每个序列具有与之关联的置信限。置信限是由测序 器计算出的数学计算结果,可包括测序器对具体碱基的读出的强度。在一个实施方案中,置 信限是1至9的整数。在该例子中,置信限为1表示测序器对于"报道的碱基就是DNA链中 的碱基"的置信度相对较低。置信限为9表明测序器对于"报道的碱基就是DNA链中的碱 基"的置信度相对较高。在一个实施方案中,除了置信限之外,测序器还报道其他信息。例 如,测序器可以报道何时碱基无法读取。
[0078] 在框405中,来自测序器的数据被输入分析系统207,该系统定位并鉴定每个被测 序的输入序列中的侧翼序列。侧翼序列可能不存在于每个输入序列中,或者该系统可能不 能鉴定输入序列中侧翼序列的位置。侧翼序列被定位并鉴定的序列被系统记录,而侧翼序 列未被定位、或者被定位但未被鉴定的序列也被系统记录。基于序列数据和系统所实施的 分析,系统生成输出数据。下面援引图5A-5C也描述了序列数据的示例分析。
[0079] 在框407中,系统对序列数据以及由系统确定的侧翼序列位置信息进行处理后分 析。序列数据、目标基因组、和/或侧翼序列位置信息可以被可视化,可以用该数据进行定 性测量,和/或可以用该数据进行定量测量。
[0080] 图5A是一幅流程图,显示由分析系统207运行的一个用于侧翼序列鉴定的示例性 方法。在框501中,表达载体103,其用作产生输入序列的规程的一部分,被输入系统。在某 些实施方案中,还提供下列中的一个或多个的序列:右克隆载体和左克隆载体、引物105、 和/或衔接子109。在一个更具体的实施方案中,还提供下列中的每一个的序列:右克隆载 体和左克隆载体、引物105、和衔接子109。克隆载体、表达载体103、引物105、以及衔接子 109的序列通常是已知的,以便在基因组内鉴定并定位它们。将已知序列的信息输入系统, 以便在与输入序列比较时能鉴定出这些序列。
[0081] 在框503中,从测序器或从一个或多个文件接收输入序列。所述一个或多个文件 可以例如藉由网络传输给系统,或者可以以其他方式提供给系统。如果序列信息是从测序 器接收的,其可以是例如藉由网络来传输给系统的。在一个实施方案中,序列信息是能够被 传输给系统并能被系统读取的电子形式。在一个实施方案中,序列信息可以包括验证数据 或其他额外数据,来保证序列信息在传输过程中未出错或改变。在另一实施方案中,序列信 息存储在一个或多个数据库中,且序列信息藉由例如网络从一个或多个数据库被传输给系 统。此外,基因组信息可以通过网络从另一个数据库接收。例如,基因组信息可存储在公众 可访问的数据库、或私人可访问的数据库中,系统可请求基因组信息,并且至少部分地基于 该请求,可将整个基因组或基因组的被请求的部分传输给系统。
[0082] 在框505中,分析系统207对输入序列搜索与已知序列(包括表达载体103)的相 似性。如果在步骤501中提供,分析系统207还可以搜索与克隆载体、引物105、和/或衔 接子109序列的相似性。如果这些序列中的一个或多个在步骤501中未提供,则分析系统 207将这些序列作为未找到处理。分析系统207可使用不同的搜索参数来搜索不同的序列。 例如,在一个实施方案中,分析系统207可使用一组更严格的搜索参数来鉴定引物105和衔 接子109,因为它们是较短的序列,且已被修饰的可能性更低。分析系统207可使用相比之 下较不严格的搜索参数来搜索输入序列中的其他序列,因为它们更长和/或更有可能已经 在转基因整合到基因组的过程中被改变。在一个实施方案中,分析系统207必须找到确切 的序列方可鉴定表达载体103。在另一个实施方案中,分析系统207如果发现表达载体103 的序列在误差限内,则分析系统207鉴定表达序列103。例如,误差限可以是表达载体103 序列中的碱基对的百分之五。在另一个实施方案中,误差限大于或小于百分之五。
[0083] 在一个实施方案中,分析系统207使用LASTZ比对程序和算法来搜索输入序列与 由克隆载体、转基因表达载体表达载体103、引物105、和/或衔接子109序列组成的已知序 列之间的序列相似性。LASTZ程序在Harris, R.S. (2007) Improved pairwise alignment of genomic DNA.Ph.D. Thesis, The Pennsylvania State University 中有描述,在此通过提 述并入其全部公开内容。LASTZ程序进行两种序列相似性搜索。第一种序列相似性搜索是 "确切搜索",其是LASTZ程序的一个特定的参数设置。"确切搜索"要求95%同一性,序列 中没有开口,且序列内有至少15个完美的字符匹配(character match)。使用打分矩阵来 为序列确定"得分",该矩阵包括1 (对于与目标序列的匹配)和-10 (对于与目标序列的不 匹配)。该搜索用来鉴定输入序列(如果被提供的话)内的引物105和衔接子109,因为预 期输入序列中的引物105和衔接子109与样品序列中的引物105和衔接子109完全一致, 这是由于引物105和衔接子109序列短,故不大可能已在实验过程中被修饰。第二种序列 相似性搜索是"宽松搜索"。"宽松搜索"没有与"确切搜索"一样的严格要求。该搜索使用 LASTZ的缺省参数,并被部署用来在输入序列中找到转基因表达载体103和克隆载体序列 相似性。"宽松搜索"用于转基因表达载体103和克隆载体序列,这是因为它们更长,故更有 可能在实验过程中已被修饰。
[0084] 输入序列中的亚序列,它们与参考数据序列享有序列相似性,被标记为一种"类 型"。在该实施方案中,有四种可能的"类型":引物105、衔接子109、转基因表达载体103、 和克隆载体。当步骤501中未提供引物105、衔接子109、转基因表达载体103及克隆载体 中的一个或多个时,跳过该类型的步骤503和505。例如,输入序列与任何选定的引物105 序列之间的高度相似的序列标记为"引物105类型"或与该类型相关联。类似地,如果使用 者选择15个转基因表达载体103序列以供纳入分析中,且每个序列对输入序列内的亚序列 具有30个同源物(homologies),则所有450个序列都将与类型"转基因表达载体103"关 联。
[0085] 如框507中显示的,将以最高水平的序列相似性和比对长度与引物105序列比对 的序列归类为"引物105类型"。类似地,将以最高水平的序列相似性和比对长度与衔接子 109序列对齐的序列归类为"衔接子109类型"。在输入序列中衔接子109与引物105的比 对长度和比对分数相同的情况下,贝 1J从所有的联系序列(tied sequences)中任意选择序列 "类型"。这两种序列,"引物105类型"和"衔接子109类型",首先被鉴定。首先鉴定它们 是因为它们的基序的位置表明什么序列被扩增了,以及它的朝向如何。如果能够定位这两 种序列类型,则它们的位置将会表明转基因和克隆载体序列的位置。
[0086] 如框509中所示,一旦完成对引物105和衔接子109序列相似性的搜索,分析系统 207就在输入序列中搜索具有最多序列相似性的转基因表达载体103。该搜索以两种不同 方式之一进行,取决于是否已鉴定出了与引物105相似的序列。如果在输入序列中已鉴定 出了引物105序列,则鉴定含有引物105的最佳匹配。在一个实施方案中,如果在步骤501 中未提供引物105,或者在步骤507中未鉴定出引物105,或者如果没有任何转基因表达载 体103序列含有与"引物105类型"享有相似性的序列,则考虑最佳总体匹配并选择序列相 似性最高的转基因表达载体103。"最佳总体匹配"在此语境下意思是选择具有最高水平的 序列相似性和比对长度的匹配。
[0087] 一旦定位并鉴定了转基因表达载体103,就尝试藉由与已知克隆载体的序列相似 性比对来定位和鉴定克隆载体序列。一旦鉴定了推断的转基因表达载体103序列,则进一 步表征该序列上游和下游的序列。查询上游克隆载体序列以鉴定在起始和结束坐标处有序 列相似性的克隆载体。先前已被注释的序列(转基因表达载体103、引物105和衔接子109) 不查询。如此,分析系统207对所有可能的克隆载体搜索与先前鉴定的特征的上游区域的 序列相似性。然后分析系统207以相似的方式对鉴定出的克隆载体序列信息搜索与先前鉴 定的特征的下游区域的序列相似性。通过选择具有最高的序列相似性水平和序列长度的匹 配来鉴定载体。
[0088] 如框511中所示,鉴定输入序列的朝向,如果可能的话。为了便于比较和进一步的 计算,分析系统207尝试将输入序列按从左到右的朝向排序;S卩,序列的5'端位于左侧,序 列的3'端位于右侧。在某些情况下,测序器可能已测序了 DNA的反义链,在此情况下需要 对序列进行反向互补。一旦鉴定了输入序列中每种"类型"(即引物105、衔接子109、克隆 载体、和转基因表达载体103)的序列,系统就利用该信息来鉴定输入序列和/或确定其朝 向。朝向由引物105及衔接子109序列的位置所决定。因为便于可视化,正向朝向,其中引 物105位于衔接子109前方,是优选的。
[0089] 图6中显示了来自反义链的输入序列的一个例子。在图6中,引物105的序列对 分析系统207而言是已知的,为"TAAACA"。在一个实施方案中,如果输入序列605被分析系 统207所读取,分析系统207最开始可能无法找到输入序列605中的引物603序列。分析 系统207反向互补输入序列605以解析出反向互补的序列607,并将引物105与该反向互补 序列607比较。在该例子中,分析系统207系统找到了引物603对反向互补序列607内的 亚序列的确切匹配。分析系统207将该序列609与已知引物603分离,并继续进行对反向 互补的序列607的分析。在一个实施方案中,分析系统207取而代之地针对已知引物序列 603比较反向互补序列与序列605,并且在鉴定了反向互补的引物序列603之后,可反向互 补整个序列以产生反向互补的序列607,并可继续对反向互补序列607进行处理。
[0090] 如框513中所示,转基因侧翼序列位于输入序列内,或者如果该序列在前一步骤 中被反向互补,则位于反向互补序列内。针对图5B和5C更完整地描述了示例性的定位方 法。
[0091] 如框515中所示,转基因侧翼序列,如果在前一步骤中被找到的话,位于基因组 内。转基因侧翼序列位于基因组内的一个整合位点中,且位于转基因插入位点的上游或 下游,并与表达载体序列邻接。插入位点使用匹配算法确定。例如可以使用Basic Local Alignment Search Tool (BLAST)算法。BLAST 在 Altschul S. F, et al.,''Basic local alignment search tool. 〃J Mol Biol. 19900ct5;215(3) :403-10 中描述,在此通过提述并 入其全部公开内容。BLAST搜索的输入是转基因侧翼序列与基因组。BLAST搜索定位(如 果可能的话)转基因侧翼序列在基因组中的一个或多个整合位点。BLAST搜索的输出是可 能的插入位点的列表和契合度(fit)的得分。对于该同源性搜索关闭所有的遮蔽(masking) 和低复杂度过滤(low complexity filtering),以鉴定尽可能多的整合位点。在进行了搜索 之后,对输入进行解析以找到最佳命中,即契合度得分最高者。一旦鉴定了最佳命中,就将 该区域视为推断的转基因整合位点。
[0092] 对于给定的转基因整合位点,使用计算机脚本鉴定在基因组中有注释的连锁的内 源上游和下游基因。解析基因组注释的输入文件,对各基因按照染色体进行标引并按照起 始坐标排序。当确定了插入位点时,系统鉴定合适的基因坐标列表,并实施二分搜索来为插 入位点鉴定出正确的插入点。将会出现转基因插入位点的经排序的坐标列表。从这点开始 向前搜索该列表,直到定位出距插入位点大于10千碱基对的序列。然后向后搜索该列表直 到定位出距插入位点大于10千碱基(kb)对的序列。按照此方式,注释基因组中插入位点 上游和下游的基因以便进一步分析。距离参数可以改变,例如但不限于,改变到插入位点的 >10kb或<10kb。也可使用其他距离插入位点的范围。
[0093] 如果为插入序列找到了转基因整合位点,重要的是确定转基因和染色体侧翼序列 之间的序列是否含有重排、插入或缺失。为了给予使用者插入位点在转基因整合过程中未 被改变(即整合位点的序列未被重排或修饰而导致缺失或插入)的确信,分析系统207计 算染色体侧翼序列与任何先前提到的过程之中使用的任何其他序列"类型"之间存在的重 叠的量。这种量度作为输入序列相似度(input sequence similarity)中独特的且不被其 他序列相似度重叠的碱基的数目(独特_碱基)与输入序列相似度中碱基的总数(总_碱 基)的比例来计算。
[0094]
【权利要求】
1. 一种分析方法,包括: 电子接收序列数据; 电子接收一个或多个至少与表达载体相关的参考数据序列; 将所述序列数据与至少一个所述参考数据序列关联而鉴定出转基因侧翼序列; 对基因组搜索该转基因侧翼序列的一个或多个插入位点;和 当在所述搜索步骤中找到一个或多个插入位点时,注释所述基因组和所述一个或多个 插入位点。
2. 权利要求1的方法,其中所述参考数据还与下列中至少一个相关:左克隆载体、弓丨 物、衔接子、和右克隆载体。
3. 权利要求1的方法,其中所述参考数据还与左克隆载体、引物、衔接子、和右克隆载 体相关。
4. 权利要求1的方法,还包括: 对所述序列数据搜索第一参考数据序列;和 当定位了所述第一参考数据序列时,对所述序列数据搜索第二参考数据序列。
5. 权利要求4的方法,其中所述第一参考数据序列选自下组:表达载体、衔接子、引物、 和克隆载体。
6. 权利要求5的方法,其中所述第二参考数据序列选自下组:表达载体、衔接子、引物、 和克隆载体,所述第二参考数据序列的选择独立于所述第一参考数据序列。
7. 权利要求4的方法,其中所述第一参考数据序列是表达载体,且所述第二参考数据 序列是衔接子。
8. 权利要求4的方法,其中所述第一和第二参考数据序列独立地选自下组:引物和衔 接子。
9. 权利要求1的方法,还包括可视化所述转基因侧翼序列和所述参考数据。
10. 权利要求1的方法,还包括可视化所述基因组内的一个或多个插入位点。
11. 权利要求1的方法,还包括表征所述插入位点上游和下游的基因组的序列信息。
12. 权利要求11的方法,其中表征所述插入位点10千碱基对上游和10千碱基对下游 的基因组的序列信息。
13. 权利要求1的方法,还包括: 将所述序列数据与一个或多个参考数据序列比对,和 对被比对的序列进行定性分析。
14. 权利要求1的方法,还包括: 将所述序列数据与一个或多个参考数据序列比对,和 对被比对的序列进行定量分析。
15. 权利要求1的方法,其中所述基因组是植物基因组的至少一部分。
16. 权利要求1的方法,其中将所述序列数据与至少一个所述参考数据序列关联包括 使用算法将至少一个所述参考数据序列与所述序列数据匹配。
17. 权利要求16的方法,其中所述算法是LASTZ算法。
18. 权利要求1的方法,其中对基因组搜索所述转基因侧翼序列的一个或多个插入位 点包括使用算法在所述基因组中定位所述至少一个插入位点上游和下游的序列。
19. 权利要求18的方法,其中所述算法是BLAST算法。
20. -种用于分析的系统,包括: 用于接收与序列相关的序列数据的模块; 用于接收至少与表达载体相关的一个或多个参考序列的模块;和 计算模块,其可操作用以: 将所述序列数据与至少一个所述参考数据序列关联而鉴定出转基因侧翼序列; 对基因组搜索该转基因侧翼序列的一个或多个插入位点;和 当找到一个或多个插入位点时,注释所述基因组和该基因组内的该一个或多个插入位 点。
21. 权利要求20的系统,其中所述参考序列还与下列中至少一个相关:左克隆载体、弓丨 物、衔接子、和右克隆载体。
22. 权利要求20的系统,其中所述参考序列还与左克隆载体、引物、衔接子、和右克隆 载体相关。
23. 权利要求20的系统,其中所述计算模块还可操作用以: 对所述序列数据搜索第一参考数据序列;和 当定位了所述第一参考序列时,对所述序列数据搜索第二参考数据序列。
24. 权利要求23的系统,其中所述第一参考数据序列选自下组:表达载体、衔接子、弓丨 物、和克隆载体。
25. 权利要求24的系统,其中所述第二参考数据序列选自下组:表达载体、衔接子、弓丨 物、和克隆载体,所述第二参考数据序列的选择独立于所述第一参考数据序列。
26. 权利要求23的系统,其中所述第一参考数据序列是表达载体,且所述第二参考数 据序列是衔接子。
27. 权利要求23的系统,其中所述第一和第二参考数据序列独立地选自下组:引物和 衔接子。
28. 权利要求20的系统,还包括用于可视化所述转基因侧翼序列和下列至少之一的模 块:左克隆载体、表达载体、引物、衔接子、和右克隆载体。
29. 权利要求20的系统,还包括用于可视化所述基因组内的所述一个或多个插入位点 的模块。
30. 权利要求20的系统,其中所述计算模块还可操作用以表征所述插入位点上游和下 游的基因组的序列信息。
31. 权利要求30的系统,其中所述计算模块可操作用以表征所述插入位点10千碱基对 上游和10千喊基对下游的基因组的序列信息。
32. 权利要求20的系统,其中所述计算模块可操作用以: 将所述序列数据与一个或多个参考数据序列比对,和 对被比对的序列进行定性分析。
33. 权利要求20的系统,其中所述计算模块可操作用以: 将所述序列数据与一个或多个参考数据序列比对,和 对被比对的序列进行定量分析。
34. 权利要求20的系统,其中所述基因组是植物基因组的至少一部分。
35. 权利要求20的系统,其中将所述序列数据与至少一个所述参考数据序列关联包括 使用算法将至少一个所述参考数据序列与所述序列数据匹配。
36. 权利要求35的系统,其中所述算法是LASTZ算法。
37. 权利要求20的系统,其中对基因组搜索所述转基因侧翼序列的一个或多个插入位 点包括使用算法在所述基因组中定位所述至少一个插入位点上游和下游的序列。
38. 权利要求37的系统,其中所述算法是BLAST算法。
【文档编号】G06F19/18GK104272311SQ201380008411
【公开日】2015年1月7日 申请日期:2013年2月7日 优先权日:2012年2月8日
【发明者】L·萨斯特里-登特, S·斯里拉姆, N·埃兰戈, Z·曹, K·N·穆瑟兰曼 申请人:陶氏益农公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1