用于组装核酸序列数据的方法

文档序号:6495514阅读:131来源:国知局
用于组装核酸序列数据的方法
【专利摘要】本发明涉及一种用于将包含核酸片段读段的核酸序列数据组装成连续核苷酸序列节段的方法,其包括以下步骤:(a)从多个核酸片段读段获得多个核酸序列数据;(b)将所述多个核酸序列数据与参考序列比对;(c)检测步骤(b)的比对输出中的一或多个未组装的或与所述参考序列不匹配的缺口或区域;(d)对定位至所述未组装的缺口或区域的核酸序列数据进行从头序列组装;和(e)组合步骤(b)的比对输出和步骤(d)的比对输出以获得连续的核苷酸序列节段。本发明还涉及一种方法,其中未组装缺口或区域的检测通过采用碱基质量、覆盖度、周围区域复杂性或错配长度过滤器或阈值来进行。还考虑的是屏蔽掉与已知多态性、高度可变区、疾病相关突变或修饰、重复、低定位能力区域、CPG岛、或具有特定生物物理学特征的区域相关的核酸序列数据。此外,提供了相应的用于组装核酸序列数据的程序单元或计算机程序以及用于将包含核酸片段读段的核酸序列数据转化成连续核苷酸序列节段的序列组装系统。
【专利说明】用于组装核酸序列数据的方法
发明领域
[0001]本发明涉及一种用于将包含核酸片段读段(read)的核酸序列数据组装成连续核苷酸序列节段的方法,其包括步骤:(a)从多个核酸片段读段获得多个核酸序列数据;(b)将所述多个核酸序列数据与参考序列比对;(c)检测步骤(b)的比对输出中的一或多个未组装的或与所述参考序列不匹配的缺口或区域;(d)对定位至所述未组装的缺口或区域的核酸序列数据进行从头序列组装;和(e)组合步骤(b)的比对输出和步骤(d)的组装输出以获得连续的核苷酸序列节段。本发明还涉及一种方法,其中未组装缺口或区域的检测通过采用碱基质量、覆盖度、周围区域复杂性或错配长度过滤器或阈值来进行。还考虑的是屏蔽掉与已知多态性、高度可变区、疾病相关突变或修饰、重复、低定位能力(mapability)区域、CPG岛、或具有特定生物物理学特征的区域相关的核酸序列数据。此外,提供了相应的用于组装核酸序列数据的程序单元(program element)或计算机程序以及用于将包含核酸片段读段的核酸序列数据转化成连续核苷酸序列节段的序列组装系统。
[0002]发明背景
[0003]在引入第二代或超高通量测序技术后,序列数据的量极大地增加,而获得序列信息的花费以及提供该信息所需的时间已显著减少并且在将来会进一步降低。第二代测序方法的研究以及临床应用将影响转录组分析和基因注释,允许RNA剪接鉴别、SNP发现或基因组甲基化分析,并提供了鉴别疾病病因和基于个人筛选基因组模式的途径。
[0004]目前第二代测序(NGS)仅基于包括Roche/454、Illumina/Solex 和 ABISOLiD系统的一些平台。作为其基础的技术依赖于在测序开始前的模板扩增步骤。因此,相比于传统的基于Sanger的技术,读段长度被缩短:脱_脱氧终止子方法提供650_800bp的读段长度,而NGS方法具有35-400bp的读段长度(Bao et al., Journal of HumanGenetics, 28April2011, p.1-9)。此外,从NGS平台获得的原始数据不是标准化的且在读段长度、错误谱、匹配阈值等显示差异。因此,NGS方法的应用意味着序列信息的量和复杂性的增加。
[0005]然而,NGS测序机器的输出本身基本上是没有价值的,因为序列读段只有重建出其代表的连续基因组序列才变得有意义。此外,对于NGS的常规用途,例如在临床设置中,高的序列精度和便利的选择感兴趣的基因组子集的方法是重要的。随着基因组测序与医学咨询实践的更高度整合,遗传学家将有更多的责任确保获得的信息的确是真的并代表个体的原始基因组。
[0006]因此,需要这样的方法,其允许精确地和省时地比对和组装可从NGS方法获得的核酸序列数据。
[0007]发明概述
[0008]本发明满足了这种需要并提供了手段和方法,其允许将包含核酸片段读段的核酸序列数据组装成连续的核苷酸序列节段。上述目标特别地通过包括下述步骤的方法实现:
[0009](a)从多个核酸片段读段获得多个核酸序列数据;
[0010](b)将所述多个核酸序列数据与参考序列比对;[0011](c)检测步骤(b)的比对输出中的一或多个未组装的或与所述参考序列不匹配的缺口或区域;
[0012](d)对定位至所述未组装的缺口或区域的核酸序列数据进行从头序列组装;和
[0013](e)组合步骤(b)的比对输出和步骤(d)的组装输出以获得连续的核苷酸序列节段。
[0014]该方法提供这样的优势,通过使用从头组装步骤可以克服通常在进行参考序列比对时产生的偏差。此外,与填充在参考序列比对、多态性长度检测以及尤其在共有序列组装中未对齐序列的拟合(fitting)中产生的缺口相关的典型问题,当通过从头组装闭合这些信息缺口或中断时,可以被解决。与此同时,从头组装方法已知的注释问题可以通过基于参考序列进行所述分析的一部分来减轻。所述方法因此以参考序列比对为开始,且当其发现未组装的缺口或区域时其转换为从头比对,例如,直到其再次检测到参考比对。这产生具有显著增加的序列精度的共有组装或连续的核苷酸序列节段。事实上,如此组装的序列代表个体基因组而不是参考基因组并且避免参考序列相关的偏差问题。因此假设本文描述的方法具有巨大的应用,尤其是在医学遗传学上,其可以帮助确定复杂遗传疾病的遗传学基础。
[0015]在本发明优选的实施方式中,其中上述的多个核酸序列数据被转换成统一格式。
[0016]在本发明另一优选的实施方式中,本文上述的步骤(C)的检测通过应用过滤器(filter)或阈值来实现。
[0017]在进一步优选的实施方式中,所述过滤器或阈值是碱基质量、覆盖度、周围区域复杂性或错配长度过滤器或阈值。
[0018]在本发明另一优选的实施方式,在上述比对步骤(b)之前屏蔽掉与已知多态性、高度可变区、疾病相关突变或修饰、重复、低定位能力区域(low mapability region)、CPG岛、或具有特定生物物理学特征的区域相关的核酸序列数据。
[0019]在一特别优选的实施方式中,对所述屏蔽掉的核酸序列数据进行本文上述的步骤(d)的从头序列组装。
[0020]在本发明另一优选的实施方式中,上面定义的步骤(b)用参考比对算法进行。在一特别优选的实施方式中,所述参考比对算法是BFAST、ELAND、GenomeMapper, GMAP, MAQ,MOSAIK、PASS、SeqMap, SHRiMP, SOAP、SSAHA、或 CLD。甚至更优选的是 Bowtie 或 BWA。
[0021]在本发明仍另一优选的实施方式中,上面定义的步骤(C)用从头组装算法进行。在一特别优选的实施方式中,所述从头组装算法是AAPATHS、Edena, EULER-SR、MIRA2、SEQAN、SHARCGS, SSAKE, SOAPdenovo, VCAKE。甚至更优选的是 ABySS 或 Velvet。
[0022]在进一步优选的实施方式中,本文上述的参考序列是基本上完整的原核、真核或病毒基因组序列,或其子部分。在本发明特别优选的实施方式中,所述参考序列是人类基因组序列、动物基因组序列、植物基因组序列、细菌基因组序列,或其子部分。
[0023]在本发明进一步优选的实施方式中,所述参考序列选自一组或分类群,所述组或分类群与其核酸序列数据待组装的生物体在系统发育上相关。
[0024]在本发明另一优选的实施方式中,所述参考序列是具有调控能力的基因组子部分,其选自包含以下的组:外显子序列、启动子序列、增强子序列、转录因子结合位点、或其任何分组或子分组。
[0025]在进一步优选的实施方式中,所述参考序列是基于序列组成参数或基于生物物理学核酸特性的虚拟序列(virtual sequence)。在本发明特别优选的实施方式中,所述组成参数是单体、二聚体和/或三聚体的存在。在本发明进一步优选的实施方式中,所述生物物理学核酸特性是聚积能量(stacking energy)、螺旋楽;式扭转的存在、核酸的可弯曲性、双链体稳定性、断裂能的量、自由能的量、DNA变性的存在或DNA弯曲刚度。
[0026]在本发明的另一方面涉及用于将包含核酸片段读段的核酸序列数据组装成连续核苷酸序列节段的程序单元或计算机程序,其在由处理器执行时适于实施上文定义的方法的步骤。
[0027]在本发明的仍另一方面涉及一种用于将包含核酸片段读段的核酸序列数据转化成连续核苷酸序列节段的序列组装系统,其包含计算机处理器、内存和数据储存装置,所述内存具有执行上文定义的程序单元或计算机程序的程序指令。
[0028]在本发明优选的实施方式中,所述序列组装系统与测序装置关联或连接。在进一步优选的实施方式中,所述序列组装系统是医学决策支持系统。在特别优选的实施方式中,所述医学决策支持系统是诊断决策支持系统。
[0029]附图简述
[0030]图1提供了参考和从头序列和比对方法的概述。参考序列比对和组装显示将读段定位至参考序列。基于来自ABySS-Explorer视图的摘录,从头组装显示使用ABySS算法产生重叠群(contig),其中边(edge)代表重叠群而节点(node)代表相邻重叠群之间的共同k-l_聚体。标签对应于SET重叠群ID。重叠群长度和覆盖度分别通过边的长度和厚度指示。箭头和弧形边指示重叠群的方向,而节点的极性区分相邻重叠群之间的共同k-1-聚体的反向互补。
[0031]图2显示不同序列文件格式的实例。展示的是qseq格式(来自Illumina仪器的序列读段输出,其含有机器、运行和质量信息)、fastq格式(Illumina读段名字、序列和质量来自 qseq 文件)和 BWA 比对器(aligner)输出的 SAM 格式(Sequence Alignment/Map)。SAM格式允许储存针对参考的读段比对信息。
[0032]图3示出根据本发明的比对和组装步骤的概述。其显示组合参考比对和从头组装的整体方法。开始时将读段比对至参考序列。如果鉴别出N/A/T/G/C的缺口(例如,用户定义的大小,如>10碱基),其中读段不连续地(以重叠方式)与前面读段匹配至参考,将开始从头组装。将会有从头重叠群信息,直到鉴别到下一与参考匹配的读段。该从头重叠群然后将与中间共有序列(intermediate consensus)合并以给出最终共有序列。
[0033]图4显示根据本发明的参考序列比对和从头组装组合的方法步骤的流程图。
[0034]图5示出根据本发明的方法使用参考比对和重头组装的组合,确定AVPRlA基因中的GT多态性的准确长度。首先,将读段和参考基因组比对以提取所分析样品的AVPRl基因。由于RS3是高度多态性位点并与临床表型相关联,落入该染色体的读段进行重头组装,随后产生重叠群。在获得所述重叠群后,进行不严格的序列比对(允许错配和缺口)以将从头重叠群和参考共有序列合并。获得的共有序列显示所分析样品的真实的多态性重复。
[0035]图6显示AVPRlA基因的参考序列组装和从头组装之间的直接比较。读段被比对至参考序列并进行重头组装。从参考产生的共有序列然后使用ClustanW比对至从头重叠群。示出了 GT重复的差异,其来自参考序列的偏差,参考序列与从头组装相比显示不同的重复含量。【具体实施方式】
[0036]本发明人开发了手段和方法,其允许将包含核酸片段读段的核酸序列数据组装成连续的核苷酸序列节段。
[0037]尽管本发明将根据【具体实施方式】进行描述,这样的描述不被解释为限制意义。
[0038]在详细描述本发明的示例性实施方式之前,给出用于理解本发明的重要的定义。
[0039]如本说明书和所附权利要求所用,单数形式的“a ( — ) ”和“an ( —)”也包括各自的复数,除非上下文明确地另有所指。
[0040]在本发明上下文中,术语“约”和“大约”指代精度的区间,本领域技术人员将理解其仍确保所指特征的技术效果。该术语一般指所指数值的±20%,优选±15%,更优选±10%以及甚至更优选±5%的偏差。
[0041]应当理解术语“包含”是非限制性的。出于本发明的目的,术语“由……组成”被理解为术语“包含……”的优选实施方式。如果下文定义组为包含至少一定数目的实施方式,这意味着还涵盖优选地仅由这些实施方式组成的组。
[0042]此外,说明书和权利要求书中的术语“第一”、“第二”、“第三”或“(a) ”、“ (b) ”、
“(C) ”、“ (d) ”等等用于区分相似的元素,并不一定描述连续的或时间的次序。应当理解如此使用的术语在合适的环境下可以互换并且本文描述的本发明的实施方式能够以本文描述或说明的其它顺序操 作。
[0043]如果术语“第一”、“第二”、“第三”或“ (a) ”、“ (b) ”、“ (C) ”、“ (d) ”等涉及方法或使
用的步骤,所述步骤之间没有时间或时间间隔连贯性,即所述步骤可以同时进行或这样的步骤之间可以有秒、分钟、小时、天、周、月或甚至年的时间间隔,除非在本申请上下文另有指明。
[0044]应当理解本发明不限于本文描述的具体的方法学、方案、试剂等,因为这些可以改变。还应当理解本文使用的术语仅为了描述具体的实施方式,而不旨在限制本发明的范围,本发明的范围将仅仅由所附的权利要求限制。除非另有定义,本文使用的全部技术和科学术语具有本领域普通技术人员所通常理解的相同含义。
[0045]如上所述,本发明在一方面涉及一种用于将包含核酸片段读段的核酸序列数据组装成连续核苷酸序列节段的方法,其包括以下步骤:
[0046](a)从多个核酸片段读段获得多个核酸序列数据;
[0047](b)将所述多个核酸序列数据与参考序列比对;
[0048](C)检测步骤(b)的比对输出中的一或多个未组装的或与所述参考序列不匹配的缺口或区域;
[0049](d)对定位至所述未组装的缺口或区域的核酸序列数据进行从头序列组装;和
[0050](e)组合步骤(b)的比对输出和步骤⑷的组装输出以获得连续的核苷酸序列节段。
[0051]本文使用的核酸序列数据的术语“组装”指的是将单个地或独立地提供的序列数据排列成连续的核苷酸序列节段。本文使用的术语“连续的核苷酸序列节段”指的是请求保护的方法的输出,其是连贯的、非冗余的且优选无错误或基本上无错误的序列上下文。本文所用的“序列节段”可以是包含超过约50个读段的信息内容的任何延伸(stretch)。优选地,序列节段可以是整个基因组,整个染色体,染色体臂,染色体的一或多个子部分,相关序列的连接物,例如,外显子组,转录组相关序列,开放读码框的连接物,内含子,转座子序列,重复,调控组相关序列如转录因子结合位点,甲基化结合蛋白位点,具有更高的组蛋白3赖氨酸4单-双-和三-甲基化可能性的特定区域等等。本文所用的“核酸片段读段”指的是单一的、短的连续的序列数据的信息片或延伸。读段可以具有任何合适的长度,优选约30个核苷酸至约1000个核苷酸的长度。所述长度一般取决于用于获取其的测序技术。在【具体实施方式】中,读段还可以更长,例如,2-10kb或更长。本发明一般考虑任何读段或读段长度,并且不应被理解为限于目前能获得的读段长度,而是还包括本领域的进一步的发展,例如,长读段测序方法的开发等等。
[0052]在所述方法的第一步中,可以获得来自多个核酸片段读段的多个核酸序列数据。本文所用的“核酸序列数据”可以是技术人员已知的核酸分子的任何序列信息。序列数据优选地包括DNA或RNA序列、修饰的核酸、单链或双链体序列、或可选地氨基酸序列(其必须转换成核酸序列)的信息。序列数据可额外地包含测序机器、获得日期、读段长度、测序方向、所测序的实体的来源、邻近序列或读段、重复的存在或本领域技术人员已知的任何其它合适参数的信息。序列数据可以以本领域技术人员已知的任何合适的格式、档案(archive)、编码或文档呈现。所述数据例如可以是FASTQ、Qseq、CSFASTA、BED、WIG、EMBL,Phred、GFF, SAM、SRF, SFF或AB1-ABIF格式,如下表I描述和进一步解释。
[0053]表1:
[0054]
【权利要求】
1.一种用于将包含核酸片段读段的核酸序列数据组装成连续的核苷酸序列节段的方法,其包括以下步骤: (a)从多个核酸片段读段获得多个核酸序列数据; (b)将所述多个核酸序列数据与参考序列比对; (c)检测步骤(b)的比对输出中的一或多个未组装的或与所述参考序列不匹配的缺口或区域; (d)对定位至所述未组装的缺口或区域的核酸序列数据进行从头序列组装;和 (e)组合步骤(b)的比对输出和步骤⑷的组装输出以获得连续的核苷酸序列节段。
2.权利要求1的方法,其中所述多个核酸序列数据被转换为统一格式。
3.权利要求1或2的方法,其中通过应用过滤器或阈值进行步骤(c)的所述检测。
4.权利要求3的方法,其中所述过滤器或阈值是碱基质量、覆盖度、周围区域复杂性或错配长度过滤器或阈值。
5.权利要求1-4任一项的方法,其中在比对步骤(b)之前屏蔽掉与已知多态性、高度可变区、疾病相关突变或修饰、重复、低定位能力区域、CPG岛、或具有特定生物物理学特征的区域相关的核酸序列数据。
6.权利要求5的方法,其中对所述屏蔽掉的核酸序列数据进行步骤(d)的从头序列组装。
7.权利要求1-6任一项的`方法,其中用参考比对算法,优选用BFAST、ELAND、GenomeMapper, GMAP, MAQ, MOSAIK、PASS、SeqMap, SHRiMP, SOAP、SSAHA 或 CLD,更优选用Bowtie或BWA进行步骤(b)。
8.权利要求1-7任一项的方法,其中用从头组装算法,优选用AAPATHS、Edena,EULER-SR、MIRA2、SEQAN、SHARCGS、SSAKE、S0APdenovo、VCAKE,更优选用 ABySS 或 Velvet 进行步骤(c)。
9.权利要求1-8任一项的方法,其中所述参考序列是基本上完整的原核、真核或病毒基因组序列或其子部分,优选人类基因组序列、动物基因组序列、植物基因组序列、细菌基因组序列或其子部分。
10.权利要求9的方法,其中所述参考序列选自一组或分类群,所述组或分类群与其核酸序列数据待组装的生物体在系统发育上相关。
11.权利要求9的方法,其中所述参考序列是具有调控能力的基因组子部分,其选自包含以下的组:外显子序列、启动子序列、增强子序列、转录因子结合位点、或其任何分组或子分组。
12.权利要求1-11任一项的方法,其中所述参考序列是基于序列组成参数或生物物理学核酸特性的虚拟序列,所述序列组成参数例如单体、二聚体和/或三聚体的存在,所述生物物理学核酸特性例如聚积能量、螺旋浆式扭转、可弯曲性、双链体稳定性、断裂能、自由能、DNA变性或DNA弯曲刚度。
13.一种用于将包含核酸片段读段的核酸序列数据组装成连续核苷酸节段的程序单元或计算机程序,当被处理器执行时适于实施权利要求1-12中任一项的方法中的步骤。
14.一种用于将包含核酸片段读段的核酸序列数据转化成连续核苷酸序列节段的序列组装系统,其包含计算机处理器、内存和数据储存装置,所述内存具有执行权利要求13的程序单元或计算机程序的程序指令。
15.权利要求14的系统,其与测序装置关联或连接,或其是医疗决策支持系统,优选诊断决策支 持系统。
【文档编号】G06F19/22GK103797486SQ201280028003
【公开日】2014年5月14日 申请日期:2012年5月24日 优先权日:2011年6月6日
【发明者】S·库马尔, R·辛格, N·迪米特罗娃 申请人:皇家飞利浦有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1