用于分析核酸的系统和方法与流程

文档序号:16050301发布日期:2018-11-24 11:13阅读:309来源:国知局

本申请要求申请日为2016年2月9日的美国专利申请序列号62/293,136的优先权,该专利申请在此以其全文形式被援引加入本文。

背景技术

从组织样本的高通量测序数据中准确识别癌症体细胞突变可能是具挑战性的和未解的难题。测序数据可用于临床过程,用于具有未知分析率的假阳性或阴性变体的治疗选择。在这个过程中可能面对的问题包括:鉴于根据样本的大范围不同比例的存在正常细胞的组织样本的异质性(例如,原发肿瘤vs.血浆中的无细胞dna(cf-dna)),不同比例的多个癌细胞克隆的存在,来自“正常”组织的样本的能够区分体细胞和种系变体的数据的缺乏,由于病理学处理(例如,福尔马林固定和石蜡包埋(ffpe))对样本中的dna造成的损害,以及结构变异与简单序列变体的卷积。新的分析方法可以改进从大规模测序数据中识别种系变体。

在一些情况,当将分析中的数据与单个对照样本进行比较时,癌症数据分析可能产生不一致的结果。在一些情况,数据分析依赖于来自患者的正常组织的数据的可用性,所述数据以与含有或怀疑含有癌细胞的样本相似的方式进行处理,其通常在癌症病理学用例中不可用。目前包括人工或启发式方法以从体细胞突变中过滤出种系变体的分析管道(analysispipeline)可能是任意的、不精确的、难以再现的,并且不提供关于在该过程中默认作出的假阳性和假阴性之间的权衡的信息。不过,当正常组织可用时,在一些情况它被独立分析,并且仅在对“真实”种系变体做出决定后作为过滤步骤被汇集在一起,这可能由于种系变体错过了种系识别所施加的阈值而导致假阳性体细胞突变。处理后期问题的解决方案可以是使用正常样本组作为群体中常见的参考种系变体。为了进一步处理患者中存在的罕见变体,包括癌症易感性变体,本发明披露了新的方法。所述方法可以基于同时对从患者以及一组其他先前分析的患者中获得的所有样本的比对的测序数据中的变体进行识别和评分。



技术实现要素:

本发明提供了用于从组织的高通量测序数据中识别癌症体细胞突变的系统、软件介质、网络和方法。

在一个方面,本发明公开了一种计算系统,包括:(a)处理器,以及被设置成执行机器可读指令的存储器模块;和(b)数据分析应用程序,所述数据分析应用程序包括:(1)数据接收模块,所述数据接收模块被设置成从个体的一个或多个样本接收核酸分子的测序片段,其中测序片段由高通量测序仪产生;(2)序列比对模块,所述序列比对模块被设置成将测序片段相对于参考组装进行比对以产生预测的基因组序列;和(3)基因组分析模块,所述基因组分析模块被设置成(i)通过联合和同时分析预测的基因组序列来识别推定的变体,和(ii)通过为体细胞突变或种系变体的概率对推定的变体进行评分。

在另一方面,本发明公开了一种编码有计算机程序的计算机可读存储介质,所述计算机程序包括通过处理器可执行的指令以创建数据分析应用程序,所述应用程序包括:(a)数据接收模块,所述数据接收模块被设置成从个体的一个或多个样本接收核酸分子的测序片段,其中测序片段由高通量测序仪产生;(b)序列比对模块,所述序列比对模块被设置成将测序片段相对于参考组装进行比对以产生预测的基因组序列;和(c)基因组分析模块,所述基因组分析模块被设置成(i)通过联合和同时分析预测的基因组序列来识别推定的变体,和(ii)通过为体细胞突变或种系变体的概率对推定的变体进行评分。

在另一方面,公开了一种方法,包括:(a)采集个体的一个或多个样本;(b)利用高通量测序仪对一个或多个样本的核酸分子进行测序并产生测序片段;(c)将测序片段与参考组装进行比对以产生预测的基因组序列;(d)通过联合和同时分析预测的基因组序列来识别推定的变体;以及(e)通过为体细胞突变或种系变体的概率对推定的变体进行评分。

在各种实施例中,本发明所公开的系统、软件介质、方法或其应用包括使用一个或多个样本。可以同时采集一个或多个样本。在一些情况,一个或多个样本包括至少两个样本,并且可以在不同时间采集至少两个样本。在某些应用中,一个或多个样本可以包括下述中的一种或多种:原发性肿瘤、转移性肿瘤、体液、无细胞样本、淋巴细胞和血浆。

在本发明公开的各个披露的系统、软件介质和方法中,识别推定的变体可以包括将基因组序列与来自一个或多个先前分析的患者的序列库的序列进行比较。对推定的变体进行评分可以包括基于用成组的良好识别和不良识别进行训练的机器学习方法来调整概率。对推定的变体进行识别和评分可以包括在染色体基因座进行推断。

在各种应用中,进行推断可以包括使用下述中的一个或多个:概率模型、统计推断、贝叶斯推断和贝叶斯网络模型。在一些设计中,进行推断可以基于下述中的一个或多个:发现种系和体细胞变体的先验概率,染色体基因座上比对的一组测序片段,高通量测序仪的错误率,覆盖染色体基因座的染色体区域的倍性,癌症克隆进化的过程模型,源自个体的一个或多个其它样本的染色体基因座处的识别,源自一个或多个其他个体的一个或多个样本的染色体基因座处的识别,一个或多个参考群体中染色体基因座处的共同多态性的先验知识,染色体基因座处的一种或多种复发性癌症突变的先验知识,含有癌症的样本中癌细胞的百分比,通过概率模型描述变体,通过概率模型描述染色体基因座上的一组比对的测序片段,通过概率模型描述染色体基因座处的倍性,以及通过概率模型描述样本中癌细胞的百分比。

在一些设计中,可以在碱基识别的质量验证中提供错误率。含有癌症的样本可以包括引起癌症的一种或多种dna分子,或一种或多种癌组织,或两者。本文所用的百分比可以用二元变量来描述。

在本发明公开的各种公开的系统、软件介质和方法中,数据分析应用程序还可以包括一模块,所述模块被设置成对于下述的一种或多种中的影响来注释推定的变体:一个或多个编码区,预测的损伤严重程度,一种或多种种系突变,一种或多种体细胞突变,一种或多种突变-药物相互作用,临床试验中一种或多种观察到的突变,一种或多种疾病,一种或多种综合征,或一种或多种副作用。

在本发明公开的各种公开的系统、软件介质和方法中,数据分析应用程序可以包括被设置成推荐治疗(therapy)方法或处置(治疗,treatment)方法或两者的模块。

在本发明公开的各种公开的系统、软件介质和方法中,数据分析应用程序可以包括被设置成评估治疗进展的模块。

在本发明公开的各种公开的系统、软件介质和方法中,数据分析应用程序可以包括被设置成评估风险的模块。

在本发明公开的各种公开的系统、软件介质和方法中,数据分析应用程序可以包括被设置成监测治疗方法或处置方法或两者的功效的模块。

援引加入

本说明书中提及的所有出版物、专利和专利申请均在此被援引加入本文,其程度如同每份单独的出版物、专利或专利申请被具体和单独地指出被援引加入。

附图说明

本发明的新颖特征在所附权利要求中具体阐述。通过参考以下详细描述将获得对本发明的特征和优点的更好理解,所述详细描述阐述了利用本发明原理的说明性实施例,以及附图,其中:

图1示出了本发明公开的方法。

图2示出了数据接收模块的一个示例。

图3示出了序列比对模块的一个示例。

图4示出了基因组分析模块的一个示例。

图5示出了分析染色体基因座处的序列的一个示例。

图6示出了利用来自受试者的不同类型的样本来评估推定的变体的概率的一个示例。

图7示出了利用基因座周围的信息来评估推定的变体的概率的一个示例。

图8示出了用于癌症体细胞突变的联合推断的贝叶斯网络图。

图9示出了用于执行本发明公开的分析的计算机控制系统。

图10示出了例如由受试者的肿瘤样本制备dna文库的方法的示例性工作流程。

具体实施方式

i.概述

本发明公开的技术可以涉及对来自个体的样本的高通量核酸测序数据进行计算分析。分析可以提取种系和体细胞信息并比较两种类型的信息以基于概率建模和统计推断来识别序列变体。种系变体是指诱导天然或正常变异(例如,肤色、毛发颜色和正常重量)的核酸。体细胞突变是指诱导获得性或异常变异(例如,癌症、肥胖、症状、疾病、失调等)的核酸。所述分析可以包括区分种系变体(例如,私有变体)和体细胞突变。被识别的变体可供临床使用以提供更好的医疗保健。

本发明提供了改进的方法、计算系统或软件介质,其可以区分通过扩增和/或测序技术引入核酸中的序列错误、体细胞突变和种系变体。提供的方法包括同时对从患者获得的所有样本的比对的测序数据所比对的变体进行识别和评分。可以使用来自其他受试者的样本,例如来自先前通过测序分析(例如靶向测序分析,例如靶向重测序分析)进行分析的其他受试者的样本。改进的方法、计算系统或软件介质的应用可以更好地辨别种系和体细胞突变(例如,更少假阳性)并降低检测限制(例如,更少假阴性)。

图1示出了本发明提供的方法的概述。在步骤101中,系统或方法包括采集个体的一个或多个样本。样本可以例如从个体(例如受试者、患者)的组织或体液或两者获得。样本可以是本文所述的任何样本,例如,原发性肿瘤、转移性肿瘤、来自血液的血沉棕黄层(例如淋巴细胞)或从血浆提取的无细胞dna(cf-dna)。在步骤102中,可以例如通过高通量测序仪对一个或多个样本中的核酸分子进行测序。可以例如通过本文所述的任何方法制备一个或多个测序文库。可以为每个组织样本和/或为在不同时间点获得的样本制备测序文库。测序结果可以生成测序片段。为了将测序片段组装成个体的预测基因组,步骤103将测序片段相对于参照组装(例如,人类参考组装体)进行比对,以生成预测的基因组序列。在步骤104中,系统或方法识别推定的变体。识别可以包括对预测的基因组序列进行联合和同时分析,并通过为体细胞突变或种系变体的概率对推定的变体进行评分。如本文所述,样本的细胞性估计可用于通知评分。可以对变体进行重新评分,例如,基于用成组的良好(即,真阳性)和不良(即,假阳性)识别进行训练的机器学习方法。对于变体在编码区、预测的损伤严重程度、对其它种系和体细胞突变数据库的交叉引用、突变-药物相互作用、接受具有观察到的突变的患者的临床试验或其它医学相关知识库的影响可以对变体进行注释。在步骤105中,可以向肿瘤委员会提供变体信息和注释,例如,癌症基因和相关热点上缺少变异的证据,以使肿瘤委员会能够为个体提供治疗建议或评估治疗进展或可能的复发。

本发明还提供了一种计算系统,所述计算系统包括处理器和被设置成执行机器可读指令的存储器模块;和数据分析应用程序,所述数据分析应用程序包括数据接收模块,所述数据接收模块被设置成接收来自个体的一个或多个样本的核酸分子的测序片段,其中测序片段由高通量测序仪生成;序列比对模块,所述序列比对模块被设置成将测序片段相对于参考组装进行比对以生成基因组序列;和,基因组分析模块,所述基因组分析模块被设置成(i)通过联合和同时分析基因组序列来识别推定的变体,和(ii)通过为体细胞突变或种系变体的概率对推定的变体进行评分。

本发明还提供了一种编码有计算机程序的计算机可读存储介质,所述计算机程序包括由处理器可执行的指令以创建数据分析应用程序,所述应用程序包括数据接收模块,所述数据接收模块被设置成从个体的一个或多个样本接收核酸分子的测序片段,其中测序片段由高通量测序仪生成;序列比对模块,所述序列比对模块被设置成将测序片段相对于参考组装进行比对以生成基因组序列;和,基因组分析模块,所述基因组分析模块被设置成(i)通过联合和同时分析基因组序列来识别推定的变体,和(ii)通过是体细胞突变或种系变体的概率对推定的变体进行评分。

本发明还提供了一种方法,所述方法包括采集个体的一个或多个样本;利用高通量测序仪对一个或多个样本的核酸分子进行测序并生成测序片段;将测序片段与参考组装进行比对以生成基因组序列;通过共同和同时分析基因组序列来识别推定的变体;以及通过是体细胞突变或种系变体的概率对推定的变体进行评分。

ii.数据分析应用程序

本发明提供的方法、计算机系统或计算机可读介质可以包括一个或多个数据分析应用程序。数据分析应用程序可以包括具有不同功能的若干模块。例如,数据分析应用程序可以包括数据接收模块以接收测序片段。数据分析应用程序可以包括序列比对模块,所述序列比对模块可以提取测序片段并比对测序片段以生成预测的基因组序列。数据分析应用程序可以包括基因组分析模块,所述基因组分析模块可以提取预测的基因组序列并进行概率和统计分析以识别引起疾病的推定的遗传变异。

a.数据接收模块

图2示出了数据接收模块的一个示例。数据接收模块201可以包括临时数据存储器202,例如存储器设备或硬盘驱动器,以存储由测序仪(例如,高通量测序仪211)生成的测序片段。可以将非序列数据212提供给数据接收模块201。非序列数据212的示例包括但不限于姓名、出生日期、性别、人口统计数据、病史、家族信息、样本来源、样本采集时间和样本生物学状况。数据接收模块可以从来自受试者的至少1、2、3、4、5、10、20或更多个样本接收序列片段数据。数据接收模块可以从至少1、2、3、4、5、10、20或更多个不同受试者接收序列数据。

数据接收模块可以包括数据重组进程203。重组进程203可以将临时存储的数据重组成预定义的格式并将重组的数据存储在数据库204中。例如,多个受试者的测序片段可通过个体受试者分开。在另一个示例中,可以基于注释信息对测序片段进行重组。在一些实施例中,例如,当序列数据和非序列数据不能配对时,数据重组进程203可以将两种数据返回至临时数据存储器以等待更多即将到来的数据,或者数据重组进程203可以标记缺失的数据录入并将重组的数据存储在数据库204中。

b.序列比对模块

图3示出了序列比对模块的一个示例。序列比对模块的运行可以包括三个步骤。模块可以从数据接收模块访问测序片段311。为了进行比对,模块还可以访问一个或多个参考基因组312。第一步骤302可以取回测序片段并将测序片段与多个候选染色体片段进行比较。“多个”可以包含至少2个成员。在某些情况,多个可以具有至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000或至少1,000,000,000或更多个成员。比较可以基于统计分析。在第二步骤303中,序列比对模块可以选择具有最高匹配分数的基因组片段。对于每个测序片段可以重复步骤302和303。最后一个步骤304可以将所有测序片段组装并聚集成个体的预测的基因组序列,例如,一旦所有测序片段被映射到参考基因组。

如本文所用的基因组序列可以指在基因组中出现的序列。因为rna是从基因组转录的,所以该术语可以涵盖存在于生物体的核基因组中的序列以及存在于从所述基因组转录的rna(例如,mrna)的cdna拷贝中的序列。

如本文所用的预测的基因组序列可以指由序列比对模块组装的基因组序列。

在样本制备和测序过程中,可以进行核酸,例如dna,样本中存在的片段的部分或完全测序。可以对包括映射到已知参考基因组的片段的序列标签进行计数。在一些情况,只有唯一比对到参考基因组上的测序片段才能被计数为序列标签。在一些实施例中,参考基因组是人类参考基因组ncbi36/hg18序列,其在万维网上genome.ucsc.edu/cgi-bin/hggateway?org=human&db=hgl8&hgsid=166260105可得。其它公共序列信息来源包括genbank、dbest、dbsts、embl(欧洲分子生物学实验室)和ddbj(日本dna数据库)。参考基因组还可以包括人类参考基因组ncbi36/hg18序列和人工靶序列基因组,其包括多态性靶序列。在一些实施例中,参考基因组是包括多态性靶序列的人工靶序列基因组。参考基因组可以是公共人类基因组(例如,hg18、hg19或hg37)。

在一些情况,参考基因组来自与其样本被评估的受试者具有相同疾病(例如,癌症)、年龄、种族、性别、国籍、职业、暴露(例如,暴露于毒素、辐射或生物制剂)或住所(例如,同一家庭、城市、州、国家或大陆)的受试者或受试者组。在一些情况,参考基因组来自与其样本被评估的受试者具有不同疾病(例如,癌症)、年龄、种族、性别、国籍、职业、暴露(例如,暴露于毒素、辐射或生物制剂)或住所(例如,同一家庭、城市、州、国家或大陆)的受试者或受试者组。参考基因组可以来自其样本被评估的受试者的一个或多个亲属(例如,父亲、母亲、兄弟姐妹、堂/表亲或祖父母/外祖父母)。在一些情况,参考基因组不是来自被评估的受试者的亲属(例如,父亲、母亲、兄弟姐妹、堂/表亲或祖父母/外祖父母)。

通过比较标签的序列与参考基因组的序列可以实现序列标签的映射,从而确定测序的核酸(例如,无细胞dna)分子的染色体起源。许多计算机算法可用于比对序列,包括但不限于blast(altschuletal.,1990)、blitz(mpsrch)(sturrock&collins,1993)、fasta(person&lipman,1988)、bowtie(langmeadetal.,genomebiology10:r25.1-r25.10[2009])或eland(illumina,inc.,sandiego,ca,usa)。在一个实施例中,可以克隆扩增核酸分子,并且通过illumina基因组分析仪的生物信息学比对分析对dna分子的克隆扩增拷贝的一端进行测序和处理,其可以使用efficientlarge-scalealignmentofnucleotidedatabases(eland)软件。其它的软件包括samtools(samtools,bioinformatics,2009,25(16):2078-9)和burroughs-wheeler块分类压缩程序,其可涉及块分类或预处理以使压缩更有效。序列比对工具可以是artemiscomparisontool(act)、avid、bwa-mem、blat、decipher、gmap、splign、mauve、mga、mulan、multiz、plast-ncrna、sequerome、sequilab、shuffle-lagen、sibsim4或slam。序列比对工具可以是短片段序列比对工具,例如,barracuda、bbmap、bfast、bigbwa、blastn、blat或bowtie。

c.基因组分析模块

图4示出了基因组分析模块的一个示例。基因组分析模块的输入可以是来自一个或多个种系样本的基因组序列411,来自一个或多个体细胞样本的基因组序列412,以及先验基因组知识413。种系样本可以包括体液,例如外周血。体细胞样本可以包括肿瘤组织。先验基因组知识413可以包括来自已发表的科学文献的数据库的信息,或来自基因组注释数据库的信息,或来自相同受试者或来自不同受试者的先前分析的样本的数据库的信息,或来自上述数据库的组合的信息。

基因组分析模块可以通过将基因组序列与来自一个或多个先前分析的患者的序列库中的序列进行比较来识别一种或多种推定的变体。该模块可以执行四个步骤。第一步骤402可以涉及提取遗传区域的基因组序列,其中序列来自不同的样本。步骤403可以种系和体细胞样本上比较提取的序列,其中比较可以基于概率和统计方法。步骤404可以确定一个或多个推定的变体;推定的变体可以是种系变体或体细胞突变。可以在所有感兴趣的遗传区域上重复步骤402、403和404。步骤405可以评估一种或多种推定的变体的临床意义。

遗传区域可以包括一个或多个染色体基因座。遗传区域可以是染色体上的连续区域。遗传区域可以是两个或多个离散染色体区域的集合。遗传区域可以在单个染色体上。在一些情况,遗传区域可以在两条或多条染色体上。在一些实施例中,遗传区域可以是一个或多个碱基对。

比较种系和体细胞样本的序列并且确定一种或多种推定的变体可以基于通过是体细胞突变或种系变体的概率对推定的变体进行评分。对推定的变体进行评分可以包括基于用成组的良好识别(即,真阳性)和不良识别(即,假阳性)进行训练的机器学习方法来调整概率。

d.在染色体基因座处或遗传区域中进行推断

对推定的变体进行识别和评分可以包括在染色体基因座处或遗传区域中进行推断。进行推断可以包括利用概率模型和/或统计推断。概率模型和统计推断的示例包括但不限于贝叶斯推断和贝叶斯网络模型。进行推断可以基于发现从先前基因组知识413得到的种系和体细胞变体的先验概率。

术语“基因座(locus)”可以指染色体上基因、核苷酸或序列的位置。基因座的“等位基因”可以指基因座处的核苷酸或序列的替代形式。“野生型等位基因”可以指在受试者群体中具有最高频率的等位基因。在一些情况,“野生型”等位基因与疾病无关。“突变等位基因”可以指比“野生型等位基因”具有更低频率并且可以与疾病相关的等位基因。在一些情况,“突变等位基因”与疾病无关。术语“询问的等位基因”可以指分析被设计用于检测的等位基因。术语“单核苷酸多态性”或“snp”可以指由序列内的单个核苷酸取代产生的一类基因组序列变异。“snp等位基因”或“snp的等位基因”可以指特定基因座处的snp的替代形式。术语“询问的snp等位基因”可以指分析被设计用于检测的snp等位基因。

进行推断可以基于染色体基因座上的一组多个序列。参见图5,感兴趣的是染色体基因座501。多个序列可以来自单个样本,并且它们可以从覆盖基因座501的多个区域a、b、c和d采集。多个序列可以来自多个样本1、2、.......、n,并且它们可以从覆盖基因座501的相同区域c采集。

进行推断可以基于高通量测序仪的错误率。可以在碱基识别的质量验证中提供错误率。在一些示例中,进行推断可以基于覆盖染色体基因座的染色体区域的倍性。异常倍性可能与体细胞突变或种系变异相关。

进行推断可以基于癌症克隆进化的进程模型。进程可以由马尔科夫链建模,其中第二状态是从第一状态预测或推断的。例如,从一癌症阶段到另一癌症阶段的演化时间;肿瘤随着时间的推移而演化的肿瘤组织的大小;从原发器官到另一远端器官的转移过程;伴随症状发生在早期和后期的癌症生长过程。

进行推断可以基于来自个体的一个或多个其它样本的染色体基因座处的识别。参见图5,样本1、2、.......、n可以采集自个体的单个肿瘤组织,并且基因座501的核酸识别可以基于通过分析所有可用样本或部分可用样本来评估种系变异或体细胞突变的识别。

进行推断可以基于来自一个或多个其他个体的一个或多个样本的染色体基因座处的识别。参见图5,样本1、2、.......、n可以采集自两个或更多个个体,并且基因座501的核酸识别可以基于通过分析所有可用样本或部分可用样本来评估种系变异或体细胞突变的识别。

进行推断可以基于一个或多个参考群体中染色体基因座处的常见多态性的先验知识。参见图5,染色体基因座501可以是在先前的基因组知识中引起多态性的已知的癌症;例如,先验知识显示染色体基因座501处的一个或多个复发性癌症突变。

进行推断可以基于样本中癌细胞百分比的细胞性估计。细胞性可以是源自肿瘤的样本中的核酸的分数。

进行推断可以基于一个或多个概率模型。概率模型可用于描述染色体基因座上的一组比对的测序片段、染色体基因座处的倍性或样本中癌细胞的百分比。概率模型可以包括连续模型,例如高斯(gaussian)、伽马(gamma)和指数分布。可以使用诸如bernoulli(伯努利)和多项分布的离散模型。

e.其它模块

数据分析应用程序还可以包括被设置成对推定的变体进行注释的模块。可以关于变体在编码区中的影响、由变体引起的预测的表型、对一个或多个种系突变或一个或多个体细胞突变的其它数据库的交叉引用、一种或多种突变药物相互作用、临床试验中一种或多种观察到的突变、一种或多种疾病、一种或多种综合征、或一种或多种副作用对推定的变体进行注释。

数据分析应用程序还可以包括被设置成评估关于变体、染色体基因座或染色体区域的临床意义的模块。在一些示例中,可以评估样本或个体的临床意义。例如,评估可用于推荐治疗方法、处置方法、治疗进展、预测的结果、预测的功效或风险。

iii.方法

本发明提供的方法可以包括计算机系统或计算机可读介质的使用。图1提供了一种方法的示例。

本发明提供的方法可以利用来自个体的一个或多个样本。可以从一个或多个样本制备一个或多个测序文库。测序文库可用于测序过程或数据分析。可以通过本发明公开的任何方法制备测序文库。可以同时或在不同时间制备两个或更多个文库。例如,可以从肿瘤活组织检查提取的核酸制备测序文库。可以从来自受试者的无细胞dna样本提取的核酸制备测序文库,例如,在制备了来自肿瘤活组织检查的测序文库之后。

可以对测序文库进行测序以提供测序片段。测序片段可以与参考基因组比对,例如,所描述的参考基因组。参考基因组可以是人类参考基因组,例如公共人类基因组(例如,hg18、hg19或hg37)。

来自受试者的一个或多个样本的测序文库的片段比对可以通过联合概率来描述,因此可以被联合分析。在一些情况,对来自受试者的样本(例如,来自肿瘤和正常组织的样本;来自实体组织和体液的样本;预处理和治疗后样本)的所有可用测序文库的片段比对进行联合分析。在一些情况,来自先前分析的受试者的测序文库的比对也包括在分析中。

在一些实施例中,可以确定源自受试者的肿瘤样本的核酸的序列文库的基因座处推定的变体是体细胞突变的概率。推定的变体源自肿瘤或种系核酸(例如dna)的概率可以至少部分地通过分析如下所述的一个或多个特征来确定。

与参照相比,突变可以指基因组的核苷酸序列的变化。突变可以涉及dna的大部分(例如,拷贝数变异)。突变可以涉及整个染色体(例如,非整倍性)。突变可以涉及dna的小部分。涉及dna的小部分的突变的示例包括,例如,点突变或单核苷酸多态性、多核苷酸多态性、插入(例如,在基因座/位点插入一个或多个核苷酸)、多个核苷酸变化、缺失(例如,在基因座/位点缺失一个或多个核苷酸)和倒位(例如,一个或多个核苷酸序列的逆转)。术语“拷贝数变异”或“cnv”可以指遗传信息拷贝数的差异。cnv可以指基因组区域的每个基因组拷贝数的差异。例如,在二倍体生物中,常染色体基因组区域的预期拷贝数是每个基因组两个拷贝。这样的基因组区域可以按每个细胞两个拷贝呈现。最近的评论参见zhangetal.annu.rev.genomicshum.genet.2009.10:451-81。cnv可以是人类遗传多样性的来源,并且可以与复杂的失调和疾病相关,例如,通过改变基因剂量、基因阻断或基因融合。它们也可以代表良性多态性变体。cnv可以是大的,例如大于1mb,或更小,例如在100个碱基和1mb之间。据报道,人类中有超过38,000个大于100个碱基(并且小于3mb)的cnv。与snp一起,这些cnv可以解释个体间显著量的表型变异。除了具有有害影响例如引起疾病之外,它们也可以导致有利的变异。术语“结构变异”可以指染色体结构的变异。结构变异可以是缺失、重复、拷贝数变体、插入、倒位和易位。在一些情况,使相距很远的两个区域会接近。由两个先前分开的基因形成的杂合基因可以被称为“基因融合”或“融合基因”,所述基因可以通过例如易位、缺失或倒位事件连接。

a.来自同一受试者的其它样本

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以部分地通过检测除受试者的肿瘤样本之外的样本中的染色体基因座处的种系变体和/或体细胞突变来确定。例如,参见图6,已知染色体a的基因座601与癌症相关。另一方面,非肿瘤样本(例如血液)中染色体b的基因座611和染色体c的基因座612的变体是肿瘤形成的标签。因此,评估基因座611和612的变体可用于计算受试者在基因座601具有肿瘤突变的概率。

例如,在一些情况,如果患者的种系细胞包括brca1变体,那么brca1变体并非源自肿瘤体细胞突变。可以在概率模型中考虑其它可能发生的情况。例如,一种可能发生的情况是brca1突变在种系细胞和肿瘤细胞中独立发生。另一种可能发生的情况是brca1突变存在于一种细胞类型中但在另一种细胞类型中不存在。

b.基因座周围变体存在的频率

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以部分地通过评估包括变体的基因座上比对的一组测序片段中存在变体的频率来确定。例如,参见图7,已知肿瘤突变发生在基因座701。经常地,变体也发生在基因座701附近。当给出覆盖基因座701的样本序列702时,可以通过分析基因座701附近的一个或多个变体的频率来评估样本是否在701具有肿瘤突变。当频率为高时,在基因座701发生突变的概率为高。

例如,如果对活组织检查进行测序并且覆盖已知肿瘤突变的片段缺失,则可以通过分析肿瘤基因座附近的测序片段来推断突变变体存在的概率。当附近包含多个变体时,样本包括肿瘤突变的概率为高。

c.测序仪的错误率

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以通过分析用于生成测序片段(用于片段比对)的测序仪的错误率来确定。在样本制备和测序过程中可能发生错误和/或噪音。因此,由序列仪报告的错误率可用于评估推定的变体是否是由于错误引起的。

测序仪的错误率可以至少部分通过由测序片段提供的序列质量得分(例如,fastq得分,其是用于存储生物学序列及其相应质量得分的基于文本的格式)来确定。在一些情况下,通过校准信息来调整错误率。这样的校准信息可以通过例如直接检测最有可能由于测序错误或pcr变异引起的变体通过量化低频率推定变体的量来确定。

d.倍性

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以通过分析肿瘤样本中染色体片段的倍性来确定。当染色体或染色体片段在样本中具有意外的重复时,肿瘤突变的概率增加。

在一些情况,倍性估计包括二倍体、单倍体、同倍体、zygoidy或多倍体。在一些情况,可以发生肿瘤中的基因、区域或染色体重复,并且可以通过与对照样本或同一样本的其它序列进行比较来推断倍性。此外,可以利用隐藏在样本中的其它信息;例如,样本的病史、与具有高可能性的推定的变体相关的另一推定的变体。

e.癌症进化

推定的变体源自肿瘤或种系核酸(例如dna和rna)的概率可以通过分析癌症克隆进化的过程来确定。在不同的应用中,第一状态可以由第一概率模型描述,而第二状态可以由第二概率模型描述。可以利用将第一概率模型变换为第二概率模型的随机过程来描述从第一状态到第二状态的转变。一旦随机过程表征了癌症进化过程,第一状态中观察到的数据可用于推断或预测第二状态中的可能状况。

在分析中可以考虑的癌症克隆进化的示例包括但不限于,从一癌症阶段到另一癌症阶段的进化时间,肿瘤随着时间的推移而进化的肿瘤组织的大小,从原发器官到另一远端器官的转移过程,伴随症状的癌症生长过程,或其组合。

f.来自其他受试者的信息

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以通过分析来自不同受试者的样本中同一基因座处的碱基识别来确定。来自同一家庭或来自同一种族或来自同一群体的受试者可能共享相似的遗传特征。例如,可以将参考群体中基因座处存在或不存在多态性的知识建模为先验概率。因此,来自其他受试者的遗传信息可以提供额外的信息来计算概率。

例如,普通群体中某些基因座可以包括更多变异,而一些基因座可以表现出高水平的特异性。普通群体中具有高水平变异的基因座包括变体的先验概率高于表现出高水平纯化选择的基因座包括变体的先验概率。特定基因座处的变体的频率可以通过在先或同时观察来确定,例如1000个基因组项目或已发表的研究。

g.复发性癌症突变

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以通过分析基因座处的复发性癌症突变的知识来确定。先前在早期样本中识别的突变可以在后来的样本中再次发生。因此,复发性癌症突变可以提供先验概率模型。这样的频率可以通过例如来自癌症患者的额外观察(例如,由cosmic或tgca)来确定。

h.细胞性/细胞构成(cellularity)估计

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以通过分析样本中癌细胞的百分比来确定。当样本包含更多癌细胞时,推定的变异是肿瘤(体细胞)突变的概率变得更高。因此,估计癌细胞百分比可以提供辨别出推定的变体的额外信息。

细胞性可以是源自肿瘤的样本中核酸的分数。可以通过在核酸提取之前对活组织检查样本进行检查(例如,目视检查)来估计细胞性。检查可以基于视觉、成像、病理学研究或病史。可以通过核酸样本中肿瘤衍生的变体的水平来确定细胞性。在一些情况,细胞性是0和1之间的值,其表示来自种系的核酸(例如dna)分子存在于肿瘤样本中的可能性/概率。

i.校正因子

推定的变体源自肿瘤或种系核酸(例如dna)的概率可以至少部分地通过确定另一个受试者的数据中基因座处的每个变体的频率或来自先前样本的经验数据来确定。在一些情况,可以采用校正因子,以使先前未观察到的变体不被指定为发生的先验概率为零。校正因子可以是拉普拉斯(laplace)校正。确定概率的方法可以如例如clearyetal.,jointvariationanddenovomutationidentificationonpedigreesfromhigh-throughputsequencingdata,journalofcomputationalbiology,vol.21,pp.405-419(2014)所述,该文献在此以其全文形式被援引加入本文。

iv.计算方法

用于确定变体源自肿瘤或种系dna的概率的一种示例性方法是利用贝叶斯(bayesian)网络(参见例如,koller&friedman,probabilisticgraphicalmodels,该文献在此以其全文形式被援引加入本文)。图8示出了示例性贝叶斯网络图。在网络图中,“c”表示要推断的变体识别,“r”表示基因座上的比对的片段组的碱基识别,“p”是基因座的倍性,而“u”表示样本的细胞性。为了推断每个样本中变体源自肿瘤或种系dna分子的概率,可以为以下条件概率分布(cpd)提供合适的值:(a)p(r|c),给定特定变体识别的一组片段的概率,(b)p(ct|cg),给定该基因座处那些种系的原发性肿瘤识别的概率,和(c)p(ccf|ct),给定原发性肿瘤样本中的识别的cf-dna中肿瘤识别的概率。

可以通过贝叶斯网络中的变量“u”来解释细胞性,其可以表示细胞性(例如,测序片段来自癌细胞的概率,值在0和1之间)。尽管可以在分析之前提供该值,但是在一些情况,可以通过提供先前估计从数据中推断该值。当考虑细胞性时,可以估计两个新的cdp:p(ut|rt)和p(uct|rct),给定肿瘤中片段的肿瘤中细胞性分数的概率,以及给定血浆的血浆无细胞部分中片段的血浆中细胞性分数的概率。

群体识别方法可以与这些方法结合以通过对来自其它样本的数据库进行联合识别来改进健康组织中种系突变的检测,例如,使用clearyetal.,journalofcomputationalbiology,vol.21,pp.405-419,2014中所述的方法,但同时用癌组织联合识别种系。

cpdp(r|c)可以如clearyetal.,journalofcomputationalbiology,vol.21,pp.405-419,(2014)中所述。上述(b)和(c)的cpd可以基于体细胞突变率的经验值来确定,所述体细胞突变率可以按照肿瘤类型和主要突变标签进行调整。在p(ct|cg)的情况,并且通过假设原发性肿瘤与在无细胞体液中检测到的肿瘤dna之间的简单谱系关系,可以利用例如与在clearyetal.,journalofcomputationalbiology,vol.21,pp.405-419,2014中所述的那些类似的计算来确定cdp以检测后代中的新生突变,假设是变体的简单遗传而不是孟德尔(mendelian)分离。

在一个示例中,仅原发性肿瘤组织或无细胞dna可用于分析。在所述情况,先验信息可用于估计cdp,例如p(ct|ctp),其中ctp是基于癌症患者中的先前观察在该基因座处观察到特定体细胞突变等位基因的先验概率,和p(gt|gp),其中gt是给定gp的肿瘤中存在的种系变体的基因型,观察该基因座处的特定基因型的概率源自变异的群体规模调查(例如1000个基因组项目)。然后可以提供这些概率作为输出中分析的每个变体的评分,如果需要,基于使用机器学习方法的经验验证重新校准,并且随后用于确定对于给定应用的适当的假阳性和/或假阴性率,例如作为下游注释或临床报告。

v.计算系统

本发明提供的方法、计算机系统或计算机可读介质可以包括或使用处理器。处理器可以包括一个或多个硬件中央处理单元(cpu)处理器。处理器可以是台式计算机处理器、服务器处理器和移动处理器。处理器可以包括微处理器。

存储器模块可以用于本文提供的方法、计算机系统或计算机可读介质中或与之一起使用。存储器模块可以是用于临时或永久性存储数据或程序的一个或多个物理装置。存储器模块可以是易失性存储器,并且可能要求供电来维护存储的信息。在一些情况,存储器模块是非易失性存储器,并且在计算系统未被供电时保留存储的信息。在其它的实施例中,非易失性存储器包括闪存。在一些实施例中,非易失性存储器包括动态随机存取存储器(dram)。在一些实施例中,非易失性存储器包括铁电随机存取存储器(fram)。在一些实施例中,非易失性存储器包括相变随机存取存储器(pram)。

本发明提供的方法、计算机系统或计算机可读介质可以包括或使用操作系统。操作系统可以是例如包括程序和数据的软件,其可以管理设备的硬件并提供用于执行应用程序的服务。本领域技术人员会认识到,作为非限制性示例,合适的服务器操作系统包括freebsd、openbsd、linux、macosxwindows本领域技术人员会认识到,作为非限制性示例,合适的个人计算机操作系统包括macos以及类似unix的操作系统如在一些实施例中,操作系统由云计算提供。本领域技术人员还会认识到,作为非限制性示例,合适的移动智能电话操作系统包括os、researchinblackberrywindowsos、windowsos、

机器可读指令可以包括在数字处理设备的cpu中可执行的指令序列,其被编写以执行指定任务。鉴于本文提供的公开内容,本领域技术人员会认识到计算机程序可以用各种语言的各种版本编写。在一些实施例中,机器可读指令包括一个指令序列。在一些实施例中,机器可读指令包括多个指令序列。在一些实施例中,从一个位置提供机器可读指令。在其它实施例中,从多个位置提供机器可读指令。在各种实施例中,机器可读指令包括一个或多个软件模块。在各种实施例中,机器可读指令部分或全部包括一个或多个网络应用程序,一个或多个移动应用程序,一个或多个独立应用程序,一个或多个网络浏览器插件、扩展、外接或外挂,或其组合。

计算机可读存储介质可以包括存储器模块。计算机可读存储介质可以是数字处理设备的有形组件。在其它的实施例中,计算机可读存储介质可选地可从数字处理设备移除。在一些实施例中,作为非限制性示例,计算机可读存储介质包括cd-rom、dvd、闪存设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等等。在一些情况,程序和指令被永久地、基本上永久地、半永久地或非暂时地编码在介质上。

本发明提供了被编程以实施本发明的方法的计算机控制系统。图9示出了计算机系统901,其被编程或以其它方式被设置成执行所公开的序列分析。计算机系统901可以是用户的电子设备或相对于电子设备远程定位的计算机系统。电子设备可以是移动电子设备。

计算机系统901可以包括中央处理单元(cpu,这里也称为“处理器”和“计算机处理器”)905,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统901还可以包括存储器或存储位置910(例如,随机存取存储器、只读存储器、闪存)、电子存储单元915(例如,硬盘)、与一个或多个其它系统通信的通信接口920(例如,网络适配器)和外围设备925,例如缓存、其它存储器、数据存储和/或电子显示适配器。存储器910、存储单元915、接口920和外围设备925通过通信总线(实线)例如母板与cpu905通信。存储单元915可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统901可以借助于通信接口920可操作地耦合到计算机网络(“网络”)930。网络930可以是因特网、内联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况,网络930是电信和/或数据网络。网络930可以包括一个或多个计算机服务器,其可以实现分布式计算,例如云计算。在一些情况,网络930借助于计算机系统901可以实现p2p网络,该p2p网络可以使耦合到计算机系统901的设备能够充当客户端或服务器。

cpu905可以执行一系列机器可读指令,其可以以程序或软件体现。指令可以存储在存储位置例如存储器910中。可以将指令引导到cpu905,cpu905随后可以编程或以其他方式设置cpu905以实现本发明的方法。由cpu905执行的操作的示例可以包括获取、解码、执行和回写。

cpu905可以是电路例如集成电路的一部分。系统101的一个或多个其他组件可以包括在电路中。在一些情况,电路是专用集成电路(asic)。

存储单元915可以存储文件,例如驱动程序、文库和保存的程序。存储单元915可以存储用户数据,例如用户偏好和用户程序。在一些情况,计算机系统901可以包括计算机系统901外部的一个或多个附加数据存储单元,例如位于通过内联网或因特网与计算机系统901通信的远程服务器上。

计算机系统901可以通过网络930与一个或多个远程计算机系统通信。例如,计算机系统901可以与用户的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式个人计算机)、平板或平板电脑(例如,ipad、galaxytab)、电话、智能电话(例如,iphone、支持android的设备、)或个人数字助理。用户可以经由网络930访问计算机系统901。

本文所述的方法可以通过存储在计算机系统901的电子存储位置例如存储器910或电子存储单元915上的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器905执行。在一些情况,可以从存储单元915取回代码并将其存储在存储器910上以供处理器905准备访问。在一些情况,可以排除电子存储单元915,并且机器可执行指令被存储在存储器910上。

代码可以被预编译并被设置成用于具有适于执行代码的处理器的机器,或者可以在运行期间被编译。代码可以用编程语言提供,可以选择该编程语言使代码能够以预编译或编译的方式执行。

本发明提供的系统和方法的方面,例如计算机系统901,可以在编程中体现。技术的不同方面可以被认为是“产品”或“制品”,通常是机器(或处理器)可执行代码和/或在一种类型的机器可读介质中承载或体现的相关数据的形式。机器可执行代码可以存储在电子存储单元例如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”类型介质可以包括计算机、处理器等等的有形存储器或其相关模块中的任何一个或全部,例如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以随时提供非暂时存储以进行软件编程。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,所述通信可以使软件从一台计算机或处理器加载到另一台计算机或处理器,例如,从管理服务器或主机加载到应用服务器的计算机平台。因此,可以承载软件元素的另一种类型的介质包括光波、电波和电磁波,例如通过本地设备之间的物理接口通过有线和光学陆线网络以及通过各种空中链路使用。携带所述波的物理元件,例如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所使用的,除非限于非暂时的有形“存储”介质,否则诸如计算机或机器“可读介质”之类的术语是指参与向处理器提供指令以供执行的任何介质。

因此,诸如计算机可执行代码之类的机器可读介质可以采用许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,例如任何计算机等中的任何存储设备,例如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,例如这种计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括电线,所述电线包括计算机系统中的总线。载波传输介质可以采用电或电磁信号、或声波或光波的形式,例如在射频(rf)和红外(ir)数据通信期间产生的那些。因此,常见形式的计算机可读介质包括例如:软盘(floppydisk)、软磁盘(flexibledisk)、硬盘、磁带、任何其他磁介质、cd-rom、dvd或dvd-rom、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、ram、rom、prom和eprom、flash-eprom、任何其他存储器芯片或存储卡、载波传输数据或指令、线缆或传输所述载波的链路、或计算机可以从中读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。

计算机系统901可以包括电子显示器935或与电子显示器935通信,电子显示器935包括用于提供例如分析结果的用户界面(ui)940。ui的示例包括但不限于图形用户界面(gui)和基于网络的用户界面。

可以通过一种或多种算法来实现本发明的方法和系统。算法可以在由中央处理单元905执行时通过软件的方式实现。例如,算法可以包括贝叶斯网络或统计分析。

vi.测序和高通量测序仪

在本发明提供的方法、计算机系统、试剂盒或计算机可读介质中使用或与其一起使用的高通量测序仪可以是下一代测序(ngs)平台(用于大规模平行测序的平台)。测序可以指一种方法,通过该方法获得多聚核苷酸的至少10个连续核苷酸的同一性(例如,至少20个、至少50个、至少100个、至少200个、或至少500个或更多个连续核苷酸的同一性)。ngs技术可以涉及以大规模平行方式对克隆扩增的dna模板或单个dna分子进行测序(例如,如披露于volkerdingetal.clinchem55:641-658[2009];metzkermnaturerev11:31-46[2010])。除了高通量序列信息之外,ngs可以提供数字定量信息,因为每个测序片段是代表单个克隆dna模板或单个dna分子的可数的“序列标签”。测序可以是靶向测序、外显子组测序或全基因组测序。在一些情况,对来自液体活组织检查的无细胞dna进行测序。在一些情况,对来自液体活组织检查的循环肿瘤细胞(ctc)的核酸进行测序。在一些情况,对来自单个正常和/或癌细胞的核酸进行测序。

虽然自动化sanger方法被视为是“第一代”技术,但是sanger测序(包括自动化sanger测序)也可以被本发明所提供的方法使用。包括使用显影核酸成像技术例如原子力显微镜(afm)或透射电子显微镜(tem)的其他测序方法可用于本发明所述的方法中。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序平台(下一代测序平台)可以是可商用的平台。可商用的平台包括例如用于合成测序、离子半导体测序、焦磷酸测序、可逆染料终止子测序、连接测序、单分子测序、杂交测序和纳米孔测序的平台。用于合成测序的平台可以从例如illumina、454lifesciences、helicosbiosciences和qiagen获得。illumina平台可以包括例如illumina的solexa平台、illumina的genomeanalyzer,并且披露于例如gudmundsson等人(nat.genet.200941:1122-6)、out等人(hum.mutat.200930:1703-12)和turner(nat.methods20096:315-6)、美国专利申请公开号us20080160580和us20080286795、美国专利号6306597、7115400和7232656中。454lifescience平台包括例如gsflex和gsjunior,并且披露于美国专利号7,323,305中。helicosbiosciences的平台包括truesinglemoleculesequencing平台。用于离子半导体测序的平台包括例如iontorrentpersonalgenomemachine(pgm),并且披露于例如美国专利号7948015中。用于焦磷酸测序的平台包括gsflex454系统,并且披露于例如美国专利号7211390;7244559;7264929中。用于连接测序的平台和方法包括例如solid测序平台,并且披露于例如美国专利号5750341中。用于单分子测序的平台包括例如pacificbioscience的smrt系统。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以是iontorrent测序平台,其可以将半导体技术与测序化学配对以将化学编码的信息(a,c,g,t)直接翻译为半导体芯片上的数字信息(0,1)。不希望受理论束缚,当通过聚合酶将核苷酸掺入dna链时,氢离子作为副产物被释放。iontorrent平台可以随ph的变化检测氢原子的释放。检测到的ph的变化可用于表示核苷酸掺入。iontorrent平台可以包括高密度的微机械孔阵列,以大规模平行的方式执行该生化过程。每个孔可以容纳不同的文库成员,其可以被克隆扩增。在孔下方可以是离子敏感层,其下方是离子传感器。平台可以依次用核苷酸一个接一个地填充阵列。当核苷酸例如c被添加到dna模板中并然后被掺入dna链中时,可以释放氢离子。来自该离子的电荷可以改变溶液的ph,这可以被iontorrent的离子传感器识别。如果未掺入核苷酸,则不会记录电压变化,也不会识别到碱基。如果dna链上有两个相同的碱基,电压可加倍,并且芯片可以记录被识别的两个相同的碱基。直接识别允许在数秒内记录核苷酸掺入。用于iontorrent平台的文库制备可以涉及在dna片段的两端添加(例如,通过连接)两个不同的接头。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以是illumina测序平台,其可以采用流动槽上的文库成员的簇扩增和合成测序方法。可以对簇扩增的文库成员进行聚合酶指导的单碱基延伸的重复循环。单碱基延伸可以涉及可逆终止子dntp的掺入,每个dntp用不同的可去除的荧光团标记。术语“标记”和“可检测部分”在本文中可互换使用,以指代可用于提供可检测信号并且可连接到核酸或蛋白质的任何原子或分子。标记可以提供通过荧光、放射性、比色法、重量分析、x射线衍射或吸收、磁性、酶活性等可检测的信号。

可以对可逆终止子dntp进行3'端修饰以防止被聚合酶进一步延伸。掺入后,可以通过荧光成像识别掺入的核苷酸。在荧光成像之后,可以去除荧光团并且可以去除3'端修饰,产生3'端羟基,从而允许另一个单碱基延伸循环。用于illumina平台的文库制备可以涉及在dna片段的两端添加(例如,通过连接)两个不同的接头。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以是helicostruesinglemoleculesequencing(tsms)平台,其可以采用合成测序技术。在tsms技术中,polya接头可以连接到dna片段的3'末端。连接的片段可以与固定在tsms流动槽上的poly-t寡核苷酸杂交。文库成员可以以大约每平方厘米1亿个模板的密度固定在流动槽上。然后可以将流动槽加载到仪器中,例如heliscopetm测序仪,并且激光可以照射流动槽的表面,从而揭示每个模板的位置。ccd摄像头可以映射流动槽表面上模板的位置。文库成员可以经历聚合酶指导的单碱基延伸的重复循环。通过引入dna聚合酶和荧光标记的核苷酸开始测序反应。聚合酶可以以模板指导的方式将标记的核苷酸掺入到引物。可以除去聚合酶和未掺入的核苷酸。可以通过对流动槽表面成像来辨别已经指导掺入荧光标记的核苷酸的模板。在成像之后,切割步骤可以去除荧光标记,并且可以用其他荧光标记的核苷酸重复该过程,直到达到所需的片段长度。可以通过每个核苷酸添加步骤收集序列信息。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以是454测序平台(roche)(例如,如披露于margulies,m.etal.nature437:376-380[2005])。454测序可以包含两个步骤。在第一步骤中,可以将dna剪切成片段。片段可以是平端的。可以将寡核苷酸接头连接到片段的末端。接头可用作片段的扩增和测序的引物。至少一个接头可以包括捕获试剂,例如生物素。片段可以附着于dna捕获珠粒,例如链霉亲和素蛋白包被的珠粒。附着在珠粒上的片段可以在油-水乳化剂的液滴中进行pcr扩增,从而在每个珠粒上产生多拷贝的克隆扩增的dna片段。在第二步骤中,珠粒可以在孔中被捕获,孔可以是微微升大小。可以对每个dna片段平行进行焦磷酸测序。焦磷酸测序可以在核苷酸掺入时检测焦磷酸(ppi)的释放。在腺苷5'磷酰硫酸存在下,ppi可以通过atp硫酸化酶转化为atp。荧光素酶可以使用atp将荧光素转化为氧化荧光素,从而产生检测到的光信号。检测到的光信号可用于识别掺入的核苷酸。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以利用solidtm技术(appliedbiosystems)。solid平台可以利用连接测序方法。用于solid平台的文库制备可以包括将接头连接到片段的5'和3'末端以产生片段文库。可替换地,可以通过将接头连接到片段的5'和3'末端、使片段环化、消化环化的片段以产生内部接头并将接头连接到所得到的片段的5'和3'末端以产生配对文库来引入内部接头。接下来,可以在含有珠粒、引物、模板和pcr组分的微反应器中制备克隆珠粒群。在pcr之后,模板可以变性。对于具有扩展的模板的珠粒,珠粒可以富集。选定的珠粒的模板可以进行3'端修饰,允许结合到载玻片。可以通过顺序杂交和部分随机寡核苷酸与中心测定的碱基(或碱基对)的连接来确定序列,所述碱基(或碱基对)由特定荧光团识别。在记录颜色之后,可以除去连接的寡核苷酸,并且然后可以重复所述过程。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以是单分子实时(smrttm)测序平台(pacificbiosciences)。在smrt测序中,染料标记的核苷酸的连续掺入可以在dna合成期间成像。单个dna聚合酶分子可以附着到各零模式波长标识符(zmw标识符)的底部表面,其获得序列信息,同时将磷酸化链接的核苷酸被掺入生长的引物链。zmw可以指限制结构,其能够在荧光核苷酸的背景下观察到dna聚合酶对单个核苷酸的掺入,所述荧光核苷酸在微秒尺度上快速扩入和扩散出zmw。相比之下,核苷酸的掺入可以在毫秒时间尺度上发生。在此期间,可以激发荧光标记以产生可以检测的荧光信号。荧光信号的检测可用于生成序列信息。然后可以除去荧光团,并重复该过程。smrt平台的文库制备可以涉及将发夹接头连接到dna片段末端。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以使用纳米孔测序(例如,如在sonigvandmellera.clinchem53:1996-2001[2007]中所述)。纳米孔测序dna分析技术包括来自oxfordnanoporetechnologies(oxford,unitedkingdom)的技术。纳米孔测序可以是单分子测序技术,其中单个dna分子在穿过纳米孔时被直接测序。纳米孔可以是直径为大约1纳米的小孔。将纳米孔浸入导电流体中并施加电势(电压)可导致由于离子通过纳米孔的传导而产生的轻微电流。流动的电流量可能对纳米孔的大小和形状敏感,并且对例如dna分子的阻塞敏感。随着dna分子穿过纳米孔,dna分子上的每个核苷酸可以不同程度地阻塞纳米孔,从而以不同程度改变通过纳米孔的电流的大小。因此,随dna分子穿过纳米孔在电流的这种变化可以代表dna序列的读取。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以利用化学敏感的场效应晶体管(chemfet)阵列(例如,如在美国专利申请公开号20090026082中所述)。在该技术的一个示例中,dna分子可以置于反应室中,并且模板分子可以与结合聚合酶的测序引物杂交。可以通过chemfet的电流变化来辨别一种或多种三磷酸在测序引物的3'末端掺入新的核酸链中。阵列可以具有多个chemfet传感器。在另一个示例中,可以将单个核酸附着到珠粒上,并且可以在珠粒上扩增核酸,并且可以将各珠粒转移到chemfet阵列上的各个反应室,其中每个室具有chemfet传感器,并且可以对核酸进行测序。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以利用透射电子显微镜(tem)。该方法称为单个分子放置快速纳米转移(individualmoleculeplacementrapidnanotransfer,imprnt),可以包括用重原子标记进行选择性标记的高分子量(150kb或更高)dna的单原子分辨率透射电子显微镜成像,并将这些分子以超密集(3nm链-链)平行阵列排列在超薄膜上并具有一致的碱基到碱基间距。电子显微镜可用于对膜上的分子成像以确定重原子标记的位置并从dna中提取碱基序列信息。该方法可以在pct专利公开wo2009/046445中进一步描述。该方法可允许在不到十分钟的时间内对完整的人类基因组进行测序。

在本发明提供的方法、计算机系统或计算机可读介质中使用或与其一起使用的高通量测序仪可以利用杂交测序(sbh)。sbh可以包括使多个多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针中的每一个可选地与基质连接。基质可以是包括已知核苷酸序列阵列的平坦表面。与阵列杂交的模式可用于确定样本中存在的多核苷酸序列。在其它实施例中,每个探针与珠粒例如磁珠等连接。可以识别与珠粒的杂交并用于识别样本中的多个多核苷酸序列。

测序片段的长度可以根据所用的特定测序技术而变化。高通量测序仪(ngs平台)可以提供大小从数十到数百或数千碱基对变化的测序片段。在本发明所述方法的一些实施例中,测序片段为大约或至少10个碱基长度、15个碱基长度、20个碱基长度、25个碱基长度、30个碱基长度、35个碱基长度、40个碱基长度、45个碱基长度、50个碱基长度、55个碱基长度、60个碱基长度、65个碱基长度、70个碱基长度、75个碱基长度、80个碱基长度、85个碱基长度、90个碱基长度、95个碱基长度、100个碱基长度、110个碱基长度、120个碱基长度、130个碱基长度、140个碱基长度、150个碱基长度、200个碱基长度、250个碱基长度、300个碱基长度、350个碱基长度、400个碱基长度、450个碱基长度、500个碱基长度、600个碱基长度、700个碱基长度、800个碱基长度、900个碱基长度、1000个碱基长度或超过1000个碱基长度。

本发明所述的测序平台可以包括表面结合的寡核苷酸固定在其上的固相支持物,其允许将测序文库成员捕获并固定到固相支持物上。表面结合的寡核苷酸一般包括与测序文库的接头序列互补的序列。

高通量测序平台可用于将dna测序到不同深度。测序(例如,dna测序)的深度可以指在测序过程中读取核苷酸的次数。序列覆盖可以表示代表重建序列中给定核苷酸的片段的平均数。物理覆盖可以是通过配对片段读取或跨越碱基的平均次数。深度可以由原始基因组的长度(g)、片段数(n)和平均片段长度(l)计算为:n×l/g。在一些情况,进行深度测序(>7×)。在一些情况,进行超深度测序(>100×)。本发明公开的方法中的测序深度可以是至少1×、2×、5×、7×、10×、20×、50×、75×、100×、250×、500×、1000×、5000×或10,000×。

vii.受试者、样本和核酸

a.受试者

在本发明提供的方法、计算机系统和计算机可读介质中分析的样本可以来自一个或多个受试者或个体。受试者可以是含有表达的遗传物质的生物体。生物体可以是植物、动物或微生物,包括例如细菌、病毒、真菌和原生动物。受试者可以是体内获得或体外培养的生物体的组织、细胞及其后代。受试者可以是哺乳动物。哺乳动物可以是人类。人类可以是男性或女性。人类可以从1天到大约1岁、大约1岁到大约3岁、大约3岁到大约12岁、大约13岁到大约19岁、大约20岁到大约40岁、大约40岁至大约65岁、或超过65岁。人类可以被诊断或怀疑患有疾病的高风险。疾病可以是癌症。人类可以未被诊断或怀疑患有疾病的高风险。

b.样本

在本发明提供的方法、计算机系统和计算机可读介质中使用或与其一起使用的一种或多种样本可以是含有或推测含有核酸的任何物质。样本可以是从受试者获得的生物样本。在一些实施例中,生物样本是液体样本。液体样本可以是全血、血浆、血清、腹水、脑脊液、汗液、尿液、泪液、唾液、口腔样本、腔体冲洗液或器官冲洗液。液体样本可以是基本上无细胞的液体样本,或包括无细胞核酸(例如血浆、血清、汗液、血浆、尿液、汗液、泪液、唾液、痰液、脑脊液)。在其他实施例中,生物样本是固态生物样本,例如粪便或组织活检。样本还可以包括体外细胞培养成分(包括但不限于由细胞培养基中的细胞生长产生的条件培养基、重组细胞和细胞成分)。样本可以包括单个细胞,例如癌细胞、循环肿瘤细胞、癌症干细胞等。样本可以包括多个细胞。在一些情况,样本包括大约或至少1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或100%肿瘤细胞。受试者可能被怀疑或已知携带实体瘤,或者可以是先前携带实体瘤的受试者。

在一些情况,来自受试者的肿瘤样本和正常细胞均从受试者获得。

在一些实施例中,从受试者的生物样本中提取包括种系序列的核酸。在一些实施例中,生物样本是固体组织。生物样本可以是组织,例如来自受试者的健康组织。生物样本可以是液体样本,例如血液、血液的血沉棕黄层(其可以包括淋巴细胞)、唾液或血浆。

在一些实施例中,从受试者的生物样本中提取包括体细胞变体的核酸。在一些实施例中,生物样本是固体组织。固体组织可以是例如原发性肿瘤、转移性肿瘤、息肉或腺瘤。在一些实施例中,生物样本是液体样本,例如尿液、唾液、脑脊液、血浆或血清。在一些情况,液体是无细胞液体。在一些情况,从液体中富集或分离包括循环肿瘤细胞的细胞。在一些情况,样本包括无细胞核酸,例如dna。

在一些情况下,在第一时间点提取肿瘤样本并进行测序,并在随后的时间点提取另一肿瘤样本并对肿瘤进行重新测序。

c.癌症

本发明提供的计算系统、软件介质、方法和试剂盒可以使用肿瘤样本。肿瘤成分(原发性肿瘤、转移性肿瘤)可以包括一种或多种与癌症相关的dna分子。

本发明提供的计算系统、软件介质、方法和试剂盒可以包括估计样本中肿瘤细胞/核酸的百分比。

本发明提供的计算系统、软件介质、方法和试剂盒可以包括在相同或不同时间采集的样本(在相同时间;一个或多个样本包括至少两个样本,并且所述至少两个样本在不同时间采集)。

本发明提供的计算系统、软件介质、方法和试剂盒可以包括使用不同类型的细胞(例如,淋巴细胞、血细胞、肿瘤细胞)。

本发明提供的计算系统、软件介质、方法和试剂盒改进了对患有疾病的受试者的监测和治疗。疾病可以是癌症,例如肿瘤,白血病例如急性白血病、急性t细胞白血病、急性淋巴细胞白血病、急性髓细胞白血病、成髓细胞白血病、早幼粒细胞白血病、髓单核细胞白血病、单核细胞白血病、红白血病、慢性白血病、慢性髓细胞(粒细胞)白血病或慢性淋巴细胞白血病,真性红细胞增多症,淋巴瘤例如霍奇金淋巴瘤、滤泡性淋巴瘤或非霍奇金淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症,重链疾病,实体瘤,肉瘤,癌例如纤维肉瘤、黏液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、淋巴管肉瘤、间皮瘤、尤文氏(ewing)瘤、平滑肌肉瘤、横纹肌肉瘤、结肠癌、结直肠癌、胰腺癌、乳腺癌、卵巢癌、前列腺癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、囊腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯氏(wilms)瘤、宫颈癌、子宫癌、睾丸肿瘤、肺癌、小细胞肺癌、膀胱癌、上皮癌、神经胶质瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、黑色素瘤、神经母细胞瘤、视网膜母细胞瘤、子宫内膜癌、非小细胞肺癌。

d.核酸

在本发明提供的方法、计算机系统和计算机可读介质以及试剂盒中使用或与其一起使用的核酸可以是rna、dna,例如基因组dna、线粒体dna、病毒dna、合成dna或从rna逆转录的cdna。

术语“多(聚)核苷酸”、“核酸”和“寡核苷酸”可以互换使用。它们可以指任何长度的聚合形式的核苷酸,要么是脱氧核糖核苷酸要么是核糖核苷酸或其类似物。多核苷酸可以具有任何三维结构,并且可以执行任何已知或未知的功能。以下是多核苷酸的非限制性示例:基因或基因片段的编码或非编码区、由连锁分析定义的基因座(基因座)、外显子、内含子、信使rna(mrna)、转移rna、核糖体rna、核酶、cdna、重组多核苷酸、分支多(聚)核苷酸、质粒、载体、任何序列的分离的dna、任何序列的分离的rna、核酸探针和引物。多核苷酸可以包括修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物。如果存在,可以在聚合物组装之前或之后赋予对核苷酸结构的修饰。核苷酸序列可以被非核苷酸组分中断。聚合后可以进一步修饰多核苷酸,例如通过与标记组分结合。

如本发明所用的术语“靶多核苷酸”、“靶区域”或“靶(标)”可以指研究中的目标多核苷酸。在某些实施例中,靶多核苷酸含有一个或多个感兴趣并在研究的序列。靶多核苷酸可以包括例如基因组序列。靶多核苷酸可以包括靶序列,需要确定靶序列的存在、量和/或核苷酸序列或其中的变化。

viii.核酸文库生成

本发明提供的方法、计算机系统、计算机可读介质和试剂盒可以使用核酸文库。本发明提供了用于核酸文库形成的方法、组合物和试剂盒。文库形成可以包括在测序之前通过探针杂交和延伸进行靶标捕获。配对的末端片段可用于比对给定探针的片段。文库制备过程可以包括生成片段化的dna、含有接头的dna、靶标捕获、表面加载和测序,在生成含有接头的dna和靶标捕获之间没有通过用引物扩增的富集,所述引物在dna片段的每个末端通过接头扩增片段。

核酸样本可用于制备用于测序的核酸文库。核酸文库的制备可以包括本领域已知的或如本文所述的任何方法。核酸测序文库可以通过靶向富集形成,例如使用靶特异性引物。在一些情况,核酸文库并不基于靶特异性方法。图10示出了dna制备和文库生成的示例性工作流程。总制备时间可为约8小时。制备可以包括穿插有通过固相反向固定化(spri)珠粒温育的酶促操作以纯化核酸中间体。核酸(例如dna)文库制备可以涉及核酸(例如dna)制备,其可以包括a)核酸(例如dna)修复,b)核酸(例如dna)磷酸化,和/或c)核酸(例如dna)加帽。核酸文库生成可以包括将接头附加(例如,连接)到核酸上;“捕获”(例如,使对核酸的靶特异性引物退火)、延伸和/或扩增。核酸文库可以是单链核酸文库或双链核酸文库。核酸文库可以是dna文库。在一些实施例中,核酸文库是ssdna文库。在一些实施例中,核酸文库是部分ssdna文库。

a.核酸修复和片段化

可以在形成核酸文库之前修复核酸。例如,来自样本(例如,本文所述的任何样本,例如,福尔马林固定的石蜡包埋(ffpe)的样本)的核酸(例如,dna)可用于文库制备,并且来自样本(例如,ffpe样本)的核酸(例如,dna)可以包括突变,例如氧鸟嘌呤、dutp、交联部分和/或无碱基位点。在一些情况,从dna样本中除去(例如,切除)损伤的碱基。在一些情况,并不包含“纠正”处理步骤(碱基错误未得到纠正)。在一些情况,样本中的核酸不包含突变。

在一些情况,文库中的核酸是片段化的。用于文库制备的片段可以具有的平均大小为约50至约500个碱基/bp;约100至约500个碱基/bp;约100至约400个碱基/bp;约100至约300个碱基/bp;约100至约200个碱基/bp;约200至约500个碱基/bp;约200至约400个碱基/bp;或约200至约300个碱基/bp。

可以用碱基切除修复酶(例如,endoviii,甲酰氨基嘧啶dna糖基化酶(fpg))处理dna例如片段化的dna,以切除可能干扰聚合的损伤的碱基。然后可以用校对聚合酶(例如,t4dna聚合酶)处理dna以使末端平滑并替换损伤的核苷酸(例如,无碱基位点)。在一些实施例中,不用校对聚合酶处理dna以使末端平滑并替换损伤的核苷酸。

b.核酸处理

可以将核酸(例如dna)片段磷酸化(例如,用激酶)并用ddntp加帽。在一些情况,核酸的5'末端被磷酸化。

c.添加接头

可以将单链接头连接到来自样本的单链dna片段。可以实现含有接头的dna片段的两位数产量,以允许自样本改进的序列信息的回收。可以通过例如引物或通过连接将接头添加到核酸。可以将接头例如ssdna接头添加例如连接到ssdna的5'末端、ssdna的3'末端或ssdna的5'末端和3'末端。核酸片段和/或接头的5'末端可以被腺苷酸化,例如在连接反应之前。含有接头的dna的产量可以是两位数。

可以用接头序列修饰片段,所述接头序列可以影响片段与测序平台的偶联(例如,捕获和/或固定)。接头序列可以包括确定的寡核苷酸序列,其影响文库成员与测序平台的偶联。接头可以包括与固定在固体支持物(例如,测序流动槽或珠粒)上的寡核苷酸序列至少25%、50%、60%、70%、80%、90%或100%互补或相同的序列。接头序列可以包括与测序引物至少50%、60%、70%、80%、90%或100%互补或相同的确定的寡核苷酸序列。测序引物可以通过聚合酶实现核苷酸掺入,其中监测核苷酸的掺入以提供测序信息。测序引物可以是大约15至大约25个碱基。接头可以包括与固定在固体支持物上的寡核苷酸序列至少25%、50%、60%、70%、80%、90%或100%互补或相同的序列以及与测序引物至少70%互补或相同的序列。通过将接头串联缝合在一起也可以实现耦合。可以缝合的接头的数目可以是1、2、3、4或更多。缝合的接头可以是至少35个碱基、70个碱基、105个碱基、140个碱基或更多。

接头可以包括条形码序列。术语“条形码序列”可以指可以编码关于测定的信息的独特的核苷酸序列。条形码序列可以编码与询问的等位基因的同一性,靶多核苷酸或基因组基因座的同一性,样本、受试者、分子的同一性或其任何组合有关的信息。条形码序列可以是引物、报告探针或两者的一部分。条形码序列可以位于寡核苷酸的5'-末端或3'-末端,或者可以位于寡核苷酸的任何区域。条形码序列可以或不可以是模板序列的一部分。条形码序列的大小和组成可以千差万别;以下参考文献提供了用于选择适合于特定实施例的多组条形码序列的指导:brenner,美国专利号5,635,400;brenneretal.,proc.natl.acad.sci.,97:1665-1670(2000);shoemakeretal.,naturegenetics,14:450-456(1996);morrisetal.,欧洲专利公开0799897a1;wallace,美国专利号5,981,179。条形码序列可以具有大约4至36个核苷酸、大约6至30个核苷酸或大约8至20个核苷酸的长度。

文库中测序文库成员的至少50%、60%、70%、80%、90%或100%可以包括相同的接头序列。ssdna文库成员的至少50%、60%、70%、80%、90%或100%可以在第一末端但不在第二末端包括接头序列。在一些实施例中,第一末端是5'末端。在一些实施例中,第一末端位于3'末端。用户可以根据用于测序的测序平台选择接头序列。仅举例来说,通过合成平台的illumina测序可以包括固体支持物,其上固定有表面结合的寡核苷酸的第一和第二群体。此类寡核苷酸包括用于与第一和第二illumina特异性接头寡核苷酸杂交并引发延伸反应的序列。因此,dna文库成员可以包括第一illumina特异性接头,其与illumina系统的表面结合寡核苷酸的第一群体部分或完全互补。仅举其它示例来说,solid系统和iontorrent、gsflex系统可以包括珠粒形式的固体支持物,其上固定有表面结合的寡核苷酸的单个群体。因此,在一些实施例中,ssdna文库成员包括接头序列,其与solid系统、iontorrent系统或gsflex系统的表面结合的寡核苷酸互补。

d.延伸

可以从核酸片段生成延伸产物。可以通过使对核酸的3'末端上的接头序列的引物退火并延伸引物来生成延伸产物。所述延伸产物不是靶特异性的。可以通过使对在5'末端和/或3'末端包括接头的ss核酸(例如ssdna)中的靶特异性序列的引物退火并延伸引物来生成延伸产物。所述延伸产物可以是靶特异性的延伸产物。多个靶特异性引物(例如,大约20个大约35个碱基的靶特异性序列)可用于创建文库。靶特异性引物可以包括接头序列,例如在5'末端。

e.扩增

在一些情况,不进行全基因组pcr,这可以使表现度中的偏差最小化。在一些情况,不在溶液中对延伸产物进行扩增。在一些情况,在测序之前,在溶液中对延伸产物进行多轮扩增。

f.ssdna片段/ssdna文库制备(3'末端的接头)

本文提供了用于生成ssdna文库的方法、组合物和试剂盒,例如通过向核酸片段的3'末端添加接头。可以使用本领域已知的或本文描述的任何方式由双链核酸或单链核酸的样本制备单链核酸文库。

样本

起始样本可以是从受试者获得的生物样本。本文描述了示例性受试者和生物样本。样本可以是固体生物样本,例如肿瘤样本。可以对固体生物样本进行处理。处理可以包括例如在福尔马林溶液中固定,然后在石蜡中包埋(例如,是ffpe样本)。处理可以包括冷冻。在一些情况,样本既不固定也不冷冻。未固定、未冷冻的样本可以储存在设置成用于保存核酸的储存溶液中。本文描述了示例性储存溶液。在一些实施例中,可以从起始材料中除去非核酸物质,例如使用酶促处理(例如,用蛋白酶)。可以对样本进行均质化、超声处理、弗氏压碎、dounce、冷冻/解冻,然后可以进行离心。离心可以将含核酸的级分与不含核酸的级分分离。在一些情况,样本是液体生物样本。本文描述了示例性液体生物样本。液体生物样本可以是血液样本(例如,全血、血浆或血清)。通过使用例如在fussetal.,currprotocimmunol(2009)chapter7:unit7.1中详细描述的ficoll试剂,可以使全血样本经受无细胞成分(例如,血浆、血清)和细胞成分,该文献在此被援引加入本文。

可以使用本领域已知的任何方式从生物样本中分离核酸。例如,可以使用液体提取(例如,trizol、dnazol)技术从生物样本中提取核酸。还可以使用商购的试剂盒(例如,qiagendneasy试剂盒、qiaamp试剂盒、qiagenmidi试剂盒、qiaprepspin试剂盒)提取核酸。

可以通过已知方法浓缩核酸,仅举例来说,包括离心。为了纯化的目的,核酸可以与选择性膜(例如二氧化硅)结合。还可以富集核酸以获得所需长度的片段,例如长度小于1000、500、400、300、200或100个碱基对的片段。基于大小的这种富集可以使用例如peg诱导的沉淀、电泳凝胶或色谱材料(huberetal.(1993)nucleicacidsres.21:1061-6)、凝胶过滤色谱、tsk凝胶(katoetal.(1984)j.biochem,95:83-86)进行,这些出版物在此被援引加入本文。

可以使用本领域已知的任何方法选择性地沉淀或浓缩从生物样本中提取的多核苷酸。

可以富集核酸样本以获得靶多聚核苷酸。靶富集可以通过本领域已知的任何方法进行。例如,可以通过使用靶特异性引物扩增靶序列来富集核酸样本。靶扩增可以使用本领域已知的任何方法或系统以数字pcr形式发生。可以通过将靶序列捕获到其上固定有靶选择性寡核苷酸的阵列上来富集核酸样本。可以通过与在溶液中游离的或固体支持物上的靶选择性寡核苷酸进行杂交来富集核酸样本。寡核苷酸可以包括能够通过捕获试剂进行捕获的捕获部分。本文描述了示例性捕获部分和捕获试剂。在一些情况,不对核酸样本进行富集以获得靶多聚核苷酸,例如代表全基因组。在一些情况,进行全基因组扩增。

单链核酸文库可以是单链dna文库(ssdna文库)或rna文库。制备ssdna文库的方法可以包括将双链dna片段变性为ssdna片段、将引物序列连接到ssdna片段的一端、使引物与引物对接序列杂交。引物可以包括与下一代测序平台偶联的接头序列的至少一部分。所述方法还可以包括延伸杂交的引物以产生双链体,其中双链体包括原始ssdna片段和延伸的引物链。延伸的引物链可以与原始ssdna片段分离。可以收集延伸的引物链,其中延伸的引物链是ssdna文库的成员。制备rna文库的方法可以包括将引物对接序列连接到rna片段的一端,使引物与引物对接序列杂交。引物可以包括与下一代测序平台偶联的接头序列的至少一部分。所述方法还可以包括延伸杂交的引物以产生双链体,其中双链体包括原始rna片段和延伸的引物链。延伸的引物链可以与原始rna片段分离。可以收集延伸的引物链,其中延伸的引物链是rna文库的成员。

可以通过本领域已知的或如本文所述的任何方法使dsdna片段化。可以通过物理方法使dsdna片段化,例如,通过机械剪切、通过雾化或通过超声处理;通过化学方法,例如用fe(ii)-edta螯合物处理;或通过酶促方法,例如多种切口酶、限制酶或片段化酶(neb)(fragmentase)。

在一些实施例中,使用随机引物的逆转录(rnaseh+)从rna产生cdna以生成随机大小的cdna。

片段大小

核酸片段(例如,dsdna片段、rna或随机大小的cdna)可小于1000bp、小于800bp、小于700bp、小于600bp、小于500bp、小于400bp、小于300bp、小于200bp或小于100bp。dna片段可以是大约40-100bp、大约50-125bp、大约100-200bp、大约150-400bp、大约300-500bp、大约100-500bp、大约400-700bp、大约500-800bp、大约700-900bp、大约800-1000bp或大约100-1000bp。

修复

dsdna片段的末端可以是平滑化的(例如,平末端)。可以通过用聚合酶处理来使dna片段的末端平滑化。平滑化可以涉及3'突出端的消除、5'突出端的补平或其组合。聚合酶可以是校对聚合酶(例如,包括3'至5'外切核酸酶活性)。校对聚合酶可以是例如t4dna聚合酶、pol1klenow片段或pfu聚合酶。平滑化可以包括使用本领域已知的任何方法除去损伤的核苷酸(例如,无碱基位点)。

接头

将接头连接到核酸片段的3'末端可以包括在片段的3'oh基团和接头的5'磷酸之间形成键。因此,从核酸片段除去5'磷酸可以使两个文库成员的异常连接最小化。因此,在一些实施例中,从核酸片段中除去5'磷酸。在一些实施例中,从样本中至少50%、55%、60%、65%、70%、75%、80%、85%、90%,95%或超过95%的核酸片段中除去5'磷酸。在一些实施例中,从核酸片段中除去基本上所有的磷酸基团。在一些实施例中,从样本中至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或超过95%的核酸片段中除去基本上所有的磷酸。从核酸样本中除去磷酸基团可以通过本领域已知的任何方法进行。磷酸基团的去除可以包括用热不稳定的磷酸酶处理样本。在一些实施例中,并不从核酸样本中除去磷酸基团。在一些实施例中,进行接头与核酸片段的5'末端的连接。

变性

ssdna可以从dsdna片段通过变性成单链制备,所述dsdna片段通过本领域或如本文所述的任何方法制备。dsdna的变性可以通过本领域已知的任何方法进行,包括热变性、在碱性ph下温育、通过尿素或甲醛变性。

热变性可以通过将dsdna样本加热至大约60℃或更高、大约65℃或更高、大约70℃或更高、大约75℃或更高、大约80℃或更高、大约85℃或更高、大约90℃或更高、大约95℃或更高、或大约98℃或更高来实现。dsdna样本可以通过本领域已知的任何方法加热,包括例如在水浴中温育、温度控制的加热块、热循环仪。在一些实施例中,将样本加热0.5、1、2、3、4、5、6、7、8、9、10或超过10分钟。

通过在碱性ph中温育进行的变性可以通过例如将dsdna样本在包括氢氧化钠(naoh)或氢氧化钾(koh)的溶液中进行温育来实现。溶液可以包括约1mmnaoh、约2mmnaoh、约5mmnaoh、约10mmnaoh、约20mmnaoh、约40mmnaoh、约60mmnaoh、约80mmnaoh、约100mmnaoh、约0.2mnaoh、约0.3mnaoh、约0.4mnaoh、约0.5mnaoh、约0.6mnaoh、约0.7mnaoh、约0.8mnaoh、约0.9mnaoh、约1.0mnaoh或大于1.0mnaoh。溶液可以包括约1mmkoh、约2mmkoh、约5mmkoh、约10mmkoh、约20mmkoh、约40mmkoh、约60mmkoh、约80mmkoh、约100mmkoh、约0.2mkoh、约0.5mkoh、约1mkoh或大于1mkoh。在一些实施例中,将dsdna样本在naoh或koh中温育达0.5、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60或超过60分钟。在naoh或koh温育后,可以将dsdna与乙酸的钠盐或铵盐一起温育以中和碱性溶液。

诸如尿素和甲酰胺的化合物含有可以与核苷酸碱基的电负性中心形成h键的官能团。在高浓度(例如,8m尿素或70%甲酰胺)的变性剂下,h-键的竞争可有利于变性剂和n-碱基之间的相互作用而不是互补碱基之间的相互作用,从而分离两条链。术语“分离”可以指两种元素的物理分离(例如,通过两种元素之一的裂解、水解或降解)。

将接头连接到核酸片段的3’末端

接头可以连接到核酸片段(例如,ssdna、dna、rna)的一端或两端。接头可以连接到5'末端和/或3'末端。在一些情况,将接头连接到核酸片段的3'末端上。

接头可以包括用作模板用于使引物退火的序列。接头的序列可以包括至少70%、80%、90%或100%与用于偶联至ngs(大规模平行测序)平台(ngs接头;例如,流动槽序列)的接头序列的一部分或全部互补的序列。接头可以包括与ngs接头的至少5、6、7、8、9、10、11、12、13、14、15、20或超过20个连续核苷酸互补或相同的序列。在一些情况,接头不包括与ngs接头(例如,流动槽序列)的一部分或全部互补或相同的序列。

接头可以在5'末端腺苷酸化。接头可以与能够与捕获试剂形成复合物的捕获部分缀合。捕获部分可以通过本领域已知的任何方法与接头寡核苷酸缀合。捕获部分/捕获试剂对在本领域中是已知的。在一些情况,捕获试剂是亲和素、链霉亲和素或中性亲和素,并且捕获部分是生物素。在另一种情况,捕获部分/捕获试剂对是地高辛/麦胚凝集素。

在一些情况,将接头连接到核酸片段。接头与核酸片段的连接可以通过atp依赖性连接酶实现。atp依赖性连接酶可以是rna连接酶。rna连接酶可以是atp依赖性连接酶。rna连接酶可以是rn11或rnl2家族连接酶。rn11家族连接酶可以修复trna中的单链断裂。示例性rn11家族连接酶包括例如t4rna连接酶、来自thermus(栖热菌)scitoductus噬菌体ts2126的热稳定rna连接酶1(circligase)或circligaseii。这些连接酶可以催化核苷酸3-oh亲核试剂和5'磷酸基团之间的atp依赖性的磷酸二酯键的形成。rn12家族连接酶可以封闭双链rna中的缺口。示例性rn12家族连接酶包括例如t4rna连接酶2。rna连接酶可以是古细菌rna连接酶,例如来自嗜热古细菌嗜热自养甲烷杆菌(methanobacteriumthermoautotrophicum)的古细菌rna连接酶(mthrn1)。

接头与单链核酸片段的连接可以包括制备包括核酸片段、接头和连接酶的反应混合物。可以加热反应混合物以实现接头寡核苷酸与ssdna片段的连接。可以将反应混合物加热至约50℃、约55℃、约60℃、约65℃、约70℃或超过70℃。可以将反应混合物加热至约60-70℃。可以将反应混合物加热足够的时间以使接头与核酸片段连接。可以将反应混合物加热约5分钟、约10分钟、约15分钟、约20分钟、约25分钟、约30分钟、约35分钟、约40分钟、约45分钟、约50分钟、约55分钟、约60分钟、约70分钟、约80分钟、约90分钟、约120分钟、约150分钟、约180分钟、约210分钟、约240分钟或超过240分钟。

接头可以以高于混合物中核酸片段浓度的浓度存在于反应混合物中。在一些实施例中,接头以高于混合物中核酸片段浓度至少10%、20%、30%、40%、50%、60%、70%、80%、90%、100%或高于100%的浓度存在。接头可以以大于混合物中核酸片段浓度的至少10倍、100倍、1000倍或10000倍的浓度存在。接头可以以至少0.1μm、至少0.5μm、至少1μm、至少10μm或更高的终浓度存在。连接酶可以以饱和量存在于反应混合物中。

反应混合物可以另外包括高分子量惰性分子,例如分子量为4000、6000或8000的peg。惰性分子可以以约0.5%、1%、2%、3%、4%、5%、7.5%、10%、12.5%、15%、17.5%、20%、25%、30%、35%、40%、45%、50%或超过50%重量/体积的量存在。在一些实施例中,惰性分子以约0.5-2%、约1-5%、约2-15%、约10-20%、约15-30%、约20-50%或超过50%重量/体积的量存在。

在已经有足够的时间以使接头与ss核酸分子(例如,ssdna片段)连接后,可以通过本领域已知的任何方法除去未反应的接头,例如通过分子量截留进行过滤、尺寸排阻色谱法、使用纯化柱(spincolumn)、用聚乙二醇(peg)进行选择性沉淀、用peg在二氧化硅或羧酸盐基质上进行选择性沉淀、乙醇沉淀、乙酸钠沉淀、peg和盐沉淀、或高严紧性洗膜。

在一些情况,可以捕获连接的核酸片段。连接的核酸片段的捕获可以在延伸之前或延伸之后发生。可以将连接的核酸片段捕获到固体支持物上。捕获可以涉及复合物的形成,所述复合物包括与接头缀合的捕获部分和捕获试剂。捕获试剂可以固定在固体支持物上。与包括捕获部分的连接的核酸的量相比,固体支持物可以包括过量的捕获试剂。固体支持物可以包括超过包括捕获部分的连接的核酸片段的总数5倍、10倍或100倍的可用结合位点。

在一些情况,例如,当单链接头连接到单链片段(例如,ssdna片段)的3'末端时,引物(例如,接头特异性引物)通过接头与连接的核酸片段杂交。引物(例如,接头特异性引物)可以包括3'序列,其在单链片段的3'末端对接头退火。

引物(例如,接头特异性引物)可以包括ngs接头序列的一部分或全部,例如在其5'末端。本文描述了示例性ngs接头序列。可以延伸杂交的引物以产生包括原始核酸片段和延伸的引物的双链体,其中延伸的引物在一端包括原始核酸片段的反向互补序列和ngs接头序列。本文描述了示例性ngs接头序列。在一些实施例中,引物中的ngs接头序列包括与ngs平台的表面结合的寡核苷酸(例如,流动槽(flowcell)序列)至少70%、80%、90%或100%相同的序列。ngs接头序列可以包括与ngs平台的表面结合的寡核苷酸(例如,流动槽序列)至少70%、80%、90%或100%互补的序列。ngs接头序列可以包括与ngs平台使用的测序引物至少70%、80%、90%或100%相同的序列。ngs接头序列可以包括与ngs平台使用的测序引物至少70%、80%、90%或100%互补的序列。接头引物的延伸可以通过校对嗜温或嗜热dna聚合酶来实现。聚合酶可以是具有5'-3'核酸外切/核酸内切(dna聚合酶i、ii、iii)或3'-5'核酸外切(家族a或bdna聚合酶、dna聚合酶i、t4dna聚合酶)活性的嗜热聚合酶。在一些情况,聚合酶可以不具有核酸外切酶活性(taq)。聚合酶可以对固定化的连接的片段进行线性扩增,产生固定化的连接的片段的反向互补序列的多个拷贝。在一些情况,只产生反向互补序列的一个拷贝。在一些实施例中,延伸的引物分子与原始核酸模板分离(例如通过变性,例如如本文所述)。延伸的引物分子可以在溶液中是游离的,而原始核酸模板分子保持固定在固体支持物上。可以收获延伸的引物分子,产生核酸文库制备,其中文库成员包括ngs接头。至少50%、60%、70%、80%、90%、超过90%或基本上全部文库成员可以包括ngs接头。

下面提供了从分离自生物样本(例如血液、血浆、尿液、粪便、粘膜样本)的核酸(例如,dna或rna)制备核酸文库的示例性方法。获得的核酸可以通过酶促或机械方法片段化至约100至约1000个例如约100至约500bp的片段。核酸可以原位片段化。可以从福尔马林固定的石蜡包埋(ffpe)组织或循环dna中片段化核酸。可以从ffpe中分离核酸并通过试剂盒(qiagen、covaris)循环。核酸可以是dna。dna可以是从使用随机引物逆转录(rnaseh+)的相同样本的生物样本中分离的rna产生的cdna,以产生随机大小的cdna。核酸可以是rna。可以用碱基切除修复酶(例如,endoviii、甲酰胺基嘧啶dna糖基化酶(fpg))处理片段化的dna,以切除可能干扰聚合的损伤的碱基。然后可以用校对聚合酶(例如,t4dna聚合酶)处理dna以使末端平滑(修饰末端)并替换损伤的核苷酸(例如,无碱基位点)。在一些实施例中,不用校对聚合酶处理dna以使末端平滑(修饰末端)并替换损伤的核苷酸。

可以用热不稳定的磷酸酶处理核酸(例如,dna或rna)以从核酸中除去磷酸基团。可以将反应混合物加热至80℃达10分钟以使磷酸酶和聚合酶失活并使双链dna变性为单链。

可以将具有或不具有长度为大约12至大约50个碱基的3'末端亲和标签(例如,生物素)的化学或酶促磷酸化的接头连接至片段化的单链核酸的3'末端,终浓度为0.5μm或高于饱和量的atp依赖性rna连接酶(例如,t4rna连接酶、嗜热性例如circligase、circligaseii),例如,在平均分子量4000、6000或8000的10-20%(w/v)的聚乙二醇存在下。反应可以在约60至约70℃温育1小时。接头可以包括下述:(i)对应于用于illumina流动槽簇生成的表面结合的寡核苷酸的序列的全部、部分或没有(ii)不能参与连接反应的3'-末端亲和基团,其在足够的距离(例如,10个原子或更大)处与寡核苷酸连接,以使亲和配体和结合受体之间的相互作用的空间位阻最小化。

可以通过本领域已知的任何方法使接头腺苷酸化。如果使用腺苷酸化的接头,在一些实施例中,atp依赖性rna连接酶不是circligase或circligaseii。在一些情况,不需要atp依赖性rna连接酶。可以按大小纯化反应混合物以除去未反应的接头。可以通过使用截留分子量为10k或3k的微滤单元(例如,microconym-10或ym3,或nanosepomega)来实现纯化。通过穿过尺寸排阻截留值例如为10k或更小的尺寸排阻脱盐柱(琼脂糖、聚丙烯酰胺)的通道,通过使用纯化柱,通过用peg、乙醇或盐的选择性沉淀,高严紧性洗膜或变性凝胶电泳可以实现接头去除。

与接头完全互补或在其3'末端与接头部分互补的寡核苷酸引物可以包括对应于流动槽上的序列的序列,例如,illumina流动槽寡核苷酸,可用于使用校对嗜温dna聚合酶产生结合文库的反向互补序列。具有5'-3'核酸外切/核酸内切(例如,家族adna聚合酶,例如,dna聚合酶i)或3'-5'核酸外切(例如,家族bdna聚合酶、vent、phusion、pfu及其变体)活性的嗜热聚合酶可用于允许文库的线性扩增。

在一些情况,然后可以将回收的材料结合到能够以成批方式结合3'-末端亲和标签的亲和树脂或支持物上。可以将回收的材料放入0.2ml管中的预漂洗支持物中,所述管含有比标记的接头分子总数更多的至少10倍过量或100倍的可用结合位点。

可以收获并定量由结合文库的拷贝组成的上清液。

在一个示例中,dsdna是片段化的。dsdna片段可以去磷酸化并热变性成单链。可以使包括引物对接序列的生物素化的接头与核酸片段接触。可以将接头连接到ssdna片段的3'末端以产生文库成员前体。包括与接头互补的序列以及另外的接头序列(例如,在引物的5'末端)的引物可以通过连接的接头与ssdna杂交。杂交的引物可以沿着模板ssdna片段延伸以产生双链体。双链体可以固定在固体支持物上(例如,链霉亲和素包被的珠粒)。热变性可以将最终的文库成员释放到溶液中同时将原始ssdna片段保留在珠粒上。

g.ssdna文库制备(将接头连接到片段的两端)

本文提供了用于制备ssdna文库的方法、组合物和试剂盒,包括将dsdna片段变性为ssdna以及将接头序列连接到ssdna分子的两端。本文描述了使dsdna片段化的方法。本文描述了使dsdna片段变性的方法。

所述方法可以包括连接第一接头,所述第一接头包括与第一表面结合的寡核苷酸(例如,测序仪流动槽寡核苷酸)至少70%、80%、90%或100%互补或相同的序列。第一表面结合的寡核苷酸可以是ngs平台特异性表面结合的寡核苷酸。第一接头可以包括与表面结合的寡核苷酸的大约5、6、7、8、9、10、11、12、13、14、15、20或超过20个连续核苷酸互补或相同的序列。第一接头可以进一步包括与第一测序引物至少70%、80%、90%或100%互补的序列。可以使用本文描述的方法或本领域已知的任何方法将第一接头连接到ssdna片段的3'末端。ssdna片段可以缺少5'磷酸基团。第一接头可以通过atp依赖性连接酶连接到ssdna片段的3'末端。第一接头可以包括3'末端封闭基团。3'末端封闭基团可以防止在3'末端碱基和另一个核苷酸之间形成共价键。3'末端封闭基团可以是双脱氧dntp或生物素。第一接头可以是5'腺苷酸化的。可以通过本文所述的rna连接酶将第一接头连接到ssdna片段的3'末端。rna连接酶可以是来自t4或mth的截短的或突变的rna连接酶2。所述方法可以进一步包括将第二接头序列连接到ssdna片段的5'末端。第二接头序列可以与第一接头序列不同。第二接头序列可以包括与第二表面结合的寡核苷酸至少70%互补的序列。第二表面结合的寡核苷酸可以是ngs平台特异性表面结合的寡核苷酸。第二接头可以包括与表面结合的寡核苷酸的大约5、6、7、8、9、10、11、12、13、14、15、20或超过20个连续核苷酸互补或相同的序列。第二接头可以进一步包括与第二测序引物至少70%、80%、90%或100%互补的序列。可以使用rna连接酶例如本文所述的circligase将第二接头连接到ssdna片段。第一和第二接头均可以与第一和第二表面结合的寡核苷酸至少70%、80%、90%或100%互补。第一和第二接头均可以与第一和第二表面结合的寡核苷酸至少70%、80%、90%或100%相同。

使用本文所述的方法产生的ssdna文库可用于全基因组测序或靶向测序。在一些实施例中,使用本文所述的方法产生的ssdna文库在测序之前被富集以获得感兴趣的靶多核苷酸。

h.ssdna文库形成:靶特异性文库富集

本文提供了用于制备靶富集的核酸文库的方法、组合物和试剂盒。所述方法可以涉及使靶选择性寡核苷酸(tso)与单链dna(ssdna)片段杂交以产生杂交产物,并延伸以产生延伸链。

靶富集的方法可以如美国专利申请公开号20120157322所述,该文献在此通过援引被加入本文。

杂交和扩增可以在反应混合物中发生。如本文所用的术语“反应混合物”可以指从核酸模板分子扩增至少一个扩增子的组分的混合物。混合物可以包括核苷酸(dntp)、聚合酶和靶选择性寡核苷酸。混合物可以包括多个靶选择性寡核苷酸。混合物可以进一步包括tris缓冲液、一价盐和mg2+。普通技术人员可以进一步优化各组分的浓度。反应混合物还可以包括添加剂,包括但不限于非特异性背景/阻断核酸(例如,鲑鱼精子dna)、生物防腐剂(例如,叠氮化钠)、pcr增强剂(例如,甜菜碱、海藻糖等)和抑制剂(例如,rna酶抑制剂)。可以将核酸样本(例如,包括ssdna片段的样本)与反应混合物混合。反应混合物可以进一步包括核酸样本。

ssdna片段可以是ssdna文库的成员。可以使用本文所述的方法制备ssdna文库。ssdna片段可以包括位于第一末端但不位于第二末端的第一单链接头序列。第一末端可以是5'末端。tso可以包括位于第一末端但不位于第二末端的第二单链接头序列。第一末端可以是5'末端。第一接头序列可以包括与第一表面结合的寡核苷酸(例如,流动细胞寡核苷酸)至少70%、80%、90%或100%互补或相同的序列。第一接头序列可以包括与测序引物至少70%、80%、90%或100%互补或相同的序列。第一接头可以包括条形码序列。第二接头可以包括与第二表面结合的寡核苷酸(例如,流动槽序列)至少70%、80%、90%或100%相同的序列。第二接头序列可以包括与测序引物至少70%、80%、90%或100%相同的序列。

靶选择性寡核苷酸(tso)可以被设计成至少部分地与目标靶多(聚)核苷酸杂交。tso可以被设计成选择性地与靶多(聚)核苷酸杂交。tso可以与靶多(聚)核苷酸中的序列至少约70%、75%、80%、85%、90%、95%或超过95%互补。tso可以与靶多(聚)核苷酸中的序列100%互补。杂交可以产生具有tm的tso/靶双链体。tso/靶双链体的tm可以在0至约100℃之间、约20至约90℃之间、约40至约80℃之间、约50至约70℃之间、约55至约65℃之间或约62至约68℃之间。tso可以足够长以在聚合酶存在下引发延伸产物的合成。tso的确切长度和组成可以取决于许多因素,包括退火反应的温度、引物的来源和组成以及引物:探针浓度的比例。tso的长度可以为例如约8至约50nts、约10至约40nts或约12至约24nts。tso的长度可以为约40nt。在一些情况,结合靶序列的tso的部分为约10至约50nt、约20至约50nt、约25至约40nt、约30至约40nt或约35至约40nt。

与靶序列退火的tso可以延伸。可以使用核酸聚合酶进行扩增。核酸聚合酶可以是dna聚合酶。dna聚合酶可以是热稳定的dna聚合酶。聚合酶可以是a或b家族dna校对聚合酶(vent、pfu、phusion及其变体)的成员、dna聚合酶全酶(dnapoliii全酶)、taq聚合酶或其组合。

延伸可以以自动化过程进行,其中包括模板dna的反应混合物通过变性步骤、引物退火步骤和合成步骤进行循环。可以使用pcr热循环仪进行自动化过程。可商购的热循环仪系统包括来自bio-radlaboratories、lifetechnologies、perkin-elmer等的系统。

与靶序列退火的tso可以延伸以生成延伸产物,所述延伸产物包括延伸的链,所述延伸的链包括第二接头序列、tso、靶序列的反向互补序列和第一接头序列的反向互补序列。如果原始ssdna片段的第一接头序列与第一表面结合的寡核苷酸具有70%或更高的同一性,则延伸的链可以包括与第一表面结合的寡核苷酸70%或更多互补的第一接头序列,并且可以与第一表面结合的寡核苷酸(例如,流动槽寡核苷酸)杂交。延伸的链可以包括靶富集的文库。

与反应混合物中的靶序列退火的延伸产物可以变性。在一些情况,延伸的链在用于大规模平行测序仪或其它应用之前经历扩增,例如聚合酶链式反应。在一些情况,延伸的链在用于大规模平行测序仪或其它应用之前不被扩增(例如,在溶液中扩增,例如,使用pcr)。在一些情况,延伸的链在用于大规模平行测序仪之前经历pcr约5至约50个循环、约5至约40个循环、约5至约30个循环、约5至约25个循环、约5至约20个循环或约5至约15个循环,例如在溶液中。在一些情况,延伸的链在用于大规模平行测序仪之前经历扩增,例如pcr,少于40个循环、少于30个循环、少于25个循环、少于20个循环、少于15个循环、少于14个循环、少于13个循环、少于12个循环、少于11个循环或少于10个循环,例如在溶液中。延伸的链在用于大规模平行测序仪之前可以例如通过pcr扩增约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个循环,例如,在溶液中。可以用与第一接头序列的互补序列退火的第一引物(例如,具有与靶序列的5'末端处的接头序列相同的序列的引物)和与第二接头序列的互补序列退火的第二引物(例如,具有与tso的5'末端处的第二接头序列相同的序列的引物)进行扩增。

变性的延伸产物和/或其扩增形式可以与其上固定有至少第一表面结合的寡核苷酸(例如,流动槽序列)的表面接触。延伸的链可以被第一表面结合的寡核苷酸(例如,流动槽寡核苷酸)捕获,其可以与延伸的链上的第一接头序列退火。

第一表面结合的寡核苷酸可以引发捕获的延伸的链的延伸。捕获的延伸的链的延伸可以导致捕获的延伸产物。捕获的延伸产物可以包括第一表面结合的寡核苷酸、靶序列和与第二表面结合的寡核苷酸至少70%、80%、90%或100%互补的第二接头序列的互补序列。

捕获的延伸产物可以与第二表面结合的寡核苷酸杂交并形成桥。在一些实施例中,通过桥式pcr扩增桥。桥式pcr方法可以使用本领域已知的方法进行。

i.用于文库制备和靶富集的试剂盒

还提供了用于实施如本文所述的文库制备方法或如本文所述的靶富集的试剂盒。

试剂盒可以包括用于修复和化学变性dsdna的试剂。试剂盒可以包括用于纯化单链dna的试剂。试剂盒可以包括一种或多种用于切除损伤的碱基的酶。试剂盒可以包括磷酸酶。试剂盒可以包括激酶。试剂盒可以包括末端转移酶和双脱氧核苷酸以封闭dna片段的3'末端。

本文提供了用于制备ssdna文库的试剂盒。试剂盒包括例如如本文所述的接头。试剂盒可以包括说明书,例如将接头连接到ssdna片段的说明书。试剂盒可以进一步包括连接酶。连接酶可以是rnl1或rnl2家族连接酶。试剂盒可以进一步包括可以与接头杂交的引物。本文描述了可以与接头杂交的引物。试剂盒可以提供固体支持物,例如其上固定有捕获试剂的珠粒。试剂盒可以提供用于进行延伸反应的聚合酶。试剂盒可以提供用于进行延伸反应的dntp。

试剂盒可以包括第一接头寡核苷酸、第二接头寡核苷酸、rna连接酶和使用说明,所述第一接头寡核苷酸包括与偶联至测序平台的第一支持物结合的寡核苷酸至少70%、80%、90%或100%互补或相同的序列,所述第二接头寡核苷酸包括与第一接头不同的序列。第一接头可以包括3'末端封闭基团,其阻止3'末端碱基与另一核苷酸之间形成共价键。本文描述了3'末端封闭基团。第一接头可以是5'腺苷酸化的。第一接头可以包括与测序引物至少70%、80%、90%或100%互补或相同的序列。第二接头可以包括与测序引物至少70%、80%、90%或100%互补或相同的序列。第二接头可以包括与偶联至测序平台的第二支持物结合的寡核苷酸至少70%、80%、90%或100%互补的序列。

还提供了用于制备靶富集的dna文库的试剂盒。试剂盒可以包括接头、连接酶、可以与靶特异性序列杂交的引物、包括捕获试剂的固体支持物、聚合酶、dntp或其任何组合。tso可以在溶液中游离或固定在偶联用于在ngs平台上测序的固体支持物上,如在美国专利申请公开号20120157322中所述,该文献在此被援引加入本文。

本文提供的试剂盒可以包括封装材料。术语“封装材料(packagingmaterial)”可以指覆盖住试剂盒的组分的物理结构。封装材料可以保持试剂盒组分的无菌性,并且可以由通常用于这种目的的材料(例如,纸、瓦楞纤维、玻璃、塑料、箔、安瓿等)制成。试剂盒还可以包括缓冲剂、防腐剂或蛋白质/核酸稳定剂。

本文提供的公开内容可以包括采用本领域技术范围内的分子生物学、微生物学和重组dna技术的技术。参见,例如,sambrook,fritsch&maniatis,molecularcloning:alaboratorymanual,fourthedition(2012);oligonucleotidesynthesis(m.j.gait,ed.,1984);nucleicacidhybridization(b.d.hames&s.j.higgins,eds.,1984);apracticalguidetomolecularcloning(b.perbal,1984);和系列methodsinenzymology(academicpress,inc.)。本文提及的所有专利、专利申请和出版物,其上文和下文均在此被援引加入本文。

ix.患者监测

本文提供的计算系统、软件介质、方法和试剂盒可用于监测患者,例如纵向分析。所述方法可以包括对来自初始肿瘤样本例如福尔马林固定的石蜡包埋(ffpe)样本、细针抽吸/穿刺(fna)活组织检查、粗针穿刺活组织检查(cnb)和/或无细胞样本(例如,无细胞血浆样本)的一个或多个基因进行测序,例如,大规模平行测序(下一代测序)。初始样本可以是在受试者接受癌症治疗之前从受试者提取的样本。当血浆用作初始样本时,从样本中使用的dna量可以是约1ngdna。当血浆用作初始样本时,血浆的体积可以是约3ml。在一些情况,在受试者接受癌症治疗之前,仅从受试者获得用于测序的固体肿瘤样本(例如,ffpe样本、fna样本或cnb样本),并对来自样本的核酸进行测序。在一些情况,在受试者接受癌症治疗之前,仅从受试者获取用于测序的液体样本(例如,血浆),并对来自液体(例如,血浆)样本的核酸进行测序。在一些情况,在受试者接受癌症治疗之前,从受试者提取用于测序的固体肿瘤样本和液体样本(例如,血浆),并对来自固体肿瘤样本和液体(例如,血浆)样本的核酸进行测序。可以比较在受试者接受癌症治疗之前来自固体肿瘤样本和液体样本的测序数据。在一些情况,不比较在受试者接受癌症治疗之前来自固体肿瘤样本和液体样本的测序数据。

在样本(例如,初始样本)中测序的基因的数目可以是大约或至少1、5、10、20、30、40、50、60、70、80、90、96、100、110、120、129、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900或更多个基因。测序可以在临床实验室改进修正案(clinicallaboratoryimprovementamendments)(clia)认证的实验室和/或美国病理学家协会(collegeofamericanpathologists)(cap)认证的实验室中进行。测序数据(例如,生物信息学)的分析可以在clia和/或cap认证的实验室中进行。测序的基因可以是下述的一种或多种:abca1、braf、chd5、ep300、flt1、itpa、myc、pik3r1、skp2、tp53、abca7、brca1、chek1、epha3、flt3、jak1、mycl1、pik3r2、slc19a1、tp73、abcb1、brca2、chek2、epha5、flt4、jak2、mycn、pkhd1、slc1a6、tpm3、abcc2、brip1、cltc、epha6、fn1、jak3、myh2、plcb1、slc22a2、tpmt、abcc3、bub1b、col1a1、epha7、fos、jun、myh9、plcg1、slco1b3、tpo、abcc4、clorf144、cops5、epha8、foxo1、kbtbd11、nav3、plcg2、smad2、tpr、abcg2、cables1、creb1、ephb1、foxo3、kdm6a、nbn、pml、smad3、tr10、abl1、cacna2d1、crebbp、ephb4、foxp4、kdr、ncoa2、pms2、smad4、trrap、abl2、camkv、crkl、ephb6、gab1、kit、nek11、pparg、smarca4、tsc1、acvr1b、card11、crlf2、epo、gata1、klf6、nf1、ppargc1a、smarcb1、tsc2、acvr2a、carm1、csf1r、erbb2、gli1、klhdc4、nf2、ppp1r3a、smo、ttk、adcy9、cav1、csmd3、erbb3、gli3、kras、nkx2-1、ppp2r1a、socs1、tyk2、agap2、cbfa2t3、csnk1g2、erbb4、gna11、lmo2、nos2、ppp2r1b、sod2、tyms、akt1、cbl、ctnna1、ercc1、gnaq、lrp1b、nos3、prkaa2、sos1、ugt1a1、akt2、ccnd1、ctnna2、ercc2、gnas、lrp2、notch1、prkca、sox10、umps、akt3、ccnd2、ctnnb1、ercc3、gpr124、lrp6、notch2、prkcz、sox2、usp9x、alk、ccnd3、cyfip1、ercc4、gpr133、ltk、notch3、prkdc、sp1、vegf、anapc5、ccne1、cyld、ercc5、grb2、man1b1、npm1、ptch1、spry2、vegfa、apc、cd40lg、cyp19a1、ercc6、gsk3b、map2k1、nqo1、ptch2、src、vhl、apc2、cd44、cyp1b1、erg、gstp1、map2k2、nr3c1、pten、st6gal2、wrn、ar、cd79a、cyp2c19、ern2、gucy1a2、map2k4、nras、ptgs2、stat1、wt1、araf、cd79b、cyp2c8、esr1、hdac1、map2k7、nrp2、ptpn11、stat3、xpa、arfrp1、cdc42、cyp2d6、esr2、hdac2、map3k1、ntrk1、ptprb、stk11、xpc、arid1a、cdc42bpb、cyp3a4、etv4、hgf、mapk1、ntrk2、ptprd、sufu、zfy、atm、cdc73、cyp3a5、ewsr1、hif1a、mapk3、ntrk3、rad50、sult1a1、znf521、atp5a1、cdh1、dach2、ext1、hm13、mapk8、oma1、rad51、suz12、atr、cdh10、dcc、ezh2、hmga1、mark3、or10r2、raft、taf1、aurka、cdh2、dclk3、fanca、hnf1a、mcl1、pak3、rara、tbx22、aurkb、cdh2o、ddb2、fancd2、hoxa3、mdm2、parp1、rb1、tcf12、bai3、cdh5、ddb2、fance、hoxa9、mdm4、pax5、rem1、tcf3、bap1、cdk2、dgkb、fancf、hras、mecom、pcdh15、ret、tcf4、bard1、cdk4、dgkz、fas、hsp90aa1、men1、pcdh18、rictor、tek、bax、cdk6、diras3、fbxw7、idh1、met、pcna、ripk1、tep1、bcl11a、cdk7、dlg3、fcgr3a、idh2、mitf、pdgfa、ror1、tert、bcl2、cdk8、dll1、fes、ifng、mlh1、pdgfb、ror2、tet2、bcl2a1、cdkn1a、dnmt1、fgfr1、igf1r、mll、pdgfra、ros1、tgfbr2、bcl2l1、cdkn1b、dnmt3a、fgfr2、igf2r、mll3、pdgfrb、rps6ka2、thbs1、bcl2l2、cdkn2a、dnmt3b、fgfr3、ikbke、mpl、pdzrn3、rptor、tnfaip3、bcl3、cdkn2b、dot1l、fgfr4、ikzf1、mre11a、phlpp2、rspo2、tnks、bcl6、cdkn2c、dpyd、fh、il2rg、msh2、pik3c3、rspo3、tnks2、bcr、cdkn2d、e2f1、fhod3、inhba、msh6、pik3ca、runx1、tnni3k、birc5、cdx2、eed、figf、insr、mthfr、pik3cb、sdhb、tnr、birc6、cebpa、egf、flg2、irs1、mtor、pik3cd、sf3b1、top1、blm、cerk、egfr、flnc、irs2、mutyh、pik3cg、shc1和top2a。

序列数据可用于确定基因中突变的概况。突变的概况可以在报告中列出。报告可以提供给护理人员或从其提取一个或多个样本的受试者。报告可以基于突变的概况指出可能的治疗选择。

在提取初始样本后,可以从受试者提取后续样本,例如,以监测在初始样本中测序的一个或多个基因。可以从受试者提取多个后续样本(例如,大约或至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个样本)。来自受试者的后续样本可以是液体样本,例如血浆样本,或来自实体瘤的样本。可以分析核酸,例如无细胞核酸,例如来自后续样本的无细胞dna。可以通过测序例如大规模平行测序(下一代测序)对来自后续样本的核酸进行分析。可以通过扩增,例如pcr,例如数字pcr(dpcr),例如液滴数字pcr(例如ddpcr)对后续样本中的核酸进行分析。可以通过扩增(例如dpcr,例如ddpcr)和测序(例如大规模平行测序(下一代测序))对后续样本中的核酸进行分析。

可以以规律的间隔或不规律的间隔从受试者提取后续样本。可以每天、每周、每月两次、每月、每季度、每半年或每年从受试者提取后续样本。

在一些情况,可以通过测序对后续样本进行分析,直到测序不再提供足够的灵敏度来检测初始样本中识别的基因中的突变或改变。例如,可以通过对来自初始实体肿瘤样本或初始无细胞样本(例如,血浆)的核酸进行测序(例如,使用miseq)来识别基因中的突变,并且测序可用来检测在后续样本(例如液体样本,例如血浆)的基因中存在或不存在突变,并且当测序不再能够检测后续样本的基因中的突变时,基于扩增的分析(例如dpcr,例如使用例如bio-rad仪器qx200tmdropletdigitaltmpcr系统的ddpcr)可用于检测后续样本的基因中存在或不存在突变。在一些情况,基于扩增的方法,例如dpcr,例如ddpcr,可以具有比基于测序的方法更高的灵敏度。在一些情况,在初始样本中检测到的突变不会在通过测序进行分析的后续样本中被检测到,但是会在通过扩增进行分析(例如,ddpcr)的后续样本中被检测到。在一些情况,初始样本中存在的突变不会在通过测序进行分析的后续样本中被检测到,并且也不会在通过扩增进行分析(例如,ddpcr)的后续样本中被检测到。

在后续样本中分析的基因数目可以少于初始样本中分析的基因数目、与初始样本中分析的数目相同或者大于初始样本中分析的基因数目。在后续样本中分析的基因可以是初始样本中分析的基因的子集。在后续样本中分析的基因可以基于初始样本中识别的突变的概况(个体化变体的概况)。在后续样本中分析的基因的数目可以是大约或至少1、5、10、20、30、40、50、60、70、80、90、96、100、110、120、129、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900或更多基因。在一些情况,在后续样本中分析的基因的数目可以多于初始样本中分析的基因的数目。可以分析在后续样本中监测的基因以监测癌症、监测治疗的有效性、检测癌症的进化、检测癌症复发、检测癌症复发或检测癌症进展。

可以分析后续样本用于受试者中癌症的持续时间。如果在后续样本中识别出癌症复发,则可以从受试者提取第二样本并进行测序。第二样本可以是固体样本或液体样本(例如,无细胞样本),可以从受试者提取并进行测序,例如大规模平行测序(下一代测序)以确定突变的概况。在一些情况,第二样本是实体肿瘤样本,并对来自实体肿瘤样本的核酸进行测序。

测序可以检测基因扩增,例如,至少50%、60%、70%、80%、90%、95%、96%、97%、98%、98.5%、99%、99.5%或100%的测试的基因扩增。可以通过数字pcr例如ddpcr检测样本中的基因扩增。使用ddpcr可以检测至少50%、60%、70%、80%、90%、95%、96%、97%、98%、98.5%、99%、99.5%或100%测试的基因扩增。可以使用例如荧光原位杂交(fish)检测基因扩增。

在一些实施例中,使用本领域已知的或如本文所述的任何方法对如本文所述产生的靶富集的文库进行测序。测序可以揭示该集中一种或多种癌症相关基因中突变的存在。在一些实施例中,通过评估在较晚时间点从受试者分离的液体样本中的无细胞dna,选择携带突变的2、3、4个基因的子集用于进一步监测。在一些实施例中,通过评估在较晚时间点从受试者分离的液体样本中的无细胞dna,选择携带突变的不超过4个基因的子集用于进一步监测。

x.定义

如说明书和权利要求书中所使用的,单数形式“一(a)”、“一(an)”和“该/所述(the)”可以包括复数指代,除非上下文另有明确说明。例如,术语“细胞(acell)”可以包括多个细胞,包括其混合物。

范围在本文中可以表示为从“约/大约”一个特定值和/或到“约/大约”另一个特定值。当表达这样的范围时,另一个实施例包括从一个特定值和/或到另一个特定值。类似地,当通过使用先行词“约/大约”将值表示为近似值时,应当理解,该特定值形成另一个实施例。应当进一步理解,每个范围的端点相对于另一个端点是重要的,并且独立于另一个端点。如本文所用的术语“约/大约”是指在特定用法的上下文中与所指数值相差正负15%的范围。例如,约/大约10将包括8.5到11.5的范围。

本文所述的过程中使用的核酸可以在溶液中游离。术语“在溶液中游离”可以描述不与固体支持物(例如珠粒或流动槽)结合或拴系的分子,例如多(聚)核苷酸。

本文所述的过程可以利用基因组dna片段或基因组片段。术语“基因组片段”可以指基因组的区域,例如动物或植物基因组,例如人类、猴、大鼠、鱼或昆虫或植物的基因组。基因组片段可以或不可以是接头连接的。基因组片段可以是接头连接的(在这种情况下,它具有连接到片段的一端或两端的接头,连接到至少分子的5'末端),或不是接头连接的。

在某些情况,本文所述的方法中使用的寡核苷酸可被设计成使用参考基因组区域,即,已知核苷酸序列的基因组区域,例如染色体区域,其序列保存在例如ncbi的genbank数据库或其它数据库中。

示例

示例1–识别体细胞变体

受试者进行结肠镜检查并发现患有结肠肿瘤。从受试者采集肿瘤活检和抽血,并用于帮助诊断受试者中的结肠癌。对来自第一次抽血的肿瘤和正常细胞进行测序。受试者的肿瘤与正常样本之间的序列比较是基于概率模型和统计推断。比较利用公共数据库中报告的肿瘤突变的已知染色体基因座,并且概率性地模拟基因座邻域中的可能序列。模型与受试者的序列数据相结合以进行统计推断。该推论识别出apc、kras和tp53基因中的三个体细胞变体点突变。确定受试者的癌症阶段。

此外,数据分析应用程序推荐第一种治疗对策,例如手术以移除肿瘤。在第一次治疗后,进行第二次抽血。确定受试者的肿瘤已经转移。对受试者施加第二疗法(化疗)来控制癌症。

示例2-通过贝叶斯网络的数据分析

图8示出了描述目标用例的推断的示例性贝叶斯网络。在网络图中,节点“c”表示要推断的变体识别,节点“r”表示基因座上的一组比对的片段的碱基识别,节点“p”是基因座处的倍性(例如,正常种系的二倍体,但由于基因组不稳定,其在癌细胞中可能不同)。在样本包括癌症肿瘤细胞或dna的情况,“u”表示样本的细胞性,其可以通过其它方式(例如,病理学)进行估计,并且表示为来自种系的dna分子存在于肿瘤样本中的概率,并且提供为0至1之间的值。

可以为以下条件概率分布(cpd)提供合适的值:(a)p(r|c),给定特定变体识别的一组片段的概率,(b)p(ct|cg),在该基因座处给定那些种系的原发性肿瘤识别的概率,和(c)p(ccf|ct),在原发性肿瘤样本中给定识别的无细胞dna(cf-dna)中肿瘤识别的概率。

cdpp(r|c)可以是单个样本的标准贝叶斯变体识别方法的一部分。可以通过利用可以根据肿瘤类型和主要突变特征进行调整的体细胞突变率的经验值来计算第二个两个cdp。在p(ct|cg)的情况,并且通过假设原发性肿瘤与在患者血浆的无细胞部分中检测到的肿瘤dna之间的简单谱系关系,可以计算该cdp,例如,与在谱系中进行的计算类似,包括推断后代中的新生突变,假设简单的变异遗传而不是孟德尔分离。

此外,基于通过群体测序的先前种系变体观察,或跨肿瘤类型(例如tcga项目)的体细胞突变的大规模普查,可以针对特定基因座引入位点和等位基因特异性先验值。这些在缺少来自患者的一些组织样本(例如种系或原发性组织)时可能是有用的。一种情况是仅分析原发性肿瘤组织或来自血浆部分的cf-dna。在这种情况下,先验信息可用于估计cdpp(ct|ctp)和p(gt|gp),其中ctp是根据癌症患者(例如来自cosmic)中的先前观察在该位点处观察特定体细胞突变等位基因的先验概率,并且其中gt是在给定gp的肿瘤中存在的种系变体的基因型,观察源自变异的群体规模调查的该基因座处的特定基因型的概率(例如1000基因组计划)。这些概率随后可以被提供作为在输出中进行分析的每个变体的评分,使用机器学习方法基于经验验证或地面实况数据重新校准,并随后由分析员用于决定下游注释和临床报告的适当fp/fn阈值。

要考虑的另一个因素是癌症样本的细胞性,即,生物样本(例如,活组织检查/活检、血浆等)中包含的癌组织(和因此dna)相对于正常细胞(表示种系dna)的比例。当细胞性为低时,变体是种系的概率可以增加,并且反之亦然。为了解释这个因素,可以在贝叶斯网络中引入随机变量“u”,其表示细胞性的倒数,即测序片段来自种系细胞的概率(从0到1的值)。虽然可以在分析时提供该值,但在某些情况下,可以通过提供先验估计从数据中推断出该值。在考虑细胞性时,可以估计两个新的cdp:p(at|rt)和p(act|rct)。这些可以通过标准贝叶斯技术结合到识别的推断中。

最后,群体识别方法也可以与所述方法结合,并用于通过前面描述的方法联合识别来自其它样本的一组数据来改进正常组织中种系突变的检测(并因此减少假阳性体细胞突变),但应用于此处描述的上下文中,其中联合识别种系与癌组织样本。

示例3-肺癌分析

研究了肺癌患者。进行活组织检查以提取肿瘤组织和正常组织。此外,采集患者的血液。通过高通量测序仪对样本(即,肿瘤组织、正常组织和血液)进行测序。测序仪生成大量测序片段。本文公开的系统比较样本上的序列以比对序列。此外,参考人类基因组被用于比对过程。

完成比对后,产生肿瘤组织、正常组织和血液的基因组。滑动窗口同时应用于三个基因组。滑动窗口覆盖相同的染色体基因座。跨样本评估窗口内的序列允许数据分析应用程序识别推定的变体。通过概率模型捕获变体的不确定性。基于在文献或已知数据库或先前分析的患者中公开的现有信息,计算表征癌症阶段的体细胞变体的可能性。此外,还计算表示最佳治疗策略标记的其他变体的可能性。这些计算出的可能性让医生更好地了解患者的当前状态并为患者设计最好的医疗保健。

示例4-体细胞点突变/小插入缺失识别者

对包含约100kb的核酸区域进行肿瘤样本的靶向重测序,所述核酸区域包括约129个可作用的癌症基因的外显子。在一些情况,重测序的区域还包括内含子区域以检测易位。测序的平均深度为约300x至约500x,覆盖范围存在差异。仅对dna文库进行几轮pcr扩增。miseq的配对末端片段长度为250bp,hiseq的配对末端片段长度为150bp。配对末端片段的重叠对于miseq长片段是可能的。可以独立捕获区域的两条链,然后混合并测序。片段的中值大小可为约200至约300bp。利用目标区域外的脱靶片段进行样本识别、大的缺失/非整倍性/融合检测和基因组瘢痕分析(基因组瘢痕可以是具有已知来源的基因组畸变)。

当仅有肿瘤数据可用时,例如,病理标本作为ffpe块进行处理,可以使用本文提供的方法、系统和计算机可读介质。当仅对源自血浆的无细胞dna进行测序时,可以使用本文提供的方法、系统和计算机可读介质。当例如对来自血浆的无细胞dna进行测序和对种系序列进行测序时,例如从血液中分离血沉棕黄层并进行测序以代表种系组织(淋巴细胞),可以使用本文提供的方法、系统和计算机可读介质。除了无细胞dna之外,当肿瘤和种系样本可用时,可以使用本文提供的方法、系统和计算机可读介质。种系序列可以源自血沉棕黄层或其它组织活检。

方法可以涉及以fastq格式输入序列信息。片段可以以高灵敏度与基因组组装进行比对。比对存储为cram文件或bam文件。输出为vcf(变体识别格式)。小的单核苷酸变体(snv)、多核苷酸多态性(mnp)和目标区域中的小插入缺失被规定为bed文件。产生等位基因识别而不假设倍性(例如,等位基因计数中的低频率)。对于推定的体细胞突变,变体等位基因频率(vaf)在vcf中表示。未提供二倍体基因型。对于推定的种系突变,提供了可能的二倍体基因型。群体中常见的有密切关系的变体的先验知识(具有maf(突变注释格式)的静态vcf)有助于区分种系突变与体细胞突变。当可用时,可以进行患者样本的联合识别。当来自患者的种系样本不可用时,用本文所述的靶向测序方法测序的“正常”种系样本库进行联合识别(确定最佳样本大小)。可以考虑癌症中复发性体细胞突变的先验知识(例如,利用cosmic)以帮助区分体细胞突变。在目标区域的所有位置进行识别以产生确信的参考识别和非识别(如果需要)。可以执行gvcf输出中的压缩的参考识别以限制vcf的大小。可以提供下述变体评分:是体细胞和种系变体的可能性。进行基于训练数据的定制评分重新校准。对于肿瘤和无细胞dna样本,如果可用的话,可以考虑细胞性测量(基于数据的推断)。为脱靶区域提供变体识别。可以考虑配对的末端片段重叠是否可用(miseq250bp片段)以提高识别准确性。

可以检测分子条形码以识别重复片段并提供错误校正。此外,重复片段可用作独立的测序事件,并基于冗余测序重新调整评分。

尽管本文已经示出和描述了优选的实施例,但是对于本领域技术人员显而易见的是,这些实施例仅以示例的方式提供。在不背离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。应当理解的是,可以采用本文描述的实施例的各种替代方案来实施本发明。所附权利要求旨在限定本发明的范围,并且由此覆盖这些权利要求及其等同物范围内的方法和结构。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1