检测体细胞单核苷酸突变的方法和装置制造方法

文档序号:6636458阅读:496来源:国知局
检测体细胞单核苷酸突变的方法和装置制造方法
【专利摘要】本发明公开了一种检测体细胞单核苷酸突变的方法和装置。该方法包括以下步骤:S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;S2,筛选出发生在剪接位点上和外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;S3,去除第一SNP位点集中千人突变频率高于5%的SNP位点,得到第二SNP位点集;S4,从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;以及S5,从第三SNP位点集中筛选出支持序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。该方法实现了利用单一样品对体细胞突变的检测,降低了成本。
【专利说明】检测体细胞单核苷酸突变的方法和装置

【技术领域】
[0001] 本发明涉及高通量测序领域,具体而言,涉及一种检测体细胞单核苷酸突变的方 法和装置。

【背景技术】
[0002] 个体的每个细胞中都可能会携带有两种类型的突变:种系突变和体细胞突变,种 系突变是指在生殖细胞中发生的可遗传突变,也称为生殖细胞突变。假如种系突变发生,则 个体中的所有细胞都会携带该种系突变。种系突变之外的突变为体细胞突变,这些突变并 不是从亲代遗传得到,而是受环境和其他因素影响而发生了改变。
[0003] 使用高通量测序的方式可以测到覆盖样本中所有基因的序列,结合相关变异检测 软件可检测到样本中目标基因上存在的所有变异信息。目前能够用来检测体细胞突变的方 法是使用mutect软件,它在检测体细胞突变时,需要一组成对的样品,即可能带有体细胞 突变的待检样品和可以提供种系突变的对照样品。将两个样品进行比对,当突变在待检样 品中出现,而未在对照样品中出现,则认为该突变为待检样品中的一个体细胞突变。使用该 方法检测体细胞突变时需要对两个样品分别进行两次高通量测序,增加了成本。
[0004] 目前使用单个样本做变异检测的软件,对于检测结果往往不区分种系突变和体细 胞突变。而提供体细胞突变信息的软件,如mutect又需要一组成对的样品。因而,现有技 术中还未开发出既能采用单个样本进行检测从而降低检测成本又能检测到体细胞突变的 检测方法,仍需要对现有技术进行改进,以满足行业内对上述体细胞突变的检测要求。


【发明内容】

[0005] 本发明的主要目的在于提供一种检测体细胞单核苷酸突变的方法和装置,不仅能 够利用单个样品实现体细胞突变的检测,而且降低检测成本。
[0006] 为了实现上述目的,根据本发明的一个方面,提供了一种检测体细胞单核苷酸突 变的方法,该方法包括以下步骤:S1,对来源于体细胞的DNA测序数据与参考基因组数据进 行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置 信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;S2,从所有SNP位 点的数据中筛选出发生在剪接位点上的SNP位点和发生在外显子上且导致氨基酸发生非 同义突变的SNP位点,得到第一 SNP位点集;S3,去除第一 SNP位点集中千人突变频率高于 5%的SNP位点,得到第二SNP位点集;S4,从第二SNP位点集中筛选出体细胞突变来源的 SNP位点,得到第三SNP位点集;以及S5,从第三SNP位点集中筛选出测序数据中包含SNP 位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0007] 进一步地,在步骤Sl中,来源于体细胞的DNA测序数据包括全基因组DNA测序数 据或目标区域的DNA测序数据。
[0008] 进一步地,当来源于体细胞的DNA测序数据为目标区域的DNA测序数据时,来源于 体细胞的DNA测序数据的制备步骤包括:对来源于体细胞的DNA通过液相杂交捕获的方法 制备成目标区域的DNA测序文库;对目标区域的DNA测序文库进行测序,得到来源于体细胞 的DNA测序数据。
[0009] 进一步地,步骤S3包括:将第一 SNP位点集与千人基因组数据库进行比对,得到比 对数据;从比对数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。
[0010] 进一步地,步骤S4包括:将第二SNP位点集与单核苷酸多态性数据库进行比对,筛 选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;对过滤SNP位点 与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变的SNP位点,得到第 三SNP位点集。
[0011] 进一步地,步骤S4中:单核苷酸多态性数据库和Clinvar数据库中来源于体细胞 突变的SNP位点的SAO值为2或3。
[0012] 进一步地,步骤S5包括:对测序数据中比对到基因组同一位置上的测序序列数进 行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列 的第二总序列数;计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同 一位置的测序序列的突变频率;从第三SNP位点集中筛选出突变频率低于75%的SNP位 点,得到包含体细胞单核苷酸突变的SNP位点。
[0013] 根据本发明的另一方面,提供了一种检测体细胞单核苷酸突变的装置,该装置包 括以下模块:序列比对模块,用于对来源于体细胞的DNA测序数据与参考基因组数据进行 比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置信 息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;第一筛选模块:用 于从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点或/和发生在外显子上且 导致氨基酸发生非同义突变的SNP位点,得到第一 SNP位点集;第二筛选模块;用于从第一 SNP位点集中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集;第三筛选模块: 用于从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;第四筛 选模块:用于从第三SNP位点集中筛选出测序数据中包含SNP位点的序列的频率低于75% 的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0014] 进一步地,装置还包括测序模块,测序模块包括:全基因组DNA测序子模块:用于 对来源于体细胞的全基因组DNA测序文库进行测序,得到来源于体细胞的DNA测序数据;或 者目标区域DNA测序子模块:用于对来源于体细胞的目标区域的DNA测序文库进行测序,得 到来源于体细胞的DNA测序数据。
[0015] 进一步地,目标区域DNA测序子模块中还包括:液相杂交捕获单元:用于对来源于 体细胞的DNA进行杂交捕获,得到目标区域的DNA测序文库。
[0016] 进一步地,第二筛选模块还包括:第一比对子模块:用于将第一 SNP位点集与人类 千人基因组数据库进行比对,得到比对数据;第一筛选子模块:用于从比对数据中去除千 人突变频率高于5%的SNP位点,得到第二SNP位点集。
[0017] 进一步地,第三筛选模块还包括:第二比对子模块:用于将第二SNP位点集与单核 苷酸多态性数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到 过滤SNP位点;第三比对子模块:用于对过滤SNP位点与Clinvar数据库进行比对,筛选出 过滤SNP位点中来源于体细胞突变的SNP位点,得到第三SNP位点集。
[0018] 进一步地,第四筛选模块还包括:统计子模块:对测序数据中比对到基因组同一 位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹 配含有SNP位点的序列的第二总序列数;计算子模块:计算第二总序列数占第一总序列数 和第二总序列数之和的比值,得到同一位置的测序序列的突变频率;第三筛选子模块:用 于从第三SNP位点集中筛选出频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的 SNP位点。
[0019] 应用本发明的技术方案,通过仅利用来源体细胞的测序数据与参考基因组进行比 对,并将筛选出所有来源于体细胞的SNP位点,接着将发生在外显子和剪接位点上的SNP位 点筛选出来,然后对这些SNP位点按照已知的种系细胞和体细胞的特征进行筛选,便可得 到体细胞单核苷酸突变的SNP位点。该方法简单且实现了单一样品对体细胞突变的检测, 而且降低了检测成本。

【专利附图】

【附图说明】
[0020] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示 意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021] 图1示出了根据本发明的一种典型的实施例中检测体细胞单核苷酸突变的方法 流程示意图;以及
[0022] 图2示出了了根据本发明的一种典型的实施例中检测体细胞单核苷酸突变的装 置结构示意图。

【具体实施方式】
[0023] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0024] 正如【背景技术】部分所提到的,现有技术中检测体细胞突变的方法需要至少对两个 样品进行测序,检测成本较高,而采用单个样品测序时,又无法检测出体细胞突变。针对上 述缺陷,在本发明一种典型的实施方式中,提供了一种检测体细胞单核苷酸突变的方法,如 图1所示,该方法包括以下步骤:S1,对来源于体细胞的DNA测序数据与参考基因组数据进 行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置 信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;S2,从所有SNP位 点的数据中筛选出发生在剪接位点上的SNP位点和发生在外显子上且导致氨基酸发生非 同义突变的SNP位点,得到第一 SNP位点集;S3,去除第一 SNP位点集中千人突变频率高于 5%的SNP位点,得到第二SNP位点集;S4,从第二SNP位点集中筛选出体细胞突变来源的 SNP位点,得到第三SNP位点集;以及S5,从第三SNP位点集中筛选出测序数据中包含SNP 位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0025] 本发明的上述方法,通过仅利用来源体细胞的测序数据与参考基因组进行比对, 并将筛选出所有来源于体细胞的SNP位点,接着将发生在外显子和剪接位点上的SNP位点 筛选出来,然后对这些SNP位点按照已知的种系细胞和体细胞的特征进行筛选,便可得到 体细胞单核苷酸突变的SNP位点。该方法简单且实现了单一样品对体细胞突变的检测,而 且降低了检测成本。
[0026] 本发明的上述方法中,步骤S2可以根据各SNP位点所在的染色体的功能区域进行 筛选,发生在染色体的外显子区域的属于非同义突变的SNP位点,会导致其编码的氨基酸 发生改变,其结果是导致蛋白质发生突变,可能会影响蛋白质的功能,因此筛选具有上述特 点的位点;发生在剪接位点处的SNP位点可能会影响氨基酸的编码,因此这样的位点也需 要保留。在本发明一种优选的实施例中,可以利用Knowngene数据库注释出的功能(func) 信息即可筛选得到符合上述要求的SNP位点。
[0027] 本发明的上述方法中,上述步骤Sl中,来源于体细胞的DNA测序数据包括全基因 组DNA测序数据或目标区域的DNA测序数据。在本发明一种优选的实施例中,当来源于体 细胞的DNA测序数据为目标区域的DNA测序数据时,来源于体细胞的DNA测序数据的制备 步骤包括:对来源于体细胞的DNA通过液相杂交捕获的方法制备成目标区域的DNA测序文 库;对目标区域的DNA测序文库进行测序,得到来源于体细胞的DNA测序数据。当需要对全 基因组的体细胞突变进行分析时,则不需要进行液相杂交捕获的步骤,直接将全基因组制 备成测序文库进行测序即可。
[0028] 在本发明一种具体的实施例中,上述待检的样品可以是肿瘤组织,也可以是外周 血中的游离DNA。上述样品制备成测序文库的步骤中,根据样本的不同,使用不同的手段进 行DNA的提取。使用自动聚焦声波样本处理仪(covaris)将DNA随机打断成双链DNA,双链 DNA的主峰在150-200bp。在随机打断的DNA的3'段添加上一个"A"碱基,生成一个单碱 基的粘性末端,对3端加"A"的DNA进行adapter的连接。将连接有接头的DNA片段使用 PCR技术进行DNA富集。取富集后的DNA样品750ng进行杂交捕获,在此过程中按照美国 安捷伦公司的SureSelect人类基因组外显子捕获试剂盒提供的说明书进行操作。在本发 明中,采用高通量测序对制备的测序文库进行测序,具体测序平台可以选择Illumina公司 的 Hiseq2000、Hiseq2500、Nextseq500、Miseq,Life Technology 公司的 Ion torrent、Ion Proton等。各个测序平台采用的测序方式虽不尽相同,最终都能够得到来源于待测样品的 体细胞的DNA测序数据。
[0029] 在本发明的上述方法中,上述步骤S3可以根据所得到的第一 SNP位点集中各SNP 位点的信息的不同,通过选择并比对合适的数据库即可将符合体细胞突变特点的SNP位点 进行去除。在本发明一种优选的实施例中,上述步骤S3包括:将第一 SNP位点集与人类千 人基因组数据库进行比对,得到比对数据;从比对数据中去除千人突变频率高于5%的SNP 位点,得到第二SNP位点集。体细胞突变在人类千人基因组数据库(即IOOOg数据库)中多 为低频突变,因而,如果第一 SNP位点集中某一 SNP位点的突变频率小于5%或在上述数据 库中没有注释出突变频率信息,即该SNP位点的突变为低频突变,属于体细胞突变的特征, 因而需要保留。另外,若在IOOOg数据库中没有给出相应的信息,有可能该突变位点属于新 的突变位点,因而也需要保留此类SNP位点。
[0030] 在本发明的上述方法中,上述步骤S4同样可以通过选择合适的数据库进行比对, 只要能够将明显不符合体细胞突变特征的SNP位点去除掉即可得到上述第三SNP位点集。 在本发明一种优选的实施例中,上述步骤S4包括:将第二SNP位点集与单核苷酸多态性数 据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位 点;对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变 的SNP位点,得到第三SNP位点集。
[0031] dbSNP 数据库(http://www. ncbi. nlm. nih. gov/projects/SNP/)是单核苷酸多 态性数据库的简称,该数据库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息, 如小片段的插入和缺失多态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库 中会给出特定的参考SNP编号(reference SNP ID)用以识别每一个突变,该数据库给出 的位点不一定与疾病发生相关。dbSNP数据库同时会给出突变的来源,表现形式是给出 SAO(Variant Allele Origin,突变来源)的值。
[0032] Clinvar 数据库(http://www. ncbi. nlm. nih. gov/clinvar/)能够提供与致病性 相关的突变。Clinvar数据库能够给出人类突变信息,同时解释这些突变与人类健康的关 系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给出相应的支持证 据。通过Clinvar数据库注释出的信息,我们能够判断突变是否有致病性。Clinvar同时 会注释出突变的来源,表现形式是给出SAO的值,SAO为0时表示该突变来源未知,SAO为1 时表示该突变为种系细胞突变,SAO为2时表示该突变为体细胞突变,SAO为3时表示该突 变既是种系突变也是体细胞突变。
[0033] 本发明的上述实施例,通过利用上述两个数据库中的信息即可筛选出具有体细胞 特征的SNP位点,从而去除掉明显不属于体细胞突变的SNP位点。优选上述步骤S4中单 核苷酸多态性数据库和Clinvar数据库中来源于体细胞突变的SNP位点的SAO(Variant Allele Origin)值为2或3,将SAO为2或3的SNP位点保留下来,即保留了具有体细胞特 征的SNP位点,为筛选得到真正的SNP位点提供了较大可能性。
[0034] 在本发明的一种优选的实施例中,上述步骤S5包括:对测序数据中比对到基因组 同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数 和匹配含有SNP位点的序列的第二总序列数;计算第二总序列数占第一总序列数和第二总 序列数之和的比值,得到所述同一位置的测序序列的突变频率;从第三SNP位点集中筛选 出突变频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0035] 在上述测序数据中,测序信息包含以下四个数值,支持匹配参考基因型正链序列 数目、支持匹配参考基因型负链序列数目、支持匹配突变基因型正链序列数目和支持匹配 突变基因型负链的序列数目,如果(匹配参考基因型正链序列数目+匹配参考基因型负链 序列数目V(匹配参考基因型正链reads+匹配参考基因型负链reads+匹配突变基因型 正链reads+匹配突变基因型负链reads)的比值小于0. 75,即某SNP位点的突变频率小于 0. 75,则这样筛选得到的SNP位点即为包含体细胞单核苷酸突变的SNP位点。
[0036] 本发明的上述方法已经能够相对准确地检测到来源于单个样本的体细胞单核苷 酸突变,为了进一步提高检测的准确性,在本发明一种更优选的实施例中,上述方法还包 括将在上述各筛选步骤中不符合条件的SNP位点进行再次筛选,利用靶向数据库(来自 MyCancerGenome)中的包括SNP和indel突变类型信息对上述不符合条件的SNP位点进行 过滤。根据染色体、位置、参考基因型和突变基因型的信息进行比对筛选,如果某SNP位点 的存在于靶向数据库,则将该SNP位点加入到包含体细胞单核苷酸突变的SNP位点中。另 夕卜,若上述不符合条件的SNP位点出现在高频突变数据库(CLINSIG. pathogenic)中,则表 明该SNP位点属于人群频率大于5%且为致病基因的位点,则该位点也加入到上述包含体 细胞单核苷酸突变的SNP位点中。
[0037] 在本发明另一种典型的实施方式中,提供了一种检测体细胞单核苷酸突变的装 置,如图2所示,该装置包括以下模块:序列比对模块,用于对来源于体细胞的DNA测序数 据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP 位点位于基因上的位置信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类 型信息;第一筛选模块:用于从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位 点或/和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一 SNP位点集; 第二筛选模块;用于从第一 SNP位点集中去除千人突变频率高于5%的SNP位点,得到第二 SNP位点集;第三筛选模块:用于从第二SNP位点集中筛选出体细胞突变来源的SNP位点, 得到第三SNP位点集;第四筛选模块:用于从第三SNP位点集中筛选出测序数据中包含SNP 位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0038] 本发明的上述装置,通过序列比对模块仅利用来源体细胞的测序数据与参考基因 组进行比对,筛选出所有来源于体细胞的SNP位点,接着利用第一筛选模块将发生在外显 子和剪接位点上的SNP位点筛选出来,然后利用第二筛选模块和第三筛选模块对这些SNP 位点按照已知的种系细胞突变和体细胞突变的特征进行筛选,最后通过第四筛选模块,测 序数据中包含SNP位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变 的SNP位点。该装置不仅实现了利用单一样品对体细胞突变的检测,而且降低了检测成本。
[0039] 在本发明的上述装置中,第一筛选模块可以根据现有的筛选模块进行合理改进, 只要能够实现将发生在外显子和剪接位点上的SNP位点筛选出来的功能即可适用于本发 明。在本发明一种优选的实施例中,上述装置还包括测序模块,该测序模块包括:全基因组 DNA测序子模块:用于对来源于体细胞的全基因组DNA测序文库进行测序,得到来源于体细 胞的DNA测序数据;目标区域DNA测序子模块:用于对来源于体细胞的目标区域的DNA测序 文库进行测序,得到来源于体细胞的DNA测序数据。
[0040] 在本发明另一种优选的实施例中,上述目标区域DNA测序子模块中还包括:液相 杂交捕获单元:用于对来源于体细胞的DNA进行杂交捕获,得到目标区域的DNA测序文库。 通过液相杂交捕获单元根据想要捕获的目标区域的DNA序列而预先设计好的探针与修复 好的带有接头序列的DNA片段进行杂交,即可将所感兴趣的目标区域DNA片段从全基因组 DNA片段中捕获出来,然后连上测序引物序列就形成了目标区域DNA测序文库,这样的文库 能够从全基因组中把感兴趣的目的区域富集出来,从而提高了目标区域突变位点的检出效 率。采用液相杂交捕获单元能够提高目标区域DNA的捕获效率。
[0041] 在本发明的上述装置中,第二筛选模块还包括:第一比对子模块:用于将第一 SNP 位点集与人类千人基因组数据库进行比对,得到比对数据;第一筛选子模块:用于从比对 数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。该实施例中第二筛选 模块通过第一比对子模块将第一 SNP位点集与人类千人基因组数据库进行比对,得到比对 数据,然后利用第一筛选子模块从比对数据中去除千人突变频率高于5%的SNP位点,得到 第二SNP位点集。人类千人基因组数据库中包括了 1000个人类全基因组测序数据中出现 的低频突变或高频突变的SNP位点,对于突变频率高于5%的SNP位点,由于其在人类群体 中出现频率较高,通常认为是类似于种系细胞突变所引起的突变或者是遗传引起的突变, 而非因环境或其他因素引起的种系细胞分化之后的体细胞突变,因而通过与上述数据库进 行比对,可以把某个体细胞来源的第一 SNP位点集中不属于高频突变位点的SNP位点保留 下来,从而得到可能真正引起功能突变的第二SNP位点集。
[0042] 在本发明的上述装置中,上述第三筛选模块通过选择合适的筛选模块进行比对, 只要能够将明显不符合体细胞突变特征的SNP位点去除掉即可。在本发明一种优选的实施 例中,上述第三筛选模块包括:第二比对子模块:用于将第二SNP位点集与单核苷酸多态性 数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位 点;第三比对子模块:用于对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位 点中来源于体细胞突变的SNP位点,得到第三SNP位点集。
[0043] 上述第二比对子模块和第三比对子模块通过将第二SNP位点集与dbSNP数据库 (http://www. nebi. nlm. nih. gov/projects/SNP/)和 Clinvar 数据库进行比对,dbSNP 数据 库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息,如小片段的插入和缺失多 态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库中会给出特定的参考SNP编 号(reference SNP ID,简称RS号)用以识别每一个突变,该数据库给出的位点不一定与疾 病发生相关。dbSNP数据库同时会给出突变的来源,表现形式是给出SAO(Variant Allele Origin,突变来源)的值;同样,Clinvar数据库能够给出人类突变信息,同时解释这些突变 与人类健康的关系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给 出相应的支持证据。通过Clinvar数据库注释出的信息,我们能够判断突变是否有致病性。 Clinvar同时会注释出突变的来源,表现形式是给出SAO的值,SAO为0时表示该突变来源 未知,SAO为1时表示该突变为种系细胞突变,SAO为2时表示该突变为体细胞突变,SAO为 3时表示该突变既是种系突变也是体细胞突变。因而与上述两个数据库进行比对即可将符 合于体细胞突变特征的SNP位点进行筛除,保留上述数据库中未出现的SNP位点和上述数 据库中表明符合体细胞特征的SNP位点。
[0044] 在本发明的上述装置中,第四筛选模块可以根据测序数据的不同,对常用的统计 和计算模块进行改进即可得到。在本发明中,上述第四筛选模块还包括:统计子模块:对测 序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因 组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;计算子模块:计算第 二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变 频率;第三筛选子模块:用于从第三SNP位点集中筛选出所述频率低于75%的SNP位点,得 到包含体细胞单核苷酸突变的SNP位点。
[0045] 上述实施例中,第四筛选模块首先通过利用统计子模块对测序数据中比对到基因 组同一位置上的测序序列数进行统计,得到基因组同一位置上的总比对序列数目;然后利 用计算子模块计算包含各SNP位点的测序序列的数目占总比对序列数目的频率,最后第三 筛选子模块从第三SNP位点集中筛选出频率低于75%的SNP位点,得到包含体细胞单核苷 酸突变的SNP位点。其中,统计子模块利用测序数据中所包含的以下四个数值:支持匹配参 考基因型正链序列数目、支持匹配参考基因型负链序列数目、支持匹配突变基因型正链序 列数目和支持匹配突变基因型负链的序列数目,即可统计出基因组同一位置上的总比对序 列数目。然后计算模块通过计算(匹配参考基因型正链序列数目+匹配参考基因型负链序 列数目)八匹配参考基因型正链reads+匹配参考基因型负链reads+匹配突变基因型正链 reads+匹配突变基因型负链reads)的比值,当该比值小于0. 75时,即某SNP位点的突变频 率小于0. 75,则这样筛选得到的SNP位点即为包含体细胞单核苷酸突变的SNP位点。
[0046] 需要说明的是,本发明主要用于检测基因外显子或剪接位点处的体细胞单核苷酸 突变。高通量测序后会得到非常多的单核苷酸突变,本方法和装置可以从众多的单核苷酸 突变中筛选比较有意义的体细胞单核苷酸突变。筛选得到的体细胞单核苷酸突变是否与疾 病发生有直接或间接的关系,有待进一步的验证,所以本方法和装置仅适用于科研和学术 基础研宄之用,而不适用于临床上疾病的诊断。
[0047] 以下通过具体的实施例来进一步说明本发明的有益效果。
[0048] 提取7个不同个体的肺癌组织体细胞和血中的白细胞,并提取DNA进行测序分析。 然后利用mutect检测方法和本发明的检测方法分别对来源于肺癌组织的体细胞进行单核 苷酸突变检测。下列实施例中所用到的试剂、仪器或装置除有特殊说明外,其余均来自美国 安捷伦公司。详细检测步骤如下:
[0049] 实验一:文库制备
[0050] 分别提取肺癌症组织和白细胞中的DNA,经过使用covaris破碎仪(美国Covaris 公司)将DNA随机打断成双链DNA,打断片段的主带在150bp-200bp之间;然后使用末端修 复酶将DNA片段进行末端修复,得到带有平末端的片段混合物,并在DNA的3'端添加一个 "A"碱基生成粘性末端。接下来将接头连接到带有粘性末端的DNA片段上,每个接头都带有 一个"T"碱基,能提高接头连接的效率,需要在T4DNA连接酶的催化下进行。为了保证后续 分析有足够量的DNA,连接上接头的DNA片段需要使用PCR富集。
[0051] PCR 反应体系为:98°C,2min ;98°C,30s 变性;65°C,30s 退火;72°C,lmin 延伸; 72 °C,IOmin延伸,约进行4-7个PCR循环;4 °C,保温。富集完成后使用bioanalyzer DNAlOOOchip (美国安捷伦公司2100bioanalyzer)进行定量。
[0052] 经过扩增的DNA样品使用安捷伦公司的Agencourt AMPure XP磁珠纯化体系,特 异的将带有接头的DNA片段进一步纯化。
[0053] 实验二:杂交捕获并分别在每个文库上的DNA片段上添加特异的标签序列
[0054] 取出富集纯化之后的DNA约750ng (最大体积不能超过3. 4ul),使用安捷伦 SureSelect XT液相捕获系统进行目标序列捕获。本实施例分析的是人483个基因的外显 子区域上的体细胞突变,假如需要分析全基因组的体细胞突变,则不需要进行杂交捕获的 步骤。
[0055] 分别对7个上述构建好的DNA文库单独地进行杂交和捕获,然后再通过PCR反应 引入标签序列,得到各样品的目标区域的测序文库。
[0050] 实验三:上机测序
[0057] 将各样品测序文库稀释到2nM,根据各文库所需数据量进行混池,获得浓度为2nM 的文库稀释液。在文库稀释液中加入〇. 2N NaOH溶液,使文库中的DNA变性成为单链的DNA。 之后使用illumina Nextseq500测序平台对混池之后的文库进行上机测序,测序的长度为 双端 75bp(PE 75)。
[0058] 实验四:测序数据质控及比对
[0059] 1.原始测序数据以fastq文件格式存储(文件名:*. fq),在进行下一步分析之前 需要进行常规的数据过滤步骤,过滤方法如下:
[0060] (1)过滤掉含有接头序列的测序序列(reads);
[0061] (2)当双端测序序列中的某一单端序列中含有的不确定碱基N的含量超过该条序 列总长度比例的10%时,需要去除此对双端测序序列;
[0062] (3)当双端测序序列中的某一单端序列中含有的低质量(Q〈 = 5)碱基数超过该条 序列长度比例的50%时,需要去除此对双端测序序列。
[0063] 2.经过对测序数据的严格过滤,得到高质量的有效数据(Clean data)。有效数 据通过 BWA(Burrows_Wheeler Alignment tool)软件比对到 NCBI build 37/hgl9 参考 基因组上,比对时的参数为:"-t l〇-k 32-M"。比对结果使用samtools sort(http:// samtools. sourceforge. net/)功能进行排序,并经 picard(http://broadinstitute. github. io/picard/)去除重复,过滤掉错配碱基数目超过5的序列。
[0064] 实验五:使用mutect软件检测肺癌组织细胞中存在的体细胞突变
[0065] Mutect软件是美国broad研宄院开发的一款可以准确的使用高通量测序发现体 细胞单核苷酸突变的软件。使用mutect软件寻找体细胞突变时需要输入待检细胞测序结 果的比对文件和对照细胞测序结果的比对文件,mutect使用了两个贝叶斯分类器:一个识 别待检样品中存在的突变,另一个用于检测对照样品中是否存在该突变。通过两个分类器, mutect即可发现待检样品中存在的体细胞突变。
[0066] 在本发明的实施例中,待检样品是每个个体中提取的肺癌组织细胞,而对照样品 则是每个个体中提取的白细胞。在运行mutect时,分别输入这两个样品测序结果各自与参 考基因组的比对文件,mutect运行时使用hg37版人类基因组,并指定能够记录目标基因在 参考基因组上位置的bed文件。Bed文件中含有待检测基因在参考基因组上的位置。采用 Mutect直接检测的体细胞突变结果统计如下表1。
[0067] 表 1 :
[0068]

【权利要求】
1. 一种检测体细胞单核巧酸突变的方法,其特征在于,所述方法包括w下步骤: S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的 数据;其中,所述SNP位点的数据包括所述SNP位点位于基因上的位置信息和所述SNP位点 导致氨基酸发生同义突变或非同义突变的变异类型信息; 52, 从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点和发生在外显子上 且导致氨基酸发生非同义突变的SNP位点,得到第一 SNP位点集; 53, 去除所述第一 SNP位点集中千人突变频率高于5%的SNP位点,得到第二SNP位点 集; 54, 从所述第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第S SNP位点 集;W及 55, 从所述第S SNP位点集中筛选出所述测序数据中包含所述SNP位点的序列的频率 低于75%的SNP位点,得到包含所述体细胞单核巧酸突变的SNP位点。
2. 根据权利要求1所述的方法,其特征在于,在所述步骤S1中,所述来源于体细胞的 DNA测序数据包括全基因组DNA测序数据或目标区域的DNA测序数据。
3. 根据权利要求2所述的方法,其特征在于,当所述来源于体细胞的DNA测序数据为目 标区域的DNA测序数据时,所述来源于体细胞的DNA测序数据的制备步骤包括: 对来源于体细胞的DNA通过液相杂交捕获的方法制备成目标区域的DNA测序文库; 对所述目标区域的DNA测序文库进行测序,得到所述来源于体细胞的DNA测序数据。
4. 根据权利要求1所述的方法,其特征在于,所述步骤S3包括: 将所述第一 SNP位点集与千人基因组数据库进行比对,得到比对数据; 从所述比对数据中去除千人突变频率高于5%的SNP位点,得到所述第二SNP位点集。
5. 根据权利要求1所述的方法,其特征在于,所述步骤S4包括: 将所述第二SNP位点集与单核巧酸多态性数据库进行比对,筛选出所述第二SNP位点 集中来源于体细胞突变的SNP位点,得到过滤SNP位点; 对所述过滤SNP位点与Clinvar数据库进行比对,筛选出所述过滤SNP位点中来源于 体细胞突变的SNP位点,得到所述第S SNP位点集。
6. 根据权利要求1或5所述的方法,其特征在于,所述步骤S4中;所述单核巧酸多态 性数据库和所述Clinvar数据库中来源于体细胞突变的SNP位点的SAO值为2或3。
7. 根据权利要求1所述的方法,其特征在于,所述步骤S5包括: 对所述测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上 匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数; 计算所述第二总序列数占所述第一总序列数和所述第二总序列数之和的比值,得到所 述同一位置的测序序列的突变频率; 从所述第S SNP位点集中筛选出所述突变频率低于75%的SNP位点,得到包含所述体 细胞单核巧酸突变的SNP位点。
8. -种检测体细胞单核巧酸突变的装置,其特征在于,所述装置包括W下模块: 序列比对模块,用于对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得 到所有SNP位点的数据;其中,所述SNP位点的数据包括所述SNP位点位于基因上的位置信 息和所述SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息; 第一筛选模块,用于从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点或 /和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一 SNP位点集; 第二筛选模块,用于从所述第一 SNP位点集中去除千人突变频率高于5%的SNP位点, 得到第二SNP位点集; 第S筛选模块,用于从所述第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到 第;5^位点集;化及 第四筛选模块,用于从所述第S SNP位点集中筛选出所述测序数据中包含所述SNP位 点的序列的频率低于75%的SNP位点,得到包含所述体细胞单核巧酸突变的SNP位点。
9. 根据权利要求8所述的装置,其特征在于,所述装置还包括测序模块,所述测序模块 包括: 全基因组DNA测序子模块,用于对来源于体细胞的全基因组DNA测序文库进行测序,得 到所述来源于体细胞的DNA测序数据;或者 目标区域DNA测序子模块,用于对来源于体细胞的目标区域的DNA测序文库进行测序, 得到所述来源于体细胞的DNA测序数据。
10. 根据权利要求9所述的装置,其特征在于,所述目标区域DNA测序子模块中还包 括: 液相杂交捕获单元,用于对来源于体细胞的DNA进行杂交捕获,得到所述目标区域的 DNA测序文库。
11. 根据权利要求8所述的装置,其特征在于,所述第二筛选模块还包括: 第一比对子模块,用于将所述第一 SNP位点集与千人基因组数据库进行比对,得到比 对数据;W及 第一筛选子模块,用于从所述比对数据中去除千人突变频率高于5%的SNP位点,得到 所述第二SNP位点集。
12. 根据权利要求8所述的装置,其特征在于,所述第=筛选模块还包括: 第二比对子模块,用于将所述第二SNP位点集与单核巧酸多态性数据库进行比对,筛 选出所述第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;W及 第S比对子模块,用于对所述过滤SNP位点与Clinvar数据库进行比对,筛选出所述过 滤SNP位点中来源于体细胞突变的SNP位点,得到所述第S SNP位点集。
13. 根据权利要求8所述的装置,其特征在于,所述第四筛选模块还包括: 统计子模块,对所述测序数据中比对到基因组同一位置上的测序序列数进行统计,得 到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总 序列数; 计算子模块,计算所述第二总序列数占所述第一总序列数和所述第二总序列数之和的 比值,得到所述同一位置的测序序列的突变频率拟及 第S筛选子模块,用于从所述第S SNP位点集中筛选出所述频率低于75%的SNP位点, 得到包含所述体细胞单核巧酸突变的SNP位点。
【文档编号】G06F19/22GK104462869SQ201410708748
【公开日】2015年3月25日 申请日期:2014年11月28日 优先权日:2014年11月28日
【发明者】张兰英, 于海燕, 张广鑫, 庞行云, 孟雪红, 曹银川, 吴晓朦, 李林, 宋欠欠, 张燕艳 申请人:天津诺禾致源生物信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1