一种杂合性缺失的检测方法

文档序号:10622518阅读:1848来源:国知局
一种杂合性缺失的检测方法
【专利摘要】本申请公开了一种杂合性缺失的检测方法,本申请的检测方法以单细胞测序为基础,以dbSNP数据库为背景,以染色体臂为检测单元,对单个细胞的SNP位点进行分析,并通过hampel identifier法判断离群点,鉴别出杂合性缺失,从而检测获得准确的单个细胞的杂合性缺失信息。本申请的检测方法率先在单细胞全基因组上水平检测各个细胞的杂合性缺失;以染色体臂为检测单元,检测精度高;开辟了单细胞杂合性缺失检测先河;为单个细胞差异的鉴别,以及肿瘤组织中细胞的异质性研究奠定了基础;不仅可以用于推断肿瘤的发生发展过程,了解肿瘤克隆演化的类型;而且对不同病患或不同时期的用药或用药效果分析等也具有重要意义。
【专利说明】
一种杂合性缺失的检测方法
技术领域
[0001] 本申请涉及基因检测领域,特别是涉及一种杂合性缺失的检测方法。
【背景技术】
[0002] 单细胞全基因组测序是在单细胞水平对全基因组进行扩增测序的新技术,其主要 包括单细胞的分离,单细胞遗传物质的提取与扩增,以及二代测序三个步骤。随着测序技术 的发展,尤其是全基因组扩增方法的改善及新方法的提出,使得癌症单个细胞基因组分析 成为可能。
[0003] 基因组突变是癌症发生发展的重要因子。与癌症病人的正常细胞相比,癌症细胞 的基因组有很多序列改变的特征,从单碱基的改变到染色体大片段的插入或缺失,甚至全 基因组的重复。其中杂合性缺失(loss ofheterogeneous,缩写L0H)是基因组上的杂合位 点的两个等位基因,其中一个部分或全部丢失,表现为未缺失等位基因的纯合子,导致缺失 的等位基因不能表达。在肿瘤单细胞研究中,癌症基因组上杂合性缺失是一种普遍存在的 现象,抑癌基因的杂合性缺失与多种肿瘤的发生发展息息相关。通过肿瘤杂合性缺失的检 测,可以协助确定肿瘤克隆演化的类型。
[0004] 现有的检测杂合性缺失的方法都是基于组织水平,如ASCAT(allele-specific copy number analysis oftumors),其原理为比较正常组织和肿瘤组织中相同位点的单核 苷酸多态性(single nucleotide polymorphism, SNP)类型,算出相应位点的基因型频率, 来构建基因组水平的杂合缺失文库。这种方法需要大量对照组的相同位点的SNP信息;并 且,这种检测方法是肿瘤组织层面的杂合性缺失检测,是多个细胞的平均值,由于肿瘤异质 性的特点,这种检测方法难以说明单个肿瘤细胞的准确的杂合性缺失情况。

【发明内容】

[0005] 本申请的目的是提供一种新的杂合性缺失的检测方法。
[0006] 为了实现上述目的,本申请采用了以下技术方案:
[0007] 本申请公开了一种杂合性缺失的检测方法,其特征在于:包括以下步骤,
[0008] (1)提取组织样品,分离获得单个细胞,提取单细胞的核酸,并采用全基因组扩增 方法对所提取的核酸进行扩增,建库后上机测序,得到单细胞的全基因组测序;
[0009] (2)将步骤(1)获得的全基因组测序与参考基因序列进行比对,检测单细胞的 SNP,得到单细胞全基因组上的单核苷酸多态性位点的基因型数据,并按照过滤标准对潜在 的假阳性SNP位点进行过滤,得到高质量SNP数据;
[0010] (3)下载dbSNP数据库中与组织样品对应的所有SNP位点数据,过滤掉dbSNP数据 库中在千人基因组中SNP频率低于5%的SNP位点,剩下的SNP位点作为背景SNP位点集;
[0011] (4)采用步骤(2)得到的高质量SNP数据,对于每个单细胞,以染色体臂为一个检 测区域,统计各检测区域的SNP位点与背景SNP位点集的交集,计数为?\,并统计纯合SNP 和杂合SNP位点,纯合SNP计数为Nlj;
[0012] (5)计算每个单细胞中各个检测区域的纯合SNP位点频率FlS,计算公式为F lj = + 100%,得到各个检测区域的纯合SNP位点频率矩阵;
[0013] (6)用hampel identifier法找纯合SNP位点频率Fg中的离群点,离群点所在的 检测区域,即判定该染色体臂有发生杂合性缺失;
[0014] 其中,i表示染色体臂的编号,j表示单细胞的编号。
[0015] 需要说明的是,本申请的关键在于利用单细胞测序技术,对单个癌细胞或肿瘤细 胞进行分析,并采用现有的dbSNP数据库为背景,以染色体臂为一个检测单元,创造性的 采用hampel identifier法对离群点进行分析,从而判定染色体臂的杂合性缺失。可以理 解,除此以外,例如单个细胞的获得、单细胞核酸提取、单细胞测序,测序结果的比对和SNP 的检测都可以参考现有技术进行;本申请的优选方案中,为了保障检测结果,优选的采用 SOAP或BWA软件对步骤(1)的测序结果进行比对,并优选的采用GATK、samtools或SOAPsnp 进行SNP检测。
[0016] 还需要说明的是,步骤(3)中"下载dbSNP数据库中与组织样品对应的所有SNP 位点数据","与组织样品对应的"是指组织样品来源相对应的,例如本申请的一种实现方式 中,具体对人的癌细胞进行杂合性缺失检测,则下载了人的所有SNP位点数据。可以理解, 如果是对其它动物的肿瘤细胞进行的杂合性缺失检测,则需要下载对应的该动物的所有 SNP位点数据;当然,前提是dbSNP数据库中有这些数据。
[0017] 本申请的步骤(3)中,千人基因组中SNP频率是指,SNP频率=千人基因组中有此 SNP的样本数目+1000,本申请中过滤掉千人基因组中SNP频率低于5 %的SNP,其中5 %是 一个经验概率,具有统计学意义,可以理解,该值同样并不是唯一不变的,在试验允许的条 件下,对该值进行细微调整同样属于本申请的保护范围。步骤(2)中,所谓高质量的SNP数 据是指排除各种假阳性的SNP后,可信度高的SNP数据,具体过滤标准可以参考现有的SNP 分析方法中对SNP的分析判定标准。
[0018] 优选的,步骤(2)中,过滤标准为,过滤去除序列reads支持数少于6的SNP,去除 SNP质量少于20的SNP,去除链特异性的SNP,去除SNP位点的间距少于5bp的SNP。
[0019] 需要说明的是,本申请的步骤(2)中,与全基因组测序比对的参考基因序列为,从 NCBI或其他数据库下载的与本申请所测序的单细胞对应的物种基因组序列。过滤标准采 用Hou et al. 2012中披露的标准,可以理解,本申请采用的过滤标准中序列reads支持数 和SNP质量的具体值并不是唯一不变的,根据不同的试验条件和实际需求,对"序列reads 支持数少于6, SNP质量少于20"进行细微的调整同样属于本申请的保护范围;过滤标准 中,链特异性的SNP是指,遗传物质具有互补双链结构,其中一条链的测序深度和其互补 链测序深度相差甚大的SNP。过滤标准的出处详见文献:Hou Y,et al. 2012. Single-cell exome sequencing and monoclonal evolution of a JAK2~negative myeloproliferative neoplasm. Cell 148:873-885。还需要说明的是,Hou et al.的过滤标准只是获得高质量 SNP数据的一种优选方案,不排除其它可以获得高质量的SNP数据的过滤标准同样适用于 本申请。
[0020] 优选的,步骤(6)用hampel identifier法找离群点具体包括,(a)找出所有检测 区域的纯合SNP位点频率Fij的中位数M F,(b)计算每个纯合SNP位点频率Fij与中位数M F 的差值,取差值的绝对值即各纯合SNP位点的绝对中位差I F^-Mp I,得到绝对中位差矩阵, 其中染色体臂纯合率Fl]小于中位数MF的判定该染色体臂没有发生杂合性缺失,(C)找出各 纯合SNP位点的绝对中位差的中位数MAD,按公式计算Zy = (| FifMF |) + (MAD + 0. 6745), Zi/大于2. 24,为离群点,即判定该染色体臂有发生杂合性缺失。
[0021] 需要说明的是,染色体臂纯合率小于平均值的判定该染色体臂没有发生杂合性缺 失,这是根据L0H的特征进行判断的,本申请的研究过程中,发明人发现,发生L0H的位点其 杂合性部分或全部丢失,因此其纯合率应该升高,所以如果染色体臂纯合率小于平均值,也 就是纯合率降低的位点,判断为没有发生L0H。需要补充说明的是,在本申请的一种实现方 式中,将没有发生L0H的位点赋值为0,发生L0H的位点赋值为1,以便统计分析。
[0022] 优选的,步骤⑵中,检测单细胞的SNP所采用的软件为GATK、samtools或 S0APsnp〇
[0023] 优选的,步骤(2)中,将步骤(1)获得的全基因组测序与参考基因序列进行比对所 采用的软件为SOAP、BWA或bowtie。
[0024] 本申请的杂合性缺失的检测方法是以人类癌症细胞为基础研究出来的,其主要目 的是研究人类癌症细胞单个细胞的杂合性缺失,研究各个细胞的差异,进而分析推断肿瘤 的发生发展过程;因此,本申请的另一面提供了本申请的检测方法在检测人类癌症细胞的 杂合性缺失中的应用。可以理解,通过对单个细胞的杂合性缺失检测,不仅可以用于推断肿 瘤的发生发展过程;而且对不同病患或不同时期的用药或用药效果分析等也是具有重要意 义的。
[0025] 可以理解,在本申请的检测方法的基础上,可以利用本申请的检测方法制备出杂 合性缺失检测的试剂盒,与其他自动化设备或检测平台结合,还可以制备出杂合性缺失检 测的专用检测设备;因此,本申请的再一面还提供了本申请的检测方法在制备杂合性缺失 检测试剂盒或检测设备中的应用。
[0026] 由于采用以上技术方案,本申请的有益效果在于:
[0027] 本申请的杂合性缺失检测方法率先在单细胞全基因组上水平检测各个细胞的杂 合性缺失;并且以染色体臂为检测单元,检测精度高。本申请的检测方法开辟了单细胞杂合 性缺失检测先河,为单个细胞差异的鉴别,以及肿瘤组织中细胞的异质性研究奠定了基础; 不仅可以用于推断肿瘤的发生发展过程,了解肿瘤克隆演化的类型;而且对不同病患或不 同时期的用药或用药效果分析等也具有重要意义。
【附图说明】
[0028] 图1是本申请实施例中单细胞杂合性缺失结果图;
[0029] 图2是本申请实施例中病人1三块组织检测杂合性缺失的结果图;
[0030] 图3是本申请实施例中病人2三块组织检测杂合性缺失的结果图。
【具体实施方式】
[0031] 本申请的方法只需要公共数据库dbsnp中的数据,更简单方便;并且,基于单细胞 全基因高深度测序,考虑到单细胞测序的扩增偏向性,以染色体臂为检测单元,根据dbSNP 库中每个检测单元内SNP的频率分布,从而得到准确的杂合性缺失情况,提高了检测精度。
[0032] 本申请中,i表示染色体臂的编号,j表示单细胞的编号;1\表示编号为i的染色 体臂与背景SNP位点集的交集SNP位点个数;队j表示编号j的单细胞中编号i的染色体臂 中纯合SNP的个数;FlS表示编号j的单细胞中编号i的染色体臂中纯合SNP的出现频率; 1?表示统计的所有Fy的中位数;IF^-Md表示与^的差的绝对值;MAD表示统计的所有 |匕為|的中位数式/表示编号j的单细胞中编号i的染色体臂其纯合SNP是否为极端 值,即是否为离群点的判断分数。
[0033] 下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请 进行进一步说明,不应理解为对本申请的限制。
[0034] 实施例
[0035] 分别提取2个脑瘤病人的3块肿瘤组织,病人1的3块肿瘤组织分别标记为P1-T1、 P1-T2、P1-T3,病人2的3块肿瘤组织分别标记为P2-T1、P2-T2、P2-T3。从这6块组织分别 分选出3~5个单细胞,共22个单细胞,按照如下方法测定各个单细胞的杂合性缺失:
[0036] (1)从肿瘤患者的组织样品,使用流式细胞仪分离得到单个细胞,提取单个细胞的 核酸并采用全基因组扩增方法进行扩增,进行常规建库后进行上机测序,得到单细胞全基 因组测序下机序列;全基因组扩增方法包括简并核苷酸引物PCR(DOP-PCR),多重置换扩增 (MDA)或多次退火环状循环扩增(MALBAC),可选其中任何一种,获得足够建库的核酸量,本 例具体采用多重置换扩增(MDA)方法。上机测序本例采用CG测序仪。需要说明的是,测序 建库采用标准的CG建库流程,MDA参考CG测序仪的使用说明,在此不累述。
[0037] (2)将步骤(1)获得的全基因组测序结果,进行CG标准分析,并获得与参考基因序 列进行比对的比对结果,使用samtools检测SNP,得到单个细胞全基因组上的单核苷酸多 态性位点的基因型数据,对各个单细胞样本检测得到的所有SNP位点进行过滤,过滤标准 是,序列reads支持数少于6, SNP质量少于20,去除链特异性的SNP,去除SNP cluster ;
[0038] (3)下载dbSNP数据库中人的所有SNP位点数据,过滤掉在所有单细胞样本中出现 频率低于5%的SNP位点,作为背景SNP位点集;
[0039] (4)对于每个单细胞,以染色体臂为一个检测区域包含(:111'1.口,(3111'1.9,(3111'10· p, chrlO. q, chrll. p, chrll. q, chrl2. p, chrl2. q, chrl3. q, chrl4. q, chrl5. q, chrl6. p, chrl6. q, chrl7. p, chrl7. q, chrl8. p, chrl8. q, chrl9. p, chrl9. q, chr2. p, chr2. q, chr20. p, chr20. q, chr21. p, chr21. q, chr22. q, chr3. p, chr3. q, chr4. p, chr4. q, chr5. p, chr5. q, chr6. p, chr6. q, chr7. p, chr7. q, chr8. p, chr8. q, chr9. p, chr9. q, 一 共 40 个染 色体臂,统计各检测区域的高质量的SNP位点与背景SNP位点集的交集,计数为?\,并统计 纯合SNP和杂合SNP位点,纯合SNP计数为\,统计的\值详见表1至表4,由于数据量比 较大,&分表1至表4四个表格列出;需要说明的是,本例中,有些染色体臂很短,且现有组 装结果其主要是Ν,所以本例只检测40个染色体臂的;
[0040] (5)计算每个单细胞中各个检测区域的纯合SNP位点频率FlS,计算公式为F lj = + 100%,得到各个检测区域的纯合SNP位点频率矩阵;
[0041] 表1单细胞样本在各检测区域纯合SNP位点的频率
[0042]






[0051] (6)用hampel identifier法找纯合SNP位点频率Fg中的离群点,离群点所在的 检测区域,即判定该染色体臂有发生杂合性缺失;具体包括,(a)找出所有检测区域的纯合 SNP位点频率FlS的中位数M F,本例中MF= 0. 0808778,(b)计算每个纯合SNP位点频率F 与中位数MF的差值,取差值的绝对值即各纯合SNP位点的绝对中位差| F i j-MF |,得到绝对中 位差矩阵,绝对中位差详见表5至表8 ;
[0052] 表5单细胞样本在各检测区域的绝对中位差矩阵
[0054] 表6单细胞样本在各检测区域的绝对中位差矩阵



[0062] (c)找出各纯合SNP位点的绝对中位差的中位数MAD,本例中MAD = 0. 035
[0063] 按公式计算Zy = (IF^-Md) + (MAD + 0. 6745),得到一个判别矩阵,如表9至表 13所示,其中Zi/大于2. 24,为离群点,即判定该染色体臂有发生杂合性缺失。
[0064] 表9单细胞样本在各检测区域的判别矩阵
[0065]







[0076] 本例中,i表示染色体臂的编号i e 1,2,......,40 ;j表示单细胞的编号 j e 1,2, 3, 4,…22。另外,本例/大于2. 24,为离群值,说明此染色体臂发生了 L0H,记 为1 ;小于或等于2. 24即为正常,记为0 ;并且,Fi/j、于中位数M F的染色体臂,我们记为0, 最后获得L0H结果表,如表14至表17所示。使用R语言中NMF包,以热图的形式进行展示 如图1,深灰色表示此染色体臂发生杂合缺失,而浅灰色的表示正常。
[0077] 表14 L0H检测结果矩阵
[0079] 表15 L0H检测结果矩阵
[0080]

[0086] 从检测结果中可以看出来,在22个脑瘤单细胞样本中,L0H主要发生在chr4. p, chr5. q, chr9. q, chrlO. p, chrlO. q, chrll. p, chrll. q, chrl2. p, chrl7. p, chrl7. q,chrlS. p,chr21. q染色体臂上,至少出现在5个样本以上,而其他的染色体臂上没有发生 L0H或只有1个细胞在此区域发生。L0H在细胞间具有很强的异质性。
[0087] 对比例
[0088] 本例对两个脑瘤病人的6块肿瘤组织和2块正常的血组织,通过CG的常规流程进 行DNA提取和建库,然后进行全基因组测序,得到下机数据,实验中使用的试剂为CG的常规 试剂。本例使用华大基因的CG的标准分析流程进行数据处理。测序和数据处理都在华大 基因完成。
[0089] 对于此实施例中的组织测序,我们基于100kb窗口中所有检测到的变异位点,其 所有比对上的序列数目进行估计LAF (LesserAllele Fraction),LAF是CG测序分析中的一 种概念,与B等位基因频率类似,指在一个样本中等位基因中不大于50%等位基因比率,取 值范围为〇~〇. 5。对于检测出来的LAF结果,使用R语言中ggplot2包,以点图的形式进 行展示如图2,图3。LAF等于或者接近于0. 5,说明此检测区域没有发生杂合缺失,如图2 中的区域A,图3的区域D。LAF小于0. 5,并且在延伸区域LAF的值保持一致,说明此延伸 区域发生杂合缺失如图2中区域B和C,图3的区域E。
[0090] 根据单细胞L0H检测结果和组织样本中结果的对比发现,在组织样品中检测的 L0H,在22个单细胞样品中,至少有一个样本的相同区域也检测到L0H,说明我们的检测方 法和针对组织样品的CG标准分析流程的检测结果是一致的,我们的检测方法可以用来检 测L0H。同时在组织水平未能检测到的L0H的区域,在单细胞样本中却检测出来,说明本申 请的方法可以检测单细胞水平L0H的异质性。
[0091] 以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申 请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱 离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护 范围。
【主权项】
1. 一种杂合性缺失的检测方法,其特征在于:包括以下步骤, (1) 提取组织样品,分离获得单个细胞,提取单细胞的核酸,并采用全基因组扩增方法 对所提取的核酸进行扩增,建库后上机测序,得到单细胞的全基因组测序; (2) 将步骤(1)获得的全基因组测序与参考基因序列进行比对,检测单细胞的SNP,得 到单细胞全基因组上的单核苷酸多态性位点的基因型数据,并按照过滤标准对潜在的假阳 性SNP位点进行过滤,得到高质量SNP数据; (3) 下载dbSNP数据库中与组织样品对应的所有SNP位点数据,过滤掉dbSNP数据库中 在千人基因组中SNP频率低于5%的SNP位点,剩下的SNP位点作为背景SNP位点集; (4) 采用步骤(2)得到的高质量SNP数据,对于每个单细胞,以染色体臂为一个检测区 域,统计各检测区域的SNP位点与背景SNP位点集的交集,计数为,并统计纯合SNP和杂 合SNP位点,纯合SNP计数为N l j; (5) 计算每个单细胞中各个检测区域的纯合SNP位点频率,计算公式为= + 100%,得到各个检测区域的纯合SNP位点频率矩阵; (6) 用hampel identifier法找纯合SNP位点频率中的离群点,离群点所在的检测 区域,即判定该染色体臂有发生杂合性缺失; 其中,i表示染色体臂的编号,j表示单细胞的编号。2. 根据权利要求1所述的检测方法,其特征在于:所述步骤(2)中,过滤标准为,过滤 去除序列reads支持数少于6的SNP,去除SNP质量少于20的SNP,去除链特异性的SNP,去 除SNP位点的间距少于5bp的SNP。3. 根据权利要求1所述的检测方法,其特征在于:所述步骤(6)用hampel identifier 法找离群点具体包括,(a)找出所有检测区域的纯合SNP位点频率匕,的中位数M F,(b)计 算每个纯合SNP位点频率FlS与中位数M F的差值,取差值的绝对值即各纯合SNP位点的绝 对中位差I F^-Mp |,得到绝对中位差矩阵,其中染色体臂纯合率小于中位数Μ #勺判定该 染色体臂没有发生杂合性缺失,(c)找出各纯合SNP位点的绝对中位差的中位数MAD,按公 式计算Z lS' = (^焉|) + (嫩0 + 0.6745),21/大于2.24,为离群点,即判定该染色体臂有 发生杂合性缺失。4. 根据权利要求1所述的检测方法,其特征在于:所述步骤(2)中,检测单细胞的SNP 所采用的软件为GATK、samtools或SOAPsnp。5. 根据权利要求1所述的检测方法,其特征在于:所述步骤(2)中,将步骤(1)获得的 全基因组测序与参考基因序列进行比对所采用的软件为SOAP、BWA或bowtie。6. 根据权利要求1-5任一项所述的检测方法在检测人类癌症细胞的杂合性缺失中的 应用。7. 根据权利要求1-5任一项所述的检测方法在制备杂合性缺失检测试剂盒或检测设 备中的应用。
【文档编号】G06F19/22GK105986011SQ201510050352
【公开日】2016年10月5日
【申请日】2015年1月30日
【发明人】李甫强, 谢国云, 史旭莲, 王杰, 梁瀚, 侯勇, 吴逵
【申请人】深圳华大基因研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1