一种单细胞外显子测序肿瘤体细胞突变检测方法

文档序号:10607590阅读:440来源:国知局
一种单细胞外显子测序肿瘤体细胞突变检测方法
【专利摘要】本发明提供了一种单细胞外显子测序肿瘤体细胞突变检测方法,包括如下步骤,(1)计算单细胞基因组突变的假阳性率;(2)计算在单细胞样本测序中的等位基因丢失率;(3)挖掘体细胞突变,过滤体细胞突变;(4)分析单细胞间的异质性。本发明通过对单细胞突变位点假阳性率、等位基因丢失率的计算,过滤肿瘤中的体细胞突变,并分析单细胞之间的异质性,本发明根据单细胞基因组突变的假阳性情况论证测序结果的可靠性,能够检测单细胞实验技术的可靠性,能够对后续结果进行多功能分析。
【专利说明】
一种单细胞外显子测序肿瘤体细胞突变检测方法
技术领域
[0001] 本发明属于基因测序领域,尤其是涉及一种单细胞外显子测序肿瘤体细胞突变检 测方法。
【背景技术】
[0002] 在过去的基因组学研究中我们只能关注一块组织整体的基因组情况,但是成千上 万个细胞混在一起进行研究,会模糊我们对大脑、血液系统、免疫系统,及其组成这些系统 的细胞之间异质性(heterogeneity)的认识。可对于每个细胞的基因组情况的研究进展缓 慢,这是由于一个细胞里的DNA仅仅处在皮克(picograms)级的水平,这么少的量远远达不 到现有测序仪的最低上样需求。从2013年至今,多种单细胞测序扩增技术(例如:多重置换 扩增技术MDA、多重退火环状扩增循环技术MALBAC)的逐渐完善得以让我们对一个细胞的基 因组进行系统的分析。通过单细胞扩增技术结合已有的外显子测序,深入到一个肿瘤细胞 的层面进行疾病的致病变异检测,挖掘不同细胞间的关系是今后的一个热点方向。在此基 础上的体细胞突变分析算法的设计是一个非常关键的问题。
[0003] 现有的突变检测方法可以检测到所有样本中的突变位点,但是这些位点的可靠性 分析却很少针对单细胞数据进行优化。在单细胞突变位点检测中主要面对的两个问题,一 个是假阳性结果,另一个是等位基因丢失。假阳性结果是指在组织混合测序中无法检测到 的位点,在单细胞中确检测到了,这种结果可能是由于测序时的误差导致。等位基因丢失是 在单细胞扩增时只对于等位基因中的一条进行了扩增,对另一条没有扩增,从而导致一个 突变位点的纯合、杂合情况改变。根据不同数据的假阳性和等位基因丢失情况,单细胞突变 结果的筛选条件要适当变化,以确保其准确性。因此,需要设计开发一种单细胞外显子测序 肿瘤体细胞突变检测方法,根据体细胞突变结果和突变检测结果,着重分析单细胞突变位 点的假阳性、等位基因丢失率,采用针对单细胞的筛选条件过滤肿瘤中的体细胞突变。

【发明内容】

[0004] 有鉴于此,本发明旨在提出一种单细胞外显子测序肿瘤体细胞突变检测方法,以 获得高可靠性的体细胞突变,高可靠性的单细胞体细胞突变筛选需要参考假阳性、等位基 因丢失率,结合单个细胞样本的过滤结果来确定。
[0005] 为达到上述目的,本发明的技术方案是这样实现的:
[0006] -种单细胞外显子测序肿瘤体细胞突变检测方法,包括如下步骤,
[0007] (1)计算单细胞基因组突变的假阳性率;
[0008] (2)计算在单细胞样本测序中的等位基因丢失率;
[0009] (3)挖掘体细胞突变,过滤体细胞突变;
[0010] (4)分析单细胞间的异质性。
[0011] 进一步的,所述步骤(1)中,通过组织测序和单细胞测序获得在组织样本和单细胞 样本中的突变位点信息,首先定义在组织测序和单细胞测序中都发现的突变为真阳性突变 (TP mutation),在组织测序中发现但是在单细胞中没有发现的突变是假阴性突变(FN mutation),在单细胞中发现但是没有在组织测序中发现的突变是假阳性突变(FP mutation),在组织测序中没有被识别成突变的位点为真阳性突变(TN mutation),根据上 述数据计算假阳性率FPR = FP/(FP+TN)。
[0012]进一步的,所述步骤⑵中具体包括如下步骤,
[0013] (al)首先定义在组织数据中突变频率小于95%的位点是杂合性突变;
[0014] (bl)提取所有已知的普通SNP在组织中是杂合性突变的位点;
[0015] (cl)根据组织中提取的杂合性突变位点,找其对应的单细胞中是否变为纯合性突 变(突变频率大于或等于95%),并计算在单细胞中变为纯合型突变的比例,该比例即为等 位基因丢失率,等位基因丢失率越高,突变位点的可靠性越低。
[0016] 进一步的,所述步骤(3)具体包括如下步骤,
[0017] (a2)首先在肿瘤组织测序结果中短序列覆盖深度大于等于5的位置分析突变位 点,将在肿瘤样本中的突变位点频率大于等于10%的位点作为候选集合;
[0018] (b2)其次在癌旁/血液样本的测序结果中分析短序列覆盖深度大于等于5的突变 位点,在对照样本中突变位点频率小于等于5%的位点是生殖细胞突变;
[0019] (c2)通过Fisher精确性检验来判断在肿瘤样本和对照样本中突变位点的频率差 异性,差异大的位点即为体细胞突变;
[0020] (d2)根据假阳性率、等位基因丢失率确定在几个单细胞重复中出现的体细胞突变 是可靠的体细胞突变,在单细胞包个数较少的情况下,突变位点至少要在2个细胞中重复出 现。
[0021] 进一步的,所述步骤(4)中,分析每个样本中突变基因型之间的差异性,
[0022] (1)按照下式计算两两细胞间的Jaccard距离,计算公式为
[0023] 其中,A是细胞A的所有突变位点频率信息,B是细胞B的所有突变位点频率信息,根 据Jaccard距离,细胞间距离大的异质性强,反之异质性弱;
[0024] (2)对单细胞进行主成分分析,计算单细胞在第一主成分和第二主成分所组成的 平面上的位置,位置近的细胞间突变情况相似,异质性弱,反之,突变情况差异大异质性强。
[0025] 相对于现有技术,本发明所述的一种单细胞外显子测序肿瘤体细胞突变检测方法 具有以下优势:本发明通过对单细胞突变位点假阳性率、等位基因丢失率的计算,过滤肿瘤 中的体细胞突变,并分析单细胞之间的异质性。
[0026] 本发明首先根据单细胞基因组突变的假阳性情况论证测序结果的可靠性。单细胞 测序由于技术的有限性,通常都会比组织测序结果的假阳性高。我们已知整体数据的假阳 性越高,突变位点的可靠性越低,需要综合多个细胞的结果来筛选可靠的体细胞突变位点。 现有的突变检测方法可以检测到所有样本中的突变位点,但不提供假阳性情况的分析,无 法掌握数据的整体质量情况。
[0027] 其次,本发明能够检测单细胞实验技术的可靠性,在单细胞扩增时等位基因丢失 会导致突变位点的基因型(纯合、杂合)发生改变,这会导致将一些杂合性突变误判成纯合 性突变,造成对突变危害的误判。
[0028] 第三,体细胞突变在所有突变中的比例较少,在单细胞中由于每个样本的测序数 据量比组织测序要小,精筛时要通过假设检验来排除不可信的位点。并根据假阳性和等位 基因丢失率来确定在几个单细胞重复中出现的体细胞突变是可靠的体细胞突变。在单细胞 包个数较少的情况下,默认突变位点至少要在2个细胞中重复出现。
[0029] 最后对于多组织单细胞数据的进行异质性分析,本发明不仅能够筛选体细胞突 变,而是能够对后续研究分析结果进行一定的多功能分析。
【附图说明】
[0030] 构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0031] 图1为本发明实施例所述的一种单细胞外显子测序肿瘤体细胞突变检测方法的流 程图;
[0032] 图2为本发明实施例所述的不同组织样本中单细胞的假阳性率;
[0033] 图3为本发明实施例所述的不同组织样本中单细胞的等位基因丢失率;
[0034]图4为本发明实施例所述的每个样本中单细胞同义突变以及非同义突变的数目; [0035]图5为本发明实施例所述的不同组织样本中单细胞间的基因型距离分布图;
[0036] 图6为本发明实施例所述的不同组织样本中单细胞间PCA分析结果图。
【具体实施方式】
[0037] 需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相 互组合。
[0038]在本发明的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"上"、"下"、 "前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗 示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对 本发明的限制。此外,术语"第一"、"第二"等仅用于描述目的,而不能理解为指示或暗示相 对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"等的特征可 以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,"多个" 的含义是两个或两个以上。
[0039]在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语"安装"、"相 连"、"连接"应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可 以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是 两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语 在本发明中的具体含义。
[0040] 下面将参考附图并结合实施例来详细说明本发明。
[0041] 如图1所示,为本发明实施例所述的一种单细胞外显子测序肿瘤体细胞突变检测 方法的流程图。
[0042]本发明通过单细胞MDA方法扩增后的全外显子组测序数据为例,在3各肿瘤组织 (Tissuel,11881162,11881163)中分别做了组织测序和单细胞测序,并用血样作为正常对照。 外显子组测序流程处理结果统计如表4.1所示,
[0045]首先,计算单细胞数据的假阳性率,单细胞基因组突变的假阳性体现了测序可靠 性。通过组织测序和单细胞测序我们能获得在组织样本和单细胞样本中的突变位点信息。 通常,我们定义在组织测序和单细胞测序中都发现的突变为真阳性突变(TP mutation),在 组织测序中发现但是在单细胞中没有发现的突变是假阴性突变(FN mutation),在单细胞 中发现但是没有在组织测序中发现的突变是假阳性突变(FP mutation),真阴性突变则是 在组织测序中没有被识别成突变的位点(TN mutation)。根据上述四个数据可以计算假阳 性率FPR = FP/(FP+TN),在这里要强调计算时TN是组织测序中没有被识别成突变的位点,而 不是单细胞中没有被识别成突变的位点。单细胞假阳性越高,每个突变位点的可靠性越低, 需要综合多个细胞的结果来筛选可靠的体细胞突变位点。图2展示了三个肿瘤组织中单细 胞突变的假阳性比例大约在万分之二到万分之五之间,即一个单细胞的所有突变位点中有 万分之二到万分之五是假突变;
[0046]其次,计算单细胞的等位基因丢失率,等位基因丢失率体现了单细胞扩增方法的 可靠性,等位基因丢失会导致突变位点的基因型(纯合、杂合)发生改变,这会导致在后续的 分析中将一些杂合性突变误判成纯合性突变。在生物学中杂合性突变的危害程度要比纯合 性突变低。等位基因的丢失率必须通过单细胞同组织数据的比较而得到。通常定义在组织 数据中突变频率小于95 %的位点是杂合性突变,频率大于等于95 %是纯合性突变,提取所 有已知的普通SNP在组织中是杂合性突变的位点;根据组织中提取的杂合性突变位点,找其 对应的单细胞中是否变为纯合性突变(突变频率大于或等于95% ),并计算在单细胞中变为 纯合型突变的比例,该比例即为等位基因丢失率;图3展示了三个肿瘤样本中的单细胞等位 基因丢失率在20 %到60 %之间,这说明所有的单细胞纯合突变中有20 %到60 %是假纯合, 如果需要排除假纯合情况需要统计至少三个单细胞中都出现的体细胞突变位点;
[0047]再次,过滤体细胞突变位点,筛选可信度高的突变,得出每个样本的体细胞突变, 统计每个样本非同义突变个数和总个数,体细胞突变在所有突变中的比例较少,在单细胞 中由于每个样本的测序数据量比组织测序要小,精筛时要通过假设检验来排除不可信的位 点。
[0048] 条件如下:
[0049] 1.在肿瘤样本和对照样本中的测序短序列覆盖深度要大于等于5。
[0050] 2.在对照样本中的突变位点频率小于等于5%。
[0051] 3.在肿瘤样本中的突变位点频率大于等于10%。
[0052]通过Fisher精确性检验来判断在肿瘤样本和对照样本中突变位点的频率有很大 差异,并对假设检验的P值进行矫正,根据假阳性率和等位基因丢失率来确定在几个单细胞 重复中出现的体细胞突变是可靠的体细胞突变。
[0053] 每个样本中的同义突变和非同义突变比例如图4所示,可以看到每个单细胞样本 中找到的体细胞突变的比例在20个左右,其中同义突变总数要高于非同义突变;
[0054] 根据上述分析,可以看出该样本中的等位基因丢失率较高,在确定可靠的体细胞 突变时,要保证这个突变至少在3到4个单细胞中都出现。接下来根据最后确定的体细胞突 变结果,分析组织内部的细胞异质性情况,分析每个样本中突变基因型之间的差异性,计算 两两细胞间的Jaccard距离:
[0055] 其中,A是细胞A的所有突变位点频率信息,B是细胞B的所有突变位点频率信息,根 据Jaccard距离,细胞间距离大的异质性强,反之异质性弱,不同组织样本中单细胞间的基 因型距离分布如图5所示;对单细胞进行主成分分析,计算单细胞在第一主成分和第二主成 分所组成的平面上的位置,位置近的细胞间突变情况相似,异质性弱,反之,突变情况差异 大异质性强,不同组织样本中单细胞间PCA分析结果如图6所示;可以发现这三类细胞的突 变位点有很大差异。
[0056]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种单细胞外显子测序肿瘤体细胞突变检测方法,其特征在于:包括如下步骤, (1) 计算单细胞基因组突变的假阳性率; (2) 计算在单细胞样本测序中的等位基因丢失率; (3) 挖掘体细胞突变,过滤体细胞突变; (4) 分析单细胞间的异质性。2. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测方法,其特征在 于:所述步骤(1)中,通过组织测序和单细胞测序获得在组织样本和单细胞样本中的突变位 点信息,首先定义在组织测序和单细胞测序中都发现的突变为真阳性突变(TP mu化tion), 在组织测序中发现但是在单细胞中没有发现的突变是假阴性突变(FN mutation),在单细 胞中发现但是没有在组织测序中发现的突变是假阳性突变(FP mutation),在组织测序中 没有被识别成突变的位点为真阳性突变(TN mu化tion),根据上述数据计算假阳性率FPR = FP/(FP巧N),假阳性率越高,突变位点的可靠性越低。3. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测方法,其特征在 于:所述步骤(2)中具体包括如下步骤, (al)首先定义在组织数据中突变频率小于95%的位点是杂合性突变; (bl)提取所有已知的普通SNP在组织中是杂合性突变的位点; (cl)根据组织中提取的杂合性突变位点,找其对应的单细胞中是否变为纯合性突变 (突变频率大于或等于95%),并计算在单细胞中变为纯合型突变的比例,该比例即为等位 基因丢失率,等位基因丢失率越高,突变位点的可靠性越低。4. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测方法,其特征在 于:所述步骤(3)具体包括如下步骤, (a2)首先在肿瘤组织测序结果中短序列覆盖深度大于等于5的位置分析突变位点,将 在肿瘤样本中的突变位点频率大于等于10%的位点作为候选集合; (b2)其次在癌旁/血液样本的测序结果中分析短序列覆盖深度大于等于5的突变位点, 在对照样本中突变位点频率小于等于5%的位点是生殖细胞突变; (c2)通过Fisher精确性检验来判断在肿瘤样本和对照样本中突变位点的频率差异性, 差异大的位点即为体细胞突变; (d2)根据假阳性率、等位基因丢失率确定在几个单细胞重复中出现的体细胞突变是可 靠的体细胞突变,在单细胞包个数较少的情况下,突变位点至少要在2个细胞中重复出现。5. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测方法,其特征在 于:所述步骤(4)中,分析每个样本中突变基因型之间的差异性, (1) 按照下式计算两两细胞间的Jaccard距离,计算公式为W U. 6) = .1. - /(1. 6) = -^ ^ ^-- 其中,A是细胞A的所有突变位点频率信息,B是细胞B的所有突变位点频率信息,根据 Jaccard距离,细胞间距离大的异质性强,反之异质性弱; (2) 对单细胞进行主成分分析,计算单细胞在第一主成分和第二主成分所组成的平面 上的位置,位置近的细胞间突变情况相似,异质性弱,反之,突变情况差异大异质性强。
【文档编号】G06F19/22GK105969856SQ201610319414
【公开日】2016年9月28日
【申请日】2016年5月13日
【发明人】薛成海, 刘宇, 俞丽佳
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1