一种单细胞外显子测序肿瘤体细胞突变检测及分析平台的制作方法

文档序号:10607398阅读:505来源:国知局
一种单细胞外显子测序肿瘤体细胞突变检测及分析平台的制作方法
【专利摘要】本发明创造提供了一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,包括假阳性分析模块、等位基因丢失率分析模块、过滤体细胞突变模块和体细胞突变筛选模块、单细胞异质性分析模块;所述假阳性分析模块、等位基因丢失率分析模块与过滤筛选体细胞突变模块连接,所述过滤筛选体细胞突变模块与所述单细胞异质性分析模块连接。本发明通过对单细胞突变位点假阳性率、等位基因丢失率的计算,过滤肿瘤中的体细胞突变,并分析单细胞之间的异质性,本发明根据单细胞基因组突变的假阳性情况论证测序结果的可靠性,能够检测单细胞实验技术的可靠性,能够对后续结果进行多功能分析。
【专利说明】
一种单细胞外显子测序肿瘤体细胞突变检测及分析平台
技术领域
[0001] 本发明创造属于基因测序领域,尤其是涉及一种单细胞外显子测序肿瘤体细胞突 变检测及分析平台。
【背景技术】
[0002] 在过去的基因组学研究中我们只能关注一块组织整体的基因组情况,但是成千上 万个细胞混在一起进行研究,会模糊我们对大脑、血液系统、免疫系统,及其组成这些系统 的细胞之间异质性(heterogeneity)的认识。可对于每个细胞的基因组情况的研究进展缓 慢,这是由于一个细胞里的DNA仅仅处在皮克(picograms)级的水平,这么少的量远远达不 到现有测序仪的最低上样需求。从2013年至今,多种单细胞测序扩增技术(例如:多重置换 扩增技术MDA、多重退火环状扩增循环技术MALBAC)的逐渐完善得以让我们对一个细胞的基 因组进行系统的分析。通过单细胞扩增技术结合已有的外显子测序,深入到一个肿瘤细胞 的层面进行疾病的致病变异检测,挖掘不同细胞间的关系是今后的一个热点方向。在此基 础上的体细胞突变分析的设计是一个非常关键的问题。
[0003] 现有的突变检测系统可以检测到所有样本中的突变位点,但是这些位点的可靠性 分析却很少针对单细胞数据进行优化。在单细胞突变位点检测中主要面对的两个问题,一 个是假阳性结果,另一个是等位基因丢失。假阳性结果是指在组织混合测序中无法检测到 的位点,在单细胞中确检测到了,这种结果可能是由于测序时的误差导致。等位基因丢失是 在单细胞扩增时只对于等位基因中的一条进行了扩增,对另一条没有扩增,从而导致一个 突变位点的纯合、杂合情况改变。根据不同数据的假阳性和等位基因丢失情况,单细胞突变 结果的筛选条件要适当变化,以确保其准确性。为此,我们设计开发了单细胞外显子测序肿 瘤体细胞突变检测平台,根据MuTect提供的体细胞突变结果和GATK的突变检测结果,着重 分析单细胞突变位点的假阳性、等位基因丢失率,采用针对单细胞的筛选条件过滤肿瘤中 的体细胞突变。

【发明内容】

[0004] 有鉴于此,本发明创造旨在提出一种单细胞外显子测序肿瘤体细胞突变检测及分 析平台,以实现获得高可靠性的体细胞突变。
[0005]为达到上述目的,本发明创造的技术方案是这样实现的:
[0006] -种单细胞外显子测序肿瘤体细胞突变检测及分析平台,包括
[0007] 假阳性分析模块,用于计算单细胞基因组突变的假阳性率,单细胞假阳性越高,突 变位点的可靠性越低;
[0008] 等位基因丢失率分析模块,用于计算单细胞基因组突变的等位基因丢失率,等位 基因丢失率越尚,突变位点的可靠性越低;
[0009] 过滤筛选体细胞突变模块,用于过滤肿瘤中的体细胞突变,并根据假阳性率、等位 基因丢失率筛选可信度高的体细胞突变;
[0010] 单细胞异质性分析模块,用于分析单细胞的组内异质性;
[0011] 所述假阳性分析模块、等位基因丢失率分析模块与过滤筛选体细胞突变模块连 接,所述过滤筛选体细胞突变模块与所述单细胞异质性分析模块连接。
[0012] 进一步的,所述等位基因丢失率分析模块包括杂合性突变位点检测模块、纯合性 突变位点检测模块。
[0013] 进一步的,所述过滤筛选体细胞突变模块包括条件判断模块、Fisher精确性检验 丰旲块。
[0014] 进一步的,所述单细胞异质性分析模块包括雅克比距离计算模块、主成分分析模 块。
[0015]相对于现有技术,本发明创造所述的一种单细胞外显子测序肿瘤体细胞突变检测 及分析平台具有以下优势:本发明创造首先根据单细胞基因组突变的假阳性情况论证测序 结果的可靠性。单细胞测序由于技术的有限性,通常都会比组织测序结果的假阳性高。我们 已知整体数据的假阳性越高,突变位点的可靠性越低,需要综合多个细胞的结果来筛选可 靠的体细胞突变位点。现有的突变检测平台可以检测到所有样本中的突变位点,但不提供 假阳性情况的分析,无法掌握数据的整体质量情况。
[0016] 其次,本发明能够检测单细胞实验技术的可靠性,在单细胞扩增时等位基因丢失 会导致突变位点的基因型(纯合、杂合)发生改变,这会导致将一些杂合性突变误判成纯合 性突变,造成对突变危害的误判。
[0017] 第三,体细胞突变在所有突变中的比例较少,在单细胞中由于每个样本的测序数 据量比组织测序要小,精筛时要通过假设检验来排除不可信的位点。并根据假阳性和等位 基因丢失率来确定在几个单细胞重复中出现的体细胞突变是可靠的体细胞突变。在单细胞 包个数较少的情况下,默认突变位点至少要在2个细胞中重复出现。
[0018] 最后对于多组织单细胞数据的进行异质性分析,本发明不仅能够筛选体细胞突 变,而是能够对后续研究分析结果进行一定的多功能分析。
【附图说明】
[0019] 构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解,本发明创 造的示意性实施例及其说明用于解释本发明创造,并不构成对本发明创造的不当限定。在 附图中:
[0020] 图1为本发明创造实施例所述的一种单细胞外显子测序肿瘤体细胞突变检测及分 析平台的结构示意图;
[0021] 图2为本发明实施例所述的不同组织样本中单细胞的假阳性率;
[0022] 图3为本发明实施例所述的不同组织样本中单细胞的等位基因丢失率;
[0023]图4为本发明实施例所述的每个样本中单细胞同义突变以及非同义突变的数目; [0024]图5为本发明实施例所述的不同组织样本中单细胞间的基因型距离分布图;
[0025] 图6为本发明实施例所述的不同组织样本中单细胞间PCA分析结果图。
【具体实施方式】
[0026] 需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可 以相互组合。
[0027] 在本发明创造的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"上"、"下"、 "前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示 或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解 为对本发明创造的限制。此外,术语"第一"、"第二"等仅用于描述目的,而不能理解为指示 或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"等 的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另 有说明,"多个"的含义是两个或两个以上。
[0028] 在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语"安 装"、"相连"、"连接"应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地 连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连, 可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上 述术语在本发明创造中的具体含义。
[0029] 下面将参考附图并结合实施例来详细说明本发明创造。
[0030] 如图1所示,一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,包括
[0031] 假阳性分析模块,用于计算单细胞基因组突变的假阳性率,首先定义在组织测序 和单细胞测序中都发现的突变为真阳性突变(TP mutation),在组织测序中发现但是在单 细胞中没有发现的突变是假阴性突变(FN mutation),在单细胞中发现但是没有在组织测 序中发现的突变是假阳性突变(FP mutation),在组织测序中没有被识别成突变的位点为 真阳性突变(TN mutation),根据上述数据计算假阳性率FPR = FP/(FP+TN)单细胞假阳性越 高,突变位点的可靠性越低;
[0032]假阳性分析模块对应的程序为:
[0033] FDR_calculator .R:过滤GATK输出的变异vcf提取readsdepth信息,计算单细胞数 据的假阳性,输出每个分组中的假阳性比例,以及pdf格式图片;H)R_Cal cu lator. R用来对 样本突变进行假阳性分析,该模块包含四个函数:
[0034] 1 .GATK_filter 用于过滤 vcf 文件:
[0035] 函数中共有4个参数:
[0036] (1).path用来指定输出输出文件的路径,在本软件所有函数中,输入和输出文件 都在同个路径下。
[0037] (2) · input_extension用来指定输入文件的后缀,以免读取路径下的所有文件时 出错。
[0038] (3) .output_extension用来指定输出文件后缀。
[0039] 该函数根据vcf文件中的AD,DP标签计算位点突变频率并输出每个文件的结果。
[0040] 输入文件表头如下所示:
[0042]输出文件表头如下所示:
[0044] 2.calculate_fn_fp用于统计单细胞中假阳和假阴结果:
[0045] 函数中共有5个参数:
[0046] (1) .array用来指定样本分组名称。
[0047] (2) · input_extension用来指定输入文件的后缀。
[0048] (3) .output_filename用来指定输出文件名称。此函数将所有统计样本的结果列 表输出到一个文件中。
[0049] (4).bulkfile_flag用来识别输入文件名中的组织测序结果,是区别组织测序的 样本和单细胞测序的样本名的关键词。
[0050] (5) .path用来指定输出输出文件的路径。
[0051]此函数会根据肿瘤数据和对照数据,计算并输出每个样本中突变的假阳性和假阴 性数目。
[0052] 3 · get_bulk_readsdetph用于统计组织数据所有位点:
[0053] 函数中共有4个参数:
[0054] (1). input_extension用来指定输入文件的后缀。输入文件为组织测序的位点深 度统计结果。
[0055] (2) .output_filename用来指定输出文件名称。此函数将所有统计样本的结果列 表输出到一个文件中。
[0056] (3).bulkfile_flag用来识别输入文件名中的组织测序结果,是区别组织测序的 样本和单细胞测序的样本名的关键词。
[0057] (4) .path用来指定输出输出文件的路径。
[0058]此函数会根据组织测序的位点深度统计结果结算覆盖深度达到5X以上的位点总 个数。
[0059] 4.FDR用于计算假阳率并画图:
[0060] 函数中共有3个参数:
[0061 ] (1) .bulk_data用来指定get_bulk_readsdetph函数中输出文件的名称。
[0062] (2) .fnfp_data用来指定calculate_fn_fp函数中输出文件的名称。
[0063] (3) .figure用来指定输出图像的名称。
[0064] 本函数会根据上面步骤的数据结果计算每个单细胞样本的假阳性。
[0065] 等位基因丢失率分析模块,用于计算单细胞基因组突变的等位基因丢失率,等位 基因丢失率越高,突变位点的可靠性越低;所述等位基因丢失率分析模块包括杂合性突变 位点检测模块、纯合性突变位点检测模块,首先定义在组织数据中突变频率小于95%的位 点是杂合性突变,通过杂合性突变位点检测模块提取的杂合性突变位点,并通过纯合性突 变位点检测模块找其对应的单细胞中是否变为纯合性突变(突变频率大于或等于95% ),并 计算在单细胞中变为纯合型突变的比例,该比例即为等位基因丢失率,等位基因丢失率越 高,突变位点的可靠性越低。
[0066]等位基因丢失率分析模块对应的程序为:
[0067] AD0_calculator .R:根据GATK输出SNV数据结果,统计在单细胞样本测序中的等位 基因丢失情况,输出每个分组的等位基因丢失比例。
[0068] ADO_calculator.R用于统计单细胞样本中的等位基因丢失情况,该模块包含一个 函数calculate_ado。函数中一共包含5个输入参数:
[0069] (1) .path用来指定输出输出文件的路径。
[0070] (2) · input_extension用来指定输入文件的后缀,以免读取路径下的所有文件时 出错。输入文件是每个单细胞样本中在组织测序中出现的位点的突变情况。
[0071 ] (3) .output_extension用来指定输出文件后缀。
[0072] (4).readSdepth用于指定短序列覆盖深度,设置不同的短序列覆盖深度,统计的 位点会有差异。
[0073] (5) .figure用来指定输出图像的名称。
[0074]本函数会输出每个单细胞样本的等为基因丢失比例到文件中,并对所有样本的结 果根据组别绘制直方图展示。
[0075]输入数据表头如下所示:
[0077]输出文件如下所示:
[0079]过滤筛选体细胞突变模块,用于过滤筛选肿瘤中的体细胞突变;所述过滤筛选体 细胞突变模块包括条件判断、Fisher精确性检验,根据假阳性率、等位基因丢失率筛选可信 度高的体细胞突变。细胞突变在所有突变中的比例较少,在单细胞中由于每个样本的测序 数据量比组织测序要小,精筛时要通过假设检验来排除不可信的位点。
[0080] 条件如下:
[0081] 1.在肿瘤样本和对照样本中的测序短序列覆盖深度要大于等于5。
[0082] 2.在对照样本中的突变位点频率小于等于5%。
[0083] 3.在肿瘤样本中的突变位点频率大于等于10%。
[0084] 4.通过Fisher精确性检验模块来判断在肿瘤样本和对照样本中突变位点的频率 有的差异性,并对假设检验的P值进行矫正。
[0085]体细胞突变过滤筛选模块对应的程序为:
[0086] Somatic_f i Iter · R:过滤MuTect输出的vcf文件中的突变位点,筛选可信度高的突 变,程序输出每个样本的体细胞突变,统计每个样本非同义突变个数和总个数。
[0087] Somatic_filter .R函数根据上游软件MuTect提供的候选体细胞突变列表,对每个 样本中的体细胞突变进行筛选。此模块一共包含五个函数:
[0088] 1. fish用于计算Fisher精确性检验,此函数只有一个输入参数即整理好的体细胞 突变信息,函数计算并返回每个体细胞突变Fisher精确性检验的P值。该函数为内部调用函 数。
[0089] 2 .extract_somatic用于从MuTect输出的vcf文件中过滤符合条件的体细胞突变:
[0090] 函数中共有5个参数:
[0091] (1) .path用来指定输出输出文件的路径。
[0092] (2) · input_extension用来指定输入文件的后缀。输入文件是上游软件MuTect输 出的vcf文件。
[0093] (3) .output_extension用来指定输出文件后缀。此函数输出所有符合条件的体细 胞突变位点。
[0094] (4) .bulkfile_flag用来识别输入文件名中的组织测序结果。
[0095] (5) .min_readsdepth用来指定输出图像的名称。
[0096]该函数通过我们自己定义的严格条件(具体参见3.方法原理部分的描述)来筛选 每个输入样本的体细胞突变位点,并统计每个样本的突变总数到somatic, list文件中。 [0097]输入文件表头如下所示:
[0099]输出文件表头包含以下内容:
[0100] Chr ,pos,name,ref,alt,type,V7,V8, normal·GT,normal·DP,normal·AD, normal·FREQ,cancer·GT,cancer·DP,cancer·AD,cancer·FREQ,p·value,fdr [0101 ] 3.nonsynonymous用于过滤非同义突变:
[0102] 函数中包含2个参数:
[0103] (1) .path用来指定输出输出文件的路径。
[0104] (2) · input_extension用来指定输入文件的后缀。输入文件是上游软件Annovar注 释信息文件。
[0105] 此函数统计并过滤所有样本的非同义突变,返回非同义突变位点。此函数为内部 调用函数。
[0106] 注释信息文件表头包含以下内容:
[0107] Chr,Start,End,Ref,Alt,phastConsElements46way, Func.refGeneGene.refGene?GeneDetail.refGene?ExonicFunc.refGene ? AAChange.refGene,cytoBand,genomicSuperDups,esp6500siv2_all,1000g20Hoct_all, snp138,SIFT-score,SIFT-pred,Polyphen2-HDIV-score,Polyphen2-HDIV-pred, Polyphen2_HVAR-score,Polyphen2_HVAR-pred,LRT_score,LRT_pred,MutationTaster_ score,MutationTaster_pred,MutationAssessor_score,MutationAssessor_pred, FATHMM-score,FATHMM-pred,RadialSVM-score,RadialSVM-pred,LR-score,LR-pred, VEST3-score,CADD-raw,CADD-phred,GERP++-RS,phyloP46way-placental,phyloP100way- vertebrate ? SiPhy_29way_log0dds
[0108] 4.extract_nonsynonymous用于在体细胞突变中标注非同义属性:
[0109] 此函数中共有2个参数:
[0110] (1).path用来指定输出输出文件的路径。
[0111 ] (2) · input_extension用来指定输入文件的后缀。输入文件是extract_somatic函 数中输出的体细胞突变。
[0112] 此函数根据上游函数extract_somatic和nonsynonymous的结果,来标注体细胞突 变中的非同义突变。输出结果后缀是固定后缀somatic, list.nonsynonymous。
[0113] 5.pl〇t_S〇matic根据统计的非同义突变和总体细胞突变个数绘图:
[0114]函数中共有2个参数:
[0115] (1) .path用来指定输出输出文件的路径。
[0116] (2) .figure用来指定输出图像的名称。
[0117] 单细胞异质性分析模块,用于分析单细胞的组内异质性;所述单细胞异质性分析 模块包括雅克比距离计算模块、主成分分析模块,通过雅克比距离计算模块及时两两细胞 间的雅克比距离,细胞间距离大的异质性强,反之异质性弱;通过主成分分析模块计算单细 胞在第一主成分和第二主成分所组成的平面上的位置,位置近的细胞间突变情况相似,异 质性弱,反之,突变情况差异大异质性强。
[0118] 单细胞异质性分析模块对应的程序为:
[0119] cellular_heterozygosity_analysis .R:针对前一步结果,分析单细胞的组内异 质性,输出单细胞组内距离提琴图,以及单细胞在主成分分析中第一主成分和第二主成分 所组成的平面上的位置。
[0120] cellular_heterozygosity_analysis · R函数分析每个样本中突变基因型之间的 差异性,并绘制组内细胞间距离分布图和主成分分析图。此模块包含两个函数:
[0121 ] 1 .extract_allSNV用于计算所有样本的基因型结果:
[0122] 此函数包含四个参数:
[0123] (1) .array用来指定样本分组名称。
[0124] (2) · input_extension用来指定输入文件的后缀。
[0125] (3) .output_filename用来指定输出文件名称。
[0126] (4) .path用来指定输出输出文件的路径。
[0127]本函数根据输入的已筛选好的突变位点文件计算基因型,其中突变频率小于95% 的为杂合突变,突变频率大于等于95 %的为纯合突变。
[0128] 2. heter用于分析组内异质性,计算细胞间的Jaccard距离和主成分分析:
[0129]此函数共有三个参数:
[0130] (1) .array用来指定样本分组名称。
[0131 ] (2) · input_extension用来指定输入文件的后缀。输入文件是上游函数extract_ allSNV的输出结果。
[0132] (3) .path用来指定输出输出文件的路径。
[0133] 本函数根据上游文件的输出结果来计算细胞间距离并绘制图像。
[0134] 实际应用举例
[0135] 通过单细胞MDA方法扩增后的全外显子组测序数据为例,展示软件分析结果。该数 据是在3个肿瘤组织(TiSSu el,TiSSue2,TiSSue3)中分别做了组织测序和单细胞测序,并用 血样作为正常对照。外显子组测序流程处理结果统计如下表所示。经过GATK和MuTect分析 的突变结果文件各43个,其中单细胞文件40个(Tissuel中15个,Tissue2中15个,Tissue3中 1〇个),组织测序3个。
[0136]
[0137] 测序流程处理结果共包含43个文件,依次运行FDR_calculator .R,AD0_ calculator·R,Somatic_filter .R和cellular_heterozygosity_analysis ·R,艮P可得到如 下结果。
[0138] (1)单细胞突变的假阳性,图2展示了三个肿瘤组织中单细胞突变的假阳性比例大 约在万分之二到万分之五之间。也就是说一个单细胞的所有突变位点中有万分之二到万分 之五是假突变。
[0139] (2)单细胞的等位基因丢失率,图3展示了三个肿瘤样本中的单细胞等位基因丢失 率在20%到60%之间,这说明所有的单细胞纯合突变中有20%到60%是假纯合。如果需要 排除假纯合情况需要统计至少三个单细胞中都出现的体细胞突变位点,在三个细胞都出现 的体细胞突变位点中,假纯合的情况降到了〇. 8%到21.6%。
[0140] (3)每个样本中的同义突变和非同义突变比例。从图4中可以看到每个单细胞样本 中找到的体细胞突变的比例在20个左右,其中同义突变总数要高于非同义突变。
[0141] (4)根据上述三步分析,可以看出该样本中的等位基因丢失率较高,在确定可靠的 体细胞突变时,要保证这个突变至少在3到4个单细胞中都出现。那么接下来根据最后确定 的体细胞突变结果,本软件可以分析组织内部的细胞异质性情况。图5是组织内部两两细胞 间基因型距离分布情况。图6是细胞间基因型的组成分析结果,可以发现这三类细胞的突变 位点有很大差异。
[0142] 以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本 发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造 的保护范围之内。
【主权项】
1. 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其特征在于:包括 假阳性分析模块,用于计算单细胞基因组突变的假阳性率,单细胞假阳性越高,突变位 点的可靠性越低; 等位基因丢失率分析模块,用于计算单细胞基因组突变的等位基因丢失率,等位基因 丢失率越高,突变位点的可靠性越低; 过滤筛选体细胞突变模块,用于过滤筛选肿瘤中的体细胞突变,并根据假阳性率、等位 基因丢失率筛选可信度高的体细胞突变; 单细胞异质性分析模块,用于分析单细胞的组内异质性; 所述假阳性分析模块、等位基因丢失率分析模块与过滤筛选体细胞突变模块连接,所 述过滤筛选体细胞突变模块与所述单细胞异质性分析模块连接。2. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其 特征在于:所述等位基因丢失率分析模块包括杂合性突变位点检测模块、纯合性突变位点 检测模块。3. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其 特征在于:所述过滤筛选体细胞突变模块包括条件判断模块、Fisher精确性检验模块。4. 根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其 特征在于:所述单细胞异质性分析模块包括雅克比距离计算模块、主成分分析模块。
【文档编号】G06F19/18GK105969656SQ201610319411
【公开日】2016年9月28日
【申请日】2016年5月13日
【发明人】薛成海, 李阳, 张广发
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1