基于二代测序的肿瘤新生抗原检测方法、装置和存储介质与流程

文档序号:15937094发布日期:2018-11-14 02:33阅读:2685来源:国知局

本申请涉及肿瘤新生抗原检测领域,特别是涉及一种基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。

背景技术

肿瘤特异性抗原(tumor-specificantigens,缩写tsas)是指肿瘤细胞所特有的抗原,又称新生抗原(neoantigens)。肿瘤特异性抗原被提出于上世纪前半叶,之后随着分子生物学发展及对主要组织相容性复合体(majorhistocompatibilitycomplex,缩写mhc)分子功能的深入认识,boon等人首先发现在肿瘤中,有肿瘤产生的特异性肽段与mhc分子复合物可以被cd8+或者是cd4+等t细胞识别。随后的研究认识到这些能被t细胞识别的抗原来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo-epitopes),被定义为新生抗原(neoantigens)。与肿瘤相关性抗原不同,肿瘤特异性抗原只存在于肿瘤细胞中。

最近免疫检查点抑制治疗已经在临床中取得巨大的成功,尤其是对突变负荷比较高的肿瘤患者。因为肿瘤的突变负荷高,表达出来的肿瘤新生抗原就比较多,从而容易引起体内t细胞识别并且杀伤肿瘤细胞。因此肿瘤新生抗原的数量和质量影响着免疫治疗的第一步,起了关键性的作用。2013年,肿瘤免疫治疗被science评为十大科技进展之首,以rosenberg、schreiber等为首的科学家引领了肿瘤新生抗原的研究热潮。2014年5月,rosenberg团队在《science》杂志报道过一个划时代的成功案例:利用体外扩增的、能特异性识别癌细胞基因突变导致的异常蛋白的淋巴细胞,成功治疗了一例极度恶性的晚期胆管癌患者。2016年末,rosenberg团队筛选出了靶向kras基因g12d突变后的肿瘤新生抗原的til细胞,扩增回输后使得肿瘤消退,文章发表在顶级医学杂志《nejm》。2017年,catherinej.wu和ugursahin同时发表《nature》报道基于肿瘤新生抗原的个性化肿瘤疫苗通过早期临床试验。可见,肿瘤新生抗原的检测对免疫治疗具有重要意义。

目前已公布的肿瘤新生抗原的预测流程主要包括epitoolkit和epi-seq。但是,epitoolkit只是从突变出发,并没有考虑测序数据的深度和覆盖度,没有从数据质量上考虑突变的质量情况,从而无法判断所获得的新生抗原的质量。此外,epitoolkit没有考虑表达丰度,没有考虑新生抗原的表达情况,会造成预测假阳性,无法筛选高质量新生抗原。很多dna层面的突变是不表达的,平均可能有50%的突变是不表达的,因此可能造成预测新生抗原的假阳性。而且突变的表达有高有低,表达越高,总体上产生的免疫原性越强。另外,epitoolkit也没有考虑突变肽和正常肽的比较,高质量的新生抗原一般是突变肽的亲和力比正常肽的亲和力要高,而epitoolkit缺乏这样的比较,也会造成高质量新生抗原的筛选有假阳性。

epi-seq只是从肿瘤的表达数据出发预测肿瘤特异性抗原,从表达数据预测新生抗原,同样会造成假阳性。一方面,受rna编辑的影响,容易造成假阳性;另一方面,因为rna测序是从cdna反转录后再测序的,这个过程也会引入很大的假阳性;再一方面,就是tumorcdnavsgermlinedna在检测方法上会有很多的假阳性。以上因素导致epi-seq获得的新生抗原存在较多的假阳性。

因此,目前还没有能够直接从测序比对结果出发,从多个角度筛选高质量的肿瘤新生抗原的方法和流程。



技术实现要素:

本申请的目的是提供一种新的基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。

为了实现上述目的,本申请采用了以下技术方案:

本申请的第一方面公开了一种基于二代测序的肿瘤新生抗原检测方法,该方法包括以下步骤,

变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;其中,两种突变检测软件检出的交集是指两种突变检测软件都同时有检测到的突变,本申请的一种实现方式中,具体采用了varscan和mutect两款软件检测点突变和插入缺失突变,并采用star-fusion检测融合基因突变;

mhc分子鉴定步骤,包括分别采用hla分子类型检测软件polysolver和bwamem对正常样本和肿瘤样本的hla分子类型进行检测,如果polysolver检测的肿瘤样本的hla分子和正常样本匹配,则作为hla分子亚型结果输出;如果不匹配,则检查bwamem检测的肿瘤样本的hla分子和正常样本的匹配情况,如果匹配则将bwamem的hla分子亚型检测结果输出,如果仍然不匹配,则输出空的结果,表明无法判断hla的分子亚型;

变异注释步骤,包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;本申请的一种实现方式中,具体采用vep(varianteffectprediction)进行注释;

突变肽段预测步骤,包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;本申请的一种实现方式中,具体采用transvar工具进行基因组突变肽段的预测;

突变肽段mhci型和mhcii型亲和力预测步骤,包括将mhc分子鉴定步骤得到的肿瘤样本的hla(人类淋巴细胞抗原humanlymphocyteantigen,缩写hla)分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为mhci型和mhcii型亲和力预测软件的输入,分别预测突变肽段与mhci型和mhcii型基因的亲和力水平,将预测的亲和力水平小于500nm的作为候选肿瘤新生抗原;本申请的一种实现方式中,亲和力预测软件具体采用了netmhcpan和netmhciipan,500nm是一个常规的判定值;

抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;本申请的一种实现方式中,具体采用rsem软件计算突变肽段的tpm值作为新抗原表达丰度;

克隆性分析步骤,包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;本申请的一种实现方式中,具体采用pyclone计算抗原所在的突变的克隆性,并输出新生抗原的克隆的概率和亚克隆的概率,即突变的克隆的概率和亚克隆的概率;

候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;

公式一:score(m)=epitopecontent(m)×expressionlevel(m)×clonallevel(m)

公式一中,score(m)为突变预测肽段m的总分值,epitopecontent(m)表示新生抗原m所对应的所有具有mhc亲和力的抗原肽段p的打分值的总和;expressionlevel(m)表示新生抗原m的抗原表达丰度;clonallevel(m)表示新生抗原m的克隆性。

可以理解,本申请对所有候选肿瘤新生抗原进行综合打分排序,分数越高的新生抗原,其质量越高,将高分值的新生抗原作为细胞或疫苗治疗的靶点效果越好,因此,在选择应用时按照分值由高到低,优先选择高分值的新生抗原。

需要说明的是,本申请的肿瘤新生抗原检测方法,直接从二代测序的比对结果出发,检测突变和mhc类型,并从抗原表达丰度、克隆性和mhc亲和力等多个角度对候选肿瘤新生抗原进行打分,从而筛选出高质量的肿瘤新生抗原。因此,本申请的肿瘤新生抗原检测方法具有以下优势:1)可进行多种变异肽段的筛选,包括:错义突变,剪切位点突变,移码突变,非移码插入缺失,融合基因;2)能够检测新抗原的克隆性;3)可同时预测肽段与mhci和mhcii的亲和力,并利用多种算法优化亲和力预测结果;4)针对预测出来的肽段会进行假阳性过滤,包括wildtype,同源性过滤等多种参数;5)根据亲和力、表达和克隆性等对新生抗原进行打分排序,筛选出高质量的新生抗原。

优选的,本申请的肿瘤新生抗原检测方法中,公式一的epitopecontent(m)由公式二计算获得,

公式二:

公式二中,epitopescore(p[i:i+k]表示每一条突变预测肽段,以突变氨基酸为中心,前后延伸k个氨基酸的抗原肽段p,与每一种mhc的亲和力的总和;i表示在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽的序号,该序号从0开始;|p|代表以突变氨基酸为中心,前后延伸k个氨基酸的肽段长度;|p|-k代表在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽序号的上限,即跨过突变的所有抗原肽数目的总和;其中,i型mhc的抗原肽中k的长度为8、9、10或11,ii型mhc抗原肽中k的长度为15;

优选的,epitopescore(p[i:i+k]由公式三计算获得,

公式三:epitopescore(e)=∑a∈hlaσ(bindingaffinity(e,a))×selffilter(e,a)

公式三中,epitopescore(e)即epitopescore(p[i:i+k]值,∑a∈hlaσ(bindingaffinity(e,a))表示每一条核心肽段肽段e和所有mhc亚型a的亲和力的总和,σ(bindingaffinity(e,a))由公式四计算获得,selffilter(e,a)是指抗原肽段的同源性;

公式四:

公式四中,σ(s)即σ(bindingaffinity(e,a)),e是自然底数,s是亲和力预测软件给出的核心肽段肽段e与a亚型的mhc的亲和力值;

selffilter(e,a)按以下方法取值,抗原肽e,针对mhc的a亚型的同源肽段的情况,如果在正常人类基因组上找到相似的肽段,selffilter(e,a)值为0,其它情况为1。

优选的,本申请的肿瘤新生抗原检测方法中,公式一的expressionlevel(m)按以下方法取值,如果突变预测肽段m的抗原表达水平低于10-3,则expressionlevel(m)=0;如果突变预测肽段m的抗原表达水平不低于10-3,则expressionlevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。其中,抗原表达水平低于10-3,则定义为非表达,因此取值为0,抗原表达水平即抗原表达丰度计算软件检测的抗原表达丰度;

优选的,本申请的肿瘤新生抗原检测方法中,公式一的clonallevel(m)由公式五计算获得,

公式五:clonallevel(m)=p(clonal)×(1-p(subclonal))

公式五中,p(clonal)为突变克隆性分析软件输出的新生抗原克隆的概率,p(subclonal)为突变克隆性分析软件输出的新生抗原的亚克隆的概率。

优选的,抗原表达丰度检测步骤中,抗原表达丰度计算软件为rsem软件,以rsem软件计算的突变预测肽段的tpm值作为抗原表达丰度。

本申请中,新生抗原m表示一个突变来源的新生抗原,而一个突变可以产生很多的抗原肽段p,因此,本申请的公式就是把所有具有抗原能力的抗原肽段p的分值累加起来,做为这个突变成为新生抗原的总的分值。每一个突变按跟不同的mhc亚型分,可以有多种,人类个体中,现在最多能预测8种;按不同的跟mhc结合的肽段长度k来看,可以用5种长度的抗原肽段;因此在公式二中有多个的求和符号。突变肽是指一开始预测的突变能够产生的肽段,即突变预测肽段;抗原肽段p是指从突变肽中挑选出来的有能够被mhc识别的固定长度的所有潜在的肽段;核心肽段肽段e是指经过亲和力预测软件预测后,从所有潜在的抗原肽段p中预测出来的有免疫原性的肽段,即亲和力小于500nm的抗原肽段p。

本申请的第二方面公开了一种基于二代测序的肿瘤新生抗原检测装置,包括,

变异检测模块,用于采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,并取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;

mhc分子鉴定模块,用于分别采用hla分子类型检测软件polysolver和bwamem对正常样本和肿瘤样本的hla分子类型进行检测,如果polysolver检测的肿瘤样本的hla分子和正常样本匹配,则作为结果输出;如果不匹配,则检查bwamem检测的肿瘤样本的hla分子和正常样本的匹配情况,如果匹配则将bwamem的检测结果输出,如果仍然不匹配,则输出空的结果;

变异注释模块,用于对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;

突变肽段预测模块,用于对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;

突变肽段mhci型和mhcii型亲和力预测模块,用于将mhc分子鉴定步骤得到的肿瘤样本的hla分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为mhci型和mhcii型亲和力预测软件的输入,分别预测突变肽段与mhci型和mhcii型基因的亲和力水平,将预测的亲和力水平小于500nm的作为候选肿瘤新生抗原;

抗原表达丰度检测模块,用于采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;

克隆性分析模块,用于采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;

候选肿瘤新生抗原综合打分排序模块,用于按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;

公式一:score(m)=epitopecontent(m)×expressionlevel(m)×clonallevel(m)

公式一中,score(m)为突变预测肽段m的总分值,epitopecontent(m)表示新生抗原m所对应的所有具有mhc亲和力的抗原肽段p的打分值的总和;expressionlevel(m)表示新生抗原m的抗原表达丰度;clonallevel(m)表示新生抗原m的克隆性。

优选的,本申请的肿瘤新生抗原检测装置中,公式一的epitopecontent(m)、expressionlevel(m)和clonallevel(m)按照本申请的肿瘤新生抗原检测方法进行计算。

本申请的第三方面公开了一种基于二代测序的肿瘤新生抗原检测装置,包括:

存储器,用于存储程序;

处理器,用于通过执行存储器存储的程序以实现本申请的肿瘤新生抗原检测方法。

本申请的第四方面公开了一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现本申请的肿瘤新生抗原检测方法。

由于采用以上技术方案,本申请的有益效果在于:

本申请的肿瘤新生抗原检测方法,直接以二代测序的比对文件为基础进行突变和mhc检测,并且从mhci/ii型亲和力、抗原表达丰度、克隆性三个维度对候选肿瘤新生抗原进行打分,不仅可以降低新生抗原筛选的假阳性,而且可以把免疫原性更高的新生抗原通过打分排序筛选出来,从而筛选出高质量的肿瘤新生抗原,为基于肿瘤新生抗原的免疫治疗奠定了基础。

附图说明

图1是本申请实施例中基于二代测序的肿瘤新生抗原检测方法的流程框图;

图2是本申请实施例中基于二代测序的肿瘤新生抗原检测装置的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

如图1所示,本申请的基于二代测序的肿瘤新生抗原检测方法包括以下步骤,

(1)变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变。

其中,两种突变检测软件检出的交集是指两种突变检测软件都同时有检测到的突变,在一些实施例中,具体采用了varscan和mutect两款软件检测点突变和插入缺失突变;并采用star-fusion检测融合基因突变,即应用star-fusion对比对的rnabam格式文件进行融合基因检测。

(2)mhc分子鉴定步骤,包括分别采用hla分子类型检测软件polysolver和bwamem对正常样本和肿瘤样本的hla分子类型进行检测,如果polysolver检测的肿瘤样本的hla分子和正常样本匹配,则作为结果输出;如果不匹配,则检查bwamem检测的肿瘤样本的hla分子和正常样本的匹配情况,如果匹配则将bwamem的检测结果输出,如果仍然不匹配,则输出空的结果。

(3)变异注释步骤,包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释。

在一些实施例中,具体采用vep(varianteffectprediction)进行注释。

(4)突变肽段预测步骤,包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段。

在一些实施例中,具体采用transvar工具进行基因组突变肽段的预测。

(5)突变肽段mhci型和mhcii型亲和力预测步骤,包括将mhc分子鉴定步骤得到的肿瘤样本的hla分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为mhci型和mhcii型亲和力预测软件的输入,分别预测突变肽段与mhci型和mhcii型基因的亲和力水平,将预测的亲和力水平小于500nm的作为候选肿瘤新生抗原。

在一些实施例中,采用netmhcpan和netmhciipan分别预测与mhci型和mhcii型基因的亲和力水平。

(6)抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度。

在一些实施例中,具体采用rsem软件计算突变肽段的tpm值作为新抗原表达丰度。

(7)克隆性分析步骤,包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征。

在一些实施例中,具体采用pyclone计算抗原所在的突变的克隆性,并输出新生抗原的克隆的概率和亚克隆的概率,即各突变的克隆的概率和亚克隆的概率。

(8)候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;

公式一:score(m)=epitopecontent(m)×expressionlevel(m)×clonallevel(m)

公式一中,score(m)为突变预测肽段m的总分值,epitopecontent(m)表示新生抗原m所对应的所有具有mhc亲和力的抗原肽段p的打分值的总和;expressionlevel(m)表示新生抗原m的抗原表达丰度;clonallevel(m)表示新生抗原m的克隆性。

其中,公式一的epitopecontent(m)由公式二计算获得,

公式二:

公式二中,epitopescore(p[i:i+k]表示每一条突变预测肽段,以突变氨基酸为中心,前后延伸k个氨基酸的抗原肽段p,与每一种mhc的亲和力的总和;i表示在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽的序号,该序号从0开始;|p|代表以突变氨基酸为中心,前后延伸k个氨基酸的肽段长度;|p|-k代表在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽序号的上限,即跨过突变的所有抗原肽数目的总和;

epitopescore(p[i:i+k]由公式三计算获得,

公式三:epitopescore(e)=∑a∈hlaσ(bindingaffinity(e,a))×selffilter(e,a)

公式三中,epitopescore(e)即epitopescore(p[i:i+k]值,∑a∈hlaσ(bindingaffinity(e,a))表示每一条核心肽段肽段e和所有mhc亚型a的亲和力的总和,σ(bindingaffinity(e,a))由公式四计算获得,selffilter(e,a)是指抗原肽段的同源性;

公式四:

公式四中,σ(s)即σ(bindingaffinity(e,a)),e是自然底数,s是亲和力预测软件给出的核心肽段肽段e与a亚型的mhc的亲和力值;

selffilter(e,a)按以下方法取值,抗原肽e,针对mhc的a亚型的同源肽段的情况,如果在正常人类基因组上找到相似的肽段,selffilter(e,a)值为0,其它情况为1。

公式一的expressionlevel(m)按以下方法取值,如果突变预测肽段m的抗原表达水平低于10-3,则expressionlevel(m)=0;如果突变预测肽段m的抗原表达水平不低于10-3,则expressionlevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。

公式一的clonallevel(m)由公式五计算获得,

公式五:clonallevel(m)=p(clonal)×(1-p(subclonal))

公式五中,p(clonal)为突变克隆性分析软件输出的新生抗原克隆的概率,p(subclonal)为突变克隆性分析软件输出的新生抗原的亚克隆的概率。

本领域技术人员可以理解,上述实施方式方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。

因此,如图2所示,本申请一实施例中,基于二代测序的肿瘤新生抗原检测装置,包括:变异检测模块201、mhc分子鉴定模块202、变异注释模块203、突变肽段预测模块204、突变肽段mhci型和mhcii型亲和力预测模块205、抗原表达丰度检测模块206、克隆性分析模块207和候选肿瘤新生抗原综合打分排序模块208。

其中,变异检测模块201,用于采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,并取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;mhc分子鉴定模块202,用于分别采用hla分子类型检测软件polysolver和bwamem对正常样本和肿瘤样本的hla分子类型进行检测,如果polysolver检测的肿瘤样本的hla分子和正常样本匹配,则作为结果输出;如果不匹配,则检查bwamem检测的肿瘤样本的hla分子和正常样本的匹配情况,如果匹配则将bwamem的检测结果输出,如果仍然不匹配,则输出空的结果;变异注释模块203,用于对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;突变肽段预测模块204,用于对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;突变肽段mhci型和mhcii型亲和力预测模块205,用于将mhc分子鉴定步骤得到的肿瘤样本的hla分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为mhci型和mhcii型亲和力预测软件的输入,分别预测突变肽段与mhci型和mhcii型基因的亲和力水平,将预测的亲和力水平小于500nm的作为候选肿瘤新生抗原;抗原表达丰度检测模块206,用于采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;克隆性分析模块207,用于采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;候选肿瘤新生抗原综合打分排序模块208,用于按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原。

本申请另一实施例还提供一种基于二代测序的肿瘤新生抗原检测装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如下方法:变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;mhc分子鉴定步骤,包括分别采用hla分子类型检测软件polysolver和bwamem对正常样本和肿瘤样本的hla分子类型进行检测,如果polysolver检测的肿瘤样本的hla分子和正常样本匹配,则作为结果输出;如果不匹配,则检查bwamem检测的肿瘤样本的hla分子和正常样本的匹配情况,如果匹配则将bwamem的检测结果输出,如果仍然不匹配,则输出空的结果;变异注释步骤,包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;突变肽段预测步骤,包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;突变肽段mhci型和mhcii型亲和力预测步骤,包括将mhc分子鉴定步骤得到的肿瘤样本的hla分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为mhci型和mhcii型亲和力预测软件的输入,分别预测突变肽段与mhci型和mhcii型基因的亲和力水平,将预测的亲和力水平小于500nm的作为候选肿瘤新生抗原;抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;克隆性分析步骤,包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原。

本申请另一种实施例还提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下方法:变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;mhc分子鉴定步骤,包括分别采用hla分子类型检测软件polysolver和bwamem对正常样本和肿瘤样本的hla分子类型进行检测,如果polysolver检测的肿瘤样本的hla分子和正常样本匹配,则作为结果输出;如果不匹配,则检查bwamem检测的肿瘤样本的hla分子和正常样本的匹配情况,如果匹配则将bwamem的检测结果输出,如果仍然不匹配,则输出空的结果;变异注释步骤,包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;突变肽段预测步骤,包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;突变肽段mhci型和mhcii型亲和力预测步骤,包括将mhc分子鉴定步骤得到的肿瘤样本的hla分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为mhci型和mhcii型亲和力预测软件的输入,分别预测突变肽段与mhci型和mhcii型基因的亲和力水平,将预测的亲和力水平小于500nm的作为候选肿瘤新生抗原;抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;克隆性分析步骤,包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。

实施例1

本例利用yadav,mahesh,etal."predictingimmunogenictumourmutationsbycombiningmassspectrometryandexomesequencing."nature515.7528(2014):572.文献(以下简称文献1)中已经发表的数据:小鼠模型mc-38的肿瘤样本和正常样本的外显子数据,以及转录组数据;采用基于二代测序的肿瘤新生抗原检测方法,对其进行肿瘤新生抗原检测,具体如下:

(1)变异检测

通过对肿瘤样本和正常样本的dna测序比对到的bam文件,使用varscan和mutect两款软件检测肿瘤体细胞点突变(singlenucleotidevariant,snv)和插入缺失(insertionanddeletion,indel)。为了得到高质量的突变,使用两款软件的交集作为高质量的候选突变。对于融合基因的检测,应用star-fusion对比对的rnabam格式文件进行检测。

(2)mhc分子鉴定

为了检查mhc-i和mhc-ii分子的类型,本例使用polysolver检测正常样本和肿瘤样本的hla分子类型。如果用polysolver在肿瘤中检查到的hla分子和正常样本匹配,则作为结果输出,如果不匹配则检查bwamem中的结果,如果bwamem的结果发现正常样本和肿瘤样本匹配则使用bwamem的结果,如果也不匹配,则输出空的结果。

(3)变异注释

对于点突变和插入缺失,应用vep(varianteffectprediction)工具完成基因组突变到氨基酸突变的注释。

(4)突变肽段预测

对于点突变和插入缺失,应用transvar工具完成基因组突变肽段的预测。点突变以突变氨基酸为中心,前后延伸10(mhcii14)个氨基酸的长度作为最终突变肽段。插入缺失突变,以突变位置为中心,向前延伸10(mhcii14)个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置。

融合基因的肽段为以融合位点为中心,截取将融合基因的3’端和5’端的10(mhcii14)个氨基酸作为最终突变肽段。

(5)突变肽段mhci/ii型亲和力预测

将第(2)步得到的患者的hla分子分型和第(4)步获得的突变肽段序列以及对应的野生型肽段序列作为netmhcpan和netmhciipan软件的输入,分别预测与mhci型和mhcii型基因的亲和力水平。预测结果中亲和力水平小于500nm的作为潜在的肿瘤新生抗原结果。

(6)新抗原表达丰度检测

用resm软件计算突变肽段的tpm值作为新抗原表达丰度。

(7)新抗原克隆分析

应用pyclone计算抗原所在的突变的克隆性,克隆性用突变所占的肿瘤细胞的比例衡量。

(8)新抗原综合打分排序

总体上,新抗原肽段的打分公式一所示

公式一:score(m)=epitopecontent(m)×expressionlevel(m)×clonallevel(m)

公式一中,score(m)为突变预测肽段m的总分值,epitopecontent(m)表示新生抗原m所对应的所有具有mhc亲和力的抗原肽段p的打分值的总和;expressionlevel(m)表示新生抗原m的抗原表达丰度;clonallevel(m)表示新生抗原m的克隆性。

其中,公式一的epitopecontent(m)由公式二计算获得,

公式二:

公式二中,epitopescore(p[i:i+k]表示每一条突变预测肽段,以突变氨基酸为中心,前后延伸k个氨基酸的抗原肽段p,与每一种mhc的亲和力的总和;i表示在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽的序号,该序号从0开始;|p|代表以突变氨基酸为中心,前后延伸k个氨基酸的肽段长度;|p|-k代表在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽序号的上限,即跨过突变的所有抗原肽数目的总和;

epitopescore(p[i:i+k]由公式三计算获得,

公式三:epitopescore(e)=∑a∈hlaσ(bindingaffinity(e,a))×selffilter(e,a)

公式三中,epitopescore(e)即epitopescore(p[i:i+k]值,∑a∈hlaσ(bindingaffinity(e,a))×selffilter(e,a)表示每一条核心肽段肽段e和所有mhc亚型a的亲和力的总和,σ(bindingaffinity(e,a))由公式四计算获得,selffilter(e,a)是指抗原肽段的同源性;

公式四:

公式四中,σ(s)即σ(bindingaffinity(e,a)),e是自然底数,s是亲和力预测软件给出的核心肽段肽段e与a亚型的mhc的亲和力值。

selffilter(e,a)可以以下公式获得:

selffilter(e,a)计算公式说明如下:抗原肽e,针对mhc的a亚型的同源肽段的情况,如果在正常人类基因组上找到相似的肽段,selfilter(e,a)值为0,其它情况为1。

公式一的expressionlevel(m)由以下公式获得,

expressionlevel(m)公式的说明如下:如果突变预测肽段m的抗原表达水平低于10-3,则expressionlevel(m)=0;如果突变预测肽段m的抗原表达水平不低于10-3,则expressionlevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。

公式一的clonallevel(m)由公式五计算获得,

公式五:clonallevel(m)=p(clonal)×(1-p(subclonal))

公式五中,p(clonal)为突变克隆性分析软件输出的新抗原克隆的概率,p(subclonal)为突变克隆性分析软件输出的亚克隆的概率。

根据以上方法对文献1已发表的小鼠模型mc-38的二代测序数据进行分析,最终从文献1披露的1290个转录组区域的突变中,筛选获得了64个肿瘤新生抗原,其中包含了文献1中利用质谱技术验证成功的3个肿瘤新生抗原。而文献1针对外显子区域共找到1290个转录组区域的突变,预测了170个新抗原,利用质谱技术验证成功了3个。将从原来的假阳性的预测结果中排除了63.5%的结果。

实施例2

利用发表数据icc24(siad,losicb,moeinia,etal.massiveparallelsequencinguncoversactionablefgfr2-pphln1fusionandarafmutationsinintrahepaticcholangiocarcinoma.[j].naturecommunications,2015,6:6087-6087.),采用实施例1的肿瘤新生抗原检测方法对其进行新生抗原检测。结果显示,应用实施例1的方法,检测得到5条可被hla识别的抗原肽,其中包括icc中高频的融合基因可以被hla-01识别,来源于肝内胆管癌的融合基因fgfr2-pphln1。可见,采用实施例1的肿瘤新生抗原检测方法,发现了胆管细胞癌中新的肿瘤新生抗原。晚期胆管细胞癌没有很好的治疗手段,生存率低;通过实施例1的方法检测获得了新生抗原,发现了胆管细胞癌新型的治疗方式,为胆管细胞癌的治疗提供了一种新的方案和途径。

实施例3

应用本方法对288个肝内胆管癌(icc)样本进行新抗原检测,288个肝内胆管癌样本来源于以下4篇文献:

hirominakamura,yasuhitoarai1,yasushitotoki,etal.genomicspectraofbiliarytractcancer.[j].naturegenetics,2015,47(9):1003.

shanshanzou,jiaruili,huabangzhou,etal.mutationallandscapeofintrahepaticcholangiocarcinoma.[j].naturecommunications,2014,5:5696.

yuchenjiao,timothympawlik,robertaanders,etal.exomesequencingidentifiesfrequentinactivatingmutationsinbap1,arid1aandpbrm1inintrahepaticcholangiocarcinomas.[j].naturegenetics,2013,45(12):1470-u93.

siad,losicb,moeinia,etal.massiveparallelsequencinguncoversactionablefgfr2–pphln1fusionandarafmutationsinintrahepaticcholangiocarcinoma.[j].naturecommunications,2015,6:6087-6087.

对288个icc样本的18813个非同义突变的分析结果显示,每个icc样本平均可以找到22.8个能被人群中高频的hla基因型识别的突变抗原肽,其中有62%是clonalmutation。说明这些样本在没有合适的靶向药物的时候,可以应用精准细胞免疫治疗的方法对患者进行治疗。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1