用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质与流程

文档序号:29964327发布日期:2022-05-11 09:53阅读:461来源:国知局
用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质与流程

1.本公开总体上涉及生物信息检测处理,并且具体地,涉及用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质。


背景技术:

2.近年来,肿瘤免疫疗法(immuno-oncology therapy,i-o),特别是免疫检查点抑制已经日益成为肿瘤治疗新的方向。然而,个体对免疫治疗的反应却存在较大差别,仅有部分患者能够从免疫治疗中获益,为了得到预期的免疫治疗效果,往往需要预先对患者进行免疫评估。
3.肿瘤突变负荷(tumor mutation burden:tmb)是指肿瘤细胞基因组中,所评估基因的外显子编码区每兆碱基中发生置换和插入/缺失突变的总数。研究表明,高的tmb和肿瘤浸润淋巴细胞(tumor infiltrating lymphocyte:til)水平密切相关,并且tmb已在一些肿瘤类型中被证实可以作为临床免疫治疗获益的指标。另外,人类白细胞抗原(human leukocyte antigen:hla)亲和力预测和肿瘤特异性新抗原也已被用于评估患者免疫应答。这些肿瘤新抗原由于其自身免疫原性,以及在正常组织中缺乏表达,因而易被自身t细胞识别,已被发现在抗肿瘤免疫应答中发挥重要作用。因此,高的肿瘤新抗原负荷(tumor neoantigen burden:tnb)也逐渐与接受免疫治疗的患者的预后改善相关联,因而使得tnb逐渐成为免疫疗法和其他类型疗法的生物标志物。因此,有必要预先检测患者的tnb,以便用于预测患者免疫治疗疗效和预后效果。
4.由于体细胞dna突变,如非同义突变、插入-删除、移框突变等是肿瘤新抗原产生的重要原因,因此,传统的用于检测肿瘤新抗原负荷的方案例如包括是通过患者的配对样本的外显子测序来检测其体细胞dna突变,进而基于体细胞突变检测患者的tnb。然而,在传统的基于外显子测序检测体细胞突变来检测患者的tnb的方案中,所检测的tnb缺乏完整性,不能完全反应患者真实tnb。
5.最近研究显示,转录水平的改变也能产生肿瘤特异性新抗原,可变剪接(alternative splicing:as)作为一种重要的转录水平改变,广泛发生在肿瘤样本中,并已被证实能产生新抗原。不过,通过rna-seq检测可变剪接产生的tnb也存在不能完全反应患者真实tnb的问题。
6.综上,传统的用于检测肿瘤新抗原负荷的方案难以提高检测患者肿瘤新抗原负荷的全面性和可靠性。


技术实现要素:

7.本公开提供一种用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质,能够有效提高检测患者的肿瘤新抗原负荷的全面性和可靠性。
8.根据本公开的第一方面,提供了一种用于检测肿瘤新抗原负荷的方法。该方法包
括:获取关于检测对象的肿瘤样本的转录组序列与参考基因组的第一比对结果信息和剪接位点信息;获取关于配对正常样本的全外显子组序列与参考基因组比对的第二比对结果信息;基于第一比对结果信息和第二比对结果信息,生成体细胞突变信息;基于配对正常样本的全外显子组序列进行人类白细胞抗原(hla)分型,以便确定特异性hla基因型;基于剪接位点信息和特异性hla基因型,生成关于特异性新抗原的第一结果;基于体细胞突变信息和特异性hla基因型,生成关于特异性新抗原的第二结果;以及基于第一结果和第二结果,生成检测对象的肿瘤新抗原负荷。
9.根据本发明的第二方面,还提供了一种计算设备,该设备包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得设备执行本公开的第一方面的方法。
10.根据本公开的第三方面,还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序被机器执行时执行本公开的第一方面的方法。
11.在一些实施例中,基于第一比对结果信息和第二比对结果信息生成体细胞突变信息包括:基于第一比对结果信息和第二比对结果信息,获得肿瘤样本相对于配对正常样本的肿瘤突变信息;针对肿瘤突变信息进行过滤,保留满足预定置信度条件的体细胞突变;针对所保留的体细胞突变进行假阳性过滤;以及针对经由假阳性过滤的体细胞突变进行注释,以便获得体细胞突变信息。
12.在一些实施例中,基于第一比对结果信息和第二比对结果信息,获得体细胞突变信息还包括:计算每个体细胞突变在肿瘤样本rna中的覆盖度,以用于针对所保留的体细胞突变进行假阳性过滤。
13.在一些实施例中,针对所保留的体细胞突变进行假阳性过滤包括:在所保留的体细胞突变中去除以下中的多项:基因组重复区域突变;大于或者等于预定数量的多聚单核苷酸突变;多个匹配读长上的突变;以及rna编辑位点的突变。
14.在一些实施例中,基于剪接位点信息和特异性hla基因型生成关于特异性新抗原的第一结果包括:基于剪接位点信息和特异性hla基因型,预测可变剪切产生的新多肽和hla基因型的亲和力以便获得关于特异性新抗原的第一结果。
15.在一些实施例中,基于剪接位点信息和特异性hla基因型生成关于特异性新抗原的第一结果包括:基于剪接位点信息,过滤剪接位点;基于经过滤后的剪切位点产生新的转录本亚型;针对所产生的新的转录本亚型进行过滤;将经过滤的、新的转录本亚型翻译成多肽;保留长度大于预定长度阈值的多肽;以及计算多肽与hla的结合排名,以便基于所计算的排名而过滤得到关于特异性新抗原的第一结果。
16.在一些实施例中,基于剪接位点信息,过滤剪接位点包括以下多项:去除表达不满足预定表达条件的剪切位点;去除剪切百分比低于预定阈值的剪切位点;以及去除正常剪切位点。
17.在一些实施例中,基于所计算的多肽与hla的结合排名确定关于特异性新抗原的第一结果包括:针对多肽与特异性hla基因型的结合情况进行排序;确定当前多肽结合的排名是否在预定排名阈值之前;响应于确定当前多肽结合排名在预定排名阈值之前,确定当前多肽为关于特异性新抗原的第一结果。
18.提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
19.图1示出了根据本公开的实施例的用于实施检测肿瘤新抗原负荷的方法的系统的示意图;
20.图2示出了根据本公开的实施例的用于检测肿瘤新抗原负荷的方法的流程图;
21.图3示出了根据本公开的实施例的用于生成体细胞突变信息的方法的流程图;
22.图4示出了根据本公开的实施例的用于生成关于特异性新抗原的第一结果的方法的流程图;
23.图5示意性示出了适于用来实现本公开实施例的电子设备的框图。
24.在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
25.下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
26.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
27.传统的用于检测肿瘤新抗原负荷的方案例如包括:通过患者的配对样本的外显子测序来检测其体细胞突变,进而基于体细胞突变检测患者的tnb。然而,在传统的基于外显子测序检测体细胞突变来检测患者的tnb的方案中,由于体细胞突变存在表达量低甚至不表达,以及缺乏免疫原性等问题,因而所检测的tnb缺乏完整性和可靠性,不能完全反应患者真实tnb。
28.为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于检测肿瘤新抗原负荷的方案。该方案包括:通过综合基于肿瘤样本的转录组序列的第一比对结果信息和基于配对正常样本的全外显子组序列的第二比对结果信息来计算肿瘤体细胞突变,本公开不仅能够避免因仅使用rna数据所导致的高假阳性的问题,而且能够克服因仅使用dna数据可能导致的所获突变转录本低甚至不表达的问题。另外,通过基于剪接位点信息和特异性hla基因型而获得关于特异性新抗原的第一结果来生成检测对象的肿瘤新抗原负荷,以及基于经由体细胞突变信息和特异性hla基因型而得到关于特异性新抗原的第二结果,本公开计算肿瘤新抗原负荷时还考虑了突变免疫原性的因素,既评估转录本改变产生的肿瘤新抗原,又评估体细胞突变产生的新抗原,因此显著地提高了所计算的肿瘤新抗原负荷的全面性和可靠性。
29.图1示出了根据本公开的实施例的用于检测肿瘤新抗原负荷的方法的系统100的
示意图。如图1所示,系统100例如包括计算设备110、测序设备130、生信服务器140和网络150。计算设备110可以通过网络150以有线或者无线的方式与测序设备130、生信服务器140进行数据交互。
30.关于测序设备130,其例如用于针对肿瘤样本(例如待测对象的待测肿瘤组织样本)进行转录组测序,以便生成关于肿瘤样本的转录组序列。测序设备130还可以针对配对正常样本测序,以便生成关于配对正常样本的全外显子组序列。测序设备130还可以将关于肿瘤样本的转录组序列和关于配对正常样本的全外显子组序列发送给计算设备110。
31.关于计算设备110,其例如用于获取关于检测对象的肿瘤样本的转录组序列与参考基因组比对的第一比对结果信息和剪接位点信息;以及获取关于配对正常样本的全外显子组序列与参考基因组比对的第二比对结果信息。计算设备110还可以基于第一比对结果信息和第二比对结果信息生成体细胞突变信息;以及确定特异性hla基因型。另外,计算设备110还可以基于剪接位点信息和特异性hla基因型,获得关于特异性新抗原的第一结果;基于体细胞突变信息和特异性hla基因型,获得关于特异性新抗原的第二结果;以及基于第一结果和第二结果生成检测对象的肿瘤新抗原负荷。
32.在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如gpu、fpga和asic等的专用处理单元以及诸如cpu的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括:第一比对结果信息和剪接位点信息获取单元112、第二比对结果信息获取单元114、体细胞突变信息生成单元116、特异性hla基因型确定单元118、关于特异性新抗原的第一结果生成单元120、关于特异性新抗原的第二结果生成单元122、肿瘤新抗原负荷生成单元124。上述第一比对结果信息和剪接位点信息获取单元112、第二比对结果信息获取单元114、体细胞突变信息生成单元116、特异性hla基因型确定单元118、关于特异性新抗原的第一结果生成单元120、关于特异性新抗原的第二结果生成单元122、肿瘤新抗原负荷生成单元124。可以配置在一个或者多个计算设备110上。
33.关于第一比对结果信息和剪接位点信息获取单元112,其用于获取关于检测对象的肿瘤样本的转录组序列与参考基因组比对的第一比对结果信息和剪接位点信息。
34.关于第二比对结果信息获取单元114,其用于获取关于配对正常样本的全外显子组序列与参考基因组比对的第二比对结果信息。
35.关于体细胞突变信息生成单元116,其用于基于第一比对结果信息和第二比对结果信息,生成体细胞突变信息。
36.关于特异性hla基因型确定单元118,其用于基于配对正常样本的全外显子组序列进行人类白细胞抗原(hla)分型,以便确定特异性hla基因型。关于特异性新抗原的第一结果生成单元120,其用于基于剪接位点信息和特异性hla基因型,生成关于特异性新抗原的第一结果。
37.关于特异性新抗原的第二结果生成单元122,其用于基于体细胞突变信息和特异性hla基因型,生成关于特异性新抗原的第二结果。
38.关于肿瘤新抗原负荷生成单元124,其用于基于第一结果和第二结果,生成检测对象的肿瘤新抗原负荷。
39.以下将结合图2描述根据本公开的实施例的检测肿瘤新抗原负荷的方法200。图2示出了根据本公开的实施例的检测肿瘤新抗原负荷的方法的流程图。应当理解,方法200例
如可以在图5所描述的电子设备500处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
40.在框202处,计算设备110获取关于检测对象的肿瘤样本的转录组序列与参考基因组比对的第一比对结果信息和剪接位点信息。
41.关于肿瘤样本,其例如为检测对象(例如患者)的肿瘤组织样本。
42.例如,获取关于待测对象的肿瘤样本的转录组序列的原始文件(例如,fastq文件),然后利用star软件将fastq文件比对到参考基因组,以便获得第一比对结果信息(例如bam文件,或称为tumor rna bam文件)和剪接位点信息(例如,剪接位点文件)。
43.以下示出了利用star软件针对转录组序列的原始文件(例如,fastq文件)进行比对的示意性代码。
44.star
‑‑
runthreadn`numberofthreads`\
45.‑‑
genomedir`/path/to/genomedir`\
46.‑‑
outsamtype bam sortedbycoordinate\
47.‑‑
sjdbgtffile`/path/to/annotation.gtf`\
48.‑‑
readfilesin`fastq1``fastq2`
49.在上述示意性代码中,
‑‑
runthreadn代表线程数;
‑‑
genomedir代表参考基因组所在目录;bam sortedbycoordinate代表输出排序的bam文件;annotation.gtf代表注释文件;fastq1和fastq2代表转录组序列的原始文件。
50.在一些实施例中,计算设备110可以针对fastq文件进行质控过滤、去除接头以及引物等,再针对fastq文件进行比对,以便获得bam文件。计算设备110还可以使用gatk4软件来标记bam文件中的重复序列,以及进行碱基质量重校正,以便得到用于后续分析准备的第一比对结果信息,例如,analysis-ready bam文件。
51.以下示出了使用gatk4软件来标记bam文件中的重复序列的示意性代码。
52.picard.jar markduplicates\
53.i=`sample_sorted.bam`\
54.o=`sample_sorted_makedup.bam`\
55.m=`sample_markdup_metrics.txt`
56.在上述示意性代码中,-i代表输入bam文件;-o代表输出标记后的bam文件;-m代表输出的结果统计文件。
57.以下示出了使用gatk4软件进行碱基质量校正的示意性代码。
58.gatk baserecalibrator\
[0059]-r`/path/to/ref.fa`\
[0060]-i`sample_sorted_makedup.bam`\
[0061]-know-sites`known.vcf`\
[0062]-o`out.bam`
[0063]
在上述示意性代码中,-r代表参考基因组文件;-i代表输入的排序以及标记重复后的bam文件;known.vcf代表已知突变文件;-o代表输出文件。
[0064]
在框204处,计算设备110获取关于配对正常样本的全外显子组序列与参考基因组
比对的第二比对结果信息。
[0065]
例如,计算设备110针对正常样本dna测序后原始文件(例如,fastq文件)比对到参考基因组,获得第二比对结果信息(例如,bam文件),或称为normal dna bam文件。在一些实施例中,计算设备110也可以使用gatk4软件标记bam文件的重复序列,以及进行碱基质量重校正,以便获得第二比对结果信息。在一些实施例中,计算设备110针对fastq文件进行质控过滤、去除接头及引物等,再将fastq文件比对到参考基因组。
[0066]
以下示出了关于配对正常样本的全外显子组序列与参考基因组序列进行比对的示例性代码。
[0067]
bwa mem\
[0068]-r`@rg\tid:sample\tlb:library\tsm:sample`\
[0069]-t`numberofthreads`\
[0070]-m`/path/to/bwa.index`\
[0071]
`ref.fa`\
[0072]
`fastq3``fastq4`
[0073]
在上述示例性代码中,-r代表比对结果头文件;-t代表线程数;-m代表索引文件;ref.fa代表参考基因组文件;fastq3和fastq4代表dna测序的原始文件。
[0074]
在步骤206处,计算设备110基于第一比对结果信息和第二比对结果信息,生成体细胞突变信息。
[0075]
关于生成体细胞突变信息的方法,其例如包括:基于第一比对结果信息和第二比对结果信息,获得肿瘤样本相对于配对正常样本的肿瘤突变信息;针对肿瘤突变信息进行过滤,保留满足预定置信度条件的体细胞突变;针对所保留的体细胞突变进行假阳性过滤;以及针对经由假阳性过滤的体细胞突变进行注释,以便生成体细胞突变信息。下文将结合图3具体说明关于获得体细胞突变信息的方法300。在此,不再赘述。
[0076]
在步骤208处,计算设备110基于配对正常样本的全外显子组序列进行人类白细胞抗原(hla)分型,以便确定特异性hla基因型。
[0077]
hla分型方法主要包括血清学分型和dna分型。dna分型方法侧重于分析基因本身的多态性。dna分型方法包括基于核酸序列识别的方法和基于序列分子构型的方法。例如,计算设备110基于配对正常样本的全外显子组序列,例如而不限于利用optitype软件进行hla分型,获得待测对象的特异性hla基因型,用于后续预测新蛋白免疫原性。
[0078]
在步骤210处,计算设备110基于剪接位点信息和特异性hla基因型,生成关于特异性新抗原的第一结果。
[0079]
例如,计算设备110基于剪接位点信息和特异性hla基因型,预测可变剪切产生的新多肽和hla基因型的亲和力以便获得关于特异性新抗原的第一结果。具体而言,计算设备110可以基于剪接位点信息,过滤剪接位点;基于经过滤后的剪切位点产生新的转录本亚型;针对所产生的新的转录本亚型进行过滤;将经过滤的、新的转录本亚型翻译成多肽;保留长度大于预定长度阈值的多肽;以及计算多肽与hla的结合排名,以便基于所计算的排名过滤得到关于特异性新抗原的第一结果。下文将结合图4说明用于获得关于特异性新抗原的第一结果的方法400,在此,不再赘述。
[0080]
在步骤212处,计算设备110基于体细胞突变信息和特异性hla基因型,生成关于特
异性新抗原的第二结果。
[0081]
例如,计算设备110基于体细胞突变信息,分析经由过滤和注释后的体细胞突变,利用neopredpipe工具预测体细胞突变产生的新多肽和hla基因型的亲和力,以便得到关于特异性新抗原的第二结果。
[0082]
以下示意性示出用于实现获得关于特异性新抗原的第二结果的代码。
[0083]
python neopredpipe.py-i`input_vcf`
[0084]-h`hlatypes.txt`
[0085]-o`output directory`
[0086]-n`name of the output file`
[0087]-c 1 2
[0088]-e 8 9 10
[0089]
在上述示例性代码中,input_vcf代表经由过滤和注释后的体细胞突变文件。hlatypes.txt代表根据配对正常样本dna数据,利用optitype软件进行hla分型而获得待测对象(患者)的特异性hla基因型文件。-o代表输出目录;-n代表预测新抗原的输出文件名。-c代表vcf文件中配对正常样本和肿瘤样本所在的列数。-e代表抗原表位肽链长度。
[0090]
在步骤214处,计算设备110基于第一结果和第二结果,生成检测对象的肿瘤新抗原负荷。
[0091]
例如,计算设备110针对步骤208处所获得的关于特异性新抗原的第一结果和步骤212处所获得的关于特异性新抗原的第二结果进行过滤,例如过滤掉转录本分析得到的和体细胞突变分析得到新抗原中得分低的新抗原,然后将经过滤而留下的关于特异性新抗原的第一结果和关于特异性新抗原的第二结果进行组合,以生成检测对象的肿瘤新抗原负荷。
[0092]
例如,计算设备110通过步骤212处分析得到的体细胞突变来源的新抗原数量为1881个,以及通过步骤208得到的可变剪切来源的新抗原数量为364个,最终生成的检测对象的肿瘤新抗原负荷为1881+364=2245个。可见,本公开所检测的肿瘤新抗原负荷的更为全面。
[0093]
在上述方案中,通过综合基于肿瘤样本的转录组序列的第一比对结果信息和基于配对正常样本的全外显子组序列的第二比对结果信息来计算肿瘤体细胞突变,本公开不仅能够避免因仅使用rna数据所导致的高假阳性的问题,而且能够克服因仅使用dna数据可能导致的所获突变转录本低甚至不表达的问题。另外,通过基于剪接位点信息和特异性hla基因型而获得关于特异性新抗原的第一结果来生成检测对象的肿瘤新抗原负荷,以及基于经由体细胞突变信息和特异性hla基因型而得到关于特异性新抗原的第二结果,本公开计算肿瘤新抗原负荷时还考虑了突变免疫原性的因素,既评估转录本改变产生的肿瘤新抗原,又评估体细胞突变产生的新抗原,因此显著地提高了所计算的肿瘤新抗原负荷的全面性和可靠性。
[0094]
以下将结合图3描述根据本公开的实施例的用于生成体细胞突变信息的方法300。图3示出了根据本公开的实施例的用于生成体细胞突变信息的方法300的流程图。应当理解,方法300例如可以在图5所描述的电子设备500处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或可以省略所示出的动
normal-freq代表配对正常样本最大突变频率。
‑‑
p-value代表p值阈值。tumor.normal.vcf代表过滤后输出突变文件。
[0118]
在步骤306处,计算设备110针对所保留的体细胞突变进行假阳性过滤。
[0119]
例如,计算设备110计算所保留的体细胞突变在肿瘤样本rna中的覆盖度信息;基于所计算的覆盖度信息,针对所保留的体细胞突变进行假阳性过滤。具体而言,计算设备110例如而不限于利用varscan的readcount模块计算每个体细胞突变在肿瘤样本rna中的覆盖度信息。
[0120]
关于用于计算覆盖度信息的方法,对应的示意性代码如下。
[0121]
varscan readcount`/path/to/tumor.nornal.mpileup`
[0122]
关于用于进行假阳性过滤的方法,其例如包括:计算设备110在所保留的体细胞突变中去除以下中的多项:基因组重复区域突变、大于或者等于预定数量(例如而不限于是5个)的多聚单核苷酸突变、多匹配读长(reads)上的突变、rna编辑位点的突变。例如,计算设备110对于去除假阳性后的突变,进一步利用bedtools软件去除基因组重复区域突变,利用filter_homopolymer_nucleotides.pl去除5个以上的多聚单核苷酸突变,利用blat_candidates.pl去除多匹配读长(reads)上的突变,最后利用liftover工具去除rna编辑位点的突变。应当理解,计算设备110也可利用其他软件进行假阳性过滤。
[0123]
关于用于针对高置信度体细胞突变进行假阳性过滤的方法,其对应的示意性代码例如如下。
[0124]
varscan fpfilter`tumor.normal.vcf``/path/to/readcountfile`
[0125]
在步骤308处,计算设备110针对经由假阳性过滤的体细胞突变进行注释,以便生成体细胞突变信息。
[0126]
关于针对经由假阳性过滤进行注释的方法,其示例性的代码如下。
[0127]
perl vep.pl-i in.vcf\
[0128]-o out.vcf\
[0129]
‑‑
assembly assembly\
[0130]
‑‑
fork 15
[0131]
在上述示意性代码中,in.vcf代表经由假阳性过滤的突变vcf文件;-o代表注释后输出的vcf文件。assembly代表参考基因组,
‑‑
fork代表线程数。
[0132]
通过采用上述手段,本公开能够同时避免因仅使用rna数据所导致的高假阳性的问题和因仅使用dna数据可能导致的所获突变转录本低甚至不表达的问题,使得所生成的体细胞突变信息更为全面和可靠。
[0133]
以下将结合图4描述根据本公开的实施例的用于生成关于特异性新抗原的第一结果的方法400。图4示出了根据本公开的实施例的用于生成关于特异性新抗原的第一结果的方法400的流程图。应当理解,方法400例如可以在图5所描述的电子设备500处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0134]
在步骤402处,计算设备110基于剪接位点信息,过滤剪接位点。
[0135]
关于过滤剪接位点的方法,其例如包括以下多项:去除表达不满足预定表达条件的剪切位点(例如,去除低表达剪切位点);去除剪切百分比低于预定阈值的剪切位点(例
如,去除低psi剪切位点);以及去除正常剪切位点。在步骤404处,计算设备110基于经过滤后的剪切位点产生新的转录本亚型。在步骤406处,计算设备110针对所产生的新的转录本亚型进行过滤。
[0136]
在步骤408处,计算设备110将经过滤的、新的转录本亚型翻译成多肽。
[0137]
在步骤410处,计算设备110保留长度大于预定长度阈值的多肽。例如,计算设备110保留长度大于30的多肽(或蛋白)。
[0138]
在步骤412处,计算设备110计算多肽与hla的结合排名,以便基于所计算的排名过滤得到关于特异性新抗原的第一结果。
[0139]
关于基于所计算的排名过滤得到关于特异性新抗原的第一结果的方法,其例如包括:计算设备110针对多肽与特异性hla基因型的结合情况进行排序;确定当前多肽结合的排名是否在预定排名阈值之前;响应于确定当前多肽结合的排名在预定排名阈值之前,确定当前多肽为关于特异性新抗原的第一结果。
[0140]
方法400例如而不限于基于asneo软件实现,以下示例性示出用于实现方法400的示意性代码。
[0141]
python asneo.py
‑‑
junc`/path/to/sj.out.tab`
[0142]
‑‑
genome`reference genome file`
[0143]
‑‑
allele`hla allele`
[0144]
‑‑
outdir`output directory`
[0145]
在上述示意性代码中,sj.out.tab代表产生的剪切位点文件。
‑‑
genome代表参考基因组文件。hla allele代表患者特异性hla基因型。
‑‑
outdir代表输出目录。
[0146]
通过采用上述手段,本公开能够提高所生成关于特异性新抗原的第一结果的可靠性。
[0147]
图5示意性示出了适于用来实现本公开实施例的电子设备(或者计算设备)500的步骤图。设备500可以是用于实现执行图2至图4所示的方法200至400的设备。如图所示,设备500包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序指令,来执行各种适当的动作和处理。在ram 503中,还可存储设备500操作所需的各种程序和数据。cpu 501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0148]
设备500中的多个部件连接至i/o接口505,包括:输入单元506、输出单元507、存储单元508,处理单元501执行上文所描述的各个方法和处理,例如执行方法200至400。例如,在一些实施例中,方法200至600可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到ram 503并由cpu 501执行时,可以执行上文描述的方法200至400的一个或多个操作。备选地,在其他实施例中,cpu 501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200至400的一个或多个动作。
[0149]
需要进一步说明的是,本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
[0150]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0151]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0152]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0153]
这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0154]
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0155]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它
设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0156]
附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0157]
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
[0158]
以上仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1